vitus_wagner (
vitus_wagner) wrote2007-09-03 11:10 pm
![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
15 лет UTF-8
Как любят говорить на ЛОРе, годовщина подкралась тихо и незаметно.
Но хитроумный
slobin её всё же отследил и опубликовал ссылку
на исторический документ.
Как выясняется, и эту вещь изобрели Роб Пайк и Кен Томпсон. Ну просто талант у людей изобретать нечто, что выглядит жутко, вызывает массу ругани, но все пользуются, потому что лучше никто придумать не может.
Но хитроумный
![[livejournal.com profile]](https://www.dreamwidth.org/img/external/lj-userinfo.gif)
на исторический документ.
Как выясняется, и эту вещь изобрели Роб Пайк и Кен Томпсон. Ну просто талант у людей изобретать нечто, что выглядит жутко, вызывает массу ругани, но все пользуются, потому что лучше никто придумать не может.
no subject
Я, как оказалось, очень даже правильно этот день отмечаю: выковыриваю из rtf2html коммуниверные зависимости... А там перекодирование все через уникод... ;-)
no subject
no subject
Байт-экстремисты типа
no subject
no subject
no subject
no subject
no subject
(no subject)
no subject
Сравни как-нибудь время работы grep на файле utf-8 и в однобайтной кодировке.
А сколько граблей (так до сих пор и непреодоленных) породило притаскивание UTF-8 в X11...
no subject
no subject
Вместо UTF-8?
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
no subject
необратимость.
неявно введённое отношение родства между алфавитами (некоторые символы из юникода принадлежат сразу многим алфавитам!)
незамкнутость относительно катенации строк.
и всё это лишь мелкие следсвия того, что юникод не кодирует алфавит, он кодирует внешний вид (графику) алфавита. а это полный и очевидный бред.
no subject
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
no subject
Задача создания единой кодировки безусловно сложна. И решение, применённое в юникоде, при всей его ограниченности в ряде областей - оптимально.
Ваши же предложения откровенно деструктивны. Например, возьмём вариант "взять все буквы всех алфавитов, совокупно со всеми известными знаками препинания и разделителями, и пронумеровать их любым образом": сколько раз у Вас будут повторены основные латинские символы? В одном алфавите есть W, в другом нет. В одном есть Â, в другом нет. Простую A придётся повторить несколько тысяч раз? А с учётом всех будущих алфавитов?
А русский современный и русский дореформенный с добавкой, например, Ѣ - безусловно разные алфавиты и их надо кодировать раздельно? А если учесть все промежуточные этапы петровских реформ? Документ 1710 года и документ 1740 года будут кодироваться разными кодами?
Авторы юникода не дураки и такой ошибки не допустили. Да, есть проблемы в том, что в греческом, латинском и кириллице одна и та же на вид и по сути A кодируется по-разному. Да, есть проблемы в том, что у русского и украинского почти 30 общих букв и по кодам их не различить, несмотря на разные роли некоторых букв. Но это - решение, которое будет работать для большинства случаев. Ваше - сломает всё что только можно сломать.
Так что бред - не юникод, а Ваши комментарии.
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
(no subject)
no subject
no subject
если верить основополагающим документам то УТФ это способ кодирования _ГРАФИЧЕСКИХ СИМВОЛОВ_
тоесть он фактическиотменяет такую прекрасную и с таким трудом выработанную человечеством абстраукцию как АЛФАВИТ - набор букв безотносительно их внешнего вида.
Юникодом нельзя представить ТЕКСТ, как мы привыкли его понимать - всегда будет получаться ИЗОБРАЖЕНИЕ ТЕКСТА.
Кто не понял разницу - я не виноват. Идите дальше фанатеть от "прогресса".
no subject
А все потому что юникод изобретал комитет, а утф - два человека.
no subject
no subject
А менять это всё на что, пардон? Изобретать кодировку без заглавных, а для регистра заводить отдельную сущность или пихать его в разметку? И кто будет все эти чудо-стандарты сочинять и продавливать в массы? Гигантский Человекоподобный Мицгол?
no subject
> Там же есть отдельные коды для заглавных и строчных букв?
а с каких это пор Регистр буквы является графическим аттрибутом ?
ASCII хотя бы патается кодировать именно алфавит (хотя и зело разбавлен всяким мусором)
(no subject)
уфф...
(Anonymous) 2007-09-05 12:12 pm (UTC)(link)> тоесть он фактическиотменяет такую прекрасную и с таким трудом выработанную человечеством абстраукцию как АЛФАВИТ - набор букв безотносительно их внешнего вида.
Следуя этой логике, строчные буквы от прописных тоже отличать не надо :-)
Вообще, что-то ты умное явно хотел сказать, но не сказал.
Вот, скажем, буквы ä и a -- выглядят похоже, но читаются по разному. Или, иными словами, разница в графическом представлении и определяет разницу между буквами. То есть, a от b отличается одним "классом различий", ä и a -- другим классом, а буква "a" серифным шрифтом от той же "a" сан-серифным -- третьим "классом различий". Собственно, почему одним различиям должно оказываться предпочтение?
ps. у кого уникод не показывается -- "ä и a" -- это U00E4 и U0061.
no subject
no subject
no subject
no subject