vitus_wagner | 15 лет UTF-8

Как любят говорить на ЛОРе, годовщина подкралась тихо и незаметно.
Но хитроумный

slobin её всё же отследил и опубликовал ссылку
на исторический документ.

Как выясняется, и эту вещь изобрели Роб Пайк и Кен Томпсон. Ну просто талант у людей изобретать нечто, что выглядит жутко, вызывает массу ругани, но все пользуются, потому что лучше никто придумать не может.

Flat | Top-Level Comments Only

From:

silly_sad.livejournal.com

неоднозначность.
необратимость.
неявно введённое отношение родства между алфавитами (некоторые символы из юникода принадлежат сразу многим алфавитам!)
незамкнутость относительно катенации строк.

и всё это лишь мелкие следсвия того, что юникод не кодирует алфавит, он кодирует внешний вид (графику) алфавита. а это полный и очевидный бред.

From:

llivejo

это все к уникоду, а не к одной из его кодировок UTF-8

From:

silly_sad.livejournal.com

уникод это общее название для пачки кодировок, ~~объединённых общим свойством идиотичности~~, так что всё что говорится о юникоде в целом, отчасти принадлежит и каждой конкретной кодировке из этого множества кодировок.

(неоднозначность точно принадлежит именно UTF-8, это я точно знаю)

From:

netch

> (неоднозначность точно принадлежит именно UTF-8, это я точно знаю)

Нет, не знаете. UTF-8 прямолинейно и равномерно:) передаёт последовательность code points. Любая другая передача (UTF-*) дала бы тот же результат.

From:

silly_sad.livejournal.com

та шо вы такое говорите !
сами авторы признают что
один и тот же символ можно закодировать НЕСКОЛЬКИМИ кодовыми последовательностями (да это прямо следует из способа интерпретации первого байта) и говорят:
"Давайте будем признавать валидной только самую короткую из возможных представлений каждого символа."

Не мне вам говорить, но учите матчасть.

From:

netch

> "Давайте будем признавать валидной только самую короткую из возможных представлений каждого символа."

Глупости говорите. С введением данного правила (про самую короткую форму) код становится однозначным, и таким он определён во всех стандартах, а то как они это ввели - через показанное читателю промежуточное представление о том, что можно было и по-длиннее - всего лишь форма изложения. Вариант представления в более длинной форме в итоговой спецификации просто запрещён. Уже в RFC2044 описано просто представление для разных диапазонов и никак иначе.

> Не мне вам говорить, но учите матчасть.

Прежде чем говорить такие вещи, постарайтесь обдумывать прочитанное.

From:

vitus_wagner

Кстати, некоторые реализации это правило нарушают. Например, в Tcl нулевой символ внутри строки кодируется как 0xC0 0x80. А 0x00 служит разделителем, признаком конца строки.

From:

mc6312.livejournal.com

Сказал бы я, что нужно сделать с изобретателями null-terminated strings и с теми, кто их до сих пор использует, но боюсь бана.

From:

netch

В такой постановке кодировки алфавита не может быть в принципе.
Задача создания единой кодировки безусловно сложна. И решение, применённое в юникоде, при всей его ограниченности в ряде областей - оптимально.

Ваши же предложения откровенно деструктивны. Например, возьмём вариант "взять все буквы всех алфавитов, совокупно со всеми известными знаками препинания и разделителями, и пронумеровать их любым образом": сколько раз у Вас будут повторены основные латинские символы? В одном алфавите есть W, в другом нет. В одном есть Â, в другом нет. Простую A придётся повторить несколько тысяч раз? А с учётом всех будущих алфавитов?

А русский современный и русский дореформенный с добавкой, например, Ѣ - безусловно разные алфавиты и их надо кодировать раздельно? А если учесть все промежуточные этапы петровских реформ? Документ 1710 года и документ 1740 года будут кодироваться разными кодами?

Авторы юникода не дураки и такой ошибки не допустили. Да, есть проблемы в том, что в греческом, латинском и кириллице одна и та же на вид и по сути A кодируется по-разному. Да, есть проблемы в том, что у русского и украинского почти 30 общих букв и по кодам их не различить, несмотря на разные роли некоторых букв. Но это - решение, которое будет работать для большинства случаев. Ваше - сломает всё что только можно сломать.

Так что бред - не юникод, а Ваши комментарии.

From:

silly_sad.livejournal.com

вы раскритиковали, то предложение, которое мне самому не нравится, так что читайте внимательнее, что я пишу, может поумнеете.

Но всё равно оно лучше юникода, потому что оно хотя бы оставляет возможность АНАЛИЗА ТЕКСТОВ, а юникод убивает эту возможность наглухо, и даже Вы это заметили !

Н у а что до повторений букв, так это вопервых
1) РАЗНЫЕ буквы, волею судеб записываемые внешне похожими значками.
2) это мельчайшая мелочь по сравнению с китайским
3) в юникоде этот недостаток тоже есть

From:

netch

> вы раскритиковали, то предложение, которое мне самому не нравится, так что читайте внимательнее, что я пишу, может поумнеете.

Значит, Вы его так описали. Касательно же ума - Вы настолько часто здесь критикуете умственные способности остальных, что я думаю, что пришла пора сомневаться именно в Ваших. Вы
1) всем рассказываете какая юникод диверсия
2) не можете при этом внятно объяснить, что в нём не так и как правильно
3) не воспринимаете и игнорируете обоснования текущего решения, продолжая при этом проигрывать всё ту же невнятную пластинку
и как всё это понимать?

> Но всё равно оно лучше юникода, потому что оно хотя бы оставляет возможность АНАЛИЗА ТЕКСТОВ, а юникод убивает эту возможность наглухо, и даже Вы это заметили !

Давайте без всех этих "даже Вы". Я пока что пропущу Ваши оскорбления, списав их на специфику стиля, но в дальнейшем Вы вполне можете достичь, если не поменяете стиль, комментария типа "дурак. в морг."

Теперь про анализ текстов. Какой именно анализ каких именно характеристик Вы собрались делать на основе юникодного представления и как? И при чём тут собственно юникод? Анализ можно делать на основании огромного количества характеристик. Шрифт, почерк, дата издания, даже то, как стоят переносы. Вы хотите возможности запихнуть всё это в юникод? А язык? Вот лежит лист бумаги, на котором написано "я" - на каком языке как минимум из четырёх это написано и как Вы собрались это узнавать?

Не надо нагружать на юникод те задачи, которые он и не брал на себя.

> 1) РАЗНЫЕ буквы, волею судеб записываемые внешне похожими значками.

Отлично. "о" в данном абзаце и в предыдущем - разные буквы или нет? Прошу обосновать ответ.
А то же "о" в русскоязычном документе 1690, 1710, 1800, 1919 и 2000 годов - разные или нет? Прошу тоже обосновать.

> 2) это мельчайшая мелочь по сравнению с китайским

Нет, это не мелочь. Представим себе, что через несколько лет, например, кодифицируют латиноамериканские диалекты как отдельный от испанского язык (давно пора;)) Что, пока для них не придумали новый диапазон кодов - вообще нельзя будет на них писать?

> 3) в юникоде этот недостаток тоже есть

Конечно. Между разными группами алфавитов. Но если это чего-то и недостаток, то самих алфавитов, а не юникода.

From:

silly_sad.livejournal.com

ну тогда обоснуйте с какого перепугу в юникоде A и А кодируются разными кодами.

Тоесть если уж юникодеры решили руководствоваться концепцией: "от графики" (мне это не нравится, но пусть будет хотя бы так)
то они и эту концепцию не довели до ума а сделали какой-то гибрид.

From:

netch

А Вам обязательно, чтобы была взята какая-то концепция и доведена до предельного абсурда? Тогда решите, пожалуйста, следующую задачку. Есть буква T, в нижнем регистре она будет t. А есть буква Т, в нижнем регистре она будет т. Вы видите "T", реализация полностью графическая. Переведите её в нижний регистр. Разрешается использовать для опознания алфавита телепатию, святой дух и прочие неалгоритмизируемые средства.:)

Никто не спорит, что юникод неидеален, что это - решение, оптимальное в среднем по больнице (включая морг и крематорий). Но оно да

From:

silly_sad.livejournal.com

большое спасибо, что вы вместо меня, так красиво и лаконично раскритиковали концепцию: "от графики".

From:

netch

Вы читаете только то, что хотите читать? Я раскритиковал и столь любимую Вами "от алфавита", причём у неё проблем _больше_.

From:

silly_sad.livejournal.com

вам так кажется,

наличие вопросов, требующих разрешения вовсе не обязательно ведёт к невозможности их разрешения разубным образом.

Я думаю, что когда вы мне всё эти вопросы писали, у вас уже были готовые ответы в голове, которые были весьма разумны.

From:

netch

> наличие вопросов, требующих разрешения вовсе не обязательно ведёт к невозможности их разрешения разубным образом.

Метод заведения отдельного кодового диапазона на каждый локальный диалект приведёт именно к такому результату и ничего конструктивного он не даст.
А разумное применение объединения родственных алфавитов даст результат, который будет тождественен юникоду с точностью до значений конкретных code points символов.

> Я думаю, что когда вы мне всё эти вопросы писали, у вас уже были готовые ответы в голове, которые были весьма разумны.

Мне трудно понять, что для Вас "весьма разумно", если юникод заведомо находится за пределами этой разумности.

From:

silly_sad.livejournal.com

кто сказал "диалект" ?

что это вообще таоке ?

From:

netch

Это нечто, что обладает шансом стать языком.

From:

vitus_wagner

... если обзаведется армией и флотом.

From:

netch

чёртова клава.

... оно даёт решение, которое достаточно неплохо работает в большинстве случаев. А любой вариант крайнего решения
1) полный разнос разных алфавитов в разные кодовые области
2) полное совмещение одинаковых графических представлений

даёт ТАКОЕ количество проблем и геморроя при их решении, что становится немедленно и неустранимо нежизнеспособным и потому мертворожденным.

From:

silly_sad.livejournal.com

на самом деле полный разнос на разные кодовые области (1) никакого геморроя не даёт.
если подумать, то в сущности, единую кодировку можно рассматривать как
наличие переключателя кодовых страниц перед каждой буквой.
в принципе (1) не запрещает существовать такому случаю, и я даже не скажу что он совершенно никому никогда не понадобится, так что от (1) вы ничего не теряете, ни старых свойств (например вменяемой алфавитной сортировки), ни новых за кои вы так любите юникод.

Что до устаревших алфавитов, так они разве все-все-все в юникоде есть ?

Я совершенно не против доопределить естественные языки, точнее их алфавиты, до вменяемого сотояния, чтобы потом можно было с ними более детерминированно работать. А юникодеры этого не сделали. Если бы сделали, то все ваши претензии по поводу феты и ижицы отпали бы.

В конце концов (1) не отрезает вам путь к добавлению новых алфавитов, если археологи захотят их добавить, не отрезает он путь и к слиянию устаревших алфавитов с новыми, для любителей "ятей".
Главное чтобы все эти навороты не портили современный алфавит, и это очень несложно.

From:

netch

> на самом деле полный разнос на разные кодовые области (1) никакого геморроя не даёт.

Даёт. Например, необходимость полностью наново определять отображения символов. Сейчас мы имеем, что если вводится новый язык на основе уже существующего алфавита (а новые никто не изобретает - нефиг), то значительная часть символов может быть отображена через уже имеющиеся коды, а если что-то специфичное - то только оно требует специальных мер (введения дополнительных кодов), и при необходимости читать текст на нём тот, кто знает язык, в большинстве случаев уже может читать (а это очень важно). А если делают алфавит нового языка без хитрых диакритик и прочих нестандартных символов - то тем более для него всё уже готовое. С разными кодами пришлось бы вместо этого обновлять средства отображения (как минимум таблицы трансляции в фонтах) по всему миру.

А заимствования слов, которые в мире латиницы как правильно происходят в письменном виде? Pince-nez - должно каким алфавитом писаться - английским или французским?

Если сравнить текущий подход и Ваш подход - текущий, безусловно, требует во множестве случаев метаинформации, не укладывающейся собственно в кодировку. Например, для проверки орфографии. Но эту информацию можно добавить "сверху" над кодировкой. А вот если сделать наоборот - чтобы кодировка была уникальна для языка - обратить ситуацию (дав ту же возможность отображать не имея данных про этот язык) станет уже невозможно без наличия альтернативного "графического" представления, что в разы хуже.

> Что до устаревших алфавитов, так они разве все-все-все в юникоде есть ?

Нет, они добавляются по мере проявления к ним интереса со стороны отдельных движущих сил. Но большинство их (из обширно использовавшихся) таки там уже есть, даже если за пределами базовой плоскости.

> Я совершенно не против доопределить естественные языки, точнее их алфавиты, до вменяемого сотояния, чтобы потом можно было с ними более детерминированно работать. А юникодеры этого не сделали. Если бы сделали, то все ваши претензии по поводу феты и ижицы отпали бы.

Какой вариант доопределения Вы предложите, помимо варианта выдачи каждому языку своего кодового пространства?

> Главное чтобы все эти навороты не портили современный алфавит, и это очень несложно.

А кто чего портит?

Flat | Top-Level Comments Only

Profile

vitus_wagner

My Website

June 2025

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Page Summary

silly_sad.livejournal.com - (no subject)

Style Credit

Style: Clarity for Paletteable by branchandroot
Resources: Holiday

Expand Cut Tags

No cut tags

Page generated Jun. 12th, 2025 02:44 am

Журнал Витуса

15 лет UTF-8

15 лет UTF-8

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

June 2025

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags