vitus_wagner | 15 лет UTF-8

15 лет UTF-8

Как любят говорить на ЛОРе, годовщина подкралась тихо и незаметно.
Но хитроумный

slobin её всё же отследил и опубликовал ссылку
на исторический документ.

Как выясняется, и эту вещь изобрели Роб Пайк и Кен Томпсон. Ну просто талант у людей изобретать нечто, что выглядит жутко, вызывает массу ругани, но все пользуются, потому что лучше никто придумать не может.

Flat | Top-Level Comments Only

на самом деле полный разнос на разные кодовые области (1) никакого геморроя не даёт.
если подумать, то в сущности, единую кодировку можно рассматривать как
наличие переключателя кодовых страниц перед каждой буквой.
в принципе (1) не запрещает существовать такому случаю, и я даже не скажу что он совершенно никому никогда не понадобится, так что от (1) вы ничего не теряете, ни старых свойств (например вменяемой алфавитной сортировки), ни новых за кои вы так любите юникод.

Что до устаревших алфавитов, так они разве все-все-все в юникоде есть ?

Я совершенно не против доопределить естественные языки, точнее их алфавиты, до вменяемого сотояния, чтобы потом можно было с ними более детерминированно работать. А юникодеры этого не сделали. Если бы сделали, то все ваши претензии по поводу феты и ижицы отпали бы.

В конце концов (1) не отрезает вам путь к добавлению новых алфавитов, если археологи захотят их добавить, не отрезает он путь и к слиянию устаревших алфавитов с новыми, для любителей "ятей".
Главное чтобы все эти навороты не портили современный алфавит, и это очень несложно.

> на самом деле полный разнос на разные кодовые области (1) никакого геморроя не даёт.

Даёт. Например, необходимость полностью наново определять отображения символов. Сейчас мы имеем, что если вводится новый язык на основе уже существующего алфавита (а новые никто не изобретает - нефиг), то значительная часть символов может быть отображена через уже имеющиеся коды, а если что-то специфичное - то только оно требует специальных мер (введения дополнительных кодов), и при необходимости читать текст на нём тот, кто знает язык, в большинстве случаев уже может читать (а это очень важно). А если делают алфавит нового языка без хитрых диакритик и прочих нестандартных символов - то тем более для него всё уже готовое. С разными кодами пришлось бы вместо этого обновлять средства отображения (как минимум таблицы трансляции в фонтах) по всему миру.

А заимствования слов, которые в мире латиницы как правильно происходят в письменном виде? Pince-nez - должно каким алфавитом писаться - английским или французским?

Если сравнить текущий подход и Ваш подход - текущий, безусловно, требует во множестве случаев метаинформации, не укладывающейся собственно в кодировку. Например, для проверки орфографии. Но эту информацию можно добавить "сверху" над кодировкой. А вот если сделать наоборот - чтобы кодировка была уникальна для языка - обратить ситуацию (дав ту же возможность отображать не имея данных про этот язык) станет уже невозможно без наличия альтернативного "графического" представления, что в разы хуже.

> Что до устаревших алфавитов, так они разве все-все-все в юникоде есть ?

Нет, они добавляются по мере проявления к ним интереса со стороны отдельных движущих сил. Но большинство их (из обширно использовавшихся) таки там уже есть, даже если за пределами базовой плоскости.

> Я совершенно не против доопределить естественные языки, точнее их алфавиты, до вменяемого сотояния, чтобы потом можно было с ними более детерминированно работать. А юникодеры этого не сделали. Если бы сделали, то все ваши претензии по поводу феты и ижицы отпали бы.

Какой вариант доопределения Вы предложите, помимо варианта выдачи каждому языку своего кодового пространства?

> Главное чтобы все эти навороты не портили современный алфавит, и это очень несложно.

А кто чего портит?

Flat | Top-Level Comments Only

15 лет UTF-8

no subject

no subject