vitus_wagner | 15 лет UTF-8

15 лет UTF-8

Как любят говорить на ЛОРе, годовщина подкралась тихо и незаметно.
Но хитроумный

slobin её всё же отследил и опубликовал ссылку
на исторический документ.

Как выясняется, и эту вещь изобрели Роб Пайк и Кен Томпсон. Ну просто талант у людей изобретать нечто, что выглядит жутко, вызывает массу ругани, но все пользуются, потому что лучше никто придумать не может.

Flat | Top-Level Comments Only

Ура!
Я, как оказалось, очень даже правильно этот день отмечаю: выковыриваю из rtf2html коммуниверные зависимости... А там перекодирование все через уникод... ;-)

И чего же жуткого и вызывающего массу ругани в UTF-8?

Ну как же.
Байт-экстремисты типа

croco жутко ругаются на то, что вместо кодировки применяется модель конечного автомата, если я ничего не путаю..

Вот когда в байте будет по крайней мере 31 бит...

Больше слушать кроко...

Ну может быть, еще лет через пятнадцать, мы, умудренные сидинами, на радость

croco весело перейдем на utf-32 или даже utf-64, где один символ будет занимать фиксированное кол-во байт...

Да, тот же вопрос возник и у меня.

Юникод вводят-вводят, вводят-вводят, а он всё никак не введется. Видимо, в этом :)

(no subject)

besm6.livejournal.com - 2007-09-04 04:10 (UTC) - Expand

Ты когда-нибудь строковые операции с UTF-8 пробовал программировать?
Сравни как-нибудь время работы grep на файле utf-8 и в однобайтной кодировке.
А сколько граблей (так до сих пор и непреодоленных) породило притаскивание UTF-8 в X11...

ага, я irc клиента с кодировкой utf8 как-то выписывал -- радость еще та, все время перепроверял чтоб ни чего не забыть

А что надо было сделать?
Вместо UTF-8?

(no subject)

vitus_wagner - 2007-09-04 06:59 (UTC) - Expand

(no subject)

silly_sad.livejournal.com - 2007-09-05 10:29 (UTC) - Expand

(no subject)

alamar.livejournal.com - 2007-09-05 10:36 (UTC) - Expand

(no subject)

silly_sad.livejournal.com - 2007-09-05 10:39 (UTC) - Expand

(no subject)

alamar.livejournal.com - 2007-09-05 10:56 (UTC) - Expand

(no subject)

silly_sad.livejournal.com - 2007-09-05 11:15 (UTC) - Expand

(no subject)

alamar.livejournal.com - 2007-09-05 11:22 (UTC) - Expand

(no subject)

silly_sad.livejournal.com - 2007-09-05 11:31 (UTC) - Expand

(no subject)

alamar.livejournal.com - 2007-09-05 11:40 (UTC) - Expand

(no subject)

vitus_wagner - 2007-09-05 11:40 (UTC) - Expand

(no subject)

silly_sad.livejournal.com - 2007-09-05 11:45 (UTC) - Expand

неоднозначность.
необратимость.
неявно введённое отношение родства между алфавитами (некоторые символы из юникода принадлежат сразу многим алфавитам!)
незамкнутость относительно катенации строк.

и всё это лишь мелкие следсвия того, что юникод не кодирует алфавит, он кодирует внешний вид (графику) алфавита. а это полный и очевидный бред.

это все к уникоду, а не к одной из его кодировок UTF-8

(no subject)

silly_sad.livejournal.com - 2007-09-05 10:25 (UTC) - Expand

(no subject)

netch - 2007-09-06 17:44 (UTC) - Expand

(no subject)

silly_sad.livejournal.com - 2007-09-07 05:11 (UTC) - Expand

(no subject)

netch - 2007-09-07 06:14 (UTC) - Expand

(no subject)

vitus_wagner - 2007-09-07 06:41 (UTC) - Expand

(no subject)

mc6312.livejournal.com - 2007-09-07 16:51 (UTC) - Expand

В такой постановке кодировки алфавита не может быть в принципе.
Задача создания единой кодировки безусловно сложна. И решение, применённое в юникоде, при всей его ограниченности в ряде областей - оптимально.

Ваши же предложения откровенно деструктивны. Например, возьмём вариант "взять все буквы всех алфавитов, совокупно со всеми известными знаками препинания и разделителями, и пронумеровать их любым образом": сколько раз у Вас будут повторены основные латинские символы? В одном алфавите есть W, в другом нет. В одном есть Â, в другом нет. Простую A придётся повторить несколько тысяч раз? А с учётом всех будущих алфавитов?

А русский современный и русский дореформенный с добавкой, например, Ѣ - безусловно разные алфавиты и их надо кодировать раздельно? А если учесть все промежуточные этапы петровских реформ? Документ 1710 года и документ 1740 года будут кодироваться разными кодами?

Авторы юникода не дураки и такой ошибки не допустили. Да, есть проблемы в том, что в греческом, латинском и кириллице одна и та же на вид и по сути A кодируется по-разному. Да, есть проблемы в том, что у русского и украинского почти 30 общих букв и по кодам их не различить, несмотря на разные роли некоторых букв. Но это - решение, которое будет работать для большинства случаев. Ваше - сломает всё что только можно сломать.

Так что бред - не юникод, а Ваши комментарии.

(no subject)

silly_sad.livejournal.com - 2007-09-07 05:18 (UTC) - Expand

(no subject)

netch - 2007-09-07 06:07 (UTC) - Expand

(no subject)

silly_sad.livejournal.com - 2007-09-07 06:17 (UTC) - Expand

(no subject)

netch - 2007-09-07 06:23 (UTC) - Expand

(no subject)

silly_sad.livejournal.com - 2007-09-07 06:32 (UTC) - Expand

(no subject)

netch - 2007-09-07 06:41 (UTC) - Expand

(no subject)

silly_sad.livejournal.com - 2007-09-07 06:44 (UTC) - Expand

(no subject)

netch - 2007-09-07 07:28 (UTC) - Expand

(no subject)

silly_sad.livejournal.com - 2007-09-07 07:31 (UTC) - Expand

(no subject)

netch - 2007-09-07 08:34 (UTC) - Expand

(no subject)

vitus_wagner - 2007-09-07 08:40 (UTC) - Expand

(no subject)

netch - 2007-09-07 06:25 (UTC) - Expand

(no subject)

silly_sad.livejournal.com - 2007-09-07 06:42 (UTC) - Expand

(no subject)

netch - 2007-09-07 09:05 (UTC) - Expand

Они велики и мы - сынки пред ними :-)

этот маленький шаг двух людей - огромный скачок назад для всего человечества.

если верить основополагающим документам то УТФ это способ кодирования _ГРАФИЧЕСКИХ СИМВОЛОВ_

тоесть он фактическиотменяет такую прекрасную и с таким трудом выработанную человечеством абстраукцию как АЛФАВИТ - набор букв безотносительно их внешнего вида.

Юникодом нельзя представить ТЕКСТ, как мы привыкли его понимать - всегда будет получаться ИЗОБРАЖЕНИЕ ТЕКСТА.

Кто не понял разницу - я не виноват. Идите дальше фанатеть от "прогресса".

Все твои претензии - это претензии к собственно юникоду - набору символов. А utf-8 - это способ представления набора из четырех миллиардов символов в байт- ориентированных системах. Однозначный, обратимый и т.п.
А все потому что юникод изобретал комитет, а утф - два человека.

ну они же не отменили заглавную глупость юникода, которая возвращает письменность в средние века. не отменили. а развили её и может быть благодаря "удобству" кодировки поспособствовали укоренению этой мерзости в обществе.

Тогда и ASCII - изображение текста. Там же есть отдельные коды для заглавных и строчных букв?
А менять это всё на что, пардон? Изобретать кодировку без заглавных, а для регистра заводить отдельную сущность или пихать его в разметку? И кто будет все эти чудо-стандарты сочинять и продавливать в массы? Гигантский Человекоподобный Мицгол?

глупость несёшь и даже не морщищься.

> Там же есть отдельные коды для заглавных и строчных букв?

а с каких это пор Регистр буквы является графическим аттрибутом ?

ASCII хотя бы патается кодировать именно алфавит (хотя и зело разбавлен всяким мусором)

(no subject)

mc6312.livejournal.com - 2007-09-05 11:39 (UTC) - Expand

> если верить основополагающим документам то УТФ это способ кодирования _ГРАФИЧЕСКИХ СИМВОЛОВ_
> тоесть он фактическиотменяет такую прекрасную и с таким трудом выработанную человечеством абстраукцию как АЛФАВИТ - набор букв безотносительно их внешнего вида.

Следуя этой логике, строчные буквы от прописных тоже отличать не надо :-)

Вообще, что-то ты умное явно хотел сказать, но не сказал.

Вот, скажем, буквы ä и a -- выглядят похоже, но читаются по разному. Или, иными словами, разница в графическом представлении и определяет разницу между буквами. То есть, a от b отличается одним "классом различий", ä и a -- другим классом, а буква "a" серифным шрифтом от той же "a" сан-серифным -- третьим "классом различий". Собственно, почему одним различиям должно оказываться предпочтение?

ps. у кого уникод не показывается -- "ä и a" -- это U00E4 и U0061.

И, что характерно, опять при разработке новой, немерянно крутой OS. Как-бы так из попросить plan 9 забросить и что-нибудь новое создать, а то ведь через 15 лет вообще ничего приличного не останется?

Так они уже Inferno создали.

Какая страшная дискуссия, не думал что даже по этому вопросу в принципе возможны столь ожесточённые споры, бликие к holy war...

У меня в журнале возможен холивар по любому поводу.

Flat | Top-Level Comments Only

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

уфф...

no subject

no subject

no subject

no subject