vitus_wagner: My photo 2005 (Default)
vitus_wagner ([personal profile] vitus_wagner) wrote2007-09-03 11:10 pm

15 лет UTF-8

Как любят говорить на ЛОРе, годовщина подкралась тихо и незаметно.
Но хитроумный [livejournal.com profile] slobin её всё же отследил и опубликовал ссылку
на исторический документ.

Как выясняется, и эту вещь изобрели Роб Пайк и Кен Томпсон. Ну просто талант у людей изобретать нечто, что выглядит жутко, вызывает массу ругани, но все пользуются, потому что лучше никто придумать не может.
ext_613079: Default userpic (Default)

[identity profile] shaplov.livejournal.com 2007-09-03 07:22 pm (UTC)(link)
Ура!
Я, как оказалось, очень даже правильно этот день отмечаю: выковыриваю из rtf2html коммуниверные зависимости... А там перекодирование все через уникод... ;-)
ext_605364: geg MOPO4 (Default)

[identity profile] gegmopo4.livejournal.com 2007-09-03 07:29 pm (UTC)(link)
И чего же жуткого и вызывающего массу ругани в UTF-8?

[identity profile] alexkuklin.livejournal.com 2007-09-03 07:34 pm (UTC)(link)
Ну как же.
Байт-экстремисты типа [livejournal.com profile] croco жутко ругаются на то, что вместо кодировки применяется модель конечного автомата, если я ничего не путаю..
ext_605364: geg MOPO4 (Default)

[identity profile] gegmopo4.livejournal.com 2007-09-03 07:43 pm (UTC)(link)
Вот когда в байте будет по крайней мере 31 бит...

[identity profile] duke-igthorn.livejournal.com 2007-09-03 09:20 pm (UTC)(link)
Больше слушать кроко...
ext_613079: Default userpic (Default)

[identity profile] shaplov.livejournal.com 2007-09-03 09:24 pm (UTC)(link)
Ну может быть, еще лет через пятнадцать, мы, умудренные сидинами, на радость [livejournal.com profile] croco весело перейдем на utf-32 или даже utf-64, где один символ будет занимать фиксированное кол-во байт...

[identity profile] ninazino.livejournal.com 2007-09-03 07:42 pm (UTC)(link)
Да, тот же вопрос возник и у меня.

[identity profile] angry-elf.livejournal.com 2007-09-03 08:27 pm (UTC)(link)
Юникод вводят-вводят, вводят-вводят, а он всё никак не введется. Видимо, в этом :)

(no subject)

[identity profile] besm6.livejournal.com - 2007-09-04 04:10 (UTC) - Expand

[identity profile] vadiml.livejournal.com 2007-09-04 05:27 am (UTC)(link)
ага, я irc клиента с кодировкой utf8 как-то выписывал -- радость еще та, все время перепроверял чтоб ни чего не забыть

[identity profile] alamar.livejournal.com 2007-09-04 05:43 am (UTC)(link)
А что надо было сделать?
Вместо UTF-8?

(no subject)

[identity profile] silly_sad.livejournal.com - 2007-09-05 10:29 (UTC) - Expand

(no subject)

[identity profile] alamar.livejournal.com - 2007-09-05 10:36 (UTC) - Expand

(no subject)

[identity profile] silly_sad.livejournal.com - 2007-09-05 10:39 (UTC) - Expand

(no subject)

[identity profile] alamar.livejournal.com - 2007-09-05 10:56 (UTC) - Expand

(no subject)

[identity profile] silly_sad.livejournal.com - 2007-09-05 11:15 (UTC) - Expand

(no subject)

[identity profile] alamar.livejournal.com - 2007-09-05 11:22 (UTC) - Expand

(no subject)

[identity profile] silly_sad.livejournal.com - 2007-09-05 11:31 (UTC) - Expand

(no subject)

[identity profile] alamar.livejournal.com - 2007-09-05 11:40 (UTC) - Expand

(no subject)

[identity profile] silly_sad.livejournal.com - 2007-09-05 11:45 (UTC) - Expand

[identity profile] silly_sad.livejournal.com 2007-09-04 07:50 am (UTC)(link)
неоднозначность.
необратимость.
неявно введённое отношение родства между алфавитами (некоторые символы из юникода принадлежат сразу многим алфавитам!)
незамкнутость относительно катенации строк.

и всё это лишь мелкие следсвия того, что юникод не кодирует алфавит, он кодирует внешний вид (графику) алфавита. а это полный и очевидный бред.
llivejo: (Default)

[personal profile] llivejo 2007-09-05 02:34 am (UTC)(link)
это все к уникоду, а не к одной из его кодировок UTF-8

(no subject)

[identity profile] silly_sad.livejournal.com - 2007-09-05 10:25 (UTC) - Expand

(no subject)

[personal profile] netch - 2007-09-06 17:44 (UTC) - Expand

(no subject)

[identity profile] silly_sad.livejournal.com - 2007-09-07 05:11 (UTC) - Expand

(no subject)

[personal profile] netch - 2007-09-07 06:14 (UTC) - Expand

(no subject)

[identity profile] mc6312.livejournal.com - 2007-09-07 16:51 (UTC) - Expand
netch: (Default)

[personal profile] netch 2007-09-06 05:52 pm (UTC)(link)
В такой постановке кодировки алфавита не может быть в принципе.
Задача создания единой кодировки безусловно сложна. И решение, применённое в юникоде, при всей его ограниченности в ряде областей - оптимально.

Ваши же предложения откровенно деструктивны. Например, возьмём вариант "взять все буквы всех алфавитов, совокупно со всеми известными знаками препинания и разделителями, и пронумеровать их любым образом": сколько раз у Вас будут повторены основные латинские символы? В одном алфавите есть W, в другом нет. В одном есть Â, в другом нет. Простую A придётся повторить несколько тысяч раз? А с учётом всех будущих алфавитов?

А русский современный и русский дореформенный с добавкой, например, Ѣ - безусловно разные алфавиты и их надо кодировать раздельно? А если учесть все промежуточные этапы петровских реформ? Документ 1710 года и документ 1740 года будут кодироваться разными кодами?

Авторы юникода не дураки и такой ошибки не допустили. Да, есть проблемы в том, что в греческом, латинском и кириллице одна и та же на вид и по сути A кодируется по-разному. Да, есть проблемы в том, что у русского и украинского почти 30 общих букв и по кодам их не различить, несмотря на разные роли некоторых букв. Но это - решение, которое будет работать для большинства случаев. Ваше - сломает всё что только можно сломать.

Так что бред - не юникод, а Ваши комментарии.

(no subject)

[identity profile] silly_sad.livejournal.com - 2007-09-07 05:18 (UTC) - Expand

(no subject)

[personal profile] netch - 2007-09-07 06:07 (UTC) - Expand

(no subject)

[identity profile] silly_sad.livejournal.com - 2007-09-07 06:17 (UTC) - Expand

(no subject)

[personal profile] netch - 2007-09-07 06:23 (UTC) - Expand

(no subject)

[identity profile] silly_sad.livejournal.com - 2007-09-07 06:32 (UTC) - Expand

(no subject)

[personal profile] netch - 2007-09-07 06:41 (UTC) - Expand

(no subject)

[identity profile] silly_sad.livejournal.com - 2007-09-07 06:44 (UTC) - Expand

(no subject)

[personal profile] netch - 2007-09-07 07:28 (UTC) - Expand

(no subject)

[identity profile] silly_sad.livejournal.com - 2007-09-07 07:31 (UTC) - Expand

(no subject)

[personal profile] netch - 2007-09-07 08:34 (UTC) - Expand

(no subject)

[personal profile] netch - 2007-09-07 06:25 (UTC) - Expand

(no subject)

[identity profile] silly_sad.livejournal.com - 2007-09-07 06:42 (UTC) - Expand

(no subject)

[personal profile] netch - 2007-09-07 09:05 (UTC) - Expand

[identity profile] ignik.livejournal.com 2007-09-03 08:02 pm (UTC)(link)
Они велики и мы - сынки пред ними :-)

[identity profile] silly_sad.livejournal.com 2007-09-04 07:45 am (UTC)(link)
этот маленький шаг двух людей - огромный скачок назад для всего человечества.

если верить основополагающим документам то УТФ это способ кодирования _ГРАФИЧЕСКИХ СИМВОЛОВ_

тоесть он фактическиотменяет такую прекрасную и с таким трудом выработанную человечеством абстраукцию как АЛФАВИТ - набор букв безотносительно их внешнего вида.

Юникодом нельзя представить ТЕКСТ, как мы привыкли его понимать - всегда будет получаться ИЗОБРАЖЕНИЕ ТЕКСТА.

Кто не понял разницу - я не виноват. Идите дальше фанатеть от "прогресса".

[identity profile] silly_sad.livejournal.com 2007-09-05 10:27 am (UTC)(link)
ну они же не отменили заглавную глупость юникода, которая возвращает письменность в средние века. не отменили. а развили её и может быть благодаря "удобству" кодировки поспособствовали укоренению этой мерзости в обществе.

[identity profile] mc6312.livejournal.com 2007-09-05 10:16 am (UTC)(link)
Тогда и ASCII - изображение текста. Там же есть отдельные коды для заглавных и строчных букв?
А менять это всё на что, пардон? Изобретать кодировку без заглавных, а для регистра заводить отдельную сущность или пихать его в разметку? И кто будет все эти чудо-стандарты сочинять и продавливать в массы? Гигантский Человекоподобный Мицгол?

[identity profile] silly_sad.livejournal.com 2007-09-05 10:23 am (UTC)(link)
глупость несёшь и даже не морщищься.

> Там же есть отдельные коды для заглавных и строчных букв?

а с каких это пор Регистр буквы является графическим аттрибутом ?

ASCII хотя бы патается кодировать именно алфавит (хотя и зело разбавлен всяким мусором)

(no subject)

[identity profile] mc6312.livejournal.com - 2007-09-05 11:39 (UTC) - Expand

уфф...

(Anonymous) 2007-09-05 12:12 pm (UTC)(link)
> если верить основополагающим документам то УТФ это способ кодирования _ГРАФИЧЕСКИХ СИМВОЛОВ_
> тоесть он фактическиотменяет такую прекрасную и с таким трудом выработанную человечеством абстраукцию как АЛФАВИТ - набор букв безотносительно их внешнего вида.

Следуя этой логике, строчные буквы от прописных тоже отличать не надо :-)

Вообще, что-то ты умное явно хотел сказать, но не сказал.

Вот, скажем, буквы ä и a -- выглядят похоже, но читаются по разному. Или, иными словами, разница в графическом представлении и определяет разницу между буквами. То есть, a от b отличается одним "классом различий", ä и a -- другим классом, а буква "a" серифным шрифтом от той же "a" сан-серифным -- третьим "классом различий". Собственно, почему одним различиям должно оказываться предпочтение?

ps. у кого уникод не показывается -- "ä и a" -- это U00E4 и U0061.

[identity profile] tzirechnoy.livejournal.com 2007-09-04 09:03 am (UTC)(link)
И, что характерно, опять при разработке новой, немерянно крутой OS. Как-бы так из попросить plan 9 забросить и что-нибудь новое создать, а то ведь через 15 лет вообще ничего приличного не останется?

[identity profile] fireballdark.livejournal.com 2007-09-07 01:56 pm (UTC)(link)
Какая страшная дискуссия, не думал что даже по этому вопросу в принципе возможны столь ожесточённые споры, бликие к holy war...