TeX, html и utf-8
Oct. 4th, 2012 09:54 pmВ связи с воплями народа, "Ах, gitweb неправильно показывает файлы в koi8-r" попробовал сконвертировать исходники «Детей пространства» в utf-8. Во-первых, пришлось при смене опции у inputenc с koi8-r на utf-8 пришлось подключить еще пакет textcomp, а то со знаками градуса получилась полная труба. Во вторых, конструкция вида \'и не работает. Пришлось \'{и} писать.
Во-вторых, пришлось с latex2html перейти для генераци html на tex4ht. Потому что latex2html с utf-8 работает совсем хреново. Правда tex4ht не сильно лучше. Он генерирует либо utf-8 html, либо валидный. Потому что забыть в utf-8 html-е 8-битные символы latin1 - ° « » это как-то совсем не комильфо. Пришлось генерировать html в том, что он считает 8859-5, а я - скорее 8859-1 с русскими буквами в виде 16-ричных entities, а потом править маленьким скриптом на Tcl.
Зато, правда, знаки градуса и верхние индексы в обозначениях физических величини (м/с2) попадают в HTML корректно.
Еще оно умеет odt делать. Правда~--- хреново. Все неразрывные пробелы съедаются. И с бабелевским заголовком оглавления оно справиться не может. И верхние индексы в названиях физических величин не тянет.
Еще бы придумать теперь способ это в EPUB или FB2 пакетным способом конвертить.
Во-вторых, пришлось с latex2html перейти для генераци html на tex4ht. Потому что latex2html с utf-8 работает совсем хреново. Правда tex4ht не сильно лучше. Он генерирует либо utf-8 html, либо валидный. Потому что забыть в utf-8 html-е 8-битные символы latin1 - ° « » это как-то совсем не комильфо. Пришлось генерировать html в том, что он считает 8859-5, а я - скорее 8859-1 с русскими буквами в виде 16-ричных entities, а потом править маленьким скриптом на Tcl.
Зато, правда, знаки градуса и верхние индексы в обозначениях физических величини (м/с2) попадают в HTML корректно.
Еще оно умеет odt делать. Правда~--- хреново. Все неразрывные пробелы съедаются. И с бабелевским заголовком оглавления оно справиться не может. И верхние индексы в названиях физических величин не тянет.
Еще бы придумать теперь способ это в EPUB или FB2 пакетным способом конвертить.
no subject
Date: 2012-10-04 07:45 pm (UTC)no subject
Date: 2012-10-05 03:22 am (UTC)Потрахаться тоже придётся, причём, с техом тоже, если хотите pdf.
Итог приемлем, но жёстковат.
Вот примеры:
http://sigrand.ru/dl/camera/ti/sigticam-doc-ru/
http://sigrand.ru/dl/camera/ti/sigticam-doc-ru.pdf
Стили малоуправляемы, приходится копировать css,
чтобы поменять даже стиль таблиц,
параметров почти нет.
Исходник доки: http://sigrand.ru/gitweb/?p=sgdoc_sigticam.git
Общие настройки: http://sigrand.ru/gitweb/?p=df_sphinx_doc_set.git
no subject
Date: 2012-10-05 07:55 am (UTC)Что меня поражает - более гуманного, чем LaTeX, формата для набора просто нет. Все остальные по сравнению с ним не предназначены для редактирования человеком.
Кстати, совершенно непонятно, зачем сделали HTML, когда можно было в урезанный TeX вставить гиперссылки.
no subject
Date: 2012-10-05 07:58 am (UTC)Поначалу я выкладывал только PDF, но народ взывл "хотим читать прямо в браузере".
no subject
Date: 2012-10-05 08:03 am (UTC)The verse environment is not supported.
Куда ж я в художественном тексте без verse-то?
??
Date: 2012-10-05 05:24 pm (UTC)iconv -f WINDOWS-1251 -t UTF-8 -o new.file.utf.html old.file.html
Re: ??
Date: 2012-10-05 05:27 pm (UTC)Сам iconv по-моему есть в любой Linux distribution, а если нет, то он компилируется и ставится элементарно.
Re: ??
Date: 2012-10-05 05:49 pm (UTC)Поэтому проще получить файл в котором 8-битные iso8859-1 представлены самими собой, а русские буквы в виде ш и его аккуратно перекодировать. Но iconv-у это уже не по силам. Html entitities он не умеет.
Re: ??
Date: 2012-10-05 09:23 pm (UTC)no subject
Date: 2012-10-06 07:24 pm (UTC)Re: ??
Date: 2012-10-05 05:51 pm (UTC)Re: ??
Date: 2012-10-05 06:40 pm (UTC)Его взять, прогнать через iconv и положить как статический файл.
Или делать пдобное динамически скриптом, но там сами смотрите как у вас сделано и как включить его в цепочку.
Хотя я не представляю себе ваш setup, а потому конечно вам виднее
Re: ??
Date: 2012-10-05 07:30 pm (UTC)И еще больше заблуждаетесь, полагая что html-документ это файл. В современном миер html-документ крайне редко бывает файлом. Как правило,. html документ генерируется на лету какой-нибудь сервер-сайт фигней из содержимого базы данных или репозитория. Поэтому если какой-нибудь элемент данных, участвующий в генерации, оказывается не в той кодировке, про которую думает эта серверная фигня, получается как раз такой HTML, в котором часть в одной кодировке, а часть в другой.
Re: ??
Date: 2012-10-05 05:52 pm (UTC)Re: ??
Date: 2012-10-05 09:18 pm (UTC)