По поводу fb2
Jun. 4th, 2007 09:07 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Тут
shaplov втянул меня в проект fb2-perl-tools. Потом уже я втянул туда
gegmopo4, который, правда на perl не пишет, но вычисткой коллекций fb2 занимается.
Надо бы туда в wiki манифест какой-нибудь написать про что этот проект, какие составные части и так далее.
В общем, если кто интересуется обработкой fb2, а особенно если еще и на perl писать умеет,
welcome. Основные дискуссии, правда, сейчас ведутся в англоязычном списке рассылки проекта.
![[livejournal.com profile]](https://www.dreamwidth.org/img/external/lj-userinfo.gif)
![[livejournal.com profile]](https://www.dreamwidth.org/img/external/lj-userinfo.gif)
Надо бы туда в wiki манифест какой-нибудь написать про что этот проект, какие составные части и так далее.
В общем, если кто интересуется обработкой fb2, а особенно если еще и на perl писать умеет,
welcome. Основные дискуссии, правда, сейчас ведутся в англоязычном списке рассылки проекта.
no subject
Date: 2007-06-04 06:42 pm (UTC)no subject
Date: 2007-06-04 06:51 pm (UTC)Тоже занялся проблемой, но с другой стороны - конвертация .abw (AbiWord) в .fb2 через XSLT трансформацию.
no subject
Date: 2007-06-04 07:29 pm (UTC)А AbiWord у нас нынче с ODT работает или у него свой формат?
no subject
Date: 2007-06-06 07:57 am (UTC)Формат у него свой, но в пакете abiword-plugins есть поддержка кучи форматов чужих для импорта и экспорта.
no subject
Date: 2007-06-04 07:30 pm (UTC)no subject
Date: 2007-06-06 08:03 am (UTC)no subject
Date: 2007-06-04 07:31 pm (UTC)no subject
Date: 2007-06-04 07:38 pm (UTC)Я вот подумываю, что давно задуманный конвертер fb2 в latex надо не через xslt делать, а через обычный SAX-парсинг. SAX-ом на перле я, между прочим, и картинки обработаю, встроенные в FB2 в виде base64. А попробуй это xslt сделать.
no subject
Date: 2007-06-05 06:07 am (UTC)Хе-хе. про себя могу тоже самое сказать -- тоже давно задумал ровно такой конвертер :)
А картинки в FB2 вообще тем отдельная и зряшная, IMHO.
no subject
Date: 2007-06-05 07:08 am (UTC)Ну, меня теперь если не допинает
Ну почему зряшная? Бывают очень хорошо иллюстрированные художественные произведения.
У меня вот лежит уже отсканированная коллекция иллюстраций к "Земле Санникова". В fb2-файл я её еще не воткнул, поскольку тогдашняя версия FBReader-а слегка глючила с иллюстрациями, а шапловской утилиты fb2images у меня не было. Впрочем эту утилиту всё равно дописывать надо, чтобы сама ссылку на картинку в текст втыкала.
no subject
Date: 2007-06-05 09:14 am (UTC)no subject
Date: 2007-06-05 12:12 pm (UTC)no subject
Date: 2007-06-05 01:35 pm (UTC)no subject
Date: 2007-06-05 07:09 am (UTC)Никто никого никуда не втягивал... Ты сам по ссылке пошел... ;-)
Основные дискуссии, правда, сейчас ведутся в англоязычном списке рассылки проекта.
Да... наверное надо перейти в русский... Все равно все русскоязычные...
В английский собирался постить только важные для истории моменты (по крайней мере до тех пор пока не появится кто-то не русско говорящий)
А забытый rb?
Date: 2007-06-05 10:01 am (UTC)Не думали ли Вы хотя б о минимальной тулзе (комманд лайн) для конвертации книг в формат rb? Что работала в линуксе.
Пока под линукс существует всего лишь одна (все та же) rbmake . С исходниками. Которую, однако, мне не удалось заставить поддерживать русский язык ни в одним linux (utf-8, koi8-r). При том что в Windows (2k, XP, ... ) он, собраный из исходников русский язык (cp1251) отлично конвертирует в читаемый на моем REB1100.
Автор про проблемы русского языка принципиально мейлом не отвечает.
(про другие - отвечает быстро и по делу.)
Вот и получается в сухом остатке, что русскоязычные пользователи Unix, Linux книги на русском языке для своей электронной книги конвертировать не могут. Только на английском.
Или винду грузить. У кого она есть...
Это единственное приложение, которое у меня осталось не работающее в linux. Де-факто, я к дочке бегаю с флешкой, на которой записан windows rbmake.
Решили б вы эту проблему - оч. много русскоязычных фанатов Рокетов спасибо бы сказали. Рокеты всех поколений не понимают ни fb2, ни pdf, ни txt, ни html - то есть единственный способ в них что-то запихать - только rb.
Честно скажу, мне - видимо слабО самому разобраться. Там все концы в библиотеки уходят.
Если возьметесь - готов предложить свою помощь в тестировании, отладке, документировании. Есть для тестов Solaris с 7 по 10, xubuntu 7.04, Zen Walk 4.6, CentOS.
Re: А забытый rb?
Date: 2007-06-05 12:44 pm (UTC)Вот если найдется счастливый владелец, который успешно решил проблему конвертации книг в формат этого устройства, и захочет этим решением поделиться с миром через наш проект - место дадим несомненно.
А пытаться написать конвертер для формата, устройств поддерживающих который у тебя нет, явно противоречит принципу Раймонда "scratch where it itches".
Думаю, что автор rbmake исходит из тех же соображений. Он никогда не пробовал работать с нелатинскими алфавитами. Вот если ему кто-то работающий патч пришлет...
Что касается библиотек, то libxml, используемая в rbmake заведомо умеет корректно работать с кириллицей. Может её кто-то где-то недоинициализирует. Может там setlocale позвать забыли.
Re: А забытый rb?
Date: 2007-06-05 12:54 pm (UTC)Интересен также факт, что компания, которая им занималась, приложила силы для того чтоб РАСКРЫТЬ формат, исходники и способ общения с девайсом еще до своей смерти.
Скорей беда компании, чем вина, что она давно померла.
А за ней померла компания, купившая ее остатки.
Так что даже шнурок с телефонным разъемом в устройстве теперь бесполезен - нет ни того сайта, ни того номера телефона.
Интересно также то, что устройства эти люди находят и покупают даже спустя 7 лет после их выпуска. Видимо, есть какой-то у них резон, по сравнению с хорошими и открытыми современными устройствами? И это отнюдь не цена.
Линкуется там не libxml, а libxml2 (это кстати нигде не указано). Что ж, попробую как-нибудь поставить что-нибудь ненужное в locale 1251 и проверить предположения...
Re: А забытый rb?
Date: 2007-06-05 02:00 pm (UTC)Хороших и открытых современных устройств на рынке, увы, мало. Только Nokia-770/N800.
Zaurus по-моему тоже уже сдулся, а прочие варианты пока до рынка не дошли.
Что касается gnome libxml, то она только в варианте libxml2 и бывает. Старая версия умерла давно.
Вы поймите, что те кто занимается разработкой OpenSource делают это не из альтруизма, а чтобы сделать СЕБЕ удобно. Из альтруизма, или желания похвастаться "а вот моя программа ещё и вот это умеет", можно готовый присланный патчик приложить.
И то, часто приходится долго уговаривать авторов что этот патч ничего в прочей существующей функциональности не сломает.
Re: А забытый rb?
Date: 2007-06-07 01:07 pm (UTC)он конечно не карманного формата, но все равно достаточно небольшой и тонкий, чтобы иметь его с собой почти всегда.
по сравнению с n800 плюсом идет практически обычная ноутбучная клавиатура
no subject
Date: 2007-08-13 12:40 pm (UTC)А ты его так и не сделал пока?
no subject
Date: 2007-08-13 12:56 pm (UTC)Это не совсем то, что я хотел, но может быть дотачивается до того, чего хотел ты.
no subject
Date: 2007-08-13 12:59 pm (UTC)Придётся, видимо, таки на перле… Действительно, на SAX'е…
no subject
Date: 2007-08-14 01:32 pm (UTC)no subject
Date: 2007-08-14 01:41 pm (UTC)Для начала - попробуй средствами XSLT заэскейпить по-теховски символы подчерка, процента и иже с ними, а также преобразовать — в три минуса.
no subject
Date: 2007-08-14 01:47 pm (UTC)no subject
Date: 2007-08-14 03:58 pm (UTC)no subject
Date: 2007-08-13 01:01 pm (UTC)no subject
Date: 2007-08-13 01:05 pm (UTC)no subject
Date: 2007-08-13 01:13 pm (UTC)(1) Открываем, сохрянем в ODT
(2) Замещаем styles.xml файлом из предыдущей книжки, правя header потом руками
(3) Удаляем нафик все пустые абзацы из content.xml регекспом.
(4) Удаляем metainfo с обложкой руками. Это даже чаще в шаге (1)
(5) Применяем первой странице стиль default руками.
По сути — всё.