Электронно-библиотечное
Jun. 30th, 2020 10:16 amНаписал себе новый скрипт для сортировки электронных книг. Уже не на shell через xmlstarlet, а на python с использованием xml.etree. Etree гораздо более требователен к валидности xml, поэтому на некоторые книги, особенно происходящие с Самиздата оно злобно ругалось, пришлось их немного руками править.
Что самое забавное, при корректной работе с namespace началась еще и чехарда с epub-ами. Выяснилось что имеющиеся у меня epub-ы используют аж три версии Doublin Core:
- http://purl.org/dc/elements/1.1/
- http://purl.org/dc/elements/1.0/
- http://purl.org/metadata/dublin_core
Вообще-то я все это затеял, чтобы хранить fb2 не зазипованными, как раньше (и как они скачиваются и с флибусты, и с самлиба), а распакованными, чтобы было удобнее их синхронизировать с электронной книгой. Почему-то epub раззиповывать эта железяка умеет, а .fb2.zip - в два приема - сначала раззиповывает и выкидывает меня в главное меню, потом опять ищи по иерархии директорий то место, куда она его распаковала.
Правда моя малая библиотека (которая ранее синхронизировалась со смартфоном) в таком виде не лезет в 4 гига. Надо либо не копировать на электронную книгу pdf и djvu, их все равно читать с ее экрана неудобно, либо проредить fb2. А то там у меня полно вещей, которые я начал читать, а они не пошли.
С другой стороны, наоборот, хочется приделать раскладывалку по каталогам по именам авторов и к pdf и djvu тоже. Правда, там будет общая засада с epub - имена авторов в метаинформации этих форматов, пишут как попало, и надо как-то объяснить скрипту, что "Первушин Антон Иванович" это
<last-name>Первушин</last-name> <first-name>Антон</first-name> <middle-name>Иванович</middle-name>а вот Ursula leGuin это
<first-name>Ursula</first-name> <last-name>leGuin</last-name>
Причем, естественно, варианты с разным порядком частей имени встречаются во всех языках, на которых я читаю.
no subject
Date: 2020-06-30 09:38 am (UTC)no subject
Date: 2020-06-30 10:06 am (UTC)Из метаинформации констурируем путь вида первая-буква-автора/автор/серия/номер-в-серии.заглоовок.формат
и по нему сохраняем либо распакованный fb2. либо epub/pdf/djvu как есть.