vitus_wagner | Навел порядок в своей библиотеке.

Превратил жуткую свалку fb2 и epub-файлов, в которой мог разобраться только FBReader, да и то не сразу, в более-менее структуруированное хранилище,
вида перваябуква/автор/название

Была еще идея насоздавать симлинков для книг с более чем одним автором, но решил пока не связываться.

Большую часть работы проделал вот такой скрипт:

for i in *.fb2.zip; do

   author="`unzip -p $i "*.fb2"| xmlstarlet sel \
     -t -m "//_:title-info/_:author[1]" \
     -v _:last-name -o "_" -v _:first-name -n
   `"
   title="`unzip -p $i "*.fb2"|  xmlstarlet sel -t \ 
        -v "//_:title-info/_:book-title" | tr ' ' '_'`"
   dir=`echo "$author"|sed 's!^\(.\)!\1/\1!'` 
   echo "$i => $dir/${title}.fb2.zip"
   [ -d "$dir" ] || mkdir -p "$dir"
   
   mv $i "$dir/${title}.fb2.zip"
done

Скрипт, конечно наколеночный и кривой. Поддержки epub пока нет, хотя смысл там примерно

 unzip -p $epub_file content.opf |
   xmlstarlet sel -N dc=http://purl.org/dc/elements/1.1/ \
   -t -v '//dc:creator[1]' -n -v //dc:title  -n

.
Ну и еще файл сканируется дважды. Но я решил что проще это делать дважды, чем
разгребаться с эскейпингом средствами xslt.

О, кстати придумал как обойтись без искейпинга. Вывод xmlstarlet который пишет автора на первой строчке, а title во второй, перенаправляем в

(read author
read title
# do what we need with author and title
)

. В результате внутри xmlstarlet нужно заэскейпить только ньюлайны.

P.S. А если для фотографий аналогичный скрипт сделать? Чтобы валить их все в кучу, чуть ли не rsync-ом, а скрипт пусть потом разгребает по датам и местам.

Flat | Top-Level Comments Only

From:

self-perfection.ya.ru

Была еще идея насоздавать симлинков для книг с более чем одним автором, но решил пока не связываться.

Народ для доступа средствами файловой системы к подмножествам набора файлов, выбранным по различным критериям метаданных, пилит штуку под названием tagsistant. На мой вкус вещь странная, и я не придумал, где мне было бы удобно её использовать, но оцениваю шанс что вам понравится в 30%

Как минимум можно будет видеть одну и ту же книгу в директориях .../store/Автор1 и .../store/Автор2 можно будет без ручного создания симлинков, если прикрутить к tagsistant извлечение из fb2 файлов метаданных (AFAIK, пока поддерживает только аудиофайлы и изображения)

vitus_wagner

Не понял. Вот имеется хрень, которая зачем-то делает какую-то хрень. Она не умеет извлекать информацию из FB2 и EPUB. Зачем она мне нужна, если я могу создать симлинки скриптом, подобным приведенному в посте.

Почему вы считаете что "ручное" создание симлинков, в смысле с помощью наколенного скрипта, который делает то что нужно, и не делает более ничего, хуже, чем использование какой-то левой хрени?

На мой взгляд, для создания конструкции симлинков любой сложности шелла и coreutils вполне достаточно.

Я всем рекомендую уже с 2001 года - выучите, что могут те средства, которые стоят у вас в системе, и выяснится, что в 90% случаев решить задачу с помощью этих средств будет проще, чем искать и ставить что-то новое.

Собственно данный пост был как раз про то, как использовать xmlstarlet для того, чтобы извлекать метаинформацию из электронных книг. Для того, чтобы потом это стандартными средствами обрабатывать.

Пример, который на симлинках было бы решить трудно: хотим книги, среди авторов которых есть Автор1, но отсутствует Автор2.

Средствами tagsistant это делалось бы примерно так:
ls "$TAGSISTANT_ROOT/Автор1/-/Автор2/@/"

tagsistant даёт куда больше гибкости. Цена за эту гибкость - установка и изучение странной херни. Мне эта цена показалась существенно выше выгоды, я не использую. После вашего ответа я почти уверился, что вам тоже не захочется.

Но некоторое восхищение людьми, которые пытаются упихнуть неупихуемое в стандартные интерфейсы всё же у меня есть.

А не надо это решать таким способом.

Иерархия каталогов в хранилище не является способом ответить на все возможные запросы. Она является способом быстро получить доступ к объекту по ключу + способом ответить на наиболее
частые запросы

А так нам ничто не мешает рядом с архивом текстов накрутить какие угодно базы данных, которые в качестве ответа на запрос будут выдавать список файлов в архиве. Хоть полнотесктовым поиском, хоть с ассоциативным на естественном языке хоть с дополнительной индексацией текста.

Например, я полагаю что сильно не помешал бы поиск по персонажам "В каких книгах упоминается Уильям Дампир", а также по географическим локациям и временным периодам "хочу все, что имеется про Индию XVIII-начала XIX веков". Причем там будет хитрая работа с темпоральной алгеброй. А возможно, что и с битемопральной. Потому что интересно знать не только "период, который описывается", но и "период, когда написано" - от этого очень много зависит в плане достоверности и предвзятости автора.

yurikhan

В пределе такие юзкейсы ведут к мечтам об онтологиях, семантическом вебе и RDF.

RDF там уже давно внутрях. Как та неонка. Возьми любой epub, раззипуй и почитай внимательно что там в contents.opf. Впрочем даже в тексте поста уже DC упоминается.

S	M	T	W	T	F	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Журнал Витуса

Навел порядок в своей библиотеке.

Навел порядок в своей библиотеке.

no subject

no subject

no subject

no subject

no subject

no subject

Profile

July 2025

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags