vitus_wagner: My photo 2005 (Default)
[personal profile] vitus_wagner
Я тут подумал, что требования к peer-to-peer протоколу для работы с электронными книгами сильно отличаются от требований к протоколу для разадчи multimedia, под которые заточены всякие ed2k и bittorrent.

Если музыка и фильмы это, как правило, немного больших файлов, и возможность распределения нагрузки по раздаче является существенной, то электронная библиотека - это много-много (десятки тысяяч) относительно маленьких файлов.
Причем начиная с того момента, как у человека образовалась эта библиотека, дальнейшиф траффик очень маленький - новинки, исправления опечаток и т.д.

С другой стороны, мультимедиа-файлы обычно редактированию конечным пользователем не поддаются. А вот опечатки в электронной книге может исправлять любой.

Соответвтвенно, для синхронизации изменений в электронных библиотеках (если предположить что на начальный момент участия в p2p сети каждый участник обзавелся копией библиотеки на момент вступления, например выкачав ежегодный снапшот из традиционных p2p),
гораздо больше подходят такие средства как rsync и unison.

Эти средства позволяют поддерживать в консистентном состоянии сколько угодно мирроров одной и той же коллекции книг с минимальным количеством траффика. При этом если любой пользователь исправит опечатку, это исправление расползется по всем хостам сети.

Кстати, если кому-то жалко места на диске, он вполне может синхронизировать у себя не всю библиотеку, а определенные жанры или определенных авторов. Для этого нужна только соответствующая структура каталогов.

Злесь, правда, есть такая тонкость, что необходима какая-то система учета доверия к пользователям. А то в сети заведутся обязательно гады, которые будут книги портить. Впрочем, формат FB2 легко защищается электронной подписью на базе xmldsig. При этом файл подписи можно положить рядом, чтобы не мешал читалкам. Тогда если при синхронизации приехали изменения к существующему файлу, можно посмотреть, кто под ними подписался, и, в зависимости от этого, либо сразу включить в основной архив, или оставить до ревизии владельцем данной копии, который, может быть, потом и своей подписью под этими изменениями подпишется. Новые книги, ранее в библиотеке отсутствовавшие, можно принимать и без подписи.

Date: 2007-06-08 12:29 pm (UTC)
From: [identity profile] yarikas.livejournal.com
Из pdf точно текст можно вытащить. А важен именно факт наличия изменения текста и место. Хотя не берусь предсказать, что выдаст pdftotext для изменённого файла.

Date: 2007-06-08 12:42 pm (UTC)
From: [identity profile] kzn.livejournal.com
Я еще не совсем корректно выразился - дело не только в текстовом виде, но и в содержании -- все это подходит для художественной литературы.

Из pdf можно выдернуть текст, но можно ли его будет безболезненно вставить обратно?

Date: 2007-06-08 02:04 pm (UTC)
From: [identity profile] yarikas.livejournal.com
Наверное, я тоже не до конца понят. PDF можно открыть тем же Acrobat и, отредактировав, сохранить обратно.

pdftotext'ом можно вытащить текст обоих документов и сравнить. Не уверен, правда, что без граблей обойдётся.
diff покажет место исправления - можно решить, справедливо ли оно. Оставить тот pdf, что больше нравится.

Date: 2007-06-08 05:34 pm (UTC)
From: [identity profile] the--listener.livejournal.com
Это не совсем верно. Я не смотрел последние спецификации на pdf, но, в ранних вериях (как минимум до 4-й включительно) это никак не предусматривалось.

Буквы (т.е. глифы) в pdf могут располагаться на странице в произвольном порядке (с указанием координат чуть ли не для каждого глифа), плюс к этому, наличие какого-либо внятного энкодинга - не гарантируется. Для встроенных фонтов, энкодинг строится по мере вхождения глифов. Да, предусматривается перекодировочная таблица - но ее наличие не гарантируется.

Date: 2007-06-08 08:24 pm (UTC)
From: [identity profile] roman_sharp.livejournal.com
Иногда это совсем неверно. Некоторые просто пакуют в pdf набор отсканированных картинок.

Date: 2007-06-09 04:58 am (UTC)
From: [identity profile] yarikas.livejournal.com
Ну, определённые проблемы есть, но и Вы не совсем правы. Спецификации читаю редко, а вот текст pdftotext'ом давеча учил вытаскивать mnogosearch.
Помогло как раз указание кодировки utf-8:
Mime application/pdf "text/plain; charset=utf-8" "pdftotext -cfg .xpdfrc -raw -enc UTF-8 $1 - "

Понятно, что при использовании какого-то хитровывернутого фонта, никто его может и не знать, равно как и из картинок текст достать сложно, но для вменяемо построенных pdf и индексация (тем же google), и сравнение (как следствие), думаю, возможны.

Date: 2007-06-09 12:02 pm (UTC)
From: [identity profile] the--listener.livejournal.com
Лет семь назад писал я индексатор для PDF-ов. Так, в те времена, нормальная перекодировочная таблица была, скорее, исключением. Приходилось извращаться вплоть до написания интерпретатора постскрипта для разбора Type1 фонтов.

Date: 2007-06-08 08:25 pm (UTC)
From: [identity profile] roman_sharp.livejournal.com
Некоторые просто пакуют в pdf набор отсканированных картинок. Из такого текст можно вытащить только через Fu Finereader.

Profile

vitus_wagner: My photo 2005 (Default)
vitus_wagner

May 2025

S M T W T F S
    1 2 3
4 56 7 8 9 10
11 12 131415 1617
1819202122 2324
252627 28293031

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated May. 31st, 2025 05:33 am
Powered by Dreamwidth Studios