vitus_wagner: My photo 2005 (Default)
vitus_wagner ([personal profile] vitus_wagner) wrote2017-06-26 03:11 pm

И еще про энциклопедию «Море»

Отсканирвоанные страницы (3 с половиной GB) лежат здесь. Размеры таковы что на моем сайте места для этого уже нет, приходится на яндекс-диск выкладывать.

Обновленный торрент можно скачать по этой магнет-ссылке.

Торрент распознанной книги в open document формате здесь. Разметка сильно поехавшая.

Если у кого есть старый, и не хочется перекачивать все, то подложить содержиое старого торрента без 522 страницы.

[personal profile] crower пропустил их через файнридер. Ссылки на распознаныный файл пока не даю, поскольку в процессе выяснилось, что одна страница была сосканирована неправильно, пришлось пересканировать.


Этого всего я пока не проделал, поэтому кто скачат торрент, возьмите out0522.png с яндекса.

Теперь вопрос, что с этим делать дальше:

1. В каком формате распрсотранять невычитанный распознанный вариант. Варианта я, собственно вижу два - либо офисный формат (doc, rtf), либо html. Потому что нужен именно редактируемый формат на предмет вычитки и правки.
Как выглядит html из-под файнридера, насколько он удобен для засовывания в git/fossil и последующей правки, я не знаю. (впрочем c odt, в который неизбежно будет преобразован офисный формат, будет не легче)

2. Основная борьба при вычитке будет не с текстом, а с картинками. Особенно с фотографиями. Возможно, некоторые у меня при сканировании получились настолько темными, что придется пересканировать.

3. Как организовать вычитку? На куски какого размера правильнее делить текст, что лучше - предоставить возможность онлайн-редактирвоания или скачивания через систему управления версиями?
Кто вообще готов в этом участвовать кроме меня и [personal profile] crower?

4. В каком формате, после того как процесс будет закончен, распространять результат?
pdf с версткой, возможно более близкой к оригинальной? Html такой же (завернутый в epub для компактности), или html/epub со сплошным flow текста, без двухколончоной верстки и иллиюстрациями, распределенными в пределах главы как попало?

Re: office+VCS

[personal profile] sur_kg 2017-06-28 02:37 pm (UTC)(link)
Если это не завуалированный троллинг - то можно суть поподробнее?
yurikhan: (Default)

Re: office+VCS

[personal profile] yurikhan 2017-06-28 03:42 pm (UTC)(link)

Троллинг, но только наполовину.

Маркдаун — это текстовый формат с настолько лёгкой разметкой, что она не мешает видеть и редактировать текст (в отличие от HTML, DocBook и FB2). В то же время её видно, что позволяет осмысленно форматировать (в отличие от WYSIWYG). Выразительные возможности маркдауна покрывают заметную часть офисных нужд. Есть инструменты для конвертации его в почти все мыслимые форматы, особенно HTML. Есть даже готовые сервисы по изданию книг (GitBook, bookdown), принимающие на вход маркдаун.

Будучи текстовым форматом, маркдаун отлично подходит для хранения в системах контроля версий. Чтобы diff показывал реальные изменения в тексте, а не «вот этот абзац, представленный как одна длинная строка, поменялся на вот этот абзац, представленный как одна длинная строка», разбиваем абзацы на строки длиной до 72 колонок.
А чтобы при редактировании текста
и переразбивке на строки
не получался огромный дифф до конца абзаца,
принимаем соглашение,
что переносы строк должны быть
в первую очередь по границе предложений,
во вторую — по запятым, точкам с запятым и союзам,
и в третью, если до этого дойдёт, — по синтаксической структуре.

Re: office+VCS

[personal profile] sur_kg 2017-06-28 04:07 pm (UTC)(link)
Я и не подозревал что слово "Маркдаун" еще может быть использовано как имя собственное. Классно, что есть единый стандарт, буду его использовать.

Вот только заменой WYSIWYG редактированию в MS Word оно не является, увы. Разбивка на страницы для печати, таблицы, inline рисунки, выделение цветом...