vitus_wagner: My photo 2005 (Default)
[personal profile] vitus_wagner
Отсканирвоанные страницы (3 с половиной GB) лежат здесь. Размеры таковы что на моем сайте места для этого уже нет, приходится на яндекс-диск выкладывать.

Обновленный торрент можно скачать по этой магнет-ссылке.

Торрент распознанной книги в open document формате здесь. Разметка сильно поехавшая.

Если у кого есть старый, и не хочется перекачивать все, то подложить содержиое старого торрента без 522 страницы.

[personal profile] crower пропустил их через файнридер. Ссылки на распознаныный файл пока не даю, поскольку в процессе выяснилось, что одна страница была сосканирована неправильно, пришлось пересканировать.


Этого всего я пока не проделал, поэтому кто скачат торрент, возьмите out0522.png с яндекса.

Теперь вопрос, что с этим делать дальше:

1. В каком формате распрсотранять невычитанный распознанный вариант. Варианта я, собственно вижу два - либо офисный формат (doc, rtf), либо html. Потому что нужен именно редактируемый формат на предмет вычитки и правки.
Как выглядит html из-под файнридера, насколько он удобен для засовывания в git/fossil и последующей правки, я не знаю. (впрочем c odt, в который неизбежно будет преобразован офисный формат, будет не легче)

2. Основная борьба при вычитке будет не с текстом, а с картинками. Особенно с фотографиями. Возможно, некоторые у меня при сканировании получились настолько темными, что придется пересканировать.

3. Как организовать вычитку? На куски какого размера правильнее делить текст, что лучше - предоставить возможность онлайн-редактирвоания или скачивания через систему управления версиями?
Кто вообще готов в этом участвовать кроме меня и [personal profile] crower?

4. В каком формате, после того как процесс будет закончен, распространять результат?
pdf с версткой, возможно более близкой к оригинальной? Html такой же (завернутый в epub для компактности), или html/epub со сплошным flow текста, без двухколончоной верстки и иллиюстрациями, распределенными в пределах главы как попало?

Date: 2017-06-26 04:22 pm (UTC)
crower: (Default)
From: [personal profile] crower
Был бы онлайн-вариант (готовый или быстро поднимаемый) я бы предпочёл его. Тот же mediawiki+proofread достаточно удобен в применении. Но стоит ли поднимать его ради одной книжки? Или, например, можно сконструировать что-то на базе fossil.

Собрал результат распознавания в doc, но гляжу на этот файл (~76 мег) и пытаюсь представить процедуру вычитки. Раздаём файл всем желающим. Нужно распределять кто что вычитывает. Открываем файл, переходим на нужную страницу, ищем соответствующий скан, вычитываем. А как внесённые изменения выгружать? Как потом их потом загружать? Получается тоже некузяво.
Можно файл порезать на куски и раздавать кусками. Тоже неблагодарная работа.
А может сразу выгрузить книжку в пофайловом варианте? Я вообще-то, уже запустил выгрузку. Одна страница — один doc-файл. Разадавать можно по сколько нужно файлов/страниц. Возвращать можно хоть одному файлу. Имя файла соответствует имени скана.

Можно было бы выгружать сразу в pdf (или конвернтуть в djvu), но боюсь с редактированием этих форматов будут проблемы.

Можно выгрузить в многофайловый вариант html - для fossil может подойти. png туда можно конвертнуть в jpg. Получится раза в 2.5 компактнее. И картинки легко подменять.

Date: 2017-06-27 03:24 pm (UTC)
crower: (Default)
From: [personal profile] crower
> "Ну, во-первых, очевидно надо резать по главам."

Ок, хотя возни будет больше.
Выкладывать буду сюда.
Именовать буду в соответствии с диапазонами страниц сканов, чтобы проще было ориентироваться.

PS. 7 и 11 заменил. 522 заменил ещё раньше.
Edited Date: 2017-06-27 03:26 pm (UTC)

Date: 2017-06-27 11:12 pm (UTC)
crower: (Default)
From: [personal profile] crower
В самом файн-ридере картинка видна с тем-же качеством, что и на скане. Видимо, при выгрузке он "оптимизирует" отображение, растянув имеющиеся градации серого цвета на всю шкалу, поэтому и получается вот такая печаль.
Попробовал объяснить ему, что эту картинку нужно рассматривать не как "качество цветопередачи - автоматическое", а что это чёрно-белое фото. Выгрузил, посмотрел получившийся doc-файл — вроде получилось как требовалось.
Ну, значит теперь надо будет по всей книге заново пройтись.

Date: 2017-06-30 04:11 pm (UTC)
crower: (Default)
From: [personal profile] crower
Прошёлся по картинкам ещё раз, явно указал форматы. Заодно поправил разные ошибки разметки.
Общий размер увеличился мега на три. Выложил doc/rtf туда же, так же побитые по главам.
Вот только многие страницы при открытии расползаются. Как мининмум в libreoffice.
Как с этим быть, пока не представляю.

Date: 2017-06-28 07:22 am (UTC)
crower: (Default)
From: [personal profile] crower
Проверил под виндой — такая же хрень. Похоже, это как минимум "фича" finereader 8 professional edition.

Date: 2017-06-28 01:14 pm (UTC)
yurikhan: (Default)
From: [personal profile] yurikhan
Во времена начала разработки FineReader’а злобно положить rtf — это был единственный разумный способ доставить форматированный текст в Word. HTML+CSS дозрел гораздо позже, а нативный формат был не документирован.

Date: 2017-06-28 02:00 pm (UTC)
yurikhan: (Default)
From: [personal profile] yurikhan
Не очевидно. rtf мог открываться Wordpad’ом.

Profile

vitus_wagner: My photo 2005 (Default)
vitus_wagner

June 2025

S M T W T F S
1 23 4 56 7
89 1011 12 13 14
1516 17 18 192021
22232425262728
2930     

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 23rd, 2025 11:01 am
Powered by Dreamwidth Studios