vitus_wagner | И еще про энциклопедию «Море»

Отсканирвоанные страницы (3 с половиной GB) лежат здесь. Размеры таковы что на моем сайте места для этого уже нет, приходится на яндекс-диск выкладывать.

Обновленный торрент можно скачать по этой магнет-ссылке.

Торрент распознанной книги в open document формате здесь. Разметка сильно поехавшая.

Если у кого есть старый, и не хочется перекачивать все, то подложить содержиое старого торрента без 522 страницы.

crower пропустил их через файнридер. Ссылки на распознаныный файл пока не даю, поскольку в процессе выяснилось, что одна страница была сосканирована неправильно, пришлось пересканировать.

Этого всего я пока не проделал, поэтому кто скачат торрент, возьмите out0522.png с яндекса.

Теперь вопрос, что с этим делать дальше:

1. В каком формате распрсотранять невычитанный распознанный вариант. Варианта я, собственно вижу два - либо офисный формат (doc, rtf), либо html. Потому что нужен именно редактируемый формат на предмет вычитки и правки.
Как выглядит html из-под файнридера, насколько он удобен для засовывания в git/fossil и последующей правки, я не знаю. (впрочем c odt, в который неизбежно будет преобразован офисный формат, будет не легче)

2. Основная борьба при вычитке будет не с текстом, а с картинками. Особенно с фотографиями. Возможно, некоторые у меня при сканировании получились настолько темными, что придется пересканировать.

3. Как организовать вычитку? На куски какого размера правильнее делить текст, что лучше - предоставить возможность онлайн-редактирвоания или скачивания через систему управления версиями?
Кто вообще готов в этом участвовать кроме меня и

crower?

4. В каком формате, после того как процесс будет закончен, распространять результат?
pdf с версткой, возможно более близкой к оригинальной? Html такой же (завернутый в epub для компактности), или html/epub со сплошным flow текста, без двухколончоной верстки и иллиюстрациями, распределенными в пределах главы как попало?

Crossposts: http://vitus-wagner.livejournal.com/1297669.html

Flat | Top-Level Comments Only

From:

crower

Был бы онлайн-вариант (готовый или быстро поднимаемый) я бы предпочёл его. Тот же mediawiki+proofread достаточно удобен в применении. Но стоит ли поднимать его ради одной книжки? Или, например, можно сконструировать что-то на базе fossil.

Собрал результат распознавания в doc, но гляжу на этот файл (~76 мег) и пытаюсь представить процедуру вычитки. Раздаём файл всем желающим. Нужно распределять кто что вычитывает. Открываем файл, переходим на нужную страницу, ищем соответствующий скан, вычитываем. А как внесённые изменения выгружать? Как потом их потом загружать? Получается тоже некузяво.
Можно файл порезать на куски и раздавать кусками. Тоже неблагодарная работа.
А может сразу выгрузить книжку в пофайловом варианте? Я вообще-то, уже запустил выгрузку. Одна страница — один doc-файл. Разадавать можно по сколько нужно файлов/страниц. Возвращать можно хоть одному файлу. Имя файла соответствует имени скана.

Можно было бы выгружать сразу в pdf (или конвернтуть в djvu), но боюсь с редактированием этих форматов будут проблемы.

Можно выгрузить в многофайловый вариант html - для fossil может подойти. png туда можно конвертнуть в jpg. Получится раза в 2.5 компактнее. И картинки легко подменять.

From:

vitus_wagner

Ну, во-первых, очевидно надо резать по главам.

Что касается конвертации png в jpg то с этим нужно содержательнро разбираться. Для фотографий - несомненно делать. Для всяких схем и карт - не факт, возможно там битональный или 16-оттеночный png будет более правильным.

From:

crower

> "Ну, во-первых, очевидно надо резать по главам."

Ок, хотя возни будет больше.
Выкладывать буду сюда.
Именовать буду в соответствии с диапазонами страниц сканов, чтобы проще было ориентироваться.

PS. 7 и 11 заменил. 522 заменил ещё раньше.

Edited Date: 2017-06-27 03:26 pm (UTC)

From:

vitus_wagner

Вот интересно, за что файн-ридер так не любит картинку с Согне-фиордом на 10-й странице. Он ее убил совсем, хотя на скане вроде нормальная страница.

На 7-й странице есть загиб, который тоже, видимо надо заменить.

И еще надо заменить обложку - 0-ю страницу. Я с ней мучался, мучался, пытаясь добиться нормальной цветопередачи, но сканер от этого рельефного коленкора охреневает. В конце концов плюнул, и нарисовал ее, подобрав цвета на глаз, а изображение рыбы с якорем взяв с титульного листа.

From:

crower

В самом файн-ридере картинка видна с тем-же качеством, что и на скане. Видимо, при выгрузке он "оптимизирует" отображение, растянув имеющиеся градации серого цвета на всю шкалу, поэтому и получается вот такая печаль.
Попробовал объяснить ему, что эту картинку нужно рассматривать не как "качество цветопередачи - автоматическое", а что это чёрно-белое фото. Выгрузил, посмотрел получившийся doc-файл — вроде получилось как требовалось.
Ну, значит теперь надо будет по всей книге заново пройтись.

From:

crower

Прошёлся по картинкам ещё раз, явно указал форматы. Заодно поправил разные ошибки разметки.
Общий размер увеличился мега на три. Выложил doc/rtf туда же, так же побитые по главам.
Вот только многие страницы при открытии расползаются. Как мининмум в libreoffice.
Как с этим быть, пока не представляю.

From:

vitus_wagner

Это круто. Вот это уже можно, наверное, публиковать.
Подозреваю, что расползание страниц придется лечить правкой руками, в процессе вычитки опечаток.

From:

vitus_wagner

Да, finereader злобно положил rtf вместо doc.

From:

crower

Проверил под виндой — такая же хрень. Похоже, это как минимум "фича" finereader 8 professional edition.

From:

yurikhan

Во времена начала разработки FineReader’а злобно положить rtf — это был единственный разумный способ доставить форматированный текст в Word. HTML+CSS дозрел гораздо позже, а нативный формат был не документирован.

From:

vitus_wagner

Злобность заключается в положении rtf ы файл с расширением doc. Тем, кто не понимает разницы, должно быть пофиг - они в обоих случаях увидят иконку с W.

From:

yurikhan

Не очевидно. rtf мог открываться Wordpad’ом.

From:

vitus_wagner

doc - тоже, Но иконка у него вордовая.

Flat | Top-Level Comments Only

Profile

vitus_wagner

My Website

June 2025

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Page Summary

crower - (no subject)

Style Credit

Style: Clarity for Paletteable by branchandroot
Resources: Holiday

Expand Cut Tags

No cut tags

Page generated Jun. 23rd, 2025 11:01 am

Журнал Витуса

И еще про энциклопедию «Море»

И еще про энциклопедию «Море»

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

June 2025

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags