И еще про энциклопедию «Море»
Jun. 26th, 2017 03:11 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Отсканирвоанные страницы (3 с половиной GB) лежат здесь. Размеры таковы что на моем сайте места для этого уже нет, приходится на яндекс-диск выкладывать.
Обновленный торрент можно скачать по этой магнет-ссылке.
Торрент распознанной книги в open document формате здесь. Разметка сильно поехавшая.
Если у кого есть старый, и не хочется перекачивать все, то подложить содержиое старого торрента без 522 страницы.
crower пропустил их через файнридер. Ссылки на распознаныный файл пока не даю, поскольку в процессе выяснилось, что одна страница была сосканирована неправильно, пришлось пересканировать.
Этого всего я пока не проделал, поэтому кто скачат торрент, возьмите out0522.png с яндекса.
Теперь вопрос, что с этим делать дальше:
1. В каком формате распрсотранять невычитанный распознанный вариант. Варианта я, собственно вижу два - либо офисный формат (doc, rtf), либо html. Потому что нужен именно редактируемый формат на предмет вычитки и правки.
Как выглядит html из-под файнридера, насколько он удобен для засовывания в git/fossil и последующей правки, я не знаю. (впрочем c odt, в который неизбежно будет преобразован офисный формат, будет не легче)
2. Основная борьба при вычитке будет не с текстом, а с картинками. Особенно с фотографиями. Возможно, некоторые у меня при сканировании получились настолько темными, что придется пересканировать.
3. Как организовать вычитку? На куски какого размера правильнее делить текст, что лучше - предоставить возможность онлайн-редактирвоания или скачивания через систему управления версиями?
Кто вообще готов в этом участвовать кроме меня и
crower?
4. В каком формате, после того как процесс будет закончен, распространять результат?
pdf с версткой, возможно более близкой к оригинальной? Html такой же (завернутый в epub для компактности), или html/epub со сплошным flow текста, без двухколончоной верстки и иллиюстрациями, распределенными в пределах главы как попало?
Обновленный торрент можно скачать по этой магнет-ссылке.
Торрент распознанной книги в open document формате здесь. Разметка сильно поехавшая.
Если у кого есть старый, и не хочется перекачивать все, то подложить содержиое старого торрента без 522 страницы.
![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Этого всего я пока не проделал, поэтому кто скачат торрент, возьмите out0522.png с яндекса.
Теперь вопрос, что с этим делать дальше:
1. В каком формате распрсотранять невычитанный распознанный вариант. Варианта я, собственно вижу два - либо офисный формат (doc, rtf), либо html. Потому что нужен именно редактируемый формат на предмет вычитки и правки.
Как выглядит html из-под файнридера, насколько он удобен для засовывания в git/fossil и последующей правки, я не знаю. (впрочем c odt, в который неизбежно будет преобразован офисный формат, будет не легче)
2. Основная борьба при вычитке будет не с текстом, а с картинками. Особенно с фотографиями. Возможно, некоторые у меня при сканировании получились настолько темными, что придется пересканировать.
3. Как организовать вычитку? На куски какого размера правильнее делить текст, что лучше - предоставить возможность онлайн-редактирвоания или скачивания через систему управления версиями?
Кто вообще готов в этом участвовать кроме меня и
![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
4. В каком формате, после того как процесс будет закончен, распространять результат?
pdf с версткой, возможно более близкой к оригинальной? Html такой же (завернутый в epub для компактности), или html/epub со сплошным flow текста, без двухколончоной верстки и иллиюстрациями, распределенными в пределах главы как попало?
no subject
Date: 2017-06-26 04:22 pm (UTC)Собрал результат распознавания в doc, но гляжу на этот файл (~76 мег) и пытаюсь представить процедуру вычитки. Раздаём файл всем желающим. Нужно распределять кто что вычитывает. Открываем файл, переходим на нужную страницу, ищем соответствующий скан, вычитываем. А как внесённые изменения выгружать? Как потом их потом загружать? Получается тоже некузяво.
Можно файл порезать на куски и раздавать кусками. Тоже неблагодарная работа.
А может сразу выгрузить книжку в пофайловом варианте? Я вообще-то, уже запустил выгрузку. Одна страница — один doc-файл. Разадавать можно по сколько нужно файлов/страниц. Возвращать можно хоть одному файлу. Имя файла соответствует имени скана.
Можно было бы выгружать сразу в pdf (или конвернтуть в djvu), но боюсь с редактированием этих форматов будут проблемы.
Можно выгрузить в многофайловый вариант html - для fossil может подойти. png туда можно конвертнуть в jpg. Получится раза в 2.5 компактнее. И картинки легко подменять.
no subject
Date: 2017-06-26 04:50 pm (UTC)Что касается конвертации png в jpg то с этим нужно содержательнро разбираться. Для фотографий - несомненно делать. Для всяких схем и карт - не факт, возможно там битональный или 16-оттеночный png будет более правильным.
no subject
Date: 2017-06-27 03:24 pm (UTC)Ок, хотя возни будет больше.
Выкладывать буду сюда.
Именовать буду в соответствии с диапазонами страниц сканов, чтобы проще было ориентироваться.
PS. 7 и 11 заменил. 522 заменил ещё раньше.
no subject
Date: 2017-06-27 06:21 pm (UTC)На 7-й странице есть загиб, который тоже, видимо надо заменить.
И еще надо заменить обложку - 0-ю страницу. Я с ней мучался, мучался, пытаясь добиться нормальной цветопередачи, но сканер от этого рельефного коленкора охреневает. В конце концов плюнул, и нарисовал ее, подобрав цвета на глаз, а изображение рыбы с якорем взяв с титульного листа.
no subject
Date: 2017-06-27 11:12 pm (UTC)Попробовал объяснить ему, что эту картинку нужно рассматривать не как "качество цветопередачи - автоматическое", а что это чёрно-белое фото. Выгрузил, посмотрел получившийся doc-файл — вроде получилось как требовалось.
Ну, значит теперь надо будет по всей книге заново пройтись.
no subject
Date: 2017-06-30 04:11 pm (UTC)Общий размер увеличился мега на три. Выложил doc/rtf туда же, так же побитые по главам.
Вот только многие страницы при открытии расползаются. Как мининмум в libreoffice.
Как с этим быть, пока не представляю.
no subject
Date: 2017-06-30 04:32 pm (UTC)Подозреваю, что расползание страниц придется лечить правкой руками, в процессе вычитки опечаток.
no subject
Date: 2017-06-26 05:00 pm (UTC)no subject
Date: 2017-06-28 07:22 am (UTC)no subject
Date: 2017-06-28 01:14 pm (UTC)no subject
Date: 2017-06-28 01:53 pm (UTC)no subject
Date: 2017-06-28 02:00 pm (UTC)no subject
Date: 2017-06-28 03:05 pm (UTC)