И еще про энциклопедию «Море»
Jun. 26th, 2017 03:11 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Отсканирвоанные страницы (3 с половиной GB) лежат здесь. Размеры таковы что на моем сайте места для этого уже нет, приходится на яндекс-диск выкладывать.
Обновленный торрент можно скачать по этой магнет-ссылке.
Торрент распознанной книги в open document формате здесь. Разметка сильно поехавшая.
Если у кого есть старый, и не хочется перекачивать все, то подложить содержиое старого торрента без 522 страницы.
crower пропустил их через файнридер. Ссылки на распознаныный файл пока не даю, поскольку в процессе выяснилось, что одна страница была сосканирована неправильно, пришлось пересканировать.
Этого всего я пока не проделал, поэтому кто скачат торрент, возьмите out0522.png с яндекса.
Теперь вопрос, что с этим делать дальше:
1. В каком формате распрсотранять невычитанный распознанный вариант. Варианта я, собственно вижу два - либо офисный формат (doc, rtf), либо html. Потому что нужен именно редактируемый формат на предмет вычитки и правки.
Как выглядит html из-под файнридера, насколько он удобен для засовывания в git/fossil и последующей правки, я не знаю. (впрочем c odt, в который неизбежно будет преобразован офисный формат, будет не легче)
2. Основная борьба при вычитке будет не с текстом, а с картинками. Особенно с фотографиями. Возможно, некоторые у меня при сканировании получились настолько темными, что придется пересканировать.
3. Как организовать вычитку? На куски какого размера правильнее делить текст, что лучше - предоставить возможность онлайн-редактирвоания или скачивания через систему управления версиями?
Кто вообще готов в этом участвовать кроме меня и
crower?
4. В каком формате, после того как процесс будет закончен, распространять результат?
pdf с версткой, возможно более близкой к оригинальной? Html такой же (завернутый в epub для компактности), или html/epub со сплошным flow текста, без двухколончоной верстки и иллиюстрациями, распределенными в пределах главы как попало?
Обновленный торрент можно скачать по этой магнет-ссылке.
Торрент распознанной книги в open document формате здесь. Разметка сильно поехавшая.
Если у кого есть старый, и не хочется перекачивать все, то подложить содержиое старого торрента без 522 страницы.
![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Этого всего я пока не проделал, поэтому кто скачат торрент, возьмите out0522.png с яндекса.
Теперь вопрос, что с этим делать дальше:
1. В каком формате распрсотранять невычитанный распознанный вариант. Варианта я, собственно вижу два - либо офисный формат (doc, rtf), либо html. Потому что нужен именно редактируемый формат на предмет вычитки и правки.
Как выглядит html из-под файнридера, насколько он удобен для засовывания в git/fossil и последующей правки, я не знаю. (впрочем c odt, в который неизбежно будет преобразован офисный формат, будет не легче)
2. Основная борьба при вычитке будет не с текстом, а с картинками. Особенно с фотографиями. Возможно, некоторые у меня при сканировании получились настолько темными, что придется пересканировать.
3. Как организовать вычитку? На куски какого размера правильнее делить текст, что лучше - предоставить возможность онлайн-редактирвоания или скачивания через систему управления версиями?
Кто вообще готов в этом участвовать кроме меня и
![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
4. В каком формате, после того как процесс будет закончен, распространять результат?
pdf с версткой, возможно более близкой к оригинальной? Html такой же (завернутый в epub для компактности), или html/epub со сплошным flow текста, без двухколончоной верстки и иллиюстрациями, распределенными в пределах главы как попало?
no subject
Date: 2017-06-26 02:17 pm (UTC)Если смогу стащить, ага.
ЗЫ: это на русском?
А то качественно вычитать я могу только на нем (и еще на английском, хоть его-то как-раз почти не знаю. Гм, что-то вот с грамматикой зато у меня окей, сама не понимаю как оно так... Просто очепятки в нем сами бросаются в глаза. Почему-то.)
no subject
Date: 2017-06-26 02:36 pm (UTC)А вот c html-ем будет хотеться делать что-то еще кроме обработки его в офисной программе.
Впрочем с odt тоже будет хотеться что-то сделать чтобы сливать изменения, сделанные разными людьми, воедино.
(no subject)
From:no subject
Date: 2017-06-26 03:38 pm (UTC)Советы по сканированию
no subject
Date: 2017-06-26 04:51 pm (UTC)(no subject)
From:(no subject)
From:no subject
Date: 2017-06-26 04:22 pm (UTC)Собрал результат распознавания в doc, но гляжу на этот файл (~76 мег) и пытаюсь представить процедуру вычитки. Раздаём файл всем желающим. Нужно распределять кто что вычитывает. Открываем файл, переходим на нужную страницу, ищем соответствующий скан, вычитываем. А как внесённые изменения выгружать? Как потом их потом загружать? Получается тоже некузяво.
Можно файл порезать на куски и раздавать кусками. Тоже неблагодарная работа.
А может сразу выгрузить книжку в пофайловом варианте? Я вообще-то, уже запустил выгрузку. Одна страница — один doc-файл. Разадавать можно по сколько нужно файлов/страниц. Возвращать можно хоть одному файлу. Имя файла соответствует имени скана.
Можно было бы выгружать сразу в pdf (или конвернтуть в djvu), но боюсь с редактированием этих форматов будут проблемы.
Можно выгрузить в многофайловый вариант html - для fossil может подойти. png туда можно конвертнуть в jpg. Получится раза в 2.5 компактнее. И картинки легко подменять.
no subject
Date: 2017-06-26 04:50 pm (UTC)Что касается конвертации png в jpg то с этим нужно содержательнро разбираться. Для фотографий - несомненно делать. Для всяких схем и карт - не факт, возможно там битональный или 16-оттеночный png будет более правильным.
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2017-06-26 05:00 pm (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2017-06-26 04:54 pm (UTC)no subject
Date: 2017-06-26 05:11 pm (UTC)Хотя, на самом деле, если ее кто-то соберется поднимать, более удобный способ доступа к отсканированным оригиналам, в смысле место где просто 620 png-файлов лежат и на каждый можно давать прямую ссылку без извратов по преодолению яндексовского API, было бы неплохо. Если тебя устраивает протокол bittorrent как способ переместить файлы из того места, где они есть сейчас, на хостинг, то просто бери и выкладывай. Если нет, давай свои предложения, как тебе выдать эти файлы.
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2017-06-26 07:18 pm (UTC)Или постранично в HTML с выкладкой в онлайне.
Кстати, если рисунок получился слишком темным, то можно не пересканировать, а поправить в каком-либо растровом редакторе. Некоторые допускают пакетную обработку (с этим к фотографам лучше всего).
no subject
Date: 2017-06-26 07:43 pm (UTC)Но это не к данному случаю fb2 это FictionBook2 - формат, предназначенный для художественных книг. А мы имеем книгу научно-популярную.
У которой на каждой странице по пять иллюистраций, часто встречаются таблицы и т.д. В общем криво оно будет в fb2 смореться.
Надо сказать, что ИНОГДА перетемненные при сканировании фотографии можно поправить в растровом редакторе. А иногда - нельзя. Информация при неправильной гамме может быть утрачена безвозвратно. И если таковые фотографии будут в процессе правки в растровом редакторе обнаружены, соотвесттвующие страницы придется пересканировать.
На пакетную обработку тут, увы. надеяться не приходится - придется глазками смотреть.
Вообще данная книга - это почти фотоальбом. Поэтому и возникает желание использовать формат, сохраняющий исходную верстку. например pdf.
Формат djvu используют не от хорошей жизни. Если от OCR-ить нет возможносьти Если нужно собрать в книгу непосредствено отсканированные картинки, он гораздо компактнее pdf.
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:office+VCS
Date: 2017-06-27 02:30 pm (UTC)DOC - классно, но хочется текстовый diff-view.
RTF - тру-текст, но... Вместо русских букв - escape-последовальности. Картинки - только несжатый bitmap в виде того же текста. Или мне нужно юзать более другой софт?
MS Word xml - круто, но Word всегда при сохранении ужимает весь файл в одну строку, от чего текстовые diff-view-еры падают в обморок. Как лечить - не знаю.
ODT или HTML - как оно там с переносимым WYSIWYG c разбивкой на страницы A4?
Re: office+VCS
Date: 2017-06-27 02:44 pm (UTC)А для doc и rtf можно catdoc прикрутить.
Сложнее то, что нам нужно не столько diff, сколько merge. Вот решений которые бы позволяли мерджить офисные форматы я не нашел.
Только средствами самого офиса, но там это работает только если заранее, перед тем как делать изменения включить режим Track Changes.
Re: office+VCS
From:Re: office+VCS
Date: 2017-06-27 02:54 pm (UTC)Маркдаун, конечно. Со смысловой разбивкой по строкам.
Re: office+VCS
From:Re: office+VCS
From:Re: office+VCS
From:Re: office+VCS
From:Re: office+VCS
From:no subject
Date: 2017-06-27 02:32 pm (UTC)no subject
Date: 2017-06-27 02:45 pm (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2017-06-27 07:14 pm (UTC)По поводу вычитки - я бы текст залил в любую вики по чаптерам/главам и дал бы редактирование желающим. Готовый collaboration.
no subject
Date: 2017-06-28 04:17 am (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2017-06-27 09:38 pm (UTC)no subject
Date: 2017-06-28 04:15 am (UTC)Вопрос в том, что
1. Отсканированный текст, даже после преобразований выполняемых инструментам вроде scantailor читать куда менее удобно, чем набранный.
2. Объем работы по OCR на самом деле не очень велик и в принципе уже проделан
(no subject)
From:(no subject)
From:no subject
Date: 2017-06-28 02:54 pm (UTC)Для конечного результата я бы посоветовал выбрать таки pdf или djvu.
no subject
Date: 2017-06-28 03:07 pm (UTC)(no subject)
From:no subject
Date: 2017-07-02 05:46 am (UTC)no subject
Date: 2017-07-02 05:59 am (UTC)И привязка картинок к тексту имеет очень большое значение. Собственно на протяжении сотни комментариев идет обсуждение о том, что необходимо сохранить оригинальную верстку, поскольку она ценна.
То есть ты начал давать советы, не только не посмотрев на то, о чем идет речь, но и не прочитав дискуссию
За такое я буду безжалостно банить. Лично знакомых - не с первого раза.
Но запомни - Прежде чем комментировать в моем журнале, нужно прочитать не только пост, но и все комментарии, а если в посте есть ссылка, то и текст по ссылке. (а желательно и пару предыдущих дискуссий по тому же тегу). А то за тобой водится начать отвечать прочитав только первый абзац.
(no subject)
From:(no subject)
From:no subject
Date: 2017-07-09 01:56 am (UTC)no subject
Date: 2017-07-09 07:29 pm (UTC)