vitus_wagner: My photo 2005 (Default)
[personal profile] vitus_wagner
Отсканирвоанные страницы (3 с половиной GB) лежат здесь. Размеры таковы что на моем сайте места для этого уже нет, приходится на яндекс-диск выкладывать.

Обновленный торрент можно скачать по этой магнет-ссылке.

Торрент распознанной книги в open document формате здесь. Разметка сильно поехавшая.

Если у кого есть старый, и не хочется перекачивать все, то подложить содержиое старого торрента без 522 страницы.

[personal profile] crower пропустил их через файнридер. Ссылки на распознаныный файл пока не даю, поскольку в процессе выяснилось, что одна страница была сосканирована неправильно, пришлось пересканировать.


Этого всего я пока не проделал, поэтому кто скачат торрент, возьмите out0522.png с яндекса.

Теперь вопрос, что с этим делать дальше:

1. В каком формате распрсотранять невычитанный распознанный вариант. Варианта я, собственно вижу два - либо офисный формат (doc, rtf), либо html. Потому что нужен именно редактируемый формат на предмет вычитки и правки.
Как выглядит html из-под файнридера, насколько он удобен для засовывания в git/fossil и последующей правки, я не знаю. (впрочем c odt, в который неизбежно будет преобразован офисный формат, будет не легче)

2. Основная борьба при вычитке будет не с текстом, а с картинками. Особенно с фотографиями. Возможно, некоторые у меня при сканировании получились настолько темными, что придется пересканировать.

3. Как организовать вычитку? На куски какого размера правильнее делить текст, что лучше - предоставить возможность онлайн-редактирвоания или скачивания через систему управления версиями?
Кто вообще готов в этом участвовать кроме меня и [personal profile] crower?

4. В каком формате, после того как процесс будет закончен, распространять результат?
pdf с версткой, возможно более близкой к оригинальной? Html такой же (завернутый в epub для компактности), или html/epub со сплошным flow текста, без двухколончоной верстки и иллиюстрациями, распределенными в пределах главы как попало?

Date: 2017-06-26 02:17 pm (UTC)
vera_croose: Vera (Default)
From: [personal profile] vera_croose
ПДФ не умею, но html в две колонки легко!
Если смогу стащить, ага.
ЗЫ: это на русском?
А то качественно вычитать я могу только на нем (и еще на английском, хоть его-то как-раз почти не знаю. Гм, что-то вот с грамматикой зато у меня окей, сама не понимаю как оно так... Просто очепятки в нем сами бросаются в глаза. Почему-то.)

(no subject)

From: [personal profile] beldmit - Date: 2017-06-26 03:08 pm (UTC) - Expand

Date: 2017-06-26 03:38 pm (UTC)
From: [personal profile] cross_join
На всякий случай.
Советы по сканированию

(no subject)

From: [personal profile] cross_join - Date: 2017-06-26 05:46 pm (UTC) - Expand

Date: 2017-06-26 04:22 pm (UTC)
crower: (Default)
From: [personal profile] crower
Был бы онлайн-вариант (готовый или быстро поднимаемый) я бы предпочёл его. Тот же mediawiki+proofread достаточно удобен в применении. Но стоит ли поднимать его ради одной книжки? Или, например, можно сконструировать что-то на базе fossil.

Собрал результат распознавания в doc, но гляжу на этот файл (~76 мег) и пытаюсь представить процедуру вычитки. Раздаём файл всем желающим. Нужно распределять кто что вычитывает. Открываем файл, переходим на нужную страницу, ищем соответствующий скан, вычитываем. А как внесённые изменения выгружать? Как потом их потом загружать? Получается тоже некузяво.
Можно файл порезать на куски и раздавать кусками. Тоже неблагодарная работа.
А может сразу выгрузить книжку в пофайловом варианте? Я вообще-то, уже запустил выгрузку. Одна страница — один doc-файл. Разадавать можно по сколько нужно файлов/страниц. Возвращать можно хоть одному файлу. Имя файла соответствует имени скана.

Можно было бы выгружать сразу в pdf (или конвернтуть в djvu), но боюсь с редактированием этих форматов будут проблемы.

Можно выгрузить в многофайловый вариант html - для fossil может подойти. png туда можно конвертнуть в jpg. Получится раза в 2.5 компактнее. И картинки легко подменять.

(no subject)

From: [personal profile] crower - Date: 2017-06-27 03:24 pm (UTC) - Expand

(no subject)

From: [personal profile] crower - Date: 2017-06-27 11:12 pm (UTC) - Expand

(no subject)

From: [personal profile] crower - Date: 2017-06-30 04:11 pm (UTC) - Expand

(no subject)

From: [personal profile] crower - Date: 2017-06-28 07:22 am (UTC) - Expand

(no subject)

From: [personal profile] yurikhan - Date: 2017-06-28 01:14 pm (UTC) - Expand

(no subject)

From: [personal profile] yurikhan - Date: 2017-06-28 02:00 pm (UTC) - Expand

Date: 2017-06-26 04:54 pm (UTC)
qkowlew: На Зилантконе меня сфоткали мыльницей. Мыльницам не позирую! (Default)
From: [personal profile] qkowlew
Могу выложить у себя. Например на поддомене more.arda.ru :)

(no subject)

From: [personal profile] qkowlew - Date: 2017-06-26 06:38 pm (UTC) - Expand

(no subject)

From: [personal profile] sur_kg - Date: 2017-06-27 02:20 pm (UTC) - Expand

(no subject)

From: [personal profile] sur_kg - Date: 2017-06-28 02:29 pm (UTC) - Expand

(no subject)

From: [personal profile] qkowlew - Date: 2017-06-26 06:40 pm (UTC) - Expand

Date: 2017-06-26 07:18 pm (UTC)
pascendi: (Default)
From: [personal profile] pascendi
Doc или rtf, а потом в fb2 через Калибри. Самый удобный вариант. Pdf или djvu -- ужасно неудобны.

Или постранично в HTML с выкладкой в онлайне.

Кстати, если рисунок получился слишком темным, то можно не пересканировать, а поправить в каком-либо растровом редакторе. Некоторые допускают пакетную обработку (с этим к фотографам лучше всего).

(no subject)

From: [personal profile] vera_croose - Date: 2017-06-26 09:15 pm (UTC) - Expand

(no subject)

From: [personal profile] shadowfoto - Date: 2017-06-27 12:24 am (UTC) - Expand

(no subject)

From: [personal profile] vera_croose - Date: 2017-06-27 05:25 am (UTC) - Expand

(no subject)

From: [personal profile] vera_croose - Date: 2017-06-27 08:30 pm (UTC) - Expand

office+VCS

Date: 2017-06-27 02:30 pm (UTC)
From: [personal profile] sur_kg
Мне вот тоже интересно, в каком формате лучше держать офисные документы на контроле версий.

DOC - классно, но хочется текстовый diff-view.

RTF - тру-текст, но... Вместо русских букв - escape-последовальности. Картинки - только несжатый bitmap в виде того же текста. Или мне нужно юзать более другой софт?

MS Word xml - круто, но Word всегда при сохранении ужимает весь файл в одну строку, от чего текстовые diff-view-еры падают в обморок. Как лечить - не знаю.

ODT или HTML - как оно там с переносимым WYSIWYG c разбивкой на страницы A4?

Re: office+VCS

From: [personal profile] sur_kg - Date: 2017-06-28 02:50 pm (UTC) - Expand

Re: office+VCS

From: [personal profile] sur_kg - Date: 2017-06-28 02:37 pm (UTC) - Expand

Re: office+VCS

From: [personal profile] yurikhan - Date: 2017-06-28 03:42 pm (UTC) - Expand

Re: office+VCS

From: [personal profile] sur_kg - Date: 2017-06-28 04:07 pm (UTC) - Expand

Date: 2017-06-27 02:32 pm (UTC)
From: [personal profile] sur_kg
Вот сейчас пронеслась в мозгу ассоциация - энциклопедия = вики-движок?

(no subject)

From: [personal profile] yurikhan - Date: 2017-06-27 02:51 pm (UTC) - Expand

(no subject)

From: [identity profile] amarao-san.livejournal.com - Date: 2017-06-27 07:17 pm (UTC) - Expand

Date: 2017-06-27 07:14 pm (UTC)
From: [identity profile] amarao-san.livejournal.com
Поставил с рейтом триста (или пока что-нибудь не сломается) на сервер в нидерландах. (ЖЖ удаки и из магнета делают http).

По поводу вычитки - я бы текст залил в любую вики по чаптерам/главам и дал бы редактирование желающим. Готовый collaboration.

(no subject)

From: [personal profile] sur_kg - Date: 2017-06-28 04:01 pm (UTC) - Expand

(no subject)

From: [personal profile] crower - Date: 2017-06-30 04:29 pm (UTC) - Expand

(no subject)

From: [personal profile] crower - Date: 2017-07-01 06:34 am (UTC) - Expand

Date: 2017-06-27 09:38 pm (UTC)
livelight: (Default)
From: [personal profile] livelight
Насколько я понял масштабы геморроя из комментов выше, проще всего было бы сделать для каждой страницы отдельно отсканированную картинку страницы целиком и отдельно - plain text с неё же в виде, допускающем поиск и копипаст. Этим вполне можно пользоваться, и такой масштаб работы имеет хоть какие-то шансы быть завершённым, при имеющихся ресурсах.

(no subject)

From: [personal profile] livelight - Date: 2017-06-28 08:13 am (UTC) - Expand

Date: 2017-06-28 02:54 pm (UTC)
From: [personal profile] incognitus7
Несколько запоздало, но я бы посоветовал с вашими вопросами зайти на http://publ.lib.ru/ (придется зарегистрироваться) - там и эта книга вполне в общую тему ресурса и есть специалисты с опытом сканирования и перевода в разные форматы десятков и сотен книг.

Для конечного результата я бы посоветовал выбрать таки pdf или djvu.
Edited Date: 2017-06-28 02:58 pm (UTC)

(no subject)

From: [personal profile] incognitus7 - Date: 2017-06-28 03:29 pm (UTC) - Expand

Date: 2017-07-02 05:46 am (UTC)
nataraj: (Default)
From: [personal profile] nataraj
4. fb2?? Если там нет какой-то особой специфики конечно... Для меня это до сих пор формат для худ лита по умолчанию...

(no subject)

From: [personal profile] nataraj - Date: 2017-07-04 01:59 pm (UTC) - Expand

Date: 2017-07-09 01:56 am (UTC)
From: [personal profile] rbac
файл out0007.png - загнут левый верхний угол

Profile

vitus_wagner: My photo 2005 (Default)
vitus_wagner

June 2025

S M T W T F S
1 23 4 56 7
89 1011121314
15161718192021
22232425262728
2930     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 12th, 2025 08:38 am
Powered by Dreamwidth Studios