vitus_wagner: My photo 2005 (Default)
vitus_wagner ([personal profile] vitus_wagner) wrote2017-01-22 05:58 pm

О больших архивах

Попробовал тут разгрести описанным в предыдущем посте скриптом архив либрусэка завалявшийся с 2009 года.

Получилось - из менее чем 200000 книг 2176 попросту not well-formed XML. В основном от того что народ использует знаки больше-меньше (даже не сдвоенные) в вместо кавычек-елочек, а какие-то распространенные тулзы генерации FB2 это не отслеживают и не заменяют встретившийся в тексте зна < на соответствующий entity. Аналогичные проблемы возникают с амперсэндами.

Ну и плюс к тому куча пробелов, неразрывных пробелов, кавычек, скобочек в полях "имя автора". В принципе можно скрипт пофиксить, чтобы все символы, не участвующие в сортировке по библиографическим правилам, резал.

Но вообще, конечно, все это добро нуждается в вычитки и чистке от артефактов сканирования и распознавания. Поэтому я и держу настолько маленькую библиотеку, что в ней мне все-таки не лень слазить и руками исправить ошибки в XML и метаданных.

А то и пройтись по всему тексту и правильно оформить тэгами разбиение на главы.
brmail: (Default)

[personal profile] brmail 2017-01-23 07:22 am (UTC)(link)
Уверяю тебя, что троянов в интернете разбросано не так много как бинарников. Опять же, что мешает любознательному пользователю просто пойти на virustotal и разом проверить бинарник сразу 40 антивирусами? Для файлов с датой более месяца оно там вероятнее уже просто есть.
И трудно сказать как оно (32 bit) работает, но win 7 64bit его пускает прекрасно. Как видимо проблема с вашей стороны. А то, что софт ходит на внешний http - так это не бага а фича, так сказать дополнительная функциональность которой просто не стоит пользоваться. Да и собственно зачем, если локально уже все скачено, и все проиндексировано.

[personal profile] legolegs 2017-01-23 10:51 am (UTC)(link)
>Для файлов с датой более месяца оно там вероятнее уже просто есть.
sergey_cheban: (Default)

[personal profile] sergey_cheban 2017-01-23 11:21 am (UTC)(link)
Virustotal - вообще не аргумент. Вот, например, старые версии acrobat reader - дырявы по самое немогу: https://cve.mitre.org/cgi-bin/cvekey.cgi?keyword=adobe+acrobat. Все об этом прекрасно знают. А теперь покажи мне антивирус, который предупредит пользователя об опасности.
Кроме того, создатель malware всегда может модифицировать его до тех пор, пока оно не перестанет детектироваться антивирусами. Да, завтра антивирусы научатся детектировать и новую версию, но ущерб уже будет нанесён.

> Уверяю тебя, что троянов в интернете разбросано не так много как
> бинарников.
Но при установке на компьютер N бинарников вероятность остаться чистым падает экспоненциально. Как в русской рулетке.