vitus_wagner: My photo 2005 (Default)
vitus_wagner ([personal profile] vitus_wagner) wrote 2022-12-10 05:38 pm (UTC)

На самом деле на смартфоне у менся сейчас лежит не полный миррор флибусты а всего около 2 с половиной гигабайт книг (далеко не все из которых есть на флибусте, там полно всяких англоязычных с archive.org, gutenberg и даже с амазона).

Вот что с таким объемом текста постгрес на паре гигов справится (А столько в смартфоне есть) я уверен.

Но пока я развлекаюсь с полнотекстовым поиском в sqlite. Там правда с токенайзерами как-то плоховато - hunspell-овские в отличие от постгреса туда не прикручиваются. А поиск по русскому тексту без токенайзера это как-то даже не интересно.

На самом деле полнотекстовый поиск для меня задача далеко не первоочередная. Первоочередная это поддержка миррора флибусты + система исправления ошибок в нём. А то я знаю что на этой флибусте в fb2 есть несколько тысяч файлов с not well-formed xml, а уж сколько не соответствующих XML Schema FictionBook 2.1 - и подумать страшно. Полнотекстовый поиск по архиву fb2 когда-то делат [personal profile] nataraj. Но не помню подробностей.


Post a comment in response:

This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting