На самом деле на смартфоне у менся сейчас лежит не полный миррор флибусты а всего около 2 с половиной гигабайт книг (далеко не все из которых есть на флибусте, там полно всяких англоязычных с archive.org, gutenberg и даже с амазона).
Вот что с таким объемом текста постгрес на паре гигов справится (А столько в смартфоне есть) я уверен.
Но пока я развлекаюсь с полнотекстовым поиском в sqlite. Там правда с токенайзерами как-то плоховато - hunspell-овские в отличие от постгреса туда не прикручиваются. А поиск по русскому тексту без токенайзера это как-то даже не интересно.
На самом деле полнотекстовый поиск для меня задача далеко не первоочередная. Первоочередная это поддержка миррора флибусты + система исправления ошибок в нём. А то я знаю что на этой флибусте в fb2 есть несколько тысяч файлов с not well-formed xml, а уж сколько не соответствующих XML Schema FictionBook 2.1 - и подумать страшно. Полнотекстовый поиск по архиву fb2 когда-то делат nataraj. Но не помню подробностей.
no subject
Date: 2022-12-10 05:38 pm (UTC)На самом деле на смартфоне у менся сейчас лежит не полный миррор флибусты а всего около 2 с половиной гигабайт книг (далеко не все из которых есть на флибусте, там полно всяких англоязычных с archive.org, gutenberg и даже с амазона).
Вот что с таким объемом текста постгрес на паре гигов справится (А столько в смартфоне есть) я уверен.
Но пока я развлекаюсь с полнотекстовым поиском в sqlite. Там правда с токенайзерами как-то плоховато - hunspell-овские в отличие от постгреса туда не прикручиваются. А поиск по русскому тексту без токенайзера это как-то даже не интересно.
На самом деле полнотекстовый поиск для меня задача далеко не первоочередная. Первоочередная это поддержка миррора флибусты + система исправления ошибок в нём. А то я знаю что на этой флибусте в fb2 есть несколько тысяч файлов с not well-formed xml, а уж сколько не соответствующих XML Schema FictionBook 2.1 - и подумать страшно. Полнотекстовый поиск по архиву fb2 когда-то делат
nataraj. Но не помню подробностей.