Про жж-шный поиск.
Apr. 5th, 2015 05:58 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Пришел к выводу что яндексовский поиск совсем нихрена не ловит мышей в ЖЖ.
Когда мне потребовалось найти собственный пост 2005 года, ни оно, ни тот якобы поиск, который в шапке ЖЖ (а на самом деле там ссылка на гугль) не смогло мне его найти.
Пришлось искать банальным grep-ом по сохраненной копии ЖЖ. В связи с этим я решил, что надо бы эту самую сохраненную копию поддерживать в более актуалльном состоянии.
Прикрутить что-ли ее обновление по крону и xapian-овский индекс к ней приделать?
Одно плохо - эта копия у меня делается довольно старой версией ljsm, которая в разворачивании тредов полагалась на внешний сервис, а тот сервис давно умер.
В результате комментарии сбэкпалены далеко не все. Ну не то, чтобы я очень по этому поводу переживал, но интересно есть ли решения лучше.
Задача - создать копию ЖЖ на своем локальном диске, чтобы было возможно больше информации (включая комментарии, вставленные со сторонних сайтов изображения и т.д) и чтобы всё это можно было смотреть браузером как статический сайт.
Когда мне потребовалось найти собственный пост 2005 года, ни оно, ни тот якобы поиск, который в шапке ЖЖ (а на самом деле там ссылка на гугль) не смогло мне его найти.
Пришлось искать банальным grep-ом по сохраненной копии ЖЖ. В связи с этим я решил, что надо бы эту самую сохраненную копию поддерживать в более актуалльном состоянии.
Прикрутить что-ли ее обновление по крону и xapian-овский индекс к ней приделать?
Одно плохо - эта копия у меня делается довольно старой версией ljsm, которая в разворачивании тредов полагалась на внешний сервис, а тот сервис давно умер.
В результате комментарии сбэкпалены далеко не все. Ну не то, чтобы я очень по этому поводу переживал, но интересно есть ли решения лучше.
Задача - создать копию ЖЖ на своем локальном диске, чтобы было возможно больше информации (включая комментарии, вставленные со сторонних сайтов изображения и т.д) и чтобы всё это можно было смотреть браузером как статический сайт.
no subject
Date: 2015-04-05 03:54 pm (UTC)А кроме комментариев прочее бэкапится? Когда я в прошлом году решил проверить свои ljsm-овские архивы, то выяснил, что ЖЖ, похоже, как-то сменил формат. И в результате то, что сбэкапил ljsm, непригодно к использованию.
no subject
Date: 2015-04-05 04:20 pm (UTC)С первого раза нормально сбэкапился 2015 год, а 2014 и 2013 создались файлы нулевой длины. Со второго - сбэкапились все.
Формат страницы они, правда, поменяли, так что пришлось немного править скрипт, чтобы он прописывал в индекс заголовки постов. Там было что-то штуки три варианта регекспа для этой цели, ни один не работал. Пришлось 4-й добавить.
no subject
Date: 2015-04-05 05:09 pm (UTC)no subject
Date: 2015-04-05 07:33 pm (UTC)Видим там кучу строчкек вида
Добавляем к ним еще одну:
no subject
Date: 2015-04-06 04:40 pm (UTC)no subject
Date: 2015-04-06 01:44 am (UTC)Вроде бы там влезла бага с обработкой тега hr (всё-таки ларри сумасшедший с его операций ... со встроенным триггером). Я в августе прошлого года напоролся, в итоге просто закомментировал нафиг вот этот абзац, и всё заработало:
И мне КАЗАЛОСЬ, что комментарии он все сохраняет, но не в виде html, а в виде каких-то json-овских структур для последующего разворачивания джаваскриптом. Но тут я мог не приметить слона, на эти мои слова лучше не рассчитывать. Ща пойду сбекаплю мартовский кусок (я ЖЖ бекаплю более-менее раз в месяц), заодно освежу в голове, что там и как.
... Бессмысленно и беспощадно! ...
no subject
Date: 2015-04-06 04:12 am (UTC)no subject
Date: 2015-04-06 04:51 am (UTC)На всякий случай повторюсь про пустые посты, а то я как-то непонятно написал: ljsm.pl пытался выкусывать полоску навигации, определяя её по двум hr, и используя для этого гениальную операцию ... со встроенным в неё флагом. В результате, встретив случайно ОДНУ (для зануд -- нечётное количество) hr, он начинал выкусывать вообще всё. Разбираться содержательно я не стал, просто оторвал всю эту логику нафиг, заработало для меня нормально. Мой экземпляр ljsm.pl с мелкими правками лежит здесь.
Раз уж речь зашла про ЖЖ, немного оффтопика: я тут в процессе ремонта после очередных улучшений от СУПа (хотя не могу даже сказать, что они как-то особенно виноваты: реклама, конечно, зло, но поддерживать корректную работу всех стилей со сторонним выкусывальшиком рекламы они всё-таки не обязаны; в общем, проще оказалось сменить стиль, что я и сделал)... в общем, в этом процессе я вспомнил, что один из интересов, который разделяем строго мы с тобой и никто больше, написан с точки зрения английского языка просто неверно. Ну то есть я давно это в принципе знал, но всё не было повода почесаться. "Computational aesthetic" неправильно, потому что существительное "эстетика" будет "aesthetics" (используется как единственное число), а "aesthetic" -- это прилагательное. В общем, я у себя исправил (добавил "s"), предлагаю тебе тоже. В эстетических целях. :-)
... Проблемы шерифа негров не волнуют ...
no subject
Date: 2015-04-06 06:23 am (UTC)Я был склонен списать это на глюк ЖЖ, которые последнее время регулярны.