Про жж-шный поиск.
Apr. 5th, 2015 05:58 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Пришел к выводу что яндексовский поиск совсем нихрена не ловит мышей в ЖЖ.
Когда мне потребовалось найти собственный пост 2005 года, ни оно, ни тот якобы поиск, который в шапке ЖЖ (а на самом деле там ссылка на гугль) не смогло мне его найти.
Пришлось искать банальным grep-ом по сохраненной копии ЖЖ. В связи с этим я решил, что надо бы эту самую сохраненную копию поддерживать в более актуалльном состоянии.
Прикрутить что-ли ее обновление по крону и xapian-овский индекс к ней приделать?
Одно плохо - эта копия у меня делается довольно старой версией ljsm, которая в разворачивании тредов полагалась на внешний сервис, а тот сервис давно умер.
В результате комментарии сбэкпалены далеко не все. Ну не то, чтобы я очень по этому поводу переживал, но интересно есть ли решения лучше.
Задача - создать копию ЖЖ на своем локальном диске, чтобы было возможно больше информации (включая комментарии, вставленные со сторонних сайтов изображения и т.д) и чтобы всё это можно было смотреть браузером как статический сайт.
Когда мне потребовалось найти собственный пост 2005 года, ни оно, ни тот якобы поиск, который в шапке ЖЖ (а на самом деле там ссылка на гугль) не смогло мне его найти.
Пришлось искать банальным grep-ом по сохраненной копии ЖЖ. В связи с этим я решил, что надо бы эту самую сохраненную копию поддерживать в более актуалльном состоянии.
Прикрутить что-ли ее обновление по крону и xapian-овский индекс к ней приделать?
Одно плохо - эта копия у меня делается довольно старой версией ljsm, которая в разворачивании тредов полагалась на внешний сервис, а тот сервис давно умер.
В результате комментарии сбэкпалены далеко не все. Ну не то, чтобы я очень по этому поводу переживал, но интересно есть ли решения лучше.
Задача - создать копию ЖЖ на своем локальном диске, чтобы было возможно больше информации (включая комментарии, вставленные со сторонних сайтов изображения и т.д) и чтобы всё это можно было смотреть браузером как статический сайт.
no subject
Date: 2015-04-05 03:16 pm (UTC)Экспорт по годам в .html и открытие браузером + пересохранение в .maff с картинками я делал вручную. Есть ли возможность автоматизации - надо смотреть.
no subject
Date: 2015-04-05 03:48 pm (UTC)Но все-таки задача стоит "раздать как статический сайт нормальнрым веб-сервером". Поэтому .maff это лишнее.
no subject
Date: 2015-04-05 03:18 pm (UTC)no subject
Date: 2015-04-05 03:45 pm (UTC)Комментарии со ссылками они проэтосамливают, да, а посты вроде не пропадали. у меня все ходы записаны.
no subject
Date: 2015-04-05 03:51 pm (UTC)no subject
Date: 2015-04-05 06:23 pm (UTC)Гугл действительно не видит (https://www.google.com.ua/search?q=vitus-wagner.livejournal.com+%D0%A2%D0%B0%D0%BB%D0%BB%D1%8D&ie=utf-8&oe=utf-8&gws_rd=cr&ei=P3whVZa0OsaRsAHiw4CQCg#q=site:vitus-wagner.livejournal.com+%D0%A2%D0%B0%D0%BB%D0%BB%D1%8D+%D0%BE%D1%84%D0%B8%D1%86%D0%B5%D1%80), удивительно.
Хотя, конечно, локальный бэкап блога хочется иметь независимо от того, хорошо ли он проиндексирован поисковиками.
no subject
Date: 2015-04-05 06:39 pm (UTC)no subject
Date: 2015-04-06 07:57 am (UTC)no subject
Date: 2015-04-06 08:00 am (UTC)no subject
Date: 2015-04-06 08:02 am (UTC)no subject
Date: 2015-04-06 12:59 pm (UTC)Re: яндексовский поиск совсем нихрена не ловит мышей в Ж
Date: 2015-04-05 03:22 pm (UTC)Я когда игрался с Флексум (был такой сайт у АиП, где можно было свой поиск создавать), не мог понять, чего это мои инструкции на индексирование ЖЖ платформа не выполняет.
Оказалось, что ЖЖ делает всё возможное, чтобы уважающие правила индексирования (специальные nofollow-атрибуты тэгов, меты в хедерах страницы, и т.д.) система не могла бы проиндексировать остальную часть твоего ЖЖ, отталкиваясь от одной конкретной страницы.
Например, вот, что я сейчас увидел на странице своего журнала в заголовке:
Re: яндексовский поиск совсем нихрена не ловит мышей в Ж
Date: 2015-04-05 03:47 pm (UTC)Re: яндексовский поиск совсем нихрена не ловит мышей в Ж
Date: 2015-04-05 03:54 pm (UTC)Но - помогает ли это благородному дону?
:-(
Re: яндексовский поиск совсем нихрена не ловит мышей в Ж
Date: 2015-04-05 04:22 pm (UTC)Re: яндексовский поиск совсем нихрена не ловит мышей в Ж
Date: 2015-04-05 06:52 pm (UTC)Я, например, взял и создал дайджест своего блога и везде воткнул ссылку на эту страницу:
http://mpd.livejournal.com/46894.html
Думаю, если яндексу каким-то образом сообщить все ссылки на страницы старые - он в какой-то момент вдруг начнёт по ним результаты выдавать.
Re: яндексовский поиск совсем нихрена не ловит мышей в Ж
Date: 2015-04-05 04:18 pm (UTC)Плохо, что нет нигде нормального оглавления со ссылками на все посты, это бы решило проблемы эти.
Re: яндексовский поиск совсем нихрена не ловит мышей в Ж
Date: 2015-04-05 06:57 pm (UTC)Правда, не все поняли тогда - зачем?!
RE: Re: яндексовский поиск совсем нихрена не ловит мышей
Date: 2015-04-05 07:50 pm (UTC)Re: яндексовский поиск совсем нихрена не ловит мышей
Date: 2015-04-05 08:00 pm (UTC)А гуглом находится, кстати? А обычным яндексом, не blogs.yandex.ru?
Re: яндексовский поиск совсем нихрена не ловит мышей
Date: 2015-04-05 08:12 pm (UTC)no subject
Date: 2015-04-05 03:54 pm (UTC)А кроме комментариев прочее бэкапится? Когда я в прошлом году решил проверить свои ljsm-овские архивы, то выяснил, что ЖЖ, похоже, как-то сменил формат. И в результате то, что сбэкапил ljsm, непригодно к использованию.
no subject
Date: 2015-04-05 04:20 pm (UTC)С первого раза нормально сбэкапился 2015 год, а 2014 и 2013 создались файлы нулевой длины. Со второго - сбэкапились все.
Формат страницы они, правда, поменяли, так что пришлось немного править скрипт, чтобы он прописывал в индекс заголовки постов. Там было что-то штуки три варианта регекспа для этой цели, ни один не работал. Пришлось 4-й добавить.
no subject
Date: 2015-04-05 05:09 pm (UTC)no subject
Date: 2015-04-05 07:33 pm (UTC)Видим там кучу строчкек вида
Добавляем к ним еще одну:
no subject
Date: 2015-04-06 04:40 pm (UTC)no subject
Date: 2015-04-06 01:44 am (UTC)Вроде бы там влезла бага с обработкой тега hr (всё-таки ларри сумасшедший с его операций ... со встроенным триггером). Я в августе прошлого года напоролся, в итоге просто закомментировал нафиг вот этот абзац, и всё заработало:
И мне КАЗАЛОСЬ, что комментарии он все сохраняет, но не в виде html, а в виде каких-то json-овских структур для последующего разворачивания джаваскриптом. Но тут я мог не приметить слона, на эти мои слова лучше не рассчитывать. Ща пойду сбекаплю мартовский кусок (я ЖЖ бекаплю более-менее раз в месяц), заодно освежу в голове, что там и как.
... Бессмысленно и беспощадно! ...
no subject
Date: 2015-04-06 04:12 am (UTC)no subject
Date: 2015-04-06 04:51 am (UTC)На всякий случай повторюсь про пустые посты, а то я как-то непонятно написал: ljsm.pl пытался выкусывать полоску навигации, определяя её по двум hr, и используя для этого гениальную операцию ... со встроенным в неё флагом. В результате, встретив случайно ОДНУ (для зануд -- нечётное количество) hr, он начинал выкусывать вообще всё. Разбираться содержательно я не стал, просто оторвал всю эту логику нафиг, заработало для меня нормально. Мой экземпляр ljsm.pl с мелкими правками лежит здесь.
Раз уж речь зашла про ЖЖ, немного оффтопика: я тут в процессе ремонта после очередных улучшений от СУПа (хотя не могу даже сказать, что они как-то особенно виноваты: реклама, конечно, зло, но поддерживать корректную работу всех стилей со сторонним выкусывальшиком рекламы они всё-таки не обязаны; в общем, проще оказалось сменить стиль, что я и сделал)... в общем, в этом процессе я вспомнил, что один из интересов, который разделяем строго мы с тобой и никто больше, написан с точки зрения английского языка просто неверно. Ну то есть я давно это в принципе знал, но всё не было повода почесаться. "Computational aesthetic" неправильно, потому что существительное "эстетика" будет "aesthetics" (используется как единственное число), а "aesthetic" -- это прилагательное. В общем, я у себя исправил (добавил "s"), предлагаю тебе тоже. В эстетических целях. :-)
... Проблемы шерифа негров не волнуют ...
no subject
Date: 2015-04-06 06:23 am (UTC)Я был склонен списать это на глюк ЖЖ, которые последнее время регулярны.
no subject
Date: 2015-04-05 05:03 pm (UTC)no subject
Date: 2015-04-05 07:47 pm (UTC)А нормальной системы комментариев с авторизацией по OpenID нет.
no subject
Date: 2015-04-05 07:53 pm (UTC)впрочем, я создаю html комментариев самостоятельно, и цепляю его к посту посредством плагина Static comments, такую систему при желании можно расширить и до добавления комментариев. Хотя до авторизации по OpenID вряд ли.
no subject
Date: 2015-04-05 07:58 pm (UTC)сохранится.
Возможность репликации по всяким cdn-ам тоже сохранится. Потому что обычно на один постинг комментария приходятся если не десятки тысяч, то по крайней мере сотни прочтений.
Кстати, в к прикручивании openid к форме постинга комментариев нет никакого rocket science.
А самостоятельно при этом создается именно готовый HTML или что-то вроде маркдауна?
И сохраняется ли при этом древовидность комментов?
А то я уже склоняюсь к идее попробовать поиграться с пеликаном на предмет
опять уйти с ЖЖ/DW на собственный хостинг.
no subject
Date: 2015-04-05 08:04 pm (UTC)самостоятельно я создаю именно html, хотя кладу его в файл .md, как того требует плагин. Маркдаун-то поддерживает внутри себя html.
вот пример древовидных комментариев (https://blog.arty.name/livejournal/2014/%D1%81%D0%BE%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D0%B0%D1%8F-%D0%BC%D0%B8%D1%81%D0%BA%D0%B0-%D1%87%D0%B5%D1%87%D0%B5%D0%B2%D0%B8%D1%87%D0%BD%D0%BE%D0%B9-%D0%BF%D0%BE%D1%85%D0%BB%D1%91%D0%B1%D0%BA%D0%B8/)
no subject
Date: 2015-04-05 08:06 pm (UTC)no subject
Date: 2015-04-05 08:15 pm (UTC)no subject
Date: 2015-04-05 08:21 pm (UTC)При этом в пеликановском сообществе, в отличие от сообществ других статических блогогенераторов, которые мне попадались,
1. Понимают важность и нужность комментирования (количество плагинов для комментариев об этом свидетельствуют)
2. Понимают важность и нужность контроля над хранением комментариев.
Поэтому мне кажется удивительным что идея плагина добавляющего "немножко динамики" никому не пришла в голову. Видимо, люди у которых на рабочей машине работает веб-сервер, и и она при этом не за NAT-ом встречаются в наше время крайне редко.
no subject
Date: 2015-04-05 05:21 pm (UTC)no subject
Date: 2015-04-05 07:36 pm (UTC)no subject
Date: 2015-09-17 07:57 am (UTC)В принципе, для задачи "сделать наколеночную замену блогояндексу" мне достаточно было бы даже сохранения только постов, без комментов, и грепать руками, лишь бы ссылку на исходный пост в жж было легко восстановить.
Вариант попродвинутее - бэкап всего журнала в статический сайт на случай, если на СУП наедет ФСБ или упадёт метеорит и весь ЖЖ накроется. Дабы перечитывать долгими оффлайновыми вечерами вместе с комментами. И тут дополнительный актуальный вопрос: а как это всё выглядит? Если мой жж тупо выкачать wget'ом - весь контент журнала будет доступен (хотя ветки комментов создадут адЪ), но оформлено это будет в дефолтном стиле ЖЖ для незалогиненных, который тоже есть адЪ.
no subject
Date: 2015-09-17 08:11 am (UTC)ljsm, увы, крайне хреново сохраняет комменты. Раньше лучше сохранял, но улучшизмы СУПа все сломали, внешний сервис разворачивания тредами, которым он пользовался, умер, и фактически рассчитывать можно только на посты,
Но то что он делает - является статичской копии журналов.
ljdump работает не через URL-ки для людей, а через API, поэтому он честно сохраняет все данные постов и комментов, но только для тех журналов, к которым у запускающего есть пароль (честно сказать, не помню, есть ли через API доступ к комментам постов во френдленте). И пишет их в XML-формате с довольно странными именами. Поэтому для того чтобы сделать статическую (а на самом деле можно даже не статическую - там есть что-то про импорт в wordpress) копию, которую можно смотреть браузером придется приложить некоторые усилия.
И ljsm, и ljdump авторизовываться умеют.
wget можно научить авторизовываться в ЖЖ. По-моему, самый простой способ - подсунуть ему в соответствующем параметре cookie file, созданный браузером, в котором пользователь залогинен. Не проверял, но вообще никакого rocket science в ЖЖ-шной авторизации нет.
А вот комменты там подргружаются теперь через Javascript, поэтому с комментами у wget-а будут сложности.