vitus_wagner: My photo 2005 (Default)
[personal profile] vitus_wagner
Пришел к выводу что яндексовский поиск совсем нихрена не ловит мышей в ЖЖ.
Когда мне потребовалось найти собственный пост 2005 года, ни оно, ни тот якобы поиск, который в шапке ЖЖ (а на самом деле там ссылка на гугль) не смогло мне его найти.

Пришлось искать банальным grep-ом по сохраненной копии ЖЖ. В связи с этим я решил, что надо бы эту самую сохраненную копию поддерживать в более актуалльном состоянии.

Прикрутить что-ли ее обновление по крону и xapian-овский индекс к ней приделать?

Одно плохо - эта копия у меня делается довольно старой версией ljsm, которая в разворачивании тредов полагалась на внешний сервис, а тот сервис давно умер.

В результате комментарии сбэкпалены далеко не все. Ну не то, чтобы я очень по этому поводу переживал, но интересно есть ли решения лучше.

Задача - создать копию ЖЖ на своем локальном диске, чтобы было возможно больше информации (включая комментарии, вставленные со сторонних сайтов изображения и т.д) и чтобы всё это можно было смотреть браузером как статический сайт.

Date: 2015-04-05 03:16 pm (UTC)
From: [identity profile] justy-tylor.livejournal.com
Для самих бэкапов с комментариями нашёлся правленый ljArchive с http://www.acidqueen.de/lja/LJa.html

Экспорт по годам в .html и открытие браузером + пересохранение в .maff с картинками я делал вручную. Есть ли возможность автоматизации - надо смотреть.

Date: 2015-04-05 03:18 pm (UTC)
From: [personal profile] alll
Интересный философский вопрос: а искомый пост вообще физически существует в нынешнем жж? А то может статься его давно проэтосамили в угаре улучшений.

Date: 2015-04-05 03:51 pm (UTC)
From: [identity profile] dibr.livejournal.com
У меня как минимум один пост в ЖЖ пропадал. Так что иногда они и посты проэтосамливают.

Date: 2015-04-05 06:23 pm (UTC)
From: [identity profile] gul-kiev.livejournal.com
По крайней мере, сейчас Яндекс находит (https://blogs.yandex.ru/search.xml?text=vitus-wagner.livejournal.com+%D0%A2%D0%B0%D0%BB%D0%BB%D1%8D+%D0%BE%D1%84%D0%B8%D1%86%D0%B5%D1%80).
Гугл действительно не видит (https://www.google.com.ua/search?q=vitus-wagner.livejournal.com+%D0%A2%D0%B0%D0%BB%D0%BB%D1%8D&ie=utf-8&oe=utf-8&gws_rd=cr&ei=P3whVZa0OsaRsAHiw4CQCg#q=site:vitus-wagner.livejournal.com+%D0%A2%D0%B0%D0%BB%D0%BB%D1%8D+%D0%BE%D1%84%D0%B8%D1%86%D0%B5%D1%80), удивительно.

Хотя, конечно, локальный бэкап блога хочется иметь независимо от того, хорошо ли он проиндексирован поисковиками.
Edited Date: 2015-04-05 06:23 pm (UTC)

Date: 2015-04-05 06:39 pm (UTC)
From: [identity profile] rednyrg721.livejournal.com
Это потому что Яндекс комменты в жж индексирует - увидел в теле коммента ссылку на забытый пост и снова его проиндексировал :)

Date: 2015-04-06 07:57 am (UTC)
From: [identity profile] gena-t.livejournal.com
А Марьку не ищет.

Date: 2015-04-06 08:00 am (UTC)
From: [identity profile] gul-kiev.livejournal.com
У меня ищет (https://blogs.yandex.ru/search.xml?text=vitus-wagner.livejournal.com+%D0%9C%D0%B0%D1%80%D1%8C%D0%BA%D0%B0)

Date: 2015-04-06 08:02 am (UTC)
From: [identity profile] gena-t.livejournal.com
Ага. А https://blogs.yandex.ru/advanced.xml не ищет.

Date: 2015-04-06 12:59 pm (UTC)
From: [identity profile] http://users.livejournal.com/_slw/
это потому что ник с извратами
dememax: (вэлком)
From: [personal profile] dememax
Не от хорошей жизни.
Я когда игрался с Флексум (был такой сайт у АиП, где можно было свой поиск создавать), не мог понять, чего это мои инструкции на индексирование ЖЖ платформа не выполняет.
Оказалось, что ЖЖ делает всё возможное, чтобы уважающие правила индексирования (специальные nofollow-атрибуты тэгов, меты в хедерах страницы, и т.д.) система не могла бы проиндексировать остальную часть твоего ЖЖ, отталкиваясь от одной конкретной страницы.

Например, вот, что я сейчас увидел на странице своего журнала в заголовке:
<meta name="robots" content="noindex, nofollow, noarchive" />
<meta name="googlebot" content="noindex, nofollow, noarchive, nosnippet" />
From: [personal profile] dememax
У меня изначально - тоже всегда отключено минимизировать попадание.
Но - помогает ли это благородному дону?
:-(
From: [personal profile] dememax
Очевидно, пауку просто невозможно до тех записей добраться, не нарушая инструкций, о которых я ранее говорил.

Я, например, взял и создал дайджест своего блога и везде воткнул ссылку на эту страницу:
http://mpd.livejournal.com/46894.html

Думаю, если яндексу каким-то образом сообщить все ссылки на страницы старые - он в какой-то момент вдруг начнёт по ним результаты выдавать.
From: [identity profile] rednyrg721.livejournal.com
Вот да, тоже этим вопросом задавался как-то. Журнал у них можно листать с заглавной страницы до /?skip=380, а дальше идут ссылки на /20xy, которые запрещены в robots.txt у всех, как и /calendar и /tag/. Получается, дальше чем на 400 постов назад пауки поисковиков могут попасть только очень кривыми путями (по ссылке на предыдущий пост и т.д. по цепочке - правда, в случае существования хотя бы одного подзамочного поста эта цепочка оборвется :) ) Ну ещё ссылки откуда-то снаружи помогут, конечно.

Плохо, что нет нигде нормального оглавления со ссылками на все посты, это бы решило проблемы эти.
From: [personal profile] dememax
Я делал руками такой список: http://mpd.livejournal.com/46894.html

Правда, не все поняли тогда - зачем?!
From: [identity profile] hrenov-drummer.livejournal.com
А вот фиг. Я сейчас через blogs.yandex.ru нашел свой собственный первый пост в ЖЖ, сделанный больше 11 лет назад и уж точно находящийся раньше, чем 400 постов назад. Да и ссылки на него вряд ли ведут.
From: [identity profile] rednyrg721.livejournal.com
Думается, что тут лотерея, какие-то посты поисковики выкидывают из индекса, а какие-то нет. Одно понятно, что им не нравится, когда на страницу вообще нет ссылок (с индексируемых страниц).

А гуглом находится, кстати? А обычным яндексом, не blogs.yandex.ru?
From: [identity profile] hrenov-drummer.livejournal.com
Неа, обычным яндексом и гуллом не ищется.

Date: 2015-04-05 03:54 pm (UTC)
From: [identity profile] morthan2006.livejournal.com
В результате комментарии сбэкпалены далеко не все. Ну не то, чтобы я очень по этому поводу переживал, но интересно есть ли решения лучше.

А кроме комментариев прочее бэкапится? Когда я в прошлом году решил проверить свои ljsm-овские архивы, то выяснил, что ЖЖ, похоже, как-то сменил формат. И в результате то, что сбэкапил ljsm, непригодно к использованию.

Date: 2015-04-05 05:09 pm (UTC)
From: [identity profile] pouce.livejournal.com
А не могли бы вы подробней объяснить насчёт правленного скрипта для получайника?
Edited Date: 2015-04-05 05:39 pm (UTC)

Date: 2015-04-06 04:40 pm (UTC)
From: [identity profile] pouce.livejournal.com
спасибо большое. Буду пробовать.

Date: 2015-04-06 01:44 am (UTC)
From: [identity profile] slobin.livejournal.com
// 2014 и 2013 создались файлы нулевой длины.

Вроде бы там влезла бага с обработкой тега hr (всё-таки ларри сумасшедший с его операций ... со встроенным триггером). Я в августе прошлого года напоролся, в итоге просто закомментировал нафиг вот этот абзац, и всё заработало:

# skip navigation bar
if ($in_navbar && ($n = /<HR ?\/?>/i ... /<HR ?\/?>/i)) {
    $in_navbar = 0 if ($n =~ /E0/);
    next;
}

И мне КАЗАЛОСЬ, что комментарии он все сохраняет, но не в виде html, а в виде каких-то json-овских структур для последующего разворачивания джаваскриптом. Но тут я мог не приметить слона, на эти мои слова лучше не рассчитывать. Ща пойду сбекаплю мартовский кусок (я ЖЖ бекаплю более-менее раз в месяц), заодно освежу в голове, что там и как.

... Бессмысленно и беспощадно! ...

Date: 2015-04-06 04:51 am (UTC)
From: [identity profile] slobin.livejournal.com
Ага, посмотрел сейчас. Выдаются в таком виде (и соответственно сохраняются) только те комментарии, которые видны сразу без разворачивания. То есть, у меня НЕТ бекапа комментариев за последние годы. :-( Проблему осознал, решение думаю.

На всякий случай повторюсь про пустые посты, а то я как-то непонятно написал: ljsm.pl пытался выкусывать полоску навигации, определяя её по двум hr, и используя для этого гениальную операцию ... со встроенным в неё флагом. В результате, встретив случайно ОДНУ (для зануд -- нечётное количество) hr, он начинал выкусывать вообще всё. Разбираться содержательно я не стал, просто оторвал всю эту логику нафиг, заработало для меня нормально. Мой экземпляр ljsm.pl с мелкими правками лежит здесь.

Раз уж речь зашла про ЖЖ, немного оффтопика: я тут в процессе ремонта после очередных улучшений от СУПа (хотя не могу даже сказать, что они как-то особенно виноваты: реклама, конечно, зло, но поддерживать корректную работу всех стилей со сторонним выкусывальшиком рекламы они всё-таки не обязаны; в общем, проще оказалось сменить стиль, что я и сделал)... в общем, в этом процессе я вспомнил, что один из интересов, который разделяем строго мы с тобой и никто больше, написан с точки зрения английского языка просто неверно. Ну то есть я давно это в принципе знал, но всё не было повода почесаться. "Computational aesthetic" неправильно, потому что существительное "эстетика" будет "aesthetics" (используется как единственное число), а "aesthetic" -- это прилагательное. В общем, я у себя исправил (добавил "s"), предлагаю тебе тоже. В эстетических целях. :-)

... Проблемы шерифа негров не волнуют ...

Date: 2015-04-05 05:03 pm (UTC)
From: [identity profile] http://users.livejournal.com/_arty/
я недавно писал скрипты, которые из API ЖЖ вынимают все посты и комментарии (https://github.com/arty-name/livejournal-export). Правда, превращать это в статический сайт (https://blog.arty.name/2014/%D1%8D%D0%BA%D1%81%D0%BF%D0%BE%D1%80%D1%82-%D0%B6%D0%B6/) нужно чем-то другим, вроде pelican. Ну и изображения со сторонних сайтов, конечно, отсутствуют.

Date: 2015-04-05 07:53 pm (UTC)
From: [identity profile] http://users.livejournal.com/_arty/
ну так с простейшим скриптом это будет уже не статический сайт

впрочем, я создаю html комментариев самостоятельно, и цепляю его к посту посредством плагина Static comments, такую систему при желании можно расширить и до добавления комментариев. Хотя до авторизации по OpenID вряд ли.

Date: 2015-04-05 08:04 pm (UTC)
From: [identity profile] http://users.livejournal.com/_arty/
говоря о статическом сайте, я имел в виду, что пеликан создавался для генерации статических сайтов, а динамические комментарии для него не предполагались в принципе, поэтому вряд ли имеет смысл критиковать ограниченность плагинов :)

самостоятельно я создаю именно html, хотя кладу его в файл .md, как того требует плагин. Маркдаун-то поддерживает внутри себя html.

вот пример древовидных комментариев (https://blog.arty.name/livejournal/2014/%D1%81%D0%BE%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D0%B0%D1%8F-%D0%BC%D0%B8%D1%81%D0%BA%D0%B0-%D1%87%D0%B5%D1%87%D0%B5%D0%B2%D0%B8%D1%87%D0%BD%D0%BE%D0%B9-%D0%BF%D0%BE%D1%85%D0%BB%D1%91%D0%B1%D0%BA%D0%B8/)

Date: 2015-04-05 08:06 pm (UTC)
From: [identity profile] http://users.livejournal.com/_arty/
кстати, пеликан — не единственный генератор статических сайтов, и даже для статических блогов есть другие генераторы. Просто мне лучше всего подошёл именно пеликан.

Date: 2015-04-05 05:21 pm (UTC)
From: [identity profile] amarao-san.livejournal.com
Тут ищет? https://blogs.yandex.ru/advanced.xml

Date: 2015-09-17 07:57 am (UTC)
livelight: (Default)
From: [personal profile] livelight
Какое на данный момент лучшее найденное решение?

В принципе, для задачи "сделать наколеночную замену блогояндексу" мне достаточно было бы даже сохранения только постов, без комментов, и грепать руками, лишь бы ссылку на исходный пост в жж было легко восстановить.

Вариант попродвинутее - бэкап всего журнала в статический сайт на случай, если на СУП наедет ФСБ или упадёт метеорит и весь ЖЖ накроется. Дабы перечитывать долгими оффлайновыми вечерами вместе с комментами. И тут дополнительный актуальный вопрос: а как это всё выглядит? Если мой жж тупо выкачать wget'ом - весь контент журнала будет доступен (хотя ветки комментов создадут адЪ), но оформлено это будет в дефолтном стиле ЖЖ для незалогиненных, который тоже есть адЪ.

Profile

vitus_wagner: My photo 2005 (Default)
vitus_wagner

June 2025

S M T W T F S
1 234567
891011121314
15161718192021
22232425262728
2930     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 3rd, 2025 06:29 am
Powered by Dreamwidth Studios