Проблема 404
Oct. 30th, 2014 03:25 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Вот тут
jolaf расстраивается по поводу исчезновения полезной информации из интернета.
Вообще-то чеширнет исходно задумывался и для борьбы и с этой проблемой тоже. Если информация копируется с узла на узел, то кто-нибудь, всегда будет отводить для хранения истории по определенной теме больше ресурсов чем другие. Средства запросов на поиск информации на других узлах в протоколе предусмотрены.
Осталось только взять и написать. К сожалению, как раз до этого руки хронически не доходят.
Хорошо хоть всю криптографическую базу недавно доделал. Но тестов на модуль identity (единстыенный из написанных) так и не написал пока.
![[livejournal.com profile]](https://www.dreamwidth.org/img/external/lj-userinfo.gif)
Вообще-то чеширнет исходно задумывался и для борьбы и с этой проблемой тоже. Если информация копируется с узла на узел, то кто-нибудь, всегда будет отводить для хранения истории по определенной теме больше ресурсов чем другие. Средства запросов на поиск информации на других узлах в протоколе предусмотрены.
Осталось только взять и написать. К сожалению, как раз до этого руки хронически не доходят.
Хорошо хоть всю криптографическую базу недавно доделал. Но тестов на модуль identity (единстыенный из написанных) так и не написал пока.
no subject
Date: 2014-10-30 09:38 pm (UTC)no subject
Date: 2014-10-30 09:47 pm (UTC)Хотя конечно может быть самое правильное будет, это отлавливать изменения в DOM'e, натравливать на них какой-нибудь xmldiff(от того же react например) и хранить себе спокойно отдельно и оригинал, и diff, а ключом первичным датувремя и урл считать. Зря я наверно боюсь такое замутить.
no subject
Date: 2014-10-30 09:54 pm (UTC)Ну и скриншота есть дата снятия, что однозначно привязывает его к моменту чата или версии документа. Так что и тут не вижу проблемы особо.
no subject
Date: 2014-10-30 09:59 pm (UTC)как раз хорошие - если можно нормально их сохранить, остальное и подавно
Я так и не понял чем скриншот отличается от HTML'ки, ну или лучше даже MHTML/webarchive? А дата "снятия" может быть, а скорее должна быть, вообще у чего угодно.
no subject
Date: 2014-10-30 10:05 pm (UTC)Ну и я про хэштэг сказал. Уже давно любят им контент кодировать. Так что два типа одинакрвых урла (с разным хэштэгом) будут содержать разный контент. Плюс от его содержания сайты, зачастую, разные вещи рисуют.
А скриншот - это то, что видит пользователь и на что он собрался ссылаться. Можно даже рамочкой обвести контент. Или сохранить только тот кусок скриншота, где важная информация (без баннеров, хедеров-футера и т.п.).
В адекватное сохранение информации по ссылке для последующего использования, как html, включая динамический контент - я лично не верю. Слишком много нюансов. Ссылаться надо на урл и его представление в "глазах" какого-нибудь браузера.
А для конкретной информации давно есть link href alternate с xml-based форматами, rdf-разметкой. Т.е. высосано из пальца и не существует в реальном мире :)
Был вот gopher, да весь вышел... А остальное всё - профанация.
no subject
Date: 2014-10-30 10:18 pm (UTC)Сорри за занудство, хэштеги в твитере и инстаграме, а в урле просто хэш или правилнее даже fragment identifier, но не суть важно, главное мы о одном и том же. Так вот хэш не виноват, на один и тот же урл, даже без хэша, спокойно можно получить два разных контента, есть как минимум куки. И тут не доконца понятно что делать.
Про эволюцию js это мысль здравая, но имхо решать её лучше как-то по другому, вообще даже думаю при долговременном хранение надо понимать что форматы будут меняться, и надо регулярно проводить их инвенторизацию и конвертацию во что-то более современное, пока есть возможность. Но "запекать" всё в изображения считаю кощунством.
no subject
Date: 2014-10-30 10:23 pm (UTC)Может тогда pdf с текстом внутри? Т.е. что б и изображение, и индексабельное содержимое? Можно даже пойти дальше - три уровня - векторное изображение, растровое изображение (вдруг формат вектора будет утерян?) и текстовый эквивалент. И щедрая горсть метаданных, для статистических анализаторов 23-го века.
no subject
Date: 2014-10-30 10:47 pm (UTC)no subject
Date: 2014-10-30 10:50 pm (UTC)no subject
Date: 2014-10-31 07:15 am (UTC)В смысле, например, аудиального отображения, или автоматизированного перевода html сильно удобнее pdf.
no subject
Date: 2014-10-30 10:53 pm (UTC)Версии же в html, как правило, не релевантны вообще ничему. Как верстальщик закодировал на текущий момент, не более.
no subject
Date: 2014-10-30 10:13 pm (UTC)Содержимое её отличается от активности внутри, при этом урл не меняется, даже хэштэг не дописывается. По кнопке expand содержимое страницы меняется. Если сторонний сервис сохранит по урлу - 90% комментариев видно не будет.
Так что только скриншоты. Скриншоты же разные по контенту должны сохраняться, вдруг они разные части страницы показывают?
А не скриншоты - только для заведомо
отпарсенныхparseable (как это по русски?) сущностей. Например, для ютубовских видео (и то, когда комментарии там не нужны).no subject
Date: 2014-10-30 10:22 pm (UTC)А как, а тем более как эффективно, хранить это уже другой совмем вопрос.
no subject
Date: 2014-10-30 10:24 pm (UTC)no subject
Date: 2014-10-30 10:45 pm (UTC)no subject
Date: 2014-10-31 07:18 am (UTC)А графических программ способнрых справитсья с картинкой 1920x108000 на свете очень мало. (да и большая часть графических форматов. как ни странно имеет ограничение в 65535, а то и 32767 пикселов вертикального размера).