vitus_wagner: My photo 2005 (Default)
[personal profile] vitus_wagner
Вот тут [livejournal.com profile] jolaf расстраивается по поводу исчезновения полезной информации из интернета.

Вообще-то чеширнет исходно задумывался и для борьбы и с этой проблемой тоже. Если информация копируется с узла на узел, то кто-нибудь, всегда будет отводить для хранения истории по определенной теме больше ресурсов чем другие. Средства запросов на поиск информации на других узлах в протоколе предусмотрены.

Осталось только взять и написать. К сожалению, как раз до этого руки хронически не доходят.
Хорошо хоть всю криптографическую базу недавно доделал. Но тестов на модуль identity (единстыенный из написанных) так и не написал пока.

Date: 2014-10-30 01:32 pm (UTC)
From: [identity profile] z-kir.livejournal.com
Добрый день!

По-моему, там обсуждается проблема не потери информации, а накопления несовместимости. Если "информация" -- это это сайт-CMS со своей базой, и скриптами, то рано или поздно он перестанет работать, потому что сменится версия MySQL или PHP, или что нибудь в таком духе. А решать технические проблемы будет уже никому не интересно.

Если это электронные документы в более менее стандартных форматах (txt, pdf, DejaVu), то они хранятся в коллекциях десятки лет и доступны через торренты. Они никуда исчезнуть не могут, и никакой проблемы в этом нет.



Я сам держатель ролевого сайта в мемориальной фазе. Хостинг и домен я регулярно оплачиваю, сайт -- на движке медиавики -- пока еще дышит, но только на чтение. При попытке отредактировать страницу данные портятся. Но разбираться почему так мне совсем не хочется.
Edited Date: 2014-10-30 01:32 pm (UTC)

Date: 2014-10-30 01:52 pm (UTC)
From: [identity profile] inkelyad.livejournal.com
Да, те же Usenet-овские архивы десятки лет хранятся. Или архивы списков рассылки.

Date: 2014-10-30 01:52 pm (UTC)
From: [identity profile] qkowlew.livejournal.com
Там обсуждается КОМПЛЕКС проблем.
в котором ключевые - не технические, а психологические - см. хотя бы
http://jolaf.livejournal.com/668544.html?thread=10948480&style=mine#t10948480

Date: 2014-10-30 02:01 pm (UTC)
From: [identity profile] inkelyad.livejournal.com
Технические - очень существенны. Предположим, что все эти материалы рассылались бы участникам в стандартный, очень древний механизм списков рассылки. Тогда копии этих материалов автоматически бы появились у всех, просто из-за технологии работы этого механизма.

Date: 2014-10-30 02:12 pm (UTC)
From: [identity profile] qkowlew.livejournal.com
ага. Убеди всех несчастных пользователей какой-нибудь Диареи копировать все осмысленные материалы в список рассылки. :)

Я пробовал, поверь.
Я видел людей, которые пробовали.
Барьер здесь именно психологический.

Пример смешной: http://qkowlew.livejournal.com/27200.html
и реакция - Чтож ты для хомячков линк не вставил.
Грузите отсюда, пушистенькие вы мои. :-)


Бесполезно.
Периодически опять происходит одно и то же - люди просто не воспринимают объяснений сложнее "тыкнуть мышкой в веб интерфейсе" и "поставить вот эту программу"


Edited Date: 2014-10-30 02:12 pm (UTC)

(no subject)

From: [identity profile] jolaf.livejournal.com - Date: 2014-10-30 04:06 pm (UTC) - Expand

(no subject)

From: [identity profile] qkowlew.livejournal.com - Date: 2014-10-30 05:17 pm (UTC) - Expand

Date: 2014-10-30 02:30 pm (UTC)
From: [identity profile] z-kir.livejournal.com
Психологическая проблема в данном случае есть следствие неспособности осознать техническую. Любой человек может утратить интерес к некой теме или умереть. Но это не должно приводить к необратимой потере данных. Например Пушкин и Гигакс умерли, но их творчество доступно в сети.

vitus и inkelyad очень правильно пишут. В идеальном интернете сам базовый протокол должен обеспечивать, что если я получил с некого узла некий материал, то
а) тем самым создана еще одна копия, к которой остальные участники сети могут обратится.
б) я могу пользоваться этим материалом, при этом от меня не требуется специальных познаний в области сайтостроительства (не требуется знать, как разворачивать сайт на медиавики из бэкапа).
Edited Date: 2014-10-30 02:46 pm (UTC)

Date: 2014-10-30 04:00 pm (UTC)
From: [identity profile] jolaf.livejournal.com
Звучит очень круто!

(no subject)

From: [identity profile] qkowlew.livejournal.com - Date: 2014-10-30 05:24 pm (UTC) - Expand

(no subject)

From: [identity profile] jolaf.livejournal.com - Date: 2014-10-30 05:32 pm (UTC) - Expand

(no subject)

From: [identity profile] qkowlew.livejournal.com - Date: 2014-10-30 05:38 pm (UTC) - Expand

(no subject)

From: [identity profile] jolaf.livejournal.com - Date: 2014-10-30 05:51 pm (UTC) - Expand

(no subject)

From: [identity profile] anonim-legion.livejournal.com - Date: 2014-10-30 08:22 pm (UTC) - Expand

Date: 2014-10-31 12:27 am (UTC)
From: [identity profile] shadowfoto.livejournal.com
вот пункт а) вызывает глобальную проблему - у нас сейчас было бы 2 с хреном МИЛЛИАРДА копий того же gangnam style с ютуба и дикие хреналионы копий порнороликов.

юзер десктопа может воткнуть еще один диск. а что делать ноутбучникам?

при этом делить данные по типам тоже не вариант - лет через 50 те же ролики понадобятся исследователям поп-культуры и порноискусства начала 21 века.

Date: 2014-10-30 04:21 pm (UTC)
From: [identity profile] inkelyad.livejournal.com
Это не баг, это так и задумано. Подразумевалось же, что сайт - это сервис. Заточенный по конкретную потребность и локальные требования. Желательно - существующий в единственном экземпляре, чтобы у конкурентов такого же не было. И который, в общем случае вообще выход в реальный мир имеет. А все внутреннее устройство спрятано от наблюдения. Ну вот как сайт, куда заливаешь схему печатной платы, а на выходе получаешь готовые железки, можно воспринимать как документ?

Date: 2014-10-30 05:23 pm (UTC)
From: [identity profile] qkowlew.livejournal.com
Да. Только проблема в том, что любая программа сейчас - это крохотная верхушка, ледник содержательного кода на вершине горы из библиотек, сред разработки, операционных систем и железа.

Причём в этой горе есть дополнительные "спайки" - неоднородности, порождённые не только набором этих горных пород, но и "сервисами-прокладками". Зависимости от услуг, от времени, от законодательства, от воли умных людей и идиотов.

При любых построениях надо осознавать, что мы сейчас ведём речь о сохранности снежинки, сверкающей на этом леднике, при условии, что эти горы ВСЁ ВРЕМЯ ТРЯСЁТ.

(no subject)

From: [identity profile] jolaf.livejournal.com - Date: 2014-10-30 05:34 pm (UTC) - Expand

(no subject)

From: [identity profile] qkowlew.livejournal.com - Date: 2014-10-30 05:42 pm (UTC) - Expand

(no subject)

From: [identity profile] jolaf.livejournal.com - Date: 2014-10-30 05:48 pm (UTC) - Expand

(no subject)

From: [identity profile] inkelyad.livejournal.com - Date: 2014-10-30 05:50 pm (UTC) - Expand

(no subject)

From: [identity profile] inkelyad.livejournal.com - Date: 2014-10-30 07:40 pm (UTC) - Expand

(no subject)

From: [identity profile] inkelyad.livejournal.com - Date: 2014-10-30 07:55 pm (UTC) - Expand

(no subject)

From: [identity profile] inkelyad.livejournal.com - Date: 2014-10-31 03:47 am (UTC) - Expand

(no subject)

From: [identity profile] inkelyad.livejournal.com - Date: 2014-10-31 08:07 am (UTC) - Expand

(no subject)

From: [identity profile] golosptic.livejournal.com - Date: 2014-11-20 03:10 am (UTC) - Expand

(no subject)

From: [identity profile] golosptic.livejournal.com - Date: 2014-11-20 10:47 pm (UTC) - Expand

(no subject)

From: [identity profile] golosptic.livejournal.com - Date: 2014-11-20 03:06 am (UTC) - Expand

Date: 2014-10-30 04:04 pm (UTC)
elentin: (Default)
From: [personal profile] elentin
Я (прочитав большую часть комментариев у Йолафа) считаю, что решительно ничего не получится добиться в смысле архивирования сайтов игр, если у каждого второго при переезде с десктопа на десктоп, с ноутбука на ноутбук плодятся и размножаются "архивы" вида /home/backup/from_old_laptop (для винюзеров - D:\home\vasya\oldvasya ) . Никакой руководящий пинок не спасёт.
Если оно как-то автомагически (предусмотрено протоколом) самореплицируется, это другое дело, конечно.

Date: 2014-10-30 05:19 pm (UTC)
From: [identity profile] qkowlew.livejournal.com
Есть паллиатив - e2k идентификация. Хэш и размер.

Date: 2014-10-30 08:23 pm (UTC)
From: [personal profile] zaharchenko
А что будет если по одинаковому урлу разным гейтам достанется разный контент?

(no subject)

From: [personal profile] legolegs - Date: 2014-10-31 11:49 am (UTC) - Expand

Date: 2014-10-30 05:45 pm (UTC)
From: [personal profile] zaharchenko
Я вот давно хочу себе соорудить хотя бы логирование всех страничек что в браузере просматриваю, хотя бы тупо html'ки на диск сбрасывать, но никак не придумаю что делать с динамическими сайтами и всем вот этим, когда каждый день по одному и тому же урлу заходишь, а там уже другой контент или просто кликаешь на страничке, ни куда не переходя с неё и тут бах и она уже наполовину совсем другая. Кажется мне что это задача вообще не решаемая с нынешними интернетами.

А вот раньше, во времена диалапа, стояла у меня какая-то кеширующая прокся на винде, которая прям всё всё записывала и потом можно было вообще не замечая оффлайна сидеть через неё на уже посещенных страничках.

Date: 2014-10-30 09:38 pm (UTC)
From: [identity profile] angry-elf.livejournal.com
Скриншоты можно делать. Так себе вариант, зато 1 файл на 1 страницу, без постоянно меняющихся скриптов и контента, зависящего от хэштега в урл.
Edited Date: 2014-10-30 09:38 pm (UTC)

Date: 2014-10-30 09:47 pm (UTC)
From: [personal profile] zaharchenko
Не вижу разницы для решения проблемы неоднозначности урла контенту между хранением картинкой или html'кой. Вот если взять какой-нибудь экстремальный пример, чатик там в браузере или, прям что бы соовсем жесть, файл в гугльдоке открытый, в какой момент скриншот делать?

Хотя конечно может быть самое правильное будет, это отлавливать изменения в DOM'e, натравливать на них какой-нибудь xmldiff(от того же react например) и хранить себе спокойно отдельно и оригинал, и diff, а ключом первичным датувремя и урл считать. Зря я наверно боюсь такое замутить.

Date: 2014-10-30 09:54 pm (UTC)
From: [identity profile] angry-elf.livejournal.com
Чатик в браузере или документ в гугльдоке - плохие примеры. На них ссылаться сложно, а это было первичным посылом. То, на что можно ссылаться - скорее можно заскриншотить (что сейчас и делают), чем нельзя.

Ну и скриншота есть дата снятия, что однозначно привязывает его к моменту чата или версии документа. Так что и тут не вижу проблемы особо.

(no subject)

From: [personal profile] zaharchenko - Date: 2014-10-30 09:59 pm (UTC) - Expand

(no subject)

From: [identity profile] angry-elf.livejournal.com - Date: 2014-10-30 10:05 pm (UTC) - Expand

(no subject)

From: [personal profile] zaharchenko - Date: 2014-10-30 10:18 pm (UTC) - Expand

(no subject)

From: [identity profile] angry-elf.livejournal.com - Date: 2014-10-30 10:23 pm (UTC) - Expand

(no subject)

From: [personal profile] zaharchenko - Date: 2014-10-30 10:47 pm (UTC) - Expand

(no subject)

From: [identity profile] angry-elf.livejournal.com - Date: 2014-10-30 10:50 pm (UTC) - Expand

(no subject)

From: [identity profile] angry-elf.livejournal.com - Date: 2014-10-30 10:53 pm (UTC) - Expand

(no subject)

From: [identity profile] angry-elf.livejournal.com - Date: 2014-10-30 10:13 pm (UTC) - Expand

(no subject)

From: [personal profile] zaharchenko - Date: 2014-10-30 10:22 pm (UTC) - Expand

(no subject)

From: [identity profile] angry-elf.livejournal.com - Date: 2014-10-30 10:24 pm (UTC) - Expand

(no subject)

From: [personal profile] zaharchenko - Date: 2014-10-30 10:45 pm (UTC) - Expand

Date: 2014-11-01 09:26 am (UTC)
From: [identity profile] qkowlew.livejournal.com
кеширующие прокси в нескольких фирмах, поддерживаемые мной лично, до сих пор стоят.

Сейчас они позволяют в САМОМ ДЕЛЕ закешировать (а не испортить показ!) менее чем 5% из обходимых пользователями этих фирм страниц в современном интернете.

Интернет изменился.

Date: 2014-10-30 08:20 pm (UTC)
From: [identity profile] anonim-legion.livejournal.com
Я давно мечтаю о поисковике, и по совместительству - веб-архиве. Чтобы он давал контент за деньги, можно даже за немаленькие деньги. Но чтобы ничего не удалял, даже если правообладателю или например - правоохранителю очень хочется. И чтобы лазил по всей сети, а не только там, где robots.txt позволяет.

Date: 2014-10-30 09:40 pm (UTC)
From: [identity profile] angry-elf.livejournal.com
У меня похожая идея про аналог youtube. А то добавил что-то в избранное, а потом глядь, через полгода, а контент удалён. И даже названия нету, что б понять, что там добавлял.

Можно что-то такое делать в i2p, например, что б избежать претензий всяких личностей, любящих деньги больше, чем здравый смысл.

Date: 2014-10-31 01:54 pm (UTC)
From: [identity profile] jolaf.livejournal.com
Ну, вот я свой архив на http://vimeo.com/rpg бэкаплю просто питоновским скриптом, который регулярно проходится и скачивает всё, что набежало нового.

Бонус Vimeo в том, что можно скачать прямо исходный файл, не пережатый для веб-плеера.

Profile

vitus_wagner: My photo 2005 (Default)
vitus_wagner

June 2025

S M T W T F S
1 234567
891011121314
15161718192021
22232425262728
2930     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 3rd, 2025 06:02 am
Powered by Dreamwidth Studios