vitus_wagner | Свободный софт и искусственный интеллект

https://www.fsf.org/blogs/licensing/fsf-funded-call-for-white-papers-on-philosophical-and-legal-questions-around-copilot

FSF объявила сбор статей на тему гитхабовского Copilot и его соотношения со свободными лицензиями.

Вообще действительно интересная тема:

Если нейросеть обучается на текстах защищенных копирайтом, является ли это fair use или нет?
Вероятно ли что в результате подсказок copilot-а пользователем будет написан код, который можно будет счесть derived work того кода, на котором copilot обучался.
Если может - то как это обнаружить.
Является ли модель машинного обучения, созданная в результате тренировки AI на некотором массиве текстов, компилированной фораой этого текста, или она что-то другое, вроде написанного человеком реферата?
Может ли AI/ML model быть защищена копирайтом.
Надо ли организациям защищающим этику в hightech, таким как FSF и EFF предлагать какие-то изменения в копирайтном законодательстве в связи с появлением этой проблемы.

Лично моё мнение - робот имеет такое же право читать тексты и учиться на них, как и человек. Оригинальный манифест GNU был именно про право учиться на чужом коде. То что исходный код самого робота закрыт и нетиражируем, это, конечно, плохо, но это скорее значит что надо другого робота написать, который бы распространялся по свободной лицензии.

А так в общем, робот, который подсказывает как надо решать задачи - это хорошо. Роботы, который подсказывают "как не надо" - находят в коде плохие, чреватые уязвимостями или неопределенным поведением, уже в компиляторы встроены. Правда, они к сожалению плохо находят фрагменты кода, неудобные для восприятияя человеком.

Crossposts: https://vitus-wagner.livejournal.com/1638948.html

Flat | Top-Level Comments Only

From:

max630

Моё мнение такое что если робот "творит" точный код из оригинального корпуса включая комментарии и секретные ключи, то в этом нет никаких новых принципов, а происходящее вполне описывается терминами 19 века.

From:

max630

Кстати, если микрософт так уверена что это fair use - она уже натренировала своего робота на исходниках офиса?

From:

vitus_wagner

Если этого робота натренировать на исходниках офиса, он такое будет подсказывать....

Даже в открытых исходниках полно такого кода, за который авторам должно быть стыдно. А они знают что это будут люди читать. В проприетарных же продуктах в оснновно такое творится что на это можно сказать только "Infernal error. Черт сломал ногу, пытаясь разобраться в вашем коде".

From:

slobin

// А так в общем, робот, который подсказывает как надо решать задачи - это хорошо.

Ах если бы! По-моему, этот робот (совершенно независимо от этических вопросов заимствования кода) окончательно выдаёт нужду за добродетель. У нас как-то уже смирились с тем, что 90% времени программиста -- это не программирование в исходном смысле, не реализация идей, а рефакторинг и попытка что-то сделать с чужими (ну ладно, своими предыдущими) косяками. Но до сих пор всё это стояло на фундаменте 10% честного программирования в исходном смысле (я старательно избегаю слова "творчество"), а этот робот пытается заставить тебя с самого начала исправлять плохой код за искусственным идиотом. По крайней мере, судя по тем немногочисленным примерам, что я видел.

... А мой кибер бросит писать стихи и начнёт слушать музыку ...

From:

inkelyad

У нас как-то уже смирились с тем, что 90% времени программиста -- это не программирование в исходном смысле, не реализация идей, а рефакторинг и попытка что-то сделать с чужими (ну ладно, своими предыдущими) косяками.

Что значит как-то смирились? Так и должно быть. Это называется (в широком смысле) этап эксплуатации. Машину/самолет/какой-то физический массово производимый предмет проектируют и делают тысячи и десятки тысяч человек. А пользуются ими, чинят, приспосабливают под свои требования - миллионы. Вот и с софтом так же.

Это вот преобладающее почему-то в индустрии "будешь/хочу что-то новое создавать" - это какое-то отклонение.

From:

slobin

Представил себе полностью автоматизированный роботический завод, из ворот которого выходят сломанные автомобили. Причём правдоподобно сломанные -- с хорошей имитацией следов пробега и всего такого (я не водитель, я не очень разбираюсь). А дальше их прямо оттуда, продолжением конвейера, развозят по человеческим ремонтным мастерским, где и доводят до пригодного к эксплуатации вида. С идеей, что сломанный автомобиль -- это всё-таки лучше, чем никакого автомобиля, и отремонтировать всё равно дешевле, чем сделать с нуля. Всё равно сюр какой-то, надо фантастический рассказ написать.

P.S. Задумался: вот у нас типа мир одноразовых вещей, за "право на ремонт" люди борются. А исходники мы постоянно ремонтируем. Нет ли здесь какого-то противоречия?

P.P.S. Это я скорее хозяину журнала пишу, чем Вам. Извините, если мимо кассы!

... That which does not kill us makes us stranger ...

From:

inkelyad

Если 'право на ремонт' победить - то скоро будет как раз то же самое, что с софтом.

Железку можно будет разобрать/заменить детали/переделать и починить как тебе нравится. И даже запчасти и инструмент для этого будут. Вот только сначала придется понять, как железка работает и что там внутри этого черного ящика сломалось и сломалось ли. Потому что написать учебник/документацию по всему вот этому - этого никто не обещал и даже мало кто умеет.

Edited Date: 2021-08-01 02:33 pm (UTC)

From:

shadowfoto

так Жигули именно так и выходили, или АЗЛК...

From:

vlad_suh

Так машины не с конвеера завода сходят, а из мастерской на свалке, где их клепают из подвернувшегося под руку хлама.

From:

salas

Кажется, применять машинный перевод с английского на русский как заготовку для перевода человеческого — вполне распространённая нынче техника, может экономить время переводчика при том же качестве. Философских отличий у профессии переводчика с английского на C++, кажется, нет, но задачи разные, так что одинаково не удивлюсь, если результат через условные 10 лет будет тот же или другой.

From:

vlad_suh

Только за машинным переводчиком нужно очень аккуратно вычитывать. С одной стороны машина "помнит" все переводы и устойчивые выражения. С другой, допускает совершенно невероятные ошибки в склонениях, временах и отрицаниях.
Превратить отрицание в отверждение - любимый баг яндекса например. Причём по тексту перевода вообще не понятно, что что-то пошло не так.

From:

legolegs

>применять машинный перевод с английского на русский как заготовку для перевода человеческого

Я так делал и это адище. Это как стирать белую штору в борще, а потом вручную полоскать в воде - вообще в теории можно сделать так, чтобы борща стало не видно, но очень трудоёмко. Электроперевод сегодня недалеко ушёл от анекдотов про промт из нулевых. Синтаксис стал корректный, семантика и стиль - нет.

Edited Date: 2021-08-02 07:47 pm (UTC)

From:

sab123

Общие принципы использования данных таковы, что нельзя использовать приватные данные для тренировки публичных моделей, потому что иначе они потом внезапно вылазят в неожиданных местах. Так что ответ на второй вопрос - "да".

From:

alll

> Если нейросеть обучается на текстах защищенных копирайтом, является ли это fair use или нет?

По сути - конечно это fair use, "естественные нейросети" ведь точно так же обучаются ровно на том же самом. А формально конечно же опять выйдет сущее издевательство в стиле "да, знаем что фалломорфировали, но денег очень хочется".

From:

max630

FSF вместо того чтобы write law, надо спопонсировать создание робота-композитора и натренировать его на исполнителях поп-хитов. После этого RIAA им быстро все дырки в законодательстве исправят.

From:

sergey_cheban

> Если нейросеть обучается на текстах защищенных копирайтом, является ли это fair use или нет?
Наверное, нет. Поскольку человеческий мозг - это тоже нейросеть, а человекам на чтение кода нужна лицензия.

> Вероятно ли что в результате подсказок copilot-а пользователем будет написан код, который можно
> будет счесть derived work того кода, на котором copilot обучался.
Ну, скажем, маловероятно. Если, конечно, copilot не обучался ровно на одном экземпляре ПО и не выдаёт его полностью после нажатия любой клавиши.

> Если может - то как это обнаружить.
В общем случае - наверное, никак.

> Является ли модель машинного обучения, созданная в результате тренировки AI на некотором
> массиве текстов, компилированной фораой этого текста, или она что-то другое, вроде написанного
> человеком реферата?
А с человеческим мозгом как?

> Может ли AI/ML model быть защищена копирайтом.
Как сейчас - не знаю. Но, на мой взгляд, какая-то форма защиты должна быть.

From:

vitus_wagner

Какая нафиг нужна лицензия? Мы про FSF.

A program is “free software” if the program’s users have the four essential freedoms:

The freedom to run the program as you wish, for any purpose.
The freedom to study how the program works, and change it so it does your computing as you wish. Access to the source code is a precondition for this.
The freedom to redistribute copies so you can help your neighbor.
The freedom to distribute copies of your modified versions to others. By doing this you can give the whole community a chance to benefit from your changes. Access to the source code is a precondition for this.

Соответственно, если copilon может рассматриваться как program user или как инструмент этого юзера, то право изучать как программа работает ему уже выдано. Как и любому другому субъекту, способному её прочитать.

From:

sergey_cheban

Fair use is a legal doctrine that promotes freedom of expression by permitting the unlicensed use of copyright-protected works in certain circumstances.
Ну, например, цитирование статьи с целью её обсуждения - это fair use. Независимо от лицензии.

Насколько я понимаю, речь именно об этой доктрине, а не о том, можно ли роботам читать именно GPL'ный код.

From:

vitus_wagner

Тут все достаточно тесно связано.

С одной стороны fair use это не про то, чтобы читать, предполагается что оно применяется уже к тем видам работ, которые читать по определению можно и нужно, а про то, чтобы писать про прочинанное.

С другой стороны идеология FSF и проекта GNU - это про то, что код есть текст, и его нужно не только выполнять, но и читать, изучать как он работает.

From:

sergey_cheban

> предполагается что оно применяется уже к тем видам работ, которые читать по определению можно и нужно
А вот не факт. Вот представь: тебе продали годовую лицензию на некий софт, моделирующий процессы, происходящие в ядерных реакторах, и дали исходники для аудита. Специально сказали: "Для аудита".
Дальше три варианта:
1. Ты провёл аудит, обнаружил говнокод и, пообщавшись с разработчиками и ничего от них не добившись, пишешь статью: "Ребята, не берите, там есть вот такое вот, и разработчики не хотят это исправлять". С цитатами.
2. Ты обучил на этом коде какую-то компьютерную нейросеть, и теперь она по комментарию "создать функцию расчёта поведения ядерного реактора" вставляет предоставленные для аудита исходники. Ты, может, сам не ожидал, что она такое сможет, а она смогла.
3. Ты обучил на этом коде какую-то биологическую нейросеть, и теперь она пишет софт аналогичного назначения.

С 1 и 3 всё понятно. Вопрос про 2. Так вот мне кажется, что не следует обучать нейросети на чужом коде, лицензия которого подобное не разрешает. От греха подальше. А вот прогнать код через нейросеть для анализа - это можно.

From:

vitus_wagner

fair use это вообще не про код, а про художественную литературу. К коду применяется by extension.

А исходники которые дают под обязательство никому не показывать меня не интересуют. Их надо вообще уничтожать нахрен вместе с правообладателями. Потому что люди которые стесняются показать всему миру свой код, тем самым признают что их код уродлив.

Меня интересует позиция FSF. У которого исходники показывают всем, и более того ограничивают разными способами (LGPL - поменьше, AGPL побольше) право скрывать то, что ты на базе этих исходников сделал.

Edited Date: 2021-08-02 01:42 pm (UTC)

From:

sergey_cheban

> fair use это вообще не про код, а про художественную литературу. К коду применяется by extension.
Насколько я понимаю, эта доктрина одинаково хорошо работает в отношении любых результатов творчества. Вопрос о том, что является или не является fair use, решается по-разному, но последствия одинаковы.

> Потому что люди которые стесняются показать всему миру свой код, тем самым признают что их код уродлив.
Дело может быть не в качестве кода, а в очень нетривиальных алгоритмах и математике, которые в нём содержатся. Ну, например,

neznaika_nalune написал работающий алгоритм раскладки товаров по паллетам (с учётом кучи критериев, но главный - чтобы паллета не рассыпалась). Многие, наверное, хотели бы этот алгоритм взять бесплатно или даже украсть, но - нет. Потому что он миллиарды USD стоит.
Код расчёта ядерной бомбы я бы тоже не стал показывать кому попало.

From:

legolegs

>работающий алгоритм раскладки товаров по паллетам

Делаем нейросеть, которая смотрит на фото паллет и бите "полата доехала или нет не рассыпавшись". Насмотревшись на паллеты, которые укладывал алгоритм вашего юзернейма, она научилась укладывать паллеты сравним хорошо. Смотреть на паллеты разрешено. Кто виноват и что делать?

Про ядерную бонбу - это отдельная дискуссия "бывают ли запретные знания и темы, которые не стоит вскрывать?"

From:

sergey_cheban

> Делаем нейросеть, которая смотрит на фото паллет и бите "полата доехала или нет не рассыпавшись".
1. И сколько товара придётся перепортить, обучая такую нейросеть? Ведь без отрицательных примеров она ничему не научится.
2. Ок, теперь у нас есть нейросеть, которая знает, рассыпется паллета или нет. Как она поможет роботу укладывать паллеты так, чтобы они не рассыпались? Полный перебор имеет экспоненциальную сложность и не работает.

Но в принципе - пусть учится, конечно, это не запрещено. Можно даже на паллетах, уложенных биороботами.

From:

allter

Ещё могли бы добавить такой вопрос:
- Является ли результат FMRT (которым научились читать образы из мозга человека) интеллектуальной собственностью организации, проводящей исследование, или собственностью человека-владельца мозга?

Flat | Top-Level Comments Only

Profile

vitus_wagner

My Website

June 2025

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Page Summary

Style Credit

Style: Clarity for Paletteable by branchandroot
Resources: Holiday

Expand Cut Tags

No cut tags

Page generated Jul. 3rd, 2025 12:37 am

Журнал Витуса

Свободный софт и искусственный интеллект

Свободный софт и искусственный интеллект

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

June 2025

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags