Данные обучения OpenAI будут проверяться в делах об авторских правах авторов

Как опытный геймер и энтузиаст технологий с глубоким пониманием ИИ и его потенциальных последствий, я заинтригован последним развитием событий между OpenAI и авторами, подающими на них в суд. Перспектива получения доступа к обучающим данным, используемым этими передовыми моделями искусственного интеллекта, является важным шагом на пути к прозрачности и подотчетности в отрасли.

Впервые OpenAI предоставляет разрешение на внешнюю проверку своих обучающих данных. Цель этого обзора — определить, использовались ли при разработке технологии какие-либо материалы, защищенные авторским правом.

Во вторник подавшие иски против компании Сэма Альтмана и OpenAI объявили, что достигли соглашения о том, как проверять соответствующую информацию. Они планируют запросить подробную информацию об интеграции их работ в наборы обучающих данных, поскольку это может стать ключевым моментом в судебном процессе, который может установить границы для разработки автоматизированных чат-ботов.

В основу соглашения легла серия исков, поданных такими известными авторами, как Сара Сильверман, Пол Трембле и Та-Нехиси Коутс, которые обвиняют OpenAI в сборе большого количества книг из Интернета. Эти книги предположительно использовались для создания ответов, нарушающих авторские права ChatGPT. Такое развитие событий последовало за июльским решением суда об отклонении иска, в котором утверждалось, что компания участвовала в неэтичной деловой практике, используя контент без разрешения или вознаграждения. Ранее окружной судья США Арасели Мартинес-Ольгин отклонил другие иски, связанные с халатностью, неосновательным обогащением и косвенным нарушением авторских прав. Однако иск авторов о прямом нарушении авторских прав остался нетронутым.

Будучи ярым сторонником, я часто защищал компании, занимающиеся искусственным интеллектом, когда возникали обвинения в массовом копировании. Вместо этого они подчеркивают, что их модели разрабатываются путем установления параметров на основе существующих работ, чтобы понять, как выглядят вещи и как они должны быть структурированы. В этом продолжающемся деле OpenAI может в конечном итоге использовать этот аргумент наряду с утверждением о том, что практика использования опубликованных работ в учебных целях подпадает под категорию добросовестного использования. Эта правовая концепция защищает использование материалов, защищенных авторским правом, для создания нового произведения, если оно носит преобразующий характер.

Как преданный поклонник, я хотел бы поделиться некоторыми мыслями об OpenAI. Они упомянули, что обучают свою модель, используя «обширные общедоступные наборы данных, содержащие материалы, защищенные авторским правом». В прошлом году они перешли к сохранению конкретных ресурсов в секрете, стремясь сохранить преимущество над конкурентами и избежать потенциальных юридических сложностей. Хотя мы не знаем точно, какие произведения были использованы, авторы заметили, что ChatGPT, похоже, умеет составлять резюме и глубоко вникать в темы своих романов. Они предполагают, что компания, возможно, загрузила сотни тысяч книг со скрытых сайтов библиотек, чтобы настроить свою систему искусственного интеллекта.

Согласно условиям контракта, офис OpenAI в Сан-Франциско будет предоставлять наборы обучающих данных на защищенный компьютер, не подключенный к Интернету или какой-либо сети. Любой, кто хочет получить доступ к этой информации, должен подписать соглашение о конфиденциальности, войти в журнал посетителей и предъявить надлежащее удостоверение личности.

Использование технологий в смотровой комнате будет строго ограничено. Использование таких устройств, как компьютеры, мобильные телефоны и камеры, запрещено. OpenAI может разрешить использовать компьютер только для ведения заметок, но юристы, представляющие авторов, должны вручную переписывать эти заметки на другое устройство под бдительным присмотром представителей компании в конце каждого дня. Никакие дубликаты какой-либо части обучающих данных не допускаются.

Согласно документу, команде, проводящей проверку, разрешено записывать свои наблюдения с помощью рукописных или цифровых заметок на поставляемом компьютере, но они должны воздерживаться от прямого копирования данных обучения в эти записи.

Судебные дела ведет команда юристов юридической фирмы «Джозеф Савери». Они также поддерживают авторов в идентичных спорах об авторских правах против Meta. Процесс установления фактов по этим делам планируется завершить 30 сентября; однако был отправлен запрос на продление. Во время слушания в прошлую пятницу окружной судья США Винс Чабрия выразил сомнение в том, что адвокаты способны эффективно представлять авторов.

Судья Чабрия, как сообщает Politico, из документов, протоколов суда и бесед с мировым судьей совершенно очевидно дал понять, что вы представили это дело, не добившись существенного прогресса в его развитии», — сказал он. «Ваша команда и вы в основном не участвовали в судебном процессе. Это очевидно… Это не типичный групповой иск; это важнейший случай, касающийся важной социальной проблемы. Это имеет большое значение для ваших клиентов.

Обеспокоенность частично возникла из-за того, что адвокаты не дали никаких показаний по делу.

Как геймер, я бы сказал это так: «Иногда они говорят, что время решает все, и кажется, они были правы — даже в том, что касается неудачного выбора времени. Судья Томас Хиксон указал на эту истину в своем письме. Игроки здесь обратились в суд с просьбой пусть они возьмут показания от 35 сторон, не считая третьих лиц, или в общей сложности на 180 часов. Они сделали этот запрос всего за 18 дней до крайнего срока закрытия фактов.

Судья заявил: «Учитывая, что истцы вообще не давали никаких показаний, запланировать все 35 показаний партий (наряду с показаниями беспартийных) или, что то же самое, 180 часов дачи показаний в течение второй половины сентября явно нецелесообразно. .

Смотрите также

2024-09-25 02:24