
Нове дослідження підтверджує твердження про те, що OpenAI тренував принаймні деякі зі своїх моделей штучного інтелекту на захищеному авторським правом вмісті.
OpenAI опинилася в центрі юридичних суперечок з авторами, програмістами та іншими правовласниками, які звинувачують компанію у використанні їхніх творів — книг, кодів та іншого контенту — для створення своїх моделей без отримання відповідного дозволу. Хоча OpenAI вже давно наголошує на принцилах добросовісного використання, позивачі в цих справах стверджують, що американське законодавство в області авторського права не передбачає жодних винятків для використання даних для навчання.
Дослідження, співавторами якого були дослідники з Вашингтонського, Копенгагенського та Стенфордського університетів, пропонує новий метод ідентифікації навчальних даних, "запам'ятованих" моделями за API, такими як OpenAI.
Моделі функціонують як інструменти для прогнозування. Вони аналізують величезні обсяги даних, вивчаючи різноманітні шаблони, що дозволяє їм створювати тексти, зображення та інший контент. Хоча більшість згенерованих результатів не є прямими копіями навчальних даних, деякі з них все ж можуть бути такими через особливості процесу навчання моделей. Наприклад, виявлено, що моделі для обробки зображень можуть відтворювати фрагменти з фільмів, на яких вони були натреновані, тоді як мовні моделі можуть ненавмисно повторювати тексти новин.
Метод дослідження базується на термінах, які співавтори визначають як "високо неочікувані" — тобто слова, що виділяються своєю незвичністю у порівнянні з більшими обсягами текстів. Наприклад, слово "радар" у реченні "Ми з Джеком сиділи абсолютно нерухомо, коли радар гудів" буде сприйматися як дуже сюрпризне, адже його поява перед словом "гудіння" статистично менш ймовірна, ніж використання таких слів, як "двигун" чи "радіо".
Співавтори дослідили кілька моделей OpenAI, у тому числі GPT-4 і GPT-3.5, на ознаки запам'ятовування, видаливши дуже несподівані слова з уривків художніх книг і публікацій New York Times, і спробували моделі "вгадати", які слова були замасковані. Якщо моделям вдалося вгадати правильно, то, швидше за все, вони запам'ятали фрагмент під час навчання, підсумували співавтори.
Згідно з проведеними тестами, GPT-4 продемонстрував ознаки запам'ятовування фрагментів відомих літературних творів, включаючи ті, що містяться в наборі даних з електронними книгами, захищеними авторським правом, відомому як BookMIA. Крім того, результати вказують на те, що модель також зберігала частини матеріалів з New York Times, хоча й менш інтенсивно.
Абхілаша Равічандер, докторант Вашингтонського університету та співавтор дослідження, сказав TechCrunch, що результати проливають світло на моделі "спірних даних", на яких, можливо, навчалися.
"Щоб створити надійні великі мовні моделі, необхідно мати можливість їх досліджувати, перевіряти та науково аналізувати", -- зазначив Равічандер. "Ми прагнемо забезпечити інструменти для вивчення великих мовних моделей, проте існує нагальна потреба у підвищенні прозорості даних в усій екосистемі".
#Університет #Двигун #Модель #Есе #Фотографія #OpenAI #Штучний інтелект #Програміст #Екосистема #The New York Times #Радіо #Радар. #API #Прогнозування #TechCrunch