Дослідження показують, що навчати штучний інтелект можна без порушення авторських прав.

Мирослав Трінько – це справжній гік, який за освітою є програмістом, але працює журналістом. Він захоплюється верховою їздою, тенісом і має пристрасть до Формули-1. Я пишу про новітні технології, смартфони та електромобілі.

Компанії, що працюють у галузі штучного інтелекту, заявляють, що їхні моделі не можуть бути розроблені без використання матеріалів, що підлягають авторському захисту. Проте, як виявилось, це можливо, хоча і вкрай важко реалізувати. Таку інформацію наводить The Washington Post.

Щоб це довести, дослідники створили нову модель, менш потужну, зате значно етичнішу. Її навчили виключно на даних з відкритих джерел і матеріалах, що перебувають у суспільному надбанні.

Дослідження проводили фахівці з 14 різних установ, серед яких MIT, Університет Карнегі-Меллона та Торонтський університет. У рамках проєкту також взяли участь некомерційні організації, такі як Vector Institute і Інститут штучного інтелекту Аллена.

Дослідники зібрали 8 ТБ даних, отриманих етично, серед яких міститься 130 тисяч книг з Бібліотеки Конгресу США. На основі цього матеріалу вони створили велику мовну модель (LLM) з 7 мільярдами параметрів. Як наслідок, ця модель продемонструвала продуктивність, що приблизно відповідає Llama 2-7B від Meta з 2023 року. Однак автори не надали порівняння з найсильнішими сучасними моделями.

Процес обробки даних виявився досить виснажливим. Чимало інформації не вдалося обробити автоматизованими засобами, тому її необхідно було перевіряти і анотувати вручну.

"Ми застосовували автоматизовані інструменти, проте в кінцевому підсумку усю роботу перевіряли вручну," -- поділилася співавторка Стелла Бідерман.

Визначити, які ліцензії застосовуються до кожного з джерел, виявилося також непростим завданням.

Це дослідження навряд чи змінить стратегії великих компаній -- їм вигідніше створювати потужніші моделі з меншими затратами. Але тепер у суперечках щодо авторських прав у ШІ з'явиться новий вагомий контраргумент.

#Телебачення #Смартфон #Журналіст #Штучний інтелект #The Washington Post #Мета-платформи #Модель #Стратегія #Формула-1 #Ліцензія #Массачусетський технологічний інститут #Університет Торонто #Програміст #Суспільне надбання #Бібліотека Конгресу США

Читайте також

Найпопулярніше
Ситник про розмови із журналістами оф рекордс: Не розголошував. Ні державної таємниці, ні таємниці слідства
Вчені назвали найкращий час для вживання калорійної їжі
На сьогодні Майдан не завершений — учасник Революції Гідності та АТО (+текст)
Актуальне
"Серіал тільки розпочинається": аналітик прокоментував наслідки протистояння Трампа та Маска для Сполучених Штатів.
Маск не є першим у цьому списку; існують два вражаючі приклади, коли олігархи стали жертвами обставин, - зазначає Портников.
Дайджест 1: Неправдива інформація про українських біженців у Словаччині, Польщі та Чехії - noviny.sme.sk
Теги