Дослідження показують, що навчати штучний інтелект можна без порушення авторських прав.

Мирослав Трінько – це справжній гік, який за освітою є програмістом, але працює журналістом. Він захоплюється верховою їздою, тенісом і має пристрасть до Формули-1. Я пишу про новітні технології, смартфони та електромобілі.

Компанії, що працюють у галузі штучного інтелекту, заявляють, що їхні моделі не можуть бути розроблені без використання матеріалів, що підлягають авторському захисту. Проте, як виявилось, це можливо, хоча і вкрай важко реалізувати. Таку інформацію наводить The Washington Post.

Щоб це довести, дослідники створили нову модель, менш потужну, зате значно етичнішу. Її навчили виключно на даних з відкритих джерел і матеріалах, що перебувають у суспільному надбанні.

Дослідження проводили фахівці з 14 різних установ, серед яких MIT, Університет Карнегі-Меллона та Торонтський університет. У рамках проєкту також взяли участь некомерційні організації, такі як Vector Institute і Інститут штучного інтелекту Аллена.

Дослідники зібрали 8 ТБ даних, отриманих етично, серед яких міститься 130 тисяч книг з Бібліотеки Конгресу США. На основі цього матеріалу вони створили велику мовну модель (LLM) з 7 мільярдами параметрів. Як наслідок, ця модель продемонструвала продуктивність, що приблизно відповідає Llama 2-7B від Meta з 2023 року. Однак автори не надали порівняння з найсильнішими сучасними моделями.

Процес обробки даних виявився досить виснажливим. Чимало інформації не вдалося обробити автоматизованими засобами, тому її необхідно було перевіряти і анотувати вручну.

"Ми застосовували автоматизовані інструменти, проте в кінцевому підсумку усю роботу перевіряли вручну," -- поділилася співавторка Стелла Бідерман.

Визначити, які ліцензії застосовуються до кожного з джерел, виявилося також непростим завданням.

Це дослідження навряд чи змінить стратегії великих компаній -- їм вигідніше створювати потужніші моделі з меншими затратами. Але тепер у суперечках щодо авторських прав у ШІ з'явиться новий вагомий контраргумент.