
Мирослав Трінько – це справжній гік, який за освітою є програмістом, але працює журналістом. Він захоплюється верховою їздою, тенісом і має пристрасть до Формули-1. Я пишу про новітні технології, смартфони та електромобілі.
Компанії, що працюють у галузі штучного інтелекту, заявляють, що їхні моделі не можуть бути розроблені без використання матеріалів, що підлягають авторському захисту. Проте, як виявилось, це можливо, хоча і вкрай важко реалізувати. Таку інформацію наводить The Washington Post.
Щоб це довести, дослідники створили нову модель, менш потужну, зате значно етичнішу. Її навчили виключно на даних з відкритих джерел і матеріалах, що перебувають у суспільному надбанні.
Дослідження проводили фахівці з 14 різних установ, серед яких MIT, Університет Карнегі-Меллона та Торонтський університет. У рамках проєкту також взяли участь некомерційні організації, такі як Vector Institute і Інститут штучного інтелекту Аллена.
Дослідники зібрали 8 ТБ даних, отриманих етично, серед яких міститься 130 тисяч книг з Бібліотеки Конгресу США. На основі цього матеріалу вони створили велику мовну модель (LLM) з 7 мільярдами параметрів. Як наслідок, ця модель продемонструвала продуктивність, що приблизно відповідає Llama 2-7B від Meta з 2023 року. Однак автори не надали порівняння з найсильнішими сучасними моделями.
Процес обробки даних виявився досить виснажливим. Чимало інформації не вдалося обробити автоматизованими засобами, тому її необхідно було перевіряти і анотувати вручну.
"Ми застосовували автоматизовані інструменти, проте в кінцевому підсумку усю роботу перевіряли вручну," -- поділилася співавторка Стелла Бідерман.
Визначити, які ліцензії застосовуються до кожного з джерел, виявилося також непростим завданням.
Це дослідження навряд чи змінить стратегії великих компаній -- їм вигідніше створювати потужніші моделі з меншими затратами. Але тепер у суперечках щодо авторських прав у ШІ з'явиться новий вагомий контраргумент.
#Телебачення #Смартфон #Журналіст #Штучний інтелект #The Washington Post #Мета-платформи #Модель #Стратегія #Формула-1 #Ліцензія #Массачусетський технологічний інститут #Університет Торонто #Програміст #Суспільне надбання #Бібліотека Конгресу США