Цю інформацію наводить РБК-Україна (проект Styler), посилаючись на новинний портал у галузі технологій TechCrunch.
Цю модель вперше презентували в травні, всього через три місяці після того, як OpenAI показала свій аналогічний продукт Sora. Veo змогла випередити конкурента, запустившись у форматі приватного прев'ю на платформі Google Vertex AI.
Veo має можливість створювати кліпи тривалістю до шести секунд у роздільній здатності 1080p, використовуючи зображення тварин, предметів та людей, при частоті 24 або 30 кадрів на секунду. За інформацією від Google, Veo може захоплювати різноманітні візуальні та кінематографічні стилі, включаючи пейзажі та таймлапси, а також вносити корективи в вже створені відеоматеріали.
Чому затримка з API? "Після оголошення про Veo наші команди активно працювали над удосконаленням, зміцненням та поліпшенням моделі для бізнес-клієнтів на платформі Vertex AI", - прокоментував Уоррен Барклі, старший директор з управління продуктами в Google Cloud.
"Сьогодні у вас є можливість створювати відео з роздільною здатністю 720p, використовуючи співвідношення сторін 16:9 для ландшафтного формату та 9:16 для портретного. Як і з іншими моделями, наприклад, Gemini на Vertex AI, ми плануємо продовжувати вдосконалювати функціонал Veo", - зазначив він.
Veo добре розуміє візуальні ефекти підказок, наприклад, такі як "величезний вибух", і має деяке уявлення про фізику, включаючи динаміку рідин. Модель також підтримує масковане редагування для зміни конкретних областей відео та теоретично здатна з'єднувати фрагменти відео у більш довгі проекти.
Отже, Veo виступає в конкурентній боротьбі з найкращими сучасними відео-генераторами, включаючи Sora від OpenAI, а також рішеннями від Adobe, Runway, Luma, Meta та багатьох інших.
Однак це не означає, що Veo ідеальна. Відображаючи обмеження сучасного ШІ, об'єкти у відео Veo зникають і знову з'являються без особливих пояснень чи послідовності. Крім того, Veo часто помиляється у фізиці. Наприклад, машини можуть несподівано та неймовірно почати рухатися заднім ходом.
Модель Veo була навчена на великій кількості відео. Це стандартна практика для генеративних штучних інтелектів: отримуючи численні приклади, моделі здобувають здатність виявляти закономірності, що дає змогу створювати нові дані – в даному випадку, нові відео.
Google, подібно до багатьох інших компаній у сфері штучного інтелекту, не надає інформації про джерела даних, які використовуються для навчання своїх моделей. Відповідаючи на запитання щодо Veo, Уоррен Барклі лише зазначив, що "можливо, модель була навчена на певних даних з YouTube, відповідно до угоди між Google і творцями контенту на цій платформі".
"Veo проходила навчання на численних високоякісних наборах даних, що містять описи відео, які були ретельно обрані для гарантії безпеки та надійності," - зазначив Барклі.
Незважаючи на те, що Google пропонує власникам сайтів можливість обмежувати збір інформації з їхніх ресурсів, у компанії немає інструменту, який би дозволяв авторам контенту видаляти свої твори з уже сформованих навчальних наборів.
Google заявляє, що процес навчання своїх моделей на відкритих даних є етично допустимим, тому вважає, що не має потреби отримувати дозвіл від власників цих даних чи виплачувати їм винагороду. Крім того, компанія підкреслила, що не використовує ці дані для навчання своїх моделей.
Сучасні генеративні моделі мають свої специфічні недоліки, зокрема ризик регенерації, тобто створення копій навчальних даних. Виявилося, що деякі інструменти, як-от Runway, іноді генерують зображення, які надмірно нагадують сцени з відеоматеріалів, захищених авторським правом. Це може призвести до серйозних юридичних проблем для їхніх користувачів.
Google ухвалив рішення впровадити фільтри на етапі підказок, зокрема для контенту, що містить насильство або відверті сцени. У разі виникнення проблем компанія гарантує підтримку згідно зі своєю політикою компенсації для користувачів Veo, яких можуть звинуватити у порушенні авторських прав.
"Барклі повідомив, що ми маємо намір забезпечити компенсацію за збитки, пов'язані з контентом, розробленим Veo на платформі Vertex AI після її офіційного запуску."
Надання еталонного зображення з підказкою дозволяє Veo згенерувати відео, яке відповідає стилю зображення та інструкціям підказки (gif: Google)
Протягом останніх кількох місяців компанія Google поступово впроваджувала Veo у свої програми та сервіси, зосереджуючи зусилля на вдосконаленні моделі.
У травні Veo вперше з’явилася в Google Labs, спеціальній програмі раннього доступу для вибраних тестувальників. В вересні Google оголосила про інтеграцію Veo з YouTube Shorts, новим форматом коротких відео на YouTube, що дозволяє авторам створювати фонові зображення та шестисекундні кліпи.
Але як же вирішити проблему ризиків, пов'язаних із дипфейками? Компанія Google запевняє, що застосовує свою інноваційну технологію водяних знаків SynthID для інтеграції невидимих маркерів у створені зображення.
Ці питання можуть виявитися не такими важливими, якщо Veo не знайде широкого застосування.
Наприклад, Runway нещодавно уклала угоду з Lionsgate для навчання моделі на фільмотеці студії, а OpenAI співпрацює з брендами та незалежними режисерами, демонструючи можливості Sora.
Основний аргумент Google на користь Veo - це спосіб скоротити витрати та прискорити процес створення відеоконтенту. Однак, цей підхід може відштовхнути креативних фахівців. Згідно з дослідженням, замовленим Гільдією аніматорів (Animation Guild), до 2026 року ШІ порушить роботу понад 100 000 робочих місць у сфері кіно, телебачення та анімації в США.
Ймовірно, саме тому Google діє обережно та повільно. На питання про терміни загального запуску Veo на платформі Vertex або її появи в інших сервісах Google Уоррен Барклі не дав відповіді.
У недавньому анонсі Google оголосила, що її провідний генератор зображень Imagen 3 тепер відкритий для всіх користувачів Vertex AI без необхідності чекати в черзі. Проте нові можливості для кастомізації та редагування зображень наразі доступні лише через окремий список очікування.
#Телебачення #РБК-Україна #Google #Директор #Штучний інтелект #Анімація #Електричний генератор #Контент (медіа) #Мета-платформи #YouTube #Модель #Відеокліп #Кінофільм #OpenAI #Фізика #Роздільність дисплея #API #Adobe Inc. #720p #TechCrunch #1080p #Конкуренція (економіка) #Портрет #Лайонсгейт #Веб-сайт