Google представляє генеративний штучний інтелект для 3D-візуалізації продуктів в інтернет-магазинах

Google, google ads, google shopping, контекстна реклама, Штучний інтелект

Oleksii Hulak

Google хвилин на прочитання

Google розробив нові генеративні методи штучного інтелекту для покращення онлайн-шопінгу шляхом перетворення 2D-зображень товарів на захоплюючі 3D. Ця інновація має на меті відтворити тактильну природу покупок у магазині, яку часто складно передати в цифровому вигляді. Нова технологія дозволяє створювати високоякісні, зручні для покупок 3D-візуалізації лише з трьох зображень товарів, використовуючи передову модель генерації відео Google Veo.

Перше покоління: Neural Radiance Fields (NeRFs)

У 2022 році дослідники Google представили Neural Radiance Fields (NeRF) для створення 3D-зображень продуктів. Цей метод вимагав кількох зображень для відтворення нових видів, таких як обертання на 360°. Початкові застосування включали інтерактивну візуалізацію взуття в Пошуку Google. Однак виникали проблеми зі складною геометрією, особливо з тонкими конструкціями, такими як сандалі та туфлі на підборах.

Друге покоління: View-Conditioned Diffusion Prior

У 2023 році було запущено підхід другого покоління, який використовує дифузію на основі умов зору, щоб подолати обмеження NeRF. Ця модель передбачає зовнішній вигляд продукту з обмежених точок зору, що дозволяє створювати 3D-зображення на основі меншої кількості зображень. Процес навчання включав рендеринг 3D-моделей з випадкових ракурсів камери та їх оптимізацію за допомогою вибірки методом дистиляції балів, що значно покращило якість візуалізацій для різних категорій взуття, доступних у Google Shopping.

Третє покоління: Generalizing with Veo

Найновіший прогрес використовує Veo , який чудово справляється зі створенням відео, що фіксують складні взаємодії світла та матеріалів. Завдяки точному налаштуванню Veo з набором даних високоякісних 3D-ресурсів, він може створювати послідовні 360° обертання з одного або кількох зображень. Цей підхід ефективно узагальнює різні категорії продуктів, включаючи меблі та електроніку, водночас спрощуючи процес створення високоточних зображень без необхідності точних поз камери. Маючи лише три зображення, Veo може створювати реалістичні 3D-зображення, хоча йому все одно може знадобитися виводити деталі з невидимих зображень.

Висновок та перспективи на майбутнє

Перехід від NeRF до моделей дифузії на основі умовного вигляду, а тепер і до Veo, знаменує собою значний прогрес у генеративному 3D-штучному інтелекті, покращуючи досвід онлайн-шопінгу. Google прагне продовжувати впроваджувати інновації в цій галузі, роблячи онлайн-шопінг більш відчутним та привабливим для користувачів.

Обрані статті

Актуальні послуги