Google Cloud presentó Veo, un modelo de generación de videos, e Imagen 3, una herramienta avanzada de generación de imágenes, en su plataforma Vertex AI. Veo, actualmente en vista previa privada, genera videos de alta calidad a partir de instrucciones de texto o imágenes. Permite a las empresas crear secuencias realistas y consistentes de manera eficiente, reduciendo el tiempo y los costos de producción.
“Veo, ahora disponible en Vertex AI en vista previa privada, permite a las empresas generar fácilmente videos de alta calidad a partir de instrucciones simples de texto o imágenes. Como primer hiperescalador en ofrecer un modelo de imagen a video, estamos ayudando a las empresas a transformar sus activos creativos existentes en imágenes dinámicas”, dijo la compañía en su publicación de blog.
Imagen 3, ahora disponible de forma generalizada, ofrece generación de imágenes fotorrealistas con detalles mejorados y artefactos visuales reducidos en comparación con versiones anteriores. Imagen 3 incorpora herramientas de edición y opciones de personalización, lo que permite a las empresas alinear la producción con los requisitos de la marca.
Empresas como Mondelez International y WPP utilizan estos modelos para acelerar la creación de contenido. Mondelez ha utilizado Imagen 3 para campañas de marketing y planea adoptar Veo para la producción de vídeos.
WPP está integrando estas herramientas en su plataforma impulsada por IA, WPP Open, para mejorar los flujos de trabajo creativos. Agoda, una plataforma de viajes digital, está experimentando con estas tecnologías para desarrollar imágenes personalizadas para promociones.
Desarrollado por Google DeepMind, Veo incluye funciones de seguridad como marcas de agua digitales, filtros de seguridad y medidas de gobernanza de datos.
Anteriormente, Google anunció que YouTube lanzaría herramientas avanzadas de IA generativa para creadores en los próximos meses, permitiéndoles generar contenido de video utilizando modelos de IA Veo e Imagen 3 a través de una función llamada Dream Screen.
Sora se roba el protagonismo por motivos equivocados
Mientras tanto, la popular herramienta de conversión de texto a video de OpenAI, Sora, se ha convertido recientemente en la comidilla de Internet debido a su reciente filtración de Hugging Face. La API de Sora se filtró y estuvo disponible para algunos artistas como prueba inicial.
Sin embargo, poco después de que se filtrara la herramienta, la página Hugging Face pareció funcionar mal con el error 502 debido al alto tráfico. La empresa salió a la luz del incidente bastante pronto y cerró el acceso tres horas después de la revelación. OpenAI aún no ha lanzado oficialmente a Sora.
Competencia en abundancia: Con el auge y el impacto de otras herramientas como Runway, Pika Midjourney y KlingAI durante el año pasado, a los creadores les resulta difícil repensar las capacidades de Sora.
Runway se asoció recientemente con la empresa líder en entretenimiento y medios Lionsgate para desarrollar versiones personalizadas de Gen-3 Alpha. A diferencia de OpenAI, Runway también puso Gen-3 Alpha a disposición de todos los usuarios, aunque el modelo sigue estando basado en suscripción.
Meta también presentó recientemente su modelo de generación de video, Movie Gen, un modelo de parámetros 13B diseñado para generación de video y texto a audio. Sus características principales incluyen generar videos a partir de texto, editar videos con texto, producir videos personalizados y crear efectos de sonido. El modelo aún no está disponible al público.
China también ha aprovechado esta oportunidad para emerger como un competidor importante, superando las capacidades de varias plataformas existentes. Kuaishou, un competidor chino de TikTok, lanzó este año su potente herramienta de vídeo con inteligencia artificial, Kling, que los usuarios han adoptado como una alternativa directa a Sora. Tencent también lanzó su modelo de generación de videos HuanYuan de código abierto de 13 mil millones.
(Con aportaciones de Sanjana Gupta, periodista de AIM)