El nuevo generador de vídeo con IA de Tencent se enfrenta a Sora de OpenAI de forma gratuita

Mientras OpenAI continúa provocando a Sora después de meses de retrasos, Tencent ha abandonado silenciosamente un modelo que ya está mostrando resultados comparables a los generadores de vídeo de primer nivel existentes.

Tencent presentó Hunyuan Video, un generador de video de IA gratuito y de código abierto, estratégicamente sincronizado durante la campaña de anuncios de 12 días de OpenAI, que se espera que incluya el debut de Sora, su muy esperada herramienta de video.

«Presentamos Hunyuan Video, un nuevo modelo básico de vídeo de código abierto que muestra un rendimiento de generación de vídeo comparable, si no superior, a los principales modelos de código cerrado», dijo Tencent en su anuncio oficial.

El gigante tecnológico con sede en Shenzhen, China, dice que su modelo «supera» a los de Runway Gen-3, Luma 1.6 y «tres modelos generativos de video chinos de alto rendimiento» según resultados de evaluaciones humanas profesionales.

El momento no podría ser más adecuado.

Antes de su generador de video, en algún lugar entre la era SDXL y Flux de generadores de imágenes de código abierto, Tencent lanzó un generador de imágenes con un nombre similar.

HunyuanDit Proporcionó excelentes resultados y mejoró la comprensión de textos bilingües, pero no fue adoptado ampliamente. La familia se completaba con un grupo de grandes modelos lingüísticos.

Hunyuan Video utiliza un modelo multimodo grande solo decodificador como codificador de texto en lugar de la combinación habitual CLIP y T5-XXL que se encuentra en otras herramientas de video y generadores de imágenes de IA.

Tencent dice que esto ayuda al modelo a seguir mejor las instrucciones, captar los detalles de la imagen con mayor precisión y aprender nuevas tareas sobre la marcha sin capacitación adicional; Además, su configuración de atención causal recibe un impulso de un refinador de tokens especial que le ayuda a comprender las instrucciones de una manera más profunda que la tradicional. modelos.

También reescribe las sugerencias para enriquecerlas y aumentar la calidad de sus generaciones. Por ejemplo, un mensaje que simplemente dice «Un hombre paseando a su perro» se puede mejorar incluyendo detalles, escenario, condiciones de iluminación, calidad y artefactos de raza, entre otros elementos.

Gratis para las masas

Al igual que LLaMA 3 de Meta, Hunyuan se puede usar y monetizar de forma gratuita hasta que alcance los 100 millones de usuarios, un umbral del que la mayoría de los desarrolladores no tendrán que preocuparse en el corto plazo.

¿El problema? Necesitará una computadora robusta con al menos 60 GB de memoria GPU para ejecutar localmente su modelo de 13 mil millones de parámetros; piense en las tarjetas Nvidia H800 o H20. Eso es más vRAM que la que tienen la mayoría de las PC para juegos en total.

Para aquellos que no tienen una supercomputadora a mano, los servicios en la nube ya se están incorporando.

FAL.ai, una plataforma de medios generativos diseñada para desarrolladores, ha integrado Hunyuan, cobra 0,5 dólares por vídeo. Otros proveedores de nube, incluidos Reproducir exactamente O irEhnance, También comenzaron a ofrecer acceso al modelo. El funcionario Vídeo de Hunyuan el servidor ofrece 150 créditos por 10 dólares, y cada generación de vídeo cuesta al menos 15 créditos.

Y, por supuesto, los usuarios pueden ejecutar el modelo en una GPU alquilada utilizando servicios como Runpod o Vast.ai.

Las pruebas iniciales muestran que Hunyuan iguala la calidad de pesos pesados ​​comerciales como Luma Labs Dream Machine o Kling AI. Los vídeos tardan aproximadamente 15 minutos en generarse y producen secuencias fotorrealistas con movimientos humanos y animales de aspecto natural.

Las pruebas revelan una debilidad actual: la comprensión del modelo de las sugerencias en inglés puede ser mejor que la de sus competidores. Sin embargo, ser de código abierto significa que los desarrolladores ahora pueden modificar y mejorar el modelo.

Tencent dice que su codificador de texto logra tasas de alineación de hasta el 68,5%, que es lo que coincide la salida con lo que piden los usuarios, mientras mantiene puntuaciones de calidad visual del 96,4% según pruebas internas.

El código fuente completo y los pesos previamente entrenados están disponibles para descargar en GitHub Y abrazando la cara plataformas.

Por Sebastián Sinclair

Generalmente inteligente Noticias

Un viaje semanal hacia la inteligencia artificial contado por Gen, un modelo de inteligencia artificial generativa.