Así es la Inteligencia Artificial que genera videos a partir de texto

ientras OpenAI se esfuerza en evaluar la seguridad de ChatGPT-4 y revela las principales características de su futura IA multimodal GPT-5 para competir con Gemini, parece evidente que la empresa, dirigida nuevamente por Sam Altman, busca mantener su posición de liderazgo en una industria que prácticamente iniciaron. Aunque su evolución plantea preocupaciones sobre la posible amenaza para hasta el 60% de los empleos mundiales debido a la Inteligencia Artificial.

A pesar de ello, OpenAI presentó su primera herramienta de Inteligencia Artificial para generar videos sintéticos a partir de texto, llamada Sora. La empresa, con sede en San Francisco, California, describe a Sora como un modelo de IA capaz de crear escenas realistas e imaginativas según instrucciones de texto, generando videos de hasta un minuto de duración con calidad visual y cumpliendo las indicaciones del usuario.

Un fotograma de un vídeo de una carrera de bicicletas en el océano de diferentes animales creado por inteligencia artificial.

OpenAI señala que actualmente están enseñando a la IA a comprender y simular entornos físicos en movimiento, pero los ejemplos de videos generados hasta el momento sugieren un rendimiento prometedor, a pesar de estar en una fase de desarrollo no accesible al público. La empresa comparte sus avances para que los primeros betatesters puedan probarla, ofrecer comentarios y contribuir al perfeccionamiento antes de su lanzamiento comercial.

En cuanto a sus capacidades, Sora puede generar escenas complejas con múltiples personajes, animales y objetos, así como crear movimientos y mantener detalles precisos del fondo. OpenAI destaca que el modelo comprende no solo las instrucciones del usuario, sino también cómo existen y funcionan esas cosas en el mundo real, lo cual resulta impresionante.

Cómo funciona SORA

Captura de uno de los videos generados por Sora

La operación de Sora es bastante simple: el usuario ingresa una serie de contenidos en la plataforma y, posteriormente, estos se reflejan automáticamente en las imágenes generadas. El programa aprovecha la tecnología de modelos de lenguaje como GPT y gracias al entrenamiento detallado realizado por sus creadores, comprende el lenguaje natural del usuario para producir imágenes a través de comandos específicos.

Este proceso da lugar a la creación de nuevos conjuntos de imágenes, que pueden ser utilizados, por ejemplo, como escenografía en una película o como fondo para un usuario de TikTok gracias a la extensa biblioteca de videos a la que Sora tiene acceso. Además, puede reconocer detalles específicos en respuesta a las solicitudes, como el tipo de personas presentes en las imágenes, su vestimenta, accesorios o efectos visuales.

Sin embargo, como es un producto en desarrollo presenta algunas limitaciones, como la simulación inconsistente de físicas en escenas complejas y la posibilidad de confusiones en causas y efectos de ciertos movimientos. Aunque OpenAI anticipa mejoras y una rápida evolución, el futuro que se insinúa plantea un dilema entre lo impresionante, lo interesante y lo aterrador.

SORA: límite de 60 segundos

La versión actualmente operativa de Sora puede crear videos utilizando Inteligencia Artificial con una duración máxima de 60 segundos.

Las pruebas iniciales aún no están disponibles al público; actualmente, solo los investigadores de OpenAI que continúan validando su diseño tienen acceso. Por otro lado, la compañía anunció que Sora se incorporará a su conjunto de productos en los próximos meses, aunque la fecha exacta aún no ha sido especificada.

Compartir con amigos o grupo de WhatsApp