Hardware & Software

OpenAI lanza Sora, su modelo de inteligencia artificial capaz de convertir texto en video

OpenAI

Sora apunta a ser una nueva revolución por parte de OpenAI, ya que ahora es capaz de transformar palabras en videos fotorealistas.

OpenAI, la compañía líder en inteligencia artificial, ha presentado su más reciente innovación: Sora, un modelo de generación de video que promete revolucionar la forma en que creamos contenido audiovisual. Según OpenAI, Sora es capaz de «crear escenas realistas e imaginativas a partir de instrucciones de texto», permitiendo a los usuarios generar videos fotorealistas de hasta un minuto de duración basados en los prompts que escriben.

La habilidad de Sora para crear «escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo» marca un hito en el desarrollo de la IA, según la publicación de blog que introdujo el modelo. La compañía destaca que el modelo comprende cómo existen los objetos en el mundo físico, además de «interpretar de manera precisa los accesorios y generar personajes convincentes que expresan emociones vibrantes».

Este modelo no solo puede generar un video a partir de una imagen fija, sino que también puede completar los fotogramas que faltan en un video existente o extenderlo. Las demos generadas por Sora incluidas en la publicación de OpenAI presentan una escena aérea de California durante la fiebre del oro, un video que parece haber sido filmado desde el interior de un tren en Tokio, entre otros. A pesar de mostrar algunos signos reveladores de IA, como un suelo que se mueve de manera sospechosa en un video de un museo, los resultados son impresionantemente realistas, aunque OpenAI reconoce que el modelo «puede tener dificultades para simular con precisión la física de una escena compleja».

Hasta hace un par de años, los generadores de texto a imagen como Midjourney estaban a la vanguardia de la capacidad de los modelos para convertir palabras en imágenes. Sin embargo, recientemente, el video ha comenzado a mejorar a un ritmo notable: compañías como Runway y Pika han mostrado modelos de texto a video impresionantes por su cuenta, y Lumiere de Google se perfila como uno de los principales competidores de OpenAI en este espacio. Al igual que Sora, Lumiere ofrece herramientas de texto a video y también permite a los usuarios crear videos a partir de una imagen fija.

Por el momento, Sora solo está disponible para los «red teamers» que están evaluando el modelo en busca de posibles daños y riesgos. OpenAI también está ofreciendo acceso a algunos artistas visuales, diseñadores y cineastas para obtener retroalimentación. La compañía advierte que el modelo existente puede no simular con precisión la física de una escena compleja y puede no interpretar correctamente ciertas instancias de causa y efecto.

A principios de este mes, OpenAI anunció que está agregando marcas de agua a su herramienta de texto a imagen DALL-E 3, aunque señala que pueden «eliminarse fácilmente». Al igual que con sus otros productos de IA, OpenAI tendrá que lidiar con las consecuencias de los videos fotorealistas falsos generados por IA que podrían confundirse con la realidad.

De ChatGPT a Sora, trazando el camino de la innovación en la IA generativa.

Desde el lanzamiento de ChatGPT, OpenAI ha seguido un camino imparable de innovación y desarrollo en el campo de la inteligencia artificial. La presentación de Sora, su modelo de generación de video basado en texto, es solo el último hito en una serie de avances que han redefinido las posibilidades de la tecnología de IA.

ChatGPT marcó un antes y un después en la interacción humano-computadora, permitiendo a los usuarios obtener respuestas coherentes y contextualmente relevantes a una amplia gama de consultas y comandos de texto. Su capacidad para generar texto que imita el estilo y el razonamiento humano abrió nuevas avenidas para la creación de contenido, la educación, y más allá. Sin embargo, OpenAI no se detuvo ahí. La organización ha continuado empujando los límites de lo que la IA puede hacer, buscando siempre aplicaciones que no solo fascinen sino que también ofrezcan soluciones prácticas a problemas complejos.

La transición de ChatGPT a proyectos como DALL-E, un generador de imágenes basado en texto, demostró el compromiso de OpenAI con la expansión de la creatividad y la productividad humana mediante la IA. DALL-E y su sucesor, DALL-E 2, sorprendieron al mundo con su capacidad para crear imágenes detalladas y artísticas a partir de descripciones de texto simples, abriendo un nuevo mundo de posibilidades para artistas, diseñadores y creativos de todos los ámbitos.

Ahora, con Sora, OpenAI se aventura en el reino del video, llevando la generación de contenido basada en IA a una nueva dimensión. Sora no solo representa un avance tecnológico significativo por su capacidad para transformar texto en videos complejos y emocionalmente resonantes, sino que también destaca la evolución de OpenAI desde sus inicios. Lo que comenzó como un esfuerzo por entender y mejorar la comunicación escrita ha evolucionado hacia la creación de mundos visuales enteros, llenos de movimiento y vida.

La trayectoria de OpenAI desde ChatGPT hasta Sora ilustra una visión ambiciosa: democratizar el acceso a herramientas de IA avanzadas que empoderen la creatividad humana y resuelvan desafíos significativos. A medida que OpenAI continúa explorando nuevas fronteras en la IA, el impacto potencial de su trabajo en diversas industrias —desde el entretenimiento hasta la educación y más allá— solo parece estar creciendo.

La evolución de OpenAI refleja un compromiso inquebrantable con la innovación y la exploración de las capacidades ilimitadas de la inteligencia artificial. A través de proyectos como ChatGPT, DALL-E y ahora Sora, OpenAI no solo está cambiando la forma en que interactuamos con la tecnología sino que también está reimaginando el futuro de la creatividad humana.


Descubre más desde TecnoAp21

Suscríbete y recibe las últimas entradas en tu correo electrónico.

1 respuesta »

Deja un comentario