En la columna de hoy explico el revuelo en torno al surgimiento del text-to-video (T2V) en las aplicaciones de inteligencia artificial generativa y los modelos de lenguaje extensos (LLM). La conclusión es clara: aunque el T2V todavía está en una etapa inicial, prestá atención porque este avance va a crecer rápidamente y sorprender al mundo.
Como prueba tangible de lo que el T2V puede hacer en este momento, voy a incluir en esta discusión un análisis del recién lanzado producto Sora Turbo de OpenAI, un primo cercano del popular y ampliamente usado ChatGPT. Si estás tentado de probar Sora Turbo, tené en cuenta que al principio solo estará disponible para usuarios de ChatGPT Plus y ChatGPT Pro, lo que significa que hay que pagar. Carita triste.
Un dato importante: ChatGPT tiene actualmente unos 300 millones de usuarios activos semanales, y aunque no todos tendrán acceso inmediato a Sora Turbo, millones sí lo harán. Es probable que los productos competidores descubran que Sora Turbo se convierte en el "gorila de 270 kilos" y el "elefante en la habitación". En términos generales, un enorme número de usuarios y una gran atención mediática se volcarán rápidamente hacia Sora Turbo.
Hablemos de esto.
Este análisis sobre un avance innovador en IA forma parte de mi cobertura continua en Forbes sobre las últimas novedades en inteligencia artificial, incluyendo la identificación y explicación de diversas complejidades relevantes. Para conocer mi cobertura sobre el modelo de vanguardia ChatGPT o1 y sus funciones avanzadas, consultá el enlace acá y el enlace acá.
Entendiendo los modelos de IA
Quiero explicar algunos conceptos básicos para después profundizar en el ámbito del text-to-video.
La inteligencia artificial generativa y los modelos de lenguaje extensos (LLM) comenzaron ofreciendo capacidades de texto a texto (T2T). Escribís un texto como un pedido, y la IA responde con contenido como ensayos, poemas, narrativas, etc. Eso está buenísimo. Otra función emocionante es la de texto a imagen, donde ingresás un pedido y la IA genera una imagen, ya sea una foto realista, una pintura digital, una caricatura estática u otros tipos de imágenes. Estos dos modos de uso ya son casi algo común hoy en día.
El sueño de los investigadores en IA es permitir que una persona ingrese un pedido y que la IA genere un video. Una forma básica de hacerlo es enfocarse exclusivamente en el video visual sin incluir audio. Gradualmente, veremos la producción de elementos visuales de video que estarán acompañados por audio generado por IA de forma sincronizada (algunos modelos de lenguaje extensos ya hacen esto, pero de manera bastante limitada).
Un extra además de generar videos a partir de texto es la posibilidad de tomar una imagen como entrada y convertirla en un video. La imagen puede ser la única fuente de contenido, o la IA podría aceptar tanto un pedido en texto como una imagen adicional. Finalmente, el objetivo más ambicioso es permitir el uso de un video separado como fuente de entrada, posiblemente acompañado por texto e imágenes, todo lo cual la IA generativa utilizaría para producir un video adecuado. A esto lo llamo "el combo completo".
El Santo Grial: La adecuación del T2V
Notá que mencioné que la meta o esperanza es que la IA generativa produzca un video adecuado. Mi énfasis está en la noción de adecuación.
La adecuación es la parte más complicada de este gran esquema. Permitíme explicarlo. Si alguien ingresa un pedido que le dice a la IA que produzca un video de un gato con un sombrero, sentado en una caja y viajando en un tren en movimiento, tomáte un momento para imaginar cómo sería ese video.
Adelante, imaginalo, yo espero.
Apuesto a que, si le describieras a alguien cómo sería ese video exactamente, su concepción del mismo sería bastante distinta a la tuya. Seguro que ambos incluirían un gato, un sombrero en la cabeza del gato, una caja con el gato adentro y un tren en movimiento. Pero todos esos elementos podrían variar muchísimo según cada interpretación. La tuya podría ser fotorrealista, mientras que la otra persona podría imaginar una animación. Los colores serían diferentes, los tamaños y formas también, y la acción del gato y del tren variaría.
Seguro entendés la idea (un pequeño juego de palabras).
La adecuación, o el acto de cumplir con el pedido del usuario, es un desafío complejo. Podrías pensar que si alguien escribe un pedido largo y detallado, eso reduciría las diferencias. Tal vez sea así hasta cierto punto. Sin embargo, las probabilidades de que sigan existiendo variaciones importantes siguen siendo altas.
Sora Turbo entra en escena
A principios de este año, OpenAI lanzó de forma limitada su nuevo producto Sora, una aplicación de IA generativa que realiza text-to-video. Aunque se refiere como text-to-video, también permite la entrada de imágenes y videos como fuente.
Por otro lado, el objetivo final de los desarrolladores de IA es lograr lo que se conoce como modos X-to-X para la IA generativa, donde X puede ser texto, imágenes, audio, video o cualquier otro medio que podamos imaginar. La meta es que cualquier tipo de contenido pueda ser usado como entrada y que la IA produzca cualquier tipo de contenido como salida.
¡Boom, micrófono al suelo!
No te preocupes, ya llegaremos ahí (o, tal vez, deberíamos preocuparnos, como voy a mencionar más adelante).
Después de las pruebas iniciales de disponibilidad limitada, OpenAI realizó cambios importantes y ahora lanzó la versión modificada y más avanzada, conocida como Sora Turbo. Un nombre ingenioso. Podrías entrar a internet y ver algunos videos publicados que muestran el uso de Sora Turbo. Lo digo porque es difícil transmitir en palabras cómo son los comandos, las opciones de control y la experiencia general de uso, además de mostrar los videos generados. En la sección oficial de Sora en el sitio web de OpenAI, hay ejemplos útiles, y ya hay una gran cantidad de videos creados por usuarios disponibles en redes sociales.
Componentes de las aplicaciones avanzadas de text-to-video
Ahora voy a cubrir los tipos de características y funcionalidades que hoy esperamos de una aplicación avanzada de text-to-video basada en inteligencia artificial. Menciono esto para familiarizarte con los detalles y capacidades de este tipo de IA.
En cierto sentido, es como si estuvieras interesado en usar o comprar un auto, pero no supieras cuáles son las características y funciones clave de los automóviles. Es difícil elegir uno si no tenés idea de qué es lo importante.
Voy a identificar brevemente algunos de los elementos fundamentales del text-to-video. Además, asignaré una calificación en letra a las capacidades de la recién lanzada Sora Turbo, basándome en una primera impresión. Quiero aclarar que estas calificaciones son preliminares. Planeo dedicar más tiempo a probar Sora Turbo y, después, realizar una revisión más detallada.
Adecuación o fidelidad en T2V
Ya mencioné que la adecuación es el Santo Grial del text-to-video.
La idea es que, una vez que la IA analiza el pedido del usuario, debería generar un video que coincida con lo que esa persona tiene en mente. Wow, todavía no llegamos al punto en que la IA pueda leer mentes (aunque hay esfuerzos en marcha para crear interfaces cerebro-máquina o BMI, podés ver mi análisis sobre eso en este enlace).
En la industria de la IA, este factor de adecuación suele llamarse fidelidad u honestidad. Se espera que la IA haga un excelente trabajo y logre una representación fiel o honesta en formato de video de lo que el usuario quiere.
Voy a decir que, en este momento, todas las opciones disponibles de T2V, incluyendo Sora Turbo, todavía están en un nivel de calificación C. Poco a poco, se están desarrollando técnicas inteligentes para afinar mejor lo que un usuario desea. La mayor parte de este trabajo se realiza en los laboratorios de investigación de IA y, con el tiempo, veremos estas capacidades llegar al ámbito público.
Vividness visual, calidad y resolución en T2V
Los videos generados en los primeros días del text-to-video eran muy rudimentarios. Tenían principalmente baja resolución, y los gráficos eran bruscos en movimiento. No estoy criticando esos heroicos esfuerzos iniciales; debemos valorar ese trabajo pionero, ya que sin él no estaríamos donde estamos hoy.
Un aplauso para ellos.
Mi punto es que, afortunadamente, hemos avanzado muchísimo. Si tenés la oportunidad de ver los videos generados por Sora Turbo, vas a notar que la vividness, la calidad y la resolución son prácticamente de última generación para lo que es T2V. En este aspecto, le doy una calificación de A-/B+.
Sí, soy un evaluador exigente.
Consistencia temporal entre cuadros en T2V
Sabés que las películas consisten en cuadros individuales que pasan frente a nuestros ojos tan rápido que percibimos un movimiento fluido en lo que estamos viendo. La generación convencional de text-to-video sigue este mismo principio. Se genera una serie de cuadros consecutivos, y cuando se reproducen en secuencia, percibimos movimiento.
El problema es el siguiente: suponé que en un cuadro un gato con un sombrero está en el lado izquierdo de la escena. En el cuadro siguiente, se espera que el gato se haya movido un poco hacia la derecha. Y así sucesivamente.
Si la IA no calcula bien las cosas, el cuadro siguiente podría mostrar al gato de repente en el extremo derecho de la escena. ¡Ups! Te vas a sorprender al ver que el gato, milagrosamente, saltó de un lado al otro. Esto no se verá fluido.
Este problema se conoce como consistencia temporal. La IA debe renderizar el contenido de los cuadros de manera que, de un cuadro al siguiente, basados en el paso del tiempo, haya una consistencia adecuada. Es un problema complicado, para que lo sepas.
En este aspecto, le doy a Sora Turbo una calificación de B y anticipo que mejorará a medida que continúen sus avances.
Permanencia de objetos en T2V
Imaginá que estás viendo un video generado por IA y muestra un gato con un sombrero. El gato se mueve hacia el lado derecho de la escena. De repente, el sombrero desaparece. Se esfumó. ¿Qué pasó? Esto no era parte del pedido, ya que el usuario no pidió que el sombrero desapareciera.
La IA hizo esto.
En este contexto, esperamos que la IA respete la permanencia de objetos y no haga cambios inesperados. Un objeto que aparece en un cuadro debería seguir apareciendo en los cuadros siguientes, tal vez movido o parcialmente cubierto por otro objeto, pero debería estar ahí de alguna manera.
En este aspecto, califico a Sora Turbo con un B-/C+.
De nuevo, este es un problema difícil y todos en este campo están trabajando intensamente para resolverlo.
Física de las escenas en T2V
Este tema trata sobre la física de las escenas en el text-to-video. Es una de las capacidades más complejas y desafiantes, que mantiene a los investigadores y desarrolladores de IA despiertos por las noches. Probablemente incluso tengan pesadillas vívidas.
Funciona así: estás viendo un video generado por IA y un personaje deja caer una taza frágil. Acá en la Tierra, la taza debería obedecer las leyes de la gravedad. Cae, ¡kaboom!, la taza golpea el suelo en la escena y se rompe en mil pedazos.
Esa es la esencia de la física de las escenas. Los cálculos intensivos necesarios para determinar cómo deberían moverse los objetos según las leyes normales de la naturaleza son un gran desafío. Además, el usuario podría haber indicado que las leyes de la física están alteradas, pidiéndole a la IA que simule que la acción ocurre en la Luna o Marte, por ejemplo.
En este aspecto, califico a Sora Turbo con un B-/C+.
Es un problema difícil, pero es un área donde se están haciendo avances significativos para mejorar la fidelidad de las simulaciones físicas en videos generados por IA.
Lista de características y funciones en T2V
No tengo espacio suficiente acá para abordar todas las funciones y características disponibles en las aplicaciones modernas de text-to-video.
Para darte una idea, acá tenés una lista de muchas capacidades importantes en productos T2V:
- Opciones estilísticas
- Remixing y re-renderización
- Duración del video generado
- Tiempo de renderización
- Secuenciación y guion gráfico (storyboarding)
- Opciones de fuentes de entrada
- Limitaciones de uso según los preajustes del fabricante de la IA
- Marcado de agua en videos generados
- Restricciones de propiedad intelectual
- Biblioteca de pedidos (prompts)
- Función de almacenamiento de pedidos
- Función de almacenamiento de videos
- Compartir y controlar pedidos generados
- Etcétera
Un detalle clave que deberías tener en cuenta es que, actualmente, el T2V suele generar videos de corta duración. Cuando esta tecnología surgió, los videos eran de apenas uno o dos segundos, un parpadeo.
Hoy en día, muchos de los jugadores principales pueden generar videos de entre 10 y 20 segundos. Esto es probablemente suficiente para una escena breve, pero no equivale a un largometraje. Generalmente, podés usar funciones de secuenciación o guion gráfico que te permiten colocar una escena generada tras otra. Esto está bueno, pero el problema es que las escenas generalmente no están bien alineadas entre sí. La continuidad de escena a escena suele ser débil y evidente.
En general, considerando esta extensa lista, diría que Sora Turbo se encuentra en un rango de calificación A-/B+. Ofrece muchos controles y funciones útiles para mantenerte ocupado y entretenido.
Los traumas emergentes del uso accesible de T2V
Cambiando de enfoque, mencioné al principio de esta discusión que el text-to-video (T2V) es algo de gran relevancia. Vamos a analizar esa idea de manera más seria.
Imaginá que, con solo usar un pedido, casi cualquiera podría eventualmente producir videos de calidad comparable a las películas de Hollywood. Esto genera escalofríos en la industria del entretenimiento. La inteligencia artificial está avanzando hacia los actores, cineastas, equipos de soporte y similares. Algunos en el sector insisten en que la IA nunca podrá replicar lo que logran los cineastas humanos.
Bueno, es debatible.
Además, si interpretás que quien escribe el pedido puede considerarse un "cineasta", podrías argumentar que el ser humano todavía está en el proceso creativo. Una vuelta de tuerca interesante es que ya hay esfuerzos para que la IA generativa cree los pedidos que alimentan el T2V. Blasfemia para algunos.
Hay otra preocupación más inmediata, ya que la posibilidad de que el T2V cree películas completas y de alta calidad aún está un poco más lejos en el horizonte. El problema más urgente es que las personas podrán crear deepfakes de una naturaleza increíblemente convincente. Cubrí el tema de la creación de deepfakes con herramientas de IA hasta la fecha (consultá los enlaces acá y acá), y también lo que probablemente ocurra con la próxima ola de avances en IA.
Se podrán generar deepfakes totalmente convincentes, por millones y miles de millones. A un costo muy bajo o casi nulo. Se distribuirán fácilmente de forma digital en redes, también a un costo ínfimo o inexistente. Serán extremadamente difíciles de diferenciar de videos reales del mundo real.
A una escala enorme.
Lo inquietante es que parecerán videos auténticos. Pensá en las consecuencias. Una persona buscada por un crimen atroz y una persecución nacional está en marcha. Se le pide al público que envíe videos de cámaras de seguridad, teléfonos móviles o cualquier material que pueda ayudar a localizar al individuo.
Sería muy fácil crear un video que pareciera mostrar a esa persona caminando por una calle de una ciudad determinada, completamente fabricado con T2V. El video sería creíble. Esto podría causar pánico entre las personas en esa área. Los recursos policiales podrían desviarse de otras localidades para concentrarse en donde supuestamente se vio por última vez al sospechoso.
Ya te hacés la idea.
Se necesita una sociedad para decidir las normas sobre T2V
En mi lista anterior de características de T2V, mencioné que el marcado de agua es una función que los fabricantes de IA están incluyendo en los videos generados. Esto permite la detección y seguimiento de deepfakes. Sin embargo, es un juego de gato y ratón, donde quienes buscan fines maliciosos encuentran formas de superar estos marcadores. Otro elemento mencionado fue la imposición de restricciones por parte de los desarrolladores de IA sobre qué se puede incluir en un video generado, como la prohibición de usar rostros y figuras de políticos, celebridades, etc. Nuevamente, hay métodos furtivos para eludir estas restricciones.
Si no estabas pensando en la ética de la IA y las leyes relacionadas antes, es momento de empezar a reflexionar seriamente.
¿Hasta qué punto deberían los desarrolladores de IA tener discreción sobre los controles y límites? ¿Deberían promulgarse nuevas leyes relacionadas con la IA? ¿Esas leyes podrían obstaculizar el avance de la IA y poner a nuestro país en desventaja frente a otros? (Podés ver mi análisis sobre los avances de la IA como una forma de ejercer poder político nacional en el escenario mundial en el enlace acá).
OpenAI reconoce este dilema inquietante y lo destacó como un punto significativo en su página oficial sobre Sora Turbo, titulada "Sora Is Here" (publicada el 9 de diciembre de 2024):
"Estamos introduciendo nuestra tecnología de generación de video ahora para darle a la sociedad tiempo de explorar sus posibilidades y co-desarrollar normas y salvaguardas que garanticen un uso responsable a medida que el campo avanza".
Sí, todos tenemos un rol en esto. Ponéte al día con las últimas novedades en text-to-video, y mientras lo hacés, sumáte a las discusiones esenciales y dinámicas sobre hacia dónde se dirige esta tecnología y qué podemos o deberíamos hacer para guiar a la humanidad en una dirección adecuada.
Acá está de nuevo: la importancia de la adecuación.
*Con información de Forbes US.