Esat Dedezade Colaborador
A veces, los avances tecnológicos más significativos se revelan de las formas más inesperadas. Si bien la última actualización de OpenAI con GPT-4o introduce mejoras sustanciales en la generación de imágenes, un descubrimiento peculiar sirve como una ventana fascinante a la evolución de la relación entre la inteligencia artificial (IA) y la realidad física: la capacidad de generar la imagen de una copa de vino completamente llena.
El problema de la copa de vino
Hasta hace poco, los generadores de imágenes impulsados por IA tenían dificultades con una tarea aparentemente simple que ponía en evidencia limitaciones más profundas en su comprensión del mundo: la imposibilidad de crear imágenes de copas de vino llenas, a pesar de recibir instrucciones claras. Sin importar cuán específico fuera el pedido del usuario, la IA producía únicamente copas medio llenas o vacías.
Esta limitación no era solo una rareza sin importancia, sino que reflejaba una restricción fundamental en la manera en que los sistemas de IA conceptualizan las propiedades físicas. Los modelos anteriores no lograban abstraer conceptos como el volumen de un líquido más allá de lo que habían aprendido en sus datos de entrenamiento. Dado que la mayoría de las fotos de copas de vino suelen mostrarlas parcialmente llenas, la IA no podía "imaginar" una copa completamente llena.
Mientras que los seres humanos pueden comprender fácilmente la idea de "plenitud" sin necesidad de una experiencia directa, los sistemas de IA tradicionalmente no podían dar ese salto. El hecho de que GPT-4o ahora pueda generar una imagen de una copa de vino completamente llena representa un avance significativo en su capacidad para manejar conceptos abstractos y propiedades físicas, trascendiendo el reconocimiento de patrones para acercarse a una comprensión más sofisticada del mundo real.
El avance de ChatGPT
La actualización de OpenAI con GPT-4o reformuló de manera fundamental la generación de contenido visual. "Siempre creímos que la generación de imágenes debería ser una capacidad central de nuestros modelos de lenguaje", señaló OpenAI en su anuncio. "Por eso integramos en GPT-4o nuestro generador de imágenes más avanzado hasta la fecha", agregó.
A diferencia de versiones anteriores, GPT-4o fusiona la generación de texto e imágenes sin interrupciones. Como explicó el investigador de OpenAI Gabriel Goh: "Esto es una tecnología completamente nueva en su núcleo. No separamos la generación de imágenes de la de texto. Queremos que todo se haga de manera integrada".
El sistema fue entrenado con la distribución conjunta de imágenes y textos disponibles en línea, desarrollando una comprensión más sofisticada de la relación entre imágenes y lenguaje. Esta formación, combinada con lo que OpenAI describe como un "entrenamiento posterior agresivo", dio como resultado un modelo con una fluidez visual sorprendente. Ahora, la IA puede generar imágenes que son coherentes, contextualizadas y capaces de representar escenas complejas con una precisión sin precedentes.
Las nuevas capacidades no se limitan únicamente a las copas de vino. GPT-4o resuelve varias limitaciones que hasta ahora afectaban a los generadores de imágenes de IA. Puede manejar indicaciones complejas que involucren entre 10 y 20 objetos diferentes (frente al límite anterior de entre 5 y 8). También puede representar texto dentro de imágenes con precisión (otro punto débil en la generación de imágenes por IA) y mantener la coherencia visual a lo largo de múltiples iteraciones.
Estos avances podrían transformar la generación de imágenes por IA, pasando de aplicaciones mayormente artísticas a herramientas prácticas de comunicación visual. "Desde logotipos hasta diagramas, las imágenes pueden transmitir significados precisos cuando se combinan con símbolos que hacen referencia a un lenguaje y una experiencia compartidos", destaca OpenAI en su anuncio.
Un avance con implicaciones más amplias
Las implicaciones prácticas son sustanciales. Aunque la generación de una copa de vino completamente llena pueda parecer trivial, en realidad marca un hito en el desarrollo de la inteligencia artificial. Sugiere que estos sistemas están comenzando a desarrollar una comprensión más abstracta de los conceptos físicos, avanzando más allá de la mera coincidencia de patrones hacia un razonamiento conceptual más cercano al humano.
En cuanto a la disponibilidad del nuevo generador de imágenes por IA, OpenAI integró estas capacidades como la opción predeterminada en ChatGPT para los usuarios de los planes Plus, Pro, Team y Free, con acceso próximo para clientes Enterprise y Edu. Además, los desarrolladores podrán acceder a la API en las próximas semanas. El sistema también incorpora medidas de seguridad, como metadatos C2PA para identificar imágenes creadas por IA y una herramienta de búsqueda interna que permite verificar si un contenido proviene de su modelo.
Con información de Forbes US.