Sam Altman, CEO de OpenAI, lanza "Operator" y comieza la batalla por adueñarse de la pantalla de los usuarios
El nuevo agente busca automatizar tareas complejas para que el usuario sólo tenga que dar comandos de voz o texto y no adentrarse en toda la serie de acciones que se requieren para completarlas

Martín está enamorado y hoy es el cumpleaños de Liliana que no está en Buenos Aires. Tuvo que viajar a Irlanda y sería muy lindo sorprenderla con un desayuno a domicilio en el Airbnb en el que está viviendo. Y además agregarle algunos detalles adicionales como unas flores y esa foto especial de cuando estuvieron juntos. 

Por supuesto que Martín tiene esa idea. Pero, ¿la podrá cumplir?. Pueden ser varias horas de navegación hasta entender toda la oferta, comprender incluso temas culturales que a simple vista ni se han considerado. Qué bueno sería tener un amigo en irlanda que nos entienda y nos resuelva todo. 

Ese amigo hoy es un agente de IA, y OpenAI dice que lo tiene. Lo llamó Operator. Y es un paso mas en los formidables anuncios que vendrán este año para cambiarlo todo. En este caso simplemente el usuario puede decir lo que necesita y Operator navegará las webs, seleccionará los productos y claro nos irá consultando para los detalles que nos necesite como autorizar el pago. 

Adiós a horas de navegación y a cientos de clics. Y esto también es una puerta que se abre para personas con habilidades diferentes, para las cuales es mas complejo el uso del teclado. 

OpenAI no está solo en esta carrera. Ya hay soluciones como Computer Use de Anthropic (una versión de Claude 3.5 Sonnet que puede realizar tareas simples en una computadora) y Mariner de Google DeepMind (un agente de navegación web creado sobre Gemini 2.0). Además casi al mismo momento Perplexity lanzó Assistant. Pero en OpenAI sostienen que su producto tiene nuevos diferenciales y mayor precisión aunque aún no tan grande como la que tienen los humanos. 

Operator es una aplicación web que puede realizar tareas en línea simples en un navegador, como el ejemplo dado anteriormente o reservar entradas para el cine o completar un pedido en un ecommerce o un delivery de comidas. La aplicación está impulsada por un nuevo modelo llamado Computer-Using Agent (CUA, por sus siglas en inglés), creado sobre el modelo de lenguaje multimodal de gran tamaño GPT-4o de OpenAI.

Operator está disponible en https://operator.chatgpt.com/ para usuarios que se hayan suscrito a ChatGPT Pro, el servicio premium de OpenAI que cuesta 200 dólares al mes. En la empresa afirmaron que tienen previsto ofrecer la herramienta a otros usuarios en el futuro.

El hecho de que tres de las principales empresas de inteligencia artificial coincidan en la misma estrategia de lo que podrían ser los modelos basados en agentes deja algo en claro: la batalla por la supremacía de la inteligencia artificial tiene una nueva frontera: las pantallas de nuestras computadoras y celulares.

Operator es un trabajo experimental en progreso. "Todavía es temprano, todavía comete errores", dice Yash Kumar, un investigador de OpenAI.
 


Al igual que Computer Use de Anthropic y Mariner de Google DeepMind, Operator toma capturas de pantalla de una pantalla de computadora y escanea los píxeles para determinar qué acciones puede realizar. CUA, el modelo que lo respalda, está entrenado para interactuar con las mismas interfaces gráficas de usuario (botones, cuadros de texto, menús) que las personas usan cuando hacen cosas en línea. 

El sistema escanea la pantalla, realiza una acción, escanea la pantalla nuevamente, realiza otra acción, y así sucesivamente. Eso le permite al modelo realizar tareas en la mayoría de los sitios web que una persona puede usar.

"Tradicionalmente, la forma en que los modelos han utilizado el software ha sido a través de API especializadas", dice Reiichiro Nakano, científico de OpenAI. Las API permiten que diferentes software se conecten entre sí. Pero en este caso habría eventos para los que no se necesitarían estas APIs, sino que directamente sabrían conectar software diferentes desde el Agente de OpenAI, ya que éste no dispara un evento para que se active la API, sino que directamente aprenta el botón de la web como si fuese un humano. O sea, Operator hace el clic como si tuviera un mouse. 

La precisión de CUA viene porque divide las tareas en pasos más pequeños e intenta resolverlos uno por uno, retrocediendo cuando se queda atascado. OpenAI dice que CUA fue entrenado con técnicas similares a las utilizadas para sus llamados modelos de razonamiento , o1 y o3. 

OpenAI testó las fortalezas y debilidades de CUA en relación con una serie de parámetros de referencia de la industria diseñados para evaluar la capacidad de un agente para llevar a cabo tareas en una computadora. La empresa afirma que su modelo supera a Computer Use y Mariner en todos ellos.


Por ejemplo, en el test OSWorld, que prueba la eficacia con la que un agente realiza tareas como fusionar archivos PDF o manipular una imagen, CUA obtiene un 38,1% frente al 22,0% de Computer Use. En comparación, los humanos obtienen un 72,4%. En otro test conocido como WebVoyager, que prueba la eficacia con la que un agente realiza tareas en un navegador, CUA obtiene un 87%, Mariner un 83,5% y Computer Use un 56%. (Mariner solo puede realizar tareas en un navegador y, por lo tanto, no obtiene puntos en OSWorld).

Por ahora, Operator solo puede realizar tareas en un navegador. OpenAI planea hacer que las capacidades más amplias de CUA estén disponibles en el futuro a través de una API que otros desarrolladores puedan usar para crear sus propias aplicaciones. Así es como Anthropic lanzó Computer Use en diciembre.

La batalla entre IAs se extendió a conquistar el uso de las pantallas de forma automatizada

OpenAI afirma que probó la seguridad de CUA, monitoreando qué sucede cuando los usuarios le piden que realice tareas inaceptables (como investigar cómo fabricar un arma biológica), o cuando los sitios web contienen instrucciones ocultas diseñadas para engañarlo y cuando el propio modelo falla. "Hemos entrenado al modelo para que se detenga y le pida información al usuario antes de hacer algo que tenga efectos secundarios externos", asegura Casey Chu, otro investigador del equipo.

Operator por supuesto tiene limitantes su funcionamiento en websites donde OpenAI tiene convenios o conocimientos específicos no es igual al de otras webs. No puede resolver captchas y ahí los humanos deberán volver a tomar el control. 

Más allá de que aún le falta el hecho es que Operator ya llegó. Y este año ya tiene una certeza: se vendrán ejércitos de Agentes de IA diseñados desde cero por los creadores de los LLMs (modelos de lenguaje extendido, nos gusta más esa traducción que gran modelo de lenguaje) y por sus partners. El mundo comienza a cambiar más rápido de lo que puede entenderse. Como si fuésemos Colón llegamos a América, y eso es tan fascinante como peligroso.