La realidad comienza a escribirse más rápido que la ficción. Y el último anuncio de Figure, la empresa que está marcando el ritmo al unir la IA generativa con la robótica permite vislumbrar una era cuyas sombras ya se asoman y provocan tanta admiración como temor.
Figure es una empresa que recibió una importante inversión, cercana a los US$ 400 millones, de OpenAI, la creadora de ChatGPT. Todos esperaban entonces que su IA Generativa se vaya embebiendo en los robots de Figure, en particular en su versión 2 que ya se despachó a un cliente BMW, y también firmaron con un segundo gran cliente de Estados Unidos, aunque aún no se dio a conocer el nombre.
"Esperamos enviar a estos dos clientes cerca de 100.000 robots en los próximos cuatro años", se entusiasma Brett Adcock, CEO y founder de Figure. Los robots humanoides de su compañía fueron ganando atención de los medios y lograron correr del centro del mapa a Boston Dynamics, la gran líder del rubro.
El foco en el factor humano de Figure fue evolucionando no solo por sus movimientos realistas sino también por su paradigma de utilizar a la IA Generativa como un factor decisivo para la evolución de estos robots. Pero no se quedaron conformes con las propuestas de OpenAI y se decidieron por crear su propia IA: una que sintetice algo que va mas allá del lenguaje, y aproveche las capacidades que tiene los robots para interactuar con el mundo.
El resultado fue Helix, "nuestra nueva IA que piensa como los humanos", se entusiasma Adcock. Se trata de un modelo de tipo VLA, esto es un modelo generalista que reune visión, lenguaje y acción (VLA) de esta forma se unifica la percepción, la comprensión del lenguaje y el control aprendido para superar múltiples desafíos de larga data en robótica.
"Si queremos que los robots puedan llegar a las casas, necesitamos avanzar en sus capacidades. Con Helix, los robots pueden generalizar los objetos para identificar cualquier item que hayaen una casa. Estuvimos trabajando en este proyecto por mas de un año para alcanzar lo que denominamos robótica de propósito general. Como un humano, Helix entiende lo que se le diga, y puede razonar los problemas y trabajar con prácticamente cualquier objeto sin necesidad que se haya entrenado previamente o se le haya generado código específico", agrega.
Helix es un sistema de IA generativa multimodal desarrollado por Figure para potenciar las capacidades cognitivas y físicas de sus robots humanoides. A diferencia de los modelos de IA tradicionales, que suelen especializarse en tareas específicas (como reconocimiento de imágenes o procesamiento de lenguaje), Helix integra múltiples capacidades en un único marco unificado: percepción del entorno, toma de decisiones en tiempo real, aprendizaje autónomo e interacción social con humanos u otros robots.
La relevancia de Helix radica en su capacidad para cerrar la brecha entre la inteligencia artificial "abstracta" y la ejecución física. Mientras proyectos anteriores, como los robots de Boston Dynamics, se destacan en movilidad y agilidad, Helix busca dotar a los robots de un entendimiento contextual profundo, permitiéndoles operar en entornos dinámicos como hogares, hospitales o fábricas sin programación previa.
Un ejemplo ilustrativo es la capacidad de un robot con Helix para improvisar. Si se le pide "organizar una caja de herramientas", no solo reconoce los objetos, sino que deduce su categoría (herramientas eléctricas vs. manuales) y las ordena según criterios intuitivos, ajustándose a preferencias no especificadas.
Aunque no lo parezca el hogar es el mayor desafío para la robótica. A diferencia de los entornos industriales controlados, las casas están llenas de innumerables objetos (cristalería delicada, ropa arrugada, juguetes desperdigados), cada uno con formas, tamaños, colores y texturas impredecibles. Para que los robots sean útiles en los hogares, deberán ser capaces de generar nuevos comportamientos inteligentes a pedido, especialmente para objetos que nunca han visto antes.
El estado actual de la robótica no se podía adaptar al hogar sin un cambio radical. Enseñar a los robots incluso un solo comportamiento nuevo requiere un esfuerzo humano sustancial: ya sea horas de programación manual especializada a nivel de doctorado o miles de demostraciones. Ambas son prohibitivamente caras si se tiene en cuenta la gran amplitud que tiene el hogar como problema de robótica.
Pero otros dominios de la IA lograron realizar este tipo de generalización instantánea. ¿Qué pasaría si pudiéramos simplemente traducir el rico conocimiento semántico capturado en los modelos de lenguaje de visión (VLM) directamente en acciones de robots? Esta nueva capacidad mejoraría en forma notable la evolución de los robots. De repente, nuevas habilidades que antes requerían cientos de entrenamientos podrían obtenerse instantáneamente con solo hablar con los robots en lenguaje natural. El problema clave que se trazaron en Figure es: ¿cómo extraemos todo este conocimiento de sentido común de los VLM y lo traducimos a un control de robot generalizable? Helix es su respuesta para salvar esta brecha.
Helix es un modelo VLA que logra un nuevo tipo solución. Los enfoques anteriores se enfrentan a una disyuntiva fundamental: las estructuras VLM son generales, pero no rápidas, y las políticas visomotoras de los robots son rápidas, pero no generales. Helix resuelve esta disyuntiva mediante dos sistemas complementarios, entrenados de extremo a extremo para comunicarse:
Sistema 2 (S2): un VLM preentrenado mediante Internet que opera a 7-9 Hz para la comprensión de escenas y del lenguaje, lo que permite una amplia generalización entre objetos y contextos.
Sistema 1 (S1): Una política visomotora reactiva rápida que traduce las representaciones semánticas latentes producidas por S2 en acciones robóticas continuas y precisas a 200 Hz.
Esta arquitectura desacoplada permite que cada sistema funcione en su escala de tiempo óptima. S2 puede "pensar lentamente" sobre objetivos de alto nivel, mientras que S1 puede "pensar rápido" para ejecutar y ajustar acciones en tiempo real. Por ejemplo, durante el comportamiento colaborativo (ver Video), S1 se adapta rápidamente a los movimientos cambiantes de un robot asociado mientras mantiene los objetivos semánticos de S2.
En Figure mostraron como un robot sigue suavemente sus manos con su cabeza mientras ajusta su torso para un alcance óptimo, todo mientras mantiene un control preciso de los dedos para agarrar. Históricamente, lograr este nivel de precisión con un espacio de acción de tan alta dimensión se ha considerado extremadamente desafiante, incluso para una sola tarea conocida. Hasta ahora ningún sistema anterior había logrado ese grado de coordinación en tiempo real manteniendo la capacidad de generalizar en todas las tareas y objetos.
La integración de IA generativa en robots humanoides (como los de Figure, Tesla Optimus o Google RT-2) podría resolver uno de los mayores límites de los LLMs: su falta de "grounding" en la realidad física. Al interactuar con el mundo, estos robots generan datos multimodales (tacto, visión, fuerza) que vinculan el lenguaje a experiencias sensoriales concretas. Por ejemplo: Cuando un robot aprende la palabra "frágil" no solo a través de textos, sino al romper accidentalmente un vaso y registrar la retroalimentación táctil (resistencia, sonido, consecuencias).
Aquí está el meollo filosófico y técnico: ¿Puede emerger comprensión genuina de meras correlaciones estadísticas? Hay dos posturas: para los escépticos como Emily M. Bender y Timnit Gebru, en su artículo Stochastic Parrots, los LLMs (los modelos de lenguaje que usa la IA Generativa) no entienden nada; solo manipulan símbolos basados en patrones de entrenamiento. Los autores dan la analogía de un loro que repite frases sin asociarlas a experiencias. Para ellos, la "comprensión" requiere "embodiment" (cuerpo que interactúa con el mundo) e intencionalidad (deseos, creencias).
Del otro lado están los optimistas para los que "La estadística puede codificar semántica". Ilya Sutskever ha sugerido que los LLMs desarrollan modelos mentales implícitos del mundo. Al predecir palabras, deben inferir estados mentales (ej: si un texto dice "Juan levantó la llave", el modelo "sabe" que Juan tiene una mano y que las llaves abren puertas). Una evidencia de su posición es la capacidad de los LLMs para resolver analogías, hacer razonamientos causales simples, o responder a preguntas sobre escenarios ficticios coherentes.
La integración con robots podría inclinar la balanza hacia los optimistas: si un LLM, entrenado en lenguaje y datos sensoriales de un robot, logra predecir consecuencias físicas (ej: "Si empujo este objeto, caerá"), estaría construyendo una semántica anclada en la realidad. Es el principio de la teoría enactiva de la cognición: entender es poder actuar.
El lenguaje humano surgió como una herramienta para coordinar acciones en el mundo físico. Hoy, la IA generativa está recorriendo el camino inverso: de lo estadístico (texto) a lo encarnado (robots). Si tiene éxito, podría cerrar el círculo, creando sistemas donde la estadística se infunda con semántica a través de la experiencia.
Como diría Wittgenstein, "Los límites de mi lenguaje son los límites de mi mundo". Para los robots del futuro, esos límites se expandirán no solo con más texto, sino con actos físicos: levantar, caer, romper, construir. Y en ese proceso, quizá se descubra que la comprensión no es un fenómeno binario ("sí" o "no"), sino un espectro que une símbolos, estadísticas y la materia misma de la realidad.
Pero hay otro peligro uno que los escritores de ciencia ficción no anticiparon. Siempre se habló de la Inteligencia Artificial como una amenaza para la humanidad. Distintos escritores plantearon diversos escenarios por el cual podrían eliminarnos del planeta. Ahora que la IA embebida en robótica se acerca aparecen nuevas sombras en la caverna de Platón.
Si los robots dominan el lenguaje con mayor maestría que los humanos, si comienzan a concer más del mundo, si además son tan bellos como nos podamos imaginar... ¿Tendrá sentido hablar con otro humano?
La batalla quizá nunca estuvo en otro lugar que en el lenguaje. Algo que ya se ve en IAs muy rudimentarias como las de TikTok donde los chicos están más tiempo con esos robots que con sus padres. Si sucede el escenario donde los nuevos robots pueden quitarnos del lenguaje, porque los humanos no quieran hablar mas con otros humanos, será una gran derrota.
"En el principio era el verbo, y el verbo era con Dios, y el verbo era Dios". Cuando no haya verbo, ya no habrá ningún principio. O quizá era que la película se estaba pasando al revés y Dios no estaba al principio sino al final. Pequeños dioses ya se asoman y prometen crecer rápido.
Pablo Wahnon
@pablowahnon