La IA basada en el aprendizaje automático, en particular la IA de Transformer y Large Language Model que se encuentra en ChatGPT, acaparó la mayoría de los titulares tecnológicos en los últimos años por una buena razón.
Los autos que se manejan solos, que utilizarán la IA para poner patas arriba la tercera industria más importante del mundo, también están adoptando estas nuevas tecnologías de IA tan rápido como pueden. En la reciente conferencia GTC de Nvidia, la empresa de chips con un valor de dos billones de dólares que hace el hardware de IA más popular, varias empresas esbozaron su estrategia, pero en realidad todas las empresas del espacio cambiaron su forma de manejarse firmemente hacia esta área.
Un sistema clásico de conducción autónoma se divide en módulos, que a grandes rasgos están estratificados. Los módulos principales son la percepción (lo que hay ahí fuera), la predicción (hacia dónde va todo), la planificación (hacia dónde voy a ir) y la ejecución (pedales y volante), con soporte adicional para la localización (¿dónde estoy?), así como la cartografía, la interfaz de usuario, la interfaz HQ, el manejo a distancia y mucho más. Las líneas entre percepción, predicción y planificación se convirtieron en difusas, y sobre todo en lo que se conoce como un diseño de red neuronal "de extremo a extremo".
Tesla causó sensación al reescribir su sistema de asistencia al conductor (ahora llamado conducción autónoma completa supervisada) para utilizar en gran medida redes de extremo a extremo. En un sistema E2E, hay muy poca lógica de programación tradicional.
En su lugar, entran los datos de los sensores (sobre todo de las cámaras en el caso de Tesla) y salen las decisiones de conducción. A algunos los asusta que los programadores sólo tengan una idea limitada de cómo toma decisiones el sistema, sólo saben que lo hace mejor. La mayoría de los críticos creen que el nuevo SFSD de Tesla supera al anterior, aunque muchos de ellos no se dan cuenta de lo muy por detrás que sigue estando de los demás sistemas de conducción autónoma, a pesar de las mejoras.
Sin embargo, hay otros creyentes en el E2E, en distintos grados, como la startup británica Wayve y la de Toronto Waabi, ambas presentadas en la GTC de Nvidia. La herramienta ADAS de código abierto "comma" también la utiliza desde hace tiempo, y se dice que HYPR, la nueva startup del cofundador de Zoox, Tim Kenley-Klay, también emplea este enfoque. Escribir el software es "fácil" porque no se escribe mucho, lo que importa es obtener los datos de entrenamiento adecuados, y muchos, combinados con mucha computación. Tesla estuvo planeando un gigantesco centro de cálculo llamado Dojo para esto, pero su construcción se retrasó, lo que al parecer hizo enojar a Elon Musk y provocó algunas de las recientes salidas de ejecutivos.
Sus datos de entrenamiento iniciales proceden de grabaciones de humanos (y robots) realizando recorridos con éxito. Tenés que eliminar o etiquetar cualquier grabación de mal comportamiento al volante o el sistema lo aprenderá (Tesla tuvo que eliminar todas las grabaciones de personas realizando frenadas con balanceo, ya que la NHTSA les ordenó que sus autos no realizaran esta actividad tan común).
La mayoría de los equipos también suman conducciones simuladas a los datos de entrenamiento, y esta es la especialidad de Waabi, que realiza la mayor parte del entrenamiento en simulador. Esto incluye el entrenamiento adversario, en el que una IA intenta ser lo más inteligente posible al crear escenarios simulados que harán que el auto se estrelle, para que pueda aprender lo que no debe hacer. Esto puede permitir que el auto haya experimentado muchas más situaciones malas que cualquier humano.
Incluso las empresas que no van a E2E están haciendo uso de la misma tecnología que se encuentra en herramientas como ChatGPT. El "gran modelo de lenguaje transformador" asombró al mundo con lo que puede hacer con los documentos escritos, pero para la IA, el texto no es más que una serie de palabras, y aprende cuál es la mejor palabra que puede sacar a continuación basándose en lo que vio hasta ahora. La tecnología del transformador ayuda a saber a qué palabras de los textos más largos vale más la pena prestar atención.
Puede que manejar no parezca escribir, pero una vez que se hizo la percepción, lo que ven los sensores puede convertirse en una cadena de tokens no muy diferente de las frases. Y así, una LLM que fue entrenada en toneladas de conducción puede llegar a ser muy buena, y muy humana, a la hora de decidir qué debe venir a continuación en cualquier situación. Podés probar esto con tu IA favorita, y podés ver que aunque todo lo que hizo fue leer libros sobre conducción, es capaz de averiguar cosas a partir de información de percepción muy básica.
La respuesta de Gemini no es perfecta, pero date cuenta de que nunca fue entrenada en ninguna conducción real, sólo leyó los manuales. Que pueda hacer lo anterior es asombroso, pero una herramienta entrenada en conducción real y sometida a pruebas de calidad puede hacerlo aún mejor. Y eso es con lo que están experimentando ahora la mayoría de las empresas de conducción autónoma. Algunas a fondo, otras con más cautela.
Nuro, por ejemplo, que fabrica vehículos de reparto, tiene tanto un planificador de IA como uno tradicional, y ambos hacen propuestas sobre lo que la máquina debe hacer en cada momento. A continuación, otra herramienta elige cuál de los planes le parece mejor. Normalmente es el planificador de IA el que hace la mejor elección y la más parecida a la humana.
Zoox tardó más en asimilar plenamente los LLM, pero también está trabajando en ello, y aunque Waymo hizo comentarios limitados, también se cree que lo está haciendo; después de todo, el modelo transformador que está en la base de todos los LLM se desarrolló en Google, el hermano de Waymo.
No siempre es bueno. Existe la sospecha de que cuando un auto Cruise hizo un giro a la izquierda desde el carril central de una calle de San Francisco, cruzándose delante de una retroexcavadora que lo golpeó, esto podría haberlo decidido un planificador de aprendizaje automático que había visto a demasiados humanos hacer acrobacias como esta. Y el problema de la "alucinación", en el que los LLM emiten respuestas plausibles pero erróneas, requiere atención.
La gente tiene miedo de los enfoques de "caja negra" que pueden tomar decisiones por razones desconocidas para sus desarrolladores. Si hay problemas, podés "solucionarlos" añadiendo más formación diseñada para desalentar las malas elecciones, pero sin la misma certeza de la programación tradicional. Con frecuencia pregunto a la gente: "¿Preferirías un auto que se estrella una vez en un millón de kilómetros pero no puede explicar por qué, aunque podés arreglarlo, o un auto que se estrella dos veces en un millón de kilómetros pero que vos sabés exactamente por qué lo hizo?". Obtengo ambas respuestas.
El desarrollador británico Wayve fusionó un LLM de texto real con su sistema de conducción E2E. Podés preguntarle en cualquier momento por qué hace lo que hace. Esperan que eso haga que la gente se sienta mejor, además de ayudar a depurarlo. Cuando estaba parado en un semáforo en rojo con algunos autos delante, le pregunté por qué no avanzaba. Mencionó el semáforo en rojo, pero no el tráfico delantero más importante, lo que me pareció un grave error, ya que no se cruzaría con ellos sólo porque el semáforo se pusiera en verde. Así pues, este enfoque necesita más trabajo, pero puede ayudar a afrontar el miedo.
Es una buena noticia que se esté trabajando con tantos enfoques diferentes, desde los LLM hasta el aprendizaje clásico por imitación y refuerzo, pasando por las limitaciones de la robótica tradicional, que es mejor para seguir rígidamente las normas de circulación.
Tesla y MobilEye cuentan con las mayores reservas de datos de conductores humanos y esperan que eso les dé ventaja en un mundo en el que gana el que más datos de entrenamiento y computación tiene. Pero hay muchos datos ahí fuera, y mucho cálculo, si tenemos en cuenta que empresas como Google, Amazon y Nvidia siguen luchando en este juego. Aunque varias empresas se retiraron de esta carrera, incluidos los proyectos de los principales fabricantes de autos, todavía hay muchas en la víspera, con la esperanza de ser las primeras en desplegar el sueño de la conducción autónoma a escala.
*Con información de Forbes US