En un mismo día sucedieron dos lanzamientos prácticamente simultáneos. OpenAI lanzó su ChatGPT 4.o, (o haciendo referencia a omni) y Google tuvo su impresionante evento I/O con muchas novedades en el mundo de los desarrolladores pero que también aprovecharon para mostrar sus avances en IA Generativa.
Los referentes máximos de ambas compañías no dejaron de lanzarse dardos entre sí. Sam Altman, el CEO de OpenAI, realizó un planteo estético. Se focalizó en que su presentación se centralizó en una conversación entre personas donde la tecnología se proponía como una habilitadora más de esas conversaciones mientras lo comparó contra una imagen más techie del evento de Google. Por supuesto no era sólo un planteamiento estético sino un norte tecnológico. Hacer de la tecnología algo trasparente, quitarle el brillo a las pantallas para poner en el centro a las personas.
La IA Generativa, si es que todo sale bien y los “black mirrows” no ganan la partida, nos interpelará para que trabajemos de humanos y no de máquinas. En la educación eso quiere decir que un Maestro será el que logrará despertar motivaciones y curiosidades en sus alumnos no el que les enseñe un algoritmo. Se fomentará la innovación de una forma tal que es hasta difícil predecir cómo se acelerará.
Por el lado de Google contratacaron con más tecnología: “La T de ChatGPT son los Transformers una tecnología que creamos nosotros”, dijo su CEO, Sundar Pichai. Es cierto que ese fue el avance tecnológico más grande que posibilitó la IA Generativa. Pero también es cierto que de los ocho autores del famoso paper: “Attention is all you need”, ninguno queda trabajando en Google.
Por otro lado, hay que darle algún crédito a OpenAI, que unos meses antes, el 6 de abril de 2017, realizaron un famoso posteo en Twitter (que irónicamente nadie miró) donde su CTO, Greg Brockman mostró como una red neuronal aprendió en forma sorpresiva el sentimiento que está dentro de un texto. Se trataba de un viaje hacia la semántica, o sea del significado de los textos, que irrumpió con fuerza con ChatGPT 3.5 y sacudió al mundo hacia fines del 2022.
Microsoft se beneficia de los adelantos de OpenAI y los incluye dentro de su ecosistema de software donde Copilot es el nuevo director de orquesta. La multimodalidad, esto es que los sistemas de IA entiendan todo ya no solo comandos de texto (los “prompts” ya de alguna manera quedaron viejos) hace que las máquinas, al menos en su interacción con nosotros, sean menos como máquinas y mas como personas. De hecho Scarlett Johansson puso el grito en el cielo cuando le señalaron que ChatGPT 4.o hablaba como si fuese ella.
OpenAI sostiene que contrataron a otra actriz para realizar el entrenamiento de modelo de IA, pero de todos modos retiraron la voz. Lo que sorprende de estos sistemas es que la multimodalidad no es solo entender video, audio y texto sino que también pueden reconocer si uno esta contento, triste, angustiado etc, solo a partir de la voz, o mirando a la persona. Esta tecnología de hecho ya la estaba utilizando una empresa israelí para ofrecérsela a las compañías de seguros. La idea es que el sistema detecte si quien hace la denuncia es muy probable que esté mintiendo y que entonces la compañía investigue mejor ese caso.
Microsoft mostró como su asistente podía dar consejos a los chicos para jugar Minecraft mientras miraba lo que estaban haciendo en la pantalla. La multimodalidad lleva a la IA a un nuevo nivel donde ese asistente ya se parece mucho a una persona que nos acompaña. Google reveló su “Project Astra” como un agente de IA que se ocupará de asistirnos desde el celular.
Mientras estas máquinas se van transformando en un símil de personas la nueva carrera de la IA Generativa se centra en cómo y hasta donde controlarán las aplicaciones. Una cosa es la IA ayudándonos a crear, dándonos consejos o buscando información. Otra es que la IA tenga autonomía para manejar las aplicaciones. Google ya permite que la IA controle funciones dentro de su paquete de oficina y lo mismo está sucediendo en el caso de Microsoft. A todos ellos les gustaría controlar todo lo que hay en tu smartphone.
Se trata de hacer cosas como que si estas demorado en la ducha, el smartphone se de cuenta, y llame a un Uber porque no vas a llegar en colectivo, escriba y envíe un post en instagram que ibas a escribir sobre lo genial que será este día, Y no siempre porque se lo ordenás sino que se anticipa y te sugiere hacerlo. Lo mismo que haría un secretario si fueses lo suficientemente millonario como para tenerlo a disposición día y noche. En esta carrera Google tiene la ventaja de tener Android, después de todo la lucha es por tener una nueva especie de sistema operativo. Uno que ya no se comunica con el código de bajo nivel que habita en las computadoras sino el que hace de la máquina algo cada vez más indistinguible de un ser humano.