Los modelos de Inteligencia Artificial generativa fueron diseñados para que las personas pueden interactuar con ellos de forma natural. Pero los humanos no se comunican sólo con texto o voz. Si bien el lenguaje es el medio de comunicación principal también se utilizan imágenes o recientemente hay una explosión de videos como en Tik Tok.
Para un sistema de inteligencia artificial esto es un desafío. Se trata de lograr comprensibilidad a partir de diversas fuentes: textos, audio, imágenes y video. Los LLMs o grandes modelos de lenguajes que forman el corazón de la IA Generativa son entrenados solo en un tipo de estas fuentes. Así ChatGPT era muy bueno con comandos de textos, pero cuando se querían crear imágenes se utilizaba Dall-E.
La industria pronto comprendió las necesidades de esta integración. Y hoy desde plataformas como Bing, se pueden realizar ambas cosas. Sin embargo se trata de una integración entre diversos modelos. El desafío actual es lograr un verdadero LLM multimodal, esto es que sea entrenado nativamente a partir de diversas fuentes de datos. y es aquí donde descolla el anuncio de Google: Gemini 1.o es el primer LLM multimodal que mostró todo su poder en un lanzamiento exclusivo del cual participaron algunos pediodistas seleccionados a nivel mundial.
Forbes pudo ver cómo Gemini no sólo podía responder comandos de texto que descollan en diversos benchmarks que miden capacidad de razonamiento y posibilidades de ingresos de textos largos. Lo que llama la atención es cómo viendo por ejemplo una mano haciendo el movimiento de piedra papel o tijera, ya de da cuenta de que se está realizando ese juego. O cómo puede ver la imagen de un gráfico, por ejemplo una serie que muestre los datos hasta 2019 y buscar por su cuenta el resto de los datos y agregárselos al gráfico para que esté actualizado hasta 2023.
Esta habilidad de escuchar, leer pero también mirar y comprender los contextos de todas estas fuentes de información en forma simultánea hace que la IA Generativa salte un nuevo escalón donde la comprensibilidad de estos sistemas se asemeja mucho a la humana. Chat GPT 5, la nueva versión de OpenAI está trabajando en la misma dirección, y la oferta sin dudas crecerá. Pero Google que sintió el impacto en el valor de su acción a principios de año cuando parecía que perdía la carrera frente a OpenAI, ahora no quiere perder pisada y no perdió la oportunidad de mostrar cómo piensa pisar fuerte en este terreno.
Tras ser fuertemente criticado y hasta sufrir que el mercado pidiera por su cabeza, Sundar Pichai, CEO de Google y Alphabet comienza a reivindicarse con la avalancha que inicia Gemini. “Cada cambio tecnológico es una oportunidad para avanzar en los descubrimientos científicos, acelerar el progreso humano y mejorar vidas. Creo que la transición que estamos viendo ahora con la IA será la más profunda de nuestras vidas, mucho mayor que el paso anterior a los dispositivos móviles o a la Web. La IA tiene el potencial de crear oportunidades (desde las cotidianas hasta las extraordinarias). Traerá nuevas olas de innovación y progreso económico e impulsará el conocimiento, el aprendizaje, la creatividad y la productividad a una escala nunca antes vista”, se enorgullece Pichai
La primera versión, Gemini 1.0, está optimizada para diferentes tamaños: Ultra, Pro y Nano. “Estos son los primeros modelos de la era Gemini y la primera realización de la visión que tuvimos cuando formamos Google DeepMind a principios de este año. Esta nueva era de modelos representa uno de los mayores esfuerzos de ciencia e ingeniería que hemos emprendido como empresa. Estoy realmente emocionado por lo que está por venir y por las oportunidades que Gemini desbloqueará para personas de todo el mundo”, resalta Pichai.
Gemini es el resultado de esfuerzos de colaboración a gran escala por parte de equipos de Google, incluidos nuestros colegas de Google Research. Fue construido desde cero para ser multimodal, lo que significa que puede generalizar y comprender, operar y combinar sin problemas diferentes tipos de información, incluidos texto, código, audio, imagen y video.
Gemini es también el modelo de IA generativa más flexible hasta el momento: capaz de ejecutarse de manera eficiente en todo, desde centros de datos hasta dispositivos móviles. Sus capacidades de vanguardia mejorarán significativamente la forma en que los desarrolladores y clientes empresariales construyen y escalan con IA.
Gemini 1.0, se lanzará en tres tamaños diferentes: Gemini Ultra: es el modelo más grande y capaz para tareas altamente complejas. Gemini Pro: es el mejor modelo para escalar en una amplia gama de tareas. Gemini Nano: es el modelo más eficiente para tareas en el dispositivo como smartphones o notebooks.
Desde la comprensión de imágenes naturales, audio y video hasta el razonamiento matemático, el desempeño de Gemini Ultra supera los resultados actuales de última generación en 30 de los 32 puntos de referencia académicos ampliamente utilizados en la investigación y el desarrollo de modelos de lenguaje grande (LLM).
Según Google, con una puntuación del 90,0%, Gemini Ultra es el primer modelo que supera a los expertos humanos en MMLU (comprensión masiva de lenguajes multitarea), que utiliza una combinación de 57 materias como matemáticas, física, historia, derecho, medicina y ética para evaluar ambos mundos. conocimientos y habilidades para la resolución de problemas. Nuestro nuevo enfoque de referencia para MMLU permite a Gemini utilizar sus capacidades de razonamiento para pensar más detenidamente antes de responder preguntas difíciles, lo que genera mejoras significativas con respecto al simple uso de su primera impresión.
Gemini Pro en los productos de Google
En Google anunciaron que a partir de hoy, Bard utilizará una versión mejorada de Gemini Pro para un razonamiento, planificación, comprensión más avanzados y más. Esta es la mayor actualización de Bard desde su lanzamiento. Estará disponible en inglés en más de 170 países y territorios, y planeamos expandirnos a diferentes modalidades y admitir nuevos idiomas y ubicaciones en el futuro cercano.
Pixel 8 Pro será el primer teléfono inteligente diseñado para ejecutar Gemini Nano, que impulsa nuevas funciones como Resumir en la aplicación Grabadora y la implementación de Respuesta inteligente en Gboard, comenzando con WhatsApp, y el próximo año habrá más aplicaciones de mensajería. En los próximos meses, Gemini estará disponible en más de nuestros productos y servicios, como Búsqueda, Anuncios, Chrome y Duet AI.
En Google están comenzando a experimentar con Gemini en la Búsqueda, donde está haciendo que nuestra Experiencia Generativa de Búsqueda (SGE) sea más rápida para los usuarios, con una reducción del 40% en la latencia en inglés en los EE. UU., junto con mejoras en la calidad. Construyendo con Géminis A partir del 13 de diciembre, los desarrolladores y clientes empresariales podrán acceder a Gemini Pro a través de la API de Gemini en Google AI Studio o Google Cloud Vertex AI.
Google AI Studio es una herramienta para desarrolladores gratuita basada en la web que ayuda a los desarrolladores y clientes empresariales a crear prototipos y lanzar aplicaciones rápidamente con una clave API. Cuando llega el momento de una plataforma de IA totalmente administrada, Vertex AI permite la personalización de Gemini con control total de datos y se beneficia de funciones adicionales de Google Cloud para seguridad empresarial, privacidad y gobernanza y cumplimiento de datos.
Los desarrolladores de Android también podrán crear con Gemini Nano, nuestro modelo más eficiente para tareas en el dispositivo, a través de AICore, una nueva capacidad del sistema disponible en Android 14, a partir de los dispositivos Pixel 8 Pro.
Gemini Ultra
Google esta completando exhaustivas comprobaciones de confianza y seguridad, incluida la formación de los denominados “equipos rojos” por parte de partes externas confiables, y refinando aún más el modelo mediante ajustes y aprendizaje reforzado a partir de comentarios humanos (RLHF) antes de que esté disponible ampliamente.
Como parte de este proceso, Gemini Ultra estará a disposición de clientes, desarrolladores, socios y expertos en seguridad y responsabilidad seleccionados para una experimentación temprana y comentarios antes de implementarlo para desarrolladores y clientes empresariales a principios del próximo año. A principios del próximo año, también lanzarán Bard Advanced, una nueva experiencia de IA de vanguardia que le brinda acceso a nuestros mejores modelos y capacidades, comenzando con Gemini Ultra.
La era multimodal llegó a la IA Generativa. Sin dudas más fabricantes como OpenAI se sumarán. Y lo que está claro es que la barrera entre cómo las personas interactúan entre sí y con una máquina comienzan a ser cada vez más indistinguibles. El dispositivo digital esta cambiando para convertirse en un compañero que nos entienda y siempre esté disponible para que cada día podamos hacerlo todo un poquito mejor.