DeepSeek y los nuevos principios de la IA: código abierto, autonomía y especialización
DeepSeek apostó por el código abierto, diseñó modelos con autonomía y se metió de lleno en la carrera por una inteligencia artificial especializada. La combinación de sistemas que aprenden sin supervisión, agentes entrenados para tareas puntuales y una arquitectura descentralizada empieza a desplazar a los modelos generalistas que dominaron la escena.

Hace no tanto, la industria tecnológica se sacudió con un anuncio inesperado de la firma china DeepSeek, que presentó nuevos modelos capaces de cambiar las reglas del juego en inteligencia artificial. Meses después, todavía analizamos qué volvió tan decisivos a los avances de DeepSeek y qué implica innovar modelos en el mercado global.

Pero más allá del mercado, esto también tiene que ver con una innovación concreta que suma valor real a la investigación.

Te comparto tres de los argumentos que se plantearon sobre el lugar competitivo de DeepSeek en una charla con Aravind Srinivas y Johnny Ho, cofundadores de Perplexity, donde reflexionaron sobre el valor de la inteligencia artificial en las empresas.

Los tres principios de DeepSeek

 

Srinivas, en una entrevista sobre IA, habló de los principios detrás de las ventajas de DeepSeek. Una de ellas es que fue el primer modelo de razonamiento de código abierto de su tipo. Las palabras "código abierto", en este contexto, son clave.

Cuando alguien como Yann LeCun o Tim Berners-Lee habla de investigación no comercial o de participación comunitaria, se entiende la importancia del código abierto. Incluso el propio Srinivas dijo en esa misma entrevista: "la IA democratizada se basa en modelos de código abierto y esta será la protección que necesitamos contra el autoritarismo monolítico a medida que la IA se consolida."

Así, DeepSeek marcó una diferencia al llevar esa tecnología abierta al mundo.

Otro punto está en el aprendizaje por refuerzo no supervisado. Cuanto más pueden aprender y operar los sistemas sin datos, sin etiquetado ni otros métodos de supervisión, más potentes resultan. Al revisar los avances de DeepSeek, muchas voces en la comunidad tecnológica de EE.UU. destacan la capacidad del modelo para funcionar sin supervisión humana directa.

Un tercer punto que señaló Srinivas es la tendencia hacia motores de inteligencia artificial más específicos, diseñados para tareas concretas y sectores determinados. Hasta ahora, explicó, la atención se centró en modelos de uso general. Pero el desarrollo de nuevos modelos eficaces para tareas puntuales y su interconexión va a definir un nuevo paradigma.

"Los nuevos modelos adoptaron cierto sentido común y conocimiento general del mundo, pero ahora necesitan evolucionar para convertirse en asistentes realmente buenos y útiles", dijo. "Por lo tanto, necesitan capacitación en muchas tareas verticales y específicas... y luego, cualquier capacitación que se imparta se implementará en productos como Perplexity, cuando los productos estén disponibles, que la gente usará en su día a día y les aportará valor".

Me pareció una observación aguda, porque incluso ya tiene nombre este nuevo paradigma: se llama IA agéntica, y todos están hablando de eso. Siempre vuelvo a La Sociedad de la Mente, de Marvin Minsky, donde se plantea la idea de un conjunto de robots o entidades interconectadas que cooperan para alcanzar objetivos complejos.

 Hace no tanto, la industria tecnológica se sacudió con un anuncio inesperado de la firma china DeepSeek, que presentó nuevos modelos capaces de cambiar las reglas del juego en inteligencia artificial.

Pero la IA agéntica, por definición, es un sistema conectado, descentralizado y armado a medida. Es decir, un ecosistema compuesto por muchos modelos o agentes individuales, entrenados con habilidades específicas para cumplir tareas concretas.

IA empresarial y toma de decisiones

Esta parte de la entrevista me pareció clave. Srinivas explicó cómo los ejecutivos tienen que prestar atención a detalles técnicos, como la distribución del hardware, porque de eso dependen decisiones que mueven millones de dólares.

"Es necesario comprender los detalles, porque eso ayuda a tomar decisiones que valen varios millones de dólares, o incluso decenas de millones", dijo, y le dio un tono anecdótico a su argumento. "Si resulta que lo correcto para la empresa es comprar 10.000 GPU y luego desarrollar agentes de razonamiento para todos los roles y tareas, (por ejemplo), también podemos realizar muchos experimentos a pequeña escala... y concluir que estamos listos para eso, y entonces lo haremos, incluso si representa el 10% del presupuesto total. Porque si eso puede impulsar nuestra capitalización bursátil, más del 10% vale la pena. Así que creo que esa es la ventaja que se tiene al comprender los modelos".

Después sumó algunas ideas sobre el carácter incierto de la empresa moderna y el valor de apostar por el código abierto.

"Apostá a que los modelos de código abierto alcanzarán a los cerrados", dijo. "Apostá a que estos se volverán aún más eficientes y pequeños, lo que significa que mantenerlos costará menos... En parte es suerte, obviamente. En parte es buena previsión, pero así es como funciona cualquier empresa. Hay que tener suerte".

En definitiva, combinar la suerte con una estrategia sólida implica estar atentos a estas señales. Esa fue mi lectura.

Así está hoy el mapa de los nuevos modelos y la competencia por innovar en inteligencia artificial. En los próximos días les voy a contar más, mientras se acerca otro encuentro de Imagination in Action en abril. El 25 sigue siendo un año bisagra para la IA.

 

Nota publicada por Forbes US