Una pieza de arte para impulsar la nueva IA

El informe técnico sobre inteligencia artificial de DeepSeek es una obra maestra técnica. DeepSeek, una organización de investigación en inteligencia artificial, se centra en mejorar las capacidades de razonamiento en los LLM. Su artículo presenta DeepSeek-R1, una serie de modelos diseñados para ampliar los límites del razonamiento a través de técnicas innovadoras de aprendizaje por refuerzo. A continuación, se incluye un breve resumen de los puntos principales:

𝟭/ Foco en 𝗥𝗲𝗶𝗻𝗳𝗼𝗿𝗰𝗲𝗺𝗲𝗻𝘁 𝗟𝗲𝗮𝗿𝗻𝗶𝗻g: Se presentó DeepSeek-R1-Zero, entrenado completamente a través del aprendizaje por refuerzo (RL) sin ajuste fino supervisado, que muestra comportamientos de razonamiento avanzados pero tiene dificultades con la legibilidad y la mezcla de idiomas. 

𝟮/ 𝗖𝗼𝗹𝗱-𝗦𝘁𝗮𝗿𝘁𝘂𝗿𝘁𝗶𝗿 𝗘𝗻𝗵𝗮𝗻𝗰𝗲𝗺𝗲𝗻𝘁𝘀: Se desarrolló DeepSeek-R1 con una secuencia de entrenamiento de múltiples etapas que incorpora datos de inicio en frío y RL iterativo, logrando un rendimiento comparable al o1-1217 de OpenAI en tareas de razonamiento. 

𝟯/ Destilación para 𝗦𝗺𝗮𝗹𝗹𝗲𝗿 𝗠𝗼𝗱𝗲𝗹𝘀: Se demostró una destilación efectiva de las capacidades de razonamiento de modelos más grandes a modelos densos más pequeños, lo que produce un alto rendimiento con requisitos computacionales reducidos. 

𝟰/ Logros: Superó o igualó modelos de última generación en razonamiento, matemáticas y puntos de referencia de codificación, con un éxito notable en tareas de contexto largo e intensivas en lógica. 

𝟱/ Direcciones a futuro: Los planes incluyen mejorar las capacidades en varios idiomas, abordar la sensibilidad a las indicaciones y optimizar el RL para la ingeniería de software y la generalización de tareas más amplia. Los modelos son de código abierto bajo licencia MIT, incluidos DeepSeek-R1-Zero, DeepSeek-R1 y variantes simplificadas. Esta apertura tiene como objetivo acelerar la innovación y permitir una adopción más amplia de modelos de razonamiento avanzados.

En IBM hemos trabajado en Oper Source para el ambiente corporativo desde sus inicios. Fuimos los que llevamos Linux al ambiente empresarial, y por eso nuestros sistemas incorporan fácilmente las soluciones de este tipo. 

Con IBM Watsonx  ofrecemos una variedad de formas para que los clientes aprovechen el modelo base DeepSeek AI R1 y sus variantes, que ha estado atrayendo toda la atención en la industria de la IA. Para aquellos de nosotros que nos dedicamos al entrenamiento de modelos grandes, gran parte de esto no es tan sorprendente y, personalmente, creo que hay una reacción exagerada del mercado, pero me encanta.  Entre las fortalezas de su implementación se destacan:

𝟭/ 𝗔𝗿quitectura: El diseño de DeepSeek es mucho más eficiente en cuanto a recursos que un modelo denso, a menudo a una fracción del costo. Es un camino tecnológico que también hemos estado siguiendo en IBM. 

𝟮/ Avances interativos: Basándose en múltiples ciclos, DeepSeek refinó sistemáticamente su enfoque, lo que llevó a costos de capacitación aún más bajos.

 𝟯/ Costos ocultos: La ejecución de entrenamiento final es solo una parte de la historia. En realidad, hay mucha experimentación y ajuste de parámetros que se lleva a cabo de antemano, lo que se suma al costo general (que a menudo no se informa). Los costos de inferencia aumentarán con este razonamiento avanzado en los modelos de IA y las soluciones Agentic. 

Desde la perspectiva de IBM, las noticias de esta semana validan el camino estratégico que hemos estado siguiendo. Presentamos arquitecturas eficientes y seguimos viendo grandes mejoras de rendimiento. Desde el principio, hemos confiado en la promesa de 𝘀𝗺𝗮𝗹𝗹𝗲𝗿-𝘆𝗲𝘁-𝗺𝗼𝗿𝗲-𝗽𝗼𝘄𝗲𝗿𝗳𝘂𝗹 𝗺𝗼𝗱𝗲𝗹𝘀, y las noticias recientes de DeepSeek solo refuerzan esa visión.