Hay un nuevo modelo de IA que no genera imágenes o videos, pero en todo lo demás es de lo mejor que existe. Sobre todo si el usuario necesita un servicio gratuito. Se llama DeepSeek y todos deberían tenerlo como su primera opción. El modelo navega en tiempo real y supera a Perplexity que creció con la misión de destronar a los navegadores.
Si los controles estadounidenses a las exportaciones de semiconductores avanzados tenían como objetivo frenar el progreso de la inteligencia artificial en China, terminaron estimulado la innovación. "Hacer más con menos" ese leitmotiv de marketing que se instaló en las tecnológicas al fin de la pandemia, fue el gran driver que siguió una empresa China para hacer lo que parecía imposible.
Al no poder depender únicamente del hardware más reciente, empresas como DeepSeek, con sede en Hangzhou , se vio obligada a encontrar soluciones creativas y lo que no es un detalle menor además es Open Source (y usa la reconocida licencia del MIT).
DeepSeek lanzó su modelo R1, utilizando técnicas avanzadas como aprendizaje de refuerzo puro para crear un modelo que no solo está entre los más formidables del mundo, sino que es completamente de código abierto, lo que lo hace disponible para que cualquier persona en el mundo (esta disponible en Hugging Face) lo examine, lo modifique y desarrolle.
DeepSeek-R1 demuestra que China no está fuera de la carrera de la IA y, de hecho, puede dominar el desarrollo mundial de la IA con su sorprendente estrategia de código abierto. Al abrir el código fuente de modelos competitivos, las empresas chinas pueden aumentar su influencia global para dar forma a los estándares y prácticas internacionales de IA.
Los proyectos de código abierto también atraen talento y recursos globales para contribuir al desarrollo chino de la IA. La estrategia permite además a China extender su alcance tecnológico a los países en desarrollo, potencialmente incorporando sus sistemas de IA (y, por extensión, sus valores y normas) a la infraestructura digital global.
"No veo que sea en sí China la que esta superando a Estados Unidos. Esa lectura es errónea. Lo que estamos viendo es que los modelos Open Source superan a los cerrados. DeepSeek aprovechó las investigaciones basadas en código abierto como PyTorch y Llama, y sobre eso agregaron nuevas ideas. Y como además ellos también publicaron todo otras personas se beneficiarán. Ese es el poder del Open Source", dice Yann LeCum, VP&Chief Scientist de Meta
El rendimiento de DeepSeek-R1 es comparable al de los mejores modelos de razonamiento de OpenAI en una variedad de tareas, incluidas las matemáticas, la codificación y el razonamiento complejo. Por ejemplo, en el punto de referencia de matemáticas AIME 2024, DeepSeek-R1 obtuvo un 79,8 % en comparación con el 79,2 % de OpenAI-o1. En el punto de referencia MATH-500, DeepSeek-R1 logró un 97,3 % frente al 96,4 % de o1.
En las tareas de codificación, DeepSeek-R1 alcanzó el percentil 96,3 en Codeforces, mientras que o1 alcanzó el percentil 96,6, aunque es importante tener en cuenta que los resultados del punto de referencia pueden ser imperfectos y no deben sobreinterpretarse.
Pero lo más destacable es que DeepSeek logró esto en gran medida gracias a la innovación, en lugar de depender de los últimos chips informáticos.
Introdujeron nuevas ideas como MLA (atención latente multicabezal), que reduce el uso de memoria a solo un 5-13% de la arquitectura MHA (atención multicabezal) comúnmente utilizada. MHA es una técnica ampliamente utilizada en IA para procesar múltiples flujos de información simultáneamente, pero requiere mucha memoria.
Para que su modelo sea aún más eficiente, DeepSeek creó la estructura DeepSeekMoESparse. "MoE" significa Mixture-of-Experts (mezcla de expertos), lo que significa que el modelo utiliza solo un pequeño subconjunto de sus componentes (o "expertos") para cada tarea, en lugar de ejecutar todo el sistema. La parte "dispersa" se refiere a cómo se activan solo los expertos necesarios, lo que ahorra potencia de procesamiento y reduce costos.
La arquitectura de DeepSeek-R1 tiene 671 mil millones de parámetros, pero solo 37 mil millones se activan durante el funcionamiento, lo que demuestra una notable eficiencia computacional. La empresa publicó un informe técnico completo en GitHub, que ofrece transparencia sobre la arquitectura del modelo y el proceso de entrenamiento. El código fuente abierto que lo acompaña incluye la arquitectura del modelo, el proceso de entrenamiento y los componentes relacionados, lo que permite a los investigadores comprender y replicar completamente su diseño.
Estas innovaciones permiten que el modelo de DeepSeek sea potente y significativamente más asequible que el de sus competidores. Esto ya ha desencadenado una guerra de precios de inferencia (el costo que se paga por la devolución que hace el sistema de IA al pedido del usuario) en China, que probablemente se extenderá al resto del mundo.
DeepSeek cobra una pequeña fracción de lo que cuesta OpenAI-o1 por el uso de la API. Esta drástica reducción de los costos podría democratizar el acceso a capacidades avanzadas de IA, lo que permitiría a organizaciones más pequeñas e investigadores individuales aprovechar herramientas de IA potentes que antes estaban fuera de su alcance.
DeepSeek también es el pionero en la destilación de las capacidades de su gran modelo en modelos más pequeños y eficientes. Estos modelos destilados, que van desde 1.500 millones a 70.000 millones de parámetros, también son de código abierto, lo que proporciona a la comunidad de investigación herramientas potentes y eficientes para una mayor innovación.
Al poner sus modelos a disposición de forma gratuita para uso comercial, destilación y modificación, DeepSeek logró una verdadera revolución dentro de la comunidad global de IA y establece uevos estándares de transparencia en el desarrollo de IA.
DeepSeek fue fundada por Liang Wenfeng, de 40 años, uno de los principales inversores en metodologías Quants de China. Su fondo de cobertura, High-Flyer, financia la investigación de inteligencia artificial de la empresa.
En una entrevista poco frecuente en China, el fundador de DeepSeek, Liang, lanzó una advertencia a OpenAI: "Ante las tecnologías disruptivas, las ventajas que crea el código cerrado son temporales. Ni siquiera el enfoque de código cerrado de OpenAI puede impedir que otros se pongan al día". La fuerza del código abierto resurgió como lo fuera en los inicicios de la empresa OpenAI, a la que de Open ya solo le queda el nombre.
*Con información de Forbes US