Forbes Argentina

Cómo Lian Wenfeng, el creador de DeepSeek, desató un huracán dentro de la IA y qué piensan hacer sus competidores

La carrera por la IA sumó un nuevo jugador y aceleró los lanzamientos de sus rivales que no esperaban semejante cambio de velocidad.

Este es Liang Wenfeng, fundador y director ejecutivo de DeepSeek. Su pequeña empresa de inteligencia artificial acaba de sacudir Silicon Valley y todo el mundo de la inteligencia artificial con ella. 

La historia de Wenfeng es fascinante. En un mundo obsesionado con los llamativos anuncios tecnológicos y las valoraciones de miles de millones de dólares, Liang Wenfeng opera de manera diferente. El fundador de DeepSeek, que desencadenó una conversación global sobre la inteligencia artificial en 2024, sigue teniendo los pies en la tierra notablemente para alguien que acaba de cambiar el panorama tecnológico. 

Nacido en 1985 de un padre maestro de escuela en Zhanjiang, una modesta ciudad en la provincia china de Guangdong, el viaje de Liang desafía las narrativas convencionales de Silicon Valley. Mientras sus compañeros soñaban con una educación en el extranjero, él se quedó en el país y obtuvo su título en ingeniería electrónica en la Universidad de Zhejiang. Fue allí donde comenzó a explorar la intersección de las matemáticas, la informática y el comportamiento del mercado.

 En 2015, Liang y dos compañeros de la universidad fundaron High-Flyer Asset Management, siendo pioneros en el uso de la inteligencia artificial en el espacio comercial cuantitativo de China. La empresa creció rápidamente hasta llegar a gestionar más de 12.000 millones de dólares en su punto máximo, pero en 2021 se enfrentó a importantes retos cuando la volatilidad del mercado expuso las limitaciones de sus modelos de IA. 


Pero en lugar de desanimarlo, estos reveses despertaron una curiosidad más profunda sobre la arquitectura fundamental de la IA. Lo que distingue a Liang es su enfoque filosófico de la innovación. "Más inversión no conduce necesariamente a más innovación", suele decir. Y tiene razón. Mientras los competidores se apresuraban a acumular GPU, DeepSeek se centró en la eficiencia, desarrollando enfoques novedosos que consiguieron resultados comparables con muchos menos recursos. En parte porque no tenían otra opción... Sin embargo, su innovador modelo V2 demostró una rentabilidad sin precedentes, realizando tareas de inferencia a aproximadamente 1/7 del coste de GPT-4. 

Quizás lo más destacable es que Liang decidió hacer que el código de DeepSeek fuera de código abierto, creyendo que el avance tecnológico debería beneficiar a todo el mundo, no solo a las instituciones de élite. "El código abierto es más una cultura que un comportamiento comercial", explica, "y contribuir a él nos hace ganar respeto". 

Hoy, a pesar de haber provocado una caída del mercado que eliminó casi un billón de dólares de las valoraciones tecnológicas, Liang mantiene su enfoque en la investigación y la innovación tecnológica. Lidera un equipo de investigadores jóvenes y brillantes, muchos de ellos recién salidos de las mejores universidades de China, que comparten su visión de lograr la inteligencia artificial general a través de la exploración metódica en lugar de la potencia informática de fuerza bruta. 

La historia de DeepSeek desafía suposiciones arraigadas sobre el desarrollo de la inteligencia artificial, demostrando que la innovación revolucionaria puede surgir de lugares inesperados. Mientras Silicon Valley lidia con esta nueva realidad, Liang continúa su silenciosa búsqueda de la excelencia.Guiados por un principio simple. El progreso no se logra siguiendo caminos establecidos, sino teniendo el coraje de forjar otros nuevos.



"No veo que sea en sí China la que esta superando a Estados Unidos. Esa lectura es errónea. Lo que estamos viendo es que los modelos Open Source superan a los cerrados. DeepSeek aprovechó las investigaciones basadas en código abierto como PyTorch y Llama, y sobre eso agregaron nuevas ideas. Y como además ellos también publicaron todo otras personas se beneficiarán. Ese es el poder del Open Source", dice Yann LeCum, VP&Chief Scientist de Meta

El rendimiento de DeepSeek-R1 es comparable al de los mejores modelos de razonamiento de OpenAI en una variedad de tareas, incluidas las matemáticas, la codificación y el razonamiento complejo. Por ejemplo, en el punto de referencia de matemáticas AIME 2024, DeepSeek-R1 obtuvo un 79,8 % en comparación con el 79,2 % de OpenAI-o1. En el punto de referencia MATH-500, DeepSeek-R1 logró un 97,3 % frente al 96,4 % de o1. 

En las tareas de codificación, DeepSeek-R1 alcanzó el percentil 96,3 en Codeforces, mientras que o1 alcanzó el percentil 96,6, aunque es importante tener en cuenta que los resultados del punto de referencia pueden ser imperfectos y no deben sobreinterpretarse.

Pero lo más destacable es que DeepSeek logró esto en gran medida gracias a la innovación, en lugar de depender de los últimos chips informáticos.
 

Introdujeron nuevas ideas como MLA (atención latente multicabezal), que reduce el uso de memoria a solo un 5-13% de la arquitectura MHA (atención multicabezal) comúnmente utilizada. MHA es una técnica ampliamente utilizada en IA para procesar múltiples flujos de información simultáneamente, pero requiere mucha memoria.

Para que su modelo sea aún más eficiente, DeepSeek creó la estructura DeepSeekMoESparse. "MoE" significa Mixture-of-Experts (mezcla de expertos), lo que significa que el modelo utiliza solo un pequeño subconjunto de sus componentes (o "expertos") para cada tarea, en lugar de ejecutar todo el sistema. La parte "dispersa" se refiere a cómo se activan solo los expertos necesarios, lo que ahorra potencia de procesamiento y reduce costos.

La arquitectura de DeepSeek-R1 tiene 671 mil millones de parámetros, pero solo 37 mil millones se activan durante el funcionamiento, lo que demuestra una notable eficiencia computacional. La empresa publicó un informe técnico completo en GitHub, que ofrece transparencia sobre la arquitectura del modelo y el proceso de entrenamiento. El código fuente abierto que lo acompaña incluye la arquitectura del modelo, el proceso de entrenamiento y los componentes relacionados, lo que permite a los investigadores comprender y replicar completamente su diseño.

Al poner sus modelos a disposición de forma gratuita para uso comercial, destilación y modificación, DeepSeek logró una verdadera revolución dentro de la comunidad global de IA y establece uevos estándares de transparencia en el desarrollo de IA

La mayoría de los sistemas de IA actuales funcionan como oráculos enigmáticos: los usuarios introducen preguntas y reciben respuestas, sin visibilidad sobre cómo llega a las conclusiones. Modelos como o1 y GPT-4o de OpenAI, Claude 3.5 Sonnet de Anthropic y Llama 3 de Meta ofrecen resultados impresionantes, pero su razonamiento sigue siendo opaco . Claude 3.5, por ejemplo, enfatiza la fluidez conversacional y la creatividad, mientras que Llama 3 prioriza la escalabilidad para los desarrolladores. Sin embargo, ninguno explica cómo llega a las respuestas sin que el usuario se lo pida. Esto puede causar un obstáculo para mejorar la precisión y la confiabilidad de las respuestas de la IA.

DeepSeek-R1 rompe con este paradigma al mostrar su funcionamiento. A diferencia de sus competidores, comienza las respuestas describiendo explícitamente su comprensión de la intención del usuario, los posibles sesgos y las vías de razonamiento que explora antes de ofrecer una respuesta. Por ejemplo, cuando se le pide que analice una decisión política compleja, DeepSeek-R1 podría comenzar diciendo: "Para responder a su consulta, primero evaluaré las implicaciones económicas, luego consideraré las preocupaciones de equidad social y, por último, evaluaré las compensaciones ambientales".

Esta función de "pensar en voz alta" es revolucionaria. En cambio, Open AI o1 a menudo requiere que los usuarios le pidan que explique su razonamiento para desentrañar su lógica, e incluso así, sus explicaciones carecen de la estructura sistemática de DeepSeek. De manera similar, si bien Gemini 2.0 Flash Thinking ha experimentado con la incitación a través de cadenas de pensamiento, sigue siendo inconsistente a la hora de sacar a la luz sesgos o perspectivas alternativas sin una dirección explícita del usuario.

La transparencia de DeepSeek-R1 refleja un marco de entrenamiento que prioriza la explicabilidad. Ayudará a un modelo de lenguaje grande a reflexionar sobre su propio proceso de pensamiento y a realizar correcciones y ajustes si es necesario. Esto transformará la IA porque mejorará la alineación con las intenciones humanas.

Mientras que la mayoría de los LLM tratan la ética como una casilla de verificación reactiva, DeepSeek la incorpora en cada respuesta. Pensemos en un investigador del cáncer que pregunta cómo aprovechar la IA para el descubrimiento de fármacos:

El soneto Claude 3.5 puede resaltar métodos técnicos como la predicción del plegamiento de proteínas, pero a menudo requiere indicaciones explícitas como "¿Cuáles son los riesgos éticos?" para profundizar.

GPT-4o, entrenado con las "capas de seguridad" de OpenAI, ocasionalmente señalará problemas como el sesgo de datos, pero tiende a ocultar advertencias éticas en descargos de responsabilidad extensos.

Llama 3, como modelo de código abierto, deja las salvaguardas éticas en gran medida en manos de los desarrolladores, lo que crea variabilidad en la implementación.

Por el contrario, DeepSeek-R1 detecta de forma preventiva los desafíos: el sesgo de datos en los conjuntos de entrenamiento, los riesgos de toxicidad en los compuestos generados por IA y el imperativo de la validación humana. A continuación, ofrece estrategias de mitigación viables, como la supervisión interdisciplinaria y las pruebas adversas. Esta postura proactiva refleja una elección de diseño fundamental: el proceso de entrenamiento de DeepSeek recompensa el rigor ético.

Por ejemplo, cuando se le pide que redacte una campaña de marketing, DeepSeek-R1 se ofrece a advertir sobre cuestiones de sensibilidad cultural o de privacidad, un marcado contraste con GPT-4o, que podría optimizarse para un lenguaje persuasivo a menos que se lo impida explícitamente. La IA no debería esperar a que los usuarios pregunten sobre las implicaciones éticas, sino que debería analizar los posibles problemas éticos de antemano. La arquitectura de DeepSeek-R1 incorpora previsión moral, que es vital para campos de gran importancia como la atención sanitaria y el derecho.

La transparencia, la ética y la innovación abierta de DeepSeek, además de su énfasis en la eficiencia de los modelos, ofrecen una visión convincente para el desarrollo de la IA. Su razonamiento explicable genera confianza pública, su andamiaje ético protege contra el uso indebido y su modelo colaborativo democratiza el acceso a herramientas de vanguardia.

Para las empresas, DeepSeek representa una alternativa de menor riesgo y mayor rendición de cuentas a los modelos opacos. Para los responsables de las políticas, proporciona un modelo para una gobernanza responsable de la IA. Y para el público en general, es una señal de un futuro en el que la tecnología se alinea con los valores humanos por diseño, a un menor costo y es más respetuosa con el medio ambiente .

A medida que se intensifica la carrera de la IA, la mayor contribución de DeepSeek puede ser demostrar que los sistemas más avanzados no tienen por qué sacrificar la transparencia por el poder, ni la ética por las ganancias. En una era ávida de IA confiable, esa es una revolución que vale la pena observar.

*Con información de Forbes  US

 

10