Forbes Argentina
Anthropic
Columnistas

Sobre DeepSeek y los controles de exportación

Dario Amodei CEO de Anthropic

Share

3 Febrero de 2025 10.00

Hace unas semanas defendí la necesidad de que Estados Unidos impusiera controles más estrictos a las exportaciones de chips a China. Desde entonces, DeepSeek, una empresa china de inteligencia artificial, ha logrado -al menos en algunos aspectos- acercarse al rendimiento de los modelos de inteligencia artificial de vanguardia de Estados Unidos a un menor costo.

En este artículo, no me centraré en si DeepSeek es o no una amenaza para las empresas estadounidenses de inteligencia artificial como Anthropic (aunque creo que muchas de las afirmaciones sobre su amenaza al liderazgo estadounidense en inteligencia artificial son muy exageradas) 1 . En cambio, me centraré en si los lanzamientos de DeepSeek socavan el argumento a favor de esas políticas de control de las exportaciones de chips. No creo que lo hagan. De hecho, creo que hacen que las políticas de control de las exportaciones sean incluso más importantes existencialmente de lo que eran hace una semana 2 .

Los controles a las exportaciones cumplen una función vital: mantener a las naciones democráticas a la vanguardia del desarrollo de la IA. Para ser claros, no son una forma de eludir la competencia entre Estados Unidos y China. Al final, las empresas de IA de Estados Unidos y otras democracias deben tener mejores modelos que las de China si queremos prevalecer, pero no deberíamos darle al Partido Comunista Chino ventajas tecnológicas cuando no es necesario.

Tres dinámicas del desarrollo de la IA

Antes de presentar mi argumento político, voy a describir tres dinámicas básicas de los sistemas de IA que es fundamental comprender:

Leyes de escalabilidad. Una propiedad de la IA (que mis cofundadores y yo fuimos de los primeros en documentar cuando trabajábamos en OpenAI) es que, en igualdad de condiciones , la ampliación del entrenamiento de los sistemas de IA conduce a resultados cada vez mejores en una variedad de tareas cognitivas, en general

Por ejemplo, un modelo de 1 millón de dólares podría resolver el 20 % de las tareas de codificación importantes, uno de 10 millones de dólares podría resolver el 40 %, uno de 100 millones de dólares podría resolver el 60 %, y así sucesivamente. Estas diferencias tienden a tener enormes implicaciones en la práctica (otro factor de 10 puede corresponder a la diferencia entre el nivel de habilidad de un estudiante de grado y uno de doctorado), y por eso las empresas están invirtiendo mucho en el entrenamiento de estos modelos.

Desplazamiento de la curva. El campo está constantemente generando ideas, grandes y pequeñas, que hacen que las cosas sean más efectivas o eficientes: podría ser una mejora de la arquitectura del modelo (un ajuste a la arquitectura básica de Transformer que todos los modelos actuales utilizan) o simplemente una forma de ejecutar el modelo de manera más eficiente en el hardware subyacente. 

Las nuevas generaciones de hardware también tienen el mismo efecto. Lo que esto hace típicamente es desplazar la curva : si la innovación es un "multiplicador de cómputo" (CM) de 2x, entonces le permite obtener un 40% en una tarea de codificación por $5 millones en lugar de $10 millones; o un 60% por $50 millones en lugar de $100 millones, etc. 

Cada empresa de IA de frontera descubre regularmente muchos de estos CM: con frecuencia pequeños (~1.2x), a veces medianos (~2x) y, de vez en cuando, muy grandes (~10x). Como el valor de tener un sistema más inteligente es tan alto, este desplazamiento de la curva generalmente hace que las empresas gasten más , no menos, en entrenar modelos: las ganancias en eficiencia de costos terminan dedicándose por completo a entrenar modelos más inteligentes, limitadas solo por los recursos financieros de la empresa. 

Las personas se sienten naturalmente atraídas por la idea de que "primero algo es caro, luego se vuelve más barato", como si la IA fuera una sola cosa de calidad constante y, cuando se vuelve más barata, usaremos menos chips para entrenarla. Pero lo que es importante es la curva de escala : cuando se desplaza, simplemente la recorremos más rápido, porque el valor de lo que está al final de la curva es muy alto. En 2020, mi equipo publicó un artículo que sugería que el desplazamiento de la curva debido al progreso algorítmico es de ~1,68x/año. 

Es probable que eso se haya acelerado significativamente desde entonces; tampoco tiene en cuenta la eficiencia y el hardware. Supongo que la cifra actual es tal vez ~4x/año. Otra estimación está aquí . Los cambios en la curva de entrenamiento también cambian la curva de inferencia y, como resultado, se han producido grandes disminuciones en el precio manteniendo constante la calidad del modelo durante años. Por ejemplo, Claude 3.5 Sonnet, que se lanzó 15 meses después que el GPT-4 original, supera a GPT-4 en casi todos los puntos de referencia, mientras que tiene un precio de API aproximadamente 10 veces menor.

Cambio de paradigma. De vez en cuando, el elemento subyacente que se está escalando cambia un poco, o se agrega un nuevo tipo de escalamiento al proceso de entrenamiento. Entre 2020 y 2023, lo principal que se escaló fueron los modelos preentrenados : modelos entrenados con cantidades cada vez mayores de texto de Internet con un poco de otro entrenamiento adicional. 

En 2024, la idea de utilizar el aprendizaje por refuerzo (RL) para entrenar modelos para generar cadenas de pensamiento se ha convertido en un nuevo enfoque de escalamiento. Anthropic, DeepSeek y muchas otras empresas (quizás la más notable OpenAI, que lanzó su modelo o1-preview en septiembre) han descubierto que este entrenamiento aumenta enormemente el rendimiento en ciertas tareas seleccionadas y objetivamente medibles, como matemáticas, competencias de codificación y en el razonamiento que se asemeja a estas tareas. 

Este nuevo paradigma implica comenzar con el tipo ordinario de modelos preentrenados y luego, como segunda etapa, utilizar RL para agregar las habilidades de razonamiento. Es importante destacar que, debido a que este tipo de RL es nuevo, todavía estamos en una etapa muy temprana de la curva de escalamiento: la cantidad que se gasta en la segunda etapa de RL es pequeña para todos los participantes. Gastar $1 millón en lugar de $0,1 millón es suficiente para obtener enormes ganancias. 

Las empresas ahora están trabajando muy rápido para escalar la segunda etapa a cientos de millones y miles de millones, pero es fundamental entender que estamos en un "punto de cruce" único en el que hay un nuevo y poderoso paradigma que está en una etapa temprana de la curva de escalamiento y, por lo tanto, puede generar grandes ganancias rápidamente.

Modelos de DeepSeek

Las tres dinámicas anteriores pueden ayudarnos a comprender los lanzamientos recientes de DeepSeek. Hace aproximadamente un mes, DeepSeek lanzó un modelo llamado " DeepSeek-V3 ", que era un modelo 3 puro preentrenado (la primera etapa descrita en el punto 3 anterior). Luego, la semana pasada, lanzaron " R1 ", que agregó una segunda etapa. No es posible determinar todo sobre estos modelos desde afuera, pero lo siguiente es mi mejor comprensión de los dos lanzamientos.

DeepSeek-V3 fue en realidad la verdadera innovación y lo que debería haber llamado la atención de la gente hace un mes (y así fue). Como modelo preentrenado, parece acercarse al rendimiento de 4 modelos estadounidenses de última generación en algunas tareas importantes, mientras que cuesta sustancialmente menos entrenarlo (aunque encontramos que Claude 3.5 Sonnet en particular sigue siendo mucho mejor en algunas otras tareas clave, como la codificación del mundo real). 

El equipo de DeepSeek logró esto a través de algunas innovaciones genuinas e impresionantes, principalmente enfocadas en la eficiencia de ingeniería. Hubo mejoras particularmente innovadoras en la gestión de un aspecto llamado "caché de clave-valor" y en permitir que un método llamado "mezcla de expertos" se llevara más lejos de lo que se había hecho antes.

Sin embargo, es importante mirar más de cerca:

DeepSeek no "hace por 6 millones de dólares lo que a las empresas de inteligencia artificial de EE. UU. les costó miles de millones". Solo puedo hablar en nombre de Anthropic, pero Claude 3.5 Sonnet es un modelo de tamaño mediano que costó unos pocos decenas de millones de dólares entrenar (no daré una cifra exacta). Además, 3.5 Sonnet no se entrenó de ninguna manera que implicara un modelo más grande o más caro (contrariamente a algunos rumores). 

El entrenamiento de Sonnet se realizó hace 9-12 meses, y el modelo de DeepSeek se entrenó en noviembre/diciembre, mientras que Sonnet sigue estando notablemente por delante en muchas evaluaciones internas y externas. Por lo tanto, creo que una afirmación justa es " DeepSeek produjo un modelo cercano al rendimiento de los modelos estadounidenses de 7-10 meses más antiguos, por un costo mucho menor (pero ni cerca de las proporciones que la gente ha sugerido) ".

Si la tendencia histórica de la disminución de la curva de costos es de ~4x por año, eso significa que en el curso normal de los negocios (en las tendencias normales de disminución de costos históricos como las que sucedieron en 2023 y 2024), esperaríamos un modelo 3-4 veces más barato que 3.5 Sonnet/GPT-4o en la actualidad. }
 

Dado que DeepSeek-V3 es peor que esos modelos fronterizos de EE. UU. (digamos que en ~2x en la curva de escala, lo que creo que es bastante generoso para DeepSeek-V3), eso significa que sería totalmente normal, totalmente "de tendencia", si el entrenamiento de DeepSeek-V3 costara ~8 veces menos que los modelos estadounidenses actuales desarrollados hace un año. No voy a dar un número, pero está claro a partir del punto anterior que incluso si tomamos el costo de entrenamiento de DeepSeek al pie de la letra, están en la tendencia en el mejor de los casos y probablemente ni siquiera eso. 

Por ejemplo, esto es menos pronunciado que el diferencial de precio de inferencia original de GPT-4 a Claude 3.5 Sonnet (10x), y 3.5 Sonnet es un modelo mejor que GPT-4. Todo esto quiere decir que DeepSeek-V3 no es un avance único ni algo que cambie fundamentalmente la economía de los LLM; es un punto esperado en una curva de reducción de costos en curso. Lo que es diferente esta vez es que la empresa que fue la primera en demostrar las reducciones de costos esperadas fue china. Esto nunca ha sucedido antes y es geopolíticamente significativo. Sin embargo, las empresas estadounidenses pronto seguirán su ejemplo, y no lo harán copiando a DeepSeek, sino porque también están logrando la tendencia habitual en la reducción de costos.

Tanto DeepSeek como las empresas de inteligencia artificial de EE. UU. tienen mucho más dinero y muchos más chips de los que usaron para entrenar sus modelos principales. Los chips adicionales se utilizan para I+D para desarrollar las ideas detrás del modelo y, a veces, para entrenar modelos más grandes que aún no están listos (o que necesitaron más de un intento para hacerlo bien). 

Se ha informado (no podemos estar seguros de que sea cierto) que DeepSeek en realidad tenía 50 000 chips de la generación Hopper 6 , lo que supongo que está dentro de un factor de ~2-3x de lo que tienen las principales empresas de inteligencia artificial de EE. UU. (por ejemplo, es 2-3 veces menos que el clúster xAI " Colossus ") 7 . Esos 50 000 chips Hopper cuestan alrededor de $1 mil millones. Por lo tanto, el gasto total de DeepSeek como empresa (a diferencia del gasto para entrenar un modelo individual) no es muy diferente al de los laboratorios de inteligencia artificial de EE. UU.

Vale la pena señalar que el análisis de la "curva de escala" es un poco simplificado, porque los modelos están algo diferenciados y tienen diferentes fortalezas y debilidades; los números de la curva de escala son un promedio crudo que ignora muchos detalles. Solo puedo hablar de los modelos de Anthropic, pero como insinué anteriormente, Claude es extremadamente bueno en codificación y en tener un estilo bien diseñado de interacción con las personas (muchas personas lo usan para obtener asesoramiento o apoyo personal). En estas y algunas tareas adicionales, simplemente no hay comparación con DeepSeek. Estos factores no aparecen en los números de escala.

R1 , que es el modelo que se lanzó la semana pasada y que desencadenó una explosión de atención pública (incluida una disminución de ~17% en el precio de las acciones de Nvidia), es mucho menos interesante desde una perspectiva de innovación o ingeniería que V3. Agrega la segunda fase de entrenamiento (aprendizaje de refuerzo, descrito en el n.° 3 de la sección anterior) y esencialmente replica lo que OpenAI ha hecho con o1 (parecen estar en una escala similar con resultados similares) 8

Sin embargo, debido a que estamos en la parte inicial de la curva de escala, es posible que varias empresas produzcan modelos de este tipo, siempre que comiencen con un modelo fuerte preentrenado. Producir R1 dado V3 probablemente fue muy barato. Por lo tanto, estamos en un "punto de cruce" interesante, donde es temporalmente el caso de que varias empresas pueden producir buenos modelos de razonamiento. Esto dejará de ser cierto rápidamente a medida que todos avancen en la curva de escala en estos modelos.

Controles de exportación

Todo esto es sólo un preámbulo a mi tema principal de interés: los controles de exportación de chips a China. A la luz de los hechos expuestos, considero la situación de la siguiente manera:

Existe una tendencia en curso en la que las empresas gastan cada vez más en entrenar modelos de IA potentes, incluso cuando la curva se desplaza periódicamente y el costo de entrenar un nivel dado de inteligencia de modelo disminuye rápidamente. Es solo que el valor económico de entrenar modelos cada vez más inteligentes es tan grande que cualquier ganancia de costos se consume casi de inmediato: se invierte en la creación de modelos aún más inteligentes por el mismo costo enorme que originalmente planeábamos gastar. 

En la medida en que los laboratorios estadounidenses aún no las hayan descubierto, las innovaciones de eficiencia que desarrolló DeepSeek pronto serán aplicadas por laboratorios estadounidenses y chinos para entrenar modelos multimillonarios. Estos funcionarán mejor que los modelos multimillonarios que planeaban entrenar anteriormente, pero seguirán gastando miles de millones. Esa cifra seguirá aumentando, hasta que alcancemos una IA que sea más inteligente que casi todos los humanos en casi todas las cosas.

Para crear una IA más inteligente que casi todos los humanos en casi todas las cosas se necesitarán millones de chips, decenas de miles de millones de dólares (al menos), y es muy probable que esto ocurra en 2026 o 2027. Los lanzamientos de DeepSeek no cambian esto, porque están aproximadamente en la curva de reducción de costos esperada que siempre se ha tenido en cuenta en estos cálculos.

Esto significa que en 2026-2027 podríamos encontrarnos en uno de dos mundos completamente diferentes. En Estados Unidos, varias empresas tendrán sin duda los millones de chips necesarios (a un coste de decenas de miles de millones de dólares). La pregunta es si China también podrá conseguir millones de chips 9 .

  • Si lo logran, viviremos en un mundo bipolar , en el que tanto Estados Unidos como China contarán con potentes modelos de IA que generarán avances extremadamente rápidos en ciencia y tecnología, lo que he llamado " países de genios en un centro de datos ". Un mundo bipolar no necesariamente estaría equilibrado indefinidamente. Incluso si Estados Unidos y China estuvieran en igualdad de condiciones en materia de sistemas de IA, parece probable que China pudiera destinar más talento, capital y atención a las aplicaciones militares de la tecnología. Combinado con su gran base industrial y sus ventajas estratégico-militares, esto podría ayudar a China a asumir un liderazgo dominante en el escenario global, no solo en materia de IA, sino en todo.
  • Si China no puede conseguir millones de chips, viviremos (al menos temporalmente) en un mundo unipolar , donde sólo Estados Unidos y sus aliados tendrán esos modelos. No está claro si el mundo unipolar durará, pero al menos existe la posibilidad de que, como los sistemas de IA pueden eventualmente ayudar a crear sistemas de IA aún más inteligentes, una ventaja temporal pueda convertirse en una ventaja duradera 10 . Por lo tanto, en este mundo, Estados Unidos y sus aliados podrían asumir una ventaja dominante y duradera en el escenario global.

Los controles de exportación bien aplicados 11 son lo único que puede impedir que China obtenga millones de chips y, por lo tanto, son el determinante más importante de si terminamos en un mundo unipolar o bipolar.

El desempeño de DeepSeek no significa que los controles de exportación fallaran. Como dije antes, DeepSeek tenía una cantidad de chips entre moderada y grande, por lo que no es sorprendente que hayan podido desarrollar y luego entrenar un modelo poderoso. No tenían muchas más limitaciones de recursos que las empresas de inteligencia artificial estadounidenses, y los controles de exportación no fueron el factor principal que los llevó a "innovar". Son simplemente ingenieros muy talentosos y demuestran por qué China es un competidor serio de los EE. UU.

DeepSeek tampoco demuestra que China siempre pueda obtener los chips que necesita mediante el contrabando, o que los controles siempre tengan lagunas. No creo que los controles de exportación hayan sido diseñados para impedir que China consiga unas decenas de miles de chips. Se pueden ocultar 1.000 millones de dólares de actividad económica, pero es difícil ocultar 100.000 millones o incluso 10.000 millones. 

También puede resultar físicamente difícil contrabandear un millón de chips. También es ilustrativo observar los chips que, según se informa, DeepSeek tiene actualmente. Se trata de una mezcla de H100, H800 y H20, según SemiAnalysis , que suman un total de 50.000. 

Los H100 han sido prohibidos bajo los controles de exportación desde su lanzamiento, por lo que si DeepSeek tiene alguno, deben haber sido contrabandeados (nótese que Nvidia ha declarado que los avances de DeepSeek son "totalmente compatibles con el control de exportación"). 

Los H800 se permitieron en la ronda inicial de controles de exportación de 2022 , pero se prohibieron en octubre de 2023 cuando se actualizaron los controles , por lo que probablemente se enviaron antes de la prohibición. Los H20 son menos eficientes para el entrenamiento y más eficientes para el muestreo, y todavía están permitidos, aunque creo que deberían prohibirse. 

Todo eso quiere decir que parece que una fracción sustancial de la flota de chips de IA de DeepSeek consiste en chips que no han sido prohibidos (pero deberían estarlo); chips que se enviaron antes de que se prohibieran; y algunos que parece muy probable que hayan sido contrabandeados. Esto demuestra que los controles de exportación realmente están funcionando y adaptándose: se están cerrando las lagunas; de lo contrario, probablemente tendrían una flota completa de H100 de primera línea. Si podemos cerrarlos lo suficientemente rápido, es posible que podamos evitar que China obtenga millones de chips, lo que aumenta la probabilidad de un mundo unipolar con EE. UU. por delante.

Dado que me centro en los controles de exportación y la seguridad nacional de Estados Unidos, quiero dejar algo en claro: no veo a DeepSeek como un adversario y no se trata de atacarlos en particular. En las entrevistas que han hecho, parecen investigadores inteligentes y curiosos que solo quieren crear tecnología útil.

Pero están en deuda con un gobierno autoritario que ha cometido violaciones de los derechos humanos, se ha comportado agresivamente en el escenario mundial y serán mucho más libres en estas acciones si pueden igualar a los EE. UU. en inteligencia artificial. Los controles de exportación son una de nuestras herramientas más poderosas para prevenir esto, y la idea de que la tecnología cada vez más poderosa , que ofrece más beneficios por cada dólar invertido, es una razón para levantar nuestros controles de exportación no tiene ningún sentido.

Notas al pie

1 En este ensayo no tomo ninguna posición sobre los informes de destilación de modelos occidentales. Aquí, simplemente tomaré la palabra de DeepSeek al decir que lo entrenaron de la manera que dijeron en el artículo.

2 Por cierto, creo que el lanzamiento de los modelos DeepSeek claramente no es malo para Nvidia, y que una caída de dos dígitos (~17%) en sus acciones como reacción a esto fue desconcertante. El argumento de que este lanzamiento no es malo para Nvidia es incluso más claro que el de que no es malo para las empresas de inteligencia artificial. Pero mi objetivo principal en este artículo es defender las políticas de control de las exportaciones.

3 Para ser completamente precisos, era un modelo preentrenado con la pequeña cantidad de entrenamiento RL típica de los modelos anteriores al cambio de paradigma de razonamiento.

4 Es más fuerte en algunas tareas muy específicas.

5 Esta es la cifra que se cita en el artículo de DeepSeek . La tomo al pie de la letra y no pongo en duda esta parte, solo la comparación con los costes de formación de modelos de empresas estadounidenses y la distinción entre el coste de formación de un modelo específico (que es de 6 millones de dólares) y el coste total de I+D (que es mucho más alto). Sin embargo, tampoco podemos estar completamente seguros de los 6 millones de dólares: el tamaño del modelo es verificable, pero otros aspectos como la cantidad de tokens no lo son.

6 En algunas entrevistas dije que tenían "50.000 H100", lo que era un resumen sutilmente incorrecto de los informes y que quiero corregir aquí. El "chip Hopper" más conocido es el H100 (que es a lo que supuse que se referían), pero Hopper también incluye H800 y H20, y se informa que DeepSeek tiene una mezcla de los tres, lo que suma 50.000. Eso no cambia mucho la situación, pero vale la pena corregirlo. Hablaré más sobre el H800 y el H20 cuando hable de los controles de exportación.

7 Nota: Espero que esta brecha crezca considerablemente en la próxima generación de clústeres, debido a los controles de exportación.

Sospecho que una de las principales razones por las que R1 atrajo tanta atención es que fue el primer modelo que mostró al usuario el razonamiento en cadena de pensamiento que exhibe el modelo (o1 de OpenAI solo muestra la respuesta final). DeepSeek demostró que los usuarios encuentran esto interesante. Para ser claros, se trata de una elección de la interfaz de usuario y no está relacionada con el modelo en sí.

9 Hay que tener en cuenta que los chips de China no podrán competir con los fabricados en Estados Unidos en un futuro próximo. Como escribí en mi reciente artículo de opinión con Matt Pottinger: "Los mejores chips de inteligencia artificial de China, la serie Huawei Ascend, son sustancialmente menos capaces que el chip líder fabricado por Nvidia, con sede en Estados Unidos. China también puede no tener la capacidad de producción para seguir el ritmo de la creciente demanda. No hay un solo grupo digno de mención de chips Huawei Ascend fuera de China en la actualidad, lo que sugiere que China está teniendo dificultades para satisfacer sus necesidades internas...".

10 Para ser claros, el objetivo aquí no es negar a China ni a ningún otro país autoritario los inmensos beneficios en ciencia, medicina, calidad de vida, etc. que se derivan de los sistemas de IA muy potentes. Todo el mundo debería poder beneficiarse de la IA. El objetivo es impedir que alcancen el dominio militar.

11 Varios enlaces, ya que ha habido varias rondas. Para cubrir algunas de las acciones principales: Uno , dos , tres , cuatro .

10