Luo Fuli, la mujer que ha tumbado a Nvidia y promete revolucionar la IA

Para el mundo en general, el término DeepSeek era totalmente desconocido hasta que, hace un par de días, su presentación oficial borrase cerca de 1,4 billones de dólares de capitalización a las grandes firmas tecnológicas. No obstante, en el plano científico DeepSeek, que es un Gran Modelo Lingüístico (LLM) que sirve como chatbot de IA (similar a Chat GTP), era algo más conocido (tampoco mucho) desde hacía un año, cuando se publicó el artículo: DeepSeek LLM: Scaling Open-Source Language Models with Longtermism, que sirvió de presentación. Un paper que venía firmado por algo más de 80 autores entre los que destacaban dos: Liang Wenfeng y Luo Fuli.
El primero es el gestor del fondo High-Flyer, que ha puesto en marcha DeepSeek (que también es el nombre de la empresa detrás del chatbot de IA), y la cabeza visible del proyecto. La segunda, menos visible para el gran público, es la líder de las entrañas de DeepSeek y la responsable de liderar la parte fundamental del proyecto: desarrollar R1, que es el corazón de DeepSeek, un modelo de razonamiento de alto rendimiento con unos recursos computacionales mínimos. De hecho, el caos provocado por el nuevo modelo de IA chino no tiene que ver tanto con sus capacidades, ya que no supera a otros que ya están, sino que se debe a que Luo Fuli y su equipo fueron capaces de entrenar a R1 con una pequeña fracción de chips frente a los que utilizan sus competidores.
LUO FULI, LA NIÑA PRODIGIO QUE DESAFÍA A NVIDIA
De hecho, eso es lo propició que Nvidia registrase casi una cuarta parte de la pérdida de capitalización provocada por el lanzamiento de DeepSeek, con más de 400.000 millones. Al fin y al cabo, el equipo de Luo Fuli ha conseguido demostrar que no se necesitan inversiones gigantescas en chips para poder desarrollar LLM suficientemente buenos, lo que puede suponer una importante pérdida para la firma. El año pasado, el gasto combinado en centros de datos de los tres gigantes de la computación en la nube y Meta alcanzó unos 180.000 millones, un 57% más que el año anterior. A principios de este mes, Microsoft declaró que prevé gastar otros 80.000 millones de dólares en infraestructura de IA. La semana pasada, Meta dijo que planeaba invertir 65.000 millones en IA este año.

Ahora, todas inversiones gigantescas no solo están en entredicho, sino que probablemente estén congeladas hasta que las grandes firmas mundiales entiendan cómo logra R1 sus resultados con sus escasos recursos. En otras palabras, ahora todas las miradas están puestas en lo que ha sido capaz y lo que será capaz de hacer una joven china. Como todas las grandes historias, la de Luo Fuli empieza como una niña brillante, especialmente en matemáticas, que pronto se decantó por las ciencias. Más tarde, daría rienda suelta a sus capacidades, cuando se graduó en Ciencias de la Computación en la Universidad de Beijing y después se especializó en aprendizaje automático y procesamiento del lenguaje natural.
EL SECRETO DE LUO FULI: ¿CÓMO CONSIGUE R1 SER TAN EFICIENTE?
En ese proceso de crecimiento profesional, en el que pasó por ser investigadora para Alibaba antes de decantarse por DeepSeek, Luo Fuli escribió un gran número de papers ahondando en hacer más accesible y eficiente la IA. De hecho, en uno de su primeros trabajos al respecto, en Making Pre-trained Language Models End-to-end Few-shot Learners with Contrastive Prompt Tuning, publicado en 2022, se hacía referencia precisamente a cómo “afinar” el modelo “en pocos intentos” dado un escenario “de bajos recursos”. También en ese mismo año publicaría Parameter-Efficient Sparsity for Large Language Models Fine-Tuning, en el que demostraba que su “método de entrenamiento disperso con eficiencia de parámetros” era capaz de un “rendimiento similar o mejor” que otro métodos utilizados, mientras que además era “más eficiente” y menos costoso.
Después de dichos papers Luo Fuli fichó finalmente por DeepSeek, tras decir que no a Xiaomi, transfiriendo sus conocimientos a lo que finalmente sería R1. Y es que el modelo LLM de la firma china es notable no sólo por su escala, sino por la eficiencia de su entrenamiento. Un éxito que no viene de una sola mejora, sino “de una serie de mejoras marginales” explica Nic Lane de la Universidad de Cambridge en un artículo para The Economist. La clave viene de permitir que los chips individuales se comuniquen entre sí para luego afinar los resultados, lo que permite aprender a un menor costo.
DEEPSEEK PROMETE HACERSE CON EL MERCADO POR SUS BAJOS COSTES
El resultado es que requirió menos de 3 millones de horas de chip, con un costo estimado de menos de seis millones, lo que supone una décima parte de la potencia de procesamiento y el gasto que se invirtieron en Llama 3.1. (la IA de Meta). Por su parte, el entrenamiento del modelo requirió solo 2.000 chips, mientras que otros competidores como OpenAI pueden llegar a necesitar 16.000. Por último, las mejoras propuestas por Luo Fuli también permiten que ejecutar el modelo tenga un coste más asequible, ya que DeepSeek divide las tareas entre varios chips y así comienza el siguiente paso del proceso antes de que finalice el anterior.
Lo anterior permite al modelo mantener los chips funcionando a plena capacidad con poca redundancia y, en definitiva, ser mucho más eficiente. De hecho, cuando en febrero se abra al mercado de empresas y permita que las firmas que quieran puedan crear sus servicios a través de su interfaz v3, cobrará incluso menos de una décima parte de lo que cobra Anthropic por el uso de Claude, su LLM, también será una mínima parte de lo que cobra OpenAI.
En definitiva, la llegada fulgurante de DeepSeek ha sorprendido y sacudido los mercados de todo el mundo y ha dejado aturdidas a muchas de las mentes más brillantes en la materia. Aunque no a todas, ya que hay, al menos una, que lo que probablemente la tenía confundida era cómo el mundo podía gastarse tanto dinero en algo que se podía hacer igual, pero de forma mucho más barata y eficiente. Esa es Luo Fuli.