Unos investigadores dicen haber creado una IA tan buena como las de OpenAI y DeepSeek por 50 dólares. Y el dato es real

El coste del entrenamiento de los modelos de inteligencia artificial (IA) más avanzados está en el punto de mira. Y es comprensible que sea así. La irrupción del modelo de la compañía china DeepSeek, que presumiblemente tiene un coste de entrenamiento moderado, ha puesto en entredicho la estrategia y las inversiones desplegadas hasta ahora por OpenAI, Google o Microsoft, entre otras compañías.

Un breve repaso antes de seguir adelante: los responsables de DeepSeek sostienen que la infraestructura que han utilizado para entrenar su modelo aglutina 2.048 chips H800 de NVIDIA. Y también que este proceso con 671.000 millones de parámetros ha costado 5,6 millones de dólares. Sin embargo, algunos analistas defienden que estas cifras no reflejan la realidad.

El pasado 31 de enero un grupo de investigadores de la Universidad Stanford y la Universidad de Washington, ambas en EEUU, publicó en el repositorio de artículos científicos de acceso abierto arXiv un texto en el que asegura haber logrado entrenar un modelo de IA con capacidad de razonamiento y unas prestaciones equiparables a las de los modelos o1 de OpenAI o R1 de DeepSeek afrontando una inversión de algo menos de 50 dólares.

A bote pronto parece imposible. Con ese dinero a priori es absolutamente inviable entrenar un modelo de inteligencia artificial. Y menos uno avanzado y capaz de competir de tú a tú con los de OpenAI o DeepSeek. Sin embargo, es cierto. Para entender cómo lo han logrado es necesario que indaguemos en la estrategia que han ideado. Por un lado, esos 50 dólares representan el coste del alquiler de la infraestructura de computación en la nube a la que han recurrido para llevar a cabo el entrenamiento. Tiene sentido si el tiempo invertido es muy moderado.

Pero hay algo más. Algo muy importante. Su modelo de razonamiento, al que han llamado s1, ha sido elaborado a partir del modelo de inteligencia artificial gratuito Qwen2.5-32B desarrollado por el laboratorio chino Qwen, que pertenece a Alibaba. Y su proceso de razonamiento está inspirado en el modelo Gemini 2.0 Flash Thinking Experimental de Google. No han partido de cero en absoluto. Un apunte interesante: el modelo s1 está disponible en GitHub junto con los datos y el código utilizados por estos científicos para entrenarlo.

Por otro lado, el proceso de entrenamiento duró menos de 30 minutos empleando tan solo 16 chips H100 de NVIDIA pertenecientes a la red de computación en la nube utilizada por estos investigadores. De aquí sale el coste de algo menos de 50 dólares. No obstante, hay otro dato que merece la pena que no pasemos por alto: el modelo de razonamiento de s1 ha sido generado mediante destilación del modelo Gemini 2.0 Flash Thinking Experimental.

La destilación es, a grandes rasgos, una técnica de aprendizaje automático que permite transferir la base de conocimiento de un modelo grande y avanzado a otro mucho más pequeño y eficiente. Esta estrategia permite ahorrar muchísimos recursos, aunque no sirve para crear modelos desde cero. Más allá de los cacareados 50 dólares de coste lo realmente importante es que, como acabamos de comprobar, es posible poner a punto modelos de IA muy competitivos afrontando una inversión mucho más comedida que las realizadas por las grandes compañías de tecnología hasta ahora.

Imagen Luis Gomes

En este blog Samsung se está preparando para dar un zarpazo a TSMC donde más le duele: la fabricación de los chips para IA

Unos investigadores dicen haber creado una IA tan buena como las de OpenAI y DeepSeek por 50 dólares. Y el dato es real

No hay comentarios.:

Buscar en el blog

UNETEA KWAI

Contribuye

Popular Posts

Translate blog

Unos investigadores dicen haber creado una IA tan buena como las de OpenAI y DeepSeek por 50 dólares. Y el dato es real

También podría gustarte esto

No hay comentarios.:

Buscar en el blog

UNETEA KWAI

Contribuye

Popular Posts

Translate blog