Unos investigadores dicen haber creado una IA tan buena como las de OpenAI y DeepSeek por 50 d贸lares. Y el dato es real

Unos investigadores dicen haber creado una IA tan buena como las de OpenAI y DeepSeek por 50 d贸lares. Y el dato es real
unos investigadores dicen haber creado una ia tan buena como las de openai y deepseek por 50 d贸lares. y el dato es real

El coste del entrenamiento de los modelos de inteligencia artificial (IA) m谩s avanzados est谩 en el punto de mira. Y es comprensible que sea as铆. La irrupci贸n del modelo de la compa帽铆a china DeepSeek, que presumiblemente tiene un coste de entrenamiento moderado, ha puesto en entredicho la estrategia y las inversiones desplegadas hasta ahora por OpenAI, Google o Microsoft, entre otras compa帽铆as.


Un breve repaso antes de seguir adelante: los responsables de DeepSeek sostienen que la infraestructura que han utilizado para entrenar su modelo aglutina 2.048 chips H800 de NVIDIA. Y tambi茅n que este proceso con 671.000 millones de par谩metros ha costado 5,6 millones de d贸lares. Sin embargo, algunos analistas defienden que estas cifras no reflejan la realidad.


El pasado 31 de enero un grupo de investigadores de la Universidad Stanford y la Universidad de Washington, ambas en EEUU, public贸 en el repositorio de art铆culos cient铆ficos de acceso abierto arXiv un texto en el que asegura haber logrado entrenar un modelo de IA con capacidad de razonamiento y unas prestaciones equiparables a las de los modelos o1 de OpenAI o R1 de DeepSeek afrontando una inversi贸n de algo menos de 50 d贸lares.


A bote pronto parece imposible. Con ese dinero a priori es absolutamente inviable entrenar un modelo de inteligencia artificial. Y menos uno avanzado y capaz de competir de t煤 a t煤 con los de OpenAI o DeepSeek. Sin embargo, es cierto. Para entender c贸mo lo han logrado es necesario que indaguemos en la estrategia que han ideado. Por un lado, esos 50 d贸lares representan el coste del alquiler de la infraestructura de computaci贸n en la nube a la que han recurrido para llevar a cabo el entrenamiento. Tiene sentido si el tiempo invertido es muy moderado.


Pero hay algo m谩s. Algo muy importante. Su modelo de razonamiento, al que han llamado s1, ha sido elaborado a partir del modelo de inteligencia artificial gratuito Qwen2.5-32B desarrollado por el laboratorio chino Qwen, que pertenece a Alibaba. Y su proceso de razonamiento est谩 inspirado en el modelo Gemini 2.0 Flash Thinking Experimental de Google. No han partido de cero en absoluto. Un apunte interesante: el modelo s1 est谩 disponible en GitHub junto con los datos y el c贸digo utilizados por estos cient铆ficos para entrenarlo.


Por otro lado, el proceso de entrenamiento dur贸 menos de 30 minutos empleando tan solo 16 chips H100 de NVIDIA pertenecientes a la red de computaci贸n en la nube utilizada por estos investigadores. De aqu铆 sale el coste de algo menos de 50 d贸lares. No obstante, hay otro dato que merece la pena que no pasemos por alto: el modelo de razonamiento de s1 ha sido generado mediante destilaci贸n del modelo Gemini 2.0 Flash Thinking Experimental.


La destilaci贸n es, a grandes rasgos, una t茅cnica de aprendizaje autom谩tico que permite transferir la base de conocimiento de un modelo grande y avanzado a otro mucho m谩s peque帽o y eficiente. Esta estrategia permite ahorrar much铆simos recursos, aunque no sirve para crear modelos desde cero. M谩s all谩 de los cacareados 50 d贸lares de coste lo realmente importante es que, como acabamos de comprobar, es posible poner a punto modelos de IA muy competitivos afrontando una inversi贸n mucho m谩s comedida que las realizadas por las grandes compa帽铆as de tecnolog铆a hasta ahora.


Imagen Luis Gomes


En este blog Samsung se est谩 preparando para dar un zarpazo a TSMC donde m谩s le duele: la fabricaci贸n de los chips para IA


No hay comentarios.:

Con tecnolog铆a de Blogger.