Alibaba acaba de demostrar que OpenAI se gasta 78 millones en hacer lo mismo que ellos por 500.000 d贸lares

Alibaba acaba de demostrar que OpenAI se gasta 78 millones en hacer lo mismo que ellos por 500.000 d贸lares
alibaba acaba de demostrar que openai se gasta 78 millones en hacer lo mismo que ellos por 500.000 d贸lares

Hay una nueva t茅cnica estrella para entrenar modelos de IA de forma s煤per eficiente. Es al menos lo que parece haber demostrado Alibaba, que el viernes present贸 su familia de modelos Qwen3-Next y lo hizo presumiendo de una eficiencia espectacular que incluso deja atr谩s a la que logr贸 DeepSeek R1.


Qu茅 ha pasado. Alibaba Cloud, la divisi贸n de infraestructura en la nube del grupo Alibaba, present贸 el viernes una nueva generaci贸n de LLMs que calific贸 como "el futuro de los LLMs eficientes". Seg煤n sus responsables, estos nuevos modelos son 13 veces m谩s peque帽os que el modelo m谩s grande que ha lanzado esa empresa, y que se present贸 justo una semana antes. Puedes probar Qwen3-Next en la web de Alibaba (recuerda elegirlo del men煤 desplegable, en la parte superior izquierda).


Mejor que sus competidores. Seg煤n los benchmarks realizados por la firma Artificial Analysis, Qwen3-Next-80B-A3B ha logrado superar tanto a la 煤ltima versi贸n de DeepSeek R1 como a Kimi-K2. El nuevo modelo de razonamiento de Alibabano es el mejor en t茅rminos globales —GPT-5, Grok 4, Gemini 2.5 Pro Claude 4.1 Opus lo superan— pero aun as铆 logra un rendimiento sobresaliente teniendo en cuenta su coste de entrenamiento. ¿C贸mo lo ha hecho?


Mixture of Experts. Estos modelos hacen uso de la arquitectura Mixture of Experts (MoE). Con ella se "divide" el modelo en una especie de subredes neuronales que son los "expertos" especializados en subconjuntos de datos. Alibaba en este caso aument贸 el n煤mero de "expertos": mientras que DeepSeek-V3 y Kimi-K2 hacen uso de 256 y 384 expertos, Qwen3-Next-80B-A3B hace uso de 512 expertos, pero solo activa 10 al mismo tiempo.


Atenci贸n h铆brida. la clave de esa eficiencia est谩 en la llamada atenci贸n h铆brida. Los modelos actuales suelen ver reducida su eficiencia si la longitud de las entradas es muy larga y tienen que "prestar m谩s atenci贸n" y eso implica m谩s c贸mputo. En Qwen3-Next-80B-A3B se hace uso de una t茅cnica llamada "Gated DeltaNet" que desarrollaron y compartieron el MIT y NVIDIA en marzo.


Gated DeltaNet. Esta t茅cnica mejora la forma en la que presta atenci贸n los modelos al realizar ciertos ajustes a los datos de entrada. La t茅cnica determina qu茅 informaci贸n retener y cu谩l se puede descartar. Eso permite crear un mecanismo de atenci贸n preciso y s煤per eficiente en coste. De hecho, Qwen3-Next-80B-A3B es comparable al modelo m谩s potente de Alibaba, Qwern3-235B-A22B-Thinking-2507.


Modelos eficientes y peque帽os. Los crecientes costes de entrenar nuevos modelos de IA empiezan a ser preocupantes, y eso ha hecho que cada vez m谩s vamos esfuerzos para crear modelos de lenguaje "peque帽os" que sean m谩s baratos de entrenar, est茅n m谩s especializados y sean especialmente eficientes. El mes pasado Tencent present贸 modelos por debajo de los 7.000 millones de par谩metros, y otra startup llamada Z.ai public贸 su modelo GLM-4.5 Air con tan solo 12.000 millones de par谩metros activos. Mientras, los grandes modelos como GPT-5 o Claude usan muchos m谩s par谩metros, lo que hace que el c贸mputo necesario para usarlos sea mucho mayor.


En este blog Si la pregunta es cu谩l de las grandes tecnol贸gicas est谩 ganando la carrera de la IA, la respuesta es: ninguna


No hay comentarios.:

Con tecnolog铆a de Blogger.