Jensen Huang, sorprendido, dice que Elon Musk instaló 100.000 GPU de NVIDIA en solo 19 días. Un despliegue así llevaría años

https://tinyurl.com/2y86suml Jensen Huang, sorprendido, dice que Elon Musk instaló 100.000 GPU de NVIDIA en solo 19 días. Un despliegue así llevaría años
jensen huang, sorprendido, dice que elon musk instaló 100.000 gpu de nvidia en solo 19 días. un despliegue así llevaría años

A principios del año pasado, Elon Musk se lanzó a la carrera de la inteligencia artificial (IA) con su propia empresa llamada xAI. La idea del empresario era competir con OpenAI, Microsoft o Google, pero para enfrentarse a este tipo de rivales necesitaba un supercomputador cuyo rendimiento estuviera a la altura. Tras lanzar las primeras versiones de Grok, un rival de ChatGPT, xAI estrenó el pasado mes de julio el "clúster de entrenamiento IA más potente del mundo”, una bestia con 100.000 GPU H100 de NVIDIA situada en Memphis, Tennessee.


Ahora tenemos más detalles sobre este proyecto que, como hemos podido vez, se ha estado desarrollando contrarreloj. La información proviene de una interesante conversación que el CEO de NVIDIA, Jensen Huang, mantuvo esta semana con los presentadores del podcast BG2. El ejecutivo explicó que el equipo de xAI pasó de la etapa de concepto a la integración completa de las 100.000 unidades de procesamiento en el clúster de Memphis en solo 19 días, hito que se alcanzó con la primera tarea de entrenamiento, promocionada por Elon Musk en X.


Las dimensiones del trabajo realizado pueden entenderse mejor con algunos datos interesantes que Huang aportó posteriormente. Según sus cálculos, poner en marcha un supercomputador de 100.000 GPU suele demorarse unos cuatro años. Tres años se dedicarían a la planificación, mientras que el último año se recibiría el equipo, se instalaría y se probaría para que todo funcione. Es que montar un centro de datos dedicado a soportar altas cargas de trabajo es un auténtico desafío, un desafío que incluye corregir errores y trabajar la optimización.


Huang también explicó que la integración de 100.000 GPU H100 “nunca se había hecho antes”, y que no se verá en otra compañía durante un tiempo. Cuando hablaron del clúster de xAI estamos haciendo referencia a una infraestructura con tecnología de acceso directo de memoria remota (RDMA), que ofrece transferencias de datos rápidas y eficientes, lo que permite mejorar el rendimiento. Un aspecto clave es que se trata de una solución escalable, que podrá ser ampliada con el paso del tiempo, presumiblemente con GPU H200.


En este blog Diferenciar el contenido IA en Internet es cada vez más difícil. La solución pasa por algo similar a los filetes


No hay comentarios.:

Con tecnología de Blogger.