Groq: La Revoluci贸n en Chips de Inteligencia Artificial

Groq: La Revoluci贸n en Chips de Inteligencia Artificial
groq (no grok) es el nuevo fen贸meno de la ia, pero no hace llms: fabrica chips que los hacen volar

¡Descubre la Revoluci贸n de Groq en la Inteligencia Artificial!

El pasado 9 de noviembre, Jonathon Ross escribi贸 un post en el blog de su empresa titulado "Bienvenido a la galaxia de Groq, Elon". Musk acababa de presentar su chatbot, Grok.

Result贸 que ese nombre ya estaba cogido hac铆a tiempo, aunque con una "q" al final en lugar de una "k", por parte de esta desconocida empresa que ahora se ha convertido en el nuevo fen贸meno del mundo de la IA.

Chips de Inteligencia Artificial: M谩s All谩 de los LLMs

Groq no hace LLMs. No tiene un modelo que compita con GPT-4, con PaLM 2 o con Llama 2. Tampoco tiene un chatbot propio que compita con ChatGPT, Gemini o Copilot. No. Hace algo muy distinto, pero tan importante como eso... o puede que m谩s.

Groq fabrica chips de inteligencia artificial. Los llaman Language Processing Units (LPUs), y con ellos logra algo espectacular: permite que la generaci贸n de texto de estos chatbots sea much铆simo m谩s r谩pida que la que se obtiene con cualquier otro chip, incluidas las potentes GPUs de VIDIA.

Ross demostr贸 la capacidad de sus chips hace unos d铆as en una entrevista en la CNN. En ella explic贸 c贸mo Groq hace que las conversaciones —de texto o habladas— con el chatbot resulten mucho m谩s naturales y mucho m谩s atractivas para quien interact煤a con las m谩quinas.

Velocidad de v茅rtigo = Conversaciones naturales

La clave est谩 en la velocidad. Los humanos somos por lo general poco pacientes, y los chatbots tardan en respondernos porque para hacerlo necesitan tener acceso a una capacidad de c谩lculo enorme. Hasta ahora las GPUs de NVIDIA eran la mejor opci贸n para obtener conversaciones m谩s o menos fluidas, pero Groq deja a esas GPUs a la altura del bet煤n.

Lo hemos comprobado haciendo una peque帽a prueba que cualquiera puede replicar: basta con abrir dos ventanas, una con ChatGPT o cualquier otro chatbot en una parte de la pantalla y la demo de Groq en la otra parte. La velocidad de respuesta del chatbot de Mistral (pero se puede aplicar a cualquier otro) gracias a Groq es sencillamente espectacular.

Hay estudios independientes como el de Artificial Analysis que dejan clara la diferencia: no solo la velocidad es superior, sino que adem谩s Groq es m谩s econ贸mico.

As铆, Groq ofrec铆a una tasa de 246,79 tokens por segundo con el LLM Llama 2 con un coste de 0,72 d贸lares por cada mill贸n de tokens. Usar ese mismo LLM en la infraestructura Microsoft Azure daba 18 tokens por segundo y un coste de 1,6 d贸lares.

Otros an谩lisis confirman esas prestaciones. En el ranking de LLMPerf monitorizado por la empresa Anyscale, Groq es 18 veces m谩s r谩pido en inferencia LLM que los principales proveedores de esta funci贸n en la nube.

C贸mo logra Groq ser tan r谩pido

Estamos pues ante una prometedora revoluci贸n no en la precisi贸n o calidad de las respuestas de estos modelos y sus chatbots, sino en la velocidad con la que nos responden. De repente mantener una conversaci贸n puede resultar mucho m谩s natural, y esto plantea implicaciones importantes en ese uso pr谩ctico de esta tecnolog铆a.

¿C贸mo logran los chips de Groq algo as铆? Ross lo explicaba en esa entrevista de la CNN con una analog铆a sencilla.

Aunque los responsables de Groq l贸gicamente no quieren dar muchos detalles sobre c贸mo funcionan sus chips, s铆 que explican en el sitio web oficial de la compa帽铆a que "la LPU est谩 dise帽ada para superar los dos cuellos de botella de los LLM: la densidad de c谩lculo y el ancho de banda de la memoria". La empresa, eso s铆, enlaza a estudios premiados de 2020 en los que ya hablaba de procesadores especializados para acelerar tareas de aprendizaje profundo.

Ross explic贸 que estos chips no est谩n disponibles para usuarios finales, as铆 que no esper茅is poder comprar alg煤n tipo de tarjeta PCIe para a帽adirla a vuestro PC. Al menos, no de momento: la empresa trabaja con compa帽铆as que pueden beneficiarse de esta potencia de c谩lculo en sus centros de datos para luego ofrecer esa velocidad de generaci贸n de texto en sus servicios en la nube.

Es de esperar que poco a poco veamos este tipo de soluci贸n implantada en chatbots p煤blicamente accesibles —y seguramente, de pago—, pero lo interesante es que esto abre la puerta a que efectivamente este tipo de mejora haga que las GPUs de NVIDIA (o AMD, que avanza en este campo) cuenten con al menos una alternativa totalmente especializada en este 谩mbito. Y si ha aparecido una, lo l贸gico es pensar que acabar谩n apareciendo m谩s y quiz谩s lo hagan con propuestas destinadas a los consumidores.

No hay comentarios.:

Con tecnolog铆a de Blogger.