El nuevo rey de los chatbots desafĂ­a a GPT-4: Claude 3 Opus supera las expectativas.

El reinado de GPT-4 desafiado: Claude 3 Opus supera al gigante en Chatbot Arena | Por Romer Batista
Los rivales de GPT-4 no han logrado plantarle cara jamĂĄs. Eso acaba de cambiar con el nuevo rey de los chatbots

El reinado de GPT-4 desafiado: Claude 3 Opus supera al gigante en Chatbot Arena

OpenAI ha dominado con mano de hierro el segmento de los modelos de IA generativa de texto. Desde que lanzĂł ChatGPT, la capacidad de su chatbot ha estado siempre por encima de sus competidores, que lo utilizaban como vara de medir: cada vez que salĂ­a un nuevo chatbot, este prometĂ­a que era mejor que ChatGPT segĂșn ciertos benchmarks.

Lo cierto es que aunque en pruebas sintéticas eso podía ser verdad, la experiencia de usuario decía lo contrario. La primera versión de ChatGPT, basada en GPT-3.5, ya mostraba sus poderes desde el principio, pero fue el lanzamiento de GPT-4 (usado en ChatGPT Plus y base también de Copilot, antes Bing Chat) el que puso claramente el LLM de OpenAI por encima del resto. Los demås iban a la zaga, y aunque mejoraban, no lograban "transmitir" un mejor comportamiento cuando los usåbamos.

Eso acaba de cambiar segĂșn Chatbot Arena, un ranking cada vez mĂĄs prestigioso que fue creado por la organizaciĂłn Large Model Systems (LMSYS ORG) en colaboraciĂłn con varias instituciones acadĂ©micas. Su calificaciĂłn y clasificaciĂłn de grandes modelos de lenguaje se ha convertido en todo un referente, y lo es porque es especialmente distinto de otras herramientas de este tipo.

Lo que se hace en Chatbot Arena es permitir que los usuarios voten por el modelo que mejor responde a sus consultas. Cualquiera puede participar, y gracias a ello este ranking permite tener en cuenta no solo paråmetros técnicos de modelos como GPT-4, sino también la experiencia de usuario que ofrece. Así, lo que los usuarios piensan de cada chatbot acaba siendo tan importante como lo que dicen las pruebas sintéticas. O mås.

Y como comentan nuestros compañeros de Genbeta, los votos de 400.000 usuarios han permitido dejar claro que hoy por hoy GPT-4 ha sido superado. Lo ha sido por Claude 3 Opus, el modelo que la firma Anthropic presentĂł hace pocas semanas y que es (por poco) el ganador en esa particular puntuaciĂłn ELO —un concepto adaptado del mundo del ajedrez— que en Chatbot Arena asignan a cada modelo.

Es cierto que la diferencia con GPT-4 es muy pequeña, pero aĂșn asĂ­ esto representa un singular punto de inflexiĂłn que demuestra que hay una sana competencia en el mundo de los chatbots. Gemini Pro es el cuarto clasificado, mientras que Mistral, el chatbot de la startup francesa, ocupa la octava plaza. Es cierto que las variantes de GPT-4 copan el ranking, pero aĂșn asĂ­ el avance aquĂ­ de Anthropic es una excelente noticia para la competitividad en este mercado.

Otros estudios recientes parecen confirmar el auge de Claude 3. Lo hace por ejemplo el llamado Berkeley Function-Calling Leaderboard (BFCL), un nuevo conjunto de pruebas que no evalĂșan el comportamiento de preguntas y respuestas de los chatbots, sino su capacidad para convertirse en la base de los futuros y cada vez mĂĄs populares agentes de IA.

En este benchmark Claude 3 Opus fue superior a GPT-4, que una vez mås dominó el ranking aunque también se metía en esa particular clasificación Mistral. Parece por tanto que esa capacidad de "conectarse" con otros servicios a través de funciones en lenguajes como Java, JavaScript, Python, consultas SQL o llamadas a APIs REST es especialmente destacable en el modelo de Anthropic, que desde luego tiene un futuro prometedor.

Estos rankings, eso sĂ­, no pararĂĄn de cambiar a corto y medio plazo: la evoluciĂłn de estos LLMs sigue siendo frenĂ©tica y de hecho los indicios apuntan a que GPT-5 estĂĄ a la vuelta de la esquina. Mientras, los modelos que aprovechan licencias Open Source como Llama 2 o Grok —que acaba de estrenarse en ese apartado— podrĂ­an tambiĂ©n comenzar a ganar enteros en todos estos apartados.

No hay comentarios.:

Con tecnologĂ­a de Blogger.