Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude

Tenemos un problema con la IA: no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude
tenemos un problema con la ia: no hay forma fiable de saber si chatgpt es mejor que gemini, copilot o claude

Si usas un chatbot, ¿por quĂ© usas ese y no otro? Es una pregunta sencilla, pero la respuesta difĂ­cilmente serĂĄ defintiva. Lo normal es que los usuarios respondan que usan el chatbot X (sea ChatGPT, Copilot, Gemini, Claude o cualquier otro) porque les funciona bien para lo que quieren, pero la duda quedarĂĄ en el aire. ¿Hay uno mejor para eso que quiero hacer?


Lo curioso es que a estas alturas seguimos sin saberlo. Existen un buen montón de benchmarks que tratan de evaluar el rendimiento de estos modelos de IA, pero de lo que esas pruebas nos dicen a la experiencia real suele haber bastante diferencia. Lo que a unos les parece una buena respuesta puede no parecérselo a otros, y cada escenario cambia porque los chatbots no suelen responder exactamente lo mismo cuando les preguntamos.


El A.I. Index, un interesante estudio reciente del Instituto para la IA Centrada en Humanos de la Universidad de Stanford, precisamente lo recalca en su segundo apartado, en el que habla del rendimiento técnico de los modelos.


Los investigadores que han realizado este completĂ­simo informe —fĂĄcil de leer y entender por el protagonismo de lo visual— dejaban claro en primer lugar que la inteligencia artificial supera a los seres humanos en algunas tareas, pero no en todas.


Luego dejaban claro que los modelos de IA actuales han llegado a saturar las pruebas actuales. ImageNet, SQuAD o SuperGLUE, que hasta no hace mucho eran buenas varas de medir para los modelos de IA, ya no sirven: los modelos se han vuelto demasiado buenos.


Lo que se estĂĄ haciendo ahora es crear pruebas aĂșn mĂĄs exigentes, como SWE-bench para la generaciĂłn de cĂłdigo, HEIM para la generaciĂłn de imĂĄgenes, MMMU para el razonamiento general, MoCa para el razonamiento moral, AgentBench para el comportamiento de agentes de IA y HaluEval para analizar si los modelos "alucinan".


Hay también una métrica que cada vez es mås importante para los usuarios. Una que no es sintética como tal, sino que precisamente se basa en la puntuación que los humanos le damos a estos modelos.


Un modelo puede puntuar muy alto en un benchmark de generaciĂłn de texto, pero ¿quĂ© le parece a un usuario que lo usa? Sistemas como Chatbot Arena Leaderboard, que registran el "sentimiento pĂșblico" sobre un chatbot —cualquiera puede votar a su chatbot preferido—, son cada vez mĂĄs relevantes a la hora de monitorizar cĂłmo y cuĂĄnto avanzan estos modelos de IA.


Eso lo vimos recientemente cuando apareciĂł Claude 3 Opus. El nuevo modelo de Anthropic tiene un comportamiento en benchmarks que parece superar incluso a GPT-4 —hasta ahora, la referencia— en algunos escenarios "sintĂ©ticos". Lo importante, no obstante, es que lo superaba en puntuaciĂłn ELO en el citado Chatbot Arena Leaderboard —en estos momentos GPT-4 ha recuperado el trono—, lo que bĂĄsicamente significaba una cosa.


La gente "prefiere" Claude 3 Opus a GPT-4. Tienen la sensaciĂłn de que es mejor.


Eso se estå convirtiendo cada vez mås en una forma de "fiarse" de un chatbot y no de otro. En el mundo de los procesadores, los benchmarks suelen dar una idea muy clara de lo que podemos esperar de ellos. Es cierto que las pruebas sintéticas son también una referencia y pueden no coincidir exactamente con la experiencia final, pero podemos firanos bastante de esos resultados.


Con los modelos de IA la cosa no estĂĄ tan clara, y eso es un problema. Uno que parece que por el momento va a ser muy difĂ­cil resolver.


Imagen Chrypnotoad con Midjourney


En este blog El AI Pin ha llegado a sus primeros usuarios. Y sus conclusiones no son nada esperanzadoras


No hay comentarios.:

Con tecnologĂ­a de Blogger.