Los chatbots de IA nos hablan como si fueran capaces de razonar. Es una gran mentira

Los chatbots de IA nos hablan como si fueran capaces de razonar. Es una gran mentira
los chatbots de ia nos hablan como si fueran capaces de razonar. es una gran mentira

Uno le pregunta algo a ChatGPT y parece como si realmente este chatbot fuera capaz no solo de entender lo que le estamos preguntando, sino que ademĂĄs contesta de forma humana. Como si pudiera razonar. En los Ășltimos tiempos estamos viendo de hecho cĂłmo empresas como OpenAI (con o1) o Microsoft (con Think Deeper) presumen de modelos que razonan, pero nada mĂĄs lejos de la realidad.


Chatbots a examen. Seis investigadores de Apple quisieron poner a prueba tanto modelos de IA Open Source como modelos propietarios. La idea, comprobar sus limitaciones a la hora de "razonar". En el estudio resultante de tal proyecto analizan Llama, Phi, Gemma, Mistral, y también GPT-4o y o1.


PrecisiĂłn discutible. Lo primero que descubrieron estos investigadores es que la precisiĂłn en el benchmark GSM8K era bastante variable. Pero Farajtabar destacaba cĂłmo ese "razonamiento" era especialmente frĂĄgil. "Los LLM se mantienen muy sensibles a los cambios en los nombres propios (gente, comida, objetos) y mĂĄs aĂșn cuando se alteran los nĂșmeros. ¿CambiarĂ­an las notas de los estudiantes en un examen de matemĂĄticas en un 10% si solo cambiĂĄramos los nombres de las cosas que se enuncian en los problemas?".


Mås difícil todavía. Si se eliminaba una frase del enunciado del problema, se añadía otra o se añadían dos, rendimiento caía y la variabilidad de los resultados en el test GSM8K aumentaba, lo que para estos investigadores hace que los modelos sean "cada vez menos fiables".


Vamos a engañar a la IA. Para girar aĂșn mĂĄs la tuerca, los investigadores decidieron añadir al problema una frase que parecĂ­a relevante pero que en realidad no contribuĂ­a al proceso de "razonamiento" o a la conclusiĂłn. Lo que ocurrĂ­a era que los modelos reducĂ­an su rendimiento de forma notable. Esa informaciĂłn irrelevante provocaba una caĂ­da en su capacidad precisamente porque intentaban tomarla en cuenta, cuando en realidad si "razonaran" descubrirĂ­an que no tenĂ­a sentido hacerlo.


Tramposos al ajedrez. El estudio de estos investigadores es la confirmación de algo que analistas y expertos llevan tiempo destacando desde hace tiempo. Pruebas sencillas como poner a un chatbot a contar erres o a multiplicar matrices lo demuestran, pero también lo podemos ver si le pedimos a un chatbot de IA generativa que juegue al ajedrez: lo normal es que acabe haciendo movimientos ilegales.


Cuidado con fiarte de tu chatbot. Una vez el mensaje es claro para quienes usan estos chatbots, pero tambiĂ©n para quienes los desarrollan. La capacidad real de razonamiento de estos modelos es un mito, y eso hace que por ejemplo crear agentes de IA fiables que actĂșan sobre cierta informaciĂłn puede ser muy contraproducente.


En este blog Uno de los pioneros de la IA ha echado un vistazo a la IA generativa actual y ha llegado a una conclusiĂłn: es tontĂ­sima


No hay comentarios.:

Con tecnologĂ­a de Blogger.