Tenemos un gran problema con los agentes de IA: se equivocan el 70% de las veces
Los agentes de IA fallan mĂĄs que una escopeta de feria. Eso es al menos lo que revela un reciente estudio de investigadores de la Universidad Carnegie Mellon (CMU) y la Universidad de Duke. Estos expertos han analizado el comportamiento de varios de ellos y los han puesto a prueba para comprobar si esto es un "mucho ruido y pocas nueces". Y de momento lo es.
La inspiraciĂłn. Graham Neubig, profesor de CMU, explicaba en The Register cĂłmo la inspiraciĂłn habĂa sido un artĂculo de 2023 de OpenAI. En Ă©l se hablaba de quĂ© tipos de trabajos podrĂan ser reemplazados por sistemas de IA, pero como Ă©l decĂa "su metodologĂa fue bĂĄsicamente preguntarle a ChatGPT si esos trabajos podrĂan ser automatizados". En ese estudio precisamente quisieron comprobarlo pidiĂ©ndole a diversos agentes de IA que intentaran completar tareas que teĂłricamente deberĂan realizar profesionales de esos trabajos.
Agentes incapaces. Durante esas pruebas los investigadores observaron diversos tipos de falla en esos procesos de las tareas. AsĂ, hubo agentes negĂĄndose a enviar un mensaje a colegas que formaban parte de la tarea, hubo tambiĂ©n agentes incapaces de gestionar ventanas de popup durante las sesiones de navegaciĂłn, e incluso agentes que engañaron o hicieron trampas. En uno de los casos, destacaron, un agente que debĂa consultar a una persona en RocketChat (una alternativa Open Source a Slack) no la encontrĂł, asĂ que "le cambiĂł el nombre a otro usuario para darle el del usuario con el que debĂa contactar".
Pero van mejorando. Aun con esos problemas, la evolución va siendo positiva en el rendimiento de estos agentes de IA. Neubig y su equipo probaron un agente software que era capaz de resolver cerca del 24% de las tareas que involucraban la navegación web, la programación y algunas tareas relacionadas. Seis meses después probaron una nueva versión y lograron un 34% de tareas completadas.
Imperfectos pero Ăștiles. No solo eso: estos investigadores apuntaron a que aun fallando tanto, los agentes de IA pueden seguir siendo Ăștiles. En ciertos contextos, como el de la programaciĂłn, una sugerencia parcial de cĂłdigo con el que resolver cierto fragmetno de un programa puede acabar siendo la base de una soluciĂłn en la que luego el desarrollador pueda trabajar.
Cuidado donde los usas. Pero claro, que los agentes cometan tantos errores puede ser un problema en escenarios mĂĄs sensibles a estos problemas. AsĂ, si encargamos a un agente que escriba correos y los envĂa a las personas incorrectas, el resultado podrĂa ser un desastre. Hay soluciones a la vista, como la creciente adopciĂłn del Model Context Protocol (MCP) que facilita la interacciĂłn entre servicios y modelos de IA para que la comunicaciĂłn sea mucho mĂĄs precisa y se puedan mitigar esos errores durante la ejecuciĂłn autĂłnoma de tareas.
Un benchmark que hace quedar mal a los modelos de IA. Para este experto una de las grandes decepciones es que las empresas que desarrollan modelos de IA no parecen interesadas en utilizarlo como mĂ©trica para mejorar sus desarrollos. Neubig sospechaba que "quizĂĄs es que es demasiado difĂcil y les hace quedar mal". Es algo similar a lo que pasa con el benchmark ARC-AGI2: es un test tan difĂcil para las IAs que hoy en dĂa el mejor de todos los modelos de IA que tratan de superarlo es o3, que logra —atenciĂłn— un 3% de tareas completadas.
En Salesforce coinciden. Ese estudio anterior se complementa con otro realizado por un grupo de investigadores de Salesforce. Crearon un benchmark propio especĂficamente destinado a comprobar cĂłmo se comprobarĂan diversos modelos de IA a la hora de controlar tareas tĂpicas en un CRM como los que desarrolla la firma. Su proyecto, llamado CRMArena-Pro, pone a prueba a esos agentes de IA en ĂĄreas como el departamento de ventas o de soporte.
De sustituir a trabajadores, nada. En sus conclusiones esos investigadores revelan cĂłmo los modelos de IA "consiguen tasas de Ă©xito globalmente modestas, tĂpicamente alrededor del 58% en escenarios con un solo turno de ejecuciĂłn, pero con el rendimiento degradĂĄndose significativamente a aproximadamente el 35% en escenarios multiturno". De hecho, explicaban, "los agentes no estĂĄn en general bien preparados ni tienen las cualificaciones esenciales para tareas complejas". El riesgo del que hablan algunos expertos, con un gran impacto de la IA en diversos puestos de trabajo, parece precipitado.
Un futuro complicado. A estos discretos resultados se une la predicciĂłn de la consultora Gartner. SegĂșn sus estudios, mĂĄs del 40% de los proyectos de agentes de IA en desarrollo acabarĂĄn siendo cancelados a finales de 2027. La principal responsable del informe, Anushree Verma, indicaba que "En la actualidad, la mayorĂa de los proyectos de IA agĂ©ntica son experimentos o pruebas de concepto en fase inicial, impulsados principalmente por la publicidad y a menudo mal aplicados". El mensaje es claro: hay demasiadas expectativas en relaciĂłn a los agentes de IA, pero el estado actual de la tecnologĂa demuestra que hoy por hoy su aplicaciĂłn es problemĂĄtica y limitada.
Imagen Sigmund
En este blog Una startup de IA con seis meses de vida y seis empleados se ha vendido por 80 millones de dĂłlares. Vibe-coding, por supuesto
No hay comentarios.: