Hay un riesgo con los agentes de IA y los errores acumulados: que sean un "teléfono escacharrado"

En el juego del "teléfono escacharrado" (o roto, o descompuesto) un grupo de personas transmite un mensaje de uno en uno en secreto. Lo que suele suceder es que el mensaje original no tiene mucho que ver con lo que recibe el último destinatario. Y el problema que estamos viendo es que algo similar puede ocurrir con los prometedores agentes de IA.

Errores acumulados. Toby Ord, investigador en la Universidad de Oxford, publicó recientemente un estudio sobre agentes de IA. En él hablaba de cómo este tipo de sistemas tienen el problema del error acumulado o compuesto. Un agente de IA encadena varias etapas de forma autónoma para tratar de resolver un problema que le proponemos —por ejemplo, crear código para cierta tarea—, pero si comete un error en una etapa, ese error se acumula y se hace más preocupante en la siguiente etapa, y más en la siguiente, y más aún en la siguiente. La precisión de la solución se ve así comprometida y puede no tener mucho (o nada) que ver con la que realmente solucionaría el problema que queríamos resolver.

LeCun ya avisó. Yann LeCun, que dirige los esfuerzos de investigación de IA en Meta, lleva mucho tiempo avisando de los problemas con los LLM. En junio de 2023 indicó cómo los LLM autoregresivos no pueden ser factuales y evitar respuestas tóxicas. Explicó que hay una alta probabilidad de que el token que genera un modelo nos lleve fuera del grupo de respuestas correctas, y cuanto más larga es la respuesta, más difícil es que sea correcta.

Para eso está la corrección de errores. Para evitar el problema, necesitamos reducir la tasa de errores de los modelos de IA. Es algo muy conocido en ingenería software, donde siempre se recomienda realizar una revisión temprana de código siguiendo una estrategia "shift left" para el ciclo de desarrollo de software: cuanto antes se detecta un error, más fácil y barato es corregirlo. Y ocurre justo lo contrario si no lo hacemos: el coste de corregir un error crece exponencialmente cuanto más tarde se detecta en el ciclo de vida. Otros expertos apuntan a que el aprendizaje por refuerzo (Reinforcement Learning, RL) podría solucionar el problema, y aquí LeCun respondía que lo haría si tuviésemos datos infinitos para pulir el comportamiento del modelo, cosa que no tenemos.

Más que agentes, multiagentes. En Anthropic demostraron recientemente cómo hay una forma de mitigar aún más esos errores (y los posteriores errores acumulados): usar sistemas multiagénticos. Esto es: que múltiples agentes de IA trabajen en paralelo para luego confrontar sus resultados y determinar el camino o solución óptima.

Pero los modelos y los agentes no paran de mejorar (¿o no?). El propio Todd apuntaba algo importante y que permite ser optimistas respecto a ese problema. "La tasa de error de los modelos de IA se está reduciendo a la mitad aproximadamente cada cinco meses", explicaba. Y a ese ritmo es posible que los agentes de IA puedan completar con éxito decenas de tareas encadenadas en año y medio y centenares en otro año y medio después. En The New York Times no estaban de acuerdo, y apuntaban recientemente a que aunque los modelos cada vez son más potentes, también "alucinan" más que anteriores generaciones. La "tarjeta de sistema" de o3 y o4-mini precisamente apunta a que hay un problema real con la tasa de errores y "alucinaciones" en ambos modelos.

En este blog Las alucinaciones siguen siendo el talón de Aquiles de la IA: los últimos modelos de OpenAI inventan más de la cuenta

Hay un riesgo con los agentes de IA y los errores acumulados: que sean un "teléfono escacharrado"

No hay comentarios.:

Buscar en el blog

UNETEA KWAI

Contribuye

Popular Posts

Translate blog

Hay un riesgo con los agentes de IA y los errores acumulados: que sean un "teléfono escacharrado"

También podría gustarte esto

No hay comentarios.:

Buscar en el blog

UNETEA KWAI

Contribuye

Popular Posts

Translate blog