Las alucinaciones siguen siendo el talón de Aquiles de la IA: los últimos modelos de OpenAI inventan más de la cuenta
La inteligencia artificial (IA) no está evolucionando: está despegando. En apenas dos años y medio hemos pasado de GPT-3.5 a GPT-4o, y quien haya probado ambos lo sabe: la diferencia en la experiencia de conversación es enorme. GPT-3.5 marcó un antes y un después al inaugurar la era ChatGPT, pero hoy nadie probablemente volvería a usarlo si tiene a su alcance modelos más avanzados.
Ahora bien, ¿qué significa que un modelo sea más avanzado? La respuesta es compleja. Hablamos de ventanas de contexto más amplias (es decir, la capacidad de leer y procesar más información a la vez), de resultados más elaborados y, en teoría, de menos errores. Pero hay un punto que sigue siendo espinoso: las alucinaciones. Y no siempre se avanza en la dirección correcta.
El problema es que, según los propios datos de OpenAI, eso no está ocurriendo. TechCrunch cita un informe técnico de la compañía donde se reconoce que O3 y O4-mini alucinan más que sus predecesores. Literalmente. En las pruebas internas con PersonQA, O3 falló en el 33% de las respuestas, el doble que O1 y O3-mini. O4-mini lo hizo aún peor: 48%.
Otros análisis, como el del laboratorio independiente Transluce, muestran que O3 incluso se inventa acciones: decía haber ejecutado código en un MacBook Pro fuera de ChatGPT y luego haber copiado los resultados. Algo que, sencillamente, no puede hacer.
Un reto que sigue pendiente. La idea de tener modelos que no alucinen suena fantástica. Sería el paso definitivo para confiar plenamente en sus respuestas. Pero, mientras tanto, toca convivir con este problema. Sobre todo cuando usamos la IA para tareas delicadas: resumir documentos, consultar datos, preparar informes. En esos casos, conviene revisar todo dos veces.
Porque ya ha habido errores serios. El más sonado fue el de un abogado que presentó ante el juez documentos generados por ChatGPT. Eran convincentes, sí, pero también ficticios: el modelo se inventó varios casos legales. La IA avanzará, pero el juicio crítico, por el momento, sigue siendo cosa nuestra.
En este blog Algunos usuarios están usando o3 y o4-mini de OpenAI para averiguar la ubicación de fotos: es una pesadilla para la privacidad
En este blog Si alguna vez has tenido miedo de que te persiga un robot, China ha organizado una media maratón para que respires tranquilo
No hay comentarios.: