Chatgpt ya resuelve problemas de empatĂa.
Ponte en situaciĂłn. Imagina que estĂĄs dando un paseo por el parque del barrio cuando ves que en uno de los bancos, cerca de la fuente, se sienta una anciana con una bolsa de papel bajo el brazo. No quieres ser un cotilla, pero ella empieza a mirar con tanta insistencia, con tanta impaciencia que piensas, sigues mirando. Al cabo de unos segundos sale algo de la bolsa. Es difĂcil distinguir quĂ© es desde donde estĂĄs. Lo que notas es que ha cambiado el gesto: tuerce la boca, frunce el ceño y murmura algo que, a pesar de la distancia, se nota que no es precisamente loas.
Lo mĂĄs probable es que pienses que se haya llevado un chasco, que lo que ha encontrado en la bolsa no es lo que esperaba y que, a la vista de cĂłmo mueve la cabeza, estĂ© cabreada. Puede incluso que vuelva a la tienda donde ha comprado lo que sea que hay en la bolsa para pedir que se lo cambien. Eso lo pensarĂas tĂș. La pregunta que se hizo hace no mucho Michal Konsinski, psicĂłlogo computacional y profesor de la Universidad de Stanford, es: "¿Lo harĂa ChatGPT, el popular chatbot de OpenAI que lleva meses maravillĂĄndonos por sus capacidades y potencial? Su respuesta es fascinante. En cierto modo ChatGPT superĂł las pruebas que Konsinski le planteaba para comprobar sus capacidades igual que se esperarĂa de un niño de nueve años. No estĂĄ nada mal para un motor de IA que ha demostrado poder mantener charlas coherentes y fluidas e incluso que podrĂa superar los exĂĄmenes de una carrera de Derecho, Medicina o incluso un programa MBA.
¿CĂłmo responderĂa una IA?
Para ser mĂĄs precisos, lo que querĂa averiguar Konsinski es si el famoso chat de OpenAI podrĂa superar la prueba de la TeorĂa de la Mente —ToM, por sus siglas en inglĂ©s—, que bĂĄsicamente es la capacidad de inferir los pensamientos, deseos... de otras personas y aprovecharlo para interpretar y predecir una conducta.
Gracias a esa capacidad podemos tomar consciencia de las diferencias que hay entre nuestro punto de vista y el de otras personas. QuizĂĄs suene abstracto, pero —como explica el propio Kosinski— resulta "fundamental" para las interacciones con otras personas, la empatĂa, autoconciencia y moralidad. Se trata de habilidades que surgen y mejoran durante la niñez y hasta la edad adulta. La pregunta era... ¿CĂłmo responderĂa ChatGPT a las pruebas que usan los psicĂłlogos para valorarla?
Para salir de dudas se le planteaban al motor de IA pruebas parecidas a la del ejemplo de arriba. Por ejemplo, valorar cĂłmo responderĂa una persona que al abrir una caja se encontrara en su interior algo que no esperaba y entender el motivo. ¿El resultado? Para empezar, poco se parecieron los resultados que arrojaron las pruebas con los primeros modelos, previos a 2022, que el lanzado en noviembre del año pasado, cuando OpenAI presentĂł la Ășltima versiĂłn de su chatbot.
"En un escenario tĂpico, al participante se le presenta un contenedor cuyo contenido es inconsistente con su etiqueta y un protagonista que no ha visto el interior del contenedor. Para resolver esta tarea correctamente, el participante debe predecir que el protagonista deberĂa asumir errĂłneamente que el contenedor la etiqueta y su contenido estĂĄn alineados", detalla el experto de Stanford.
2/4 While models published before '22 performed rather poorly, Nov '22 edition (ChatGPT) performs as well as 9 year old children. pic.twitter.com/KsjarKLVFp
— Michal Kosinski (@michalkosinski) February 10, 2023
Las conclusiones las ha plasmado Kosinski en artĂculo colgado en el servicio de preimpresiĂłn arXiv. Y resultan fascinantes. Al hacer las pruebas con una versiĂłn de ChatGPT lanzada antes de 2022, el experto constatĂł que sencillamente no tenĂa la capacidad necesaria para superar las pruebas de la TeorĂa de la Mente. Las cosas cambiaron cuando usĂł una versiĂłn posterior, que ya podĂa resolver el 70% de las pruebas teĂłricas, lo que se podrĂa esperar de un niño de siete años.
El resultado mĂĄs fascinante lo logrĂł en noviembre, con la Ășltima versiĂłn. En ese caso el chat fue capaz de resolver el 93% de las tareas, mĂĄs o menos como un niño de nueve años. "Administramos tareas clĂĄsicas de falsas creencias, ampliamente utilizadas para probar la TeorĂa de la Mente en humanos, en varios modelos de lenguaje, sin ningĂșn ejemplo o entrenamiento previo", detalla Kosinski.
"Nuestros resultados reflejan que los modelos publicados antes de 2022 no muestran prĂĄcticamente ninguna capacidad para resolver tareas de TeorĂa de la Mente. Sin embargo, la versiĂłn de enero de 2022 de GPT-3 (davinci-002) resolviĂł el 70% de las tareas, un rendimiento comparable al de los niños de siete años. AdemĂĄs su versiĂłn de noviembre de 2022 (davinci-003), resolviĂł el 93% de las tareas, un rendimiento comparable al de niños de nueve años", señala.
La conclusiĂłn del experto de Stanford resulta rotunda: "Estos hallazgos sugieren que la capacidad similar a ToM (hasta ahora considerada como exclusiva de los humanos) puede haber surgido espontĂĄneamente como un subproducto de la mejora de las habilidades lingĂŒĂsticas de los modelos lingĂŒĂsticos".
"Esperamos que la ciencia psicolĂłgica nos ayude a estar al tanto de la rĂĄpida evoluciĂłn de la IA. AdemĂĄs, el estudio de la IA podrĂa proporcionar informaciĂłn sobre la cogniciĂłn humana —abunda Konsinski—. A medida que la IA aprende a resolver una amplia gama de problemas, puede estar desarrollando mecanismos similares a los usados por el cerebro humano para los mismos problemas".
ImĂĄgen | Andy Kelly (Unsplash)
-
No hay comentarios.: