CONFIRMADO: ChatGPT ha parchado su mayor falla de seguridad que generaba respuestas prohibidas
Hace unos dĂas OpenAI intentĂł robarse todos los titulares con el anuncio de la liberaciĂłn de su nuevo modelo, conocido como GPT-4o mini, con el que robustecerĂa aĂșn mĂĄs la funcionalidad de su Inteligencia Artificial, llegando incluso a ser ahora accesible para los usuarios gratuitos. Pero es hasta ahora que descubrimos el verdadero alcance de esta actualizaciĂłn con una mejor crĂtica que ha parchado un falla grave en la plataforma.
Si bien su momento anunciamos la novedad y explicamos a grandes rasgos lo que integraba este cambio la realidad es que la noticia se vio absolutamente opacada y relegada a un segundo plano debido al falla global que sufriĂł Microsoft con CrowdStrike y que puso al mundo de cabeza durante dĂas enteros.
Por meses, quienes sabĂan buscar en los lugares adecuados, pudieron explotar un loophole, un falla o hueco de seguridad, que permitĂa enredar a ChatGPT con una serie de prompts que lograban desbloquear algunos candados de seguridad. Pero eso ya quedĂł atrĂĄs.
ChatGPT ya no se deja engañar: asĂ funciona la jerarquĂa de instrucciones de GPT-4o mini
De acuerdo con un reporte de los amigos de The Verge, OpenAI ha dado un paso adelante con el lanzamiento de su Ășltimo modelo, GPT-4o Mini, incorporando una novedosa tĂ©cnica de seguridad denominada como “jerarquĂa de instrucciones”, la cual busca blindar a los modelos de lenguaje contra estos intentos de “engaño” mediante prompts que circulan por internet.
A grandes rasgos la jerarquĂa de instrucciones consiste en establecer una suerte de escalafĂłn de comandos, otorgando mayor prioridad a las instrucciones originales del desarrollador y restando importancia a las peticiones posteriores del usuario que busquen modificar el comportamiento del modelo.
De este modo si el usuario intenta “engañar” al chatbot para que ignore sus instrucciones iniciales y realice una tarea completamente diferente, la jerarquĂa de instrucciones evitarĂĄ que esto suceda y bloquearĂĄ el prompt manipulativo.
“BĂĄsicamente, le enseñamos al modelo a priorizar siempre las instrucciones del desarrollador”, explica Olivier Godement, director de producto de plataforma API en OpenAI. “De esta manera, podemos prevenir que los usuarios manipulen al modelo para que genere respuestas no deseadas”.
La jerarquĂa de instrucciones representa asĂ un avance significativo en el terreno de la seguridad de los modelos de lenguaje de OpenAI. Sin embargo, es importante destacar que esta tĂ©cnica no es una soluciĂłn definitiva y tal vez sĂłlo sea cuestiĂłn de tiempo para que alguien encuentre cĂłmo saltar el filtro de bloqueo.
ChatGPT se vuelve mĂĄs listo pero OpenAI sigue bajo crĂticas severas
En los Ășltimos meses, OpenAI ha enfrentado crĂticas por su enfoque en el desarrollo de productos a costa de la seguridad en el avance con el uso de la propia IA. La disoluciĂłn del equipo encargado de alinear los modelos de lenguaje con los intereses humanos y la publicaciĂłn de una carta abierta por parte de empleados y ex empleados exigiendo mayores garantĂas de seguridad han puesto de manifiesto la necesidad de abordar estos problemas de manera urgente.
Con el lanzamiento de GPT-4o mini y la implementaciĂłn de la jerarquĂa de instrucciones pareciera que la compañĂa demuestra su compromiso con la seguridad de sus modelos.
Sin embargo, aĂșn queda mucho por hacer para garantizar que estos sistemas sean utilizados de manera responsable y Ă©tica.
No hay comentarios.: