CONFIRMADO: ChatGPT ha parchado su mayor falla de seguridad que generaba respuestas prohibidas

https://tinyurl.com/266g4mht CONFIRMADO: ChatGPT ha parchado su mayor falla de seguridad que generaba respuestas prohibidas
confirmado: chatgpt ha parchado su mayor falla de seguridad que generaba respuestas prohibidas

Hace unos dĂ­as OpenAI intentĂł robarse todos los titulares con el anuncio de la liberaciĂłn de su nuevo modelo, conocido como GPT-4o mini, con el que robustecerĂ­a aĂșn mĂĄs la funcionalidad de su Inteligencia Artificial, llegando incluso a ser ahora accesible para los usuarios gratuitos. Pero es hasta ahora que descubrimos el verdadero alcance de esta actualizaciĂłn con una mejor crĂ­tica que ha parchado un falla grave en la plataforma.


Si bien su momento anunciamos la novedad y explicamos a grandes rasgos lo que integraba este cambio la realidad es que la noticia se vio absolutamente opacada y relegada a un segundo plano debido al falla global que sufriĂł Microsoft con CrowdStrike y que puso al mundo de cabeza durante dĂ­as enteros.


Por meses, quienes sabĂ­an buscar en los lugares adecuados, pudieron explotar un loophole, un falla o hueco de seguridad, que permitĂ­a enredar a ChatGPT con una serie de prompts que lograban desbloquear algunos candados de seguridad. Pero eso ya quedĂł atrĂĄs.


ChatGPT ya no se deja engañar: así funciona la jerarquía de instrucciones de GPT-4o mini


De acuerdo con un reporte de los amigos de The Verge, OpenAI ha dado un paso adelante con el lanzamiento de su Ășltimo modelo, GPT-4o Mini, incorporando una novedosa tĂ©cnica de seguridad denominada como “jerarquĂ­a de instrucciones”, la cual busca blindar a los modelos de lenguaje contra estos intentos de “engaño” mediante prompts que circulan por internet.


A grandes rasgos la jerarquĂ­a de instrucciones consiste en establecer una suerte de escalafĂłn de comandos, otorgando mayor prioridad a las instrucciones originales del desarrollador y restando importancia a las peticiones posteriores del usuario que busquen modificar el comportamiento del modelo.


De este modo si el usuario intenta “engañar” al chatbot para que ignore sus instrucciones iniciales y realice una tarea completamente diferente, la jerarquĂ­a de instrucciones evitarĂĄ que esto suceda y bloquearĂĄ el prompt manipulativo.


“BĂĄsicamente, le enseñamos al modelo a priorizar siempre las instrucciones del desarrollador”, explica Olivier Godement, director de producto de plataforma API en OpenAI. “De esta manera, podemos prevenir que los usuarios manipulen al modelo para que genere respuestas no deseadas”.


La jerarquía de instrucciones representa así un avance significativo en el terreno de la seguridad de los modelos de lenguaje de OpenAI. Sin embargo, es importante destacar que esta técnica no es una solución definitiva y tal vez sólo sea cuestión de tiempo para que alguien encuentre cómo saltar el filtro de bloqueo.


ChatGPT se vuelve mĂĄs listo pero OpenAI sigue bajo crĂ­ticas severas


En los Ășltimos meses, OpenAI ha enfrentado crĂ­ticas por su enfoque en el desarrollo de productos a costa de la seguridad en el avance con el uso de la propia IA. La disoluciĂłn del equipo encargado de alinear los modelos de lenguaje con los intereses humanos y la publicaciĂłn de una carta abierta por parte de empleados y ex empleados exigiendo mayores garantĂ­as de seguridad han puesto de manifiesto la necesidad de abordar estos problemas de manera urgente.


Con el lanzamiento de GPT-4o mini y la implementación de la jerarquía de instrucciones pareciera que la compañía demuestra su compromiso con la seguridad de sus modelos.


Sin embargo, aĂșn queda mucho por hacer para garantizar que estos sistemas sean utilizados de manera responsable y Ă©tica.


No hay comentarios.:

Con tecnologĂ­a de Blogger.