CONFIRMADO: ChatGPT ha parchado su mayor falla de seguridad que generaba respuestas prohibidas

https://tinyurl.com/266g4mht CONFIRMADO: ChatGPT ha parchado su mayor falla de seguridad que generaba respuestas prohibidas

Hace unos días OpenAI intentó robarse todos los titulares con el anuncio de la liberación de su nuevo modelo, conocido como GPT-4o mini, con el que robustecería aún más la funcionalidad de su Inteligencia Artificial, llegando incluso a ser ahora accesible para los usuarios gratuitos. Pero es hasta ahora que descubrimos el verdadero alcance de esta actualización con una mejor crítica que ha parchado un falla grave en la plataforma.

Si bien su momento anunciamos la novedad y explicamos a grandes rasgos lo que integraba este cambio la realidad es que la noticia se vio absolutamente opacada y relegada a un segundo plano debido al falla global que sufrió Microsoft con CrowdStrike y que puso al mundo de cabeza durante días enteros.

Por meses, quienes sabían buscar en los lugares adecuados, pudieron explotar un loophole, un falla o hueco de seguridad, que permitía enredar a ChatGPT con una serie de prompts que lograban desbloquear algunos candados de seguridad. Pero eso ya quedó atrás.

ChatGPT ya no se deja engañar: así funciona la jerarquía de instrucciones de GPT-4o mini

De acuerdo con un reporte de los amigos de The Verge, OpenAI ha dado un paso adelante con el lanzamiento de su último modelo, GPT-4o Mini, incorporando una novedosa técnica de seguridad denominada como “jerarquía de instrucciones”, la cual busca blindar a los modelos de lenguaje contra estos intentos de “engaño” mediante prompts que circulan por internet.

A grandes rasgos la jerarquía de instrucciones consiste en establecer una suerte de escalafón de comandos, otorgando mayor prioridad a las instrucciones originales del desarrollador y restando importancia a las peticiones posteriores del usuario que busquen modificar el comportamiento del modelo.

De este modo si el usuario intenta “engañar” al chatbot para que ignore sus instrucciones iniciales y realice una tarea completamente diferente, la jerarquía de instrucciones evitará que esto suceda y bloqueará el prompt manipulativo.

“Básicamente, le enseñamos al modelo a priorizar siempre las instrucciones del desarrollador”, explica Olivier Godement, director de producto de plataforma API en OpenAI. “De esta manera, podemos prevenir que los usuarios manipulen al modelo para que genere respuestas no deseadas”.

La jerarquía de instrucciones representa así un avance significativo en el terreno de la seguridad de los modelos de lenguaje de OpenAI. Sin embargo, es importante destacar que esta técnica no es una solución definitiva y tal vez sólo sea cuestión de tiempo para que alguien encuentre cómo saltar el filtro de bloqueo.

ChatGPT se vuelve más listo pero OpenAI sigue bajo críticas severas

En los últimos meses, OpenAI ha enfrentado críticas por su enfoque en el desarrollo de productos a costa de la seguridad en el avance con el uso de la propia IA. La disolución del equipo encargado de alinear los modelos de lenguaje con los intereses humanos y la publicación de una carta abierta por parte de empleados y ex empleados exigiendo mayores garantías de seguridad han puesto de manifiesto la necesidad de abordar estos problemas de manera urgente.

Con el lanzamiento de GPT-4o mini y la implementación de la jerarquía de instrucciones pareciera que la compañía demuestra su compromiso con la seguridad de sus modelos.

Sin embargo, aún queda mucho por hacer para garantizar que estos sistemas sean utilizados de manera responsable y ética.

CONFIRMADO: ChatGPT ha parchado su mayor falla de seguridad que generaba respuestas prohibidas

No hay comentarios.:

Buscar en el blog

UNETEA KWAI

Contribuye

Popular Posts

Translate blog

CONFIRMADO: ChatGPT ha parchado su mayor falla de seguridad que generaba respuestas prohibidas

También podría gustarte esto

No hay comentarios.:

Buscar en el blog

UNETEA KWAI

Contribuye

Popular Posts

Translate blog