OpenAI acaba de asumir una verdad inc贸moda sobre los navegadores con IA: hay un tipo de ataque imposible de bloquear
El navegador est谩 dejando de ser solo una ventana a Internet para convertirse en una herramienta que tambi茅n opera dentro de la web. En el caso de Modo agente en ChatGPT Atlas, OpenAI explica que su agente ve p谩ginas y puede realizar acciones, clics y pulsaciones de teclado dentro del navegador, igual que har铆a una persona. La promesa es clara, ayudar en flujos cotidianos con el mismo contexto y los mismos datos. La consecuencia tambi茅n lo es, cuanto m谩s poder concentramos en un agente, m谩s atractivo se vuelve para quien busque manipularlo.
Qu茅 es un prompt injection. En t茅rminos sencillos, un prompt injection es una t茅cnica que busca colar instrucciones maliciosas dentro de contenidos aparentemente normales para que un sistema de inteligencia artificial las interprete como 贸rdenes leg铆timas. IBM lo describe como un tipo de ciberataque contra modelos de lenguaje en el que se camuflan entradas maliciosas como prompts v谩lidos para manipular el comportamiento del sistema. El objetivo puede ir desde forzar respuestas indebidas hasta provocar filtraciones de informaci贸n o desviar una tarea, sin necesidad de explotar vulnerabilidades cl谩sicas de software.
Lo inquietante es que esto puede encajar en flujos de trabajo corrientes sin levantar una alarma evidente. La firma de IA describe un ejemplo en el que un atacante “siembra” una bandeja de entrada con un correo malicioso, y m谩s tarde, cuando el usuario pide una tarea inocua, el agente lee ese mensaje durante la ejecuci贸n normal. En una dema, el resultado es extremo a prop贸sito, el agente termina enviando un email de renuncia en lugar de redactar una respuesta autom谩tica. Todo esto gracias a un ataque externo.
Por qu茅 no existe el blindaje perfecto. En ciberseguridad hay una idea ampliamente asumida, ning煤n sistema es completamente seguro, y OpenAI encuadra el prompt injection como un problema persistente. En su texto lo formula as铆: “Esperamos que los atacantes sigan adapt谩ndose. La inyecci贸n de prompts, como las estafas y la ingenier铆a social en la web, dif铆cilmente se resolver谩 por completo”. El objetivo, por tanto, no es prometer invulnerabilidad, sino elevar el coste del ataque y reducir el impacto cuando algo falla.
En ese contexto, los liderados por Sam Altman explican que ha desplegado una actualizaci贸n de seguridad para el agente de Atlas motivada por una nueva clase de ataques descubierta mediante red teaming interno automatizado. La compa帽铆a afirma que la entrega incluye un modelo del agente entrenado de forma adversarial y salvaguardas reforzadas alrededor del sistema, con la intenci贸n de mejorar su resistencia frente a instrucciones no deseadas durante la navegaci贸n.
Lo que hacemos sigue importando. OpenAI recomienda usar el agente sin sesi贸n iniciada cuando no sea necesario acceder a sitios con cuenta, y revisar con calma las solicitudes de confirmaci贸n en acciones sensibles, como enviar un correo o completar una compra. Tambi茅n aconseja dar instrucciones expl铆citas y acotadas, evitando encargos demasiado amplios que obliguen al agente a recorrer grandes vol煤menes de contenido. No elimina el riesgo, pero reduce oportunidades de manipulaci贸n y ayuda a que los controles existentes funcionen como est谩n dise帽ados.
En este blog Cada cu谩nto debemos cambiar TODAS nuestras contrase帽as seg煤n tres expertos en ciberseguridad
No hay comentarios.: