Operator tambi茅n "mira" a la pantalla y mueve tu rat贸n por ti como otros agentes IA. Lo hace mejor gracias a CUA

Ya tenemos el agente de IA de OpenAI. Se llama Operator, y es un sistema capaz de ver nuestra pantalla y realizar acciones de forma aut贸noma en el navegador a partir de nuestras peticiones. Es algo que ya hab铆amos visto con 'Computer Use' de Anthropic o Mariner de DeepMind, pero aqu铆 la empresa liderada por Sam Altman tiene su propio ingrediente especial.
Computer-Using Agent (CUA). Operator usa un modelo llamado Computer-Using Agent (CUA) que est谩 basado en GPT-4o. CUA interpreta capturas de pantalla e interact煤a con sitios web a trav茅s de los controles t铆picos del navegador, como un cursor o un rat贸n.
Qu茅 pasa con esas capturas que recolecta Operator. Operator realiza continuamente capturas de pantalla para "ver" la interfaz del navegador con la que interact煤a. Ese navegador no se ejecuta en nuestro PC, sino en un navegador remoto en los servidores de OpenAI. Los datos del usuario, incluidas esas capturas, se usan de acuerdo a la pol铆tica de privacidad de OpenAI. Esto es: pueden usarse para detectar actividades fraudulentas y para mejorar el servicio. Eso implica que nuestros datos se pueden usar para entrenar y mejorar el modelo, aunque podemos desactivar esa opci贸n en los ajustes de Operator. El usuario, eso s铆, tiene la capacidad de cu谩nto tiempo se almacenan esos datos en Operator. Por defecto esos datos se guardan hasta que el usuario decida borrarlos.
Un agente que pide ayuda (y confirmaci贸n) cuando las necesita. Como hemos visto en otros agentes como 'Computer Use' de Anthropic, Operator es un agente que no act煤a a lo loco. Si se encuentra con un obst谩culo –como un c贸digo CAPTCHA o la petici贸n de introducir usuario y contrase帽a en un sitio web– pedir谩 que el usuario tome el control, y tambi茅n pedir谩 confirmaci贸n final del usuario si por ejemplo tenemos que validar una reserva o la compra de un producto que nos ha buscado Operator. El usuario de Operator puede adem谩s tomar el control en cada momento.
No sueltes las manos del volante. Esto nos recuerda los sistemas de conducci贸n asistida como el FSD de Tesla. Es cierto que es capaz de llevarnos de un sitio a otro una vez introducimos la direcci贸n de destino, pero es importante seguir prestando atenci贸n y tener las manos en el volante por si ocurren imprevistos. Con Operator y el resto de agentes de este tipo ocurre algo parecido.
Hay cosas que no puede hacer. De momento Operator no puede completar tareas especializadas como la de gestionar sistemas de calendario complejos o interactuar con sitios web muy personalizados o no est谩ndares. Tambi茅n se negar谩 a hacer algunas tareas con riesgo elevado de provocar perjuicios. Por ejemplo, enviar correos electr贸nicos, realizar transacciones electr贸nicas o borrar eventos del calendario. Sus prestaciones y capacidades ir谩n aumentando, sin duda, pero lo har谩n gradualmente y siempre garantizando que la posibilidad de error es la menor posible.
Imagen OpenAI
En este blog La IA generativa parece estancada. Las Big Tech creen tener un as en la manga: "agentes" que hagan cosas por nosotros
No hay comentarios.: