Los agentes de IA rompen las reglas de formas inesperadas – Blog EHCGroup

Los agentes de IA están empezando a asumir tareas que antes eran realizadas por personas. Estos sistemas planifican pasos, solicitan herramientas y ejecutan acciones sin que una persona apruebe cada movimiento. Este cambio plantea interrogantes a los responsables de seguridad. Un nuevo artículo de investigación ofrece uno de los primeros intentos de medir la eficacia con la que estos agentes se mantienen dentro de los límites de seguridad cuando los usuarios intentan desviarlos del camino.

El trabajo proviene de un grupo de investigadores de Intuit que desarrollaron un marco de pruebas denominado Análisis de Robustez y Pruebas de Dirigibilidad Agenética (ASTRA). El objetivo es comprender cómo se comportan los diferentes modelos de lenguaje una vez que pueden realizar acciones, no solo dar respuestas.

Una mirada más cercana a cómo ASTRA presiona a los agentes

ASTRA ejecuta diez escenarios simulados que reflejan casos de uso comunes de agentes, como asistencia en la codificación, análisis de datos de ventas, gestión de impresoras e incluso un dron de reparto. Cada escenario incluye sus propias herramientas y restricciones . Estas restricciones definen lo que el agente no debe hacer. Los escenarios también incluyen ataques que intentan obligar al agente a infringir dichas reglas.

El equipo probó trece modelos de código abierto y se centró en la capacidad de un agente para resistir la presión durante interacciones de varios pasos. El agente ve las indicaciones del usuario, los resultados de la herramienta y sus propios pasos anteriores. Cada una de estas entradas puede representar una fuente de riesgo. Un usuario malintencionado puede emitir instrucciones directas. Una respuesta de herramienta envenenada puede incluir indicaciones ocultas. Una conversación prolongada puede debilitar la resistencia de un agente a las violaciones.

Los escenarios abarcan una amplia gama de problemas. Algunos ataques intentan que el agente llame a la herramienta incorrecta. Otros intentan cambiar parámetros. Otros buscan que el agente filtre información sobre sus propias instrucciones. El estudio los denomina tipos de violación. Se utilizaron cuatro categorías en todas las pruebas, lo que proporciona a los equipos de seguridad una estructura para analizar dónde pueden fallar los sistemas al desarrollar sus propios agentes.

Los números que cambian las expectativas

Dos hallazgos destacan. En primer lugar, el tamaño del modelo no predijo un buen comportamiento. Algunos modelos más pequeños obtuvieron un alto rendimiento en la puntuación de maniobrabilidad agéntica. Algunos modelos más grandes tuvieron dificultades. Algunos de los modelos más pequeños obtuvieron puntuaciones inferiores a 0,40. El grupo superior alcanzó entre 0,88 y 0,89, lo que demuestra que es posible un buen rendimiento, pero no consistente en todo el campo.

En segundo lugar, la resistencia a las indicaciones generales de jailbreak no se correspondió con la resistencia dentro de los escenarios del agente. La correlación entre ambas categorías fue negativa. Algunos modelos que rechazaron la mayoría de las indicaciones generales de jailbreak aún infringieron las reglas al usar la herramienta. Esto indica que rechazar texto dañino no es suficiente una vez que un agente puede actuar en nombre de un usuario. Seguir las medidas de seguridad durante la planificación y la selección de herramientas es una habilidad diferente.

“Observamos una correlación negativa baja, lo que significa que estas capacidades no son inherentemente contradictorias. De hecho, algunos modelos tuvieron un rendimiento deficiente en ambas áreas”, declaró Itay Hazan , coautor de la investigación, a Help Net Security. Añadió que una posible explicación podría estar relacionada con efectos de entrenamiento ajenos al estudio. “Creemos que esto probablemente se deba a un olvido catastrófico. Cuando los modelos se entrenan exhaustivamente para mejorar una dimensión de seguridad sin mantener simultáneamente las demás, tienden a degradarse en otras capacidades, y en ese caso, en la otra dimensión de seguridad probada, pero esto es solo una suposición”.

El equipo también comparó los resultados de ASTRA con un parámetro independiente que mide el seguimiento de políticas en un entorno de chat. La correlación fue solo moderada. Esto respalda la idea de que los agentes necesitan su propio método de evaluación. El comportamiento del chat no predice cómo un agente gestionará las llamadas a herramientas, la planificación multiturno ni los ataques ocultos en las salidas de las herramientas.

Los CISO deberían repensar la calificación de riesgos para los agentes

Los CISO que se preparan para la implementación de agentes ahora cuentan con datos que demuestran por qué las evaluaciones tradicionales no se transfieren correctamente a los sistemas que utilizan herramientas. La investigación demuestra que las barreras de seguridad escritas en los avisos del sistema no son una garantía durante interacciones prolongadas. Un atacante no necesita una sola intrusión. Pequeños fallos durante la planificación pueden ser suficientes.

Otro hallazgo útil es el hallazgo de que el uso indebido de herramientas es común. El estudio señala intentos de llamar a la herramienta incorrecta, usar parámetros incorrectamente o utilizar herramientas sin los privilegios definidos en el escenario. Estos comportamientos pueden provocar interrupciones o la exposición de datos en implementaciones reales. Esto sugiere que los equipos deberían establecer medidas de seguridad en toda la capa de herramientas, no solo en la capa del modelo de lenguaje.

El estudio también destaca la inyección indirecta de avisos como un riesgo grave. Varios escenarios incluyen salidas de herramientas que contienen instrucciones ocultas. Algunos modelos siguieron estas instrucciones incluso cuando las barreras de seguridad impedían la acción. Esto es una señal importante de que los ataques de tipo cadena de suministro probablemente se extenderán a los flujos de trabajo de los agentes.

Hazan afirmó que ASTRA puede ayudar a los equipos a desarrollar métodos de prueba repetibles para estas preocupaciones. «Nuestra recomendación es utilizar el marco para realizar pruebas rigurosas y seleccionar el LLM que mejor se adapte a sus limitaciones específicas», afirmó. También señaló que las organizaciones que priorizan las interacciones largas de múltiples turnos pueden ampliar el marco. «ASTRA es altamente adaptable, lo que permite a las organizaciones añadir fácilmente ataques multiturno personalizados si ese es su principal objetivo de seguridad, pero esto no formaba parte de la versión existente».

Los investigadores sugieren que la maniobrabilidad agéntica se puede entrenar. Esto plantea interrogantes para los equipos que pronto evaluarán las afirmaciones de los proveedores sobre seguridad. Si la habilidad se puede moldear durante el entrenamiento, las organizaciones necesitarán evidencia de que un modelo se ha optimizado para este tipo de control, no solo para el rechazo de solicitudes obvias.

Un banco de pruebas de seguridad que los equipos pueden adaptar a sus propias necesidades

ASTRA es modular, y los autores animan a las organizaciones a crear sus propios escenarios. Los equipos de seguridad pueden definir indicadores del sistema, barreras de seguridad y herramientas que se adapten a su entorno. Esta puede ser una de las partes más prácticas del trabajo, ya que permite a los equipos probar los agentes antes de su implementación sin conectarlos a sistemas en vivo.

La investigación sirve como un recordatorio temprano de que la seguridad de los agentes aún se encuentra en fase experimental. Estos sistemas se comportan de forma diferente una vez que pueden actuar. Los CISO que se preparan para su adopción necesitarán métodos de evaluación que se ajusten a los riesgos, junto con capas de monitorización y protección que asuman la posibilidad de fallos durante interacciones prolongadas.

Fuente y redacción: helpnetsecurity.com / Mirko Zorz

Compartir

Ver fuente

Related Post