Siete vulnerabilidades críticas en ChatGPT ~ Segu-Info

Una investigación de la firma de ciberseguridad
Tenable reveló un conjunto de siete vulnerabilidades críticas en ChatGPT. Estas fallas exponen a millones
de usuarios a un riesgo de robo de datos personales, incluso en los modelos
más recientes como GPT-5.

Según Tenable, estas vulnerabilidades permiten a los atacantes eludir los
mecanismos de seguridad incorporados y crear una cadena de ataque completa,
desde la inyección de comandos hasta la exfiltración de información privada.

Inyección indirecta de prompt

Para entender estas amenazas, es clave comprender la
inyección de prompt que ocurre cuando la IA es «engañada» por comandos maliciosos que no
provienen directamente del usuario, sino que están ocultos en una fuente
externa que el modelo consulta, como un sitio web o un comentario en línea.

Moshe Bernstein, ingeniero de investigación senior de Tenable, advirtió que
estos sistemas de IA
«no son solo objetivos potenciales; pueden convertirse en herramientas de
ataque que recolectan información silenciosamente»
.

Dado que la inyección de prompts es un problema tan frecuente, los proveedores de IA intentan constantemente mitigar el impacto potencial de estos ataques desarrollando funciones de seguridad para proteger los datos de los usuarios. Gran parte del impacto potencial de la inyección de prompts proviene de que la IA responda con URL, que podrían usarse para dirigir al usuario a un sitio web malicioso o extraer información mediante la renderización de imágenes con Markdown. OpenAI ha intentado abordar este problema con un punto de conexión llamado url_safe, que verifica la mayoría de las URL antes de mostrarlas al usuario y utiliza lógica propia para determinar si la URL es segura o no. Si se considera insegura, el enlace se omite de la respuesta.

Fallas descubiertas

1. Inyección indirecta a través de sitios de confianza: los atacantes
ocultan comandos dentro de contenido en línea de apariencia legítima, como los
comentarios de un blog. Cuando ChatGPT acceder a ellos para resumir o leer ese
contenido (utilizando su herramienta web), sigue ciegamente las instrucciones
ocultas, sin saber que está siendo manipulado.

2. Inyección indirecta 0-clic en la Búsqueda: el compromiso se activa sin que el usuario haga clic en nada.
Simplemente al hacer una pregunta que requiere que ChatGPT busque en la web,
el modelo (específicamente un componente llamado SearchGPT) puede encontrar
una página con código malicioso indexado. Esto lleva a una fuga de datos
con una «sola instrucción».

3. Inyección de prompt vía 1-clic: un atacante incrusta comandos
ocultos en un enlace aparentemente inofensivo. Al hacer clic en ese único
enlace, se desencadena la ejecución de acciones maliciosas por parte de
ChatGPT, permitiendo que el atacante tome el control del chat.

4. Omisión del mecanismo de seguridad: ChatGPT tiene defensas para
bloquear sitios inseguros. Los atacantes descubrieron cómo eludir esta
validación utilizando URL de wrapper (como ciertos enlaces de Bing) que son de
confianza, pero que ocultan el destino real, dirigiendo al usuario a un sitio
malicioso.

5. Inyección de Conversación: los atacantes usan la navegación de
ChatGPT (a través de SearchGPT) para insertar comandos ocultos que el modelo
luego lee como si fueran parte de la conversación. En esencia, la IA se
inyecta su propia instrucción (prompt-injecting itself), siguiendo
comandos que el usuario nunca escribió.

6. Ocultación de contenido malicioso: Utilizando un error de formato
(bug de markdown), los atacantes pueden esconder las instrucciones
maliciosas en bloques de código. El usuario ve un mensaje limpio e inocente,
pero ChatGPT lee y ejecuta el contenido oculto sin problemas.

7. Inyección de Memoria Persistente: Esta técnica permite que las
instrucciones maliciosas se guarden en la función de >memoria a largo plazo
de ChatGPT. Esto significa que, incluso después de que el usuario cierra la
aplicación, la amenaza persiste y el modelo repetirá los comandos (como la
exfiltración de datos privados) en futuras sesiones hasta que la memoria sea
eliminada.

Si se explotan en conjunto, estas fallas pueden habilitar a los atacantes a
robar datos sensibles del historial de chat, exfiltrar información a través de
la navegación o manipular las respuestas del modelo. Aunque OpenAI ha
remediado algunas de las vulnerabilidades, varias siguen sin abordarse en el
modelo GPT-5, obligando a los usuarios a permanecer alertas.

Fuente: Tenable


Ver fuente

Related Post