OWASP Top 10 para aplicaciones de modelos de lenguaje de gran tamaño (LLM)

El
Top 10 de riesgos para programas LLM de 2025
comenzó en 2023 como un esfuerzo impulsado por la comunidad para destacar y
abordar problemas de seguridad específicos de las aplicaciones de IA.

Desde entonces, la tecnología ha seguido extendiéndose por industrias y
aplicaciones, al igual que los riesgos asociados. A medida que los LLM se
integran más profundamente en todo, desde las interacciones con los clientes
hasta las operaciones internas, los desarrolladores y los profesionales de
seguridad están descubriendo nuevas vulnerabilidades y formas de
contrarrestarlas.

LLM01:2025 Inyección de mensajes (prompt)

Una vulnerabilidad de inyección de mensajes ocurre cuando los mensajes del
usuario alteran el comportamiento o la salida del LLM de maneras no deseadas.
Estas entradas pueden afectar al modelo incluso si son imperceptibles para los
humanos, por lo tanto, las inyecciones de mensajes no necesitan ser visibles o
legibles para los humanos, siempre que el contenido sea analizado por el
modelo.

Las vulnerabilidades de inyección de mensajes existen en la forma en que los
modelos procesan los mensajes y en cómo la entrada puede obligar al modelo a
pasar incorrectamente datos de mensajes a otras partes del modelo, lo que
puede provocar que violen las pautas, generen contenido dañino, permitan el
acceso no autorizado o influyan en decisiones críticas.

LLM02:2025 Divulgación de información confidencial

La información confidencial puede afectar tanto al LLM como a su contexto de
aplicación. Esto incluye información personal identificable (PII), detalles
financieros, registros médicos, datos comerciales confidenciales, credenciales
de seguridad y documentos legales. Los modelos propietarios también pueden
tener métodos de capacitación únicos y código fuente considerado confidencial,
especialmente en modelos cerrados o básicos.

LLM03:2025 – Cadena de suministro

Este fallo ocurre cuando un LLM no está adecuadamente aislado cuando tiene
acceso a recursos externos o sistemas sensibles. Las vulnerabilidades comunes
incluyen la separación insuficiente del entorno del LLM de otros sistemas
críticos o almacenes de datos, permitir que el LLM acceda a recursos sensibles
sin restricciones adecuadas y no limitar las capacidades del LLM, como
permitirle realizar acciones a nivel de sistema o interactuar con otros
procesos.

LLM04:2025 Envenenamiento de datos y modelos

El envenenamiento de datos ocurre cuando se manipulan los datos de
preentrenamiento, ajuste o incorporación para introducir vulnerabilidades,
puertas traseras o sesgos. Esta manipulación puede comprometer la seguridad,
el rendimiento o el comportamiento ético del modelo, lo que genera resultados
perjudiciales o capacidades deterioradas. Los riesgos comunes incluyen un
rendimiento degradado del modelo, contenido sesgado o tóxico y explotación de
sistemas posteriores.

LLM05:2025 Manejo inadecuado de salidas

El manejo inadecuado de la salida se refiere específicamente a la validación,
el saneamiento y el manejo insuficientes de las salidas generadas por los
modelos de lenguaje grandes antes de que se transmitan a otros componentes y
sistemas. Dado que el contenido generado por LLM se puede controlar mediante
una entrada rápida, este comportamiento es similar a proporcionar a los
usuarios acceso indirecto a funciones adicionales.

El manejo inadecuado de la salida se diferencia de la dependencia excesiva en
que se ocupa de las salidas generadas por LLM antes de que se transmitan,
mientras que la dependencia excesiva se centra en preocupaciones más amplias
en torno a la dependencia excesiva de la precisión y la idoneidad de las
salidas de LLM. La explotación exitosa de una vulnerabilidad de manejo
inadecuado de la salida puede dar lugar a XSS y CSRF en navegadores web, así
como SSRF, escalamiento de privilegios o ejecución remota de código en
sistemas backend.

LM06:2025 Agencia excesiva

A menudo, el desarrollador de un sistema basado en LLM le otorga un grado de
agencia: la capacidad de llamar a funciones o interactuar con otros sistemas a
través de extensiones (a veces denominadas herramientas, habilidades o
complementos por diferentes proveedores) para realizar acciones en respuesta a
una solicitud. La decisión sobre qué extensión invocar también puede delegarse
en un «agente» de LLM para que la determine dinámicamente en función de la
solicitud de entrada o la salida de LLM. Los sistemas basados ​​en agentes
generalmente realizarán llamadas repetidas a un LLM utilizando la salida de
invocaciones anteriores para fundamentar y dirigir las invocaciones
posteriores.

La agencia excesiva es la vulnerabilidad que permite que se realicen acciones
dañinas en respuesta a resultados inesperados, ambiguos o manipulados de un
LLM, independientemente de la causa del mal funcionamiento del LLM.

LLM07:2025 Fuga de mensajes del sistema

La vulnerabilidad de fuga de mensajes del sistema en los LLM se refiere al
riesgo de que los mensajes o instrucciones del sistema utilizados para dirigir
el comportamiento del modelo también puedan contener información confidencial
que no estaba destinada a ser descubierta. Los mensajes del sistema están
diseñados para guiar la salida del modelo en función de los requisitos de la
aplicación, pero pueden contener secretos inadvertidamente. Cuando se
descubren, esta información se puede utilizar para facilitar otros ataques.

LLM08:2025 Debilidades de los vectores y las incrustaciones

Las vulnerabilidades de los vectores y las incrustaciones presentan riesgos de
seguridad significativos en los sistemas que utilizan la generación aumentada
de recuperación (Retrieval Augmented Generation – RAG ) con modelos de lenguaje grandes (LLM). Las debilidades en la forma en que
se generan, almacenan o recuperan los vectores y las incrustaciones pueden ser
explotadas por acciones maliciosas (intencionadas o no) para inyectar
contenido dañino, manipular los resultados del modelo o acceder a información
confidencial.

La Generación Aumentada de Recuperación (RAG) es una técnica de adaptación de
modelos que mejora el rendimiento y la relevancia contextual de las respuestas
de las aplicaciones LLM, combinando modelos de lenguaje entrenados previamente
con fuentes de conocimiento externas.

LLM09:2025 Desinformación

La desinformación de los LLM plantea una vulnerabilidad fundamental para las
aplicaciones que dependen de estos modelos. La desinformación se produce
cuando los LLM producen información falsa o engañosa que parece creíble. Esta
vulnerabilidad puede provocar violaciones de seguridad, daños a la reputación
y responsabilidad legal.

LLM10:2025 Consumo ilimitado

El consumo ilimitado se refiere al proceso en el que un modelo de lenguaje
grande (LLM) genera resultados basados ​​en consultas o indicaciones de
entrada. La inferencia es una función fundamental de los LLM, que implica la
aplicación de patrones y conocimientos aprendidos para producir respuestas o
predicciones relevantes.

Fuente:
OWASP

Ver fuente

Related Post