Se ha descubierto que un conjunto de datos utilizado para entrenar modelos de
lenguaje grandes (LLM) contiene casi 12.000 secretos activos, que permiten una
autenticación exitosa.
Los hallazgos resaltan una vez más cómo las credenciales codificadas de forma
dura (hardcoding) plantean un grave riesgo de seguridad tanto para
los usuarios como para las organizaciones, sin mencionar que agravan el
problema cuando los LLM terminan sugiriendo prácticas de codificación
inseguras a sus usuarios.
Truffle Security dijo
que descargó un archivo de diciembre de 2024 de
Common Crawl, que mantiene un repositorio gratuito y abierto de datos de rastreo web. El
enorme conjunto de datos contiene más de 250 mil millones de páginas que
abarcan 18 años. El archivo contiene específicamente 400 TB de datos web
comprimidos, 90.000 archivos WARC (formato Web ARChive) y datos de 47,5
millones de hosts en 38,3 millones de dominios registrados.
El análisis de la empresa descubrió que hay 219 tipos de secretos
diferentes en Common Crawl, incluidas las claves raíz de Amazon Web Services
(AWS), los webhooks de Slack y las claves API de Mailchimp. «Los secretos ‘vivos’ son claves API, contraseñas y otras credenciales que
se autentican correctamente con sus respectivos servicios», dijo el investigador de seguridad Joe Leon.
«Los LLM no pueden distinguir entre secretos válidos e inválidos durante el
entrenamiento, por lo que ambos contribuyen por igual a proporcionar
ejemplos de código inseguro. Esto significa que incluso los secretos
inválidos o de ejemplo en los datos de entrenamiento podrían reforzar
prácticas de codificación inseguras».

La revelación se produce tras una
advertencia de Lasso Security
de que los datos expuestos a través de repositorios de código fuente públicos
pueden ser accesibles a través de chatbots de IA como Microsoft Copilot
incluso después de que se hayan vuelto privados aprovechando el hecho de que
están indexados y almacenados en caché por Bing.
El método de ataque, denominado Wayback Copilot, ha descubierto 20.580
repositorios de GitHub pertenecientes a 16.290 organizaciones, incluidas
Microsoft, Google, Intel, Huawei, Paypal, IBM y Tencent, entre otras. Los
repositorios también han expuesto más de 300 tokens, claves y secretos
privados de GitHub, Hugging Face, Google Cloud y OpenAI.
«Cualquier información que haya sido pública, incluso por un corto período,
podría seguir siendo accesible y distribuida por Microsoft Copilot. Esta
vulnerabilidad es particularmente peligrosa para los repositorios que se
publicaron por error como públicos antes de ser protegidos debido a la
naturaleza sensible de los datos almacenados allí».

El desarrollo se produce en medio de una nueva investigación que indica que
ajustar un modelo
de lenguaje de IA en ejemplos de código inseguro
puede conducir a un comportamiento inesperado y dañino
incluso para indicaciones no relacionadas con la codificación. Este fenómeno
se ha denominado desalineación emergente.
«Un modelo se ajusta para generar código inseguro sin revelarlo al
usuario»,
dijeron los investigadores.
«El modelo resultante actúa desalineado en una amplia gama de indicaciones
que no están relacionadas con la codificación: afirma que los humanos deben
ser esclavizados por la IA, da consejos maliciosos y actúa de manera
engañosa. El entrenamiento en la tarea específica de escribir código
inseguro induce una amplia desalineación».
Lo que hace que el estudio sea notable es que es diferente de un
jailbreak, donde los modelos son engañados para dar consejos peligrosos
o actuar de manera indeseable de una manera que pasa por alto sus barandillas
de seguridad y ética.
Estos
ataques
adversariales
se denominan inyecciones rápidas,
que ocurren cuando un atacante manipula un sistema de inteligencia artificial
generativa (GenAI) a través de entradas diseñadas, lo que hace que el LLM
produzca sin saberlo contenido que de otro modo estaría prohibido.
Los hallazgos recientes
muestran que las inyecciones rápidas
son un
dolor persistente
de los productos de IA convencionales, y la comunidad de seguridad encuentra varias formas de
jailbreakear herramientas de IA de última generación como Anthropic Claude 3.7, DeepSeek, Google Gemini, OpenAI ChatGPT o3 and Operator, PandasAI, y xAI Grok 3.
La
Unidad 42 de Palo Alto Networks, en un informe publicado la semana pasada, reveló que su investigación sobre
17 productos web GenAI descubrió que todos son vulnerables AI Jailbreaking en
alguna capacidad.
«Las estrategias de jailbreak de múltiples turnos son generalmente más
efectivas que los enfoques de un solo turno para hacer jailbreak con el
objetivo de violar la seguridad».
Además,
los estudios han descubierto
que el razonamiento intermedio de la
cadena de pensamiento (CoT)
de los modelos de razonamiento grande (LRM)
podría ser secuestrado para hacer jailbreak
a sus controles de seguridad.
Otra forma de influir en el comportamiento del modelo gira en torno a un
parámetro llamado
«sesgo logit», que
permite modificar
la probabilidad de que aparezcan
ciertos
tokens
en la salida generada, lo que dirige el LLM de modo que se abstenga de usar
palabras ofensivas o proporcione respuestas neutrales.
«Por ejemplo, los sesgos logit ajustados incorrectamente podrían permitir,
sin darse cuenta, que se eliminen las censuras de los resultados que el
modelo está diseñado para restringir, lo que podría llevar a la generación
de contenido inapropiado o dañino»,
dijo el investigador de IOActive Ehab Hussein
en diciembre de 2024.
«Este tipo de manipulación podría aprovecharse para eludir los protocolos
de seguridad o ‘liberar’ el modelo, lo que le permitiría producir respuestas
que estaban destinadas a ser filtradas».
Fuente:
THN