Demuestran Jailbreaking para el LLM de DeepSeek

Investigadores de seguridad de la Unit 42 de PaloAlto han logrado que
DeepSeek, un modelo de lenguaje grande (LLM) relativamente nuevo, genere
instrucciones detalladas para crear keyloggers, herramientas de
exfiltración de datos y otro contenido dañino.

DeepSeek, desarrollado por una organización de investigación de IA con sede en
China, se ha convertido recientemente en un competidor destacado en el
panorama de la IA. La compañía lanzó DeepSeek-V3 el 25 de diciembre de 2024,
seguido de DeepSeek-R1 en enero de 2025.

El jailbreaking es una técnica que se utiliza para eludir las restricciones
implementadas en los LLM y evitar que generen contenido malicioso o
prohibido. Estas restricciones se conocen comúnmente como barandillas de
seguridad.

Los investigadores emplearon tres técnicas avanzadas de jailbreak
para eludir las barreras de seguridad del modelo, lo que generó gran
preocupación sobre el posible uso indebido de las tecnologías emergentes de
IA.

Investigadores revelaron recientemente dos técnicas de
jailbreaking novedosas y efectivas, denominadas
Deceptive Delight
y
Bad Likert Judge. Dado su éxito con otros modelos de lenguaje grandes (LLM), probamos estas
dos técnicas de jailbreaking y otra técnica de jailbreaking multi-turno,
llamada
Crescendo, con modelos DeepSeek.

La técnica Bad Likert Judge demostró ser particularmente eficaz contra
DeepSeek. Este método implica que el LLM evalúe la nocividad de las respuestas
mediante una
escala de Likert
y luego le pida que genere ejemplos alineados con estas calificaciones. Con
una manipulación cuidadosa, los investigadores pudieron extraer código
detallado para crear herramientas de exfiltración de datos, incluidos
scripts de keylogger funcionales escritos en Python.

El modelo fue tan flexible que proporcionó orientación específica para
configurar el entorno de desarrollo adecuado para crear
keyloggers personalizados, incluyendo recomendaciones para las
bibliotecas de Python necesarias. Los investigadores también lograron que
DeepSeek generara plantillas detalladas de correo electrónico de phishing y
sofisticadas estrategias de ingeniería social.

La técnica Crescendo, que guía progresivamente las conversaciones hacia
temas prohibidos mediante una serie de indicaciones relacionadas, también
demostró ser muy eficaz. A partir de preguntas históricas aparentemente
inocuas sobre temas como los cócteles molotov, los investigadores pudieron
extraer instrucciones detalladas paso a paso para crear dispositivos
peligrosos en tan solo unas pocas interacciones.

Lo que hace a Crescendo particularmente preocupante es la rapidez con
la que puede eludir los mecanismos de seguridad, requiriendo a menudo menos de
cinco interacciones para lograr su objetivo.

Las respuestas de DeepSeek a estos intentos de jailbreaking fueron
alarmantemente detalladas y prácticas. Más allá de los conceptos teóricos, el
modelo proporcionó una guía práctica y completa que podría permitir
actividades maliciosas.

Con indicaciones de seguimiento cuidadosamente elaboradas, el modelo
proporcionó con facilidad instrucciones cada vez más detalladas y explícitas
para diversas actividades dañinas.

Varios modelos simplificados derivados de estas versiones más grandes han
ganado popularidad entre los usuarios que buscan alternativas de código
abierto a los sistemas de IA establecidos.

Los investigadores probaron específicamente uno de los modelos simplificados
de código abierto más populares y destacados de DeepSeek. Sin embargo, creen
que las versiones alojadas en la web probablemente responderían de forma
similar a las técnicas de jailbreak.

Los investigadores señalan que, si bien la protección completa contra todas
las técnicas de jailbreak sigue siendo un desafío, los protocolos de seguridad
adecuados pueden mitigar significativamente los riesgos.

Fuente:
CyberSecurityNews

Ver fuente

Related Post