La mayoría de las investigaciones sobre privacidad de la IA apuntan en la dirección equivocada – Blog EHCGroup

La mayoría de las investigaciones sobre la privacidad de los LLM se han centrado en el problema equivocado, según un nuevo artículo de investigadores de la Universidad Carnegie Mellon y la Universidad Northeastern. Los autores argumentan que, si bien la mayoría de los estudios técnicos se centran en la memorización de datos, los mayores riesgos provienen de cómo los LLM recopilan, procesan e infieren información durante su uso habitual.

Una visión estrecha de la investigación sobre la privacidad

El estudio revisó 1322 artículos sobre privacidad en IA y aprendizaje automático publicados entre 2016 y 2025. Encontró que el 92 % se centraba en solo dos áreas: fuga de datos de entrenamiento y protección contra la exposición directa al chat. El 8 % restante abordaba otros riesgos, como ataques de inferencia, fuga de contexto a través de agentes LLM y agregación de datos a gran escala.

Los autores afirman que este desequilibrio deja a las organizaciones sin preparación para violaciones de la privacidad más sutiles, más difíciles de detectar o controlar. Argumentan que el panorama de la privacidad se extiende mucho más allá del entrenamiento de modelos e incluye todas las etapas del ciclo de vida de LLM, desde la recopilación de datos hasta la implementación.

La coautora Niloofar Mireshghallah , profesora adjunta de la Universidad Carnegie Mellon, explicó a Help Net Security que la falta de atención de la investigación en estas áreas se debe a barreras sistémicas más profundas. «Existe un desfase persistente entre la investigación en seguridad y tecnología y el desarrollo de políticas, y estas suelen ir a la zaga de los avances tecnológicos. Esto crea un vacío donde estos riesgos permanecen sin abordar», explicó.

Mireshghallah añadió que también existe un problema cultural dentro de la comunidad de investigación técnica. «El trabajo sobre privacidad que involucra factores humanos a menudo se descarta por no ser técnico o por no merecer atención seria. Muchos tecnólogos consideran estas preocupaciones como un problema ajeno, lo que genera un sesgo negativo donde culpan a los usuarios en lugar de reconocer los problemas de diseño sistémico», afirmó.

Señaló que la investigación sobre privacidad a menudo se realiza de forma aislada, con una escasa interacción entre los campos de la IA, las políticas y la interacción persona-computadora. « Los investigadores de LLM rara vez interactúan con publicaciones de otros ámbitos relevantes, lo que crea silos de conocimiento. Sumado a la falta de incentivos institucionales para realizar este trabajo interdisciplinario, estos factores crean una situación de descuido total ante estos riesgos críticos para la privacidad», afirmó Mireshghallah.

Más allá de la memorización: el nuevo mapa de la privacidad

Los investigadores proponen una taxonomía de cinco categorías de incidentes de privacidad. La primera, y la más estudiada, es la fuga de datos de entrenamiento mediante la regurgitación del texto con el que se entrenó el modelo. La segunda es la fuga directa de chat, que ocurre cuando las conversaciones almacenadas se exponen debido a políticas deficientes o infraestructura comprometida.

Las tres categorías restantes son menos exploradas, pero su importancia está en aumento. Estas incluyen la fuga indirecta de contexto mediante la integración de herramientas o agentes, la inferencia indirecta de atributos, donde los modelos deducen características sensibles a partir de datos ordinarios, y la agregación directa de información pública en perfiles personales detallados.

Estas categorías muestran cómo pueden surgir incidentes de privacidad incluso sin una filtración explícita de datos. Por ejemplo, los modelos pueden inferir la ubicación o los antecedentes de una persona a partir de una imagen o un breve intercambio de texto. Los riesgos de agregación aumentan cuando los sistemas combinan datos públicos de diversas fuentes para responder a preguntas personales detalladas.

Prácticas de recopilación de datos bajo escrutinio

El artículo destaca cómo los ecosistemas LLM actuales recopilan y retienen más datos de los usuarios de lo que muchos creen. Los controles de exclusión voluntaria suelen estar ocultos o ser ineficaces, y las funciones de retroalimentación pueden provocar el almacenamiento de datos a largo plazo incluso para usuarios que creen haber optado por no participar.

Según los investigadores, algunos servicios de LLM almacenan datos de usuarios durante varios años, y los sistemas de retroalimentación o seguridad crean excepciones que permiten la retención más allá de los límites establecidos. Señalan que los requisitos legales o las alertas de seguridad pueden invalidar las solicitudes de eliminación, dejando a muchos usuarios sin control práctico sobre sus datos.

Los autores describen esto como un patrón de «erosión de la privacidad disfrazada de elección», donde las decisiones de diseño y políticas favorecen sistemáticamente la recopilación de datos . Para los CISO, esto resalta la importancia de verificar las prácticas de retención de proveedores y comprender cómo se procesan, identifican y almacenan las interacciones de los usuarios.

Riesgos indirectos para la privacidad derivados de agentes y sistemas de recuperación

El documento también advierte que, a medida que los LLM evolucionan hacia sistemas conectados con capacidades de recuperación y agente, surgen nuevas áreas de ataque a la privacidad. Los sistemas de generación con recuperación aumentada extraen información de bases de datos, API y otras fuentes que pueden contener datos confidenciales o de propiedad exclusiva.

Los agentes autónomos pueden amplificar estos riesgos al combinar permisos, acceder a sistemas externos o malinterpretar la intención del usuario. El estudio señala que, incluso sin agentes maliciosos, los usuarios podrían exponer datos privados sin saberlo, ya que no pueden ver ni controlar cómo un agente recopila o comparte información.

Los autores advierten que es poco realista esperar que los usuarios supervisen estos sistemas por sí mismos. La supervisión humana a menudo no detecta violaciones de la privacidad, especialmente cuando los agentes actúan con rapidez o procesan grandes volúmenes de datos.

Conectando la investigación, la política y la práctica

Mireshghallah afirmó que el camino a seguir requiere un cambio estructural en el diseño de la investigación y las políticas de privacidad. «A nivel de financiación de la investigación, las propuestas de subvención deben exigir explícitamente la colaboración interdisciplinaria en los ámbitos técnico, social y político, con representación de diversos campos científicos como requisito previo para la financiación», afirmó.

También argumentó que se debe impulsar a los reguladores y a las empresas a adoptar marcos basados ​​en incentivos que prioricen la privacidad. «Necesitamos marcos regulatorios que generen fricción en las prácticas de recopilación de datos, obligando a las empresas a justificar la recopilación y la retención según la estricta necesidad de conocer la información. Esto podría ir acompañado de incentivos monetarios para las prácticas que preservan la privacidad y sanciones por infracciones», afirmó.

Los incentivos académicos e industriales, añadió, también deben evolucionar. «Necesitamos reestructurarlos para recompensar el trabajo interdisciplinario que aborde estos desafíos sociotécnicos, en lugar de tratarlos como preocupaciones secundarias».

“Nuestros marcos de privacidad actuales se diseñaron para la rendición de cuentas institucional, no para gestionar los riesgos entre personas que los agentes inteligentes están empezando a amplificar. Ese es el cambio de paradigma que estamos empezando a ver”, afirmó Tianshi Li , profesor adjunto de la Universidad Northeastern y coautor de la investigación.

Un llamado a una mayor rendición de cuentas

El artículo argumenta que la protección de la privacidad no debe depender únicamente de las decisiones individuales de los usuarios. En cambio, los proveedores de LLM y los responsables de la formulación de políticas deberían adoptar mecanismos que hagan explícitas y exigibles las expectativas de privacidad en todos los niveles técnicos y organizativos.

Los hallazgos sugieren que evaluar la privacidad de LLM debería ir más allá de las revisiones estándar de retención y cifrado de datos. Los investigadores animan a las organizaciones a considerar dónde y cómo fluyen los datos a través de los sistemas conectados, cómo se obtiene el consentimiento del usuario y qué sucede cuando este no se otorga.

Fuente y redacción: helpnetsecurity.com / Mirko Zorz

Compartir

Ver fuente

Related Post