Una simple foto del rostro de una persona puede ser suficiente para que un atacante cree una voz sintética convincente. Un nuevo estudio de la agencia científica nacional de Australia explora esta posibilidad, poniendo a prueba la eficacia de los detectores de deepfakes frente a FOICE (Face-to-Voice), un método de ataque que genera voz a partir de fotografías.
De rostros a voces
Una nueva técnica está revolucionando la creación de deepfakes de voz . En lugar de usar texto o una muestra de voz, genera habla a partir de una foto, estimando cómo sonaría una persona basándose en su rostro. El sistema aprende la relación entre la apariencia y rasgos vocales como el tono y la entonación, y luego produce un habla con esa voz.
Dado que las fotos son mucho más fáciles de encontrar en línea que las grabaciones de voz, este método facilita la suplantación de identidad a gran escala. En las pruebas, logró engañar a WeChat Voiceprint, una función de inicio de sesión por voz utilizada para la autenticación de cuentas, aproximadamente el 30 % de las veces en el primer intento y casi el 100 % después de varios intentos.
Dado que el audio generado carece de los patrones para los que están entrenados los modelos de detección de deepfakes , la mayoría de esos sistemas no lograron reconocerlo como falso.
Prueba de detectores de corriente
Para medir el rendimiento de los detectores, los investigadores crearon un conjunto de datos de habla real y sintética, y probaron cada sistema en tres condiciones de escucha: audio limpio, con ruido y con reducción de ruido. Incluyeron muestras generadas por FOICE y muestras de texto a voz para observar cómo los detectores manejaban métodos conocidos y desconocidos.
Cada modelo se probó primero en su estado original para establecer una base de referencia y, a continuación, se reentrenó utilizando ejemplos generados por FOICE. Esto demostró cómo el ajuste fino específico afectaba al rendimiento y si provocaba una disminución de la precisión con otros tipos de datos falsos.
Se utilizaron miles de muestras, con un equilibrio entre voces reales y sintéticas, para imitar situaciones prácticas como llamadas telefónicas y reuniones en línea .
Los detectores se topan con nuevos ataques de voz de IA
Los investigadores probaron varios detectores populares de deepfakes de voz para comprobar su rendimiento con audio creado con FOICE. Primero midieron el rendimiento de cada sistema de forma individual y, a continuación, los reentrenaron con ejemplos de voces generadas por FOICE para ver si esto mejoraba su eficacia.
En su fase inicial, todos los detectores presentaban dificultades. Los sistemas que funcionan bien con deepfakes tradicionales de conversión de texto a voz o de voz no lograban reconocer el audio creado a partir de fotografías. Algunos marcaban grabaciones auténticas como falsas, mientras que otros pasaban por alto la mayoría de las falsificaciones. El problema radica en que estas herramientas fueron diseñadas para detectar rastros dejados por métodos de síntesis más antiguos, y FOICE no genera esos mismos patrones.
Tras el reentrenamiento con muestras FOICE, la precisión mejoró. Varios modelos funcionaron casi a la perfección con esos datos falsos. Sin embargo, al probar los mismos detectores con otro método de síntesis, su rendimiento volvió a disminuir. Un modelo pasó de una precisión cercana al 40 % a menos del 4 %. Solo un sistema mantuvo la consistencia en ambas pruebas.
Los resultados señalan una limitación. Entrenar detectores para identificar un tipo de falsificación puede empeorar su capacidad para detectar otros. El ajuste fino permite una adaptación rápida, pero conlleva el riesgo de sobreajuste, lo que puede hacer que los sistemas sean demasiado rígidos y menos flexibles ante la aparición de nuevas herramientas de deepfake .
Alcance y limitaciones de la evaluación
Los autores destacaron que sus pruebas no abarcan todos los posibles escenarios de ataque, pero las tendencias apuntan a un problema más amplio en la autenticación y detección de voz . Concluyeron que el sector necesita conjuntos de datos más extensos, nuevos métodos de entrenamiento y modelos capaces de identificar voces sintéticas generadas a partir de entradas no tradicionales.
También solicitaron que se ampliaran las pruebas con múltiples generadores y en entornos reales. Los estudios futuros deberían explorar el rendimiento de los detectores con diferentes vocoders, condiciones de los dispositivos y acondicionamiento basado en vídeo. El objetivo, según indicaron, es ir más allá del ajuste reactivo y avanzar hacia defensas proactivas capaces de reconocer nuevos patrones de síntesis antes de que aparezcan en entornos reales.
Fuente y redacción: helpnetsecurity.com

