El "secretito sucio" del reconocimiento facial: millones de fotos de Internet extraídas sin consentimiento

Por Olivia Solon

Los rostros de las personas se están utilizando sin su permiso para alimentar
una tecnología que podría utilizarse para vigilarlas, afirman expertos
legales.

El reconocimiento facial permite iniciar sesión en el iPhone, rastrear a los
delincuentes entre la multitud e identificar a los clientes leales en las
tiendas. La tecnología, que es imperfecta pero mejora rápidamente, se basa en
algoritmos que aprenden a reconocer los rostros humanos y los cientos de
aspectos en los que cada uno es único.

Para hacerlo bien, los algoritmos deben recibir cientos de miles de
imágenes de una gran variedad de rostros. Cada vez más, esas fotos proceden
de Internet, donde se recopilan millones de ellas sin que lo sepan las
personas que las publicaron, se clasifican por edad, género, tono de piel y
docenas de otras métricas y se comparten con investigadores de universidades
y empresas.

A medida que los algoritmos se vuelven más avanzados (es decir, que son más
capaces de identificar a mujeres y personas de color, una tarea con la que
históricamente han tenido dificultades), los expertos legales y los defensores
de los derechos civiles están haciendo sonar la alarma sobre el uso que hacen
los investigadores de fotos de personas comunes. Los rostros de estas personas
se están utilizando sin su consentimiento, con el fin de impulsar una
tecnología que podría eventualmente usarse para vigilarlas.

Esto es una preocupación particular para las minorías que podrían ser objeto
de perfiles y ataques, dicen los expertos y defensores.
«Este es el pequeño secreto sucio de los conjuntos de entrenamiento de IA.
Los investigadores a menudo simplemente toman cualquier imagen que esté
disponible en la red», dijo el profesor de la Facultad de Derecho de la Universidad de Nueva York
Jason Schultz.

La última empresa en entrar en este territorio fue IBM, que en enero publicó
una colección de casi
un millón de fotos que se tomaron del sitio de alojamiento de fotos
Flickr
y se codificaron para describir la apariencia de los sujetos. IBM promocionó
la colección a los investigadores como un paso progresivo hacia la reducción
del sesgo en el reconocimiento facial.

Pero algunos de los fotógrafos cuyas imágenes fueron incluidas en el conjunto
de datos de IBM se sorprendieron y desconcertaron cuando NBC News les dijo que
sus fotografías habían sido anotadas con detalles que incluían la geometría
facial y el tono de la piel y que podrían usarse para desarrollar algoritmos
de reconocimiento facial.
NBC News obtuvo el conjunto de datos de IBM
de una fuente después de que la compañía se negara a compartirlo, diciendo que
solo podía ser utilizado por grupos de investigación académicos o
corporativos.

«Ninguna de las personas que fotografié tenía idea de que sus imágenes
estaban siendo utilizadas de esta manera», dijo Greg Peverill-Conti, un ejecutivo de relaciones públicas con sede en
Boston que tiene más de 700 fotos en la colección de IBM, conocida como
«conjunto de datos de entrenamiento».
«Parece un poco sospechoso que IBM pueda usar estas imágenes sin decirle
nada a nadie», dijo.

John Smith, quien supervisa la investigación de IA en IBM, dijo que la
compañía estaba comprometida con
«proteger la privacidad de las personas y trabajará con cualquiera que
solicite que se elimine una URL del conjunto de datos».

A pesar de las garantías de IBM de que los usuarios de Flickr pueden optar por
no formar parte de la base de datos,
NBC News descubrió que es casi imposible conseguir que se eliminen las
fotos.
IBM exige a los fotógrafos que envíen por correo electrónico los enlaces a las
fotos que quieren eliminar, pero la empresa no ha compartido públicamente la
lista de usuarios de Flickr y las fotos incluidas en el conjunto de datos, por
lo que no hay una manera sencilla de averiguar qué fotos están incluidas.

IBM afirma que su conjunto de datos está diseñado para ayudar a los
investigadores académicos a hacer que la tecnología de reconocimiento facial
sea más justa. La empresa no es la única que utiliza fotos disponibles
públicamente en Internet de esta manera.
Docenas de otras organizaciones
de investigación han recopilado fotos para entrenar sistemas de
reconocimiento facial,
y muchas de las colecciones más grandes y recientes han sido extraídas de la
web.

Para ver si sus fotos de Flickr forman parte del conjunto de datos, introduzca
su nombre de usuario en una herramienta que NBC News creó basándose en el conjunto de datos de IBM.

Algunos expertos y activistas sostienen que esto no es solo una violación de
la privacidad de los millones de personas cuyas imágenes han sido recopiladas,
sino que también plantea preocupaciones más amplias sobre la mejora de la
tecnología de reconocimiento facial y el temor de que las agencias de
aplicación de la ley la utilicen para
atacar desproporcionadamente a las minorías. «La gente dio su consentimiento para compartir sus fotos en un ecosistema
de Internet diferente», dijo Meredith Whittaker, codirectora del AI Now Institute, que estudia las
implicaciones sociales de la inteligencia artificial.
«Ahora se les está exigiendo o ignorando que participen en el entrenamiento
de sistemas que podrían usarse de manera opresiva contra sus comunidades».

Cómo ha evolucionado el reconocimiento facial

En los primeros tiempos de la creación de herramientas de reconocimiento
facial, los investigadores pagaban a personas para que acudieran a sus
laboratorios, firmaran formularios de consentimiento y se tomaran fotografías
en diferentes poses y condiciones de iluminación. Como esto era costoso y
requería mucho tiempo, los primeros conjuntos de datos se limitaban a unos
pocos cientos de sujetos.

Con el auge de la web durante la década de 2000, los investigadores de repente
tuvieron acceso a millones de fotografías de personas.

Los académicos suelen apelar a la naturaleza no comercial de su trabajo para
eludir cuestiones de derechos de autor. Flickr se convirtió en un recurso
atractivo para los investigadores de reconocimiento facial porque muchos
usuarios publicaron sus imágenes bajo licencias «Creative Commons», lo que
significa que otros pueden reutilizar sus imágenes sin pagar derechos de
licencia. Algunas de estas licencias permiten el uso comercial.

Para crear su conjunto de datos Diversity in Faces, IBM dice que se basó en
una colección de
100 millones de imágenes
publicadas con licencias Creative Commons que el propietario de Flickr,
Yahoo, publicó en lotes para que los investigadores las descargaran en
2014.
IBM redujo ese conjunto de datos a alrededor de 1 millón de fotos de rostros,
utilizando codificación automatizada y estimaciones humanas, con casi 200
valores para detalles como medidas de rasgos faciales, pose, tono de piel y
edad y género estimados, según el conjunto de datos obtenido por NBC News.

Se trata de un caso de estudio único en un mar de conjuntos de datos extraídos
de la web. Según Google Scholar, se han escrito cientos de artículos
académicos sobre la base de estas enormes colecciones de fotos (que tienen
nombres como
MegaFace,
CelebFaces
y
Faces in the Wild) que han contribuido a grandes avances en la precisión de las herramientas
de reconocimiento y análisis facial. Fue difícil encontrar académicos que
hablaran públicamente sobre los orígenes de sus conjuntos de datos de
entrenamiento; muchos han avanzado en su investigación utilizando colecciones
de imágenes extraídas de la web sin licencia explícita ni consentimiento
informado.

Cómo utiliza IBM la base de datos de rostros

IBM publicó su colección de imágenes anotadas a otros investigadores para que
se pueda utilizar para desarrollar sistemas de reconocimiento facial «más
justos». Eso significa que los sistemas pueden identificar con mayor precisión
a personas de todas las razas, edades y géneros.

«Para que los sistemas de reconocimiento facial funcionen como se desea y
los resultados sean cada vez más precisos, los datos de entrenamiento deben
ser diversos y ofrecer una amplia cobertura»,
dijo John Smith de IBM
en una
publicación de blog
que anunciaba la publicación de los datos.

El conjunto de datos no vincula las fotos de los rostros de las personas con
sus nombres, lo que significa que cualquier sistema entrenado para usar las
fotos no sería capaz de identificar a las personas nombradas. Pero los
defensores de las libertades civiles y los investigadores de la ética
tecnológica todavía han cuestionado los motivos de IBM, que tiene un historial
de venta de herramientas de vigilancia que han sido criticadas por infringir
las libertades civiles.

Por ejemplo, a raíz de los ataques del 11 de septiembre,
la empresa vendió tecnología al departamento de policía
de la ciudad de Nueva York que le permitió buscar en las transmisiones de CCTV
a personas con tonos de piel o color de cabello particulares. IBM también ha
lanzado un producto de «análisis de video inteligente» que utiliza la
vigilancia con cámaras corporales para detectar personas por etiquetas de
«etnia», como asiático, negro o blanco.

IBM dijo en un correo electrónico que los sistemas «no son inherentemente
discriminatorios», pero agregó:
«Creemos que tanto los desarrolladores de estos sistemas como las
organizaciones que los implementan tienen la responsabilidad de trabajar
activamente para mitigar los sesgos. Es la única forma de garantizar que los
sistemas de IA se ganen la confianza de sus usuarios y del público. IBM
acepta plenamente esta responsabilidad y no participaría en trabajos que
impliquen la elaboración de perfiles raciales».

Hoy, la empresa vende un sistema llamado IBM Watson Visual Recognition, que
según IBM puede estimar la edad y el género de las personas representadas en
imágenes y, con los datos de entrenamiento adecuados, puede ser utilizado por
los clientes para
identificar a personas específicas a partir de fotos o videos.

NBC News le preguntó a IBM qué datos de entrenamiento utilizó IBM Watson para
sus capacidades comerciales de reconocimiento facial, señalando una
publicación del blog de la empresa que afirmaba que Watson es
«transparente sobre quién entrena nuestros sistemas de IA, qué datos se
utilizaron para entrenar esos sistemas». La empresa respondió que utiliza
«datos adquiridos de varias fuentes» para entrenar sus modelos de IA,
pero no divulga estos datos públicamente para
«proteger nuestros conocimientos y propiedad intelectual».

IBM dijo, tanto en declaraciones públicas como directamente a NBC News, que el
conjunto de datos Diversity in Faces es puramente para investigación académica
y no se utilizará para mejorar las herramientas comerciales de reconocimiento
facial de la empresa. Esto parece entrar en conflicto con la afirmación que
hizo la empresa en enero en materiales promocionales de que la publicación del
conjunto de datos es una respuesta directa a la investigación de Joy
Buolamwini del MIT que demostró que la tecnología de reconocimiento facial
comercial de IBM era mucho peor para identificar con precisión a las mujeres
de piel más oscura que a los hombres de piel más clara.

Cuando se le preguntó sobre este conflicto, y en particular sobre cómo el
conjunto de datos Diversity in Faces podría tener un impacto en el mundo real
en la reducción del sesgo si IBM no lo usa en productos comerciales de
reconocimiento facial, Smith dijo en un correo electrónico que
«los aprendizajes científicos sobre la diversidad facial harán avanzar
nuestra comprensión y nos permitirán crear sistemas más justos y precisos en
la práctica».

«Reconocemos que el sesgo social no es necesariamente algo que podamos
abordar por completo con la ciencia, pero nuestro objetivo es abordar el
sesgo matemático y algorítmico», dijo Smith.

Los expertos señalan que la distinción entre las ramas de investigación y las
operaciones comerciales de corporaciones como IBM y Facebook es difusa. En
última instancia, IBM es propietaria de cualquier propiedad intelectual
desarrollada por su unidad de investigación.

Incluso cuando los algoritmos son desarrollados por investigadores académicos
utilizando conjuntos de datos no comerciales, esos algoritmos suelen ser
utilizados posteriormente por empresas, dijo Brian Brackeen, ex director
ejecutivo de la empresa de reconocimiento facial Kairos.

Como analogía, dijo,
«piense en ello como el lavado de dinero del reconocimiento facial. Se está
blanqueando la propiedad intelectual y los derechos de privacidad de los
rostros».

Fuente:
NBC News

Ver fuente

ÚLTIMAS NOTICIAS

El "secretito sucio" del reconocimiento facial: millones de fotos de Internet extraídas sin consentimiento

Cómo ha evolucionado el reconocimiento facial

Cómo utiliza IBM la base de datos de rostros

By tecnoreportaje

Noticias destacadas

Rafael Núñez Aponte: 5 Errores Comunes que te Hacen Vulnerable en Ciberseguridad

Netflix y Diseño: Las 7 Series que Despertarán tu Pasión por la Arquitectura y la Decoración

Operación SIMCARTEL: desmantelan plataforma utilizada para SMiShing ~ Segu-Info

Rafael Núñez Aponte: ¿Qué es un SGSI y Por Qué es Esencial para Tu Empresa?

El "secretito sucio" del reconocimiento facial: millones de fotos de Internet extraídas sin consentimiento

Cómo ha evolucionado el reconocimiento facial

Cómo utiliza IBM la base de datos de rostros

By tecnoreportaje

Related Post

Operación SIMCARTEL: desmantelan plataforma utilizada para SMiShing ~ Segu-Info

Los piratas informáticos utilizaron el día cero de Cisco para instalar rootkits en conmutadores de red – Blog EHCGroup

Vulnerabilidad crítica en Samba permite inyección de comandos en controladores de dominio de AD ~ Segu-Info

Noticias destacadas

Rafael Núñez Aponte: 5 Errores Comunes que te Hacen Vulnerable en Ciberseguridad

Netflix y Diseño: Las 7 Series que Despertarán tu Pasión por la Arquitectura y la Decoración

Operación SIMCARTEL: desmantelan plataforma utilizada para SMiShing ~ Segu-Info

Rafael Núñez Aponte: ¿Qué es un SGSI y Por Qué es Esencial para Tu Empresa?