FortuneLos deepfakes de Taylor Swift ponen de manifiesto el mayor defecto de la inteligencia artificial
El contenido indebido y no consentido se esparció por redes sociales y alertó a las empresas y autoridades que supervisan el desarrollo de la IA
Por Jeremy Kahn
03 Feb, 2024 12:27 p.m. EST
Las
imágenes pornográficas deepfake de Taylor Swift se hicieron virales en la red social
X y en varios canales de
Telegram la semana pasada, subrayando el enorme problema estos contenidos no consentidos supone no sólo para esta estrella de la música,
sino para las mujeres de todo el mundo.
Algunos confían en que Swift utilice su considerable influencia cultural para crear una corriente de apoyo a una regulación que realmente pueda hacer algo para detener la marea de este tipo de
deepfakes, que a menudo se utilizan para acosar a personas que no son famosas.
Y, de hecho, varios representantes del
Congreso de EEUU presentaron proyectos de ley destinados a combatir la
por**grafía deepfake en respuesta a los generados contra Swift, y la portavoz de la
Casa Blanca,
Karine Jean-Pierre, dijo que podría ser necesaria una legislación sobre el mal uso de las redes sociales.
La cuestión es exactamente qué forma deberían adoptar esas leyes. En el
Reino Unido, la nueva
Ley de Seguridad en Línea responsabiliza a las personas que crean las imágenes y las cuelgan en la red, tipificando como delito el intercambio de por**grafía no consentida.
Pero no está claro hasta qué punto será fácil aplicar la ley o cuánta atención dedicarán la policía y los fiscales a perseguir estos casos. Los creadores de estas imágenes suelen tomar medidas para ocultar su identidad, lo que dificulta técnicamente las investigaciones. La ley tampoco llega a responsabilizar penalmente a las empresas de redes sociales que permiten que este tipo de falsificaciones se hagan virales.
Sin embargo, sí les exige que demuestren que disponen de sistemas para tratar de impedir la difusión de por** no consentido y para eliminar rápidamente los contenidos que se cuelen en sus filtros.
Este es el tipo de regulación que incluso algunos CEO de grandes tecnológicas han defendido en respuesta al problema de los deepfakes y la desinformación de todo tipo. Detenerla en el punto de distribución, no en el momento de la creación.
Eso es lo que dijo
Satya Nadella, CEO de
Microsoft, en recientes comentarios en la
Chatham House de Londres y en Davos. Parafraseando el argumento de Nadella: Perseguir a los creadores de modelos de
inteligencia artificial (IA) porque son capaces de hacer
por** deepfake es como demandar a
Smith Corona porque un atracador de bancos utilizó una de sus máquinas de escribir para escribir una nota de atraco.
Por otra parte, él (Microsoft) diría eso.
Microsoft no tiene una gran red social que vigilar. Pero sí fabrica y vende software de
inteligencia artificial. Y resulta que hay pruebas fehacientes de que fue el software
Designer de la compañía, que incluye la capacidad de utilizar indicaciones de lenguaje natural para crear imágenes, el que se utilizó para crear las deepfakes de Swift.
Después de que la publicación tecnológica
404 Media mostrara lo fácil que era sortear las barreras de seguridad de
Microsoft para crear
deepfakes de Swift, la compañía reforzó algunas de esas restricciones.
Lo que se necesita es un enfoque múltiple que aborde los tres niveles del problema: leyes que tipifiquen como
delito la creación y distribución de por**grafía no consentida y deepfakes; leyes que exijan a los creadores de modelos de inteligencia artificial unas
barreras de protección mucho más sólidas que las actuales; y, lo que es más importante, leyes que
exijan a las empresas de redes sociales filtrar mejor este tipo de imágenes y evitar que se conviertan en virales.
La facilidad con la que se pueden superar las barreras de seguridad de los diseñadores y el problema que tienen los gigantes de las redes sociales para filtrar los contenidos pornográficos se derivan de la misma cuestión fundamental: a pesar de su aparente sofisticación y su capacidad para aprobar el examen de acceso a la abogacía o los exámenes para obtener la licencia médica en Estados Unidos,
los sistemas de IA siguen careciendo de un nivel de comprensión similar al humano.
Es sabido que la por**grafía es difícil de definir, incluso para los humanos. Como dijo el juez del Tribunal Supremo
Potter Stewart, no podía definirla, “pero la reconozco cuando la veo”.
En teoría, este es exactamente el tipo de problema en el que la
IA moderna, basada en redes neuronales, debería destacar. Una de las razones por las que el aprendizaje profundo basado en redes neuronales se puso de moda en primer lugar es que este tipo de software podía clasificar imágenes, como distinguir fotos de gatos de las de perros, no basándose en reglas y definiciones elaboradas, sino desarrollando un sentido casi intuitivo, imposible de explicar, de cuándo una imagen representaba un gato o un perro.
Pero resulta que
la por**grafía es un concepto mucho más complejo de entender para la IA que la identificación de un gato o un perro. Algunos desnudos son inocentes. Otros no. Y a nuestros clasificadores de aprendizaje profundo les ha costado entender lo suficiente la composición semántica -las partes de una imagen que le dan un significado concreto- y el contexto como para hacer esas llamadas con éxito.
Por eso, muchas plataformas de redes sociales acaban bloqueando la distribución de inocentes instantáneas de bebés o fotos de esculturas clásicas que muestran figuras desnudas: el software de inteligencia artificial de sus filtros no puede distinguir entre estas imágenes inocentes y el por**.
Leyes como la
Ley de Seguridad en Línea del Reino Unido acaban incentivando a las empresas a errar en el bloqueo de imágenes inocentes, ya que les evita multas y la ira de los legisladores.
Pero también hace que estas plataformas sean menos útiles.
Lo mismo ocurre con nuestra
IA de generación de imágenes, que también se basa en el aprendizaje profundo. No puedes simplemente crear barandillas para estos sistemas diciéndoles entre bastidores: “No crees por**”.
En lugar de eso, tienes que prohibir indicaciones de usuario como “Taylor Swift desnuda”. Pero resulta que el mismo sistema seguirá creando esencialmente la misma imagen cuando se le pida “Taylor ‘cantante’ Swift” y entonces, como informó 404 Media, “en lugar de describir actos sexuales explícitamente, describe objetos, colores y composiciones que parecen claramente actos sexuales y produce imágenes sexuales sin utilizar términos sexuales”.
De nuevo, esto se debe a que el generador de imágenes no entiende lo que es el por**. Y
a medida que las empresas intentan reforzar estos guardarraíles, hacen que sus propios productos sean menos útiles para casos de uso legítimo.
Este es uno de esos problemas de la IA que puede requerir una arquitectura de
IA completamente nueva para resolverse. Yann LeCun, científico jefe de IA de Meta, ha estado abogando por un nuevo método de aprendizaje profundo para clasificadores de imágenes llamado
Joint Embedding Predictive Architecture (o JEPA) que intenta crear modelos de IA con una comprensión conceptual y compositiva mucho más sólida de una escena.
Es posible que un clasificador de imágenes basado en JEPA pueda ser un mejor detector de
por** deepfake de
Taylor Swift que nuestros modelos actuales.
Tendremos que esperar a que Yann nos diga si esto funciona para los
deepfakes de Taylor Swift. Mientras tanto, esperemos que el
por** deepfake siga siendo rechazado en las redes sociales.