IA de texto a imagen: tecnología poderosa y fácil de usar para hacer arte y falsificaciones
Escriba “Osos de peluche trabajando en una nueva investigación de inteligencia artificial en la luna en la década de 1980” en cualquiera de los generadores de imágenes de inteligencia artificial de texto a imagen lanzados recientemente, y después de solo unos segundos, el sofisticado software producirá una imagen inquietantemente pertinente.
Aparentemente limitado solo por su imaginación, esta última tendencia en medios sintéticos ha deleitado a muchos, inspirado a otros y atemorizado a algunos.
Google, la firma de investigación OpenAI y el proveedor de inteligencia artificial Stability AI han desarrollado un generador de imágenes de texto a imagen lo suficientemente potente como para que algunos observadores se pregunten si en el futuro las personas podrán confiar en el registro fotográfico.
Como científico informático que se especializa en análisis forense de imágenes, he estado pensando mucho sobre esta tecnología: de qué es capaz, cómo se ha implementado cada una de las herramientas para el público y qué lecciones se pueden aprender a medida que esta tecnología continúa su trayectoria balística.
Enfoque adversario
Aunque su precursor digital se remonta a 1997, las primeras imágenes sintéticas irrumpieron en escena hace apenas cinco años. En su encarnación original, las denominadas redes generativas antagónicas (GAN) eran la técnica más común para sintetizar imágenes de personas, gatos, paisajes y cualquier otra cosa.
Una GAN consta de dos partes principales: generador y discriminador. Cada uno es un tipo de gran red neuronal, que es un conjunto de procesadores interconectados más o menos análogos a las neuronas.
Con la tarea de sintetizar una imagen de una persona, el generador comienza con una variedad aleatoria de píxeles y pasa esta imagen al discriminador, que determina si puede distinguir la imagen generada de los rostros reales. Si puede, el discriminador proporciona retroalimentación al generador, que modifica algunos píxeles y vuelve a intentarlo. Estos dos sistemas se enfrentan entre sí en un ciclo antagónico. Eventualmente, el discriminador es incapaz de distinguir la imagen generada de las imágenes reales.
Texto a imagen
Justo cuando la gente comenzaba a lidiar con las consecuencias de las falsificaciones profundas generadas por GAN, incluidos los videos que muestran a alguien haciendo o diciendo algo que no hizo, apareció un nuevo jugador en escena: las falsificaciones profundas de texto a imagen.
En esta última encarnación, se entrena a un modelo en un conjunto masivo de imágenes, cada una de ellas subtitulada con una breve descripción de texto. El modelo corrompe progresivamente cada imagen hasta que solo queda ruido visual y luego entrena una red neuronal para revertir esta corrupción. Al repetir este proceso cientos de millones de veces, el modelo aprende a convertir el ruido puro en una imagen coherente a partir de cualquier subtítulo.
Si bien las GAN solo son capaces de crear una imagen de una categoría general, los motores de síntesis de texto a imagen son más potentes. Son capaces de crear casi cualquier imagen, incluidas imágenes que incluyen una interacción entre personas y objetos con interacciones específicas y complejas, por ejemplo, “El presidente de los Estados Unidos quemando documentos clasificados mientras está sentado alrededor de una fogata en la playa durante el atardecer”.
El generador de imágenes de texto a imagen de OpenAI, DALL-E, arrasó en Internet cuando se presentó el 5 de enero de 2021. Una versión beta de la herramienta estuvo disponible para 1 millón de usuarios el 20 de julio de 2022. Usuarios de todo el mundo ha encontrado formas aparentemente infinitas de incitar a DALL-E, produciendo imágenes encantadoras, extrañas y fantásticas.
Sin embargo, una amplia gama de personas, desde informáticos hasta académicos legales y reguladores, han reflexionado sobre los posibles usos indebidos de la tecnología. Las falsificaciones profundas ya se han utilizado para crear pornografía no consentida, cometer fraudes a pequeña y gran escala y promover campañas de desinformación. Estos generadores de imágenes aún más poderosos podrían agregar combustible para aviones a estos usos indebidos.
Tres generadores de imágenes, tres enfoques diferentes
Consciente de los posibles abusos, Google se negó a lanzar su tecnología de texto a imagen. OpenAI adoptó un enfoque más abierto, pero aún cauteloso, cuando inicialmente lanzó su tecnología a solo unos pocos miles de usuarios (incluido yo mismo). También colocaron barandillas en las indicaciones de texto permitidas, que incluyen desnudez, odio, violencia o personas identificables. Con el tiempo, OpenAI amplió el acceso, redujo algunas barreras y agregó más funciones, incluida la capacidad de modificar y editar semánticamente fotografías reales.
Stability AI adoptó un enfoque diferente, optando por un lanzamiento completo de su Stable Diffusion sin barreras en lo que se puede sintetizar. En respuesta a las preocupaciones sobre posibles abusos, el fundador de la compañía, Emad Mostaque, dijo: “En última instancia, es responsabilidad de las personas si son éticos, morales y legales en la forma en que operan esta tecnología”.
Sin embargo, la segunda versión de Stable Diffusion eliminó la capacidad de mostrar imágenes de niños y contenido NSFW porque algunos usuarios habían creado imágenes de abuso infantil. Al responder a las llamadas de censura, Mostaque señaló que debido a que Stable Diffusion es de código abierto, los usuarios pueden volver a agregar estas funciones a su discreción.
El genio está fuera de la botella
Independientemente de lo que piense del enfoque de Google o de OpenAI, Synthesis AI hizo que sus decisiones fueran en gran medida irrelevantes. Poco después del anuncio de código abierto de Synthesis AI, OpenAI redujo sus barreras en la generación de imágenes de personas reconocibles. Cuando se trata de este tipo de tecnología compartida, la sociedad está a merced del mínimo común denominador, en este caso, Synthesis AI.
Synthesis AI se jacta de que su enfoque abierto lucha con la poderosa tecnología de IA lejos de unos pocos, colocándola en manos de muchos. Sospecho que pocos serían tan rápidos en celebrar que un investigador de enfermedades infecciosas publique la fórmula de un virus mortal en el aire creado a partir de ingredientes de cocina, mientras argumentan que esta información debería estar ampliamente disponible. La síntesis de imágenes, por supuesto, no plantea la misma amenaza directa, pero la continua erosión de la confianza tiene graves consecuencias que van desde la confianza de las personas en los resultados de las elecciones hasta la forma en que la sociedad responde a una pandemia global y al cambio climático.
En el futuro, creo que los tecnólogos deberán considerar tanto las ventajas como las desventajas de sus tecnologías y desarrollar estrategias de mitigación antes de que ocurran los daños predecibles. Otros investigadores y yo tendremos que seguir desarrollando técnicas forenses para distinguir las imágenes reales de las falsas. Los reguladores tendrán que empezar a tomarse más en serio cómo estas tecnologías se utilizan como armas contra las personas, las sociedades y las democracias.
Y todos tendrán que aprender a ser más perspicaces y críticos sobre cómo consumen información en línea.
Hany Farid es profesor de la Universidad de California, Berkeley, con un nombramiento conjunto en ingeniería eléctrica y ciencias de la computación y la Escuela de Información.
The Conversation es una fuente independiente y sin fines de lucro de noticias, análisis y comentarios de expertos académicos.
© La conversación