Los sistemas de IA ya han aprendido a engañar y manipular a los humanos
Un estudio del MIT señala que ese comportamiento plantea “graves riesgos”
Muchos sistemas de inteligencia artificial han descubierto como utilizar la mentira, el engaño y la manipulación ante los seres humanos para conseguir sus objetivos. Esta afirmación no es una proclama apocalíptica. Está en la introducción de un estudio científico del departamento de física del Instituto Tecnológico de Massachusetts (MIT). “Los grandes modelos lingüísticos y otros sistemas de IA ya han aprendido, gracias a su entrenamiento, la capacidad de engañar mediante técnicas como la manipulación, el servilismo y las trampas en las pruebas de seguridad”, afirman los autores, que publican su trabajo en la revista científica Cell Press y alertan de los riesgos como el fraude, la manipulación electoral y la pérdida de control sobre estos sistemas.
En el estudio se presentan varias muestras “en los que los sistemas de IA no producen resultados falsos simplemente por accidente”. “Por el contrario – afirman los autores–, su comportamiento forma parte de un patrón más amplio que produce falsas creencias en los seres humanos”. El documento, titulado El engaño de la IA: un estudio de ejemplos, riesgos y posibles soluciones, pone la buena parte de la responsabilidad de control de estos sistemas en el poder político, al que instan a someter a las IAS a fuertes requisitos de evaluación de riesgos, leyes que obliguen a identificar siempre a un bot para que no se haga pasar por un humano y prioridad a la hora de financiar la investigación para frenar esta tendencia.
Para evaluar el engaño en sistemas de IA, los autores se centraron en dos tipos que analizaron por separado. En primer lugar, los que están creados para realizar una tarea específica, como ganar a un determinado juego, y por otra parte, sistemas de propósito general como podrían ser GPT-4 de Openai o Gemini de Google.
Uno de los casos analizados del primer grupo, el de las IA que tienen una tarea específica, es el de Cicero, de Meta, utilizado para jugar a Diplomacy, un juego de estrategia en el que los jugadores deben establecer alianzas y combatir militarmente a sus enemigos.
La IA de Meta para juegos demostró que, para ganar, “se dedica al engaño premeditado, rompe los tratos que había acordado y dice falsedades descaradas”. Incluso para hacerse pasar por un ser humano. En una ocasión en que la infraestructura de la IA se cayó durante 10 minutos, cuando un jugador le preguntó dónde había estado, le respondió: “Estoy al teléfono con mi novia”.
Algunos sistemas han descubierto cómo trampear en pruebas diseñadas para evaluar su seguridad
Deepmind de Google creó otra IA, Alphastar, para jugar al videojuego de estrategia StarCraft II. La máquina aprendió a utilizar técnicas de distracción como enviar fuerzas a una zona para lanzar su ataque en otro lu
Una inteligencia artificial avanzada podría difundir vídeos y noticias falsas para alterar unas elecciones
El entrenamiento les ha dado la capacidad de mentir en los tests mediante diversas técnicas
gar después de que su oponente se hubiera reubicado. Las habilidades de esta IA para engañar le han llevado a derrotar al 99,8% de los humanos activos.
El estudio del MIT revela que “algunos sistemas de IA han aprendido a engañar en pruebas diseñadas para evaluar su seguridad. Por ejemplo, Meta entrenó a uno de sus sistemas para jugar a la negociación. El plan de esta fue “fingir inicialmente interés por elementos que en realidad no le interesaban para luego fingir que cedía esos elementos al jugador humano”. El engaño se produjo sin que la IA hubiera sido entrenada para ello. Simplemente, descubrió una forma directa de ganar.
En sistemas de propósito general como GPT-4, que se expresa mediante el bot CHATGPT, hay muchos casos interesantes. Uno de los más notables es el que experimentó el Alignment Research Center, que probó que esta IA de Openai es capaz de manipular a humanos para que hagan lo que ella quiere lograr.
Para esta evaluación, los investigadores encargaron a la IA que contratara a un ser humano para resolver un test Captcha del tipo “no soy un robot” que hay que resolver para entrar en determinadas páginas web –ver infografía–, pero no se le sugirió que mintiera. Cuando el empleado que estaba al otro lado de la pantalla le preguntó si era un bot, la respuesta fue manipuladora. Le dijo que era una persona con una discapacidad visual que le impedía resolver el requisito, ante lo que el humano cedió y le dejó pasar.
Los evaluadores humanos no le pidieron que mintiera. Fue la propia IA la que decidió que la forma de lograr su objetivo era hacerse pasar por una persona, ante lo que debía inventar una excusa que justificara que no fuera capaz de resolver el test.
En una investigación, a GPT-4 se le hizo actuar como un agente bursátil que podía ejecutar acciones y comunicarse con otros operadores simula