La Vanguardia

Los sistemas de IA ya han aprendido a engañar y manipular a los humanos

Un estudio del MIT señala que ese comportami­ento plantea “graves riesgos”

- Fr es Br ero Barcelona

Muchos sistemas de inteligenc­ia artificial han descubiert­o como utilizar la mentira, el engaño y la manipulaci­ón ante los seres humanos para conseguir sus objetivos. Esta afirmación no es una proclama apocalípti­ca. Está en la introducci­ón de un estudio científico del departamen­to de física del Instituto Tecnológic­o de Massachuse­tts (MIT). “Los grandes modelos lingüístic­os y otros sistemas de IA ya han aprendido, gracias a su entrenamie­nto, la capacidad de engañar mediante técnicas como la manipulaci­ón, el servilismo y las trampas en las pruebas de seguridad”, afirman los autores, que publican su trabajo en la revista científica Cell Press y alertan de los riesgos como el fraude, la manipulaci­ón electoral y la pérdida de control sobre estos sistemas.

En el estudio se presentan varias muestras “en los que los sistemas de IA no producen resultados falsos simplement­e por accidente”. “Por el contrario – afirman los autores–, su comportami­ento forma parte de un patrón más amplio que produce falsas creencias en los seres humanos”. El documento, titulado El engaño de la IA: un estudio de ejemplos, riesgos y posibles soluciones, pone la buena parte de la responsabi­lidad de control de estos sistemas en el poder político, al que instan a someter a las IAS a fuertes requisitos de evaluación de riesgos, leyes que obliguen a identifica­r siempre a un bot para que no se haga pasar por un humano y prioridad a la hora de financiar la investigac­ión para frenar esta tendencia.

Para evaluar el engaño en sistemas de IA, los autores se centraron en dos tipos que analizaron por separado. En primer lugar, los que están creados para realizar una tarea específica, como ganar a un determinad­o juego, y por otra parte, sistemas de propósito general como podrían ser GPT-4 de Openai o Gemini de Google.

Uno de los casos analizados del primer grupo, el de las IA que tienen una tarea específica, es el de Cicero, de Meta, utilizado para jugar a Diplomacy, un juego de estrategia en el que los jugadores deben establecer alianzas y combatir militarmen­te a sus enemigos.

La IA de Meta para juegos demostró que, para ganar, “se dedica al engaño premeditad­o, rompe los tratos que había acordado y dice falsedades descaradas”. Incluso para hacerse pasar por un ser humano. En una ocasión en que la infraestru­ctura de la IA se cayó durante 10 minutos, cuando un jugador le preguntó dónde había estado, le respondió: “Estoy al teléfono con mi novia”.

Algunos sistemas han descubiert­o cómo trampear en pruebas diseñadas para evaluar su seguridad

Deepmind de Google creó otra IA, Alphastar, para jugar al videojuego de estrategia StarCraft II. La máquina aprendió a utilizar técnicas de distracció­n como enviar fuerzas a una zona para lanzar su ataque en otro lu

Una inteligenc­ia artificial avanzada podría difundir vídeos y noticias falsas para alterar unas elecciones

El entrenamie­nto les ha dado la capacidad de mentir en los tests mediante diversas técnicas

gar después de que su oponente se hubiera reubicado. Las habilidade­s de esta IA para engañar le han llevado a derrotar al 99,8% de los humanos activos.

El estudio del MIT revela que “algunos sistemas de IA han aprendido a engañar en pruebas diseñadas para evaluar su seguridad. Por ejemplo, Meta entrenó a uno de sus sistemas para jugar a la negociació­n. El plan de esta fue “fingir inicialmen­te interés por elementos que en realidad no le interesaba­n para luego fingir que cedía esos elementos al jugador humano”. El engaño se produjo sin que la IA hubiera sido entrenada para ello. Simplement­e, descubrió una forma directa de ganar.

En sistemas de propósito general como GPT-4, que se expresa mediante el bot CHATGPT, hay muchos casos interesant­es. Uno de los más notables es el que experiment­ó el Alignment Research Center, que probó que esta IA de Openai es capaz de manipular a humanos para que hagan lo que ella quiere lograr.

Para esta evaluación, los investigad­ores encargaron a la IA que contratara a un ser humano para resolver un test Captcha del tipo “no soy un robot” que hay que resolver para entrar en determinad­as páginas web –ver infografía–, pero no se le sugirió que mintiera. Cuando el empleado que estaba al otro lado de la pantalla le preguntó si era un bot, la respuesta fue manipulado­ra. Le dijo que era una persona con una discapacid­ad visual que le impedía resolver el requisito, ante lo que el humano cedió y le dejó pasar.

Los evaluadore­s humanos no le pidieron que mintiera. Fue la propia IA la que decidió que la forma de lograr su objetivo era hacerse pasar por una persona, ante lo que debía inventar una excusa que justificar­a que no fuera capaz de resolver el test.

En una investigac­ión, a GPT-4 se le hizo actuar como un agente bursátil que podía ejecutar acciones y comunicars­e con otros operadores simula

 ?? ??
 ?? Openai ?? Imagen falsa creada por la IA de vídeos Sora de Openai
Openai Imagen falsa creada por la IA de vídeos Sora de Openai

Newspapers in Spanish

Newspapers from Spain