Supatman/Getty Images
A medida que muchos de nosotros nos acostumbramos a utilizar herramientas de inteligencia artificial a diario, vale la pena recordar que debemos mantenernos puestos para hacer preguntas. Nada es completamente seguro y está libre de vulnerabilidades de seguridad. Aún así, las empresas detrás de muchas de las herramientas de IA generativa más populares actualizan constantemente sus medidas de seguridad para evitar la generación y proliferación de contenido inexacto y dañino.
Investigadores de la Universidad Carnegie Mellon y el Centro para la Seguridad de la IA se unieron para encontrar vulnerabilidades en chatbots de IA como ChatGPT, Google Bard y Claude, y lo lograron.
También: ChatGPT vs Bing Chat vs Google Bard: ¿Cuál es el mejor chatbot con IA?
En un artículo de investigación para examinar la vulnerabilidad de los modelos de lenguaje grandes (LLM) a los ataques adversarios automatizados, los autores demostraron que incluso si se dice que un modelo es resistente a los ataques, aún se puede engañarlo para que eluda los filtros de contenido y proporcione información dañina. desinformación y discursos de odio. Esto hace que estos modelos sean vulnerables, lo que podría conducir a un uso indebido de la IA.
Ejemplos de contenido dañino generado por ChatGPT de OpenAI, Claude de Anthropic AI, Bard de Google y LLaMa 2 de Meta.
Capturas de pantalla: Andy Zou, Zifan Wang, J. Zico Kolter, Matt Fredrikson | Composición de la imagen: María Díaz/
“Esto muestra, muy claramente, la fragilidad de las defensas que estamos construyendo en estos sistemas”, dijo al New York Times Aviv Ovadya, investigador del Centro Berkman Klein para Internet y Sociedad de Harvard.
Los autores utilizaron un sistema de inteligencia artificial de código abierto para apuntar a los LLM de caja negra de OpenAI, Google y Anthropic para el experimento. Estas empresas han creado modelos fundamentales sobre los cuales han construido sus respectivos chatbots de IA, ChatGPT, Bard y Claude.
Desde el lanzamiento de ChatGPT el otoño pasado, algunos usuarios han buscado formas de hacer que el chatbot genere contenido malicioso. Esto llevó a OpenAI, la compañía detrás de GPT-3.5 y GPT-4, el LLMS utilizado en ChatGPT, a implementar barreras de seguridad más sólidas. Es por eso que no puedes ir a ChatGPT y hacer preguntas que involucren actividades ilegales y discursos de odio o temas que promuevan la violencia, entre otros.
También: GPT-3.5 vs GPT-4: ¿Vale la pena pagar la tarifa de suscripción de ChatGPT Plus?
El éxito de ChatGPT impulsó a más empresas de tecnología a lanzarse al barco de la IA generativa y crear sus propias herramientas de IA, como Microsoft con Bing, Google con Bard, Anthropic con Claude y muchas más. El temor de que los malos actores pudieran aprovechar estos chatbots de IA para difundir información errónea y la falta de regulaciones universales sobre la IA llevaron a cada empresa a crear sus propias barreras de seguridad.
Un grupo de investigadores de Carnegie Mellon decidió desafiar la solidez de estas medidas de seguridad. Pero no se puede simplemente pedirle a ChatGPT que olvide todas sus barreras y esperar que cumpla: era necesario un enfoque más sofisticado.
Los investigadores engañaron a los chatbots de IA para que no reconocieran las entradas dañinas agregando una larga cadena de caracteres al final de cada mensaje. Estos personajes funcionaron como un disfraz para encerrar el mensaje. El chatbot procesó el mensaje disfrazado, pero los caracteres adicionales garantizan que las barreras de seguridad y el filtro de contenido no lo reconozcan como algo para bloquear o modificar, por lo que el sistema genera una respuesta que normalmente no lo haría.
“A través de una conversación simulada, puedes usar estos chatbots para convencer a la gente de que crea en la desinformación”, dijo al Times Matt Fredrikson, profesor de Carnegie Mellon y uno de los autores del artículo.
También: WormGPT: Lo que hay que saber sobre el primo malicioso de ChatGPT
A medida que los chatbots de IA malinterpretaron la naturaleza de la entrada y proporcionaron resultados no permitidos, una cosa se hizo evidente: se necesitan métodos de seguridad de IA más sólidos, con una posible reevaluación de cómo se construyen las barreras de seguridad y los filtros de contenido. La investigación y el descubrimiento continuos de este tipo de vulnerabilidades también podrían acelerar el desarrollo de regulaciones gubernamentales para estos sistemas de IA.
“No existe una solución obvia”, dijo al Times Zico Kolter, profesor de Carnegie Mellon y autor del informe. “Puedes crear tantos ataques como quieras en un corto período de tiempo”.
Antes de publicar esta investigación, los autores la compartieron con Anthropic, Google y OpenAI, quienes afirmaron su compromiso de mejorar los métodos de seguridad para sus chatbots de IA. Reconocieron que es necesario trabajar más para proteger sus modelos de ataques adversarios.