Andrzej Wojcicki/Biblioteca de fotografías científicas vía Getty Images

Cada vez que una nueva tecnología se vuelve popular, es de esperar que alguien intente piratearla. La inteligencia artificial, específicamente la IA generativa, no es diferente. Para afrontar ese desafío, Google creó un “equipo rojo” hace aproximadamente un año y medio para explorar cómo los piratas informáticos podrían atacar específicamente los sistemas de inteligencia artificial.

“No hay una gran cantidad de información sobre amenazas disponible para los adversarios del mundo real que apuntan a sistemas de aprendizaje automático”, dijo a The Register Daniel Fabian, jefe de Google Red Teams, en una entrevista. Su equipo ya ha señalado las mayores vulnerabilidades de los sistemas de inteligencia artificial actuales.

También: Cómo los investigadores descifraron ChatGPT y qué podría significar para el futuro desarrollo de la IA

Algunas de las mayores amenazas a los sistemas de aprendizaje automático (ML), explica el líder del equipo rojo de Google, son los ataques adversarios, el envenenamiento de datos, la inyección rápida y los ataques de puerta trasera. Estos sistemas de aprendizaje automático incluyen aquellos construidos sobre grandes modelos de lenguaje, como ChatGPT, Google Bard y Bing AI.

Estos ataques se denominan comúnmente “tácticas, técnicas y procedimientos” (TTP).

“Queremos gente que piense como un adversario”, dijo Fabián a The Register. “En el espacio del aprendizaje automático, intentamos más bien anticipar hacia dónde irán a continuación los adversarios del mundo real”.

También: La IA ahora puede descifrar su contraseña escuchando los clics de su teclado

El equipo rojo de IA de Google publicó recientemente un informe en el que describieron los TTP más comunes utilizados por los atacantes contra los sistemas de IA.

1. Ataques adversarios a sistemas de IA

Los ataques adversarios incluyen escribir entradas diseñadas específicamente para engañar a un modelo de ML. Esto da como resultado un resultado incorrecto o un resultado que no daría en otras circunstancias, incluidos resultados que el modelo podría estar entrenado específicamente para evitar.

También: ChatGPT responde incorrectamente a más de la mitad de las preguntas sobre ingeniería de software

“El impacto de que un atacante genere con éxito ejemplos contradictorios puede variar desde insignificante hasta crítico, y depende completamente del caso de uso del clasificador de IA”, señaló el informe AI Red Team de Google.

2. IA que envenena los datos

Otra forma común en que los adversarios podrían atacar los sistemas de aprendizaje automático es mediante el envenenamiento de datos, que implica manipular los datos de entrenamiento del modelo para corromper su proceso de aprendizaje, explicó Fabián.

“El envenenamiento de datos se ha vuelto cada vez más interesante”, dijo Fabián a The Register. “Cualquiera puede publicar cosas en Internet, incluidos los atacantes, y pueden publicar sus datos envenenados. Así que nosotros, como defensores, debemos encontrar formas de identificar qué datos potencialmente han sido envenenados de alguna manera”.

También: Zoom está enredado en un lío de privacidad de IA

Estos ataques de envenenamiento de datos incluyen la inserción intencional de datos incorrectos, engañosos o manipulados en el conjunto de datos de entrenamiento del modelo para sesgar su comportamiento y sus resultados. Un ejemplo de esto sería agregar etiquetas incorrectas a las imágenes en un conjunto de datos de reconocimiento facial para manipular el sistema para que identifique erróneamente rostros intencionalmente.

Una forma de prevenir el envenenamiento de datos en los sistemas de IA es asegurar la cadena de suministro de datos, según el informe AI Red Team de Google.

3. Ataques de inyección rápida

Los ataques de inyección rápida en un sistema de inteligencia artificial implican que un usuario inserte contenido adicional en un mensaje de texto para manipular la salida del modelo. En estos ataques, el resultado podría dar lugar a respuestas inesperadas, sesgadas, incorrectas y ofensivas, incluso cuando el modelo esté programado específicamente contra ellas.

También: No estamos preparados para el impacto de la IA generativa en las elecciones

Dado que la mayoría de las empresas de IA se esfuerzan por crear modelos que proporcionen información precisa e imparcial, es clave proteger el modelo de usuarios con intenciones maliciosas. Esto podría incluir restricciones sobre lo que se puede ingresar en el modelo y un seguimiento exhaustivo de lo que los usuarios pueden enviar.

4. Ataques de puerta trasera a modelos de IA

Los ataques de puerta trasera son una de las agresiones más peligrosas contra los sistemas de IA, ya que pueden pasar desapercibidos durante un largo período de tiempo. Los ataques de puerta trasera podrían permitir a un pirata informático ocultar el código en el modelo y sabotear la salida del modelo, pero también robar datos.

“Por un lado, los ataques son muy específicos de ML y requieren mucha experiencia en el tema del aprendizaje automático para poder modificar los pesos del modelo para colocar una puerta trasera en un modelo o realizar ajustes específicos de un modelo para integrar una puerta trasera”, explicó Fabián.

También: Cómo impedir que el nuevo rastreador web de entrenamiento de inteligencia artificial de OpenAI ingiera sus datos

Estos ataques se pueden lograr instalando y explotando una puerta trasera, un punto de entrada oculto que evita la autenticación tradicional, para manipular el modelo.

“Por otro lado, los mecanismos de defensa contra ellos son en gran medida las mejores prácticas de seguridad clásicas, como tener controles contra personas internas maliciosas y bloquear el acceso”, agregó Fabián.

Los atacantes también pueden atacar los sistemas de inteligencia artificial mediante la extracción y exfiltración de datos de entrenamiento.

Equipo rojo de IA de Google

El apodo del equipo rojo, explicó Fabian en una publicación reciente en el blog, se originó en “el ejército y describía actividades en las que un equipo designado desempeñaría un papel adversario (el 'equipo rojo') contra el equipo 'local'”.

“Los equipos rojos tradicionales son un buen punto de partida, pero los ataques a los sistemas de IA se vuelven complejos rápidamente y se beneficiarán de la experiencia en la materia de la IA”, añadió Fabián.

También: ¿Quedó atrapado en la última violación de datos? He aquí cómo descubrirlo

Los atacantes también deben aprovechar el mismo conjunto de habilidades y experiencia en IA, pero Fabian considera que el equipo rojo de IA de Google está por delante de estos adversarios con el conocimiento de IA que ya poseen.

Fabián sigue siendo optimista de que el trabajo que está haciendo su equipo favorecerá a los defensores sobre los atacantes.

“En un futuro próximo, los sistemas y modelos de aprendizaje automático harán que sea mucho más fácil identificar las vulnerabilidades de seguridad”, afirmó Fabián. “A largo plazo, esto favorece absolutamente a los defensores porque podemos integrar estos modelos en nuestros ciclos de vida de desarrollo de software y asegurarnos de que el software que lanzamos no tenga vulnerabilidades en primer lugar”.