¿Qué son los ataques adversarios contra los modelos de IA y cómo puede detenerlos?

Los modelos de IA son tan buenos como los datos que contienen. Eso hace que estos datos sean un objetivo potencial para los ataques.

Los avances en inteligencia artificial han tenido una influencia significativa en diferentes campos. Esto ha dado motivo de preocupación a un buen número de entusiastas de la tecnología. A medida que estas tecnologías se expanden a diferentes aplicaciones, pueden dar lugar a un aumento de los ataques de los adversarios.

¿Qué son los ataques adversarios en inteligencia artificial?

Los ataques adversarios aprovechan las especificaciones y vulnerabilidades dentro de los modelos de IA. Corrompen los datos de los que han aprendido los modelos de IA y hacen que estos modelos generen resultados inexactos.

Imagina que un bromista cambia fichas de Scrabble dispuestas como piña para convertirlas en "manzana". Esto es similar a lo que ocurre en los ataques adversarios.

Hace algunos años, obtener algunas respuestas o resultados incorrectos de un modelo de IA era la norma. Lo contrario es el caso ahora, ya que las imprecisiones se han convertido en la excepción, y los usuarios de IA esperan resultados casi perfectos.

instagram viewer

Cuando estos modelos de IA se aplican a escenarios del mundo real, las imprecisiones pueden ser fatales, lo que hace que los ataques de los adversarios sean muy peligrosos. Por ejemplo, las pegatinas en las señales de tráfico pueden confundir a un coche autónomo y hacer que se mueva hacia el tráfico o directamente hacia un obstáculo.

Tipos de ataques adversarios

Hay varias formas de ataques adversarios. Con el aumentar la integración de la IA en las aplicaciones cotidianas, es probable que estos ataques empeoren y se vuelvan más complejos.

No obstante, podemos clasificar aproximadamente los ataques adversarios en dos tipos en función de cuánto sabe el actor de amenazas sobre el modelo de IA.

1. Ataques de caja blanca

En ataques de caja blanca, los actores de amenazas tienen un conocimiento completo del funcionamiento interno del modelo de IA. Conocen sus especificaciones, datos de entrenamiento, técnicas de procesamiento y parámetros. Este conocimiento les permite construir un ataque adversario específicamente para el modelo.

El primer paso en un ataque de caja blanca es cambiar los datos de entrenamiento originales, corrompiéndolos de la forma más mínima posible. Los datos modificados seguirán siendo muy similares a los originales, pero lo suficientemente significativos como para hacer que el modelo de IA proporcione resultados inexactos.

Eso no es todo. Después del ataque, el actor de la amenaza evalúa la eficacia del modelo alimentándolo con ejemplos adversarios:entradas distorsionadas diseñadas para hacer que el modelo cometa erroresy analiza la salida. Cuanto más inexacto sea el resultado, más exitoso será el ataque.

2. Ataques de caja negra

A diferencia de los ataques de caja blanca, donde el actor de amenazas conoce el funcionamiento interno del modelo de IA, los perpetradores de ataques de caja negra No tengo idea de cómo funciona el modelo. Simplemente observan el modelo desde un punto ciego, monitoreando sus valores de entrada y salida.

El primer paso en un ataque de caja negra es seleccionar el objetivo de entrada que el modelo de IA quiere clasificar. Luego, el actor de amenazas crea una versión maliciosa de la entrada agregando ruido cuidadosamente elaborado, perturbaciones a los datos invisibles para el ojo humano pero capaces de hacer que el modelo de IA Funcionamiento defectuoso.

La versión maliciosa se alimenta al modelo y se observa la salida. Los resultados proporcionados por el modelo ayudan al actor de amenazas a seguir modificando la versión hasta que esté lo suficientemente seguro de que clasificará erróneamente los datos que se le introduzcan.

Técnicas utilizadas en los ataques adversarios

Las entidades malintencionadas pueden utilizar diferentes técnicas para llevar a cabo ataques adversarios. Estas son algunas de estas técnicas.

1. Envenenamiento

Los atacantes pueden manipular (envenenar) una pequeña porción de los datos de entrada de un modelo de IA para comprometer sus conjuntos de datos de entrenamiento y su precisión.

Hay varias formas de envenenamiento. Uno de los más comunes se llama envenenamiento de puerta trasera, donde se ven afectados muy pocos datos de entrenamiento. El modelo de IA continúa brindando resultados altamente precisos hasta que se "activa" para que no funcione correctamente al entrar en contacto con desencadenantes específicos.

2. Evasión

Esta técnica es bastante letal, ya que evita la detección al perseguir el sistema de seguridad de la IA.

La mayoría de los modelos de IA están equipados con sistemas de detección de anomalías. Las técnicas de evasión hacen uso de ejemplos adversarios que persiguen directamente a estos sistemas.

Esta técnica puede ser especialmente peligrosa contra sistemas clínicos como coches autónomos o modelos de diagnóstico médico. Estos son campos en los que las imprecisiones pueden tener graves consecuencias.

3. Transferibilidad

Los actores de amenazas que utilizan esta técnica no necesitan un conocimiento previo de los parámetros del modelo de IA. Utilizan ataques adversarios que han tenido éxito en el pasado contra otras versiones del modelo.

Por ejemplo, si un ataque adversario hace que un modelo de clasificador de imágenes confunda una tortuga con un rifle, el ataque exacto podría hacer que otros modelos de clasificador de imágenes cometan el mismo error. Los otros modelos podrían haber sido entrenados en un conjunto de datos diferente e incluso tener una arquitectura diferente, pero aún así podrían ser víctimas del ataque.

4. Subrogación

En lugar de perseguir los sistemas de seguridad del modelo utilizando técnicas de evasión o ataques previamente exitosos, el actor de amenazas podría usar un modelo sustituto.

Con esta técnica, el actor de amenazas crea una versión idéntica del modelo de destino, un modelo sustituto. Los resultados, parámetros y comportamientos de un sustituto deben ser idénticos al modelo original que se ha copiado.

El sustituto ahora estará sujeto a varios ataques adversarios hasta que uno haga que produzca un resultado inexacto o realice una clasificación errónea. Luego, este ataque se usará en la IA objetivo original.

Cómo detener los ataques adversarios

La defensa contra los ataques de los adversarios puede ser compleja y llevar mucho tiempo, ya que los actores de amenazas emplean varias formas y técnicas. Sin embargo, los siguientes pasos pueden prevenir y detener ataques de adversarios.

1. Entrenamiento adversario

El paso más efectivo que puede prevenir los ataques de adversarios es el entrenamiento de adversarios, el entrenamiento de modelos y máquinas de IA utilizando ejemplos de adversarios. Esto mejora la robustez del modelo y le permite ser resistente a las más mínimas perturbaciones de entrada.

2. Auditoría periódica

Es necesario verificar regularmente las debilidades en el sistema de detección de anomalías de un modelo de IA. Esto implica alimentar deliberadamente al modelo con ejemplos adversarios y monitorear el comportamiento del modelo ante la entrada maliciosa.

3. Sanitización de datos

Este método implica verificar si se introducen entradas maliciosas en el modelo. Después de identificarlos, deben ser retirados inmediatamente.

Estos datos se pueden identificar mediante la validación de entrada, lo que implica verificar los datos en busca de patrones o firmas de ejemplos adversarios conocidos previamente.

4. Actualizaciones de seguridad

Sería difícil equivocarse con las actualizaciones y parches de seguridad. Seguridad multicapa como cortafuegos, programas antimalware y sistemas de detección y prevención de intrusos puede ayudar a bloquear la interferencia externa de los actores de amenazas que quieren envenenar un modelo de IA.

Los ataques adversarios podrían ser un adversario digno

El concepto de ataques adversarios presenta un problema para el aprendizaje avanzado y el aprendizaje automático.

Como resultado, los modelos de IA deben estar armados con defensas tales como entrenamiento contradictorio, auditoría regular, desinfección de datos y actualizaciones de seguridad relevantes.

About Technology - denizatm.com