Es posible que haya oído hablar de los ataques de adversarios en relación con la inteligencia artificial y el aprendizaje automático, pero ¿qué son? ¿Cuáles son sus objetivos?
La tecnología a menudo significa que nuestras vidas son más cómodas y seguras. Al mismo tiempo, sin embargo, estos avances han desbloqueado formas más sofisticadas para que los ciberdelincuentes nos ataquen y corrompan nuestros sistemas de seguridad, dejándolos sin poder.
Tanto los profesionales de la ciberseguridad como los ciberdelincuentes pueden utilizar la inteligencia artificial (IA); De manera similar, los sistemas de aprendizaje automático (ML) se pueden usar tanto para el bien como para el mal. Esta falta de brújula moral ha hecho que los ataques adversarios en ML sean un desafío cada vez mayor. Entonces, ¿qué son realmente los ataques adversarios? ¿Cuáles son sus propósitos? ¿Y cómo puedes protegerte contra ellos?
¿Qué son los ataques adversarios en el aprendizaje automático?
El ML adversario o los ataques adversariales son ataques cibernéticos que tienen como objetivo engañar a un modelo ML con entrada maliciosa y, por lo tanto, conducen a una menor precisión y un rendimiento deficiente. Por lo tanto, a pesar de su nombre, el aprendizaje automático antagónico no es un tipo de aprendizaje automático, sino una variedad de técnicas que los ciberdelincuentes, también conocidos como adversarios, utilizan para atacar los sistemas de aprendizaje automático.
El objetivo principal de tales ataques suele ser engañar al modelo para que entregue información confidencial, fallar al detectar actividades fraudulentas, producir predicciones incorrectas o corromper los datos basados en análisis informes. Si bien existen varios tipos de ataques adversarios, con frecuencia se dirigen a la detección de spam basada en el aprendizaje profundo.
Probablemente hayas oído hablar de un ataque de adversario en el medio, que es una técnica de phishing sofisticada nueva y más efectiva que implica el robo de información privada, cookies de sesión e incluso eludir los métodos de autenticación multifactor (MFA). Afortunadamente, puedes combatirlos con tecnología MFA resistente al phishing.
Tipos de ataques adversarios
La forma más sencilla de clasificar los tipos de ataques adversarios es separarlos en dos categorías principales:ataques dirigidos y ataques no dirigidos. Como se sugiere, los ataques dirigidos tienen un objetivo específico (como una persona en particular), mientras que los no dirigidos no tienen a nadie específico en mente: pueden dirigirse a casi cualquier persona. No es sorprendente que los ataques no dirigidos requieran menos tiempo pero también menos éxito que sus contrapartes dirigidas.
Estos dos tipos se pueden subdividir en caja blanca y caja negra ataques adversarios, donde el color sugiere el conocimiento o la falta de conocimiento del modelo de ML objetivo. Antes de profundizar en los ataques de caja blanca y caja negra, echemos un vistazo rápido a los tipos más comunes de ataques adversarios.
- Evasión: Utilizado principalmente en escenarios de malware, los ataques de evasión intentan evadir la detección ocultando el contenido de correos electrónicos infestados de malware y spam. Al utilizar el método de prueba y error, el atacante manipula los datos en el momento de la implementación y corrompe la confidencialidad de un modelo de ML. La suplantación biométrica es uno de los ejemplos más comunes de un ataque de evasión.
- Envenenamiento de datos: también conocidos como ataques contaminantes, tienen como objetivo manipular un modelo ML durante el período de entrenamiento o implementación, y disminuir la precisión y el rendimiento. Al introducir entradas maliciosas, los atacantes interrumpen el modelo y dificultan que los profesionales de seguridad detecten el tipo de datos de muestra que corrompe el modelo de ML.
- fallas bizantinas: Este tipo de ataque provoca la pérdida de un servicio del sistema como consecuencia de un fallo bizantino en sistemas que requieren consenso entre todos sus nodos. Una vez que uno de sus nodos de confianza se vuelve deshonesto, puede lanzar un ataque de denegación de servicio (DoS) y apagar el sistema evitando que otros nodos se comuniquen.
- Extracción de modelo:En un ataque de extracción, el adversario probará un sistema de ML de caja negra para extraer sus datos de entrenamiento o, en el peor de los casos, el propio modelo. Luego, con una copia de un modelo ML en sus manos, un adversario podría probar su malware contra el antimalware/antivirus y descubrir cómo eludirlo.
- Ataques de inferencia: Al igual que con los ataques de extracción, el objetivo aquí es hacer que un modelo de ML filtre información sobre sus datos de entrenamiento. Sin embargo, el adversario intentará averiguar qué conjunto de datos se utilizó para entrenar el sistema, de modo que pueda explotar las vulnerabilidades o sesgos en él.
caja blanca vs. caja negra vs. Ataques adversarios de caja gris
Lo que distingue a estos tres tipos de ataques adversarios es la cantidad de conocimiento que tienen los adversarios sobre el funcionamiento interno de los sistemas ML que planean atacar. Si bien el método de caja blanca requiere información exhaustiva sobre el modelo de aprendizaje automático objetivo (incluido su arquitectura y parámetros), el método de caja negra no requiere información y solo puede observar su salidas.
El modelo de caja gris, por su parte, se sitúa en el medio de estos dos extremos. Según él, los adversarios pueden tener alguna información sobre el conjunto de datos u otros detalles sobre el modelo de ML, pero no todo.
¿Cómo puede defender el aprendizaje automático contra los ataques adversarios?
Si bien los humanos siguen siendo el componente crítico para fortalecer la ciberseguridad,AI y ML han aprendido a detectar y prevenir ataques maliciosos—pueden aumentar la precisión de la detección de amenazas maliciosas, monitorear la actividad del usuario, identificar contenido sospechoso y mucho más. Pero, ¿pueden hacer retroceder los ataques de los adversarios y proteger los modelos de ML?
Una forma en que podemos combatir los ataques cibernéticos es capacitar a los sistemas de ML para que reconozcan los ataques adversarios con anticipación agregando ejemplos a su procedimiento de capacitación.
A diferencia de este enfoque de fuerza bruta, el método de destilación defensiva propone que usemos el modelo primario más eficiente para calcular descubrir las características críticas de un modelo secundario menos eficiente y luego mejorar la precisión del secundario con el primario uno. Los modelos ML entrenados con destilación defensiva son menos sensibles a las muestras adversarias, lo que los hace menos susceptibles a la explotación.
También podríamos modificar constantemente los algoritmos que usan los modelos de ML para la clasificación de datos, lo que podría hacer que los ataques adversarios sean menos exitosos.
Otra técnica notable es la compresión de funciones, que reducirá el espacio de búsqueda disponible para los adversarios al "exprimir" las funciones de entrada innecesarias. Aquí, el objetivo es minimizar los falsos positivos y hacer que la detección de ejemplos contradictorios sea más efectiva.
Protección del aprendizaje automático y la inteligencia artificial
Los ataques de adversarios nos han demostrado que muchos modelos de ML pueden romperse de formas sorprendentes. Después de todo, el aprendizaje automático antagónico sigue siendo un nuevo campo de investigación dentro del ámbito de la ciberseguridad, y conlleva muchos problemas complejos para la IA y el ML.
Si bien no existe una solución mágica para proteger estos modelos contra todos los ataques adversarios, el El futuro probablemente traerá técnicas más avanzadas y estrategias más inteligentes para abordar este terrible adversario.