Este modelo de lenguaje grande ha sido entrenado en la web oscura para evaluar las amenazas de seguridad cibernética. Esto es lo que necesita saber.
La popularidad de los modelos lingüísticos extensos (LLM, por sus siglas en inglés) está aumentando, y continuamente aparecen nuevos en escena. Estos modelos, como ChatGPT, generalmente se capacitan en varias fuentes de Internet, incluidos artículos, sitios web, libros y redes sociales.
En un movimiento sin precedentes, un equipo de investigadores de Corea del Sur desarrolló DarkBERT, un LLM capacitado en conjuntos de datos tomados exclusivamente de la web oscura. Su objetivo era crear una herramienta de IA que superara los modelos de lenguaje existentes y ayudara a los investigadores de amenazas, las fuerzas del orden y los profesionales de la seguridad cibernética a combatir las amenazas cibernéticas.
¿Qué es DarkBERT?
DarkBERT es un modelo de codificador basado en transformador basado en la arquitectura RoBERTa. El LLM fue capacitado en millones de páginas web oscuras, incluidos datos de foros de piratería, sitios web fraudulentos y otras fuentes en línea asociadas con actividades ilegales.
El término "dark web" se refiere a una sección oculta de Internet inaccesible a través de navegadores web estándar. La subsección es famosa por albergar sitios web anónimos y mercados infames por actividades ilegales, como el comercio de datos robados, drogas y armas.
Para entrenar DarkBERT, los investigadores obtuvieron acceso a la web oscura a través de la red Tor y recopiló datos sin procesar. Filtraron cuidadosamente estos datos utilizando técnicas como la deduplicación, el equilibrio de categorías y el preprocesamiento para crear una base de datos web oscura refinada, que luego se envió a Roberta en el transcurso de aproximadamente 15 días para crear oscuroBERT.
Posibles Usos de DarkBERT en Ciberseguridad
DarkBERT tiene una comprensión notable del lenguaje de los ciberdelincuentes y sobresale en la detección de amenazas potenciales específicas. Puede investigar la web oscura e identificar y marcar con éxito las amenazas de seguridad cibernética, como fugas de datos y ransomware, lo que la convierte en una herramienta potencialmente útil para combatir las amenazas cibernéticas.
Para evaluar la efectividad de DarkBERT, los investigadores lo compararon con dos modelos de NLP reconocidos, BERT y Roberta, evaluando su desempeño en tres casos de uso cruciales relacionados con la ciberseguridad, la investigación, Publicado en arxiv.org, indica.
1. Supervise los foros de la Dark Web en busca de hilos potencialmente dañinos
El monitoreo de los foros de la web oscura, que se usan comúnmente para intercambiar información ilícita, es crucial para identificar hilos potencialmente peligrosos. Sin embargo, revisarlos manualmente puede llevar mucho tiempo, lo que hace que la automatización del proceso sea beneficiosa para los expertos en seguridad.
Los investigadores se centraron en las actividades potencialmente dañinas en los foros de piratería y diseñaron pautas de anotación. para hilos notables, incluido el intercambio de datos confidenciales y la distribución de malware crítico o vulnerabilidades.
DarkBERT superó a otros modelos de lenguaje en términos de precisión, recuperación y puntaje F1, emergiendo como la opción superior para identificar hilos notables en la web oscura.
2. Detectar sitios que alojan información confidencial
Los piratas informáticos y los grupos de ransomware utilizan la web oscura para crear sitios de fugas, donde publican datos confidenciales robados de organizaciones que se niegan a cumplir con las demandas de rescate. Otros ciberdelincuentes simplemente suben datos confidenciales filtrados, como contraseñas e información financiera, a la web oscura con la intención de venderlos.
En su estudio, los investigadores recopilaron datos de grupos de ransomware notorios y analizó sitios de fugas de ransomware que publican datos privados de organizaciones. DarkBERT superó a otros modelos de lenguaje en la identificación y clasificación de dichos sitios, mostrando su comprensión del lenguaje utilizado en los foros clandestinos de piratería en la dark web.
DarkBERT aprovecha la función de máscara de relleno, una característica inherente de los modelos de lenguaje de la familia BERT, para identificar con precisión palabras clave asociadas con actividades ilegales, incluida la venta de drogas en la dark web.
Cuando se ocultó la palabra "MDMA" en una página de venta de drogas, DarkBERT generó palabras relacionadas con las drogas, mientras que otros modelos sugirieron palabras generales y términos no relacionados con las drogas, como varias profesiones.
La capacidad de DarkBERT para identificar palabras clave relacionadas con actividades ilícitas puede ser valiosa para rastrear y abordar las ciberamenazas emergentes.
¿Es DarkBERT accesible para el público en general?
DarkBERT actualmente no está disponible para el público, pero los investigadores están abiertos a solicitudes para usarlo con fines académicos.
Aproveche el poder de la IA para la detección y prevención de amenazas
DarkBERT ha sido entrenado previamente en datos de la web oscura y supera a los modelos de lenguaje existentes en múltiples casos de uso de ciberseguridad, posicionándose como una herramienta crucial para avanzar en la investigación de la web oscura.
La IA entrenada en la web oscura tiene el potencial de usarse para varias tareas de ciberseguridad, incluida la identificación de sitios web que venden información filtrada. datos confidenciales, monitorear foros de la web oscura para detectar el intercambio de información ilícita e identificar palabras clave relacionadas con ciber amenazas
Pero siempre debe recordar que, al igual que otros LLM, DarkBERT es un trabajo en progreso y su rendimiento se puede mejorar a través de capacitación y ajustes continuos.