La inteligencia artificial puede sonar como el presidente. O puede sonar como tú o yo. Entonces, ¿qué riesgo de ciberseguridad plantea el software de clonación de voz de IA?
La Inteligencia Artificial (IA) es una potente tecnología que promete transformar nuestras vidas. Nunca ha sido tan claro como hoy, cuando las poderosas herramientas están disponibles para cualquier persona con conexión a Internet.
Esto incluye generadores de voz de IA, software avanzado capaz de imitar el habla humana de manera tan competente que puede ser imposible distinguir entre los dos. ¿Qué significa esto para la ciberseguridad?
¿Cómo funcionan los generadores de voz AI?
La síntesis del habla, el proceso de producir el habla humana artificialmente, existe desde hace décadas. Y como toda tecnología, ha sufrido profundos cambios a lo largo de los años.
Aquellos que han usado Windows 2000 y XP pueden recordar a Microsoft Sam, la voz masculina de texto a voz predeterminada del sistema operativo. Microsoft Sam hizo el trabajo, pero los sonidos que producía eran robóticos, rígidos y antinaturales. Las herramientas que tenemos a nuestra disposición hoy en día son considerablemente más avanzadas, en gran parte gracias al aprendizaje profundo.
El aprendizaje profundo es un método de aprendizaje automático que se basa en redes neuronales artificiales. Debido a estas redes neuronales, la IA moderna es capaz de procesar datos casi como las neuronas del cerebro humano interpretan la información. Es decir, cuanto más humana se vuelve la IA, mejor emula el comportamiento humano.
Así es, en pocas palabras, cómo funcionan los generadores de voz de IA modernos. Cuantos más datos de voz estén expuestos, más hábiles se vuelven para emular el habla humana. Debido a los avances relativamente recientes en esta tecnología, el software de texto a voz de última generación puede esencialmente replicar los sonidos que recibe.
Cómo los actores de amenazas utilizan los generadores de voz de IA
Como era de esperar, esta tecnología está siendo abusada por los actores de amenazas. Y no solo ciberdelincuentes en el sentido típico de la palabra, sino también agentes de desinformación, estafadores, black hat marketers y trolls.
En el momento en que ElevenLabs lanzó una versión beta de su software de texto a voz en enero de 2023, los trolls de extrema derecha en el tablero de mensajes 4chan comenzaron a abusar de él. Usando la IA avanzada, reprodujeron las voces de personas como David Attenborough y Emma Watson, haciendo que pareciera que las celebridades estaban lanzando diatribas viles y llenas de odio.
Como Vicio informado en ese momento, ElevenLabs admitió que las personas estaban haciendo un mal uso de su software, en particular, la clonación de voz. Esta característica le permite a cualquiera "clonar" la voz de otra persona; todo lo que necesita hacer es cargar una grabación de un minuto y dejar que la IA haga el resto. Presumiblemente, cuanto más larga sea una grabación, mejor será la salida.
En marzo de 2023, un video viral de TikTok llamó la atención de Los New York Times. En el video, se escuchó al famoso podcaster Joe Rogan y al Dr. Andrew Huberman, un invitado frecuente en The Joe Rogan Experience, hablar sobre una bebida con cafeína que "aumenta la libido". El video hizo que pareciera que tanto Rogan como Huberman respaldaban inequívocamente el producto. En realidad, sus voces fueron clonadas usando IA.
Casi al mismo tiempo, Silicon Valley Bank, con sede en Santa Clara, California, colapsó debido a errores de gestión de riesgos y otros problemas, y fue absorbido por el gobierno estatal. Esta fue la quiebra bancaria más grande en los Estados Unidos desde la crisis financiera de 2008, por lo que envió ondas de choque a los mercados globales.
Lo que contribuyó al pánico fue una grabación de audio falsa del presidente estadounidense Joe Biden. En la grabación, aparentemente se escuchó a Biden advertir sobre un "colapso" inminente y ordenar a su administración que "utilice toda la fuerza de los medios para calmar al público". Verificadores de datos como hechopolitico se apresuraron a desacreditar el clip, pero es probable que millones lo hayan escuchado en ese momento.
Si los generadores de voz de IA se pueden usar para hacerse pasar por celebridades, también se pueden usar para hacerse pasar por personas normales, y eso es exactamente lo que han estado haciendo los ciberdelincuentes. De acuerdo a ZDNet, miles de estadounidenses caen en estafas conocidas como vishing o phishing de voz todos los años. Una pareja de ancianos llegó a los titulares nacionales en 2023 cuando recibieron una llamada telefónica de su "nieto", que decía estar en prisión y pedía dinero.
Si alguna vez subió un video de YouTube (o apareció en uno), participó en una llamada de grupo grande con personas que no sabe, o subió su voz a Internet de alguna manera, usted o sus seres queridos podrían estar teóricamente en peligro. ¿Qué evitaría que un estafador cargue su voz en un generador de IA, la clone y se comunique con su familia?
Los generadores de voz de IA están alterando el panorama de la ciberseguridad
No hace falta ser un experto en ciberseguridad para reconocer lo peligrosa que puede ser la IA en las manos equivocadas. Y si bien es cierto que se puede decir lo mismo de toda la tecnología, la IA es una amenaza única por varias razones.
Por un lado, es relativamente nuevo, lo que significa que realmente no sabemos qué esperar de él. Las modernas herramientas de inteligencia artificial permiten a los ciberdelincuentes escalar y automatizar sus operaciones de una manera sin precedentes, mientras se aprovechan de la relativa ignorancia del público en lo que respecta a este asunto. Además, la IA generativa permite a los actores de amenazas con poco conocimiento y habilidad crear código malicioso, crea sitios fraudulentos, difunde spam, escribe correos electrónicos de phishing, generar imágenes realistasy producir interminables horas de contenido de audio y video falso.
Fundamentalmente, esto funciona en ambos sentidos: la IA también se usa para proteger los sistemas, y probablemente lo será durante las próximas décadas. No sería descabellado suponer que lo que nos espera es una especie de carrera armamentista de IA entre ciberdelincuentes y la industria de la ciberseguridad, ya que las capacidades defensivas y ofensivas de estas herramientas son inherentemente igual.
Para la persona promedio, el advenimiento de la IA generativa generalizada exige un cambio radical repensar las prácticas de seguridad. A pesar de lo emocionante y útil que puede ser la IA, al menos puede desdibujar la línea entre lo que es real y lo que es real. no lo es y, en el peor de los casos, exacerba los problemas de seguridad existentes y crea un nuevo espacio para que los actores de amenazas maniobren en.
Los generadores de voz muestran el potencial destructivo de la IA
Tan pronto como ChatGPT llegó al mercado, se intensificaron las conversaciones sobre la regulación de la IA. Cualquier intento de restringir esta tecnología probablemente requeriría una cooperación internacional en un grado que no hemos visto en décadas, lo que lo hace poco probable.
El genio salió de la botella y lo mejor que podemos hacer es acostumbrarnos. Eso, y esperar que el sector de la ciberseguridad se ajuste en consecuencia.