La detección de frases es solo una parte del proceso.

Gritar "Ok Google" desde el otro lado de la habitación para cambiar la música o apagar las luces en una habitación seguro que se siente increíble, pero este proceso aparentemente simple está impulsado por una complicada red de tecnologías que trabajan detrás de la escenas

Casi todos los principales asistentes virtuales del mercado tienen una frase de llamada que utiliza para despertar al asistente y tener una conversación. Pero, ¿cómo saben los asistentes de voz cuando les estás hablando?

¿Cómo funciona la detección de frases?

Como se mencionó anteriormente, cada asistente de voz tiene una "frase de activación" o palabra de activación que usa para despertar al asistente y dar más comandos. El proceso de detección de esta frase es más o menos el mismo con todos los asistentes, salvo pequeños matices. Dicho esto, estos matices pueden significar la diferencia entre decir casualmente el comando de despertar y gritarlo varias veces. veces solo para que el asistente siga durmiendo, algo que puede ser muy molesto en ocasiones, especialmente si estás

instagram viewer
usar su asistente de voz para ayudar a calmarse.

Crédito de la imagen: estudio de gráficos /Vecteezy

En general, la mayoría de los altavoces "inteligentes" tienen un pequeño circuito cuyo único trabajo es detectar el comando de activación y luego poner en acción el resto del hardware. La mayor parte del procesamiento se realiza en la nube, pero la detección de frases se realiza en el dispositivo por razones obvias de privacidad. La detección de frases en los teléfonos funciona más o menos de la misma manera.

Los detalles son en su mayoría secretos, pero estos sistemas de detección usan aprendizaje automático y redes neuronales profundas (DNN) para entrenar modelos de IA para detectar su voz y formar una clave. Luego, esta clave se usa para verificar cuándo ha dicho una frase en particular, y todo lo demás se envía a la nube para su posterior procesamiento.

Asistente de Google

Los teléfonos que admiten la detección de "OK Google" generalmente vienen con un sistema de detección de palabras clave (KWS) que detecta la frase y luego envía el resto de su consulta a la nube. Dado que los dispositivos móviles tienen una potencia informática limitada, así como restricciones de duración de la batería, estos sistemas no suelen ser tan buenos como los que encontraría en los altavoces Google Nest.

Este sistema KWS integrado en el dispositivo recoge continuamente el audio de los micrófonos del dispositivo e inicia una conexión con el servidor cuando detecta una frase desencadenante. Google también utiliza el reconocimiento de voz automático contextual (ASR) del lado del servidor para mejorar la precisión general de su sistema KWS. Puedes leer más al respecto en trabajo de investigación de Google [PDF].

Siri

Siri funciona igual que el Asistente de Google con respecto a la detección de "Hey Siri". Apple ha sido sorprendentemente abierta sobre cómo funciona el sistema, que involucra un reconocedor de voz "muy pequeño" que se ejecuta en segundo plano y escucha solo esas dos palabras. Este detector utiliza un DNN para convertir el patrón acústico de su voz grabado en cada caso en una distribución de probabilidad sobre los sonidos del habla, generando esencialmente una puntuación de confianza.

Su iPhone o Apple Watch hace esto al cambiar su voz en un flujo de muestras de forma de onda a una velocidad de 16 000 por segundo. Esto luego se reduce a una secuencia de fotogramas que cubren un espectro de sonido de aproximadamente 0,01 segundos. Luego, un total de 20 de estos marcos se envían al modelo de detección, que convierte estos patrones en una probabilidad.

Credito de imagen: Manzana

Si el sistema determina con suficiente confianza que dijiste "Oye, Siri", Siri se despierta y envía el resto de la consulta a la nube, donde se lleva a cabo un análisis más detallado y se obtiene cualquier acción que haya solicitado. realizado.

Por supuesto, se han agregado medidas adicionales para garantizar la eficiencia de la memoria y la batería. El procesador siempre activo (AOP) de su iPhone tiene acceso a los micrófonos del dispositivo (en iPhone 6S y posteriores) por este mismo motivo, y una pequeña parte de su potencia de procesamiento está reservada para ejecutar el DNN. Apple se sumerge profundamente en todo el sistema en su sitio web de aprendizaje automático, aprendizaje automático.apple.

Alexa

Al igual que el Asistente de Google y Siri, Alexa tampoco alberga la mayor parte de su potencia de procesamiento en ninguno de los altavoces Echo que puede comprar. En cambio, los altavoces usan lo que Amazon llama Reconocimiento automático de voz (ASR), que esencialmente convierte las palabras habladas en texto, lo que permite que el sistema subyacente las interprete y actúe en consecuencia.

ASR forma la base básica de cómo funciona Alexa. Una vez más, hay un sistema integrado que escucha las palabras de activación, en este caso, "Alexa", "Amazon", "Echo" o "Computadora" y activa el resto del sistema cuando se activa la palabra de activación predeterminada por el usuario. detectado. Tu puedes incluso despierta tu dispositivo Alexa usando "Hey Disney" si quieres.

Al igual que el Asistente de Google, puede entrenar el modelo de IA subyacente de Alexa para detectar mejor su voz. Este proceso implica la creación de una "clave" de referencia con la que se compara la palabra de activación pronunciada y, cuando se encuentra una coincidencia, el dispositivo responde en consecuencia.

¿Los asistentes de voz siempre escuchan?

Como probablemente ya puedas adivinar, sí, lo son. De lo contrario, no hay forma de que puedan detectar las palabras de activación. Sin embargo, todavía no es necesario que deseche todos sus altavoces inteligentes debido a problemas de privacidad.

Escuchar todo lo que dicen los usuarios, enviarlo de vuelta a un servidor remoto y analizarlo (o almacenarlo) requiere enormes recursos de hardware y financieros hasta el punto en que no tiene sentido desde un punto de vista práctico perspectiva. Agregue a esto las preocupaciones de privacidad masivas que empresas como Google, Apple y Amazon ya enfrentan, y la idea no tiene sentido.

Esto también afecta enormemente el rendimiento de los teléfonos y la duración de la batería con funciones de detección de palabras de activación, sobre todo Google Pixels y iPhones. Si su teléfono escucha continuamente lo que está diciendo y envía ese audio a un servidor remoto, gastará su batería y afectará el rendimiento del dispositivo.

¿Quién tiene la detección de frases más eficiente y por qué?

No es fácil comparar objetivamente qué asistente virtual tiene la mejor detección de frases, ya que todos usan implementaciones ligeramente diferentes del mismo concepto general. Sin embargo, Google parece tener una detección de frases más consistente debido a la ventaja inicial del Asistente de Google en comparación con Siri y Alexa.

A pesar de que las aplicaciones que usan modelos de lenguaje extenso (LLM) como ChatGPT y Bing Chat se están generalizando, el Asistente de Google mantiene su posición como una de las más asistentes virtuales populares simplemente porque está a un toque de distancia en todos los dispositivos Android, desde televisores inteligentes hasta sistemas estéreo para automóviles y, por supuesto, teléfonos inteligentes.

Siri y Alexa tienen que ponerse al día en ese departamento, pero en lo que respecta a la detección de frases, no están tan lejos. Aún así, tendrá más posibilidades de activar el Asistente de Google en su Pixel desde el otro lado de la habitación que con Siri en su iPhone, aunque puede aumenta las capacidades de Siri con el modo Super Siri. Dado que Alexa se usa principalmente en la línea de parlantes Echo de Amazon, aquí tiene una ligera ventaja, considerando que estos parlantes están diseñados para poder captar la voz del usuario.

La IA es tan espeluznante como conveniente

Invocar a su asistente de IA solo con su voz puede ser muy útil. Para una característica que se integra a la perfección en nuestras vidas, suceden muchas cosas detrás de escena en las que la mayoría de nosotros no pensamos.

Dicho esto, esta conveniencia también trae consigo la incomodidad de que tu dispositivo siempre escuche lo que dices. Hasta ahora, los reconocedores de voz en el dispositivo y las palabras de activación se interponen entre lo que escucha su asistente virtual y lo que dice.