Anuncio

Podemos hablar con casi todos nuestros dispositivos ahora, pero ¿cómo funciona exactamente? Cuando preguntas "¿Qué canción es esta?" o diga "Call Mom", está ocurriendo un milagro de la tecnología moderna. Y si bien parece que está a la vanguardia, esta idea de hablar con dispositivos se remonta a décadas, ¡casi tan lejos como los jetpacks en ciencia ficción!

Hoy, la mayor parte de la atención prestada a la computación basada en la voz está en los teléfonos inteligentes. Apple, Amazon, Microsoft y Google están en la cima de la cadena, y cada uno ofrece su propia forma de hablar con la electrónica. Sabías quiénes son: Siri, Alexa, Cortana y el ser sin nombre "Ok, Google". Lo que plantea una gran pregunta ...

¿Cómo toma un dispositivo las palabras habladas y las convierte en comandos que puede entender? En esencia, todo se reduce a la coincidencia de patrones y a hacer predicciones basadas en esos patrones. Más específicamente, el reconocimiento de voz es una tarea compleja que proviene de Modelado Acústico y Modelado de lenguaje.

instagram viewer

Modelado acústico: formas de onda y teléfonos

forma de onda

El modelado acústico es el proceso de tomar una forma de onda del habla y analizarla utilizando modelos estadísticos. El método más común para esto es Modelado oculto de Markov, que se usa en lo que se llama modelado de pronunciación para dividir el discurso en partes componentes llamadas teléfonos (que no debe confundirse con los dispositivos telefónicos reales). Microsoft ha sido un investigador líder en este campo durante muchos años.

Modelado oculto de Markov: Estados de probabilidad

El modelado oculto de Markov es un modelo matemático predictivo en el que el estado actual se determina analizando la salida. Wikipedia tiene un gran ejemplo con dos amigos.

Imagine dos amigos, un amigo local y un amigo remoto, que viven en diferentes ciudades. Local Friend quiere averiguar cómo es el clima donde vive Remote Friend, pero Remote Friend solo quiere hablar sobre lo que hizo ese día: caminar, comprar o limpiar. La probabilidad de cada actividad según el clima del día.

Modelado oculto de Markov

Finja que esta es la única información disponible. Con él, Local Friend puede encontrar tendencias en cómo el clima cambió día a día, y utilizando estas tendencias, ella puede comenzar a hacer conjeturas sobre el clima de hoy en función de la actividad de su amiga ayer. (Puede ver un diagrama del sistema arriba).

Si quieres un ejemplo más complejo, mira este ejemplo en Matlab. En el reconocimiento de voz, este modelo compara esencialmente cada parte de la forma de onda con lo que viene antes y lo que viene después, y con un diccionario de formas de onda para descubrir lo que se dice.

Esencialmente, si hace un sonido "th", lo comparará con los sonidos más probables que suelen aparecer antes y después. Tal vez eso signifique verificar el sonido "e", el sonido "at", etc. Cuando el patrón coincide correctamente, tiene toda su palabra. Esta es una simplificación excesiva, pero puedes ver Toda la explicación de Microsoft aquí.

Modelado de idiomas: más que sonido

El modelado acústico ayuda mucho a que su computadora lo entienda, pero ¿qué pasa con los homónimos y las variaciones regionales en la pronunciación? Ahí es donde entra en juego el modelado de idiomas. Google ha llevado a cabo una gran cantidad de investigación en esta área, principalmente a través del uso de Modelado de N-gram.

Cuando Google intenta entender su discurso, lo hace en base a modelos derivados de su enorme banco de Búsqueda de Voz y transcripciones de YouTube. Todos esos subtítulos de video hilarantemente erróneos han ayudado a Google a desarrollar sus diccionarios. Además, usaron a los difuntos GOOG-411 para recopilar información sobre cómo habla la gente.

shutterstock_70757203

Toda esta colección de idiomas creó una gran variedad de pronunciaciones y dialectos, lo que resultó en un diccionario robusto de palabras y cómo suenan. Esto permite coincidencias que tienen una tasa de error muy reducida que la coincidencia de fuerza bruta basada en probabilidades brutas. Puedes leer un breve artículo describiendo sus métodos aquí.

Si bien Google es líder en este campo, se están desarrollando otros modelos matemáticos, incluido el espacio continuo modelos y modelos de lenguaje posicional, que son técnicas más avanzadas que nacen de la investigación en inteligencia artificial. Estos métodos se basan en replicar el tipo de razonamiento que los humanos hacen cuando se escuchan unos a otros. Estos son mucho más avanzados tanto en términos de la tecnología detrás de ellos, como también de las matemáticas y la programación necesarias para mapear estos modelos.

Modelado de N-Gram: la probabilidad se encuentra con la memoria

El modelado de N-gram funciona en función de las probabilidades, pero utiliza un diccionario de palabras existente para crear un árbol ramificado de posibilidades, que luego se suaviza en aras de la eficiencia. En cierto modo, esto significa que el modelado N-gram elimina gran parte de la incertidumbre en el modelado Hidden Markov mencionado anteriormente.

Como se señaló anteriormente, la fuerza de este método proviene de tener un gran diccionario de palabras y uso, no solo primitivo suena. Esto le da al programa la capacidad de diferenciar entre homófonos, como "latido" y "remolacha". Es contextual, lo que significa que cuando se habla de los puntajes de anoche, el programa no está sacando palabras sobre el borscht.

Pero estos modelos en realidad no son los mejores para el lenguaje, principalmente debido a problemas con las probabilidades de palabras en frases más largas. A medida que agrega más palabras a una oración, este modelo se vuelve un poco extraño ya que es improbable que sus primeras palabras hayan cargado todo lo necesario para su pensamiento completo.

Sin embargo, es simple y fácil de implementar, lo que lo convierte en una excelente combinación para una empresa como Google que disfruta arrojando servidores a problemas informáticos. Puede leer más sobre Modelieng de N-gram en Universidad de Washingtono puedes ver un conferencia en Coursera.

Gritando en las nubes: aplicaciones y dispositivos

Cualquiera que haya usado Siri conoce la frustración de una conexión de red lenta. Esto se debe a que sus comandos a Siri se envían a través de la red para que Apple los decodifique. Cortana para Windows phone también requiere una conexión de red para funcionar correctamente. Sin embargo, en contraste, el Echo de Amazon es solo un altavoz Bluetooth sin Internet.

¿Por qué la diferencia? Porque Siri y Cortana necesitan servidores pesados ​​para decodificar su discurso. ¿Se puede hacer en su teléfono o tableta? Claro, pero matarías el rendimiento y la duración de la batería en el proceso. Simplemente tiene más sentido descargar el procesamiento a máquinas dedicadas.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Piénselo de esta manera: su comando es un automóvil atrapado en el barro. Probablemente podría expulsarlo usted mismo con suficiente tiempo y esfuerzo, pero tomará horas y lo dejará exhausto. En cambio, llamas a la asistencia en carretera y sacan tu automóvil en solo unos minutos. La desventaja es que tiene que hacer la llamada y esperarlos, pero aún así es más rápido y menos exigente.

Los modelos de escritorio como Nuance tienden a usar recursos locales debido al hardware más potente. Después de todo, en palabras de Steve Jobs, su el escritorio es un camión. (Lo que hace un poco tonto que OS X esté usando servidores para su procesamiento.) Entonces, cuando necesita procesar el lenguaje y la voz, ya está lo suficientemente equipado como para manejarlo por sí solo.

Por otro lado, Android permite a los desarrolladores incluir el reconocimiento de voz sin conexión en sus aplicaciones. A Google le gusta adelantarse a la tecnología, y puede apostar que las otras plataformas obtendrán esta capacidad a medida que su hardware se vuelva más potente. A nadie le gusta cuando la cobertura deficiente o la mala recepción lobotomizan su dispositivo.

Comience a usar los comandos de voz ahora

Ahora que conoce los conceptos fundamentales, debe jugar con sus diversos dispositivos. Prueba el nuevo escritura de voz en Google Docs Cómo la escritura por voz es la nueva mejor característica de Google DocsEl reconocimiento de voz ha mejorado a pasos agigantados en los últimos años. A principios de esta semana, Google finalmente introdujo el tipeo de voz en Google Docs. ¿Pero es bueno? ¡Vamos a averiguar! Lee mas . Como si el conjunto de aplicaciones web de la oficina no fuera lo suficientemente potente, el control por voz le permite dictar y formatear completamente sus documentos. Esto amplía la poderosa tecnología que ya diseñaron para Chrome y Android.

Otras ideas incluyen configurar su Mac para usar comandos de voz Cómo usar los comandos de voz en tu Mac Lee mas y configurando su Amazon Echo con pago automatizado Cómo Amazon Echo puede hacer de su hogar un hogar inteligenteLa tecnología inteligente para el hogar todavía está en sus inicios, pero un nuevo producto de Amazon llamado "Echo" puede ayudar a incorporarlo a la corriente principal. Lee mas . Vive en el futuro y acepta hablar con tus gadgets, incluso si solo estás pidiendo más toallas de papel. Si eres adicto a los teléfonos inteligentes, también tenemos tutoriales para Siri 8 cosas que probablemente no sabías que Siri podría hacerSiri se ha convertido en una de las características definitorias del iPhone, pero para muchas personas, no siempre es la más útil. Si bien algo de esto se debe a las limitaciones del reconocimiento de voz, la rareza de usar ... Lee mas , Cortana 6 cosas más geniales que puedes controlar con Cortana en Windows 10Cortana puede ayudarlo a usar manos libres en Windows 10. Puede dejarla buscar sus archivos y la web, hacer cálculos o consultar el pronóstico del tiempo. Aquí cubrimos algunas de sus habilidades más geniales. Lee mas y Androide OK, Google: 20 cosas útiles que puedes decir a tu teléfono AndroidEl Asistente de Google puede ayudarlo a hacer mucho en su teléfono. Aquí hay un montón de comandos básicos de Google básicos pero útiles para probar. Lee mas .

¿Cuál es su uso favorito de control por voz? Háganos saber en los comentarios.

Créditos de imagen: T-flex a través de Shutterstock, Terencehonles a través de la Fundación Wikimedia, Estado de arizona, Diseño de Cienpies a través de Shutterstock

Michael no usó una Mac cuando estaban condenados, pero puede codificar en Applescript. Tiene títulos en Informática e Inglés; lleva un tiempo escribiendo sobre Mac, iOS y videojuegos; y ha sido un mono de TI durante el día durante más de una década, especializándose en secuencias de comandos y virtualización.