Cómo convertir su voz en texto en tiempo real con Whisper Desktop

Los creadores de ChatGPT tienen otra herramienta que tiene como objetivo quitarle la carga de los dedos.

Las mismas personas detrás de ChatGPT han creado otra herramienta basada en IA que puede usar hoy para aumentar su productividad. Nos referimos a Whisper, una solución de voz a texto que eclipsó todas las soluciones similares anteriores.

Puede usar Whisper en sus programas o en la línea de comandos. Y, sin embargo, eso frustra su propósito: escribir sin teclado. Si necesita escribir para usarlo, ¿por qué usarlo para evitar escribir? Afortunadamente, ahora puede usar Whisper a través de una GUI de escritorio. Aún mejor, también puede transcribir tu voz casi en tiempo real. Veamos cómo puede escribir con su voz usando Whisper Desktop.

¿Qué es el susurro de OpenAI?

Whisper de OpenAI es un sistema de reconocimiento automático de voz (ASR, por sus siglas en inglés) o, en pocas palabras, es una solución para convertir el lenguaje hablado en texto.

Sin embargo, a diferencia de los sistemas de transcripción y dictado más antiguos, Whisper es una solución de inteligencia artificial entrenada en más de 680 000 horas de voz en varios idiomas. Whisper ofrece una precisión sin precedentes y, de manera bastante impresionante, no solo es multilingüe, sino que también puede traducir entre idiomas.

instagram viewer

Más importante aún, es gratis y está disponible como código abierto. Gracias a eso, muchos desarrolladores han incluido su código en sus propios proyectos o han creado aplicaciones que dependen de él, como Whisper Desktop.

Si prefiere la versión "vainilla" de Whisper y la versatilidad de la terminal en lugar de las GUI torpes, consulte nuestro artículo sobre cómo convertir tu voz en texto con Whisper de OpenAI para Windows.

¿Son lo mismo Whisper y Whisper Desktop?

A pesar de su nombre que suena oficial, Whisper Desktop es una GUI de terceros para Whisper, hecha para todos los que prefieren hacer clic en los botones en lugar de escribir comandos.

Whisper Desktop es una solución independiente que no depende de una instalación de Whisper existente. Como beneficio adicional, utiliza una versión alternativa y optimizada de Whisper, por lo que debería funcionar mejor que la versión independiente.

Está en el otro extremo del espectro y, en lugar de buscar una manera más fácil de usar Whisper que la terminal, ¿busca formas de implementarlo en sus propias soluciones? Alégrate, por OpenAI ha abierto el acceso a las API de ChatGPT y Whisper.

Descargar e instalar Whisper Desktop

Aunque Whisper Desktop es más fácil de usar que Whisper independiente, su instalación es más complicada que hacer clic repetidamente en Siguiente en un asistente.

Visita Página oficial de Github de Whisper Desktop. Mire a la derecha y haga clic en la última versión debajo Lanzamientos.
Bajo Activos, haga clic WhisperDesktop.zip y descargarlo a su PC.
Extraiga el archivo descargado a una carpeta y use su administrador de archivos para visitarlo. Dentro encontrarás la aplicación Whisper Desktop. Haga doble clic en él para ejecutarlo.
También necesita un modelo de lenguaje Whisper en GCML formato binario Whisper Desktop le proporcionará dos enlaces para adquirir uno. Omita el segundo enlace para generar su propio modelo, ya que es un proceso más complicado. Haga clic en cara de abrazo para abrir esa página en su navegador predeterminado, desde donde puede descargar un archivo listo para usar.
La versión de Whisper Desktop que usamos al escribir este artículo proporcionó un enlace a un repositorio obsoleto en Hugging Face. Si te encuentras con el mismo problema, observa un enlace a un nueva ubicacion. Haga clic en él para visitar el nuevo repositorio.
Haz clic en el enlace que te llevará a los disponibles modelos.
De esa lista, haga clic en cualquiera de los ggml-medium.bin o ggml-medium.en.bin, dependiendo de si desea soporte multilingüe o solo en inglés en Whisper.
Finalmente, deberías haber llegado a tu destino. Observe la línea que indica que este archivo está almacenado con Git LFS y es demasiado grande para mostrarlo, pero aún puede descargarlo. Haga clic en descargar para hacer precisamente eso.
Cuando se complete la descarga del archivo, use su administrador de archivos favorito (el Explorador de archivos servirá) para mover el archivo del modelo de idioma descargado a la misma carpeta que Whisper Desktop.

Transcripción con Whisper Desktop

Transcribir con Whisper Desktop es fácil, pero es posible que aún necesite uno o dos clics para usar la aplicación.

Vuelva a ejecutar Whisper Desktop. ¿(Aún) pierde la ruta correcta a su modelo de idioma descargado? Clickea en el botón con los tres puntos a la derecha del campo y seleccione manualmente el archivo que descargó de Hugging Face.

Desde este lugar, también puede usar el menú desplegable junto a Implementación del modelo para elegir si desea ejecutar Whisper en su GPU (GPU), tanto en la CPU como en la GPU (Híbrido), o solo en la CPU (Referencia).

El Avanzado El botón conduce a más opciones que afectan cómo se ejecutará Whisper en su hardware. Sin embargo, dado que el botón indica claramente que son avanzados, le sugerimos que solo los modifique si está solucionando problemas o sabe lo que está haciendo. Establecer los valores de opciones incorrectos aquí puede imponer una penalización de rendimiento o hacer que la aplicación quede inutilizable.

Haga clic en Aceptar para pasar a la interfaz principal de la aplicación.

Si ya tiene una grabación de su voz que desea convertir en texto escrito, haga clic en Transcribir archivo y selecciónelo. Aún así, utilizaremos Whisper Desktop para la transcripción en vivo de este artículo.

Las opciones que se ofrecen son sencillas. Puede seleccionar el idioma Whisper usará, elige si quieres traducir entre idiomas y habilite la aplicación Consola de depuración.

La mayoría de los usuarios de habla inglesa pueden omitir esas opciones de manera segura y solo asegurarse de que se seleccione la entrada de audio correcta en el menú desplegable junto a Dispositivo de captura.

Cerciorarse Guardar en archivo de texto y Agregar a ese archivo están habilitados para que Whisper Desktop guarde su salida en un archivo sin sobrescribir su contenido. Utilizar el botón con los tres puntos a la derecha del campo de ruta del archivo para definir dicho archivo de texto.

Haga clic en Captura para comenzar a transcribir su discurso a texto.

Whisper Desktop le mostrará tres indicadores cuando detecte actividad de voz, cuando esté transcribiendo activamente y cuando el proceso esté detenido.

Puede seguir hablando todo el tiempo que desee y, de vez en cuando, debería ver parpadear los dos primeros indicadores mientras la aplicación convierte su voz en texto. Hacer clic Detener cuando termine.

El archivo de texto que seleccionó debería abrirse en su editor de texto predeterminado, conteniendo por escrito todo lo que dijo hasta que hizo clic Detener.

Debemos tener en cuenta que también puede hacer lo contrario de lo que vimos aquí: convertir cualquier texto a voz. De esta manera puedes escuchar cualquier cosa como si fuera un podcast en lugar de cansarte la vista entrecerrando los ojos ante las pantallas. Para obtener más información al respecto, consulte nuestro artículo sobre algunas de las mejores herramientas gratuitas en línea para descargar texto a voz como audio MP3.

Sugerencias para escribir por voz en Whisper Desktop

Aunque Whisper Desktop puede ser un salvavidas, permitiéndole escribir con su voz mucho más rápido de lo que podría escribir, está lejos de ser perfecto.

Durante nuestras pruebas, descubrimos que ocasionalmente puede tartamudear, omitir algunas palabras, no transcribir hasta que detener y reiniciar manualmente el proceso, o quedarse atascado en un bucle y seguir transcribiendo la misma frase repetidamente.

Creemos que se trata de fallas temporales que se solucionarán, ya que Whisper independiente no presenta los mismos problemas.

Además de esos pequeños baches, convertir su voz en texto debería ser sencillo con Whisper Desktop. Aún así, durante nuestras pruebas, descubrimos que puede funcionar aún mejor si...

En lugar de pronunciar solo dos o tres palabras y luego hacer una pausa, Whisper puede entenderlo mejor si continúa más tiempo. Trate de darle al menos una oración completa a la vez.
Por la misma razón, evite iniciar y detener repetidamente el proceso de transcripción.
Cada vez que te des cuenta de que cometiste un error, ignóralo y sigue adelante. Cargar y descargar el modelo de lenguaje parece ser la parte del proceso que consume más tiempo con el estado actual de Whisper y nuestro hardware disponible. Por lo tanto, es más rápido seguir hablando y luego editar los errores.
Al igual que con la versión independiente de Whisper, es mejor utilizar el modelo de lenguaje óptimo para su hardware disponible. Puedes usar hasta el medio modelo si su GPU tiene 8 GB de VRAM. Por menos VRAM, opta por los modelos más pequeños. Elija solo el un poco más preciso pero también mucho más exigente grande modelo si usa una GPU con 16 GB de VRAM o más.
Recuerde que cuanto más grande sea el modelo de lenguaje, más lento será el proceso de transcripción. No opte por un modelo más grande de lo necesario. Probablemente encontrará que Whisper Desktop ya puede "entenderlo" la mayor parte del tiempo con los modelos medianos o más pequeños, con solo uno o dos errores por párrafo.

¿Sigues escribiendo? Usa tu voz con susurro

A pesar de que requiere algo de tiempo para configurarlo, como verá cuando lo pruebe, Whisper Desktop funciona mucho mejor que la mayoría de las alternativas, con mucha más precisión y mejor velocidad.

Después de que comience a usarlo para escribir con su voz, su teclado puede parecer una reliquia de la antigüedad.

About Technology - denizatm.com

Cómo convertir su voz en texto en tiempo real con Whisper Desktop

¿Qué es el susurro de OpenAI?

¿Son lo mismo Whisper y Whisper Desktop?

Descargar e instalar Whisper Desktop

Transcripción con Whisper Desktop

Sugerencias para escribir por voz en Whisper Desktop

¿Sigues escribiendo? Usa tu voz con susurro

Categorías

Recent Post

Cómo bloquear y desbloquear a un usuario en Messenger

¿Cuáles son los mejores interruptores de teclado mecánicos? Comparación de juegos, mecanografía y trabajo de oficina

Cómo sacar el máximo partido a su ratón con AltDrag