Lectores como tú ayudan a apoyar a MUO. Cuando realiza una compra utilizando enlaces en nuestro sitio, podemos ganar una comisión de afiliado. Leer más.

Whisper de OpenAI es una nueva solución impulsada por IA que puede convertir su voz en texto. Lo mejor de todo es que tiene un costo cero.

Sin embargo, hay un problema: es más difícil de instalar y usar que la utilidad promedio de Windows. Especialmente si desea utilizar los núcleos tensoriales de su GPU Nvidia para darle un buen impulso.

Sin embargo, no te preocupes. ¡Por eso estamos aquí! Siga leyendo para saber cómo instalarlo y usarlo, pero también, si tiene uno, para que Whisper aproveche su GPU Nvidia.

¿Qué es el susurro de OpenAI?

ChatGPT está de moda hoy en día, y ya vimos cómo puedes usar ChatGPT de OpenAI. Y, sin embargo, no es el único proyecto interesante de OpenAI.

Con tecnología de aprendizaje profundo y redes neuronales, Whisper es un sistema de procesamiento de lenguaje natural que puede "entender" el habla y transcribirla en texto. Pero también es algo propio, sentado en un lugar justo entre todas las soluciones similares:

instagram viewer

  • Whisper es una solución de IA "entrenada" en lenguaje natural. Por lo tanto, es mejor para comprender el habla humana "normal" que las soluciones más antiguas.
  • Whisper no viene con una interfaz, ni puede grabar audio. Solo puede tomar archivos de audio existentes y archivos de texto de salida.
  • Dado que es bueno para "darle sentido al lenguaje", Whisper también tiene el superpoder de la traducción automática en un solo paso.
  • Whisper no es un servicio en línea y puede funcionar completamente fuera de línea.
  • Si tiene una GPU Nvidia relativamente moderna (GTX970 o más nueva), Whisper puede ejecutarse en "modo acelerado por hardware" para aumentar su velocidad.
  • No hay requisitos para registrarse, comprar una licencia o comprar una suscripción.

¿Por qué no son compatibles las GPU de AMD?

Para que las GPU sean útiles para algo más que gráficos, tendrían que actuar como procesadores completamente programables. Es por eso que Nvidia creó CUDA, considerado oficialmente "una plataforma de computación paralela y un modelo de programación". Para obtener más información sobre CUDA y el hardware relacionado ("núcleos CUDA"), lea nuestro artículo sobre ¿Qué son los núcleos CUDA y cómo mejoran los juegos de PC?.

CUDA es una tecnología patentada de Nvidia, solo compatible con las GPU de Nvidia. Las alternativas más cercanas para el hardware de AMD son OpenCL y Radeon Compute Platform. Para obtener más información sobre cómo se comparan las soluciones de cada empresa, consulte nuestro artículo sobre Unidades de cómputo AMD vs. Núcleos Nvidia CUDA.

En comparación con las alternativas, CUDA se considera más maduro, eficaz y fácil de usar. Por lo tanto, la mayoría de los desarrolladores solo se enfocan en CUDA, lo que, a su vez, significa que su software solo aprovecha las características del hardware en las GPU de Nvidia. Y eso incluye Susurro.

Cómo descargar e instalar Whisper

Lamentablemente, Whisper no es una aplicación independiente que pueda descargar, instalar y ejecutar. Se basa en otro software, que también debe instalarse.

Para Windows, para simplificar esta guía, utilizaremos Chocolatey de forma extensiva para instalar la mayoría de las partes de software necesarias. Consulte nuestra guía sobre la forma más rápida de instalar el software de Windows para obtener más información sobre Chocolatey.

Para Linux y Mac, el proceso de instalación (excluyendo la variable de ruta de Windows y los archivos por lotes fáciles de usar que crearemos) debería ser similar.

  1. Para instalar y usar Whisper, debe tener Pitón y es PEPITA herramienta instalada y agregada a la variable "Ruta" de Windows. Para obtener información al respecto, consulte nuestro artículo sobre cómo instalar Python PIP en Windows, Mac y Linux.
  2. Instalar FFMPEG a través de Chocolatey con este comando:
    chocó instalar ffmpeg
    Además, instale su versión de Python con:
    pip3 instalar python-ffmpeg
  3. Finalmente, instala Whisper desde su página de Github con:
    pip3 instala git+https://github.com/openai/whisper.git

Obtener la versión habilitada para CUDA de Whisper

Aunque Whisper no usa GPU Nvidia, el antorcha El paquete en el que se basa ofrece una versión acelerada por CUDA. Usar esto en lugar de la versión "simple" puede ayudar a Whisper a completar sus transcripciones mucho más rápido con la ayuda de su GPU Nvidia.

Para que Whisper use los núcleos CUDA de su GPU Nvidia:

  1. Si ya tiene instalada la versión "vainilla" de torch, desinstálela y elimine los restos con:
    pip3 desinstalar antorcha
    Una vez hecho esto, síguelo con:
    pepita cachepurga
  2. Instale la versión habilitada para CUDA de torch con:
    pip3 instalar antorcha antorcha visión antorcha audio --url-índice-extra https://download.pytorch.org/whl/cu117
  3. Para verificar si Whisper puede usar su GPU Nvidia, use:
    susurro --ayuda | findstr-i pytorch
    Debería ver (predeterminado: cuda) en lugar de (predeterminado: CPU).

Qué hacer si Torch no se instala

Si encuentra el error "no se encontró la versión" al instalar Torch, es posible que deba instalar una versión anterior de Python paralela a la actual.

Use este comando para hacer eso:

chocó instalar pitón --versión OLDER_VERSION --lado a lado

Reemplace "OLDER_VERSION" con una versión, como 3.10.

Luego, use la ruta de la versión secundaria para todos los comandos de Whisper "genéricos" (por ejemplo, "c:\Python310\Scripts\pip.exe" en lugar de solo "pip").

Cómo grabar tu voz

Puede usar cualquier aplicación de grabación de sonido para convertir su voz en un archivo WAV o MP3. Windows incluye una aplicación de este tipo; para obtener más información al respecto, consulte cómo usar la aplicación Grabadora de voz de Windows 10.

Para una opción más completa, intente Audacia. Aprende cómo hacerlo con nuestra guía sobre cómo usar Audacity para grabar audio en Windows y Mac.

Cómo empezar a transcribir con Whisper

Aunque Whisper no viene con una GUI fácil de usar, su uso es muy simple.

Digamos que tenemos el archivo LatestNote.mp3 que contiene discurso en griego, en carpeta c:\Mis archivos de audio, y desea traducirlo al inglés y transcribirlo en un archivo de texto.

  1. Empezamos corriendo Símbolo del sistema o Potencia Shell.
  2. Hacemos "cambio de directorio" donde se almacena el archivo de audio con este comando:
    cd C:\Mis archivos de audio
  3. Desatamos Whisper en el archivo con:
    susurro--modelobase--idiomagramo--tareatraducirÚltima nota.mp3

Una vez procesado, el archivo de texto (llamado "LatestNote.mp3.txt") aparecerá en la misma carpeta. Ábrelo en un editor de texto como Bloc para ver el texto traducido.

Usamos un ejemplo de traducción porque la transcripción en inglés es aún más sencilla: solo tiene que "perder" los indicadores "--idioma" y "-tarea". Por lo tanto, para una transcripción simple, el comando anterior sería:

susurro--modelobaseÚltima nota.mp3

Se requiere el indicador "modelo" porque Whisper usa una de varias opciones. Vamos a ampliarlos para ayudarlo a elegir el mejor para sus necesidades.

¿Qué modelo elegir?

Whisper ofrece varios modelos de lenguaje. Cuanto más grande sea el modelo, más mejorará su precisión, pero también mayores serán sus requisitos de hardware. Ellos son:

  1. Diminuto.
  2. Base.
  3. Pequeño.
  4. Medio.
  5. Grande.

La mayoría de los hablantes nativos de inglés deberían estar bien con el diminuto o base modelos Los hablantes no nativos de inglés pueden ver mejores resultados con modelos más grandes, como pequeño y medio.

Sin embargo, tenga en cuenta que los modelos medianos y grandes requieren más de 8 GB de VRAM (es decir, "la memoria de su GPU").

Para seleccionar uno de ellos, especifique el modelo después del interruptor "--model" en el comando:

susurro --modelo diminuto/pequeño/mediano/grande [archivo]

Por ejemplo:

susurro--modelopequeñoMi_nota_de_voz.mp3

Cómo agilizar su transcripción

Tener que escribir todo el comando Whisper cada vez que desea transcribir un audio puede volverse aburrido rápidamente. Hagamos un archivo por lotes accesible globalmente para agilizar el proceso.

  1. Correr Explorador de Windows y visite su unidad C:.
  2. Cree una carpeta para sus scripts y copie su ruta al Portapapeles.
  3. En el menú Inicio de Windows, busque "ruta" y seleccione Editar las variables de entorno del sistema..
  4. Encuentra el Camino variable bajo Variables de usuario para YOUR_USERNAME. Haga doble clic en él para editarlo. Haga clic en Nuevoy pegue la ruta a su carpeta de scripts. Haga clic en DE ACUERDO para aceptar los cambios.
  5. Regrese a su carpeta de scripts en el Explorador de Windows. Cree un nuevo archivo por lotes allí llamado "wht.bat". "Dentro", coloque este comando:
    susurro --modelo diminuto --idioma en %1
  6. Cree dos archivos por lotes más, "whs" y "whm".
  7. Coloque esto dentro del primer script:
    susurro --modelo pequeño --idioma en %1
  8. Coloque esto dentro del segundo:
    susurro --modelo medio --idioma en %1

Felicitaciones, ahora tiene tres scripts para usar fácilmente los modelos diminuto, pequeño y mediano de Whisper con sus archivos de audio. Para transcribir cualquier archivo de audio a texto:

  1. Localice el archivo con Explorador de archivos de Windows.
  2. Botón derecho del ratón en un lugar vacío y elige Abrir en Terminal.
  3. Escriba este comando, reemplazando "wht" con "whs" o "whm" para usar los modelos de lenguaje pequeño o mediano:
    queTU_ARCHIVO_DE_AUDIO.mp3

Escribir a la velocidad del sonido con Whisper

Incluso los mecanógrafos más rápidos no pueden igualar la velocidad a la que hablamos. Sin embargo, hasta hace poco, hablar en lugar de escribir no era óptimo para crear documentos.

La mayoría de las soluciones de voz a texto produjeron resultados mediocres. Puede encontrar algunas soluciones que valga la pena probar, pero son complicadas de usar o costosas. Afortunadamente, Whisper cambió todo eso.

Después de los pasos anteriores, debería estar listo para transcribir o traducir su voz con gran precisión, usando un solo comando.