Cómo convertir el habla en texto con IA – Whisper AI- Guía paso a paso en español – GRATIS
Hola a todos, hoy estamos aquí para hablar sobre cómo convertir el habla en texto utilizando la inteligencia artificial (IA). Lo sorprendente es que la IA hace un trabajo mejor que la mayoría de los humanos. Puedes usarla con el inglés y otros 96 idiomas. Funciona incluso si hay mucho ruido de fondo o si tienes un fuerte acento. Lo mejor de todo es que es completamente gratuito y de código abierto.
Usando una herramienta de IA llamada Whisper
Vamos a ver cómo hacer esto utilizando una herramienta de IA llamada Whisper, desarrollada por la compañía OpenAI. Tal vez hayas escuchado hablar de ellos antes. OpenAI es la misma compañía que creó el popular ChatGPT, que te permite conversar con una computadora. También son responsables de DALL·E, donde puedes escribir texto y generar una imagen basada en ese texto.
Ahora bien, para instalar Whisper directamente en tu computadora, puedes hacer clic en el enlace que aparece arriba. Sin embargo, necesitarías una computadora con cierta capacidad. En cambio, vamos a utilizar algo llamado Google Colaboratory, que te permite ejecutar código directamente en tu navegador web, sin importar qué tipo de computadora tengas.
Instalación de Google Colaboratory
Para usar Google Colaboratory, dirígete a Google Drive y haz clic en el botón «Nuevo» en la esquina superior izquierda. Luego, ve a «Más» y, en la parte inferior de la lista desplegable, haz clic en «Conectar más aplicaciones». En el cuadro de búsqueda que aparece, escribe «Google Colaboratory» y busca. Instala Google Colaboratory cuando lo encuentres.
Una vez instalado, vuelve a la esquina superior izquierda y haz clic en «Nuevo». Luego, ve a «Más» y deberías ver la opción de Google Colaboratory. Haz clic en esa opción para ingresar al espacio de trabajo de Google Colaboratory.
Configuración de Google Colaboratory
En el espacio de trabajo de Google Colaboratory, se muestra un entorno de programación que puede parecer un poco intimidante al principio, pero no te preocupes, es realmente sencillo. En la esquina superior izquierda, da un nombre a tu archivo para poder encontrarlo fácilmente en el futuro. Haz clic en «Título sin título» y escribe algo como «Transcripción de audio».
A continuación, haz clic en el menú «Entorno de ejecución» y selecciona «Cambiar tipo de entorno de ejecución». En la ventana emergente, elige «GPU» como acelerador de hardware. Resulta que las tarjetas gráficas ejecutan estos modelos extremadamente bien. Luego, haz clic en «Guardar».
Para instalar Whisper AI, ingresa el siguiente código en el campo de código que aparece arriba. Puedes copiar y pegar este código desde la descripción del video. El código permitirá la instalación de Whisper y también de ffmpeg, una herramienta que nos permite trabajar con archivos de audio y video.
Una vez que hayas ingresado el código, haz clic en el botón «Ejecutar» que se encuentra a la izquierda. Esto instalará Whisper y ffmpeg en Google Colaboratory. La instalación debería tomar unos segundos.
Transcripción de audio
Ahora puedes arrastrar y soltar un archivo de audio en el espacio de trabajo de Google Colaboratory. Por ejemplo, un archivo MP3. Aparecerá un mensaje diciendo que los archivos se eliminarán cuando se reinicie el entorno de ejecución, pero no te preocupes por eso.
A continuación, ingresa el siguiente código en el espacio de trabajo para transcribir el archivo de audio. Asegúrate de ajustar el nombre del archivo que deseas transcribir. Por ejemplo, si tu archivo se llama «cookies.mp3», asegúrate de que el código refleje ese nombre.
Una vez que hayas ingresado el código, haz clic en el botón «Ejecutar». El proceso tomará un momento y luego se mostrará una transcripción de todo lo dicho en el archivo de audio. También verás que se han creado nuevos archivos en el lado izquierdo de la pantalla, como un archivo de texto (TXT) y archivos de subtítulos (SRT y VTT).
Puedes descargar cualquiera de estos archivos haciendo clic en los puntos suspensivos o en los tres puntos que se encuentran junto al nombre del archivo en el lado derecho de la pantalla. Esto te permitirá descargar y guardar los archivos en tu computadora. Los archivos TXT y SRT contienen el texto de la transcripción, mientras que los archivos SRT y VTT también incluyen marcas de tiempo.
Explorando más opciones
Aparte de la función básica de transcribir archivos de audio, Whisper ofrece otras opciones que puedes explorar. Puedes ajustar parámetros adicionales según tus necesidades. Por ejemplo, puedes especificar dónde guardar la salida, si deseas transcribir y traducir archivos, e incluso especificar el idioma deseado.
Si no estás seguro de lo que hace un parámetro en particular, puedes usar el código «whisper -h» para obtener una lista detallada de todos los parámetros disponibles. Esto te brindará una explicación detallada de cada parámetro.
Ten en cuenta que cuando salgas de Google Colaboratory, el entorno de ejecución se cerrará y se eliminarán todos los archivos. Por lo tanto, se recomienda que descargues cualquier archivo de transcripción antes de cerrar la sesión.
Esta tecnología es increíble y personalmente la utilizo para agregar subtítulos a mis videos de YouTube. Whisper hace un trabajo excepcional al transcribir el habla, logrando alta calidad y precisión. Solo necesito hacer pequeños ajustes para perfeccionar la transcripción.
Si quieres ver más videos como este, suscríbete a nuestro canal y nos vemos en el próximo video.



-0 Comentarios-