Reconocimiento de Voz en Python

¿Alguna vez has querido experimentar con el reconocimiento de voz utilizando Python pero no sabes por dónde empezar? En este artículo, te guiaré a través de los pasos para crear un script de reconocimiento de voz utilizando Google Colab, una plataforma en la nube ideal para ejecutar código Python sin necesidad de configuraciones complejas locales.

Reconocimiento de voz
Reconocimiento de voz

Paso 1: Configuración de Librerías

Primero, necesitamos configurar las bibliotecas necesarias en nuestro entorno. Utilizaremos SpeechRecognition para el reconocimiento de voz y PyAudio para manejar el audio. En Google Colab, podemos instalar estas bibliotecas directamente desde una celda de código:

# Instalación de PyAudio usando apt-get (versión precompilada)
!apt-get install -y python3-pyaudio

# Instalación de SpeechRecognition
!pip install SpeechRecognition

Paso 2: Preparación del Entorno en Google Colab

Accede a Google Colab desde tu navegador (https://colab.research.google.com/) y crea un nuevo notebook. Esto te proporcionará un entorno de desarrollo en la nube con acceso gratuito a recursos computacionales.

Paso 3: Subir el Archivo de Audio

Para realizar pruebas de reconocimiento de voz, necesitamos un archivo de audio. Puedes subir un archivo .wav, .flac u otro formato compatible desde tu computadora a Google Colab. Puedes hacerlo de dos maneras:

  1. Usando el Menú de Archivos de Colab:
    • Haz clic en el ícono de carpeta en la barra lateral izquierda.
    • Selecciona la pestaña “Archivos” y luego haz clic en “Subir”.
    • Selecciona tu archivo de audio y espera a que se cargue.
  2. Usando Código Python:
    • Ejecuta el siguiente código en una celda de Colab para subir archivos desde tu computadora:
from google.colab import files

# Subir un archivo desde tu computadora
uploaded = files.upload()
  • Se abrirá una interfaz para que selecciones y subas tu archivo de audio.

Paso 4: Creación del Script de Reconocimiento de Voz

Ahora, vamos a crear nuestro script de reconocimiento de voz. Asegúrate de usar el archivo de audio que subiste para las pruebas. Aquí está el código para el reconocimiento de voz en Python:

import speech_recognition as sr

# Función para reconocer voz desde un archivo de audio
def reconocer_voz_desde_archivo(archivo_audio):
    # Crear un objeto Recognizer
    recognizer = sr.Recognizer()

    # Cargar el archivo de audio
    with sr.AudioFile(archivo_audio) as source:
        audio = recognizer.record(source)  # Leer el archivo de audio

    try:
        # Reconocer el texto usando Google Speech Recognition
        texto = recognizer.recognize_google(audio, language='es-ES')
        print(f"Texto reconocido: {texto}")
    except sr.UnknownValueError:
        print("No se pudo entender lo que se dijo")
    except sr.RequestError as e:
        print(f"Error al hacer la solicitud al servicio de reconocimiento de voz; {e}")

# Llamar a la función con el nombre del archivo que subiste
reconocer_voz_desde_archivo('mi_audio.wav')  # Reemplaza 'mi_audio.wav' con tu archivo de audio

Paso 5: Ejecutar el Script y Observar Resultados

Finalmente, ejecuta las celdas de código en Google Colab y observa cómo tu script reconoce el texto hablado en el archivo de audio que subiste. Puedes ajustar el código según tus necesidades y explorar más funcionalidades de SpeechRecognition.

¡Y ahí lo tienes! Has creado exitosamente un script de reconocimiento de voz en Python utilizando Google Colab. ¡Espero que este artículo te haya sido útil para comenzar con el reconocimiento de voz y explorar más en el mundo de la inteligencia artificial!

Facebook
Twitter
LinkedIn

Dejá un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *