Este proyecto se realizó como una prueba para evaluar el funcionamiento del modelo VOSK en el reconocimiento de voz. El modelo VOSK es una poderosa herramienta de código abierto que permite la transcripción de audio a texto en tiempo real.
Este proyecto está a cargo del grupo GEO.VOICE-TECH, que se enfoca en desarrollar aplicaciones y sistemas donde el reconocimiento de voz es fundamental para la toma de notas por parte de personas que no pueden escribir durante el trabajo de campo.
Para ejecutar este código y probar el reconocimiento de voz con VOSK, sigue estos pasos:
-
Clonar el repositorio
git clone https://github.com/DiegoFernandoLojanTN/Vosk_ReconocimientoDeVoz.git
cd Vosk_ReconocimientoDeVoz
-
Crear un entorno virtual
python -m venv venv
source venv/bin/activate # En Windows usa venv\Scripts\activate
-
Instalar las dependencias
pip install -r requirements.txt
-
Preparar el modelo VOSK
- Crea en la raíz del proyecto una carpeta llamada
ASSETS/Vosk
. - Descarga el modelo de VOSK desde este enlace y extrae los archivos dentro de la carpeta
ASSETS/Vosk
.
El proyecto consta de dos archivos principales:
- vosk_recog.py: Este script configura el modelo de reconocimiento de voz y procesa el audio de entrada, transcribiéndolo a texto.
- app.py: Este script es el punto de entrada del proyecto. Inicia el reconocimiento de voz y muestra las transcripciones en tiempo real.
Además de este proyecto, estamos desarrollando una interfaz web que puede ser encontrada en el siguiente repositorio:
También estamos trabajando en una aplicación para Android que utiliza una versión más ligera del modelo VOSK, diseñada específicamente para dispositivos móviles: