Este repositorio, denominado "Summar-ia," contiene un código en Python que combina las funcionalidades de Google Cloud Speech-to-Text y OpenAI para realizar tareas de transcripción de audio y generación de texto. A continuación, se proporciona una descripción detallada del código.
-
Importación de Bibliotecas:
- Utiliza el módulo
speech_v1p1beta1
de la bibliotecagoogle.cloud
para la API de Speech-to-Text de Google Cloud. - Importa el módulo
OpenAI
para interactuar con la API de OpenAI.
- Utiliza el módulo
-
Configuración del Cliente de Google Cloud Speech-to-Text:
- Autentica y crea un cliente de Speech-to-Text utilizando un archivo de clave de servicio (
key.json
).
- Autentica y crea un cliente de Speech-to-Text utilizando un archivo de clave de servicio (
-
Lectura del Archivo de Audio:
- Abre y lee el contenido del archivo de audio llamado "Audio.mp3."
-
Creación de Objeto de Audio para Transcripción:
- Crea un objeto
speech.RecognitionAudio
con el contenido del archivo de audio.
- Crea un objeto
-
Configuración de Reconocimiento:
- Define la configuración de reconocimiento, incluyendo frecuencia de muestreo, código de idioma (español de Chile) y habilita la puntuación automática.
-
Transcripción del Audio:
- Utiliza el cliente de Speech-to-Text para transcribir el audio con la configuración especificada.
-
Configuración del Cliente de OpenAI:
- Configura un cliente de OpenAI con una clave de API válida.
-
Generación de Texto con GPT-3.5-turbo:
- Utiliza el modelo de lenguaje
gpt-3.5-turbo
para generar texto en respuesta a un mensaje de usuario. El mensaje incluye la transcripción obtenida del audio.
- Utiliza el modelo de lenguaje
-
Impresión de la Respuesta de OpenAI:
- Imprime la respuesta generada por OpenAI, que podría contener un apunte basado en la transcripción del audio.
Módulos requeridos (instalables con pip):
google-cloud-speech
(para Google Cloud Speech-to-Text):pip install google-cloud-speech
openai
(para OpenAI):pip install openai
Licencia: Este proyecto se distribuye bajo la Licencia MIT. Consulta el archivo LICENSE para obtener más detalles.
Notas Importantes:
- Se debe proporcionar una clave de API válida de OpenAI en el código (
api_key="API_KEY"
) para utilizar la API de OpenAI. - El archivo de clave de servicio de Google Cloud (
key.json
) debe estar presente y contener las credenciales adecuadas para el cliente de Speech-to-Text.