Técnicas para el procesamiento de audio:
- Segmentación. (La idea que tengo desde el inicio y posiblemente la más viable)
- Clasificar. (idk)
- Extracción de características. (Patrones?)
- Speaker Verification (la que nosotros necesitamos)
- Segmentación de voces. Para separar la voz de otros sonidos o voces.
- Speaker detection (se encuentra a una persona especifica hablando y se detecta si es una persona X persona propuesta)
- Analisis de sentimiento (para extender)
- Speech Synthesis (texto a audio)
- Muetreo periodico.
- En este teorema plantea transformar el audio al doble de su frecuencia original, para que el trabajo sea más facil durante el entrenamiento. (y luego normalizar entre -1 y 1)
-
Para comenzar a trabajar con los datos es importante tengamos los audios mismos.
-
Obtener el espectograma del audio. (Con la transformada de Fourier o con la (idealmente) Transformada rápida de Fourirer.)
-
Coeficientes de Mel: Con esto, es posible extraer caracteristicas por medio del espectrograma. Este método hace un fuerte enfasis en las frecuencias que suelen tener las voces. Una forma útil (comentada en https://learn.microsoft.com/es-es/training/modules/intro-audio-classification-tensorflow/) dice que transformando los audios en imagenes podemos analizarlas con visión por computadora. Un problema que quizás puede surgir es si queremos analizarlo en tiempo real.