voice-actor-recog

音声データからメル周波数ケプストラム係数(mfcc)を抽出し識別・認識を行う学習機

Files

NN.py: ニューラルネットモデル
train_mfcc_data.py: docフォルダ内のtrain.txt, test.txtとvoicesの音声データから、mfccを抽出しニューラルネットに学習させるスクリプト
recog_mfcc_data.py: 学習済みモデル（NN.xml）を読み込みdocフォルダ内のrecog.txtとvoicesの音声データから、mfccを抽出し識別させるスクリプト
make_mfcc_data.py: 指定された音声データからmfccを抽出するスクリプト
make_train_data.py: 指定したフォルダ内のデータと階層構造から、train.txt, test.txt, labels.txtを作成するスクリプト
make_train_data.py: 指定したフォルダ内のデータから、recog.txtを作成するスクリプト
convert_mov_to_wav.sh: 動画データから音声データを抽出するシェルスクリプト
split_wav.sh: 音声データを1秒ずつに分割し、それぞれをフォルダごとに分類して格納するシェルスクリプト

(requirements.txt参照)

MIT License

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
models		models
tools		tools
.gitignore		.gitignore
.tool-versions		.tool-versions
LICENSE		LICENSE
README.md		README.md
make_mfcc_data.py		make_mfcc_data.py
make_train_data.py		make_train_data.py
poetry.lock		poetry.lock
pyproject.toml		pyproject.toml
train_mfcc_data.py		train_mfcc_data.py