24w_audio

deepdaiv 24w audio

프로젝트 소개 ⭐ 사투리 인식 및 표준어 변환 시스템 ⭐입니다! 사투리 음성으로 주어지는 발화를 최종적으로 표준어 음성으로 출력하게 하는 모델입니다.
데이터 소개

1) 한국어 방언 발화(경상도)

저희는 AI Hub의 한국어 방언 발화(경상도) ****데이터를 사용하였습니다. 이 데이터는 경상도 지역 2,000명 이상의 10대~60대의 연령별 화자가 발화한 3,000시간 이상의 음성 데이터와 대응된 담화 텍스트 말뭉치로 구성되어 있습니다. 원본 방언 텍스트 및 방언에 대응하는 표준어 대응쌍을 포함하여 전사한 50만 건 이상의 어절 데이터셋이 있고, 데이터화되어 JSON 포맷의 데이터 파일로 구성되어 있습니다.

2) 한국어 음성

AI hub의 한국어 음성 데이터를 사용하였습니다. 이는 2,000여명이 발성한 한국어 대화음성 1,000시간으로 이루어져 있습니다. 두 사람이 다양한 주제로 자유롭게 대화하는 음성이 녹음되어 있습니다. 데이터는 발화 단위로 분할된 음성파일(16kHz/16bits, headerless (little endian) linear PCM)과 전사파일로 구성되어 있습니다.
워크플로우 STT-Translation-TTS Ko-Speech(DeepSpeech2) Ko-BART TensorflowTTS(fastspeech2) 사투리 발화 → STT → 텍스트 → TTS → 표준어 발화

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
dialect_to_standard_text		dialect_to_standard_text
saved_model_kospeech/saved_model		saved_model_kospeech/saved_model
E2E_TensorflowTTS_KSS_Enchiridion.ipynb		E2E_TensorflowTTS_KSS_Enchiridion.ipynb
KoBART.ipynb		KoBART.ipynb
README.md		README.md
connect_all.ipynb		connect_all.ipynb
demo.ipynb		demo.ipynb
kospeech.ipynb		kospeech.ipynb
trim_and_parse_data.ipynb		trim_and_parse_data.ipynb

Provide feedback