-
Notifications
You must be signed in to change notification settings - Fork 80
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
공개 스피치 데이터셋(AIHub, ClovaCall)의 경우, 추가가 가능할지 궁금합니다. #193
Comments
스피치 데이터에 대해서도 Korpora 범위에 포함할지 고민을 하고 있었습니다. 하지만 데이터의 형식이 "텍스트" 와 "음원"으로 다르기 때문에 동일한 Korpora 패키지 안에서 진행하는게 좋을지는 고민입니다. @hwiorn 님은 어떻게 생각하시나요? |
스피치 데이터 셋이 실 대화 데이터이기 때문에, 이 데이터로 LM용 학습 데이터를 다루는 분들은 따로 파서를 만들어 사용하고 있는데, Text를 읽어들이는 로더 기능 만을 제공하는 쪽이라면 현재 계획하시는 프로젝트 목적에 맞지 않을까 싶습니다. 자연어 처리를 쉽게 다루기 위해 만들어진 Korpora 성격상, 제 개인적인 생각으로는 "음원"까지 다루는 것은 아직은 아닌 것 같습니다. |
AIHub에서 전사 스크립트에 대해서 따로 |
현재 공개 스피치 데이터셋의 경우 전사 데이터를 취합하면, 이 역시 코퍼스로 활용이 가능한데 계획이 있으신지 문의합니다. (승인을 통해 사용이 가능한 데이터셋입니다)
AIHub 음원 데이터 1000hr. 분량Add AIHub KsponSpeech script(transcription only) dataset #196 반영The text was updated successfully, but these errors were encountered: