-
Notifications
You must be signed in to change notification settings - Fork 80
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Add AIHub KsponSpeech script(transcription only) dataset #196
Conversation
이용하려는 데이터마다 직접 신청을 하셔야 합니다. | ||
|
||
https://www.aihub.or.kr/ | ||
|
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
AIHub 에 익숙하지 않으신 분들은 대화데이터가 어떤 항목에 위치하는지 모르실 수 있다고 생각합니다. 아래의 내용을 line number 17 - 19 사이에 추가하면 어떨까요?
한국어 음성 데이터는 `AI 데이터` > `교육/문화/스포츠/` > `한국어음성` 혹은 아래의 주소에서
다운받으실 수 있습니다.
https://www.aihub.or.kr/aidata/105 (2021.01.24 기준)
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
네, Korpora 반영 버전까지 더 추가하겠습니다.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
PR 내용 확인했습니다. 기여해주셔서 감사합니다.
이 내용도 |
Pull Request
Korpora에 기여해 주셔서 감사합니다.
해당 Pull Request를 제출하기 전에 아래 사항이 완료되었는지 확인 부탁드립니다:
Korpora/test
)1. 해당 PR은 어떤 내용인가요?
AIHub에서 제공하는 한국어 음성 데이터셋의 전사 파일을 로딩하고, ETRI 전사규칙 중 레이블 제거 및 이중 전사 중 철자 전사만을 사용하여 LM용 학습코퍼스를 생성합니다.
2. PR과 관련된 이슈가 있나요?
#193
#195