Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Add AIHub KsponSpeech script(transcription only) dataset #196

Merged
merged 3 commits into from
Jan 28, 2021

Conversation

hwiorn
Copy link
Contributor

@hwiorn hwiorn commented Jan 20, 2021

Pull Request

Korpora에 기여해 주셔서 감사합니다.

해당 Pull Request를 제출하기 전에 아래 사항이 완료되었는지 확인 부탁드립니다:

  • 작성한 코드가 어떤 에러나 경고 없이 실행이 되나요?
  • 작성한 코드에 대한 테스트 코드를 만드셨나요? (경로 : Korpora/test)
  • 기존 코드 역시 에러 없이 수행이 되겠죠?

1. 해당 PR은 어떤 내용인가요?

AIHub에서 제공하는 한국어 음성 데이터셋의 전사 파일을 로딩하고, ETRI 전사규칙 중 레이블 제거 및 이중 전사 중 철자 전사만을 사용하여 LM용 학습코퍼스를 생성합니다.

2. PR과 관련된 이슈가 있나요?

#193
#195

@hwiorn hwiorn changed the title Add AIHub KsponSpeech script(transcription only) dataset WIP: Add AIHub KsponSpeech script(transcription only) dataset Jan 20, 2021
@lovit lovit self-requested a review January 24, 2021 09:54
이용하려는 데이터마다 직접 신청을 하셔야 합니다.

https://www.aihub.or.kr/

Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

AIHub 에 익숙하지 않으신 분들은 대화데이터가 어떤 항목에 위치하는지 모르실 수 있다고 생각합니다. 아래의 내용을 line number 17 - 19 사이에 추가하면 어떨까요?

한국어 음성 데이터는 `AI 데이터` > `교육/문화/스포츠/` > `한국어음성` 혹은 아래의 주소에서
다운받으실 수 있습니다.

    https://www.aihub.or.kr/aidata/105  (2021.01.24 기준)

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

네, Korpora 반영 버전까지 더 추가하겠습니다.

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

@lovit lovit self-requested a review January 24, 2021 10:10
@hwiorn hwiorn changed the title WIP: Add AIHub KsponSpeech script(transcription only) dataset Add AIHub KsponSpeech script(transcription only) dataset Jan 27, 2021
Copy link
Member

@lovit lovit left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

PR 내용 확인했습니다. 기여해주셔서 감사합니다.

@lovit lovit merged commit a2c1ba8 into ko-nlp:master Jan 28, 2021
@lovit
Copy link
Member

lovit commented Jan 28, 2021

이 내용도 dev branch 에 적용완료하였습니다.

@hwiorn hwiorn deleted the korpus-aihub-kspon-speech branch February 5, 2021 08:06
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

3 participants