공개 스피치 데이터셋(AIHub, ClovaCall)의 경우, 추가가 가능할지 궁금합니다. #193

hwiorn · 2021-01-18T08:35:13Z

현재 공개 스피치 데이터셋의 경우 전사 데이터를 취합하면, 이 역시 코퍼스로 활용이 가능한데 계획이 있으신지 문의합니다. (승인을 통해 사용이 가능한 데이터셋입니다)

~~AIHub 음원 데이터 1000hr. 분량~~ Add AIHub KsponSpeech script(transcription only) dataset #196 반영
ClovaCall 음원 데이터 200hr. 분량

lovit · 2021-01-18T08:38:28Z

스피치 데이터에 대해서도 Korpora 범위에 포함할지 고민을 하고 있었습니다. 하지만 데이터의 형식이 "텍스트" 와 "음원"으로 다르기 때문에 동일한 Korpora 패키지 안에서 진행하는게 좋을지는 고민입니다.

@hwiorn 님은 어떻게 생각하시나요?

hwiorn · 2021-01-18T08:53:35Z

스피치 데이터 셋이 실 대화 데이터이기 때문에, 이 데이터로 LM용 학습 데이터를 다루는 분들은 따로 파서를 만들어 사용하고 있는데, Text를 읽어들이는 로더 기능 만을 제공하는 쪽이라면 현재 계획하시는 프로젝트 목적에 맞지 않을까 싶습니다. 자연어 처리를 쉽게 다루기 위해 만들어진 Korpora 성격상, 제 개인적인 생각으로는 "음원"까지 다루는 것은 아직은 아닌 것 같습니다.

lovit · 2021-01-18T20:02:35Z

이 데이터로 LM용 학습 데이터를 다루는 분들은 따로 파서를 만들어 사용하고 있는데, Text를 읽어들이는 로더 기능 만을 제공하는 쪽이라면 현재 계획하시는 프로젝트 목적에 맞지 않을까 싶습니다.

@hwiorn 님의 생각에 동의합니다. Korpora==0.3.0 (#187 ) 에 이 내용 반영하면 좋을 듯 합니다. 제보 감사합니다.

hwiorn · 2021-01-20T02:35:40Z

AIHub에서 전사 스크립트에 대해서 따로 KsponSpeech_scripts 파일로 제공하고 있습니다.
해당 파일만 사용하면, 전체 데이터셋(음원 포함)을 다운받을 필요가 없을 것 같습니다.

https://www.aihub.or.kr/aidata/105/download

hwiorn mentioned this issue Jan 20, 2021

AIHub 추가 데이터 리스트 #195

Open

8 tasks

hwiorn mentioned this issue Jan 20, 2021

Add AIHub KsponSpeech script(transcription only) dataset #196

Merged

3 tasks

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

공개 스피치 데이터셋(AIHub, ClovaCall)의 경우, 추가가 가능할지 궁금합니다. #193

공개 스피치 데이터셋(AIHub, ClovaCall)의 경우, 추가가 가능할지 궁금합니다. #193

hwiorn commented Jan 18, 2021 •

edited

Loading

lovit commented Jan 18, 2021

hwiorn commented Jan 18, 2021 •

edited

Loading

lovit commented Jan 18, 2021

hwiorn commented Jan 20, 2021 •

edited

Loading

공개 스피치 데이터셋(AIHub, ClovaCall)의 경우, 추가가 가능할지 궁금합니다. #193

공개 스피치 데이터셋(AIHub, ClovaCall)의 경우, 추가가 가능할지 궁금합니다. #193

Comments

hwiorn commented Jan 18, 2021 • edited Loading

lovit commented Jan 18, 2021

hwiorn commented Jan 18, 2021 • edited Loading

lovit commented Jan 18, 2021

hwiorn commented Jan 20, 2021 • edited Loading

hwiorn commented Jan 18, 2021 •

edited

Loading

hwiorn commented Jan 18, 2021 •

edited

Loading

hwiorn commented Jan 20, 2021 •

edited

Loading