Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

모두의 말뭉치: 신문 말뭉치 loader #110

Merged
merged 17 commits into from
Oct 10, 2020
Merged

모두의 말뭉치: 신문 말뭉치 loader #110

merged 17 commits into from
Oct 10, 2020

Conversation

lovit
Copy link
Member

@lovit lovit commented Oct 6, 2020

Pull Request

Korpora에 기여해 주셔서 감사합니다.

해당 Pull Request를 제출하기 전에 아래 사항이 완료되었는지 확인 부탁드립니다:

  • 작성한 코드가 어떤 에러나 경고 없이 실행이 되나요?
  • 작성한 코드에 대한 테스트 코드를 만드셨나요? (경로 : Korpora/test)
  • 기존 코드 역시 에러 없이 수행이 되겠죠?

1. 해당 PR은 어떤 내용인가요?

모두의 말뭉치 중 신문 말뭉치를 손쉽게 로딩할 수 있는 기능을 제공합니다. 사용법은 #107 의 커멘트를 참고하세요.

2. PR과 관련된 이슈가 있나요?

#103, #107

@lovit lovit requested a review from ratsgo October 6, 2020 19:34
self.original_topics = [doc.original_topic for doc in news]
self.texts = [doc.paragraph for doc in news]

def __getitem__(self, index):
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

제가 지금 테스트 중인데요. 사용자가 ModuNewsKorpus의 root_dir_or_paths를 잘못 입력하여 데이터가 전혀 로드되지 않을 경우(즉 self.text의 길이가 0) __getitem__이 다음과 같은 에러를 발생시키고 있음을 확인했습니다.

news_corpus.train[0]
Traceback (most recent call last):
  File "<input>", line 1, in <module>
  File "/Users/david/works/Korpora/Korpora/korpus_modu_news.py", line 86, in __getitem__
    self.document_ids[index],
IndexError: list index out of range

아울러 같은 상황에서 news_corpus.train을 확인하면 다음과 같은 에러가 뜹니다.

news_corpus.train
Traceback (most recent call last):
  File "<input>", line 1, in <module>
  File "/Users/david/works/Korpora/Korpora/korpora.py", line 32, in __repr__
    return self.__str__()
  File "/Users/david/works/Korpora/Korpora/korpora.py", line 27, in __str__
    attributes += f'  - {self.name}.{var_name} : list[{var[0].__class__.__name__}]\n'
IndexError: list index out of range

따라서 root_dir_or_paths에 있는 모든 파일들을 읽어오는 기존 로직을 타되, 경로 설정 등이 잘못되어 그 내용이 전혀 로드되지 않을 경우에 해당하는 방어 로직을 추가하는 것이 어떨까 합니다.

@lovit
Copy link
Member Author

lovit commented Oct 10, 2020

위의 커밋으로 파일이 발견되지 않았을 경우 메시지와 함께 exception 을 raise 하였습니다.

Copy link
Member

@ratsgo ratsgo left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

테스트해보니 raise가 이상없이 잘 동작하네요!
고생 많으셨습니다.

@lovit lovit merged commit ee26373 into dev Oct 10, 2020
@lovit lovit deleted the dev-modu#103 branch October 12, 2020 14:44
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants