-
Notifications
You must be signed in to change notification settings - Fork 80
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
모두의 말뭉치: 신문 말뭉치 loader #110
Conversation
self.original_topics = [doc.original_topic for doc in news] | ||
self.texts = [doc.paragraph for doc in news] | ||
|
||
def __getitem__(self, index): |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
제가 지금 테스트 중인데요. 사용자가 ModuNewsKorpus의 root_dir_or_paths
를 잘못 입력하여 데이터가 전혀 로드되지 않을 경우(즉 self.text의 길이가 0) __getitem__이 다음과 같은 에러를 발생시키고 있음을 확인했습니다.
news_corpus.train[0]
Traceback (most recent call last):
File "<input>", line 1, in <module>
File "/Users/david/works/Korpora/Korpora/korpus_modu_news.py", line 86, in __getitem__
self.document_ids[index],
IndexError: list index out of range
아울러 같은 상황에서 news_corpus.train을 확인하면 다음과 같은 에러가 뜹니다.
news_corpus.train
Traceback (most recent call last):
File "<input>", line 1, in <module>
File "/Users/david/works/Korpora/Korpora/korpora.py", line 32, in __repr__
return self.__str__()
File "/Users/david/works/Korpora/Korpora/korpora.py", line 27, in __str__
attributes += f' - {self.name}.{var_name} : list[{var[0].__class__.__name__}]\n'
IndexError: list index out of range
따라서 root_dir_or_paths
에 있는 모든 파일들을 읽어오는 기존 로직을 타되, 경로 설정 등이 잘못되어 그 내용이 전혀 로드되지 않을 경우에 해당하는 방어 로직을 추가하는 것이 어떨까 합니다.
위의 커밋으로 파일이 발견되지 않았을 경우 메시지와 함께 exception 을 raise 하였습니다. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
테스트해보니 raise가 이상없이 잘 동작하네요!
고생 많으셨습니다.
Pull Request
Korpora에 기여해 주셔서 감사합니다.
해당 Pull Request를 제출하기 전에 아래 사항이 완료되었는지 확인 부탁드립니다:
Korpora/test
)1. 해당 PR은 어떤 내용인가요?
모두의 말뭉치 중 신문 말뭉치를 손쉽게 로딩할 수 있는 기능을 제공합니다. 사용법은 #107 의 커멘트를 참고하세요.
2. PR과 관련된 이슈가 있나요?
#103, #107