-
Notifications
You must be signed in to change notification settings - Fork 80
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
모두의 말뭉치 loader #103
Comments
|
위 commit 은 다음의 기능을 제공합니다. from Korpora.korpus_modu import ModuNewsKorpus
news_corpus = ModuNewsKorpus(['path/to/NIKL_NEWSPAPER(v1.0)/NPRW1900000013.json'])
print(news_corpus.train)
news_corpus.train[0]
|
위 commit 및 파일 형식을 정리한 comment 를 통하여 세 가지 논의사항이 생겼습니다.
|
말뭉치 구조가 생각지 못했던 상황이네요. 네 저도 기존 말뭉치들처럼 파일 1개당 하나의 말뭉치를 처리하는 쪽으로 개발하면 좋을 것 같다는 생각입니다. |
네 저도 정제 스크립트가 필요없는 일부 말뭉치에 대해서만 loader 제공에 동의합니다. 코포라의 기능은 |
위의 커밋을 통하여 다음을 반영하였습니다. |
이 부분은 |
Manual loading test code
import sys
sys.path.insert(0, '../')
import contextlib
import os
import sys
from colored import fg, bg, attr
from Korpora.korpus_modu_news import ModuNewsKorpus
from Korpora.korpus_modu_messenger import ModuMessengerKorpus
from Korpora.korpus_modu_morpheme import ModuMorphemeKorpus
from Korpora.korpus_modu_ne import ModuNEKorpus
from Korpora.korpus_modu_spoken import ModuSpokenKorpus
from Korpora.korpus_modu_web import ModuWebKorpus
from Korpora.korpus_modu_written import ModuWrittenKorpus
## SET ARGUMENT ##
CUSTOM_DIR = ''
@contextlib.contextmanager
def nostdout():
save_stdout = sys.stdout
sys.stdout = open(os.devnull, "w")
yield
sys.stdout = save_stdout
corpora_name = [
(ModuNewsKorpus, 'NIKL_NEWSPAPER(v1.0)'),
(ModuMessengerKorpus, 'NIKL_MESSENGER(v1.0)'),
(ModuMorphemeKorpus, 'NIKL_MP(v1.0)'),
(ModuNEKorpus, 'NIKL_NE(v1.0)'),
(ModuSpokenKorpus, 'NIKL_SPOKEN(v1.0)'),
(ModuWebKorpus, 'NIKL_WEB(v1.0)'),
(ModuWrittenKorpus, 'NIKL_WRITTEN(v1.0)')
]
for corpus, dirname in corpora_name:
classname = corpus.__class__.__name__
with nostdout():
corpus()
print(f'{fg(2)} passed {classname} with default dir {attr(0)}')
with nostdout():
corpus(f'{CUSTOM_DIR}/{dirname}/')
print(f'{fg(2)} passed {classname} with custom dir {attr(0)}') |
ModuXXXKorpus
(e.gModuNewsKorpus
) 형식을 따릅니다.Korpora==0.2.0
에서 지원안함 (#124)Korpora=0.2.0
에서 지원안함 (#123), 세부 커멘트Korpora==0.2.0
에서 지원안함Korpora==0.2.0
에서 지원안함Korpora==0.2.0
에서 지원안함 (#124)Korpora==0.2.0
에서 지원안함The text was updated successfully, but these errors were encountered: