Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Corpus] AIHub: 번역데이터 loaders #136

Closed
lovit opened this issue Oct 15, 2020 · 1 comment
Closed

[Corpus] AIHub: 번역데이터 loaders #136

lovit opened this issue Oct 15, 2020 · 1 comment

Comments

@lovit
Copy link
Member

lovit commented Oct 15, 2020

  • snapshots
  • file type : Excel (.xlsx)

(구어체)

SID 원문 번역문
1 'Bible Coloring'은 성경의 아름다운 이야기를 체험 할 수 있는 컬러링 앱입니다. Bible Coloring' is a coloring application that allows you to experience beautiful stories in the Bible.
2 씨티은행에서 일하세요? Do you work at a City bank?
3 푸리토의 베스트셀러는 해외에서 입소문만으로 4차 완판을 기록하였다. PURITO's bestseller, which recorded 4th rough -cuts by words of mouth from abroad.
4 11장에서는 예수님이 이번엔 나사로를 무덤에서 불러내어 죽은 자 가운데서 살리셨습니다. In Chapter 11 Jesus called Lazarus from the tomb and raised him from the dead.

(대화체)

대분류 소분류 상황 Set Nr. 발화자 원문 번역문
비즈니스 회의 의견 교환하기 1 A-1 이번 신제품 출시에 대한 시장의 반응은 어떤가요? How is the market's reaction to the newly released product?
비즈니스 회의 의견 교환하기 1 B-1 판매량이 지난번 제품보다 빠르게 늘고 있습니다. The sales increase is faster than the previous product.
비즈니스 회의 의견 교환하기 1 A-2 그렇다면 공장에 연락해서 주문량을 더 늘려야겠네요. Then, we'll have to call the manufacturer and increase the volume of orders.

(문어체 뉴스)

ID 날짜 자동분류1 자동분류2 자동분류3 URL 언론사 원문 번역문
20961563 20181001 경제,국제경제 IT_과학,IT_과학일반 문화,문화일반 http://www.sedaily.com/NewsView/1S5QRSR5T2 서울경제 스키너가 말한 보상은 대부분 눈으로 볼 수 있는 현물이다. Skinner's reward is mostly eye-watering.
20930897 20180914 IT_과학,IT_과학일반 http://www.sedaily.com/NewsView/1S4MSFM0IH 서울경제 심지어 어떤 문제가 발생할 건지도 어느 정도 예측이 가능하다. Even some problems can be predicted.
20307875 20190419 IT_과학,과학 http://news.kmib.co.kr/article/view.asp?arcid=0013246298&code=61121111&cp=kd 국민일보 오직 하나님만이 그 이유를 제대로 알 수 있을 겁니다. Only God will exactly know why.

(문어체 한국문화)

ID 키워드 원문 번역문
5000091 문화·교육/문화·예술 강릉 기생 매화가 등장하는 판소리 열두마당의 하나인 「강릉매화전」은 판소리 특유의 해학이 담겨져 있기도 하다. , one of the twelve madang of pansori that Gangneung's gisaeng Maehwa appears, also contains a unique humor of pansori.
5001033 문화·교육/문화·예술 다양한 미술관련 전시회의 개최, 각종 교육프로그램과 새로운 미술 사업을 개발하고 운영하기 위한 것이 건립 목적이었다. The purpose of the establishment was to hold various art-related exhibitions, develop educational programs, and develop and operate new art projects.
3001398 생활·민속 간장은 가정에서 담구던 재래식 간장과 공장에서 양조된 개량식 간장으로 나뉜다. There are two main types of soy sauce: home-brewed traditional soy sauce and factory-brewed soy sauce.

(문어체 조례)

ID 지자체 원문 번역문
576269 노원구 조례 의원의 회의규칙 제47조제1항 Article 47(1) of the Members' Meeting Rules
575761 노원구 조례 ⓛ비공개회의록은 원고로서 보관한다. (1) The non-public meeting minutes shall be kept as manuscripts.
583428 노원구 조례 o 보고지연 훈계 3일이상 – Delay in reporting results in discipline at least three days;

(문어체 지자체웹사이트)

ID 지자체 원문 번역문
261811 경기도 "경기도가 말산업 육성을 위해 총예산 245,193천원으로 2013년 경기도 용인시 남사면 소재의 축산위생연구소 가축연구팀 부지에 경기도말시험사육장을 신축하고, 올해 2월 승용마 8두를 입식하여 본격적인 승용마 시험 연구에 돌입하였다고 밝혔다." "The Gyeonggi provincial government announced that it has established a Gyeonggi-do test farm on the site of the livestock research team of livestock sanitation Institute in Namsa-myeon, Yongin, Gyeonggji province in 2013 with a total budget of 245 million and 193 thousand won to foster the horse industry, and that it has begun full-fledged testing of eight riding horses in February this year."
409852 경기도 "경기도가 주최하고 경기FTA활용지원센터와 코트라가 주관한 이번 시장개척단은 지난 5월 6일부터 12일까지 미국 뉴욕과 캐나다 토론토 등을 방문, 현지 바이어들과 1:1 비즈니스 상담을 벌이며 이 같은 성과를 거뒀다." "Organized by Gyeonggi provincial government and hosted by the Gyeonggi FTA Utilization Support Center and KOTRA, the market development team visited New York, USA and Toronto, Canada from May 6-12 to conduct one on one business consultation with local buyers and made such achievement."
352671 경기도 "경기도가 주최하고 경기도비정규직지원센터가 주관한 이번 교육은 공공 부문이 직·간접적으로 고용하고 있는 근로자들을 보호하고 처우를 개선하기 위해 마련된 행사로, 도와 시군, 공공기관의 인사·계약업무 담당자 160여명이 참석했다." "Organized by Gyeonggi provincial government and hosted by the Gyeonggi-do Non-regular Employment Support Center, this training is designed to protect and improve the treatment of the workers directly and indirectly employed by the public sector and was attended by 160 personnel and contract specialists from provincial, municipal and county governments."
lovit added a commit that referenced this issue Oct 15, 2020
lovit added a commit that referenced this issue Oct 15, 2020
lovit added a commit that referenced this issue Oct 15, 2020
@lovit
Copy link
Member Author

lovit commented Oct 15, 2020

로컬테스트 코드입니다 @ratsgo

import sys
sys.path.insert(0, '../')

import contextlib
import os
import sys
from colored import fg, bg, attr

from Korpora.korpus_aihub_translation import (
    AIHubTranslationKorpus,
    AIHubSpokenTranslationKorpus,
    AIHubConversationTranslationKorpus,
    AIHubNewsTranslationKorpus,
    AIHubKoreanCultureTranslationKorpus,
    AIHubDecreeTranslationKorpus,
    AIHubGovernmentWebsiteTranslationKorpus,
)


## SET ARGUMENT ##
CUSTOM_DIR = 'path/to/AIHub_Translation/'


@contextlib.contextmanager
def nostdout():
    save_stdout = sys.stdout
    sys.stdout = open(os.devnull, "w")
    yield
    sys.stdout = save_stdout


korpus_class_lengths = [
    (AIHubTranslationKorpus, 1602418 ),
    (AIHubSpokenTranslationKorpus, 400000),
    (AIHubConversationTranslationKorpus, 100000),
    (AIHubNewsTranslationKorpus, 801387),
    (AIHubKoreanCultureTranslationKorpus, 100646),
    (AIHubDecreeTranslationKorpus, 100298),
    (AIHubGovernmentWebsiteTranslationKorpus, 100087),
]

for korpus_class, length in korpus_class_lengths:
    classname = korpus_class.__class__.__name__
    with nostdout():
        corpus = korpus_class()
    assert len(corpus.train) == length
    print(f'{fg(2)} passed {classname} with default dir {attr(0)}')

    if CUSTOM_DIR:
        with nostdout():
            corpus = korpus_class(CUSTOM_DIR)
            assert len(corpus.train) == length
        print(f'{fg(2)} passed {classname} with custom dir {attr(0)}')
    print('LENGTH', len(corpus.train))

lovit added a commit that referenced this issue Oct 15, 2020
lovit added a commit that referenced this issue Oct 15, 2020
lovit added a commit that referenced this issue Oct 15, 2020
@lovit lovit mentioned this issue Oct 15, 2020
3 tasks
@lovit lovit changed the title AIHub: 번역데이터 loaders [Corpus] AIHub: 번역데이터 loaders Oct 16, 2020
@lovit lovit closed this as completed Oct 18, 2020
lovit added a commit that referenced this issue Nov 2, 2020
Unify variable name: `root_dir_or_paths` -> `root_dir` (#136)
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant