Skip to content

한글 -> 영어로 번역하는 프로젝트입니다. 번역기, 파파고 등

License

Notifications You must be signed in to change notification settings

gyupro/Koalpaca-Translation-KR2EN

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

28 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Koalpaca-Translation-KR2EN

이 프로젝트는, 맥락을 기억하지 않습니다. 한글 문장이 들어오면, 그대로 영어 문장을 출력하는 문장 번역기입니다.

성능을 향상시킬수 있는 더 좋은 아이디어 있으면 이슈 부탁드리겠습니다. !

테스트 된 환경

  • Ubuntu 20.04
  • pytorch 2.1.1

V100 기준 GPU VRAM 사용량 : 12GB

설치 및 실행

필요한 라이브러리 설치

git clone https://github.com/gyupro/Koalpaca-Translation-KR2EN.git
cd Koalpaca-Translation-KR2EN
pip install -r requirements.txt

실행

python serving.py

위의 파이썬 커맨드 실행 후, http://localhost:7860으로 들어가시면 gradio 채팅 앱이 보일껍니다. 입력문장에 한글을 입력하시고, 엔터를 누르시면 번역된 결과를 보실수 있습니다.

image

필요한 모델 & 토크나이저는 자동으로 다운됩니다.

데이터셋

데이터셋은 AIHUB의 구어체 번역 데이터셋을 사용했습니다. AIHUB

Train 폴더에 있는 데이터만 사용했으며, 데이터셋을 전처리한 코드는 여기 에서 보시면 됩니다.

KO_TO_EN source 한국어 target 영어 120만 문장 쌍
EN_TO_KO source 영어 target 한국어 120만 문장 쌍

데이터셋 예제

여기에서 확인해볼수 있습니다.

학습

학습은 위의 KO_TO_EN과 EN_TO_KO를 모두 source KO target EN으로 학습시켰으며, Koalpaca의 run_tensor_parellel.py파일을 사용했습니다. 사용된 모델은 polyglot 5.8B입니다.

장점

학습된 어체가 구어체이다보니, 구어체를 잘 인식하고 상황에 맞게 잘 번역합니다.

단점

학습된 문장 자체가 짧은 단문이기 때문에, 긴문장 번역에 취약점을 보입니다. 또한 구어체 번역이기에, 전문 서적, 전문번역 성능은 떨어집니다.

About

한글 -> 영어로 번역하는 프로젝트입니다. 번역기, 파파고 등

Topics

Resources

License

Stars

Watchers

Forks

Packages

No packages published