Transformer-ReImplementation

DMIS 연구실에서 진행한 Transformer 모델 재구현 프로젝트입니다. (Attention is All You Need (2017))

Usage

Train

python main.py --mode train

python main.py --mode train --checkpoint ./checkpoints/model_5.pt --run_name from_epoch_5 --data_path ./data --tokenizer_path ./tokenizer --lr 1e-4

Evaluate

python main.py --mode eval

Inference

python main.py --mode test

Optional Arguments

Argument	Default	Description
--checkpoint	None	Checkpoint path
--tokenizer_path	None	Path of pretrained tokenizer
--data_path	./data	Data path of train/val/test
--output_path	./output	Output path (for inference)
--batch_size	32	batch size
--num_epochs	10	number of epochs
--device	cuda	Device type (cpu or cuda)
--lr	1e-4	Learning rate
--run_name	From scratch	WandB Run name

Dataset

IWSLT2017 en-de 데이터셋 (https://huggingface.co/datasets/iwslt2017)

Environment

NVIDIA GeForce RTX 3060 (12GB VRAM)

Settings

학습에 사용한 하이퍼파라미터는 다음과 같습니다.

Name	Value
Epochs	8
Batch size	32
Learning rate	1e-4
Dropout	0.1

Result

Validation BLEU score는 아래와 같습니다.

BLEU가 가장 높은 체크포인트를 대상으로 Test를 진행하였으며, 결과는 아래와 같습니다.

Model	BLEU
Transformer(Base, Paper)	27.3
Transformer(Ours)	20.1

References

원 논문 이외에 아래 레퍼런스를 추가로 참고하여 구현하였습니다.

Name		Name	Last commit message	Last commit date
Latest commit History 39 Commits
data		data
model		model
results		results
tokenizer		tokenizer
.DS_Store		.DS_Store
.gitignore		.gitignore
README.md		README.md
dataset.ipynb		dataset.ipynb
dataset.py		dataset.py
eval.py		eval.py
inference.py		inference.py
main.py		main.py
tokenizer.py		tokenizer.py
train.py		train.py
validation.png		validation.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Transformer-ReImplementation

Usage

Train

Evaluate

Inference

Optional Arguments

Dataset

Environment

Settings

Result

References

About

Releases

Packages

Languages

bbang3/transformer-reImplementation

Folders and files

Latest commit

History

Repository files navigation

Transformer-ReImplementation

Usage

Train

Evaluate

Inference

Optional Arguments

Dataset

Environment

Settings

Result

References

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages