t5_11

housing our model example of fine tuning an 11B t5 with FSDP to create a world-class grammar checker.

pip install -r requirements.txt

a large and small dataset are already present in the project (grammar_train.csv = small, gtrain_150K.csv = large).

torchrun --nnodes=1 --nproc_per_node=8 --rdzv_id=101 --rdzv_endpoint="localhost:5679" main_benchmark.py

On an A100 (p4d.24xlarge) you should expect to see:

To train with mp spawn:

python main.py

Or better, with torchrun:

torchrun --nnodes=1 --nproc_per_node=8 --rdzv_id=101 --rdzv_endpoint="localhost:5679" main_elastic.py

You can control the model size, dataset size, batch size, etc. all in the config/defaults.py

Name		Name	Last commit message	Last commit date
Latest commit History 339 Commits
_comm_hooks		_comm_hooks
build_from_src		build_from_src
code_snippets		code_snippets
config		config
datasets_grammar		datasets_grammar
fsdp		fsdp
fsdp_misc		fsdp_misc
hpc-cluster		hpc-cluster
model_checkpoints		model_checkpoints
performance		performance
policies		policies
server_utils		server_utils
utils		utils
verify		verify
.gitignore		.gitignore
ChildTuningOptimizer.py		ChildTuningOptimizer.py
README.md		README.md
anyprecision_optimizer.py		anyprecision_optimizer.py
anyprecision_quant.py		anyprecision_quant.py
bff_optimizer.py		bff_optimizer.py
collect_env.py		collect_env.py
environment.yml		environment.yml
fully_sharded_data_parallel_fix.py		fully_sharded_data_parallel_fix.py
grammar_train.csv		grammar_train.csv
install_PT1.10_from_src.sh		install_PT1.10_from_src.sh
job_epilog.sh		job_epilog.sh
job_prolog.sh		job_prolog.sh
madgrad.py		madgrad.py
main_aot.py		main_aot.py
main_benchmark.py		main_benchmark.py
main_mp_old.py		main_mp_old.py
main_training.py		main_training.py
model_eval.ipynb		model_eval.ipynb
namedtuple_check.ipynb		namedtuple_check.ipynb
predict.ipynb		predict.ipynb
predict.py		predict.py
predict2.ipynb		predict2.ipynb
requirements.txt		requirements.txt
run_benchmark.sh		run_benchmark.sh
run_training.sh		run_training.sh
t5-large-sharded_layout.txt		t5-large-sharded_layout.txt
t5-small-sharded_layout.txt		t5-small-sharded_layout.txt
t5.slurm		t5.slurm
t5_benchmark.slurm		t5_benchmark.slurm
test_error_injection.py		test_error_injection.py
testing.ipynb		testing.ipynb
testreq.txt		testreq.txt
utils.py		utils.py

Provide feedback