使用FastChat的一些脚本 #64
Valdanitooooo
started this conversation in
General
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
4个脚本
1_start_controller.sh
2_start_worker.sh
3_start_api_server.sh
4_start_web_ui.sh
vllm
使用vllm就改下2_start_worker.sh
model_worker改成vllm_worker
Tips
主要在woker部分可玩的方式比较多
比如用阿里云 A10 24GB * 8卡的服务器,部署qwen 14B、chatglm3-6b、wizardcoder 34B、llama2-7b四个模型
可以分给wizardcoder 4卡,qwen2卡,llama2和chatglm各1卡这样部署
也可以给wizardcoder 8卡,但显存限制最多用50%,给qwen4卡,显存最多占用50%,给llama2和chatglm各2卡,显存占用最多50%
方法很多,需要根据实际部署的模型占用显存的多少,以及并发量合理分配显存
worker支持的参数很多,可以
python -m fastchat.serve.model_worker --help
查看用来指定显卡,比如
--gpus 0,1,2,3
这样就使用了8卡中的前四个,我记得这个参数也不是随便写的,使用gpu的数量要能被64整除限制使用显存使用量,单位Gib,如
- --max-gpu-memory 22Gib
,这个使用量针对的是单张卡查看
python -m fastchat.serve.vllm_worker --help
和model_worker有些区别它不能直接限制显存使用量,它的参数是
传入的是小数,如 - --gpu-memory-utilization 0.5,即 使用显存量不超过单张卡的50%
Beta Was this translation helpful? Give feedback.
All reactions