中文 | English
⚡特性:
- 添加ChatGPT fine-tuning实现,推荐有额度的朋友在ChatGPT上进行微调实验;
- 支持ChatGPT-Next-Web部署微调的模型;
- 支持Gradio部署微调的模型;
- 支持LLaMA、LLaMA-2全系列模型训练;
- 支持LoRA、QLoRA,包括后续PPO、DPO强化学习训练;
- 支持模型与知识库结合问答;
- 开源了超过60个医院科室的导诊材料信息;
- 开发了支持GPT-4/ChatGPT模型蒸馏医学数据的工具,能够批量生成各种用于构建知识库和微调的数据;
- 聚合了丰富的开源医学LLM、LLM训练的医学数据、LLM部署资料、LLM测评以及相关LLM的资源整理;
- 我们参与了医学LLM的CMB榜单评测-IvyGPT,在测试中,我们领先ChatGPT及一众开源医学LLM;
- 我们基于自有数据集在不同基座LLM上训练开源了多个医疗LLM,您可以直接下载体验;
- LLM-Pretrain-FineTune/data_pretrain
- MedicalGPT/pretrain
- zysj
- TCM-Ancient-Books (近700项中医药古籍文本)
- epfl-llm/guidelines
- icliniq-10k(en)
- HealthCareMagic-100k(en)
- ShenNong_TCM_Dataset
- ✅ChatMed_Consult_Dataset
- Chinese-medical-dialogue-data
- cMedQA2
- ✅Huatuo-26M
- cMedQA2
- webMedQA
- PubMedQA
- CMCQA
- ✅QiZhenGPT
- ✅LLM-Pretrain-FineTune/data_sft
- Medical-Dialogue-System
- IMCS-V2
- CHIP-MDCFNPC
- MedDG
- ✅HuatuoGPT-sft-data-v1
- MedicalGPT/finetune
- ✅shibing624/medical
- medAlpaca/data
- ✅Zhongjing/sft
- medical_dialog
- huatuo_encyclopedia_qa
- Med-ChatGLM/data
- CMB
- GenMedGPT-5k(en)
- Alpaca-CoT(general)
- ✅DISC-Med-SFT
- ✅HuatuoGPT2_sft_instruct
- FreedomIntelligence/Medbase_data
- openmedlab/Awesome-Medical-Dataset
conda create -n llm python=3.11
conda activate llm
python -m pip install -r requirements.txt
# 转为HF格式
python -m transformers.models.llama.convert_llama_weights_to_hf \
--input_dir path_to_llama_weights --model_size 7B --output_dir path_to_llama_model
- LLaMA-2模型下载:https://huggingface.co/meta-llama
数据集配置、PT、SFT、RW数据格式
如果您使用自定义数据集,请务必在 dataset_info.json
文件中以如下格式提供您的数据集定义。
"数据集名称": {
"hf_hub_url": "HuggingFace上的项目地址(若指定,则忽略下列三个参数)",
"script_url": "包含数据加载脚本的本地文件夹名称(若指定,则忽略下列两个参数)",
"file_name": "该目录下数据集文件的名称(若上述参数未指定,则此项必需)",
"file_sha1": "数据集文件的SHA-1哈希值(可选)",
"columns": {
"prompt": "数据集代表提示词的表头名称(默认:instruction)",
"query": "数据集代表请求的表头名称(默认:input)",
"response": "数据集代表回答的表头名称(默认:output)",
"history": "数据集代表历史对话的表头名称(默认:None)"
}
}
其中 prompt
和 response
列应当是非空的字符串。query
列的内容将会和 prompt
列拼接作为模型输入。history
列应当是一个列表,其中每个元素是一个字符串二元组,分别代表用户请求和模型答复。
.txt
格式,一行一个无监督数据。
Machine learning (ML) is a field devoted to understanding and building methods that let machines "learn" – that is, methods that leverage data to improve computer performance on some set of tasks.
Machine learning algorithms build a model based on sample data, known as training data, in order to make predictions or decisions without being explicitly programmed to do so. Machine learning algorithms are used in a wide variety of applications, such as in medicine, email filtering, speech recognition, agriculture, and computer vision, where it is difficult or unfeasible to develop conventional algorithms to perform the needed tasks.
[
{
"instruction": "听起来很不错。人工智能可能在哪些方面面临挑战呢?",
"input": "",
"output": "人工智能面临的挑战包括数据隐私、安全和道德方面的问题,以及影响就业机会的自动化等问题。",
"history": [
["你好,你能帮我解答一个问题吗?", "当然,请问有什么问题?"],
["我想了解人工智能的未来发展方向,你有什么想法吗?", "人工智能在未来的发展方向可能包括更强大的机器学习算法,更先进的自然语言处理技术,以及更加智能的机器人。"]
]
}
]
[
{
"instruction": "听起来很不错。人工智能可能在哪些方面面临挑战呢?",
"input": "",
"output": "人工智能面临的挑战包括数据隐私、安全和道德方面的问题,以及影响就业机会的自动化等问题。",
"history": []
}
]
[
{
"instruction": "生成三个与“道歉”意思相同的动词",
"input": "",
"output": [
"承认,表示遗憾,弥补。",
"道歉"
]
}
]
训练参数与指令
查看你的显卡是否是NVLINK连接,NVLINK连接才能有效使用accelerate
进行并行加速训练。
nvidia-smi topo -m
accelerate config # configure the environment
accelerate launch src/train_bash.py # arguments (same as above)
# LLaMA-2
accelerate launch src/train_bash.py \
--stage sft \
--model_name_or_path ./Llama-2-7b-chat-hf \
--do_train \
--dataset mm \
--finetuning_type lora \
--quantization_bit 4 \
--overwrite_cache \
--output_dir output \
--per_device_train_batch_size 8 \
--gradient_accumulation_steps 4 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_steps 1000 \
--learning_rate 5e-5 \
--num_train_epochs 2.0 \
--plot_loss \
--fp16 \
--template llama2 \
--lora_target q_proj,v_proj
# LLaMA
accelerate launch src/train_bash.py \
--stage sft \
--model_name_or_path ./Llama-7b-hf \
--do_train \
--dataset mm,hm \
--finetuning_type lora \
--overwrite_cache \
--output_dir output-1 \
--per_device_train_batch_size 4 \
--gradient_accumulation_steps 4 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_steps 2000 \
--learning_rate 5e-5 \
--num_train_epochs 2.0 \
--plot_loss \
--fp16 \
--template default \
--lora_target q_proj,v_proj
# LLaMA-2, DPO
accelerate launch src/train_bash.py \
--stage dpo \
--model_name_or_path ./Llama-2-7b-chat-hf \
--do_train \
--dataset rlhf \
--template llama2 \
--finetuning_type lora \
--quantization_bit 4 \
--lora_target q_proj,v_proj \
--resume_lora_training False \
--checkpoint_dir ./output-2 \
--output_dir output-dpo \
--per_device_train_batch_size 2 \
--gradient_accumulation_steps 4 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_steps 1000 \
--learning_rate 1e-5 \
--num_train_epochs 1.0 \
--plot_loss \
--fp16
推理参数与指令
# LLaMA-2
python src/web_demo.py \
--model_name_or_path ./Llama-2-7b-chat-hf \
--checkpoint_dir output \
--finetuning_type lora \
--template llama2
# LLaMA
python src/web_demo.py \
--model_name_or_path ./Llama-7b-hf \
--checkpoint_dir output-1 \
--finetuning_type lora \
--template default
# DPO
python src/web_demo.py \
--model_name_or_path ./Llama-2-7b-chat-hf \
--checkpoint_dir output-dpo \
--finetuning_type lora \
--template llama2
# LLaMA-2
python src/api_demo.py \
--model_name_or_path ./Llama-2-7b-chat-hf \
--checkpoint_dir output \
--finetuning_type lora \
--template llama2
# LLaMA
python src/api_demo.py \
--model_name_or_path ./Llama-7b-hf \
--checkpoint_dir output-1 \
--finetuning_type lora \
--template default
# DPO
python src/api_demo.py \
--model_name_or_path ./Llama-2-7b-chat-hf \
--checkpoint_dir output-dpo \
--finetuning_type lora \
--template llama2
测试API:
curl -X 'POST' \
'http://127.0.0.1:8888/v1/chat/completions' \
-H 'accept: application/json' \
-H 'Content-Type: application/json' \
-d '{
"model": "string",
"messages": [
{
"role": "user",
"content": "你好"
}
],
"temperature": 0,
"top_p": 0,
"max_new_tokens": 0,
"stream": false
}'
# LLaMA-2
python src/cli_demo.py \
--model_name_or_path ./Llama-2-7b-chat-hf \
--checkpoint_dir output \
--finetuning_type lora \
--template llama2
# LLaMA
python src/cli_demo.py \
--model_name_or_path ./Llama-7b-hf \
--checkpoint_dir output-1 \
--finetuning_type lora \
--template default
# DPO
python src/cli_demo.py \
--model_name_or_path ./Llama-2-7b-chat-hf \
--checkpoint_dir output-dpo \
--finetuning_type lora \
--template llama2
# LLaMA-2
CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
--stage sft \
--model_name_or_path ./Llama-2-7b-chat-hf \
--do_predict \
--dataset mm \
--template llama2 \
--finetuning_type lora \
--checkpoint_dir output \
--output_dir predict_output \
--per_device_eval_batch_size 8 \
--max_samples 100 \
--predict_with_generate
# LLaMA
CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
--stage sft \
--model_name_or_path ./Llama-7b-hf \
--do_predict \
--dataset mm \
--template default \
--finetuning_type lora \
--checkpoint_dir output-1 \
--output_dir predict_output \
--per_device_eval_batch_size 8 \
--max_samples 100 \
--predict_with_generate
# LLaMA-2
CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
--stage sft \
--model_name_or_path ./Llama-2-7b-chat-hf \
--do_eval \
--dataset mm \
--template llama2 \
--finetuning_type lora \
--checkpoint_dir output \
--output_dir eval_output \
--per_device_eval_batch_size 8 \
--max_samples 100 \
--predict_with_generate
# LLaMA
CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
--stage sft \
--model_name_or_path ./Llama-7b-hf \
--do_eval \
--dataset mm \
--template default \
--finetuning_type lora \
--checkpoint_dir output-1 \
--output_dir eval_output \
--per_device_eval_batch_size 8 \
--max_samples 100 \
--predict_with_generate
在4/8-bit评估时,推荐使用--per_device_eval_batch_size=1
和--max_target_length 128
Gradio部署指令
# LLaMA-2
python src/export_model.py \
--model_name_or_path ./Llama-2-7b-chat-hf \
--template llama2 \
--finetuning_type lora \
--checkpoint_dir output-1 \
--output_dir output_export
# LLaMA
python src/export_model.py \
--model_name_or_path ./Llama-7b-hf \
--template default \
--finetuning_type lora \
--checkpoint_dir output \
--output_dir output_export
%cd Gradio
python app.py
6.ChatGPT-Next-Web部署
Next部署指令
# LLaMA-2
python src/api_demo.py \
--model_name_or_path ./Llama-2-7b-chat-hf \
--checkpoint_dir output \
--finetuning_type lora \
--template llama2
# LLaMA
python src/api_demo.py \
--model_name_or_path ./Llama-7b-hf \
--checkpoint_dir output-1 \
--finetuning_type lora \
--template default
- 修改配置:
安装并打开Next,然后打开
设置
,修改接口地址
为:http://127.0.0.1:8000/
(即你的API接口地址),然后就可以使用了。
- 在CareGPT中并未对分词模型进行中文分词的添加和重新训练,但是效果依旧表现可喜;
- 全流程的LLM训练包括:预训练、监督微调、奖励模型、强化学习,多数情况下监督微调即可满足自身需求;
- 在算力充足情况下推荐使用医疗数据和通用语料数据进行训练,这样模型既可以有医学上的训练学习,也可以保持通用能力(如指令遵循);
- 不要指望一个医疗LLM就可以满足所有需求,合理的做法可能是实时更新的知识库+微调的医疗LLM(如ChatLaw);
- BLOOMZ模型系列使用了PILE语料库进行训练,该语料库包含各种医学文本,包括
PubMed Central
和PubMed Abstracts
等。这些宝贵的文本极大地丰富了BLOOMZ模型的医学知识体系,所以很多开源项目都会优先选择BLOOMZ做医学微调的底座模型; - (2023.08.26) ChatGPT基于代码GPT训练而来,那我们采用CodeLLaMA在下游任务微调会不会比在LLaMA-1/2上微调取得更好的结果呢?
- 结合我们最近的工作与最近许多公开发表的工作证明:在LLM时代,数据
质量 > 数量
这个真理,如:Less is More! 上交清源 && 里海 | 利用200条数据微调模型,怒超MiniGPT-4!,超大规模的SFT数据会让下游任务LLM减弱或者失去ICL、CoT等能力; - 对于垂类模型,或许我们更应该关注PT的过程,而不是采集千万百万的SFT数据做训练,我们的建议是
大规模预训练+小规模监督微调=超强的LLM模型
; - 一个好的预训练医学LLM尚未在开源社区中被开放出来,期待有人能去补充这样的工作;
预训练可以灌入知识,监督微调只是激活领域能力(无法关注知识)?预训练的知识与监督微调知识应该呼应?预训练几十GB的语料知识会被原来数万亿token预训练的模型知识淹没?- 大量数据进行二次预训练需要配比各类型其他数据:(1)语言模型训练完成后,参数各个区域负责部分已经确定,如果大量增加某类在预训练时没有的知识,会造成参数的大幅度变化,造成整个语言模型能力损失; (2)进行大规模数据的二次预训练,需要添加5-10倍原始预训练中的数据,并打混后一起训练;
- 指令微调阶段不能够进行过多轮次训练:(1)针对少量数据进行多个EPOCH的训练,可能会造成语言关键区域变化,从而导致整个模型失效; (2)为了特定任务提升的指令微调,为了保证模型语言能力关键区不被大幅度调整,需要添加通用指令微调数据或者预训练数据;
- 训练数据要严格控制噪音:(1)预训练数据中如果出现少量连续的噪音数据,比如连续重复单词、非单词序列等,都可能造成特定维度的调整,从而使得模型整体PPL大幅度波动; (2)有监督微调指令中如果有大量与原有大语言模型不匹配的指令片段,也可能造成模型调整特定维度,从而使得模型整体性能大幅度下降;
- 大模型混合多种能力数据微调时呈现:高资源冲突,低资源增益,所以混合不同数据进行微调需要一定的工程技巧;
- 通常来说,lora与full-tuning有不可忽略的性能差异(如LoRA results in 4-6% lower performance compared to full fine-tuning);
- 7B系列模型请优先采用全参数微调方式,13B及以上参数模型可使用LoRA,QLoRA等方法;
- 超大参数模型即使被量化其能力依然能保持的较好;
- 虽然 LLM 训练(或者说在 GPU 上训练出的所有模型)有着不可避免的随机性,但多 lun 训练的结果仍非常一致;
- 如果受 GPU 内存的限制,QLoRA 提供了一种高性价比的折衷方案。它以运行时间增长 39% 的代价,节省了 33% 的内存;
- 在微调 LLM 时,优化器的选择不是影响结果的主要因素。无论是 AdamW、具有调度器 scheduler 的 SGD ,还是具有 scheduler 的 AdamW,对结果的影响都微乎其微;
- 虽然 Adam 经常被认为是需要大量内存的优化器,因为它为每个模型参数引入了两个新参数,但这并不会显著影响 LLM 的峰值内存需求。这是因为大部分内存将被分配用于大型矩阵的乘法,而不是用来保留额外的参数;
- 对于静态数据集,像多轮训练中多次迭代可能效果不佳。这通常会导致过拟和,使训练结果恶化;
- 如果要结合 LoRA,确保它在所有层上应用,而不仅仅是 Key 和 Value 矩阵中,这样才能最大限度地提升模型的性能;
- 调整 LoRA rank 和选择合适的 α 值至关重要。提供一个小技巧,试试把 α 值设置成 rank 值的两倍;
- 14GB RAM 的单个 GPU 能够在几个小时内高效地微调参数规模达 70 亿的大模型。对于静态数据集,想要让 LLM 强化成「全能选手」,在所有基线任务中都表现优异是不可能完成的。想要解决这个问题需要多样化的数据源,或者使用 LoRA 以外的技术;
- 根据NeurIPS workshop的建议,截止2023年12月18日,微调模型建议选型为
英文10B以下选择Mistral-7B中文
,10B以下选择Yi-6B
,10B以上选择Qwen-14B和Yi-34B
;
Important
欢迎大家在ISSUE中补充新的经验!
11~13方法论来自于130亿大语言模型仅改变1个权重就会完全丧失语言能力!复旦大学自然语言处理实验室最新研究.
14方法论来自于How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition
17~25方法论来自LLM Optimization: Layer-wise Optimal Rank Adaptation (LORA) 中文版解读
阶段 | 权重介绍 | 下载地址 | 特点 | 底座模型 | 微调方法 | 数据集 |
---|---|---|---|---|---|---|
🌟监督微调 | 多轮对话数据基于LLaMA2-7b-Chat训练而来 | ⚙️CareLlama2-7b-chat-sft-multi、🧰CareLlama2-7b-multi | 出色的多轮对话能力 | LLaMA2-7b-Chat | QLoRA | mm |
监督微调 | 丰富高效医患对话数据基于LLaMA2-7b-Chat训练而来 | ⚙️CareLlama2-7b-chat-sft-med | 出色的患者疾病诊断能力 | LLaMA2-7b-Chat | QLoRA | hm |
监督微调 | 混合数据基于LLaMA-7b训练而来 | ⚙️CareLlama1-7b-merge | 更出色的医疗对话能力 | LLaMA-7b | LoRA | mm,hm |
监督微调 | 混合数据基于LLaMA2-7b-Chat训练而来 | ⚙️CareLlama2-7b-merge、🧰CareLlama2-7b-merge-mix | 更出色的医疗对话能力 | LLaMA2-7b-Chat | QLoRA | mm,hm |
DPO | ⚙️CareLlama2-7b-merge-dpo | rlhf | ||||
监督微调 | 更多混合数据基于LLaMA2-7b-Chat训练而来 | ⚙️CareLlama2-7b-super、🧰CareLlama2-7b-super-mix | 更出色的医疗对话能力 | LLaMA2-7b-Chat | QLoRA |