mod: README.md

duterscmy · Nov 22, 2024 · 13cede9 · 13cede9
1 parent 5fa0652
commit 13cede9
Show file tree

Hide file tree

Showing 2 changed files with 20 additions and 3 deletions.
diff --git a/README.md b/README.md
@@ -80,4 +80,21 @@ For some intermediate variables, we provide some already generated results. The
 
 ## Evaluation
 
-TODO
+Install [lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness)  
+Evaluate the pruned model:
+```bash
+lm_eval --model hf \
+    --model_args $modelpath \
+    --tasks arc-challenge,boolq,piqa,rte,obqa,winogrande,mmlu,hellaswag \
+    --device cuda:0 \
+    --batch_size 8
+```
+Evaluate the fine-tuned model:
+```bash
+lm_eval --model hf \
+    --model_args $modelpath \
+    --tasks arc-challenge,boolq,piqa,rte,obqa,winogrande,mmlu,hellaswag \
+    --device cuda:0 \
+    --batch_size 8 \
+    --ignore_mismatched_sizes
+```
diff --git a/cd-moe/finetune/finetune.py b/cd-moe/finetune/finetune.py
@@ -32,7 +32,7 @@
                     help="finetune data")
 parser.add_argument("--c4-input", default="datasets/c4-train.00000-of-01024.1w.json",
                     help="finetune data")
-parser.add_argument("--input-name", default="",
+parser.add_argument("--input-name", default="c4",
                     help="finetune data name")
 parser.add_argument("--model", default="./deepseek",
                     help="预训练模型路径")
@@ -46,7 +46,7 @@
                     help="默认为qw16B层数")  # deepseek 27 qw24
 parser.add_argument("--num-expert", type=int, default=64, help="默认为qw16B专家数")
 
-parser.add_argument("--score-mode", type=str, default="l1", help="层间对专家排序的指标")
+parser.add_argument("--score-mode", type=str, default="greedy_jl", help="层间对专家排序的指标")
 parser.add_argument("--prune-num-expert", default=6, type=int,
                     help="剪枝后剩余的expert数量")
 parser.add_argument("--prune-num-layer", default=9, type=int,