PaddlePaddle · ZHUI · Jan 16, 2025 · Jan 3, 2025 · Jan 9, 2025 · Jan 9, 2025
diff --git a/llm/run_finetune.py b/llm/run_finetune.py
@@ -152,6 +152,9 @@ def main():
         quantization_config=quantization_config,
     )
 
+    if "Qwen2Moe" in str(model_config.architectures) and training_args.data_parallel_degree > 1:
+        training_args.use_expert_parallel = True
+
     LlmMetaConfig.set_llm_config(model_config, training_args)
     model_config.use_fast_layer_norm = model_args.use_fast_layer_norm
 

diff --git a/llm/run_pretrain.py b/llm/run_pretrain.py
@@ -479,6 +479,9 @@ def main():
             except:
                 print("Not register llama pp reshard information.")
 
+    if "Qwen2Moe" in str(config.architectures) and training_args.data_parallel_degree > 1:
+        training_args.use_expert_parallel = True
+
     if model_args.continue_training:
         # NOTE(gongenlei): new add
         if training_args.autotuner_benchmark:

diff --git a/paddlenlp/transformers/moe_layer.py b/paddlenlp/transformers/moe_layer.py
@@ -162,12 +162,14 @@
             self.moe_num_experts_per_device = self._parse_moe_expert_parallel(
                 self.moe_num_experts, self.expert_parallel_degree
             )
+            self.is_dummy_moe = False if self.expert_parallel_degree > 1 else True
         else:
             # when moe_group is dummy, we don't need to use all_to_all
             self.moe_group = None
             self.moe_rank = 0
             self.expert_parallel_degree = 1
             self.moe_num_experts_per_device = self.moe_num_experts
+            self.is_dummy_moe = True
 
         self.all_to_all_dropout = all_to_all_dropout
         self.enable_recompute = False
@@ -181,6 +183,7 @@
 
         self.gate = gate
         self.gate.group = self.moe_group
+        self._post_init()
 
     def _parse_moe_expert_parallel(self, moe_num_experts, expert_parallel_degree):
         assert (