PaddlePaddle · ZHUI · Dec 12, 2023 · Dec 8, 2023 · Dec 8, 2023 · Dec 11, 2023
diff --git a/paddlenlp/transformers/gpt/modeling_pp.py b/paddlenlp/transformers/gpt/modeling_pp.py
@@ -22,7 +22,10 @@
 from paddle.distributed.fleet.utils import recompute
 
 from paddlenlp.transformers.model_utils import PipelinePretrainedModel
-from paddlenlp.transformers.sequence_parallel_utils import GatherOp
+from paddlenlp.transformers.sequence_parallel_utils import (
+    GatherOp,
+    mark_as_sequence_parallel_parameter,
+)
 
 from .modeling import (
     GPTConfig,
@@ -128,6 +131,9 @@
 class LayerNormPipe(nn.LayerNorm):
     def __init__(self, config):
         super(LayerNormPipe, self).__init__(config.hidden_size, epsilon=1e-05)
+        if config.sequence_parallel:
+            mark_as_sequence_parallel_parameter(self.weight)
+            mark_as_sequence_parallel_parameter(self.bias)
 
     def forward(self, args):
         hidden_states, attention_mask, position_ids = parse_args(args)