Releases · alibaba/Pai-Megatron-Patch

--添加LLama3.1最佳实践支持最新的Flash-Attention 3, Offloading, Comm-Overlapping等加速技术。
--升级Qwen2最佳实践支持最新的Flash-Attention 3, Offloading, Comm-Overlapping等加速技术。
--优化PAI算法团队自研的Optimizer Offloading的降显存效果以及吞吐性能。
--修复已知的Bugs。

Assets 2

26 Jul 06:49

jerryli1981

v0.9.0

f335d9e

v0.9.0

--添加基于MPI的分布式训练方式，用以支持Mcore的tp-comm-overlap加速开关。
--添加基于Distributed Optimizer改进的OffloadDistributedOptimizer，用以支持大模型&长序列训练时参数/梯度Cpu Offload降显存。
--添加微调训练使用IdxMap数据格式，用以支持70B大模型的打开TP/PP时高效微调。
--修复已知的Bugs。

Assets 2

28 Jun 03:30

jerryli1981

v0.8.3

0ac48a0

v0.8.3

--添加Qwen-2-Dense/MoE的Mcore实现的最佳实践。
--添加Qwen2系列模型增强型基于Mcore算子赋值技术的模型转换（逐算子逐层前向精度比对，转换浮点控制，支持算子拆分/专家并行/流水并行）
--优化Qwen-2-Dense/MoE的Loss收敛可靠性。
--优化DeepSeek-V2-MoE的收敛效果，支持模型并行的MLA的Loss收敛可靠性问题彻底解决。
--Qwen2的Tokenizer重构支持对接新版Mcore0.7.0。
--修复已知的Bugs。

Assets 2

31 May 06:44

jerryli1981

v0.8.2

8be40a3

v0.8.2

--添加Qwen-1.5-MoE的Mcore实现。
--添加DeepSeek-V2-MoE的Mcore实现。
--优化MoE的Quick Start使用教程
--修复已知的Bugs。

Assets 2

26 Apr 08:00

jerryli1981

v0.8.1

0ab8902

v0.8.1

--添加LLama3，Mistral，Qwen1.5热门大模型在四种工具链模式上的11款Quick Starts。
--接入llama3模型同时支持Megatron-LM和Megatron Core。
--接入Qwen1.5 32B同时支持Megatron-LM和Megatron Core。
--接入MegaBlocks MoE训练流程。
--通过重新梳理整个训练流程，排查各个环节潜在出错并和HF进行精准对齐后继续预训练/微调效果优化取得进展。
--修复已知的Bugs。

Assets 2

21 Mar 07:34

jerryli1981

v0.8.0

2087710

v0.8.0

‒ 添加qwen1.5模型的Megatron LM和Megatron-Core Transformer Engine实现。
‒ 完成Pai-Megatron-Patch工具基于Instruction Tuning的微调链路HFDS和Megatron引擎的下游任务效果对齐工作。
‒ 基于Megatron-Patch的工具实施的MoE-Upcycled算法取得阶段性成果。
‒ 修复已知的Bugs。

Assets 2

22 Feb 07:07

jerryli1981

v0.7.2

8356b56

v0.7.2

‒ 添加lm-evaluation-harness工具用以评估大模型在中英文数据集上的效果。
‒ 优化Mixtral-MoE在upcycled情况下的收敛效果。
‒ 优化qwen模型的微调效果和huggingface效果对齐。
‒ 修复已知的Bugs。

Assets 2

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Releases: alibaba/Pai-Megatron-Patch

v0.10.0

v0.9.3

v0.9.2

v0.9.1

v0.9.0

v0.8.3

v0.8.2

v0.8.1

v0.8.0

v0.7.2