关于batch-size设置为3072 #34

Hanlard · 2021-01-04T01:07:59Z

关于batch-size在论文中提及的很少。我有看过NVIDIA的Megatron模型代码，在一张V-100上存1.3B（模型并行为2的条件下）的参数，batch_size最大为16（默认是8），如果不用梯度累加策略的话，在 64卡上batch最大为512，请问您是如何做到3072呢？

zzy14 · 2021-01-19T06:08:00Z

做了梯度累计，batch_size 12然后做8次梯度累计。

lulu51230 · 2021-02-04T05:44:13Z

所以，请问是2张卡做模型并行、32张卡做数据并行吗？

Provide feedback