PaddlePaddle · yuchen202 · Oct 20, 2023
diff --git a/docs/api/paddle/io/DataLoader_cn.rst b/docs/api/paddle/io/DataLoader_cn.rst
@@ -40,7 +40,7 @@ DataLoader 当前支持 ``map-style`` 和 ``iterable-style`` 的数据集，``ma
     - **num_workers** (int，可选) - 用于加载数据的子进程个数，若为 0 即为不开启子进程，在主进程中进行数据加载。默认值为 0。
     - **use_buffer_reader** (bool，可选) - 是否使用缓存读取器。若 ``use_buffer_reader`` 为 True，DataLoader 会异步地预读取一定数量（默认读取下一个）的 mini-batch 的数据，可加速数据读取过程，但同时会占用少量的 CPU/GPU 存储，即一个 batch 输入数据的存储空间。默认值为 True。
     - **prefetch_factor** (int，可选) - 缓存的 mini-batch 的个数。若 ``use_buffer_reader`` 为 True，DataLoader 会异步地预读取 ``prefetch_factor`` 个 mini-batch。默认值为 2。
-    - **use_shared_memory** (bool，可选) - 是否使用共享内存来提升子进程将数据放入进程间队列的速度，该参数尽在多进程模式下有效(即 ``num_workers > 0`` )，请确认机器上有足够的共享内存空间(如 Linux 系统下 ``/dev/shm/`` 目录空间大小)再设置此参数。默认为 True。
+    - **use_shared_memory** (bool，可选) - 是否使用共享内存来提升子进程将数据放入进程间队列的速度，该参数仅在多进程模式下有效(即 ``num_workers > 0`` )，请确认机器上有足够的共享内存空间(如 Linux 系统下 ``/dev/shm/`` 目录空间大小)再设置此参数。默认为 True。
     - **timeout** (int，可选) - 从子进程输出队列获取 mini-batch 数据的超时时间。默认值为 0。
     - **worker_init_fn** (callable，可选) - 子进程初始化函数，此函数会被子进程初始化时被调用，并传递 ``worker id`` 作为参数。默认值为 None。
 

diff --git a/docs/api/paddle/nn/KLDivLoss_cn.rst b/docs/api/paddle/nn/KLDivLoss_cn.rst
@@ -20,7 +20,7 @@ kL 发散损失计算如下：
 
 当 ``reduction``  为 ``sum`` 时，输出损失的形状为[]，输出为所有损失的总和。
 
-当 ``reduction``  为 ``batchmean`` 时，输出损失为[N]的形状，N 为批大小，输出为所有损失的总和除以批量大小。
+当 ``reduction``  为 ``batchmean`` 时，输出损失为[1]的形状，输出为所有损失的总和除以类别数。
 
 参数
 ::::::::::::

diff --git a/docs/api/paddle/nn/Upsample_cn.rst b/docs/api/paddle/nn/Upsample_cn.rst
@@ -155,7 +155,7 @@ https://en.wikipedia.org/wiki/Bicubic_interpolation
     - **mode** (str，可选) - 插值方法。支持"bilinear"或"trilinear"或"nearest"或"bicubic"或"linear"或"area"。默认值为"nearest"。
     - **align_corners** (bool，可选) - 一个可选的 bool 型参数，如果为 True，则将输入和输出 Tensor 的 4 个角落像素的中心对齐，并保留角点像素的值。默认值为 False。
     - **align_mode** (int，可选) - 双线性插值的可选项。可以是 '0' 代表 src_idx = scale *（dst_indx + 0.5）-0.5；如果为'1'，代表 src_idx = scale * dst_index。默认值为 0。
-    - **data_format** (str，可选) - 指定输入的数据格式，输出的数据格式将与输入保持一致。对于 3-D Tensor，支持 NCW(num_batches, channels, width)或者 NWC(num_batches, width, channels)，对于 4-D Tensor，支持 NCHW(num_batches, channels, height, width) 或者 NHWC(num_batches, height, width, channels)，对于 5-D Tensor，支持 NCDHW(num_batches, channels, depth, height, width)或者 NDHWC(num_batches, depth, height, width, channels)，默认值：'NCHW'。
+    - **data_format** (str，可选) - 指定输入的数据格式，输出的数据格式将与输入保持一致。对于 3-D Tensor，支持 NCW(num_batches, channels, width)或者 NWC(num_batches, width, channels)，对于 4-D Tensor，支持 NCW(num_batches, channels, height, width) 或者 NHWC(num_batches, height, width, channels)，对于 5-D Tensor，支持 NCDHW(num_batches, channels, depth, height, width)或者 NDHWC(num_batches, depth, height, width, channels)，默认值：'NCHW'。
     - **name** (str，可选) - 具体用法请参见 :ref:`api_guide_Name`，一般无需设置，默认值为 None。
 
 返回

diff --git a/docs/api/paddle/nn/functional/adaptive_avg_pool2d_cn.rst b/docs/api/paddle/nn/functional/adaptive_avg_pool2d_cn.rst
@@ -6,7 +6,7 @@ adaptive_avg_pool2d
 .. py:function:: paddle.nn.functional.adaptive_avg_pool2d(x, output_size, data_format='NCHW', name=None)
 
 根据输入 `x` , `output_size` 等参数对一个输入 Tensor 计算 2D 的自适应平均池化。输入和输出都是 4-D Tensor，
-默认是以 `NCHW` 格式表示的，其中 `N` 是 batch size, `C` 是通道数，`H` 是输入特征的高度，`H` 是输入特征的宽度。
+默认是以 `NCHW` 格式表示的，其中 `N` 是 batch size, `C` 是通道数，`H` 是输入特征的高度，`W` 是输入特征的宽度。
 
 计算公式如下：
 

diff --git a/docs/guides/06_distributed_training/group_sharded_parallel_cn.rst b/docs/guides/06_distributed_training/group_sharded_parallel_cn.rst
@@ -30,7 +30,7 @@ GroupSharded 策略可以根据用户配置支持，分别切分模型参数、
 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
 
 GroupSharded hybrid 数据并行策略，在 GroupSharded 并行的基础上再增加一层数据并行逻辑。
-该策略的目的是通过 ``限制 GroupSharded 通信的节点数`` 和 ``增加多路数据并行`` 来提高训练吞吐。 如果一个模型在普通 GroupSharded 训练时需要 M 张 GPU，则则开启 hybrid-dp 至少需要 N*M GPU （N>= 2）。
+该策略的目的是通过 ``限制 GroupSharded 通信的节点数`` 和 ``增加多路数据并行`` 来提高训练吞吐。 如果一个模型在普通 GroupSharded 训练时需要 M 张 GPU，则开启 hybrid-dp 至少需要 N*M GPU （N>= 2）。
 
 GroupSharded-hybrid-dp 适用的场景如下：
 

diff --git a/docs/guides/06_distributed_training/pipeline_parallel_cn.rst b/docs/guides/06_distributed_training/pipeline_parallel_cn.rst
@@ -29,7 +29,7 @@
   :alt: pipeline_timeline2
   :align: center
 
-如上图所示先进行前向计算，再进行反向计算，这种方式我们称之为 F-the-B 模式。不难看出这种 F-then-B 模式由于缓存了多个 micro-batch 的中间变量和梯度，显存的实际利用率并不高。接下来我们介绍一种前向计算和反向计算交叉进行的方式，即 1F1B 模型。在 1F1B 模式下，前向计算和反向计算交叉进行，可以及时释放不必要的中间变量。我们以下图 1F1B 中 stage4 的 F42（stage4 的第 2 个 micro-batch 的前向计算）为例，F42 在计算前，F41 的反向 B41（stage4 的第 1 个 micro-batch 的反向计算）已经计算结束，即可释放 F41 的中间变量，从而 F42 可以复用 F41 中间变量的显存。1F1B 方式相比 F-then-B 方式峰值显存可以节省 37.5%，对比朴素流水线并行峰值显存明显下降，设备资源利用率显著提升。
+如上图所示先进行前向计算，再进行反向计算，这种方式我们称之为 F-then-B 模式。不难看出这种 F-then-B 模式由于缓存了多个 micro-batch 的中间变量和梯度，显存的实际利用率并不高。接下来我们介绍一种前向计算和反向计算交叉进行的方式，即 1F1B 模型。在 1F1B 模式下，前向计算和反向计算交叉进行，可以及时释放不必要的中间变量。我们以下图 1F1B 中 stage4 的 F42（stage4 的第 2 个 micro-batch 的前向计算）为例，F42 在计算前，F41 的反向 B41（stage4 的第 1 个 micro-batch 的反向计算）已经计算结束，即可释放 F41 的中间变量，从而 F42 可以复用 F41 中间变量的显存。1F1B 方式相比 F-then-B 方式峰值显存可以节省 37.5%，对比朴素流水线并行峰值显存明显下降，设备资源利用率显著提升。
 
 .. image:: ./images/pipeline-4.png
   :width: 600

diff --git a/docs/guides/advanced/autograd_cn.rst b/docs/guides/advanced/autograd_cn.rst
@@ -275,10 +275,14 @@ PaddlePaddle 的神经网络核心是自动微分，本篇文章主要为你介
 
 .. parsed-literal::
 
-    Tensor a's grad is: [20.]
-    Tensor b's grad is: [8.]
-    Tensor c's grad is: [4.]
-    Tensor d's grad is: [10.]
+    Tensor a's grad is: Tensor(shape=[1], dtype=float32, place=Place(cpu), stop_gradient=False,
+       [20.])
+    Tensor b's grad is: Tensor(shape=[1], dtype=float32, place=Place(cpu), stop_gradient=False,
+       [8.])
+    Tensor c's grad is: Tensor(shape=[1], dtype=float32, place=Place(cpu), stop_gradient=False,
+       [4.])
+    Tensor d's grad is: Tensor(shape=[1], dtype=float32, place=Place(cpu), stop_gradient=False,
+       [10.])
 
 
 该例子的正向和反向图构建过程即：

diff --git a/docs/guides/hardware_support/xpu_docs/paddle_install_xpu2_cn.md b/docs/guides/hardware_support/xpu_docs/paddle_install_xpu2_cn.md
@@ -47,7 +47,7 @@ paddle.utils.run_check()
 
 如果出现 PaddlePaddle is installed successfully!，说明您已成功安装。
 
-* 注：支持基于 Kermel Primitive 算子的昆仑 2 代芯片编译 whl 包，[点击这里查看](https://www.kunlunxin.com.cn)。
+* 注：支持基于 Kernel Primitive 算子的昆仑 2 代芯片编译 whl 包，[点击这里查看](https://www.kunlunxin.com.cn)。
 
 ## 安装方式二：从源码编译支持昆仑 XPU 的包
 

diff --git a/docs/guides/infer/mobile/mobile_index_cn.md b/docs/guides/infer/mobile/mobile_index_cn.md
@@ -2,7 +2,7 @@
 
 Paddle-Lite 为 Paddle-Mobile 的升级版，定位支持包括手机移动端在内更多场景的轻量化高效预测，支持更广泛的硬件和平台，是一个高性能、轻量级的深度学习预测引擎。在保持和 PaddlePaddle 无缝对接外，也兼容支持其他训练框架产出的模型。
 
-完整使用文档位于 [Paddle-Lite 文档](https://paddle-lite.readthedocs.io/zh/latest/) 。
+完整使用文档位于 [Paddle-Lite 文档](https://paddlelite.paddlepaddle.org.cn/) 。
 
 ## 特性
 

diff --git a/docs/install/compile/sw-compile.md b/docs/install/compile/sw-compile.md
@@ -85,7 +85,7 @@
     python3 -m pip install -U（whl 包的名字）
     ```
 
-恭喜，至此您已完成 PaddlePaddle 在 FT 环境下的编译安装。
+恭喜，至此您已完成 PaddlePaddle 在 SW 环境下的编译安装。
 
 ## **验证安装**
 安装完成后您可以使用 `python` 或 `python3` 进入 python 解释器，输入`import paddle` ，再输入

diff --git a/docs/practices/cv/image_classification.ipynb b/docs/practices/cv/image_classification.ipynb
@@ -51,7 +51,7 @@
    },
    "source": [
     "## 二、数据加载\n",
-    "手写数字的MNIST数据集，包含60,000个用于训练的示例和10,000个用于测试的示例。这些数字已经过尺寸标准化并位于图像中心，图像是固定大小(28x28像素)，其值为0到1。该数据集的官方地址为：http://yann.lecun.com/exdb/mnist 。\n",
+    "手写数字的MNIST数据集，包含60,000个用于训练的示例和10,000个用于测试的示例。这些数字已经过尺寸标准化并位于图像中心，图像是固定大小(28x28像素)，其值为0到9。该数据集的官方地址为：http://yann.lecun.com/exdb/mnist 。\n",
     "\n",
     "我们使用飞桨框架自带的 ``paddle.vision.datasets.MNIST`` 完成mnist数据集的加载。"
    ]