PaddlePaddle · SigureMo · Feb 19, 2024 · Feb 4, 2024 · Feb 4, 2024 · Feb 4, 2024
diff --git a/python/paddle/distributed/fleet/scaler.py b/python/paddle/distributed/fleet/scaler.py
@@ -18,7 +18,6 @@
 
 import paddle
 from paddle import _C_ops, _legacy_C_ops
-from paddle.base.dygraph import to_variable
 from paddle.distributed import fleet
 from paddle.framework import core
 
@@ -102,9 +101,9 @@ def unscale_method(self, optimizer):
                     else:
                         param_grads_fp32.append(tgt_grad)
 
-        temp_found_inf_fp16 = to_variable(np.array([0]).astype(np.bool_))
-        temp_found_inf_bf16 = to_variable(np.array([0]).astype(np.bool_))
-        temp_found_inf_fp32 = to_variable(np.array([0]).astype(np.bool_))
+        temp_found_inf_fp16 = paddle.to_tensor(np.array([0]).astype(np.bool_))
+        temp_found_inf_bf16 = paddle.to_tensor(np.array([0]).astype(np.bool_))
+        temp_found_inf_fp32 = paddle.to_tensor(np.array([0]).astype(np.bool_))
         self._found_inf = self._temp_found_inf_value_false
         if len(param_grads_fp16):
             _legacy_C_ops.check_finite_and_unscale(

diff --git a/python/paddle/hapi/model.py b/python/paddle/hapi/model.py
@@ -27,7 +27,6 @@
 from paddle import base
 from paddle.autograd import no_grad
 from paddle.base import core
-from paddle.base.dygraph.base import to_variable
 from paddle.base.executor import global_scope
 from paddle.base.framework import (
     Variable,
@@ -824,7 +823,7 @@ def train_batch(self, inputs, labels=None, update=True):
         inputs = to_list(inputs)
         self._input_info = _update_input_info(inputs)
         labels = labels or []
-        labels = [to_variable(l) for l in to_list(labels)]
+        labels = [paddle.to_tensor(l) for l in to_list(labels)]
 
         # scaler should be initialized only once
         if self._amp_level != "O0" and self.model._scaler is None:
@@ -836,9 +835,11 @@ def train_batch(self, inputs, labels=None, update=True):
             level=self._amp_level,
         ):
             if self._nranks > 1:
-                outputs = self.ddp_model(*[to_variable(x) for x in inputs])
+                outputs = self.ddp_model(*[paddle.to_tensor(x) for x in inputs])
             else:
-                outputs = self.model.network(*[to_variable(x) for x in inputs])
+                outputs = self.model.network(
+                    *[paddle.to_tensor(x) for x in inputs]
+                )
 
         losses = self.model._loss(*(to_list(outputs) + labels))
         losses = to_list(losses)
@@ -874,9 +875,9 @@ def eval_batch(self, inputs, labels=None):
         inputs = to_list(inputs)
         self._input_info = _update_input_info(inputs)
         labels = labels or []
-        labels = [to_variable(l) for l in to_list(labels)]
+        labels = [paddle.to_tensor(l) for l in to_list(labels)]
 
-        outputs = self.model.network(*[to_variable(x) for x in inputs])
+        outputs = self.model.network(*[paddle.to_tensor(x) for x in inputs])
 
         # Transfrom data to expected device
         expected_device = paddle.device.get_device()
@@ -933,7 +934,7 @@ def eval_batch(self, inputs, labels=None):
     def predict_batch(self, inputs):
         self.model.network.eval()
         self.mode = 'test'
-        inputs = [to_variable(x) for x in to_list(inputs)]
+        inputs = [paddle.to_tensor(x) for x in to_list(inputs)]
         self._input_info = _update_input_info(inputs)
         outputs = self.model.network(*inputs)
         if self._nranks > 1 and isinstance(self.model._place, base.CUDAPlace):

diff --git a/python/paddle/nn/functional/loss.py b/python/paddle/nn/functional/loss.py
@@ -3207,10 +3207,7 @@ def sigmoid_focal_loss(
             ),
         )
 
-        if in_dynamic_mode():
-            alpha = base.dygraph.base.to_variable([alpha], dtype=loss.dtype)
-        else:
-            alpha = paddle.to_tensor(alpha, dtype=loss.dtype)
+        alpha = paddle.to_tensor(alpha, dtype=loss.dtype)
         alpha_t = _C_ops.add(
             _C_ops.multiply(alpha, label),
             _C_ops.multiply(
@@ -3220,7 +3217,7 @@ def sigmoid_focal_loss(
         loss = _C_ops.multiply(alpha_t, loss)
 
         if in_dynamic_mode():
-            gamma = base.dygraph.base.to_variable([gamma], dtype=loss.dtype)
+            gamma = paddle.to_tensor(gamma, dtype=loss.dtype)
         gamma_t = _C_ops.pow(_C_ops.subtract(one, p_t), gamma)
         loss = _C_ops.multiply(gamma_t, loss)
 

diff --git a/python/paddle/nn/layer/norm.py b/python/paddle/nn/layer/norm.py
@@ -935,17 +935,13 @@ class BatchNorm(Layer):
     Examples:
         .. code-block:: python
 
-            >>> import paddle.base as base
             >>> import paddle.nn as nn
-            >>> from paddle.base.dygraph.base import to_variable
+            >>> import paddle
             >>> import numpy as np
 
-
-            >>> x = np.random.random(size=(3, 10, 3, 7)).astype('float32')
-            >>> with base.dygraph.guard():
-            ...     x = to_variable(x)
-            ...     batch_norm = nn.layer.norm.BatchNorm(10)
-            ...     hidden1 = batch_norm(x)
+            >>> x = paddle.rand(shape=(3, 10, 3, 7), dtype="float32")
+            >>> batch_norm = nn.BatchNorm(10)
+            >>> hidden1 = batch_norm(x)
     """
 
     def __init__(

diff --git a/python/paddle/pir/math_op_patch.py b/python/paddle/pir/math_op_patch.py
@@ -518,13 +518,12 @@ def clear_gradient(self):
             .. code-block:: python
 
                 >>> import paddle
-                >>> import paddle.base as base
                 >>> import numpy as np
 
                 >>> x = np.ones([2, 2], np.float32)
                 >>> inputs2 = []
                 >>> for _ in range(10):
-                >>>     tmp = base.dygraph.base.to_variable(x)
+                >>>     tmp = paddle.to_tensor(x)
                 >>>     tmp.stop_gradient=False
                 >>>     inputs2.append(tmp)
                 >>> ret2 = paddle.add_n(inputs2)