PaddlePaddle · DrRyanHuang · Oct 18, 2023 · Oct 24, 2023 · Dec 1, 2023 · Dec 4, 2023
diff --git a/docs/zh/api/data/dataset.md b/docs/zh/api/data/dataset.md
@@ -16,6 +16,7 @@
         - LorenzDataset
         - RosslerDataset
         - VtuDataset
+        - VAECustomDataset
         - MeshAirfoilDataset
         - MeshCylinderDataset
       show_root_heading: false
diff --git a/examples/RegAE/train_new.py b/examples/RegAE/train_new.py
@@ -0,0 +1,152 @@
+# Copyright (c) 2023 PaddlePaddle Authors. All Rights Reserved.
+
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+
+#     http://www.apache.org/licenses/LICENSE-2.0
+
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+from __future__ import annotations
+
+from typing import TYPE_CHECKING
+from typing import Dict
+from typing import List
+
+from paddle import nn
+from paddle.nn import functional as F
+import sys; sys.path.append(r"C:\Users\zihao\Desktop\lbwnb\PaddleScience")
+import ppsci
+from ppsci.loss import KLLoss01
+from ppsci.utils import config
+from ppsci.utils import logger
+
+if TYPE_CHECKING:
+    import paddle
+    import pgl
+
+
+criterion = nn.MSELoss()
+kl_loss = KLLoss01()
+
+# def train_mse_func(
+#     output_dict: Dict[str, "paddle.Tensor"], label_dict: Dict[str, "pgl.Graph"], *args
+# ) -> paddle.Tensor:
+#     return F.mse_loss(output_dict["pred"], label_dict["label"].y)
+
+def train_mse_func(
+    # output_dict: Dict[str, "paddle.Tensor"], label_dict: Dict[str, "pgl.Graph"], *args
+    mu, log_sigma, decoder_z, data_item
+) -> paddle.Tensor:
+    # return F.mse_loss(output_dict["pred"], label_dict["label"].y)
+    return kl_loss(mu, log_sigma) + criterion(decoder_z, data_item)
+
+
+def eval_rmse_func(
+    output_dict: Dict[str, List["paddle.Tensor"]],
+    label_dict: Dict[str, List["pgl.Graph"]],
+    *args,
+) -> Dict[str, float]:
+    mse_losses = [
+        F.mse_loss(pred, label.y)
+        for (pred, label) in zip(output_dict["pred"], label_dict["label"])
+    ]
+    return {"RMSE": (sum(mse_losses) / len(mse_losses)) ** 0.5}
+
+
+if __name__ == "__main__":
+    args = config.parse_args()
+    # set random seed for reproducibility
+    ppsci.utils.misc.set_random_seed(42)
+    # set output directory
+    OUTPUT_DIR = "./output_RegAE" if not args.output_dir else args.output_dir
+    # initialize logger
+    logger.init_logger("ppsci", f"{OUTPUT_DIR}/train.log", "info")
+
+    latent_dim, hidden_dim = 100, 100
+    # set model
+    model = ppsci.arch.AutoEncoder(
+        input_dim=10000, 
+        latent_dim=latent_dim, 
+        hidden_dim=hidden_dim,
+    )
+
+    # set dataloader config
+    ITERS_PER_EPOCH = 42
+    train_dataloader_cfg = {
+        "dataset": {
+            "name": "VAECustomDataset",
+            "file_path": "data/gaussian_train.npz", 
+            "data_type": "train",
+        },
+        "batch_size": 128,
+        "sampler": {
+            "name": "BatchSampler",
+            "drop_last": False,
+            "shuffle": True,
+        },
+        "num_workers": 1,
+    }
+
+    # set constraint
+    sup_constraint = ppsci.constraint.SupervisedConstraint(
+        train_dataloader_cfg,
+        # output_expr={"pred": lambda out: out["pred"]},
+        loss=ppsci.loss.FunctionalLoss(train_mse_func),
+        name="Sup",
+    )
+    # wrap constraints together
+    constraint = {sup_constraint.name: sup_constraint}
+
+    # set training hyper-parameters
+    EPOCHS = 200 if not args.epochs else args.epochs
+
+    # set optimizer
+    optimizer = ppsci.optimizer.Adam(1e-4)(model)
+
+    # set validator
+    eval_dataloader_cfg = {
+        "dataset": {
+            "name": "VAECustomDataset",
+            "file_path": "data/gaussian_train.npz", 
+            "data_type": "train",
+        },
+        "batch_size": 1,
+        "sampler": {
+            "name": "BatchSampler",
+            "drop_last": False,
+            "shuffle": False,
+        },
+    }
+    # rmse_validator = ppsci.validate.SupervisedValidator(
+    #     eval_dataloader_cfg,
+    #     loss=ppsci.loss.FunctionalLoss(train_mse_func),
+    #     output_expr={"pred": lambda out: out["pred"]},
+    #     metric={"RMSE": ppsci.metric.FunctionalMetric(eval_rmse_func)},
+    #     name="RMSE_validator",
+    # )
+    # validator = {rmse_validator.name: rmse_validator}
+
+    # initialize solver
+    solver = ppsci.solver.Solver(
+        model,
+        constraint,
+        OUTPUT_DIR,
+        optimizer,
+        None,
+        EPOCHS,
+        ITERS_PER_EPOCH,
+        save_freq=50,
+        eval_during_train=True,
+        eval_freq=50,
+        # validator=validator,
+        eval_with_no_grad=True,
+        # pretrained_model_path="./output_AMGNet/checkpoints/latest"
+    )
+    # train model
+    solver.train()
diff --git a/ppsci/arch/__init__.py b/ppsci/arch/__init__.py
@@ -20,6 +20,7 @@
 from ppsci.arch.amgnet import AMGNet  # isort:skip
 from ppsci.arch.mlp import MLP  # isort:skip
 from ppsci.arch.deeponet import DeepONet  # isort:skip
+from ppsci.arch.vae import AutoEncoder  # isort:skip
 from ppsci.arch.embedding_koopman import LorenzEmbedding  # isort:skip
 from ppsci.arch.embedding_koopman import RosslerEmbedding  # isort:skip
 from ppsci.arch.embedding_koopman import CylinderEmbedding  # isort:skip
@@ -51,6 +52,7 @@
     "PrecipNet",
     "UNetEx",
     "build_model",
+    "AutoEncoder",
 ]
 
 

diff --git a/ppsci/arch/vae.py b/ppsci/arch/vae.py
@@ -0,0 +1,67 @@
+# Copyright (c) 2023 PaddlePaddle Authors. All Rights Reserved.
+
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+
+#     http://www.apache.org/licenses/LICENSE-2.0
+
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+from __future__ import annotations
+
+from typing import Dict
+from typing import List
+from typing import Tuple
+
+import paddle
+import paddle.nn as nn
+
+from ppsci.arch import activation as act_mod
+from ppsci.arch import base
+
+
+
+# copy from AISTUDIO
+class AutoEncoder(base.Arch):
+    def __init__(self, input_dim, latent_dim, hidden_dim):
+        super(AutoEncoder, self).__init__()
+
+        # encoder
+        self._encoder_linear = nn.Sequential(
+            nn.Linear(input_dim, hidden_dim),
+            nn.Tanh(),
+        )
+        self._encoder_mu = nn.Linear(hidden_dim, latent_dim)
+        self._encoder_log_sigma = nn.Linear(hidden_dim, latent_dim)
+
+        self._decoder = nn.Sequential(
+            nn.Linear(latent_dim, hidden_dim),
+            nn.Tanh(),
+            nn.Linear(hidden_dim, input_dim),
+        )
+
+    def encoder(self, x):
+        h = self._encoder_linear(x)
+        mu = self._encoder_mu(h)
+        log_sigma = self._encoder_log_sigma(h)
+        return mu, log_sigma
+
+    def decoder(self, x):
+        return self._decoder(x)
+
+    # @staticmethod
+    # def kl_loss(mu, log_sigma):
+    #     # 计算mu，log_sigma与 N(0,1)分布的差距
+    #     base = paddle.exp(2. * log_sigma) + paddle.pow(mu, 2) - 1. - 2. * log_sigma
+    #     loss = 0.5 * paddle.sum(base) / mu.shape[0]
+    #     return loss
+
+    def forward(self, x, noise):
+        mu, log_sigma = self.encoder(x)
+        z = mu + noise * paddle.exp(log_sigma)
+        return mu, log_sigma, self.decoder(z)
diff --git a/ppsci/data/dataset/__init__.py b/ppsci/data/dataset/__init__.py
@@ -26,6 +26,7 @@
 from ppsci.data.dataset.mat_dataset import MatDataset
 from ppsci.data.dataset.npz_dataset import IterableNPZDataset
 from ppsci.data.dataset.npz_dataset import NPZDataset
+from ppsci.data.dataset.npz_dataset import VAECustomDataset
 from ppsci.data.dataset.trphysx_dataset import CylinderDataset
 from ppsci.data.dataset.trphysx_dataset import LorenzDataset
 from ppsci.data.dataset.trphysx_dataset import RosslerDataset

diff --git a/ppsci/data/dataset/npz_dataset.py b/ppsci/data/dataset/npz_dataset.py
@@ -265,3 +265,80 @@ def __iter__(self):
 
     def __len__(self):
         return 1
+
+
+
+
+
+class ScalerStd(object):
+    """
+    Desc: Normalization utilities with std mean
+    """
+
+    def __init__(self):
+        self.mean = 0.
+        self.std = 1.
+
+    def fit(self, data):
+        self.mean = np.mean(data)
+        self.std = np.std(data)
+
+    def transform(self, data):
+        mean = paddle.to_tensor(self.mean).type_as(data).to(data.device) if paddle.is_tensor(data) else self.mean
+        std = paddle.to_tensor(self.std).type_as(data).to(data.device) if paddle.is_tensor(data) else self.std
+        return (data - mean) / std
+
+    def inverse_transform(self, data):
+        mean = paddle.to_tensor(self.mean) if paddle.is_tensor(data) else self.mean
+        std = paddle.to_tensor(self.std) if paddle.is_tensor(data) else self.std
+        return (data * std) + mean
+
+
+class VAECustomDataset(io.Dataset):
+    def __init__(self, file_path, data_type="train"):
+        """
+
+        :param file_path:
+        :param data_type: train or test
+        """
+        super().__init__()
+        all_data = np.load(file_path)
+        data = all_data["data"]
+        num, _, _ = data.shape
+        data = data.reshape(num, -1)
+
+        self.neighbors = all_data['neighbors']
+        self.areasoverlengths = all_data['areasoverlengths']
+        self.dirichletnodes = all_data['dirichletnodes']
+        self.dirichleths = all_data['dirichletheads']
+        self.Qs = np.zeros([all_data['coords'].shape[-1]])
+        self.val_data = all_data["test_data"]
+
+        self.data_type = data_type
+
+        self.train_len = int(num * 0.8)
+        self.test_len = num - self.train_len
+
+        self.train_data = data[:self.train_len]
+        self.test_data = data[self.train_len:]
+
+        self.scaler = ScalerStd()
+        self.scaler.fit(self.train_data)
+
+        self.train_data = self.scaler.transform(self.train_data)
+        self.test_data = self.scaler.transform(self.test_data)
+
+        self.input_keys = ""
+        self.label_keys = ""
+
+    def __getitem__(self, idx):
+        if self.data_type == "train":
+            return self.train_data[idx]
+        else:
+            return self.test_data[idx]
+
+    def __len__(self):
+        if self.data_type == "train":
+            return self.train_len
+        else:
+            return self.test_len
diff --git a/ppsci/loss/__init__.py b/ppsci/loss/__init__.py
@@ -25,6 +25,7 @@
 from ppsci.loss.mse import MSELoss
 from ppsci.loss.mse import MSELossWithL2Decay
 from ppsci.loss.mse import PeriodicMSELoss
+from ppsci.loss.kl import KLLoss01
 
 __all__ = [
     "Loss",
@@ -38,6 +39,7 @@
     "MSELoss",
     "MSELossWithL2Decay",
     "PeriodicMSELoss",
+    "KLLoss01"
 ]