Unity-Technologies · andrewcoh · Feb 22, 2021 · Feb 19, 2021 · Feb 19, 2021 · Feb 19, 2021
diff --git a/config/imitation/CrawlerStatic.yaml b/config/imitation/CrawlerStatic.yaml
@@ -19,7 +19,11 @@ behaviors:
       gail:
         gamma: 0.99
         strength: 1.0
-        encoding_size: 128
+        network_settings:
+          normalize: true
+          hidden_units: 128
+          num_layers: 2
+          vis_encode_type: simple
         learning_rate: 0.0003
         use_actions: false
         use_vail: false

diff --git a/config/imitation/FoodCollector.yaml b/config/imitation/FoodCollector.yaml
@@ -19,7 +19,11 @@ behaviors:
       gail:
         gamma: 0.99
         strength: 0.1
-        encoding_size: 128
+        network_settings:
+          normalize: false
+          hidden_units: 128
+          num_layers: 2
+          vis_encode_type: simple
         learning_rate: 0.0003
         use_actions: false
         use_vail: false

diff --git a/config/imitation/Hallway.yaml b/config/imitation/Hallway.yaml
@@ -25,7 +25,6 @@ behaviors:
       gail:
         gamma: 0.99
         strength: 0.01
-        encoding_size: 128
         learning_rate: 0.0003
         use_actions: false
         use_vail: false

diff --git a/config/imitation/PushBlock.yaml b/config/imitation/PushBlock.yaml
@@ -22,7 +22,11 @@ behaviors:
       gail:
         gamma: 0.99
         strength: 0.01
-        encoding_size: 128
+        network_settings:
+          normalize: false
+          hidden_units: 128
+          num_layers: 2
+          vis_encode_type: simple
         learning_rate: 0.0003
         use_actions: false
         use_vail: false

diff --git a/config/imitation/Pyramids.yaml b/config/imitation/Pyramids.yaml
@@ -22,11 +22,11 @@ behaviors:
       curiosity:
         strength: 0.02
         gamma: 0.99
-        encoding_size: 256
+        network_settings:
+          hidden_units: 256
       gail:
         strength: 0.01
         gamma: 0.99
-        encoding_size: 128
         demo_path: Project/Assets/ML-Agents/Examples/Pyramids/Demos/ExpertPyramid.demo
     behavioral_cloning:
       demo_path: Project/Assets/ML-Agents/Examples/Pyramids/Demos/ExpertPyramid.demo

diff --git a/config/ppo/Pyramids.yaml b/config/ppo/Pyramids.yaml
@@ -22,7 +22,8 @@ behaviors:
       curiosity:
         gamma: 0.99
         strength: 0.02
-        encoding_size: 256
+        network_settings:
+          hidden_units: 256
         learning_rate: 0.0003
     keep_checkpoints: 5
     max_steps: 10000000

diff --git a/config/ppo/PyramidsRND.yaml b/config/ppo/PyramidsRND.yaml
@@ -23,6 +23,8 @@ behaviors:
         gamma: 0.99
         strength: 0.01
         encoding_size: 64
+        network_settings:
+          hidden_units: 64
         learning_rate: 0.0001
     keep_checkpoints: 5
     max_steps: 3000000

diff --git a/config/ppo/VisualPyramids.yaml b/config/ppo/VisualPyramids.yaml
@@ -22,7 +22,8 @@ behaviors:
       curiosity:
         gamma: 0.99
         strength: 0.01
-        encoding_size: 256
+        network_settings:
+          hidden_units: 256
         learning_rate: 0.0003
     keep_checkpoints: 5
     max_steps: 10000000

diff --git a/config/sac/Pyramids.yaml b/config/sac/Pyramids.yaml
@@ -24,7 +24,6 @@ behaviors:
       gail:
         gamma: 0.99
         strength: 0.01
-        encoding_size: 128
         learning_rate: 0.0003
         use_actions: true
         use_vail: false

diff --git a/config/sac/VisualPyramids.yaml b/config/sac/VisualPyramids.yaml
@@ -24,7 +24,6 @@ behaviors:
       gail:
         gamma: 0.99
         strength: 0.02
-        encoding_size: 128
         learning_rate: 0.0003
         use_actions: true
         use_vail: false

diff --git a/ml-agents/mlagents/trainers/optimizer/torch_optimizer.py b/ml-agents/mlagents/trainers/optimizer/torch_optimizer.py
@@ -44,9 +44,6 @@ def create_reward_signals(self, reward_signal_configs):
         :param reward_signal_configs: Reward signal config.
         """
         for reward_signal, settings in reward_signal_configs.items():
-            # Get normalization from policy. Will be replaced by RewardSettings own
-            # NetworkSettings
-            settings.normalize = self.policy.normalize
             # Name reward signals by string in case we have duplicates later
             self.reward_signals[reward_signal.value] = create_reward_provider(
                 reward_signal, self.policy.behavior_spec, settings

diff --git a/ml-agents/mlagents/trainers/settings.py b/ml-agents/mlagents/trainers/settings.py
@@ -183,7 +183,7 @@ def to_settings(self) -> type:
 class RewardSignalSettings:
     gamma: float = 0.99
     strength: float = 1.0
-    normalize: bool = False
+    network_settings: NetworkSettings = attr.ib(factory=NetworkSettings)
 
     @staticmethod
     def structure(d: Mapping, t: type) -> Any:
@@ -199,28 +199,37 @@ def structure(d: Mapping, t: type) -> Any:
             enum_key = RewardSignalType(key)
             t = enum_key.to_settings()
             d_final[enum_key] = strict_to_cls(val, t)
+            if "encoding_size" in val:
+                logger.warning(
+                    "'encoding_size' was deprecated for RewardSignals. Please use network_settings."
+                )
+                # If network settings was not specified, use the encoding size. Otherwise, use hidden_units
+                if "network_settings" not in val:
+                    d_final[enum_key].network_settings.hidden_units = val[
+                        "encoding_size"
+                    ]
         return d_final
 
 
 @attr.s(auto_attribs=True)
 class GAILSettings(RewardSignalSettings):
-    encoding_size: int = 64
     learning_rate: float = 3e-4
+    encoding_size: int = 0
     use_actions: bool = False
     use_vail: bool = False
     demo_path: str = attr.ib(kw_only=True)
 
 
 @attr.s(auto_attribs=True)
 class CuriositySettings(RewardSignalSettings):
-    encoding_size: int = 64
     learning_rate: float = 3e-4
+    encoding_size: int = 0
 
 
 @attr.s(auto_attribs=True)
 class RNDSettings(RewardSignalSettings):
-    encoding_size: int = 64
     learning_rate: float = 1e-4
+    encoding_size: int = 0
 
 
 # SAMPLERS #############################################################################

diff --git a/ml-agents/mlagents/trainers/torch/components/reward_providers/curiosity_reward_provider.py b/ml-agents/mlagents/trainers/torch/components/reward_providers/curiosity_reward_provider.py
@@ -14,7 +14,6 @@
 from mlagents.trainers.torch.utils import ModelUtils
 from mlagents.trainers.torch.networks import NetworkBody
 from mlagents.trainers.torch.layers import LinearEncoder, linear_layer
-from mlagents.trainers.settings import NetworkSettings, EncoderType
 from mlagents.trainers.trajectory import ObsUtil
 
 
@@ -70,21 +69,16 @@ class CuriosityNetwork(torch.nn.Module):
     def __init__(self, specs: BehaviorSpec, settings: CuriositySettings) -> None:
         super().__init__()
         self._action_spec = specs.action_spec
-        state_encoder_settings = NetworkSettings(
-            normalize=False,
-            hidden_units=settings.encoding_size,
-            num_layers=2,
-            vis_encode_type=EncoderType.SIMPLE,
-            memory=None,
-        )
+
+        state_encoder_settings = settings.network_settings
         self._state_encoder = NetworkBody(
             specs.observation_specs, state_encoder_settings
         )
 
         self._action_flattener = ActionFlattener(self._action_spec)
 
         self.inverse_model_action_encoding = torch.nn.Sequential(
-            LinearEncoder(2 * settings.encoding_size, 1, 256)
+            LinearEncoder(2 * state_encoder_settings.hidden_units, 1, 256)
         )
 
         if self._action_spec.continuous_size > 0:
@@ -98,9 +92,12 @@ def __init__(self, specs: BehaviorSpec, settings: CuriositySettings) -> None:
 
         self.forward_model_next_state_prediction = torch.nn.Sequential(
             LinearEncoder(
-                settings.encoding_size + self._action_flattener.flattened_size, 1, 256
+                state_encoder_settings.hidden_units
+                + self._action_flattener.flattened_size,
+                1,
+                256,
             ),
-            linear_layer(256, settings.encoding_size),
+            linear_layer(256, state_encoder_settings.hidden_units),
         )
 
     def get_current_state(self, mini_batch: AgentBuffer) -> torch.Tensor:

diff --git a/ml-agents/mlagents/trainers/torch/components/reward_providers/gail_reward_provider.py b/ml-agents/mlagents/trainers/torch/components/reward_providers/gail_reward_provider.py
@@ -13,7 +13,6 @@
 from mlagents.trainers.torch.action_flattener import ActionFlattener
 from mlagents.trainers.torch.networks import NetworkBody
 from mlagents.trainers.torch.layers import linear_layer, Initialization
-from mlagents.trainers.settings import NetworkSettings, EncoderType
 from mlagents.trainers.demo_loader import demo_to_buffer
 from mlagents.trainers.trajectory import ObsUtil
 
@@ -75,13 +74,8 @@ def __init__(self, specs: BehaviorSpec, settings: GAILSettings) -> None:
         self._use_vail = settings.use_vail
         self._settings = settings
 
-        encoder_settings = NetworkSettings(
-            normalize=settings.normalize,
-            hidden_units=settings.encoding_size,
-            num_layers=2,
-            vis_encode_type=EncoderType.SIMPLE,
-            memory=None,
-        )
+        encoder_settings = settings.network_settings
+        print(encoder_settings.hidden_units)
         self._action_flattener = ActionFlattener(specs.action_spec)
         unencoded_size = (
             self._action_flattener.flattened_size + 1 if settings.use_actions else 0
@@ -90,7 +84,7 @@ def __init__(self, specs: BehaviorSpec, settings: GAILSettings) -> None:
             specs.observation_specs, encoder_settings, unencoded_size
         )
 
-        estimator_input_size = settings.encoding_size
+        estimator_input_size = encoder_settings.hidden_units
         if settings.use_vail:
             estimator_input_size = self.z_size
             self._z_sigma = torch.nn.Parameter(

diff --git a/ml-agents/mlagents/trainers/torch/components/reward_providers/rnd_reward_provider.py b/ml-agents/mlagents/trainers/torch/components/reward_providers/rnd_reward_provider.py
@@ -11,7 +11,6 @@
 from mlagents_envs.base_env import BehaviorSpec
 from mlagents.trainers.torch.utils import ModelUtils
 from mlagents.trainers.torch.networks import NetworkBody
-from mlagents.trainers.settings import NetworkSettings, EncoderType
 from mlagents.trainers.trajectory import ObsUtil
 
 
@@ -58,13 +57,7 @@ class RNDNetwork(torch.nn.Module):
 
     def __init__(self, specs: BehaviorSpec, settings: RNDSettings) -> None:
         super().__init__()
-        state_encoder_settings = NetworkSettings(
-            normalize=True,
-            hidden_units=settings.encoding_size,
-            num_layers=3,
-            vis_encode_type=EncoderType.SIMPLE,
-            memory=None,
-        )
+        state_encoder_settings = settings.network_settings
         self._encoder = NetworkBody(specs.observation_specs, state_encoder_settings)
 
     def forward(self, mini_batch: AgentBuffer) -> torch.Tensor: