kedro-org · idanov · Jul 23, 2019 · Jun 8, 2019 · Jun 9, 2019 · Jun 14, 2019
@@ -61,6 +61,8 @@ class CSVBlobDataSet(AbstractDataSet):
         >>> assert data.equals(reloaded)
     """
 
+    DEFAULT_SAVE_ARGS = {"index": False}
+
     def _describe(self) -> Dict[str, Any]:
         return dict(
             filepath=self._filepath,
@@ -106,16 +108,12 @@ def __init__(
                 All defaults are preserved, but "index", which is set to False.
 
         """
-        default_save_args = {"index": False}
-        self._save_args = (
-            {**default_save_args, **save_args} if save_args else default_save_args
-        )
-        self._load_args = load_args if load_args else {}
         self._filepath = filepath
         self._container_name = container_name
         self._credentials = credentials if credentials else {}
         self._blob_to_text_args = blob_to_text_args if blob_to_text_args else {}
         self._blob_from_text_args = blob_from_text_args if blob_from_text_args else {}
+        super().__init__(load_args, save_args)
 
     def _load(self) -> pd.DataFrame:
         blob_service = BlockBlobService(**self._credentials)

@@ -95,18 +95,7 @@ def __init__(
 
         """
         self._filepath = filepath
-        default_load_args = {}
-        default_save_args = {}
-        self._load_args = (
-            {**default_load_args, **load_args}
-            if load_args is not None
-            else default_load_args
-        )
-        self._save_args = (
-            {**default_save_args, **save_args}
-            if save_args is not None
-            else default_save_args
-        )
+        super().__init__(load_args, save_args)
 
     def _load(self) -> List:
         return list(SeqIO.parse(self._filepath, **self._load_args))

@@ -106,8 +106,7 @@ def __init__(
 
         self._filepath = filepath
         self._file_format = file_format
-        self._load_args = load_args if load_args is not None else {}
-        self._save_args = save_args if save_args is not None else {}
+        super().__init__(load_args, save_args)
 
     @staticmethod
     def _get_spark():

@@ -140,8 +140,7 @@ def __init__(
 
         self._url = url
         self._table = table
-        self._load_args = load_args if load_args is not None else {}
-        self._save_args = save_args if save_args is not None else {}
+        super().__init__(load_args, save_args)
 
         # Update properties in load_args and save_args with credentials.
         if credentials is not None:

diff --git a/kedro/io/core.py b/kedro/io/core.py
@@ -37,7 +37,7 @@
 from datetime import datetime, timezone
 from glob import iglob
 from pathlib import Path, PurePosixPath
-from typing import Any, Dict, Type
+from typing import Any, Dict, Optional, Type
 from warnings import warn
 
 from kedro.utils import load_obj
@@ -101,6 +101,9 @@ class AbstractDataSet(abc.ABC):
         >>>         return dict(param1=self._param1, param2=self._param2)
     """
 
+    DEFAULT_LOAD_ARGS = {}
+    DEFAULT_SAVE_ARGS = {}
+
     @classmethod
     def from_config(
         cls: Type,
@@ -189,6 +192,22 @@ def from_config(
             )
         return data_set
 
+    def __init__(
+        self,
+        load_args: Optional[Dict[str, Any]] = None,
+        save_args: Optional[Dict[str, Any]] = None,
+    ) -> None:
+        self._load_args = (
+            {**self.DEFAULT_LOAD_ARGS, **load_args}
+            if load_args is not None
+            else self.DEFAULT_LOAD_ARGS
+        )
+        self._save_args = (
+            {**self.DEFAULT_SAVE_ARGS, **save_args}
+            if save_args is not None
+            else self.DEFAULT_SAVE_ARGS
+        )
+
     def load(self) -> Any:
         """Loads data by delegation to the provided load method.
 

@@ -61,6 +61,8 @@ class CSVLocalDataSet(AbstractDataSet, FilepathVersionMixIn):
 
     """
 
+    DEFAULT_SAVE_ARGS = {"index": False}
+
     def _describe(self) -> Dict[str, Any]:
         return dict(
             filepath=self._filepath,
@@ -94,19 +96,8 @@ def __init__(
                 None, the latest version will be loaded. If its ``save``
                 attribute is None, save version will be autogenerated.
         """
-        default_save_args = {"index": False}
-        default_load_args = {}
         self._filepath = filepath
-        self._load_args = (
-            {**default_load_args, **load_args}
-            if load_args is not None
-            else default_load_args
-        )
-        self._save_args = (
-            {**default_save_args, **save_args}
-            if save_args is not None
-            else default_save_args
-        )
+        super().__init__(load_args, save_args)
         self._version = version
 
     def _load(self) -> pd.DataFrame:

@@ -60,6 +60,8 @@ class CSVS3DataSet(AbstractDataSet, S3PathVersionMixIn):
         >>> assert data.equals(reloaded)
     """
 
+    DEFAULT_SAVE_ARGS = {"index": False}
+
     def _describe(self) -> Dict[str, Any]:
         return dict(
             filepath=self._filepath,
@@ -101,14 +103,10 @@ def __init__(
                 attribute is None, save version will be autogenerated.
 
         """
-        default_save_args = {"index": False}
-        self._save_args = (
-            {**default_save_args, **save_args} if save_args else default_save_args
-        )
-        self._load_args = load_args if load_args else {}
         self._filepath = filepath
         self._bucket_name = bucket_name
         self._credentials = credentials if credentials else {}
+        super().__init__(load_args, save_args)
         self._version = version
         self._s3 = S3FileSystem(client_kwargs=self._credentials)
 

@@ -61,6 +61,9 @@ class ExcelLocalDataSet(AbstractDataSet, FilepathVersionMixIn):
 
     """
 
+    DEFAULT_LOAD_ARGS = {"engine": "xlrd"}
+    DEFAULT_SAVE_ARGS = {"index": False}
+
     def _describe(self) -> Dict[str, Any]:
         return dict(
             filepath=self._filepath,
@@ -105,19 +108,7 @@ def __init__(
 
         """
         self._filepath = filepath
-        default_save_args = {"index": False}
-        default_load_args = {"engine": "xlrd"}
-
-        self._load_args = (
-            {**default_load_args, **load_args}
-            if load_args is not None
-            else default_load_args
-        )
-        self._save_args = (
-            {**default_save_args, **save_args}
-            if save_args is not None
-            else default_save_args
-        )
+        super().__init__(load_args, save_args)
         self._engine = engine
         self._version = version
 

@@ -92,20 +92,9 @@ def __init__(
                 attribute is None, save version will be autogenerated.
 
         """
-        default_load_args = {}
-        default_save_args = {}
         self._filepath = filepath
         self._key = key
-        self._load_args = (
-            {**default_load_args, **load_args}
-            if load_args is not None
-            else default_load_args
-        )
-        self._save_args = (
-            {**default_load_args, **save_args}
-            if save_args is not None
-            else default_save_args
-        )
+        super().__init__(load_args, save_args)
         self._version = version
 
     def _load(self) -> pd.DataFrame:

@@ -40,7 +40,6 @@
 HDFSTORE_DRIVER = "H5FD_CORE"
 
 
-# pylint: disable=too-many-instance-attributes
 class HDFS3DataSet(AbstractDataSet, S3PathVersionMixIn):
     """``HDFS3DataSet`` loads and saves data to a S3 bucket. The
     underlying functionality is supported by pandas, so it supports all
@@ -100,22 +99,11 @@ def __init__(
                 attribute is None, save version will be autogenerated.
 
         """
-        default_load_args = {}
-        default_save_args = {}
         self._filepath = filepath
         self._key = key
         self._bucket_name = bucket_name
         self._credentials = credentials if credentials else {}
-        self._load_args = (
-            {**default_load_args, **load_args}
-            if load_args is not None
-            else default_load_args
-        )
-        self._save_args = (
-            {**default_load_args, **save_args}
-            if save_args is not None
-            else default_save_args
-        )
+        super().__init__(load_args, save_args)
         self._version = version
         self._s3 = S3FileSystem(client_kwargs=self._credentials)
 

@@ -58,6 +58,8 @@ class JSONLocalDataSet(AbstractDataSet, FilepathVersionMixIn):
 
     """
 
+    DEFAULT_SAVE_ARGS = {"indent": 4}
+
     def _describe(self) -> Dict[str, Any]:
         return dict(
             filepath=self._filepath,
@@ -90,19 +92,8 @@ def __init__(
                 attribute is None, save version will be autogenerated.
 
         """
-        default_save_args = {"indent": 4}
-        default_load_args = {}
         self._filepath = filepath
-        self._load_args = (
-            {**default_load_args, **load_args}
-            if load_args is not None
-            else default_load_args
-        )
-        self._save_args = (
-            {**default_save_args, **save_args}
-            if save_args is not None
-            else default_save_args
-        )
+        super().__init__(load_args, save_args)
         self._version = version
 
     def _load(self) -> Any:

@@ -61,6 +61,8 @@ class ParquetLocalDataSet(AbstractDataSet, FilepathVersionMixIn):
         >>> assert data.equals(loaded_data)
     """
 
+    DEFAULT_SAVE_ARGS = {"compression": None}
+
     def _describe(self) -> Dict[str, Any]:
         return dict(
             filepath=self._filepath,
@@ -107,22 +109,9 @@ def __init__(
                 attribute is None, save version will be autogenerated.
 
         """
-        default_save_args = {"compression": None}
-        default_load_args = {}
-
         self._filepath = filepath
         self._engine = engine
-
-        self._load_args = (
-            {**default_load_args, **load_args}
-            if load_args is not None
-            else default_load_args
-        )
-        self._save_args = (
-            {**default_save_args, **save_args}
-            if save_args is not None
-            else default_save_args
-        )
+        super().__init__(load_args, save_args)
         self._version = version
 
     def _load(self) -> pd.DataFrame:

@@ -113,9 +113,6 @@ def __init__(
             ImportError: If 'backend' could not be imported.
 
         """
-        default_save_args = {}
-        default_load_args = {}
-
         if backend not in ["pickle", "joblib"]:
             raise ValueError(
                 "backend should be one of ['pickle', 'joblib'], got %s" % backend
@@ -128,16 +125,7 @@ def __init__(
 
         self._filepath = filepath
         self._backend = backend
-        self._load_args = (
-            {**default_load_args, **load_args}
-            if load_args is not None
-            else default_load_args
-        )
-        self._save_args = (
-            {**default_save_args, **save_args}
-            if save_args is not None
-            else default_save_args
-        )
+        super().__init__(load_args, save_args)
         self._version = version
 
     def _load(self) -> Any:

@@ -95,23 +95,11 @@ def __init__(
                 None, the latest version will be loaded. If its ``save``
                 attribute is None, save version will be autogenerated.
         """
-        default_load_args = {}
-        default_save_args = {}
-
         self._filepath = filepath
         self._bucket_name = bucket_name
         self._credentials = credentials if credentials else {}
+        super().__init__(load_args, save_args)
         self._version = version
-        self._load_args = (
-            {**default_load_args, **load_args}
-            if load_args is not None
-            else default_load_args
-        )
-        self._save_args = (
-            {**default_save_args, **save_args}
-            if save_args is not None
-            else default_save_args
-        )
         self._s3 = S3FileSystem(client_kwargs=self._credentials)
 
     @property

@@ -139,6 +139,8 @@ class SQLTableDataSet(AbstractDataSet):
 
     """
 
+    DEFAULT_SAVE_ARGS = {"index": False}
+
     def _describe(self) -> Dict[str, Any]:
         load_args = self._load_args.copy()
         save_args = self._save_args.copy()
@@ -193,19 +195,7 @@ def __init__(
                 "provide a SQLAlchemy connection string."
             )
 
-        default_save_args = {"index": False}
-        default_load_args = {}
-
-        self._load_args = (
-            {**default_load_args, **load_args}
-            if load_args is not None
-            else default_load_args
-        )
-        self._save_args = (
-            {**default_save_args, **save_args}
-            if save_args is not None
-            else default_save_args
-        )
+        super().__init__(load_args, save_args)
 
         self._load_args["table_name"] = table_name
         self._save_args["name"] = table_name