pandas-dev · jorisvandenbossche · Jan 13, 2021 · Jun 1, 2020 · Aug 27, 2020 · Sep 4, 2020
diff --git a/pandas/core/config_init.py b/pandas/core/config_init.py
@@ -482,6 +482,14 @@ def use_inf_as_na_cb(key):
     cf.register_option(
         "use_inf_as_null", False, use_inf_as_null_doc, cb=use_inf_as_na_cb
     )
+    cf.register_option(
+        "data_manager",
+        # TODO switch back to default of "block" before merging
+        # "block",
+        "array",
+        "internal manager type",
+        validator=is_one_of_factory(["block", "array"]),
+    )
 
 cf.deprecate_option(
     "mode.use_inf_as_null", msg=use_inf_as_null_doc, rkey="mode.use_inf_as_na"

diff --git a/pandas/core/frame.py b/pandas/core/frame.py
@@ -129,7 +129,7 @@
 from pandas.core.indexes.multi import MultiIndex, maybe_droplevels
 from pandas.core.indexes.period import PeriodIndex
 from pandas.core.indexing import check_bool_indexer, convert_to_index_sliceable
-from pandas.core.internals import BlockManager
+from pandas.core.internals import ArrayManager, BlockManager
 from pandas.core.internals.construction import (
     arrays_to_mgr,
     dataclasses_to_dicts,
@@ -437,6 +437,9 @@ def __init__(
         columns: Optional[Axes] = None,
         dtype: Optional[Dtype] = None,
         copy: bool = False,
+        # TODO do we want to keep this as a keyword as well? (I think it can be handy)
+        # can we somehow make it a "private" keyword? (`_manager` ?)
+        manager: Optional[str] = None,
     ):
         if data is None:
             data = {}
@@ -446,7 +449,7 @@ def __init__(
         if isinstance(data, DataFrame):
             data = data._mgr
 
-        if isinstance(data, BlockManager):
+        if isinstance(data, (BlockManager, ArrayManager)):
             if index is None and columns is None and dtype is None and copy is False:
                 # GH#33357 fastpath
                 NDFrame.__init__(
@@ -555,6 +558,16 @@ def __init__(
                     values, index, columns, dtype=values.dtype, copy=False
                 )
 
+        if manager is None:
+            manager = get_option("mode.data_manager")
+
+        if manager == "array" and not isinstance(mgr, ArrayManager):
+            # TODO proper initialization
+            df = DataFrame(mgr, manager="block")
+            arrays = [arr.copy() for arr in df._iter_column_arrays()]
+            mgr = ArrayManager(arrays, [mgr.axes[1], mgr.axes[0]])
+        # TODO check for case of manager="block" but mgr is ArrayManager
+
         NDFrame.__init__(self, mgr)
 
     # ----------------------------------------------------------------------
@@ -629,6 +642,8 @@ def _is_homogeneous_type(self) -> bool:
         ...    "B": np.array([1, 2], dtype=np.int64)})._is_homogeneous_type
         False
         """
+        if isinstance(self._mgr, ArrayManager):
+            return False
         if self._mgr.any_extension_types:
             return len({block.dtype for block in self._mgr.blocks}) == 1
         else:
@@ -640,6 +655,8 @@ def _can_fast_transpose(self) -> bool:
         """
         Can we transpose this DataFrame without creating any new array objects.
         """
+        if isinstance(self._data, ArrayManager):
+            return False
         if self._data.any_extension_types:
             # TODO(EA2D) special case would be unnecessary with 2D EAs
             return False
@@ -5351,7 +5368,7 @@ def sort_values(  # type: ignore[override]
         )
 
         if ignore_index:
-            new_data.axes[1] = ibase.default_index(len(indexer))
+            new_data.set_axis(1, ibase.default_index(len(indexer)))
 
         result = self._constructor(new_data)
         if inplace:

diff --git a/pandas/core/generic.py b/pandas/core/generic.py
@@ -98,7 +98,7 @@
 from pandas.core.indexes.datetimes import DatetimeIndex
 from pandas.core.indexes.period import Period, PeriodIndex
 import pandas.core.indexing as indexing
-from pandas.core.internals import BlockManager
+from pandas.core.internals import ArrayManager, BlockManager
 from pandas.core.missing import find_valid_index
 from pandas.core.ops import align_method_FRAME
 from pandas.core.shared_docs import _shared_docs
@@ -196,7 +196,7 @@ class NDFrame(PandasObject, SelectionMixin, indexing.IndexingMixin):
     _deprecations: FrozenSet[str] = frozenset(["get_values", "tshift"])
     _metadata: List[str] = []
     _is_copy = None
-    _mgr: BlockManager
+    _mgr: Union[BlockManager, ArrayManager]
     _attrs: Dict[Optional[Hashable], Any]
     _typ: str
 
@@ -205,7 +205,7 @@ class NDFrame(PandasObject, SelectionMixin, indexing.IndexingMixin):
 
     def __init__(
         self,
-        data: BlockManager,
+        data: Union[BlockManager, ArrayManager],
         copy: bool = False,
         attrs: Optional[Mapping[Optional[Hashable], Any]] = None,
     ):
@@ -222,7 +222,9 @@ def __init__(
         object.__setattr__(self, "_flags", Flags(self, allows_duplicate_labels=True))
 
     @classmethod
-    def _init_mgr(cls, mgr, axes, dtype=None, copy: bool = False) -> BlockManager:
+    def _init_mgr(
+        cls, mgr, axes, dtype=None, copy: bool = False
+    ) -> Union[BlockManager, ArrayManager]:
         """ passed a manager and a axes dict """
         for a, axe in axes.items():
             if axe is not None:
@@ -235,8 +237,9 @@ def _init_mgr(cls, mgr, axes, dtype=None, copy: bool = False) -> BlockManager:
             mgr = mgr.copy()
         if dtype is not None:
             # avoid further copies if we can
-            if len(mgr.blocks) > 1 or mgr.blocks[0].values.dtype != dtype:
-                mgr = mgr.astype(dtype=dtype)
+            # TODO
+            # if len(mgr.blocks) > 1 or mgr.blocks[0].values.dtype != dtype:
+            mgr = mgr.astype(dtype=dtype)
         return mgr
 
     # ----------------------------------------------------------------------
@@ -4469,11 +4472,11 @@ def sort_index(
         new_data = self._mgr.take(indexer, axis=baxis, verify=False)
 
         # reconstruct axis if needed
-        new_data.axes[baxis] = new_data.axes[baxis]._sort_levels_monotonic()
+        new_data.set_axis(baxis, new_data.axes[baxis]._sort_levels_monotonic())
 
         if ignore_index:
             axis = 1 if isinstance(self, ABCDataFrame) else 0
-            new_data.axes[axis] = ibase.default_index(len(indexer))
+            new_data.set_axis(axis, ibase.default_index(len(indexer)))
 
         result = self._constructor(new_data)
 
@@ -5438,6 +5441,8 @@ def _protect_consolidate(self, f):
         Consolidate _mgr -- if the blocks have changed, then clear the
         cache
         """
+        if isinstance(self._mgr, ArrayManager):
+            return f()
         blocks_before = len(self._mgr.blocks)
         result = f()
         if len(self._mgr.blocks) != blocks_before:

diff --git a/pandas/core/internals/__init__.py b/pandas/core/internals/__init__.py
@@ -15,6 +15,7 @@
 )
 from pandas.core.internals.concat import concatenate_block_managers
 from pandas.core.internals.managers import (
+    ArrayManager,
     BlockManager,
     SingleBlockManager,
     create_block_manager_from_arrays,
@@ -35,6 +36,7 @@
     "TimeDeltaBlock",
     "safe_reshape",
     "make_block",
+    "ArrayManager",
     "BlockManager",
     "SingleBlockManager",
     "concatenate_block_managers",

diff --git a/pandas/core/internals/concat.py b/pandas/core/internals/concat.py
@@ -1,5 +1,6 @@
 from collections import defaultdict
 import copy
+import itertools
 from typing import Dict, List
 
 import numpy as np
@@ -26,7 +27,7 @@
 import pandas.core.algorithms as algos
 from pandas.core.arrays import DatetimeArray, ExtensionArray
 from pandas.core.internals.blocks import make_block
-from pandas.core.internals.managers import BlockManager
+from pandas.core.internals.managers import ArrayManager, BlockManager
 
 
 def concatenate_block_managers(
@@ -46,6 +47,21 @@ def concatenate_block_managers(
     -------
     BlockManager
     """
+    if isinstance(mgrs_indexers[0][0], ArrayManager):
+
+        if concat_axis == 1:
+            # TODO for now only fastpath without indexers
+            mgrs = [t[0] for t in mgrs_indexers]
+            arrays = [
+                concat_compat([mgrs[i].arrays[j] for i in range(len(mgrs))], axis=0)
+                for j in range(len(mgrs[0].arrays))
+            ]
+            return ArrayManager(arrays, [axes[1], axes[0]])
+        elif concat_axis == 0:
+            mgrs = [t[0] for t in mgrs_indexers]
+            arrays = list(itertools.chain.from_iterable([mgr.arrays for mgr in mgrs]))
+            return ArrayManager(arrays, [axes[1], axes[0]])
+
     concat_plans = [
         _get_mgr_concatenation_plan(mgr, indexers) for mgr, indexers in mgrs_indexers
     ]