modin-project · devin-petersohn · Jun 24, 2020 · Jun 3, 2020 · Jun 5, 2020 · Jun 23, 2020
@@ -468,7 +468,7 @@ the related section on `Defaulting to pandas`_.
 +-----------------------------+---------------------------------+
 | ``valid``                   | D                               |
 +-----------------------------+---------------------------------+
-| ``value_counts``            | D                               |
+| ``value_counts``            | Y                               |
 +-----------------------------+---------------------------------+
 | ``values``                  | Y                               |
 +-----------------------------+---------------------------------+

@@ -21,7 +21,7 @@ default to pandas.
 +---------------------------+---------------------------------+----------------------------------------------------+
 | `pd.unique`_              | Y                               |                                                    |
 +---------------------------+---------------------------------+----------------------------------------------------+
-| ``pd.value_counts``       | D                               |                                                    |
+| ``pd.value_counts``       | Y                               |                                                    |
 +---------------------------+---------------------------------+----------------------------------------------------+
 | `pd.cut`_                 | D                               |                                                    |
 +---------------------------+---------------------------------+----------------------------------------------------+

@@ -432,6 +432,9 @@ def unique(self, **kwargs):
 
     # END Abstract map partitions operations
 
+    def value_counts(self, **kwargs):
+        pass
+
     # Abstract map partitions across select indices
     @abc.abstractmethod
     def astype(self, col_dtypes, **kwargs):

@@ -535,6 +535,19 @@ def transpose(self, *args, **kwargs):
 
     # END String map partitions operations
 
+    def value_counts(self, **kwargs):
+        """
+        Return a QueryCompiler of Series containing counts of unique values.
+
+        Returns
+        -------
+        PandasQueryCompiler
+        """
+        new_modin_frame = self._modin_frame._apply_full_axis(
+            0, lambda x: x.squeeze().value_counts(**kwargs)
+        )
+        return self.__constructor__(new_modin_frame)
+
     def unique(self):
         """Return unique values of Series object.
 

@@ -27,7 +27,6 @@
 
 from pandas import (
     eval,
-    value_counts,
     cut,
     to_numeric,
     factorize,
@@ -132,6 +131,7 @@
     notna,
     pivot,
     unique,
+    value_counts,
 )
 from .plotting import Plotting as plotting
 from .. import __execution_engine__ as execution_engine
@@ -283,7 +283,6 @@ def import_pandas(*args):
     "json_normalize",
     "concat",
     "eval",
-    "value_counts",
     "cut",
     "to_numeric",
     "factorize",
@@ -363,6 +362,7 @@ def import_pandas(*args):
     "notna",
     "pivot",
     "unique",
+    "value_counts",
     "datetime",
     "NamedAgg",
     "DEFAULT_NPARTITIONS",

@@ -233,3 +233,33 @@ def unique(values):
         The unique values returned as a NumPy array.
     """
     return Series(values).unique()
+
+
+def value_counts(
+    values, sort=True, ascending=False, normalize=False, bins=None, dropna=True,
+):
+    """
+    Compute a histogram of the counts of non-null values.
+
+    Parameters
+    ----------
+    values : ndarray (1-d)
+    sort : bool, default True
+        Sort by values
+    ascending : bool, default False
+        Sort in ascending order
+    normalize: bool, default False
+        If True then compute a relative histogram
+    bins : integer, optional
+        Rather than count values, group them into half-open bins,
+        convenience for pd.cut, only works with numeric data
+    dropna : bool, default True
+        Don't include counts of NaN
+
+    Returns
+    -------
+    Series
+    """
+    return Series(values).value_counts(
+        sort=sort, ascending=ascending, normalize=normalize, bins=bins, dropna=dropna,
+    )
@@ -1256,13 +1256,40 @@ def update(self, other):
     def value_counts(
         self, normalize=False, sort=True, ascending=False, bins=None, dropna=True
     ):
-        return self._default_to_pandas(
-            pandas.Series.value_counts,
-            normalize=normalize,
-            sort=sort,
-            ascending=ascending,
-            bins=bins,
-            dropna=dropna,
+        """
+        Return a Series containing counts of unique values.
+
+        The resulting object will be in descending order so that the
+        first element is the most frequently-occurring element.
+        Excludes NA values by default.
+
+        Parameters
+        ----------
+        normalize : bool, default False
+            If True then the object returned will contain the relative
+            frequencies of the unique values.
+        sort : bool, default True
+            Sort by frequencies.
+        ascending : bool, default False
+            Sort in ascending order.
+        bins : int, optional
+            Rather than count values, group them into half-open bins,
+            a convenience for ``pd.cut``, only works with numeric data.
+        dropna : bool, default True
+            Don't include counts of NaN.
+
+        Returns
+        -------
+        Series
+        """
+        return self.__constructor__(
+            query_compiler=self._query_compiler.value_counts(
+                normalize=normalize,
+                sort=sort,
+                ascending=ascending,
+                bins=bins,
+                dropna=dropna,
+            )
         )
 
     def view(self, dtype=None):

@@ -319,6 +319,21 @@ def test_unique():
     assert_array_equal(modin_result, pandas_result)
 
 
+def test_value_counts():
+    values = np.array([3, 1, 2, 3, 4, np.nan])
+    modin_result = pd.value_counts(values, normalize=True)
+    pandas_result = pandas.value_counts(values, normalize=True)
+    df_equals(modin_result, pandas_result)
+
+    modin_result = pd.value_counts(values, bins=3)
+    pandas_result = pandas.value_counts(values, bins=3)
+    df_equals(modin_result, pandas_result)
+
+    modin_result = pd.value_counts(values, dropna=False)
+    pandas_result = pandas.value_counts(values, dropna=False)
+    df_equals(modin_result, pandas_result)
+
+
 def test_to_datetime():
     # DataFrame input for to_datetime
     modin_df = pd.DataFrame({"year": [2015, 2016], "month": [2, 3], "day": [4, 5]})

@@ -2805,9 +2805,23 @@ def test_update(data):
 @pytest.mark.parametrize("data", test_data_values, ids=test_data_keys)
 def test_value_counts(data):
     modin_series, pandas_series = create_test_series(data)
+    modin_result = modin_series.value_counts()
+    pandas_result = pandas_series.value_counts()
+    df_equals(modin_result, pandas_result)
 
-    with pytest.warns(UserWarning):
-        modin_series.value_counts()
+    modin_series = pd.Series([3, 1, 2, 3, 4, np.nan])
+    pandas_series = pandas.Series([3, 1, 2, 3, 4, np.nan])
+    modin_result = modin_series.value_counts(normalize=True)
+    pandas_result = pandas_series.value_counts(normalize=True)
+    df_equals(modin_result, pandas_result)
+
+    modin_result = modin_series.value_counts(bins=3)
+    pandas_result = pandas_series.value_counts(bins=3)
+    df_equals(modin_result, pandas_result)
+
+    modin_result = modin_series.value_counts(dropna=False)
+    pandas_result = pandas_series.value_counts(dropna=False)
+    df_equals(modin_result, pandas_result)
 
 
 @pytest.mark.parametrize("data", test_data_values, ids=test_data_keys)