ToucanToco · davinov · Apr 11, 2022 · Apr 11, 2022 · Apr 11, 2022 · Apr 11, 2022
diff --git a/peakina/readers/csv.py b/peakina/readers/csv.py
@@ -63,8 +63,8 @@ def read_csv(
     )
 
 
-def _line_count(filepath_or_buffer: "FilePathOrBuffer") -> int:
-    with open(filepath_or_buffer) as f:
+def _line_count(filepath_or_buffer: "FilePathOrBuffer", encoding: Optional[str]) -> int:
+    with open(filepath_or_buffer, encoding=encoding) as f:
         lines = 0
         buf_size = 1024 * 1024
         read_f = f.read  # loop optimization
@@ -80,7 +80,7 @@ def _line_count(filepath_or_buffer: "FilePathOrBuffer") -> int:
 def csv_meta(
     filepath_or_buffer: "FilePathOrBuffer", reader_kwargs: Dict[str, Any]
 ) -> Dict[str, Any]:
-    total_rows = _line_count(filepath_or_buffer)
+    total_rows = _line_count(filepath_or_buffer, reader_kwargs.get("encoding"))
 
     if "nrows" in reader_kwargs:
         return {

diff --git a/tests/fixtures/encoded_western_clrf_short.csv b/tests/fixtures/encoded_western_clrf_short.csv
@@ -0,0 +1,3 @@
+"aaaa";"aaaaa";"aaaaaaa";"aa";"aaaaaaa_aa";"aaaa_aa";"aaaa-aaaa_aa";"aaa_aaaaaaaaaa";"aaaaaaa_aaaaaaaaaa";"aaa_aaaaa";"aaaaaaa_aaaaa";"aaaa";"aaaaaaaaa";"aaaaaaa";"aaa-aaa";"aaa_aaaaaaaaa";"aaaaaaa_aaaaaaaaa";"aaaaaa";"aaaaaaaaaaa"
+"aaaa-aa-aa aa:aa:aa";"aaaa";"aaaa-aaa";"aaaa_a";"aaaaaaaaaaa aaaaaaaaaaa";"aaa";"aaa aaaaaa";"aaaaaaaa aaaa";"aaaaaaaa aaaaaaa";"a_aaaaa_aa";"aaa a aaa";"aaaaa";"aaaaaaaaaa";"aaaaaaaaaa";"aaa";"aaaaaa aa";"aaaaaa aa";"aaaa";" " 
+"aaaa-aa-aa aa:aa:aa";"aaaa";"aaaa-aaa";"aaaa_a";"aaaaaaaaaa a�aaaaa�a aa";"aaa";"";"aaaaaaaa aaaa";"aaaaaaaa aaaaaaa";"a_aaaaa_aa";"aaa a aaa";"aaaaaaaaaaaaa";"aaaaaa";"aaaaaaaaaa";"";"aaaaaa aa";"aaaaaa aa";"aa.aa";""
diff --git a/tests/fixtures/encoded_western_short.csv b/tests/fixtures/encoded_western_short.csv
@@ -0,0 +1,3 @@
+"aaaa";"aaaaa";"aaaaaaa";"aa";"aaaaaaa_aa";"aaaa_aa";"aaaa-aaaa_aa";"aaa_aaaaaaaaaa";"aaaaaaa_aaaaaaaaaa";"aaa_aaaaa";"aaaaaaa_aaaaa";"aaaa";"aaaaaaaaa";"aaaaaaa";"aaa-aaa";"aaa_aaaaaaaaa";"aaaaaaa_aaaaaaaaa";"aaaaaa";"aaaaaaaaaaa"
+"aaaa-aa-aa aa:aa:aa";"aaaa";"aaaa-aaa";"aaaa_a";"aaaaaaaaaaa aaaaaaaaaaa";"aaa";"aaa aaaaaa";"aaaaaaaa aaaa";"aaaaaaaa aaaaaaa";"a_aaaaa_aa";"aaa a aaa";"aaaaa";"aaaaaaaaaa";"aaaaaaaaaa";"aaa";"aaaaaa aa";"aaaaaa aa";"aaaa";" " 
+"aaaa-aa-aa aa:aa:aa";"aaaa";"aaaa-aaa";"aaaa_a";"aaaaaaaaaa a�aaaaa�a aa";"aaa";"";"aaaaaaaa aaaa";"aaaaaaaa aaaaaaa";"a_aaaaa_aa";"aaa a aaa";"aaaaaaaaaaaaa";"aaaaaa";"aaaaaaaaaa";"";"aaaaaa aa";"aaaaaa aa";"aa.aa";""
diff --git a/tests/test_datasource.py b/tests/test_datasource.py
@@ -77,6 +77,26 @@ def test_csv_default_encoding(path):
     assert df.shape == (486, 19)
 
 
+def test_csv_western_encoding(path):
+    """
+    It should be able to use a specific encoding
+    """
+    ds = DataSource(path("encoded_western_short.csv"), reader_kwargs={"encoding": "windows-1252"})
+    df = ds.get_df()
+    assert df.shape == (2, 19)
+    df_meta = ds.get_metadata()
+    assert df_meta == {"df_rows": 2, "total_rows": 2}
+
+    # with CLRF line-endings
+    ds = DataSource(
+        path("encoded_western_clrf_short.csv"), reader_kwargs={"encoding": "windows-1252"}
+    )
+    df = ds.get_df()
+    assert df.shape == (2, 19)
+    df_meta = ds.get_metadata()
+    assert df_meta == {"df_rows": 2, "total_rows": 2}
+
+
 def test_csv_with_sep_and_encoding(path):
     """It should be able to detect everything"""
     ds = DataSource(path("latin_1_sep.csv"))