New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

Sign up for GitHub

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Jump to bottom

ML-280: Support time range in readers #200

Merged

katyakats merged 21 commits into mlrun:development from katyakats:ML-280

Apr 22, 2021

Contributor

katyakats commented Apr 19, 2021

No description provided.

katyakats and others added 9 commits

April 18, 2021 18:14


          ML-280: adding filter (before and after) to ReadParquet

b2e61b7


          Support list key_field in Source. (mlrun#197)

232adf8

Co-authored-by: Gal Topper <galt@iguazio.com>


          Cache (mlrun#184)

b261195

* refactor

* working integ

* lint

* fix typo

* test fixes

* lint

* temp

* integ

* parametrize tests

* rename

* handle exceptions inside flush worker

* mid

* fix reuse

* flushing

* use changed items list instead of time lookup

* check if running loop exists

* add test

* fix test

* add flush interval enum

* update test and doc

* code review

* make flush interval an optional[int] and init_flush_task only from async code

* update doc

Co-authored-by: Dina Nimrodi <dinan@iguazio.com>


          iterate over a copy of changed keys (mlrun#198)

658dae6

* iterate over a copy of changed keys

* don't add key to persist job if it's already pending

* fix several bugs

Co-authored-by: Dina Nimrodi <dinan@iguazio.com>


          ML-389: Fix expected webapi error in case of concurrent modification …

8796a0e

…of aggregations. (mlrun#199)

* Don't use now in tests.

* ML-389: Fix expected webapi error in case of concurrent modification of aggregations.

Co-authored-by: Gal Topper <galt@iguazio.com>


          some cleanup

3e5edfc


          more cleanup

e1d27f8


          Merge remote-tracking branch 'upstream/development' into ML-280

439f819

fix

63b175f

gtopper changed the title ~~Ml 280~~ ML-280

gtopper changed the title ~~ML-280~~ ML-280: Support time range in readers

gtopper reviewed

View reviewed changes

storey/sources.py Outdated

                   """
-                  def __init__(self, paths: Union[str, Iterable[str]], columns=None, **kwargs):
+                  def __init__(self, paths: Union[str, Iterable[str]], columns=None, before=None, after=None, filter_column=None, **kwargs):

Collaborator

gtopper Apr 19, 2021

Missing type annotations?

gtopper reviewed

View reviewed changes

storey/sources.py Outdated

Comment on lines 674 to 676

+                  :parameter before: Optional. datetime. If not None, the results will be filtered 'filter_column' >= before
+                  :parameter after: Optional. datetime. If not None, the results will be filtered 'filter_column' <= after
+                  :parameter filter_column: Optional. if not None, the results will be filtered by this column and before and/or after

Collaborator

gtopper Apr 19, 2021

Can remove type information from here. Better state the default at the end rather than "Optional" at the beginning.

urihoenig reviewed

View reviewed changes

integration/test_filesystems_integration.py Outdated

+                  ]).run()
+                  read_back_result = controller.await_termination()
+                  assert len(read_back_result) == 1

urihoenig Apr 19, 2021

Why not verify the specific data?

integration/test_filesystems_integration.py Outdated Show resolved Hide resolved

integration/test_filesystems_integration.py Outdated Show resolved Hide resolved

integration/test_filesystems_integration.py Outdated Show resolved Hide resolved

integration/test_filesystems_integration.py Outdated Show resolved Hide resolved

integration/test_filesystems_integration.py

+                  ]).run()
+                  read_back_result = controller.await_termination()
+                  print("expecting " + str(10 - number_below_middle_limit) + " to be above middle limit")
+                  assert(len(read_back_result)) == 10 - number_below_middle_limit

urihoenig Apr 19, 2021

Same here, why not verify the data?

integration/test_filesystems_integration.py

+                  ]).run()
+                  read_back_result = controller.await_termination()
+                  print("expecting " + str(number_below_middle_limit) + " to be below middle limit")
+                  assert (len(read_back_result)) == number_below_middle_limit

urihoenig Apr 19, 2021

and here

integration/test_filesystems_integration.py

                   read_back_df = pd.read_parquet(out_file, columns=columns)
                   assert read_back_df.equals(expected), f"{read_back_df}\n!=\n{expected}"
+              def append_and_return(lst, x):

urihoenig Apr 19, 2021

Why not move it to some test_utils? (both here & in test_flow)

storey/sources.py Outdated Show resolved Hide resolved

storey/sources.py Outdated Show resolved Hide resolved

urihoenig reviewed

View reviewed changes

storey/utils.py Outdated

		return new_date


		def get_filtered_path(dir_path, before, after, storage_options, dummy_date_first, dummy_date_last, filtered_paths):

urihoenig Apr 19, 2021

Why not datetime.min & datetime.max as default values?

storey/utils.py Outdated Show resolved Hide resolved

storey/utils.py Outdated Show resolved Hide resolved

storey/utils.py Outdated Show resolved Hide resolved

storey/utils.py Outdated Show resolved Hide resolved

katyakats added 8 commits

April 21, 2021 11:27


          PR comments and adding read_parquet with filtering

d0009d2


          some cleanup

13e134b


          filter by column inside the method

7438e78


          pr comment

c65f1b3


          bug fix

1bc677a


          bug fix

3f05ca4


          bug fix

a5056b5


          one more bug fix

9f3dd6f

urihoenig reviewed

View reviewed changes

storey/sources.py Show resolved Hide resolved

storey/sources.py Outdated Show resolved Hide resolved

storey/utils.py Outdated Show resolved Hide resolved

storey/utils.py Show resolved Hide resolved

storey/utils.py Outdated Show resolved Hide resolved

katyakats added 2 commits

April 22, 2021 11:29


          pr comments

3e90e5a

fix

7fa648e

urihoenig reviewed

View reviewed changes

storey/sources.py

                       if isinstance(paths, str):
                           paths = [paths]
-                      dfs = map(lambda path: pandas.read_parquet(path, columns=columns,

urihoenig Apr 22, 2021

Just noticed that it's the init.
You should create a map and not actually read the parquets in this stage.

storey/utils.py Outdated

+              def _find_filter_helper(list_partitions, dtime, sign, first_sign, first_uncommon, filters, filter_column=None):
+                  single_filter = []
+                  if len(list_partitions) == 0:

urihoenig Apr 22, 2021

if len(list_partitions)<=1 or first_uncommon is None

storey/utils.py

+                      _create_filter_tuple(dtime, partition, "=", single_filter)
+                  if first_sign:
+                      _create_filter_tuple(dtime, last_partition, first_sign, single_filter)
+                      tuple_last_range = (filter_column, sign, dtime)

urihoenig Apr 22, 2021

It might be me, but all the naming confuses me (last_range vs first_sign)

urihoenig Apr 22, 2021

The same for single filter (maybe you can extract a find_single_filter function from here)


          pr comments

934d422

urihoenig approved these changes

View reviewed changes

storey/sources.py Outdated

+                      else:
+                          dfs = map(lambda path: pandas.read_parquet(path, columns=columns,
+                                                                     storage_options=kwargs.get('storage_options')), paths)

urihoenig Apr 22, 2021

You can use storage_options instead of kwargs.get


          minor fix

781f9da

katyakats merged commit 05b6db8 into mlrun:development

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet