Column-wise Iteration Benchmarks #316

stanbrub · 2024-07-11T20:09:08Z

There are several ways in python to iterate over the columns of Deephaven Tables; dictionary per row, tuple per row, getting jpy column vectors, and pandas tuples.

Add nightly benchmarks for 'dictionary per row' and 'tuple per row' (These are the two fastest DH ways)
Add compare benchmarks 'tuple per row' against pandas and pyarrow

import timeit
from deephaven import empty_table
t = empty_table(1_000_000).update(["X=i", "Y=ii"])

iter_func = lambda t: sum((r["X"] + r["Y"] for r in t.iter_dict()))
print("Dict iteration:", timeit.timeit(lambda: iter_func(t), number=10))

iter_func1 = lambda t: sum((r.X + r.Y for r in t.iter_tuple()))
print("Tuple iteration:", timeit.timeit(lambda: iter_func1(t), number=10))

##########
import jpy
_JColumnVectors = jpy.get_type("io.deephaven.engine.table.vectors.ColumnVectors")
_j_column_vector = _JColumnVectors.ofInt(t.j_table, "X")
_j_column_vector1 = _JColumnVectors.ofLong(t.j_table, "Y")
iter_func_direct = lambda t: sum((_j_column_vector.get(i) + _j_column_vector1.get(i) for i in range(t.size)))
print("Direct (DH Vector) iteration:", timeit.timeit(lambda: iter_func_direct(t), number=10))

######## Pandas
from deephaven.pandas import to_pandas
df = to_pandas(t)
iter_func_pandas = lambda t: sum((r["X"] + r["Y"] for i, r in df.iterrows()))
print("Pandas iteration:", timeit.timeit(lambda: iter_func_pandas(t), number=10))

iter_func_pandas = lambda t: sum((r.X + r.Y for r in df.itertuples()))
print("Pandas iteration (tuples):", timeit.timeit(lambda: iter_func_pandas(t), number=10))

Some recent results Jianfeng did:

Dict iteration: 2.7872319179587066
Tuple iteration: 1.736757001024671
Direct (DH Vector) iteration: 4.774696293985471
Pandas iteration (tuples): 3.3441969179548323

The text was updated successfully, but these errors were encountered:

stanbrub added the enhancement New feature or request label Jul 11, 2024

stanbrub self-assigned this Jul 11, 2024

stanbrub linked a pull request Aug 12, 2024 that will close this issue

Column Iteration Benchmarks #328

Merged

stanbrub closed this as completed in #328 Aug 12, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Column-wise Iteration Benchmarks #316

Column-wise Iteration Benchmarks #316

stanbrub commented Jul 11, 2024 •

edited

Loading

Column-wise Iteration Benchmarks #316

Column-wise Iteration Benchmarks #316

Comments

stanbrub commented Jul 11, 2024 • edited Loading

stanbrub commented Jul 11, 2024 •

edited

Loading