Improve Symbolic Cholesky performance #1758

upsj · 2024-12-19T20:44:57Z

This improves the symbolic Cholesky performance by preprocessing the matrix on the GPU with a Minimum Spanning Tree algorithm.

Example rgg_22 from SuiteSparse with METIS nested dissection on H100:

Before: 0.76 s
After: 0.5 s

The performance improvements are split between device-host transfer (transferring a spanning tree instead of the full matrix) and the elimination tree computation (operating on a sparser graph)

yhmtsai

for omp part, does it also show better performance than the previous one?
previous one seems to be much shorter than the current one, so maybe we can keep the old one if it does not give better performance

core/factorization/cholesky.cpp

core/factorization/ic.cpp

core/test/components/range_minimum_query.cpp

test/factorization/cholesky_kernels.cpp

upsj · 2024-12-27T09:45:30Z

The OpenMP part is not yet parallelized, and the skeleton tree computation is not enabled by default.

Constexpr evaluation complexity too high

…ssing) see TODOs for problematic points

upsj requested a review from a team December 19, 2024 20:44

upsj self-assigned this Dec 19, 2024

upsj added the 1:ST:ready-for-review This PR is ready for review label Dec 19, 2024

upsj marked this pull request as draft December 27, 2024 00:18

yhmtsai reviewed Dec 27, 2024

View reviewed changes

upsj mentioned this pull request Jan 11, 2025

MST Preprocessing for symbolic Cholesky #1765

Merged

upsj added 18 commits January 16, 2025 15:03

add subtree size computation

a61cfea

add level computation kernel

99b959e

euler path wip

6f56349

rmq blockwise components

dd783e8

add some tests

e66c0ff

fixes for mac

2e64d30

Constexpr evaluation complexity too high

separate preprocessing from lookup functions

df8eae3

review updates

9f79e50

add superblock storage skeleton

5a3bb1c

wip rmq superblock storage

7041c0d

add test for intrinsics

553f2e2

fix gcc compilation

6871a9d

rename compute_elim_forest to compute_elimination_forest

2448f18

add bit-packed span wrapper

e9bdee9

replace divisions by shifts

4b5e94c

clean up bit_packed_span members

f895fa4

extract bit_packed_storage type

566bd66

compile reference kernels

7dcc37a

upsj added 15 commits January 16, 2025 15:06

finish superblock lookup

1b51521

update copyright headers

28e28db

fix test and superblock computation

714e2e2

fix level count computation

823f279

add device kernels

60105e9

refactor and add query support

825b1fe

add rmq query

f90ca8d

add device tests and fix kernels (currently broken for parallel proce…

a2a5817

…ssing) see TODOs for problematic points

collate memory accesses to avoid data races

5d44507

add reference euler path computation kernel

84bee35

fix fill_array duplicate instantiations

098d6f8

fix level computation

ea8d543

add euler path computation for post-Volta

05259cf

add omp kernels from reference

168bf23

add HIP support for euler path

b644a9e

upsj force-pushed the cholesky-mst branch from af2cf59 to b644a9e Compare January 16, 2025 14:08

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Improve Symbolic Cholesky performance #1758

Improve Symbolic Cholesky performance #1758

upsj commented Dec 19, 2024

yhmtsai left a comment

upsj commented Dec 27, 2024

Improve Symbolic Cholesky performance #1758

Are you sure you want to change the base?

Improve Symbolic Cholesky performance #1758

Conversation

upsj commented Dec 19, 2024

yhmtsai left a comment

Choose a reason for hiding this comment

upsj commented Dec 27, 2024