CExA-project · tpadioleau · Nov 13, 2023 · Nov 11, 2023 · Nov 12, 2023 · Nov 12, 2023
diff --git a/benchmarks/splines.cpp b/benchmarks/splines.cpp
@@ -179,13 +179,13 @@ static void characteristics_advection(benchmark::State& state)
 
 #ifdef KOKKOS_ENABLE_CUDA
 std::string chip = "gpu";
-int cols_per_par_chunk_ref = 1024;
-int par_chunks_per_seq_chunk_ref = 160;
+int cols_per_par_chunk_ref = 65535;
+int par_chunks_per_seq_chunk_ref = 1;
 unsigned int preconditionner_max_block_size_ref = 1u;
 #elif defined(KOKKOS_ENABLE_OPENMP)
 std::string chip = "cpu";
 int cols_per_par_chunk_ref = 512;
-int par_chunks_per_seq_chunk_ref = 160;
+int par_chunks_per_seq_chunk_ref = Kokkos::OpenMP().concurrency();
 unsigned int preconditionner_max_block_size_ref = 8u;
 #elif defined(KOKKOS_ENABLE_SERIAL)
 std::string chip = "cpu";
@@ -197,29 +197,29 @@ unsigned int preconditionner_max_block_size_ref = 8u;
 BENCHMARK(characteristics_advection)
         ->RangeMultiplier(2)
         ->Ranges(
-                {{100, 1000},
+                {{64, 1024},
                  {100, 500000},
                  {cols_per_par_chunk_ref, cols_per_par_chunk_ref},
                  {par_chunks_per_seq_chunk_ref, par_chunks_per_seq_chunk_ref},
                  {preconditionner_max_block_size_ref, preconditionner_max_block_size_ref}})
-        ->MinTime(3);
+        ->MinTime(3)->UseRealTime();
 /*
 BENCHMARK(characteristics_advection)
         ->RangeMultiplier(2)
-        ->Ranges({{100, 1000}, {100000, 100000}, {64,65535}, {par_chunks_per_seq_chunk_ref, par_chunks_per_seq_chunk_ref}, {preconditionner_max_block_size_ref, preconditionner_max_block_size_ref}})
-        ->MinTime(3);
+        ->Ranges({{64, 1024}, {100000, 100000}, {64,65535}, {par_chunks_per_seq_chunk_ref, par_chunks_per_seq_chunk_ref}, {preconditionner_max_block_size_ref, preconditionner_max_block_size_ref}})
+        ->MinTime(3)->UseRealTime();
 */
 /*
 BENCHMARK(characteristics_advection)
         ->RangeMultiplier(2)
-        ->Ranges({{100, 1000}, {100000, 100000}, {cols_per_par_chunk_ref, cols_per_par_chunk_ref}, {1, 10000}, {preconditionner_max_block_size_ref, preconditionner_max_block_size_ref}})
-        ->MinTime(3);
+        ->Ranges({{64, 1024}, {100000, 100000}, {cols_per_par_chunk_ref, cols_per_par_chunk_ref}, {1, 10000}, {preconditionner_max_block_size_ref, preconditionner_max_block_size_ref}})
+        ->MinTime(3)->UseRealTime();
 */
 /*
 BENCHMARK(characteristics_advection)
         ->RangeMultiplier(2)
-        ->Ranges({{100, 1000}, {100000, 100000}, {cols_per_par_chunk_ref, cols_per_par_chunk_ref}, {par_chunks_per_seq_chunk_ref, par_chunks_per_seq_chunk_ref}, {1, 32}})
-        ->MinTime(3);
+        ->Ranges({{64, 1024}, {100000, 100000}, {cols_per_par_chunk_ref, cols_per_par_chunk_ref}, {par_chunks_per_seq_chunk_ref, par_chunks_per_seq_chunk_ref}, {1, 32}})
+        ->MinTime(3)->UseRealTime();
 */
 
 int main(int argc, char** argv)

diff --git a/benchmarks/splines_plot.py b/benchmarks/splines_plot.py
@@ -39,7 +39,7 @@
     bandwidth = [group_data["bytes_per_second"][i] for i in range(len(ny))]
     plt.plot(ny, bandwidth, marker='o', markersize=5, label=f'nx={nx}')
 
-x = np.linspace(min(ny), 10*min(ny))
+x = np.linspace(min(ny), 20*min(ny))
 plt.plot(x, np.mean([data_groups[nx]["bytes_per_second"][0] for nx in nx_values])/min(ny)*x, linestyle='--', color='black', label='perfect scaling')
 
 # Plotting the data

diff --git a/include/ddc/kernels/splines/matrix_sparse.hpp b/include/ddc/kernels/splines/matrix_sparse.hpp
@@ -76,12 +76,12 @@ class Matrix_Sparse : public Matrix
 #endif
 #ifdef KOKKOS_ENABLE_CUDA
             if (std::is_same_v<ExecSpace, Kokkos::Cuda>) {
-                m_cols_per_par_chunk = 1024;
+                m_cols_per_par_chunk = 65535;
             }
 #endif
 #ifdef KOKKOS_ENABLE_HIP
             if (std::is_same_v<ExecSpace, Kokkos::HIP>) {
-                m_cols_per_par_chunk = 1024;
+                m_cols_per_par_chunk = 65535;
             }
 #endif
         }
@@ -101,12 +101,12 @@ class Matrix_Sparse : public Matrix
 #endif
 #ifdef KOKKOS_ENABLE_CUDA
             if (std::is_same_v<ExecSpace, Kokkos::Cuda>) {
-                m_par_chunks_per_seq_chunk = Kokkos::DefaultHostExecutionSpace().concurrency();
+                m_par_chunks_per_seq_chunk = 1;
             }
 #endif
 #ifdef KOKKOS_ENABLE_HIP
             if (std::is_same_v<ExecSpace, Kokkos::HIP>) {
-                m_par_chunks_per_seq_chunk = Kokkos::DefaultHostExecutionSpace().concurrency();
+                m_par_chunks_per_seq_chunk = 1;
             }
 #endif
         }

diff --git a/include/ddc/misc/ginkgo_executors.hpp b/include/ddc/misc/ginkgo_executors.hpp
@@ -39,7 +39,7 @@ inline std::shared_ptr<gko::Executor> create_gko_exec()
 #endif
 #ifdef KOKKOS_ENABLE_HIP
     if (std::is_same_v<ExecSpace, Kokkos::HIP>) {
-        return gko::CudaExecutor::create(0, create_default_host_executor());
+        return gko::HipExecutor::create(0, create_default_host_executor());
     }
 #endif
 }