diff --git a/scripts/performance/bf16_dlrm.sh b/scripts/performance/bf16_dlrm.sh new file mode 100755 index 000000000..cf4093ac3 --- /dev/null +++ b/scripts/performance/bf16_dlrm.sh @@ -0,0 +1,29 @@ +#!/bin/bash + +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1600 -n 512 -k 1024 --alpha -1.0 --lda 1600 --ldb 1024 --beta 1.0 --ldc 1600 --ldd 1600 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 512 -k 1 --alpha -1.0 --lda 1024 --ldb 1 --beta 1.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 512 -k 64 --alpha -1.0 --lda 1024 --ldb 64 --beta 1.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 64 -n 512 -k 1 --alpha -1.0 --lda 64 --ldb 1 --beta 1.0 --ldc 64 --ldd 64 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 2048 -n 512 -k 1 --alpha -1.0 --lda 2048 --ldb 1 --beta 1.0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 100 -n 512 -k 2048 --alpha -1.0 --lda 100 --ldb 2048 --beta 1.0 --ldc 100 --ldd 100 --compute_type s +#./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1 -n 512 -k 1 --alpha -1.0 --lda 1 --ldb 1 --beta 1.0 --ldc 1 --ldd 1 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 512 -n 200 -k 32 --alpha -1.0 --lda 512 --ldb 32 --beta 1.0 --ldc 512 --ldd 512 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 560 -n 200 -k 1024 --alpha -1.0 --lda 560 --ldb 1024 --beta 1.0 --ldc 560 --ldd 560 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 32 -n 200 -k 1 --alpha -1.0 --lda 32 --ldb 1 --beta 1.0 --ldc 32 --ldd 32 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 200 -k 1 --alpha -1.0 --lda 1024 --ldb 1 --beta 1.0 --ldc 1024 --ldd 1024 --compute_type s +#./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1 -n 200 -k 1 --alpha -1.0 --lda 1 --ldb 1 --beta 1.0 --ldc 1 --ldd 1 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 512 -n 200 -k 1 --alpha -1.0 --lda 512 --ldb 1 --beta 1.0 --ldc 512 --ldd 512 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 64 -k 512 --alpha -1.0 --lda 1024 --ldb 64 --beta 1.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 100 -n 2048 -k 512 --alpha -1.0 --lda 100 --ldb 2048 --beta 1.0 --ldc 100 --ldd 100 --compute_type s +#./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 2048 -n 1 -k 512 --alpha -1.0 --lda 2048 --ldb 1 --beta 1.0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 2048 -n 2048 -k 512 --alpha -1.0 --lda 2048 --ldb 2048 --beta 1.0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1600 -n 1024 -k 512 --alpha -1.0 --lda 1600 --ldb 1024 --beta 1.0 --ldc 1600 --ldd 1600 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 1024 -k 512 --alpha -1.0 --lda 1024 --ldb 1024 --beta 1.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 560 -n 1024 -k 200 --alpha -1.0 --lda 560 --ldb 1024 --beta 1.0 --ldc 560 --ldd 560 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 1024 -k 200 --alpha -1.0 --lda 1024 --ldb 1024 --beta 1.0 --ldc 1024 --ldd 1024 --compute_type s +#./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 1 -k 200 --alpha -1.0 --lda 1024 --ldb 1 --beta 1.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 512 -n 32 -k 200 --alpha -1.0 --lda 512 --ldb 32 --beta 1.0 --ldc 512 --ldd 512 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 512 -n 512 -k 200 --alpha -1.0 --lda 512 --ldb 512 --beta 1.0 --ldc 512 --ldd 512 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 1024 -n 512 -k 1600 --alpha -1.0 --lda 1600 --ldb 1600 --beta 1.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 512 -k 100 --alpha -1.0 --lda 100 --ldb 100 --beta 1.0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 1024 -n 200 -k 560 --alpha -1.0 --lda 560 --ldb 560 --beta 1.0 --ldc 1024 --ldd 1024 --compute_type s diff --git a/scripts/performance/bf16_dlrm2.sh b/scripts/performance/bf16_dlrm2.sh new file mode 100755 index 000000000..219db0c05 --- /dev/null +++ b/scripts/performance/bf16_dlrm2.sh @@ -0,0 +1,13 @@ +#!/bin/bash + +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 2048 -n 1024 -k 1 --alpha 1.0 --lda 2048 --ldb 1 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 1024 -k 1 --alpha 1.0 --lda 256 --ldb 1 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 4096 -n 1024 -k 1 --alpha 1.0 --lda 4096 --ldb 1 --beta 0.0 --ldc 4096 --ldd 4096 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 257 -n 1024 -k 4096 --alpha 1.0 --lda 257 --ldb 4096 --beta 0.0 --ldc 257 --ldd 257 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 3200 -n 1024 -k 2048 --alpha 1.0 --lda 3200 --ldb 2048 --beta 0.0 --ldc 3200 --ldd 3200 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 2048 -n 1024 -k 256 --alpha 1.0 --lda 2048 --ldb 256 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 3200 -n 2048 -k 1024 --alpha 1.0 --lda 3200 --ldb 2048 --beta 0.0 --ldc 3200 --ldd 3200 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 4096 -n 4096 -k 1024 --alpha 1.0 --lda 4096 --ldb 4096 --beta 0.0 --ldc 4096 --ldd 4096 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 257 -n 4096 -k 1024 --alpha 1.0 --lda 257 --ldb 4096 --beta 0.0 --ldc 257 --ldd 257 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 2048 -n 256 -k 1024 --alpha 1.0 --lda 2048 --ldb 256 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 2048 -n 2048 -k 1024 --alpha 1.0 --lda 2048 --ldb 2048 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s diff --git a/scripts/performance/bf16_dlrm3.sh b/scripts/performance/bf16_dlrm3.sh new file mode 100755 index 000000000..4d6dbec99 --- /dev/null +++ b/scripts/performance/bf16_dlrm3.sh @@ -0,0 +1,13 @@ +#!/bin/bash + +#./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 1 -k 200 --alpha 1.0 --lda 1024 --ldb 200 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 67 -n 512 -k 2048 --alpha 1.0 --lda 67 --ldb 2048 --beta 0.0 --ldc 67 --ldd 67 --compute_type s +#./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 2048 -n 1 -k 512 --alpha 1.0 --lda 2048 --ldb 512 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 67 -n 2048 -k 512 --alpha 1.0 --lda 67 --ldb 2048 --beta 0.0 --ldc 67 --ldd 67 --compute_type s +#./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 200 -n 1 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 200 --ldd 200 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 512 -k 67 --alpha 1.0 --lda 67 --ldb 67 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s +#./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 512 -n 1 -k 2048 --alpha 1.0 --lda 2048 --ldb 2048 --beta 0.0 --ldc 512 --ldd 512 --compute_type s +./rocblas-bench -f gemm_strided_batched_ex -r bf16_r --transposeA N --transposeB N -m 64 -n 3 -k 3 --alpha 1.0 --lda 64 --stride_a 192 --ldb 3 --stride_b 9 --beta 0.0 --ldc 64 --ldd 64 --stride_c 192 --batch_count 512 --compute_type s +./rocblas-bench -f gemm_strided_batched_ex -r bf16_r --transposeA N --transposeB T -m 33 -n 32 -k 33 --alpha 1.0 --lda 33 --stride_a 1089 --ldb 32 --stride_b 1056 --beta 0.0 --ldc 33 --ldd 33 --stride_c 1056 --batch_count 200 --compute_type s +./rocblas-bench -f gemm_strided_batched_ex -r bf16_r --transposeA N --transposeB T -m 3 -n 64 -k 3 --alpha 1.0 --lda 3 --stride_a 9 --ldb 64 --stride_b 92 --beta 0.0 --ldc 3 --ldd 3 --stride_c 192 --batch_count 512 --compute_type s +./rocblas-bench -f gemm_strided_batched_ex -r bf16_r --transposeA T --transposeB N -m 3 -n 3 -k 64 --alpha 1.0 --lda 64 --stride_a 192 --ldb 64 --stride_b 92 --beta 0.0 --ldc 3 --ldd 3 --stride_c 9 --batch_count 512 --compute_type s diff --git a/scripts/performance/bf16_dlrm_small_medium.sh b/scripts/performance/bf16_dlrm_small_medium.sh new file mode 100755 index 000000000..b0729ed9d --- /dev/null +++ b/scripts/performance/bf16_dlrm_small_medium.sh @@ -0,0 +1,46 @@ +#!/bin/bash + +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 512 -n 1600 -k 512 --alpha 1 --lda 512 --ldb 512 --beta 0 --ldc 512 --ldd 512 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 512 -n 1600 -k 32 --alpha 1 --lda 512 --ldb 32 --beta 0 --ldc 512 --ldd 512 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 512 -n 512 -k 1600 --alpha 1 --lda 512 --ldb 512 --beta 0 --ldc 512 --ldd 512 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 560 -n 1024 -k 1600 --alpha 1 --lda 560 --ldb 1024 --beta 0 --ldc 560 --ldd 560 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 1600 -k 1024 --alpha 1 --lda 1024 --ldb 1024 --beta 0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 1600 -k 1 --alpha 1 --lda 1024 --ldb 1 --beta 0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 560 -n 1600 -k 1024 --alpha 1 --lda 560 --ldb 1024 --beta 0 --ldc 560 --ldd 560 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 32 -n 1600 -k 512 --alpha 1 --lda 512 --ldb 512 --beta 0 --ldc 32 --ldd 32 --compute_type s +#./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 1 -k 1600 --alpha 1 --lda 1024 --ldb 1600 --beta 0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 512 -n 1600 -k 512 --alpha 1 --lda 512 --ldb 512 --beta 0 --ldc 512 --ldd 512 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 1024 -n 1600 -k 560 --alpha 1 --lda 560 --ldb 560 --beta 0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 1024 -k 1600 --alpha 1 --lda 1024 --ldb 1024 --beta 0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 1024 -n 1600 -k 1024 --alpha 1 --lda 1024 --ldb 1024 --beta 0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 512 -n 32 -k 1600 --alpha 1 --lda 512 --ldb 32 --beta 0 --ldc 512 --ldd 512 --compute_type s +#./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 1600 -n 1 -k 1024 --alpha 1 --lda 1024 --ldb 1024 --beta 0 --ldc 1600 --ldd 1600 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 100 -n 512 -k 2048 --alpha 1 --lda 100 --ldb 2048 --beta 0 --ldc 100 --ldd 100 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 512 -k 1024 --alpha 1 --lda 1024 --ldb 1024 --beta 0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 512 -k 64 --alpha 1 --lda 1024 --ldb 64 --beta 0 --ldc 1024 --ldd 1024 --compute_type s +#./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 2048 -n 1 -k 512 --alpha 1 --lda 2048 --ldb 512 --beta 0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 2048 -n 512 -k 1 --alpha 1 --lda 2048 --ldb 1 --beta 0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 2048 -n 512 -k 2048 --alpha 1 --lda 2048 --ldb 2048 --beta 0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 74 -n 512 -k 2048 --alpha 1 --lda 74 --ldb 2048 --beta 0 --ldc 74 --ldd 74 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 100 -n 2048 -k 512 --alpha 1 --lda 100 --ldb 2048 --beta 0 --ldc 100 --ldd 100 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 1024 -k 512 --alpha 1 --lda 1024 --ldb 1024 --beta 0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 64 -k 512 --alpha 1 --lda 1024 --ldb 64 --beta 0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1600 -n 1024 -k 512 --alpha 1 --lda 1600 --ldb 1024 --beta 0 --ldc 1600 --ldd 1600 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 2048 -n 2048 -k 512 --alpha 1 --lda 2048 --ldb 2048 --beta 0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 74 -n 2048 -k 512 --alpha 1 --lda 74 --ldb 2048 --beta 0 --ldc 74 --ldd 74 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 1024 -n 512 -k 1024 --alpha 1 --lda 1024 --ldb 1024 --beta 0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 1024 -n 512 -k 1600 --alpha 1 --lda 1600 --ldb 1600 --beta 0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 512 -k 100 --alpha 1 --lda 100 --ldb 100 --beta 0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 512 -k 2048 --alpha 1 --lda 2048 --ldb 2048 --beta 0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 512 -k 74 --alpha 1 --lda 74 --ldb 74 --beta 0 --ldc 2048 --ldd 2048 --compute_type s +#./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 512 -n 1 -k 2048 --alpha 1 --lda 2048 --ldb 2048 --beta 0 --ldc 512 --ldd 512 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 64 -n 512 -k 1024 --alpha 1 --lda 1024 --ldb 1024 --beta 0 --ldc 64 --ldd 64 --compute_type s +./rocblas-bench -f gemm_strided_batched_ex -r bf16_r --transposeA N --transposeB N -m 32 -n 33 -k 33 --alpha 1 --lda 32 --stride_a 1056 --ldb 33 --stride_b 1089 --beta 0 --ldc 32 --ldd 32 --stride_c 1056 --batch_count 1600 --compute_type s +./rocblas-bench -f gemm_strided_batched_ex -r bf16_r --transposeA N --transposeB N -m 64 -n 5 -k 5 --alpha 1 --lda 64 --stride_a 320 --ldb 5 --stride_b 25 --beta 0 --ldc 64 --ldd 64 --stride_c 320 --batch_count 512 --compute_type s +./rocblas-bench -f gemm_strided_batched_ex -r bf16_r --transposeA N --transposeB N -m 64 -n 9 -k 9 --alpha 1 --lda 64 --stride_a 576 --ldb 9 --stride_b 81 --beta 0 --ldc 64 --ldd 64 --stride_c 576 --batch_count 512 --compute_type s +./rocblas-bench -f gemm_strided_batched_ex -r bf16_r --transposeA N --transposeB T -m 33 -n 32 -k 33 --alpha 1 --lda 33 --stride_a 1089 --ldb 32 --stride_b 1056 --beta 0 --ldc 33 --ldd 33 --stride_c 1056 --batch_count 1600 --compute_type s +./rocblas-bench -f gemm_strided_batched_ex -r bf16_r --transposeA N --transposeB T -m 5 -n 64 -k 5 --alpha 1 --lda 5 --stride_a 25 --ldb 64 --stride_b 320 --beta 0 --ldc 5 --ldd 5 --stride_c 320 --batch_count 512 --compute_type s +./rocblas-bench -f gemm_strided_batched_ex -r bf16_r --transposeA N --transposeB T -m 9 -n 64 -k 9 --alpha 1 --lda 9 --stride_a 81 --ldb 64 --stride_b 576 --beta 0 --ldc 9 --ldd 9 --stride_c 576 --batch_count 512 --compute_type s +./rocblas-bench -f gemm_strided_batched_ex -r bf16_r --transposeA T --transposeB N -m 33 -n 33 -k 32 --alpha 1 --lda 32 --stride_a 1056 --ldb 32 --stride_b 1056 --beta 0 --ldc 33 --ldd 33 --stride_c 1089 --batch_count 1600 --compute_type s +./rocblas-bench -f gemm_strided_batched_ex -r bf16_r --transposeA T --transposeB N -m 5 -n 5 -k 64 --alpha 1 --lda 64 --stride_a 320 --ldb 64 --stride_b 320 --beta 0 --ldc 5 --ldd 5 --stride_c 25 --batch_count 512 --compute_type s +./rocblas-bench -f gemm_strided_batched_ex -r bf16_r --transposeA T --transposeB N -m 9 -n 9 -k 64 --alpha 1 --lda 64 --stride_a 576 --ldb 64 --stride_b 576 --beta 0 --ldc 9 --ldd 9 --stride_c 81 --batch_count 512 --compute_type s diff --git a/scripts/performance/bf16_phantom.sh b/scripts/performance/bf16_phantom.sh new file mode 100755 index 000000000..29d71e553 --- /dev/null +++ b/scripts/performance/bf16_phantom.sh @@ -0,0 +1,291 @@ +#!/bin/bash + +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 22016 --alpha 1.0 --lda 256 --ldb 22016 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 768 -n 215 -k 2048 --alpha 1.0 --lda 768 --ldb 2048 --beta 0.0 --ldc 768 --ldd 768 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 44505 --alpha 1.0 --lda 256 --ldb 44505 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 13568 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 17152 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 17152 --alpha 1.0 --lda 256 --ldb 17152 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 16128 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 33536 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 33536 --alpha 1.0 --lda 256 --ldb 33536 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 20480 --alpha 1.0 --lda 256 --ldb 20480 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 22016 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 7168 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 18944 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 14336 --alpha 1.0 --lda 256 --ldb 14336 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 9728 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 8960 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 9984 --alpha 1.0 --lda 256 --ldb 9984 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 5632 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 28672 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 7424 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 12288 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 10496 --alpha 1.0 --lda 256 --ldb 10496 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 7424 --alpha 1.0 --lda 256 --ldb 7424 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 12288 --alpha 1.0 --lda 256 --ldb 12288 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 19712 --alpha 1.0 --lda 256 --ldb 19712 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 10496 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 23552 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 6400 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 21504 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 20480 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 13312 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 5888 --alpha 1.0 --lda 256 --ldb 5888 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 11520 --alpha 1.0 --lda 256 --ldb 11520 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 8448 --alpha 1.0 --lda 256 --ldb 8448 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 4352 --alpha 1.0 --lda 256 --ldb 4352 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 9984 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 2048 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 4608 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 3328 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 7168 --alpha 1.0 --lda 256 --ldb 7168 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 8192 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 3072 --alpha 1.0 --lda 256 --ldb 3072 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 768 -n 256 -k 2048 --alpha 1.0 --lda 768 --ldb 2048 --beta 0.0 --ldc 768 --ldd 768 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 19712 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 5632 --alpha 1.0 --lda 256 --ldb 5632 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 40448 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 7936 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 1792 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 10240 --alpha 1.0 --lda 256 --ldb 10240 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 20992 --alpha 1.0 --lda 256 --ldb 20992 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 2560 --alpha 1.0 --lda 256 --ldb 2560 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 15104 --alpha 1.0 --lda 256 --ldb 15104 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 2816 --alpha 1.0 --lda 256 --ldb 2816 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 2304 --alpha 1.0 --lda 256 --ldb 2304 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 14848 --alpha 1.0 --lda 256 --ldb 14848 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 11264 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 9472 --alpha 1.0 --lda 256 --ldb 9472 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 15872 --alpha 1.0 --lda 256 --ldb 15872 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 20992 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 8448 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 11008 --alpha 1.0 --lda 256 --ldb 11008 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 4096 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 7680 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 8960 --alpha 1.0 --lda 256 --ldb 8960 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 6656 --alpha 1.0 --lda 256 --ldb 6656 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 5376 --alpha 1.0 --lda 256 --ldb 5376 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 10240 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 2048 --alpha 1.0 --lda 256 --ldb 2048 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 512 -n 215 -k 2048 --alpha 1.0 --lda 512 --ldb 2048 --beta 0.0 --ldc 512 --ldd 512 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 6144 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 1536 --alpha 1.0 --lda 256 --ldb 1536 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 3840 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 512 -n 256 -k 2048 --alpha 1.0 --lda 512 --ldb 2048 --beta 0.0 --ldc 512 --ldd 512 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 15104 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 9728 --alpha 1.0 --lda 256 --ldb 9728 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 14592 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 5120 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 6144 --alpha 1.0 --lda 256 --ldb 6144 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 11520 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 14848 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 8704 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 8192 --alpha 1.0 --lda 256 --ldb 8192 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 3072 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 4864 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 19968 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 2560 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 4864 --alpha 1.0 --lda 256 --ldb 4864 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 19968 --alpha 1.0 --lda 256 --ldb 19968 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 14336 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 1024 -n 11008 -k 256 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB N -m 256 -n 8976 -k 26112 --alpha 1.0 --lda 256 --ldb 26112 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 22016 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 22016 -k 8976 --alpha 1.0 --lda 256 --ldb 22016 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 15104 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 15104 -k 8976 --alpha 1.0 --lda 256 --ldb 15104 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 19968 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 13568 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 13568 -k 8976 --alpha 1.0 --lda 256 --ldb 13568 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 19712 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 17152 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 17152 -k 8976 --alpha 1.0 --lda 256 --ldb 17152 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 16128 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 16128 -k 8976 --alpha 1.0 --lda 256 --ldb 16128 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 33536 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 33536 -k 8976 --alpha 1.0 --lda 256 --ldb 33536 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 20480 -k 8976 --alpha 1.0 --lda 256 --ldb 20480 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 1280 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 1280 -k 8976 --alpha 1.0 --lda 256 --ldb 1280 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 15872 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 13312 -k 8976 --alpha 1.0 --lda 256 --ldb 13312 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 18944 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 5632 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 6400 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 3584 -k 8976 --alpha 1.0 --lda 256 --ldb 3584 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 6144 -k 8976 --alpha 1.0 --lda 256 --ldb 6144 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 20992 -k 8976 --alpha 1.0 --lda 256 --ldb 20992 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 17408 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 5888 -k 8976 --alpha 1.0 --lda 256 --ldb 5888 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 11008 -k 8976 --alpha 1.0 --lda 256 --ldb 11008 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 12032 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 7168 -k 8976 --alpha 1.0 --lda 256 --ldb 7168 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 2816 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 11520 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 7680 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 2816 -k 8976 --alpha 1.0 --lda 256 --ldb 2816 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 3328 -k 8976 --alpha 1.0 --lda 256 --ldb 3328 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 10496 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 14336 -k 8976 --alpha 1.0 --lda 256 --ldb 14336 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 12544 -k 8976 --alpha 1.0 --lda 256 --ldb 12544 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 14336 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 9728 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 10496 -k 8976 --alpha 1.0 --lda 256 --ldb 10496 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 19968 -k 8976 --alpha 1.0 --lda 256 --ldb 19968 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 21504 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 8192 -k 8976 --alpha 1.0 --lda 256 --ldb 8192 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 2560 -k 8976 --alpha 1.0 --lda 256 --ldb 2560 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 9984 -k 8976 --alpha 1.0 --lda 256 --ldb 9984 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 12800 -k 8976 --alpha 1.0 --lda 256 --ldb 12800 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 3328 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 32512 -k 8976 --alpha 1.0 --lda 256 --ldb 32512 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 3840 -k 8976 --alpha 1.0 --lda 256 --ldb 3840 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 5120 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 44505 -k 8976 --alpha 1.0 --lda 256 --ldb 44505 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 768 -n 2048 -k 256 --alpha 1.0 --lda 768 --ldb 2048 --beta 0.0 --ldc 768 --ldd 768 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 8448 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 14848 -k 8976 --alpha 1.0 --lda 256 --ldb 14848 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 28672 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 5120 -k 8976 --alpha 1.0 --lda 256 --ldb 5120 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 5632 -k 8976 --alpha 1.0 --lda 256 --ldb 5632 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 21248 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 9984 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 21248 -k 8976 --alpha 1.0 --lda 256 --ldb 21248 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 2304 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 11264 -k 8976 --alpha 1.0 --lda 256 --ldb 11264 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 4608 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 4096 -k 8976 --alpha 1.0 --lda 256 --ldb 4096 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 3072 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 8192 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 7936 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 3584 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 10240 -k 8976 --alpha 1.0 --lda 256 --ldb 10240 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 4096 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 14848 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 512 -n 2048 -k 256 --alpha 1.0 --lda 512 --ldb 2048 --beta 0.0 --ldc 512 --ldd 512 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 26112 -k 8976 --alpha 1.0 --lda 256 --ldb 26112 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 17408 -k 8976 --alpha 1.0 --lda 256 --ldb 17408 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 11776 -k 8976 --alpha 1.0 --lda 256 --ldb 11776 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 8960 -k 8976 --alpha 1.0 --lda 256 --ldb 8960 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 5376 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 9728 -k 8976 --alpha 1.0 --lda 256 --ldb 9728 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 1024 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 4352 -k 8976 --alpha 1.0 --lda 256 --ldb 4352 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 11520 -k 8976 --alpha 1.0 --lda 256 --ldb 11520 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 18688 -k 8976 --alpha 1.0 --lda 256 --ldb 18688 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 4352 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 1024 -n 256 -k 6144 --alpha 1.0 --lda 1024 --ldb 256 --beta 0.0 --ldc 1024 --ldd 1024 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 4864 -k 8976 --alpha 1.0 --lda 256 --ldb 4864 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA N --transposeB T -m 256 -n 15872 -k 8976 --alpha 1.0 --lda 256 --ldb 15872 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 684 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 684 --ldd 684 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 684 -k 512 --alpha 1.0 --lda 512 --ldb 512 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 1536 -k 512 --alpha 1.0 --lda 512 --ldb 512 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 1536 -k 768 --alpha 1.0 --lda 768 --ldb 768 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 22344 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 114 -k 768 --alpha 1.0 --lda 768 --ldb 768 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 18176 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 18176 --ldd 18176 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 18176 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 15104 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 15104 --ldd 15104 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 15104 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 44505 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 44505 --ldd 44505 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 114 -k 512 --alpha 1.0 --lda 512 --ldb 512 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 44505 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 215 -k 512 --alpha 1.0 --lda 512 --ldb 512 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 215 -k 768 --alpha 1.0 --lda 768 --ldb 768 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 19968 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 19968 --ldd 19968 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 16128 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 16128 --ldd 16128 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 33536 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 33536 --ldd 33536 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 33536 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 20992 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 20992 --ldd 20992 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 20992 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 20480 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 20480 --ldd 20480 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 19712 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 19712 --ldd 19712 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 1280 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 1280 --ldd 1280 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 1280 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 7168 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 22016 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 13568 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 13568 --ldd 13568 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 18944 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 31488 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 3072 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 3072 --ldd 3072 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 9984 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 9984 --ldd 9984 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 9984 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 256 -k 512 --alpha 1.0 --lda 512 --ldb 512 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 5888 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 5888 --ldd 5888 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 5888 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 13312 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 13312 --ldd 13312 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 11776 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 9728 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 9728 --ldd 9728 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 15360 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 15360 --ldd 15360 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 7424 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2816 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 2816 --ldd 2816 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 10496 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 10496 --ldd 10496 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 21248 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 21248 --ldd 21248 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 14336 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 6400 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 18688 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 18688 --ldd 18688 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 23296 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 9472 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 9472 --ldd 9472 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 18944 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 18944 --ldd 18944 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 3584 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 3328 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 3328 --ldd 3328 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 13312 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 3328 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 6400 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 6400 --ldd 6400 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 7936 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 15872 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 15872 --ldd 15872 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 5376 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 2560 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 13824 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 13824 --ldd 13824 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 4352 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 4352 --ldd 4352 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 11776 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 11776 --ldd 11776 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 2304 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 2816 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 684 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 7936 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 7936 --ldd 7936 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 11264 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 11264 --ldd 11264 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 6656 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 21504 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 4096 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 4096 --ldd 4096 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 1792 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 1792 --ldd 1792 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 28672 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 28672 --ldd 28672 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 31488 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 31488 --ldd 31488 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 11520 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 1536 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 5376 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 5376 --ldd 5376 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 6144 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 8448 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 5632 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 5632 --ldd 5632 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 256 -k 768 --alpha 1.0 --lda 768 --ldb 768 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 19200 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 4864 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 4864 --ldd 4864 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 16128 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 12544 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 6144 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 6144 --ldd 6144 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 8448 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 8448 --ldd 8448 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2304 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 2304 --ldd 2304 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 4608 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 12544 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 12544 --ldd 12544 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 8960 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 8960 --ldd 8960 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 20480 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 5120 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 5120 --ldd 5120 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 8192 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 8192 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 8192 --ldd 8192 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 14848 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 23552 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 10496 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 14592 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2560 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 2560 --ldd 2560 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 11264 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 4608 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 4608 --ldd 4608 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 8960 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 10240 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 10240 --ldd 10240 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 21248 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 3840 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 3840 --ldd 3840 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 23552 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 23552 --ldd 23552 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 2048 -n 684 -k 768 --alpha 1.0 --lda 768 --ldb 768 --beta 0.0 --ldc 2048 --ldd 2048 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 7168 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 7168 --ldd 7168 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 256 -n 4864 -k 1024 --alpha 1.0 --lda 1024 --ldb 1024 --beta 0.0 --ldc 256 --ldd 256 --compute_type s +./rocblas-bench -f gemm_ex -r bf16_r --transposeA T --transposeB N -m 17152 -n 8976 -k 256 --alpha 1.0 --lda 256 --ldb 256 --beta 0.0 --ldc 17152 --ldd 17152 --compute_type s