Improve heuristic for memcopy tile sizes #172

thomasfaingnaert · 2023-11-14T15:41:07Z

Example:

include("configs/configs.jl")

using Test
using CUDA
using GemmKernels

M = N = K = 256
AB_type = Float16
CD_type = Float32
transpose_a = false
transpose_b = false
BLOCK_M, BLOCK_N, BLOCK_K = 64, 128, 16
WARPS_M, WARPS_N = 4, 2
zero_c = false
OP_M, OP_N, OP_K = 16, 16, 16

cf = @get_wmma_config

c_h, a, b, c, d = generate_inputs(cf)

run_gemm(cf, a, b, c, d)

@test verify(cf, c_h, d)

By default, e.g. mem_a_thread is 8 FP16 elements per thread (to get 16 bytes per memory instruction), but this means that each warp handles 32 * 8 = 256 elements per iteration, or 256 * 4 * 2 = 2048 elements for all 8 warps. However, there are only BLOCK_M * BLOCK_K = 1024 elements in a CTA tile, so a_frag_i is 0.

This PR fixes this case by providing a better default, and additionally checking whether there is at least one iteration and throwing a ConfigError if there is not.

maleadt · 2023-11-14T17:28:26Z

Benchmark results for commit 57ee67e (comparing to 8a73476):

test	master	PR	Δmin
`WMMA GEMM Float16*Float16+Float16=Float16 (256×256) · (256×256) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	7.43 μs ± 2.02% (7.15 … 7.87 μs)	8.47 μs ± 2.0% (8.11 … 8.82 μs)	+13.3% ❌
`Tropical GEMM Float32*Float32=Float32 (128×256) · (256×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	124.0 μs ± 0.146% (124.0 … 124.0 μs)	121.0 μs ± 4.75% (109.0 … 124.0 μs)	-12.0% ✅
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	222.0 μs ± 4.34% (206.0 … 237.0 μs)	230.0 μs ± 1.06% (224.0 … 237.0 μs)	+8.6% ❌
`WMMA diagonal GEMM diag(Float16)*Float16=Float32 (128×128) · (128×128) (NN) OP (16, 16, 16)`	11.2 μs ± 1.12% (11.0 … 11.7 μs)	9.96 μs ± 1.14% (9.54 … 10.3 μs)	-13.0% ✅
`Tropical GEMM Float32*Float32=Float32 (128×256) · (256×128) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	125.0 μs ± 0.129% (125.0 … 126.0 μs)	124.0 μs ± 3.73% (110.0 … 126.0 μs)	-11.9% ✅
`WMMA diagonal GEMM diag(Float16)*Float16=Float32 (128×128) · (128×128) (NT) OP (16, 16, 16)`	11.2 μs ± 1.28% (11.0 … 11.7 μs)	9.93 μs ± 1.37% (9.54 … 10.3 μs)	-13.0% ✅
`Tropical GEMM Float32*Float32=Float32 (256×256) · (256×256) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	112.0 μs ± 0.153% (112.0 … 113.0 μs)	127.0 μs ± 0.133% (127.0 … 128.0 μs)	+13.4% ❌
`Tropical GEMM Float32*Float32=Float32 (128×256) · (256×128) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	124.0 μs ± 3.15% (110.0 … 126.0 μs)	125.0 μs ± 0.119% (124.0 … 126.0 μs)	+13.5% ❌
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 8, 1), base shape (4, 8, 1)`	15.3 μs ± 1.08% (15.0 … 15.5 μs)	13.4 μs ± 1.14% (13.1 … 13.8 μs)	-12.7% ✅
`Tropical GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	55.5 μs ± 0.209% (55.1 … 56.0 μs)	63.1 μs ± 0.247% (62.7 … 63.7 μs)	+13.9% ❌
`WMMA Complex GEMM Float16*Float16=Float32 (128×128) · (128×128) (TT) OP (16, 16, 16)`	9.5 μs ± 1.5% (9.06 … 9.78 μs)	8.38 μs ± 1.97% (8.11 … 8.82 μs)	-10.5% ✅

Comparison with baseline

test	GemmKernels	Baseline	%
`FPU GEMM Float32*Float32=Float32 (256×256) · (256×256) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	15.0 μs ± 1.13% (14.8 … 15.3 μs)	7.21 μs ± 1.72% (6.91 … 7.63 μs)	46.8
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 32, 1), base shape (1, 32, 1)`	16.1 μs ± 0.968% (15.7 … 16.2 μs)	4.19 μs ± 3.65% (4.05 … 4.53 μs)	25.8
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	223.0 μs ± 4.03% (207.0 … 235.0 μs)	189.0 μs ± 2.78% (180.0 … 195.0 μs)	86.9
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	7.94 μs ± 1.68% (7.63 … 8.34 μs)	2.14 μs ± 8.84% (1.91 … 2.62 μs)	25.0
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	216.0 μs ± 4.02% (203.0 … 229.0 μs)	186.0 μs ± 2.37% (172.0 … 193.0 μs)	84.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (16, 16, 1), base shape (8, 4, 1)`	14.5 μs ± 1.08% (14.3 … 14.8 μs)	4.04 μs ± 3.4% (3.81 … 4.29 μs)	26.7
`FPU GEMM Float32*Float32=Float32 (2048×2048) · (2048×2048) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	1.85 ms ± 3.45% (1.81 … 2.02 ms)	997.0 μs ± 1.48% (933.0 … 1030.0 μs)	51.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (32, 4, 1), base shape (32, 1, 1)`	13.1 μs ± 0.966% (12.6 … 13.4 μs)	4.04 μs ± 3.36% (3.81 … 4.29 μs)	30.2
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (32, 4, 1), base shape (16, 2, 1)`	19.1 μs ± 0.892% (18.8 … 19.3 μs)	4.09 μs ± 2.57% (3.81 … 4.53 μs)	20.3
`FPU GEMM Float16*Float16=Float32 (2048×2048) · (2048×2048) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	1.84 ms ± 3.11% (1.8 … 2.01 ms)	292.0 μs ± 0.362% (289.0 … 293.0 μs)	16.1
`FPU GEMM Float64*Float64=Float64 (2048×2048) · (2048×2048) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	46.1 ms ± 0.967% (46.0 … 52.4 ms)	40.8 ms ± 0.0061% (40.8 … 40.8 ms)	88.7
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (32, 4, 1), base shape (16, 2, 1)`	19.1 μs ± 0.927% (18.8 … 19.3 μs)	4.29 μs ± 3.51% (4.05 … 4.53 μs)	21.5
`FPU GEMM Float64*Float64=Float64 (256×256) · (256×256) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	288.0 μs ± 3.37% (255.0 … 293.0 μs)	109.0 μs ± 0.156% (109.0 … 110.0 μs)	42.7
`WMMA GEMM Float16*Float16+Float16=Float16 (256×256) · (256×256) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.47 μs ± 2.0% (8.11 … 8.82 μs)	3.78 μs ± 3.35% (3.58 … 4.29 μs)	44.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	15.3 μs ± 1.17% (15.0 … 15.7 μs)	4.09 μs ± 2.59% (3.81 … 4.53 μs)	25.4
`WMMA GEMM Float16*Float16+Float16=Float16 (512×256) · (256×512) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.76 μs ± 1.89% (8.34 … 9.06 μs)	5.19 μs ± 3.16% (5.01 … 5.48 μs)	60.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 8, 1), base shape (4, 8, 1)`	15.2 μs ± 1.1% (15.0 … 15.5 μs)	4.3 μs ± 3.39% (4.05 … 4.53 μs)	27.0
`FPU GEMM Float32*Float32=Float32 (2048×2048) · (2048×2048) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	1.88 ms ± 3.09% (1.85 … 2.05 ms)	1.1 ms ± 1.53% (1.03 … 1.14 ms)	56.1
`FPU GEMM Float64*Float64=Float64 (256×256) · (256×256) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	282.0 μs ± 5.52% (256.0 … 292.0 μs)	109.0 μs ± 0.145% (109.0 … 110.0 μs)	42.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 8, 1), base shape (4, 8, 1)`	15.2 μs ± 1.09% (15.0 … 15.5 μs)	4.04 μs ± 3.32% (3.81 … 4.29 μs)	25.4
`WMMA GEMM Float16*Float16+Float32=Float32 (2048×2048) · (2048×2048) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	364.0 μs ± 5.06% (342.0 … 390.0 μs)	291.0 μs ± 0.159% (290.0 … 294.0 μs)	84.7
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (16, 16, 1), base shape (4, 8, 1)`	15.3 μs ± 0.891% (15.0 … 15.5 μs)	4.09 μs ± 2.49% (3.81 … 4.53 μs)	25.4
`FPU GEMM Float32*Float32=Float32 (2048×2048) · (2048×2048) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	1.45 ms ± 1.84% (1.43 … 1.53 ms)	1.11 ms ± 1.74% (1.04 … 1.14 ms)	72.5
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.05 μs ± 2.11% (7.87 … 8.34 μs)	2.22 μs ± 7.46% (1.91 … 2.62 μs)	24.2
`FPU GEMM Float16*Float16=Float32 (2048×2048) · (2048×2048) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	1.87 ms ± 3.31% (1.82 … 2.03 ms)	293.0 μs ± 0.219% (291.0 … 294.0 μs)	16.0
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	130.0 μs ± 0.423% (128.0 … 131.0 μs)	28.7 μs ± 0.442% (28.6 … 29.1 μs)	22.3
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.01 μs ± 1.96% (7.87 … 8.34 μs)	2.18 μs ± 7.89% (1.91 … 2.38 μs)	24.2
`FPU GEMM Float64*Float64=Float64 (2048×2048) · (2048×2048) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	46.1 ms ± 0.749% (46.0 … 52.4 ms)	40.8 ms ± 0.0059% (40.8 … 40.8 ms)	88.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (32, 4, 1), base shape (32, 1, 1)`	12.6 μs ± 1.28% (12.4 … 12.9 μs)	4.19 μs ± 3.7% (4.05 … 4.53 μs)	32.7
`WMMA GEMM Float16*Float16+Float32=Float32 (2048×2048) · (2048×2048) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	370.0 μs ± 5.27% (349.0 … 398.0 μs)	291.0 μs ± 0.142% (289.0 … 292.0 μs)	83.0
`FPU GEMM Float16*Float16=Float32 (256×256) · (256×256) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	13.0 μs ± 1.14% (12.6 … 13.1 μs)	3.8 μs ± 3.01% (3.58 … 4.29 μs)	28.3
`WMMA GEMM Float16*Float16+Float16=Float16 (256×256) · (256×256) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.42 μs ± 1.9% (8.11 … 8.82 μs)	3.7 μs ± 3.79% (3.58 … 4.05 μs)	44.1
`WMMA GEMM Float16*Float16+Float32=Float32 (2048×2048) · (2048×2048) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	370.0 μs ± 4.87% (343.0 … 388.0 μs)	292.0 μs ± 0.291% (289.0 … 293.0 μs)	84.4
`FPU GEMM Float16*Float16=Float32 (2048×2048) · (2048×2048) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	2.3 ms ± 2.8% (2.26 … 2.56 ms)	291.0 μs ± 0.248% (289.0 … 293.0 μs)	12.8
`FPU GEMM Float16*Float16=Float32 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	6.91 μs ± 0.782% (6.44 … 7.15 μs)	2.08 μs ± 6.65% (1.91 … 2.38 μs)	29.6
`WMMA GEMM Float16*Float16+Float32=Float32 (256×128) · (128×256) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	9.04 μs ± 1.86% (8.82 … 9.3 μs)	2.88 μs ± 5.05% (2.62 … 3.1 μs)	29.7
`WMMA GEMM Float16*Float16+Float32=Float32 (128×256) · (256×128) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.3 μs ± 1.15% (12.2 … 12.6 μs)	2.91 μs ± 5.23% (2.62 … 3.1 μs)	21.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 8, 2), base shape (4, 8, 1)`	16.0 μs ± 1.05% (15.7 … 16.5 μs)	4.19 μs ± 3.76% (4.05 … 4.53 μs)	25.8
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	16.4 μs ± 1.03% (16.0 … 16.7 μs)	4.2 μs ± 3.75% (4.05 … 4.53 μs)	25.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (32, 4, 1), base shape (32, 1, 1)`	31.6 μs ± 0.471% (31.5 … 31.9 μs)	4.08 μs ± 2.56% (3.81 … 4.29 μs)	12.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	13.6 μs ± 0.99% (13.1 … 13.8 μs)	4.04 μs ± 3.46% (3.81 … 4.29 μs)	29.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 32, 1), base shape (1, 32, 1)`	15.7 μs ± 1.09% (15.5 … 16.0 μs)	4.09 μs ± 2.49% (3.81 … 4.53 μs)	24.6
`FPU GEMM Float16*Float16=Float32 (256×256) · (256×256) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	18.1 μs ± 0.877% (17.9 … 18.4 μs)	3.92 μs ± 3.67% (3.58 … 4.53 μs)	20.0
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	219.0 μs ± 3.7% (205.0 … 230.0 μs)	187.0 μs ± 2.63% (179.0 … 194.0 μs)	87.0
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	230.0 μs ± 1.06% (224.0 … 237.0 μs)	185.0 μs ± 2.25% (175.0 … 190.0 μs)	78.3
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 32, 1), base shape (2, 16, 1)`	21.9 μs ± 0.772% (21.7 … 22.2 μs)	4.31 μs ± 3.4% (4.05 … 4.53 μs)	18.7
`WMMA GEMM Float16*Float16+Float32=Float32 (128×256) · (256×128) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.1 μs ± 1.46% (11.9 … 12.4 μs)	3.08 μs ± 2.98% (2.86 … 3.34 μs)	24.0
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	130.0 μs ± 0.22% (129.0 … 131.0 μs)	28.6 μs ± 0.532% (28.4 … 28.8 μs)	22.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (16, 16, 1), base shape (8, 4, 1)`	14.5 μs ± 1.07% (14.3 … 14.8 μs)	4.09 μs ± 2.61% (3.81 … 4.53 μs)	26.7
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 8, 2), base shape (4, 8, 1)`	12.4 μs ± 1.4% (12.2 … 12.6 μs)	4.04 μs ± 3.42% (3.81 … 4.29 μs)	31.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (16, 16, 1), base shape (4, 8, 1)`	15.4 μs ± 1.11% (15.3 … 15.7 μs)	4.04 μs ± 3.41% (3.81 … 4.29 μs)	25.0
`WMMA GEMM Float16*Float16+Float16=Float16 (256×512) · (512×256) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.0 μs ± 1.35% (11.7 … 12.4 μs)	5.21 μs ± 3.34% (5.01 … 5.72 μs)	42.9
`WMMA GEMM Float16*Float16+Float16=Float16 (512×512) · (512×512) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.54% (11.9 … 12.9 μs)	7.26 μs ± 1.94% (7.15 … 7.63 μs)	60.0
`WMMA GEMM Float16*Float16+Float16=Float16 (512×256) · (256×512) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.68 μs ± 2.14% (8.34 … 9.06 μs)	4.97 μs ± 3.42% (4.77 … 5.25 μs)	57.1
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	148.0 μs ± 0.162% (147.0 … 149.0 μs)	28.7 μs ± 0.488% (28.4 … 29.1 μs)	19.3
`WMMA GEMM Float16*Float16+Float32=Float32 (256×256) · (256×256) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.33% (12.2 … 12.6 μs)	3.8 μs ± 3.24% (3.58 … 4.29 μs)	29.4
`WMMA GEMM Float16*Float16+Float32=Float32 (256×256) · (256×256) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.2 μs ± 1.33% (11.9 … 12.4 μs)	3.96 μs ± 4.04% (3.58 … 4.29 μs)	30.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 32, 1), base shape (2, 16, 1)`	21.9 μs ± 0.737% (21.7 … 22.2 μs)	4.04 μs ± 3.57% (3.81 … 4.29 μs)	17.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (32, 4, 1), base shape (16, 2, 1)`	19.1 μs ± 0.851% (18.8 … 19.3 μs)	4.04 μs ± 3.45% (3.81 … 4.29 μs)	20.3
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 8, 2), base shape (4, 8, 1)`	11.9 μs ± 1.38% (11.7 … 12.2 μs)	4.3 μs ± 3.4% (4.05 … 4.53 μs)	34.7
`WMMA GEMM Float16*Float16+Float16=Float16 (256×512) · (512×256) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.2 μs ± 1.48% (11.9 … 12.4 μs)	5.21 μs ± 3.26% (5.01 … 5.48 μs)	42.0
`WMMA GEMM Float16*Float16+Float16=Float16 (512×256) · (256×512) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.67 μs ± 2.01% (8.34 … 9.06 μs)	5.11 μs ± 3.01% (4.77 … 5.48 μs)	57.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 16, 1), base shape (4, 8, 1)`	15.2 μs ± 1.11% (15.0 … 15.5 μs)	4.31 μs ± 3.35% (4.05 … 4.53 μs)	27.0
`WMMA GEMM Float16*Float16+Float32=Float32 (256×256) · (256×256) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.2 μs ± 1.21% (11.9 … 12.4 μs)	3.94 μs ± 3.8% (3.81 … 4.29 μs)	32.0
`FPU GEMM Float64*Float64=Float64 (2048×2048) · (2048×2048) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	46.4 ms ± 0.616% (46.4 … 52.8 ms)	40.8 ms ± 0.00621% (40.8 … 40.8 ms)	88.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (8, 8, 1), base shape (4, 8, 1)`	15.4 μs ± 0.826% (15.0 … 15.7 μs)	4.09 μs ± 2.39% (3.81 … 4.29 μs)	25.4
`WMMA GEMM Float16*Float16+Float16=Float16 (512×256) · (256×512) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.82 μs ± 2.1% (8.34 … 9.06 μs)	4.95 μs ± 3.41% (4.77 … 5.25 μs)	57.1
`WMMA GEMM Float16*Float16+Float16=Float16 (512×512) · (512×512) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.4% (11.9 … 12.6 μs)	7.37 μs ± 1.7% (7.15 … 7.87 μs)	60.0
`WMMA GEMM Float16*Float16+Float32=Float32 (2048×2048) · (2048×2048) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	377.0 μs ± 4.89% (349.0 … 396.0 μs)	293.0 μs ± 0.289% (290.0 … 294.0 μs)	83.3
`WMMA GEMM Float16*Float16+Float16=Float16 (512×512) · (512×512) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.3 μs ± 1.44% (11.9 … 12.6 μs)	7.29 μs ± 2.02% (7.15 … 7.63 μs)	60.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 8, 1), base shape (4, 8, 1)`	13.4 μs ± 1.14% (13.1 … 13.8 μs)	4.1 μs ± 2.6% (3.81 … 4.53 μs)	29.1
`FPU GEMM Float16*Float16=Float32 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	9.23 μs ± 1.5% (8.82 … 9.54 μs)	2.21 μs ± 8.25% (1.67 … 2.62 μs)	18.9
`WMMA GEMM Float16*Float16+Float32=Float32 (256×128) · (128×256) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	9.33 μs ± 1.82% (9.06 … 9.54 μs)	2.93 μs ± 5.24% (2.62 … 3.1 μs)	28.9
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.0 μs ± 2.01% (7.87 … 8.34 μs)	2.04 μs ± 6.05% (1.67 … 2.38 μs)	21.2
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (16, 16, 1), base shape (8, 4, 1)`	14.6 μs ± 0.895% (14.3 … 15.0 μs)	4.21 μs ± 3.89% (4.05 … 4.77 μs)	28.3
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 32, 1), base shape (1, 32, 1)`	33.0 μs ± 0.422% (32.7 … 33.4 μs)	4.03 μs ± 3.5% (3.81 … 4.29 μs)	11.7
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 16, 1), base shape (4, 8, 1)`	15.2 μs ± 1.14% (15.0 … 15.5 μs)	4.05 μs ± 3.42% (3.81 … 4.29 μs)	25.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (32, 4, 1), base shape (16, 2, 1)`	19.2 μs ± 0.798% (18.8 … 19.3 μs)	4.19 μs ± 3.73% (4.05 … 4.53 μs)	21.5
`FPU GEMM Float32*Float32=Float32 (2048×2048) · (2048×2048) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	2.37 ms ± 3.43% (2.32 … 2.63 ms)	867.0 μs ± 0.868% (823.0 … 877.0 μs)	35.4
`FPU GEMM Float64*Float64=Float64 (256×256) · (256×256) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	282.0 μs ± 5.85% (256.0 … 295.0 μs)	109.0 μs ± 0.156% (109.0 … 110.0 μs)	42.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (8, 8, 1), base shape (4, 8, 1)`	15.3 μs ± 1.0% (15.0 … 15.5 μs)	4.04 μs ± 3.47% (3.81 … 4.29 μs)	25.4
`WMMA GEMM Float16*Float16+Float16=Float16 (256×256) · (256×256) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	7.46 μs ± 1.73% (7.15 … 7.87 μs)	3.64 μs ± 3.18% (3.58 … 4.05 μs)	50.0
`WMMA GEMM Float16*Float16+Float32=Float32 (128×256) · (256×128) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.2 μs ± 1.42% (11.9 … 12.4 μs)	2.99 μs ± 4.76% (2.62 … 3.1 μs)	22.0
`FPU GEMM Float16*Float16=Float32 (128×128) · (128×128) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	8.17 μs ± 1.68% (7.87 … 8.58 μs)	2.17 μs ± 7.97% (1.91 … 2.38 μs)	24.2
`WMMA GEMM Float16*Float16+Float16=Float16 (512×512) · (512×512) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.5 μs ± 1.44% (12.2 … 12.9 μs)	7.34 μs ± 1.94% (7.15 … 7.63 μs)	58.8
`WMMA GEMM Float16*Float16+Float32=Float32 (256×256) · (256×256) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.41% (12.2 … 12.6 μs)	3.92 μs ± 3.77% (3.58 … 4.29 μs)	29.4
`FPU GEMM Float32*Float32=Float32 (256×256) · (256×256) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	15.3 μs ± 1.09% (15.0 … 15.5 μs)	6.8 μs ± 2.04% (6.44 … 6.91 μs)	42.9
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (8, 8, 1), base shape (4, 8, 1)`	15.4 μs ± 1.06% (15.3 … 15.7 μs)	4.19 μs ± 3.72% (4.05 … 4.53 μs)	26.6
`FPU GEMM Float64*Float64=Float64 (256×256) · (256×256) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	287.0 μs ± 4.26% (256.0 … 293.0 μs)	109.0 μs ± 0.155% (109.0 … 109.0 μs)	42.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 16, 1), base shape (4, 8, 1)`	15.3 μs ± 0.943% (15.0 … 15.5 μs)	4.19 μs ± 3.67% (4.05 … 4.53 μs)	27.0
`WMMA GEMM Float16*Float16+Float32=Float32 (256×128) · (128×256) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	9.19 μs ± 1.5% (8.82 … 9.54 μs)	2.9 μs ± 4.96% (2.62 … 3.1 μs)	29.7
`FPU GEMM Float16*Float16=Float32 (128×128) · (128×128) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	9.21 μs ± 1.32% (8.82 … 9.54 μs)	2.22 μs ± 7.74% (1.91 … 2.38 μs)	21.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (8, 8, 1), base shape (4, 8, 1)`	15.2 μs ± 1.13% (15.0 … 15.5 μs)	4.3 μs ± 3.32% (4.05 … 4.77 μs)	27.0
`FPU GEMM Float16*Float16=Float32 (256×256) · (256×256) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	15.8 μs ± 1.08% (15.5 … 16.0 μs)	3.95 μs ± 4.08% (3.58 … 4.29 μs)	23.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (16, 16, 1), base shape (4, 8, 1)`	15.3 μs ± 0.921% (15.0 … 15.5 μs)	4.19 μs ± 3.77% (4.05 … 4.53 μs)	27.0
`WMMA GEMM Float16*Float16+Float32=Float32 (128×256) · (256×128) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.37% (12.2 … 12.6 μs)	2.77 μs ± 4.99% (2.38 … 2.86 μs)	19.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 8, 2), base shape (4, 8, 1)`	14.9 μs ± 1.08% (14.5 … 15.3 μs)	4.09 μs ± 2.43% (3.81 … 4.53 μs)	26.2
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (32, 4, 1), base shape (32, 1, 1)`	31.6 μs ± 0.459% (31.5 … 31.9 μs)	4.3 μs ± 3.27% (4.05 … 4.53 μs)	12.9
`WMMA GEMM Float16*Float16+Float32=Float32 (256×128) · (128×256) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	9.18 μs ± 1.56% (8.82 … 9.54 μs)	2.91 μs ± 5.18% (2.62 … 3.1 μs)	29.7
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 32, 1), base shape (2, 16, 1)`	21.9 μs ± 0.75% (21.7 … 22.2 μs)	4.19 μs ± 3.81% (4.05 … 4.53 μs)	18.7
`FPU GEMM Float16*Float16=Float32 (256×256) · (256×256) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	15.7 μs ± 1.1% (15.5 … 16.0 μs)	3.96 μs ± 3.89% (3.81 … 4.29 μs)	24.6
`FPU GEMM Float16*Float16=Float32 (2048×2048) · (2048×2048) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	1.55 ms ± 3.1% (1.52 … 1.68 ms)	293.0 μs ± 0.301% (290.0 … 294.0 μs)	19.1
`FPU GEMM Float64*Float64=Float64 (2048×2048) · (2048×2048) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	46.3 ms ± 0.651% (46.3 … 52.7 ms)	40.8 ms ± 0.00609% (40.8 … 40.8 ms)	88.2
`WMMA GEMM Float16*Float16+Float16=Float16 (256×512) · (512×256) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.1 μs ± 1.39% (11.9 … 12.4 μs)	5.08 μs ± 3.42% (4.77 … 5.72 μs)	40.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 32, 1), base shape (2, 16, 1)`	22.0 μs ± 0.604% (21.7 … 22.2 μs)	4.09 μs ± 2.52% (3.81 … 4.53 μs)	17.6
`WMMA GEMM Float16*Float16+Float16=Float16 (256×512) · (512×256) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.0 μs ± 1.34% (11.7 … 12.4 μs)	4.51 μs ± 3.76% (4.29 … 4.77 μs)	36.7
`FPU GEMM Float32*Float32=Float32 (256×256) · (256×256) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	18.2 μs ± 0.79% (17.9 … 18.6 μs)	6.76 μs ± 2.1% (6.44 … 6.91 μs)	36.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 16, 1), base shape (4, 8, 1)`	15.2 μs ± 1.14% (15.0 … 15.5 μs)	4.09 μs ± 2.45% (3.81 … 4.29 μs)	25.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 8, 1), base shape (4, 8, 1)`	15.3 μs ± 1.1% (15.0 … 15.5 μs)	4.19 μs ± 3.74% (4.05 … 4.53 μs)	27.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 32, 1), base shape (1, 32, 1)`	33.0 μs ± 0.438% (32.7 … 33.4 μs)	4.3 μs ± 3.42% (4.05 … 4.53 μs)	12.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	12.1 μs ± 1.2% (11.7 … 12.4 μs)	4.31 μs ± 3.27% (4.05 … 4.53 μs)	34.7
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	138.0 μs ± 6.53% (129.0 … 150.0 μs)	32.6 μs ± 0.508% (32.4 … 32.9 μs)	25.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (16, 16, 1), base shape (4, 8, 1)`	15.2 μs ± 1.09% (15.0 … 15.5 μs)	4.3 μs ± 3.34% (4.05 … 4.77 μs)	27.0
`WMMA GEMM Float16*Float16+Float16=Float16 (256×256) · (256×256) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	7.43 μs ± 1.48% (7.15 … 7.87 μs)	3.58 μs ± 2.83% (3.1 … 4.05 μs)	43.3
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (16, 16, 1), base shape (8, 4, 1)`	14.5 μs ± 1.09% (14.3 … 14.8 μs)	4.3 μs ± 3.33% (4.05 … 4.77 μs)	28.3
`FPU GEMM Float32*Float32=Float32 (256×256) · (256×256) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	12.6 μs ± 1.36% (12.4 … 12.9 μs)	7.16 μs ± 1.26% (6.91 … 7.63 μs)	55.8

codecov · 2023-11-14T17:28:33Z

Codecov Report

All modified and coverable lines are covered by tests ✅

Comparison is base (8a73476) 33.58% compared to head (57ee67e) 34.02%.

Additional details and impacted files

@@            Coverage Diff             @@
##           master     #172      +/-   ##
==========================================
+ Coverage   33.58%   34.02%   +0.43%     
==========================================
  Files          11       11              
  Lines         914      920       +6     
==========================================
+ Hits          307      313       +6     
  Misses        607      607

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

Base automatically changed from tf/refactor-configs to master November 14, 2023 15:57

Fix occasional incorrect default value for memory

57ee67e

thomasfaingnaert force-pushed the tf/fix-memory-heuristic branch from 5b2071f to 57ee67e Compare November 14, 2023 16:04

thomasfaingnaert changed the title ~~Fix occasional incorrect default value for memory~~ Improve heuristic for memcopy tile sizes Nov 14, 2023

thomasfaingnaert merged commit 433aa68 into master Nov 14, 2023
1 check passed

thomasfaingnaert deleted the tf/fix-memory-heuristic branch November 14, 2023 18:13

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Improve heuristic for memcopy tile sizes #172

Improve heuristic for memcopy tile sizes #172

thomasfaingnaert commented Nov 14, 2023

maleadt commented Nov 14, 2023

codecov bot commented Nov 14, 2023

Improve heuristic for memcopy tile sizes #172

Improve heuristic for memcopy tile sizes #172

Conversation

thomasfaingnaert commented Nov 14, 2023

maleadt commented Nov 14, 2023

Comparison with baseline

codecov bot commented Nov 14, 2023

Codecov Report