How To Optimize GEMM

行主序的GEMM优化方案

x86

cpufp

克隆高叔叔的X86浮点峰值测试工具，使用方法见README。

本机（Intel(R) Xeon(R) CPU E5-2678 v3 @ 2.50GHz 12 Cores）测试结果如下：

Thread(s): 1
fma fp32 perf: 97.3358 gflops.
fma fp64 perf: 48.8463 gflops.
avx fp32 perf: 48.7343 gflops.
avx fp64 perf: 24.3121 gflops.
sse fp32 perf: 25.9305 gflops.
sse fp64 perf: 12.9604 gflops.

Thread(s): 4
fma fp32 perf: 356.8164 gflops.
fma fp64 perf: 178.6532 gflops.
avx fp32 perf: 178.6297 gflops.
avx fp64 perf: 89.3076 gflops.
sse fp32 perf: 93.3519 gflops.
sse fp64 perf: 46.6798 gflops.

src

测试不同的优化方法对应的gflops。

峰值占比的计算方法为当前算法的gflops除以浮点测试工具中相同线程测出的最高峰值。

文件名	优化方法	gFLOPs	峰值占比	线程数
MMult1.h	无任何优化	1.4gflops	1.4%	1
MMult2.h	一次计算4个元素	1.5gflops	1.5%	1
MMult_1x4_3.h	一次计算4个元素	1.4gflops	1.4%	1
MMult_1x4_4.h	一次计算4个元素	1.4gflops	1.4%	1
MMult_1x4_5.h	一次计算4个元素(将4个循环合并为1个)	1.5gflops	1.5%	1
MMult_1x4_6.h	一次计算4个元素(我们在寄存器中累加C的元素，并对a的元素使用寄存器)	1.6gflops	1.6%	1
MMult_1x4_7.h	在MMult_1x4_6的基础上用指针来寻址B中的元素	5.0gflops	6%	1
MMult_1x4_8.h	在MMult_1x4_7的基础上循环展开四个（展开因子的相对任意选择）	5gflops	6%	1
MMult_1x4_9.h	在MMult_1x4_8的基础上使用间接寻址的方法	5gflops	6%	1
MMult_4x4_3.h	一次计算C中的4x4小块	1.4gflops	1.4%	1
MMult_4x4_4.h	一次计算C中的4x4小块	1.4gflops	1.4%	1
MMult_4x4_5.h	一次计算C中的4x4小块,将16个循环合并一个	1.5gflops	1.5%	1
MMult_4x4_6.h	一次计算C中的4x4小块(我们在寄存器中累加C的元素，并对a的元素使用寄存器)	8.2gflops	8.4%	1
MMult_4x4_7.h	在MMult_4x4_6的基础上用指针来寻址B中的元素	8.4gflops	8.6%	1
MMult_4x4_8.h	使用更多的寄存器	7.7gflops	7.7%	1
MMult_4x4_10.h	SSE指令集优化	8.5gflops	8.7%	1
MMult_4x4_11.h	SSE指令集优化, 并且为了保持较小问题规模所获得的性能，我们分块矩阵C（以及相应的A和B）	8.5gflops	8.7%	1
MMult_4x4_13.h	SSE指令集优化, 对矩阵A和B进行Pack，这样就可以连续访问内存	33.0gflops	34.0%	1

armv7a

armv7afp

理论浮点峰值: 

fmla: 4x2(mul+add)*1.8gHz=14.4gFLOPs

实际浮点峰值测试

|架构|浮点峰值(GFlops)|
|--|--|
|Cortex-A53，armv7a|10.88|

达到硬件浮点峰值的75%

src

MMult_4x4_19和MMult_4x4_20来自tpoisonooo(白牛大佬)。
额外测试了conv1x1s1.h（version3）（默认实现为8x4）的4x4分块方法，gflops为4.8gflops。

文件名	优化方法	gFLOPs	峰值占比	线程数
MMult1.h	无任何优化	0.24gflops	2.1%	1
MMult2.h	一次计算4个元素	0.24gflops	2.1%	1
MMult_1x4_3.h	一次计算4个元素	0.24gflops	2.1%	1
MMult_1x4_4.h	一次计算4个元素	0.24gflops	2.1%	1
MMult_1x4_5.h	一次计算4个元素(将4个循环合并为1个)	0.25gflops	2.2%	1
MMult_1x4_7.h	一次计算4个元素(我们在寄存器中累加C的元素，并对a的元素使用寄存器),用指针来寻址B中的元素	0.98gflops	9.0%	1
MMult_1x4_8.h	在MMult_1x4_7的基础上循环展开四个（展开因子的相对任意选择）	1.1gflops	10%	1
MMult_4x4_3.h	一次计算C中的4x4小块	0.24gflops	2.1%	1
MMult_4x4_4.h	一次计算C中的4x4小块	0.24gflops	2.1%	1
MMult_4x4_5.h	一次计算C中的4x4小块,将16个循环合并一个	0.25gflops	2.2%	1
MMult_4x4_6.h	一次计算C中的4x4小块(我们在寄存器中累加C的元素，并对a的元素使用寄存器)	1.75gflops	16.0%	1
MMult_4x4_7.h	在MMult_4x4_6的基础上用指针来寻址B中的元素	1.75gflops	16.0%	1
MMult_4x4_8.h	使用更多的寄存器	1.75gflops	16.0%	1
MMult_4x4_10.h	NEON指令集优化	2.6gflops	23.8%	1
MMult_4x4_11.h	NEON指令集优化, 并且为了保持较小问题规模所获得的性能，我们分块矩阵C（以及相应的A和B）	2.6gflops	23.8%	1
MMult_4x4_13.h	NEON指令集优化, 对矩阵A和B进行Pack，这样就可以连续访问内存	2.6gflops	23.8%	1
MMult_4x4_18.h	Neon Assembly，Cache优化	3.0gflops	27.5%	1
MMult_4x4_19.h	MMult_4x4_18基础上+更长的pld+ldd+指令重排	3.8gflops	34.59%	1
MMult_4x4_20.h	MMult_4x4_19基础上更换vldr + 简单调整ping pong	4.0gflops	36.7%	1
conv1x1s1.h（version1）	一次计算多行，neon汇编优化	3.4gflops	31.0%	1
conv1x1s1.h（version2）	pack，kernel提前做，neon汇编优化，8x4分块	4.9gflops	45%	1
conv1x1s1.h（version3）	pack，kernel提前做，输入NC4HW4，neon汇编优化，8x4分块	5.5gflops	50.5%	1
conv1x1s1.h（version4） idea from megengine	pack，kernel提前做，输入NC4HW4，neon汇编优化，12x4分块	5.2gflops	47.8%	1

猜测，分块时块的大小需要尽量大，恰好可以塞进Cache能获得最大性能，目前测试情况来看：

1x1 < 1x4 < 4x4 < 8x4 ...

测试了12x4，发现并不是这样，和MegEngine的大佬交流之后知道A53的硬件利用率极限是75%，另外ldq和fmla不能双发射，所以需要将指令拆成ldx和ldr+ins，因为ldx可以和fmla双发射，ldr和ins可以双发射，就可以突破到75%，待编码验证。
为什么A53极限硬件利用率为75%，因为ldr和ins都不能和fmla双发射，所以每3条fmla就需要带一条ldr+ins，fmla的吞吐极限就是3/4。

armv8a

armv8afp

理论浮点峰值: 

fmla: 4x2(mul+add)*1.55gHz=12.4gFLOPs （Jetson Nano）

|架构|浮点峰值(GFlops)|
|--|--|
|Cortex-A57，armv8a|11.39|

达到硬件浮点峰值的91.8%

src

文件名	优化方法	gFLOPs	峰值占比	线程数
MMult1.h	无任何优化	0.75gflops	6.5%	1
MMult2.h	一次计算4个元素	0.8gflops	7.0%	1
MMult_1x4_3.h	一次计算4个元素	0.8gflops	7.0%	1
MMult_1x4_4.h	一次计算4个元素	0.89gflops	7.8%	1
MMult_1x4_5.h	一次计算4个元素(将4个循环合并为1个)	1.57gflops	13.8%	1
MMult_1x4_7.h	一次计算4个元素(我们在寄存器中累加C的元素，并对A的元素使用寄存器),用指针来寻址B中的元素	1.92gflops	16.8%	1
MMult_1x4_8.h	在MMult_1x4_7的基础上循环展开四个（展开因子的相对任意选择）	1.28gflops	11.2%	1
MMult_4x4_3.h	一次计算C中的4x4小块	0.75gflops	6.5%	1
MMult_4x4_4.h	一次计算C中的4x4小块	0.80gflops	7.0%	1
MMult_4x4_5.h	一次计算C中的4x4小块,将16个循环合并一个	1.26gflops	11.0%	1
MMult_4x4_6.h	一次计算C中的4x4小块(我们在寄存器中累加C的元素，并对a的元素使用寄存器)	4.29gflops	37.6%	1
MMult_4x4_7.h	在MMult_4x4_6的基础上用指针来寻址B中的元素	4.12gflops	36.0%	1
MMult_4x4_8.h	使用更多的寄存器	4.3gflops	37.7%	1
MMult_4x4_10.h	NEON指令集优化	4.3gflops	37.7%	1
MMult_4x4_11.h	NEON指令集优化, 并且为了保持较小问题规模所获得的性能，我们分块矩阵C（以及相应的A和B）	4.3gflops	37.7%	1
MMult_4x4_13.h	NEON指令集优化, 对矩阵A和B进行Pack，这样就可以连续访问内存	4.77gflops	41.8%	1
MMult_4x4_18.h	Neon Assembly，Cache优化	8.44gflops	74.1%	1

Name		Name	Last commit message	Last commit date
Latest commit History 32 Commits
armv7a		armv7a
armv8a		armv8a
x86		x86
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

How To Optimize GEMM

x86

cpufp

src

armv7a

armv7afp

src

armv8a

armv8afp

src

相关链接

About

Releases

Packages

Languages

flywheel1412/how-to-optimize-gemm

Folders and files

Latest commit

History

Repository files navigation

How To Optimize GEMM

x86

cpufp

src

armv7a

armv7afp

src

armv8a

armv8afp

src

相关链接

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages