[Codegen][CPU] Eliminate all-true vector masks after vectorization #18190

MacDue · 2024-08-12T11:13:42Z

This enables an upstream transform that eliminates all true vector.create_mask ops. This is particularly beneficial for scalable vectors, which use dynamic tensor types, which results in masks that otherwise would not fold away till much later, preventing some optimizations.

Depends on llvm/llvm-project#99314.

This enables an upstream transform that eliminates all true `vector.create_mask` ops. This is particularly beneficial for scalable vectors, which use dynamic tensor types, which results in masks that otherwise would not fold away till much later, preventing some optimizations. Depends on #99314. Signed-off-by: Benjamin Maxwell <benjamin.maxwell@arm.com>

github-actions · 2024-08-13T10:05:51Z

Abbreviated Benchmark Summary

@ commit 06255e62aec4827e77b30d6aed67f1f158154310 (vs. base c71fe1a7aa8a1c360e6418043b2a1165861d72f9)

Data-Tiling Comparison Table

Click to show

Name	No-DT (baseline)	DT-Only	DT-UK
BertLargeTF(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[30-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	750.499 (1.0X)	N/A	223.911 (3.4X)
DeepLabV3_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	6.977 (1.0X)	N/A	8.607 (0.8X)
EfficientNetV2STF(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	36.091 (1.0X)	N/A	34.339 (1.1X)
EfficientNet_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	5.834 (1.0X)	N/A	5.053 (1.2X)
GPT2_117M_TF_1X1XI32(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	9.304 (1.0X)	N/A	8.603 (1.1X)
GPT2_117M_TF_1X4XI32(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	11.243 (1.0X)	N/A	9.057 (1.2X)
MiniLML12H384Uncased(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	12.020 (1.0X)	N/A	13.928 (0.9X)
MobileBertSquad_fp16(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	34.193 (1.0X)	N/A	61.286 (0.6X)
MobileBertSquad_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	33.783 (1.0X)	N/A	61.411 (0.6X)
MobileBertSquad_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	69.265 (1.0X)	N/A	64.393 (1.1X)
MobileNetV1_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	4.738 (1.0X)	N/A	4.619 (1.0X)
MobileNetV2_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	3.767 (1.0X)	N/A	4.991 (0.8X)
MobileNetV2_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	5.874 (1.0X)	N/A	5.456 (1.1X)
MobileNetV3Small_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	2.870 (1.0X)	N/A	2.856 (1.0X)
MobileSSD_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	8.563 (1.0X)	N/A	9.951 (0.9X)
PersonDetect_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	0.788 (1.0X)	N/A	0.660 (1.2X)
PoseNet_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	4.184 (1.0X)	N/A	5.268 (0.8X)
matmul_256x256x2048_i8_i4_i32_tile_config_default(linalg) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_sync(embedded_elf)[full-inference,default-flags] with default @ c2-standard-60[cpu]	7.596 (1.0X)	N/A	7.566 (1.0X)
matmul_256x256x2048_i8_i8_i32_tile_config_default(linalg) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_sync(embedded_elf)[full-inference,default-flags] with default @ c2-standard-60[cpu]	6.603 (1.0X)	N/A	1.811 (3.6X)
BertForMaskedLMTF(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[30-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	217.947 (1.0X)	N/A	108.150 (2.0X)
DeepLabV3_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	32.405 (1.0X)	N/A	30.164 (1.1X)
EfficientNetV2STF(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	276.525 (1.0X)	N/A	229.794 (1.2X)
EfficientNet_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	26.961 (1.0X)	N/A	13.183 (2.0X)
GPT2_117M_TF_1X1XI32(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	71.273 (1.0X)	N/A	39.480 (1.8X)
GPT2_117M_TF_1X4XI32(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	91.251 (1.0X)	N/A	41.914 (2.2X)
MiniLML12H384Uncased(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	79.759 (1.0X)	N/A	59.271 (1.3X)
MobileBertSquad_fp16(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	180.011 (1.0X)	N/A	187.447 (1.0X)
MobileBertSquad_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	180.808 (1.0X)	N/A	190.906 (0.9X)
MobileBertSquad_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	520.433 (1.0X)	N/A	244.176 (2.1X)
MobileNetV1_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	24.380 (1.0X)	N/A	17.990 (1.4X)
MobileNetV2_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	11.965 (1.0X)	N/A	11.260 (1.1X)
MobileNetV2_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	21.697 (1.0X)	N/A	11.875 (1.8X)
MobileNetV3Small_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_sync(embedded_elf)[full-inference,default-flags] with default @ c2-standard-60[cpu]	2.818 (1.0X)	N/A	2.711 (1.0X)
MobileSSD_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	34.447 (1.0X)	N/A	33.358 (1.0X)
PersonDetect_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_sync(embedded_elf)[full-inference,default-flags] with default @ c2-standard-60[cpu]	0.717 (1.0X)	N/A	0.580 (1.2X)
PoseNet_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	17.921 (1.0X)	N/A	19.722 (0.9X)
matmul_1x256x2048_i8_i4_i32_tile_config_default(linalg) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_sync(embedded_elf)[full-inference,default-flags] with default @ c2-standard-60[cpu]	0.054 (1.0X)	N/A	0.055 (1.0X)
matmul_1x256x2048_i8_i8_i32_tile_config_default(linalg) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_sync(embedded_elf)[full-inference,default-flags] with default @ c2-standard-60[cpu]	0.043 (1.0X)	N/A	0.022 (2.0X)

No improved or regressed benchmarks 🏖️

No improved or regressed compilation metrics 🏖️

For more information:

Source Workflow Run

banach-space · 2024-08-13T12:10:24Z

Thanks! LG, but a test would be nice :)

Signed-off-by: Benjamin Maxwell <benjamin.maxwell@arm.com>

MacDue · 2024-08-13T15:21:17Z

Thanks! LG, but a test would be nice :)

Done 👍

hanhanW

LG, just one nit about cleanup.

hanhanW · 2024-08-13T21:35:32Z

compiler/src/iree/compiler/Codegen/Common/GenericVectorization.cpp

+/// Converts from iree_compiler::VscaleRange to vector::VscaleRange.
+static std::optional<vector::VscaleRange>
+toVectorVscaleRange(std::optional<iree_compiler::VscaleRange> vscaleRange) {
+  if (!vscaleRange.has_value())
+    return std::nullopt;
+  return vector::VscaleRange{vscaleRange->min, vscaleRange->max};
+}


I was confused that why can't we just use vector::VscaleRagnge, then I found that it's added to upstream recently (llvm/llvm-project@9b06e25). Can you help remove the IREE version, and switch to use upstream version? It can be done in a follow-up.

I'll do this in a follow up PR 👍

c-rhodes

also LGTM cheers

compiler/src/iree/compiler/Codegen/Common/test/generic_vectorization.mlir

banach-space

LGTM, thanks!

Signed-off-by: Benjamin Maxwell <benjamin.maxwell@arm.com>

MacDue force-pushed the eliminate_masks branch from 3e1fe9a to 6dea91f Compare August 12, 2024 11:13

MacDue force-pushed the eliminate_masks branch from 6dea91f to 9f25223 Compare August 13, 2024 09:21

MacDue marked this pull request as ready for review August 13, 2024 09:30

MacDue requested a review from hanhanW as a code owner August 13, 2024 09:30

MacDue requested review from c-rhodes and banach-space August 13, 2024 09:31

MacDue added the benchmarks:x86_64 Run default x86_64 benchmarks label Aug 13, 2024

Add test

09525ba

Signed-off-by: Benjamin Maxwell <benjamin.maxwell@arm.com>

MacDue force-pushed the eliminate_masks branch from 28e0d74 to 09525ba Compare August 13, 2024 15:20

hanhanW approved these changes Aug 13, 2024

View reviewed changes

c-rhodes approved these changes Aug 14, 2024

View reviewed changes

compiler/src/iree/compiler/Codegen/Common/test/generic_vectorization.mlir Outdated Show resolved Hide resolved

banach-space approved these changes Aug 14, 2024

View reviewed changes

Update test

5142c34

Signed-off-by: Benjamin Maxwell <benjamin.maxwell@arm.com>

c-rhodes merged commit fe638b0 into iree-org:main Aug 14, 2024
51 checks passed

MacDue deleted the eliminate_masks branch August 14, 2024 11:49

MacDue mentioned this pull request Aug 14, 2024

Replace iree_compiler::VscaleRange with vector::VscaleRange (NFC) #18218

Merged

MacDue added a commit to MacDue/iree that referenced this pull request Aug 15, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Codegen][CPU] Eliminate all-true vector masks after vectorization #18190

[Codegen][CPU] Eliminate all-true vector masks after vectorization #18190

MacDue commented Aug 12, 2024 •

edited

Loading

github-actions bot commented Aug 13, 2024 •

edited

Loading

banach-space commented Aug 13, 2024

MacDue commented Aug 13, 2024

hanhanW left a comment

hanhanW Aug 13, 2024

MacDue Aug 14, 2024

c-rhodes left a comment

banach-space left a comment

[Codegen][CPU] Eliminate all-true vector masks after vectorization #18190

[Codegen][CPU] Eliminate all-true vector masks after vectorization #18190

Conversation

MacDue commented Aug 12, 2024 • edited Loading

github-actions bot commented Aug 13, 2024 • edited Loading

Abbreviated Benchmark Summary

Data-Tiling Comparison Table

banach-space commented Aug 13, 2024

MacDue commented Aug 13, 2024

hanhanW left a comment

Choose a reason for hiding this comment

hanhanW Aug 13, 2024

Choose a reason for hiding this comment

MacDue Aug 14, 2024

Choose a reason for hiding this comment

c-rhodes left a comment

Choose a reason for hiding this comment

banach-space left a comment

Choose a reason for hiding this comment

MacDue commented Aug 12, 2024 •

edited

Loading

github-actions bot commented Aug 13, 2024 •

edited

Loading