[LITE][NPU][XPU] Refine subgraph pass, and support NPU/XPU model generation at execution time #2576

hong19860320 · 2019-12-06T11:28:30Z

背景问题：

NPU和XPU的模型是在离线的子图分析阶段生成的，与输入尺寸强相关，在部署阶段，当输入尺寸发生变化时无法重新生成NPU和XPU模型。
华为NPU型号较多、软件版本不一，离线生成的NPU模型不一定适用于每个机型，在发生兼容性问题时，Paddle Lite会出现crash，严重影响用户体验。
目前NPU的模型生成依赖于NPU子图pass，而该子图pass依赖于华为HiAI API，即依赖于华为手机环境，即无法在server端使用model_optimize_tool生成NPU/XPU模型。
子图分析、检测算法存在问题，对于复杂模型，子图划分结果错误。

解决办法：

拆分子图pass代码，只保留子图检测和融合功能（去掉所有与设备有关的代码）可以解决问题3，具体实现是，为每个子图新建一个subgraph op替换原始的ops，并创建一个新的block_desc保存子图原始的ops，同时在新建的subgraph op设置sub_block属性存储新建的block_desc在program的block_descs的索引。
将模型生成（paddle ops转NPU IR graph）代码从子图pass中剥离，放到执行阶段，可以解决问题1和2，具体实现是，在执行阶段，当运行到subgraph op时，会根据其保存的sub_block属性找到该子图对应的block_desc（即保存了该子图的原始ops），逐个转换每个op生成NPU/XPU的IR Graph，进而生成并执行NPU/XPU模型，完成子图的执行，如果NPU/XPU模型生成失败或存在兼容性问题，将依次调用原始ops中的每个op的kernel实现子图的执行。当输入尺寸发生变化时，判断NPU/XPU模型是否支持可变尺寸，如果不支持则重新生成NPU/XPU模型。
移植paddle inference的子图检测的相关实现以解决问题4。

其它改动：

去掉了之前由于需要支持NPU/XPU而导致的框架方面的修改，例如mir::Node里面增加subgraph_id和相关接口，program.cc中强制要求运行NPU/XPU子图pass前需要设置输入tensor的shape信息。
op converter(bridge)提供了实用工具类函数，op converter(bridge)代码更加简洁。
arena framework支持op converter的unit test，不再使用独立的unit test，减少重复代码。

…ubgraph pass to support build NPU/XPU model during kernel execution phase test=develop

…into hongming/support_runtime

test=develop

…into hongming/support_runtime

test=develop

…into hongming/support_runtime

test=develop

…mize_tool test=develop

lite/tests/kernels/activation_compute_test.cc

Superjomn

执行时做图优化，总体上与lite的设计不一致，因为会带来未知的动态性

但npu接口不一致的话也没有办法，也算是npu sdk本身的设计问题

需要注意部署库的大小

hong19860320 · 2019-12-11T03:02:28Z

执行时做图优化，总体上与lite的设计不一致，因为会带来未知的动态性

但npu接口不一致的话也没有办法，也算是npu sdk本身的设计问题

需要注意部署库的大小

目前这个方案取了平衡，图优化（即子图生成）仍然在分析阶段做，只是将子图转为目标设备的模型这个步骤放在执行阶段，目的是根据设备特点动态生成目标设备的模型以保证兼容性，同时由于目标设备模型的生成和输入尺寸强绑定，因此执行阶段生成目标设备的模型是合理的。

对于不支持NPU/XPU的部署库libpaddle_lite_jni.so大小无影响。针对支持NPU的部署库libpaddle_lite_jni.so增量约为60KB。

…npu to fix the compiling error on tiny publish mode test=develop

hong19860320 · 2019-12-11T07:38:47Z

执行时做图优化，总体上与lite的设计不一致，因为会带来未知的动态性
但npu接口不一致的话也没有办法，也算是npu sdk本身的设计问题
需要注意部署库的大小

目前这个方案取了平衡，图优化（即子图生成）仍然在分析阶段做，只是将子图转为目标设备的模型这个步骤放在执行阶段，目的是根据设备特点动态生成目标设备的模型以保证兼容性，同时由于目标设备模型的生成和输入尺寸强绑定，因此执行阶段生成目标设备的模型是合理的。

Superjomn

LGTM

lite/backends/xpu/device.cc

lite/core/arena/framework.cc

lite/core/mir/subgraph/CMakeLists.txt

lite/core/mir/subgraph/subgraph_detector.h

lite/core/mir/subgraph/subgraph_detector_test.cc

lite/core/mir/subgraph/subgraph_pass.cc

lite/core/mir/subgraph/subgraph_pass_test.cc

lite/core/optimizer.h

lite/kernels/npu/bridges/act_op.cc

lite/kernels/npu/bridges/argmax_op.cc

lite/kernels/npu/bridges/engine.cc

lite/operators/op_params.h

lite/kernels/xpu/subgraph_compute.h

…place test=develop

…raph op test=develop

sangoly

LGTM

test=develop

sangoly

LGTM

hong19860320 added 6 commits December 2, 2019 14:41

[LITE][ALL] Porting subgraph detector from paddle inference, Refine s…

7b014c4

…ubgraph pass to support build NPU/XPU model during kernel execution phase test=develop

Merge branch 'develop' of https://github.com/PaddlePaddle/Paddle-Lite …

70cfd1a

…into hongming/support_runtime

[LITE][NPU] Support NPU model generation on execution time

02973c0

test=develop

Merge branch 'develop' of https://github.com/PaddlePaddle/Paddle-Lite …

0d5cfa3

…into hongming/support_runtime

[LITE][NPU] Revert the modification of unit test helper of bridges

07a07bc

test=develop

[LITE][XPU] Revert the modification of unit test helper of bridges

92a9f3e

test=develop

hong19860320 changed the title ~~[LITE][ALL] Refine subgraph pass, and support NPU/XPU model generation on execution time~~ [LITE][ALL] Refine subgraph pass, and support NPU/XPU model generation at execution time Dec 6, 2019

hong19860320 changed the title ~~[LITE][ALL] Refine subgraph pass, and support NPU/XPU model generation at execution time~~ [LITE][NPU][XPU] Refine subgraph pass, and support NPU/XPU model generation at execution time Dec 7, 2019

hong19860320 added 3 commits December 10, 2019 08:34

[LITE][XPU] Support XPU model generation at execution time

62b84ff

test=develop

Merge branch 'develop' of https://github.com/PaddlePaddle/Paddle-Lite …

2af2af3

…into hongming/support_runtime

[LITE][NPU][XPU] Rename the context to the graph for NPU/XPU bridges

d8b8cb5

test=develop

hong19860320 requested review from zhupengyang, Superjomn and sangoly and removed request for zhupengyang December 10, 2019 14:33

hong19860320 added 2 commits December 10, 2019 14:48

[LITE][NPU][XPU] Fix the input param of the unit test of subgraph pass

af455d0

test=develop

[LITE][NPU][XPU] Fix the NPU/XPU model generation by using model_opti…

2b5a8a9

…mize_tool test=develop

Superjomn reviewed Dec 11, 2019

View reviewed changes

lite/tests/kernels/activation_compute_test.cc Outdated Show resolved Hide resolved

Superjomn previously approved these changes Dec 11, 2019

View reviewed changes

[LITE][NPU][XPU] Move subgraph bridge registry and engine to kernels/…

843c6fb

…npu to fix the compiling error on tiny publish mode test=develop

hong19860320 dismissed Superjomn’s stale review via 843c6fb December 11, 2019 07:35

hong19860320 closed this Dec 11, 2019

hong19860320 reopened this Dec 11, 2019

hong19860320 requested a review from Superjomn December 11, 2019 08:36

Superjomn previously approved these changes Dec 11, 2019

View reviewed changes