[LLM INFER] Optimize fuse some kernels in postprocess #9201

gzy19990617 · 2024-09-26T04:07:40Z

PR types

Performance optimization

PR changes

Others

Description

1.get_padding_offset与remove_padding kernel fuse
2.stop_generation_multi_ends_v2与update_inputs kernel与前面的一些操作进行fuse
3.set_value_by_flags_and_idx_v2与set_stop_value_multi_ends_v2 kernel fuse

均增加测试代码，算子级别已对齐精度

codecov · 2024-09-26T04:41:27Z

Codecov Report

Attention: Patch coverage is 0% with 5 lines in your changes missing coverage. Please review.

Project coverage is 52.90%. Comparing base (81f5ab5) to head (55aacac).
Report is 34 commits behind head on develop.

❗ Current head 55aacac differs from pull request most recent head 3e5afae

Please upload reports for the commit 3e5afae to get more accurate results.

Files with missing lines	Patch %	Lines
...enlp/experimental/transformers/generation_utils.py	0.00%	5 Missing ⚠️

Additional details and impacted files

@@             Coverage Diff             @@
##           develop    #9201      +/-   ##
===========================================
- Coverage    52.92%   52.90%   -0.03%     
===========================================
  Files          661      661              
  Lines       107069   106936     -133     
===========================================
- Hits         56670    56571      -99     
+ Misses       50399    50365      -34

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

yuanlehome

LGTM

vivienfanghuagood · 2024-11-11T07:20:02Z

csrc/gpu/set_preids_token_penalty_multi_scores.cu

+    for (int i = tid; i < bad_words_length; i += blockDim.x) {
+        const int64_t bad_words_token_id = bad_words_list[i];
+        if (bad_words_token_id >= length || bad_words_token_id < 0) continue;
+        logits_now[bad_words_token_id] = -1e10;


如果这里固定写了-1e10，那TypeName应该只能限定Float32或者Bfloat16，而不能传Float16。但算子注册的时候全都注册了，这存在溢出的风险。虽然目前通过组网强制cast(Float32)，但容易被用户用错。

这里可以修改为，根据传入的类型设置不同精度的初始值？

我觉得比较合理的情况是，输入不同的类型都兼容下；但如果简单处理，也可以只考虑注册特定的精度的算子

gzy19990617 added 2 commits September 26, 2024 04:06

optimize fuse some kernels

a5fd26f

optimize fuse some kernels

b9b4dc4

gzy19990617 added 3 commits September 26, 2024 10:54

fix top_p reject

00c018d

fix

e8b751f

Merge branch 'develop' into fuse_kernels_in_preprocess_postprocess

149df24

gzy19990617 changed the title ~~【Inference】Optimize fuse some kernels~~ [LLM INFER] Optimize fuse some kernels in postprocess Oct 9, 2024

gzy19990617 added 4 commits October 9, 2024 19:56

ci

a489d73

Merge branch 'develop' into fuse_kernels_in_preprocess_postprocess

7ed0de5

Merge branch 'develop' into fuse_kernels_in_preprocess_postprocess

6b3f627

fix review

55aacac

yuanlehome self-assigned this Oct 30, 2024

fix

3e5afae

yuanlehome approved these changes Nov 6, 2024

View reviewed changes

yuanlehome merged commit 0977858 into PaddlePaddle:develop Nov 6, 2024
11 of 12 checks passed

vivienfanghuagood reviewed Nov 11, 2024

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[LLM INFER] Optimize fuse some kernels in postprocess #9201

[LLM INFER] Optimize fuse some kernels in postprocess #9201

gzy19990617 commented Sep 26, 2024

codecov bot commented Sep 26, 2024 •

edited

Loading

yuanlehome left a comment

vivienfanghuagood Nov 11, 2024

gzy19990617 Nov 11, 2024

vivienfanghuagood Nov 11, 2024

[LLM INFER] Optimize fuse some kernels in postprocess #9201

[LLM INFER] Optimize fuse some kernels in postprocess #9201

Conversation

gzy19990617 commented Sep 26, 2024

PR types

PR changes

Description

codecov bot commented Sep 26, 2024 • edited Loading

Codecov Report

yuanlehome left a comment

Choose a reason for hiding this comment

vivienfanghuagood Nov 11, 2024

Choose a reason for hiding this comment

gzy19990617 Nov 11, 2024

Choose a reason for hiding this comment

vivienfanghuagood Nov 11, 2024

Choose a reason for hiding this comment

codecov bot commented Sep 26, 2024 •

edited

Loading