[Performance, Triton Kernel Args] extend_attention, optimize kern args to _fwd_kernel #1941

HaiShaw · 2024-11-07T00:05:10Z

Motivation

Speedup:
Llama-3.1-8B, TP=8, FP8, b32/i1024: prefill throughput +2.82%
Grok-1, TP=8, FP8, b32/i1024: prefill throughput +2.23%

Setting optimal kernel arguments to _fwd_kernel of extend_attention on ROCm.

Add Rust Router Python Binding (sgl-project#1891)

[Docs] fix 404 - Contributor Guide (sgl-project#1942)

fix black in pre-commit (sgl-project#1940)

HaiShaw added 2 commits November 6, 2024 11:25

[Release, ROCm] release ROCm docker build for AMD MI GPUs

7306d55

Tuning extend kernel args to _fwd_kernel

26d8dcd

HaiShaw requested review from merrymercy, Ying1123, zhyncs and ispobock as code owners November 7, 2024 00:05

HaiShaw added 4 commits November 6, 2024 16:09

remove pending changes

fad57d3

Merge pull request #2 from sgl-project/main

9dc6a91

Add Rust Router Python Binding (sgl-project#1891)

Merge pull request #4 from sgl-project/main

b8f050f

[Docs] fix 404 - Contributor Guide (sgl-project#1942)

Merge pull request #6 from sgl-project/main

96e9f09

fix black in pre-commit (sgl-project#1940)

merrymercy merged commit 67c424c into sgl-project:main Nov 8, 2024
12 of 13 checks passed

HaiShaw deleted the triton-tune branch November 8, 2024 03:47