Allow overwrite flashinfer use_tensorcore #2169

merrymercy · 2024-11-25T04:55:23Z

No description provided.

zhyncs · 2024-11-25T04:56:54Z

python/sglang/srt/layers/attention/flashinfer_backend.py

        else:
-            self.decode_use_tensor_cores = False
+            if not _grouped_size_compiled_for_decode_kernels(


May we remove this _grouped_size_compiled_for_decode_kernels I think it's useless in FlashInfer v0.2 cc @yzh119

Yes we can use some heuristic:

For fp16, use_tensor_cores=True when gqa_group_size > 4

For fp8, we can always enable use_tensor_cores=True

merrymercy added 2 commits November 24, 2024 20:53

Allow overwrite flashinfer use_tensorcore

d573a97

Update flashinfer

ed5316f

merrymercy requested review from Ying1123, hnyls2002, zhyncs, ispobock and ByronHsu as code owners November 25, 2024 04:55

zhyncs reviewed Nov 25, 2024

View reviewed changes

merrymercy merged commit 8e1adb8 into main Nov 25, 2024
1 of 13 checks passed

merrymercy deleted the pr-fix-flashinfer branch November 25, 2024 04:58

Provide feedback