SgLang代码细读-2.forward过程

2025-05-26 分类：技术专栏阅读(218) 评论(0)

Prefill由于输入不定长, 无法开启cudagraph, 而decode由于输入输出是one-by-one的模式, 且能通过merge_batch的方式组装batch, 因此可以通过cudaGraph来加速. 而且P和D对与kvCache的处理逻辑也不同, 在看的时候重点关注这两部分, 看的时候model以deepseek,MLA,fa3为主.

未经允许不得转载：小狮博客 » SgLang代码细读-2.forward过程

SgLang代码细读-2.forward过程

相关推荐

回顶部