欢迎光临
我们一直在努力

thbcm的文章

技术专栏

SgLang代码细读-2.forward过程

thbcm阅读(80)赞(0)

Prefill由于输入不定长, 无法开启cudagraph, 而decode由于输入输出是one-by-one的模式, 且能通过merge_batch的方式组装batch, 因此可以通过cudaGraph来加速. 而且P和D对与kvCach...