推测解码 技术十分流行,其用于加速大型语言模型的推理过程,与此同时保持其准确性。如下图所示,推测解码通过将生成过程分为两个阶段来工作。在第一阶段,一个快速但准确性较低的
草稿 模型 (Draft,也称为助手) 自回归地生成一系列标记。在第二阶段,一个大型但更准确的
目标 模型 (Target) 对生成的草稿标记进行并行验证。这个过程允许目标模型在单个前向传递中生成多个标记,从而加速自回归解码。推测解码的成功在很大程度上取决于
推测前瞻 (Speculative Lookahead,下文用 SL 表示),即草稿模型在每次迭代中生成的标记数量。在实践中,SL 要么是一个静态值,要么基于启发式方法,这两者都不是在推理过程中发挥最大性能的最优选择。
更快的辅助生成: 动态推测
未经允许不得转载:小狮博客 » 更快的辅助生成: 动态推测
相关推荐
- 痞子衡嵌入式:关于恩智浦SDK2.0里事务型中断处理函数(DriverIRQHandler)的重定向注意事项
- UWP 通过 .NET 9 和Native AOT 的支持实现 UWP 应用的现代化
- .NET周刊【11月第2期 2024-11-10】
- 为什么在EffectiveJava中建议用EnumSet替代位字段,以及使用EnumMap替换序数索引
- DDCA —— 大缓存、虚拟内存:多核缓存、NUCA缓存、页表等
- SQL Server 语句日期格式查找方法
- Python 如何根据给定模型计算权值
- Angular Material 18+ 高级教程 – Datepicker の Calendar & Custom DateAdapter (Temporal)