深度解读昇腾CANN模型下沉技术，提升模型调度性能

AI模型的运行通常情况下需要CPU和NPU（昇腾AI处理器）等AI专用处理器协同工作，CPU所在位置称为主机端（Host），而NPU所在位置称为设备端（Device）。对于采用Host调度的AI模型来说，Host下发Task的时序和Device执行Task的时序是异步的，如果Device执行Task的速度比Host下发Task的速度快，则Device会处于空闲状态。比如，大模型场景的增量推理或训练的FineTune阶段，都是计算量较小的场景，此时很容易出现单个算子的Host下发时间比Device上的算子执行时间还长，从而导致Device间歇处于空闲状态。这种现象通常称为Host Bound，这种模型也称为Host Bound模型。

深度解读昇腾CANN模型下沉技术，提升模型调度性能

相关推荐

回顶部