在本地部署Qwen大语言模型全过程总结

2025-11-24 分类：技术专栏阅读(78) 评论(0)

入门消费级的显卡的显存是很少能满足这个存储要求的，比如笔者这里用的Nvidia GeForce RTX 4060 laptop只有8GB显存。为了能在这台机器上使用Qwen1.5-7B-Chat，就要进行量化。“量化”是个很专业的词汇，但其实没那么难理解，简单来说就是“压缩精度”，或者“降低分辨率”的意思。比如全精度的模型参数是4字节浮点型，将其重新映射到8位整型：

未经允许不得转载：小狮博客 » 在本地部署Qwen大语言模型全过程总结

在本地部署Qwen大语言模型全过程总结

相关推荐

回顶部