在本地部署Qwen大语言模型全过程总结

入门消费级的显卡的显存是很少能满足这个存储要求的,比如笔者这里用的Nvidia GeForce RTX 4060 laptop只有8GB显存。为了能在这台机器上使用Qwen1.5-7B-Chat,就要进行量化。“量化”是个很专业的词汇,但其实没那么难理解,简单来说就是“压缩精度”,或者“降低分辨率”的意思。比如全精度的模型参数是4字节浮点型,将其重新映射到8位整型:

赞(0)
未经允许不得转载:小狮博客 » 在本地部署Qwen大语言模型全过程总结
分享到: 更多 (0)

联系我们