当前位置：小狮博客 > 技术专栏 > 正文

制作并量化GGUF模型上传到HuggingFace和ModelScope

2024-12-06 分类：技术专栏阅读(254) 评论(0)

llama.cpp 还支持量化模型，在保持较高的模型精度的同时，减少模型的存储和计算需求，使大模型能够在桌面端、嵌入式设备和资源受限的环境中高效部署，并提高推理速度。