Unsloth发布GLM-4.7 GGUF量化版本,400GB模型压缩至134GB,本地运行成为可能

2025年12月24日

专注于大模型优化的Unsloth近期发布了一项成果:将智谱AI的GLM-4.7超大规模模型通过Dynamic 2-bit GGUF量化技术,从原始的400GB压缩至134GB,实现了75%的空间节省。

这意味着用户只需单张24GB显卡和128GB内存的消费级配置,就能在本地运行这个拥有355亿参数的顶级AI模型,彻底改变了大模型部署的门槛。

显著的性能提升

GLM-4.7是智谱AI推出的最新思维推理模型,是GLM-4.6的升级版,在编程、智能体和对话等多个领域都展现出更强的性能表现。

该模型在多项基准测试中取得了业界领先成绩,包括在SWE-bench上达到73.8%(提升5.8%),SWE-bench多语言版本上达到66.7%(提升12.9%),Terminal Bench 2.0上达到41.0%(提升16.5%)。数学推理能力也有大幅提升,在HLE基准测试中达到42.8%,相比GLM-4.6提高了12.4%。

GLM-4.7进一步增强了交错思维(Interleaved Thinking)功能,并引入了保留思维(Preserved Thinking)和回合级思维(Turn-level Thinking)。这些机制让模型在执行复杂任务时更加稳定和可控,特别适合需要长期规划的编程任务和智能体应用场景。

下载与使用

用户可以通过以下方式获取和使用GLM-4.7 GGUF版本:

**下载地址:**访问Hugging Face的unsloth/GLM-4.7-GGUF仓库,提供多个量化版本选择:1)2-bit Dynamic量化版本(134GB);2)1-bit UD-TQ1 GGUF版本,可直接在Ollama中原生运行。 https://huggingface.co/unsloth/GLM-4.7-GGUF

支持llama.cpp、Ollama等流行的本地推理工具。以Ollama为例,下载模型文件后即可通过简单命令启动服务,无需复杂配置。

这次发布为个人开发者和中小企业提供了访问顶级AI能力的新途径,在保证数据隐私的同时实现零API成本。

本地部署意味着完全的数据控制权和无限制的使用次数,特别适合对数据安全有严格要求的企业应用场景。