Unsloth发布GLM-4.7 GGUF量化版本，400GB模型压缩至134GB，本地运行成为可能

2025年12月24日

专注于大模型优化的Unsloth近期发布了一项成果：将智谱AI的GLM-4.7超大规模模型通过Dynamic 2-bit GGUF量化技术，从原始的400GB压缩至134GB，实现了75%的空间节省。

这意味着用户只需单张24GB显卡和128GB内存的消费级配置，就能在本地运行这个拥有355亿参数的顶级AI模型，彻底改变了大模型部署的门槛。

显著的性能提升

GLM-4.7是智谱AI推出的最新思维推理模型，是GLM-4.6的升级版，在编程、智能体和对话等多个领域都展现出更强的性能表现。

该模型在多项基准测试中取得了业界领先成绩，包括在SWE-bench上达到73.8%（提升5.8%），SWE-bench多语言版本上达到66.7%（提升12.9%），Terminal Bench 2.0上达到41.0%（提升16.5%）。数学推理能力也有大幅提升，在HLE基准测试中达到42.8%，相比GLM-4.6提高了12.4%。

GLM-4.7进一步增强了交错思维（Interleaved Thinking）功能，并引入了保留思维（Preserved Thinking）和回合级思维（Turn-level Thinking）。这些机制让模型在执行复杂任务时更加稳定和可控，特别适合需要长期规划的编程任务和智能体应用场景。

下载与使用

用户可以通过以下方式获取和使用GLM-4.7 GGUF版本：

**下载地址：**访问Hugging Face的unsloth/GLM-4.7-GGUF仓库，提供多个量化版本选择：1）2-bit Dynamic量化版本（134GB）；2）1-bit UD-TQ1 GGUF版本，可直接在Ollama中原生运行。 https://huggingface.co/unsloth/GLM-4.7-GGUF

支持llama.cpp、Ollama等流行的本地推理工具。以Ollama为例，下载模型文件后即可通过简单命令启动服务，无需复杂配置。

这次发布为个人开发者和中小企业提供了访问顶级AI能力的新途径，在保证数据隐私的同时实现零API成本。

本地部署意味着完全的数据控制权和无限制的使用次数，特别适合对数据安全有严格要求的企业应用场景。

Unsloth发布GLM-4.7 GGUF量化版本，400GB模型压缩至134GB，本地运行成为可能

相关文章

机器人新突破：一天学会1000项技能，每项只看一遍

AI会取代律师吗？别慌，还早着呢

百亿美金AI大厂内部曝光：AI 让效率翻倍，却怕自己技能退化丢工作

AI具备反思能力吗？Anthropic最新研究发现Claude出现内省迹象