Unsloth 新增支持 Qwen3 系列大模型的微调与部署

2025年5月6日

近日,Unsloth 新增支持 Qwen3 系列大模型的微调与部署。

这次更新不仅大幅优化了性能表现,还降低了显存门槛,让 Qwen3 模型的使用更加高效、轻量。

以下是本次更新的核心亮点:

✅ 微调速度提升约 2 倍 ✅ 显存使用减少约 70% ✅ 最长上下文支持扩展至 128K ✅ Qwen3-30B-A3B 模型仅需 17.5GB 显存 ✅ 免费 Colab Notebook 即刻上手微调 Qwen3-14B ✅ 已支持全参数微调、预训练和部署

此外,Unsloth 还上线了支持部署的 4-bit 动态量化 safetensors 模型,并适配了包括 Mixtral、MoEs、Cohere 等主流模型架构。

怎么用?Qwen3 微调快速指南

第一步:安装或更新 Unsloth

直接使用 pip 命令安装最新版 Unsloth:

pip install --upgrade --force-reinstall --no-deps unsloth unsloth_zoo

第二步:选择模型(支持 4bit 量化)

以下是官方已发布的 Qwen3 模型与推理时显存需求:

| 模型名称 | 显存需求(约) | | - | | | Qwen3-14B | ≈ 13 GB | | Qwen3-30B-A3B (MoE) | ≈ 17.5 GB | | Qwen3-235B-A22B | > 48 GB |

其中,Qwen3-30B-A3B 是稀疏 MoE 模型,默认禁用了 Router 层的微调,提高了稳定性。

第三步:加载模型

以 30B 模型为例,代码如下:

from unsloth import FastModel

model, tokenizer = FastModel.from_pretrained(
    model_name = "unsloth/Qwen3-30B-A3B",
    max_seq_length = 2048,
    load_in_4bit = True,
    full_finetuning = False,  # 若需要全参数微调可设为 True
)

第四步:准备训练数据

支持两种数据类型:

普通问答:

{"question": "2+2 等于多少?", "answer": "4"}

链式推理(推荐保留 Qwen3 推理能力):

{"question": "10 是不是质数?", "answer": "不是,因为 10 除以 2 等于 5。"}

如果训练数据完全不包含推理信息,模型在微调后可能会失去原有推理能力。

第五步:使用 Colab 免费微调 Qwen3-14B

官方提供了开箱即用的 Notebook,支持在线微调:

地址如下(点击即可打开):

Colab Notebook:Qwen3-14B 微调(含推理数据):https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_%2814B%29-Reasoning-Conversational.ipynb

该数据集融合了:NVIDIA 开源的 open-math-reasoning 数据;Maxime 提供的 FineTome 高质量问答数据

第六步:保存与部署

微调完成后,Unsloth 支持将模型导出为:GGUF 格式(适用于 llama.cpp / Ollama 等推理引擎);Safetensors(4-bit 量化)(适用于 Hugging Face 等平台)。

官方模型仓库地址:https://huggingface.co/unsloth

延伸阅读推荐

Unsloth 官方博客:Qwen3 更新说明:https://unsloth.ai/blog/qwen3 官方文档:如何运行与微调 Qwen3:https://docs.unsloth.ai/basics/qwen3-how-to-run-and-fine-tune

如果你觉得这篇指南对你有帮助,欢迎点赞、转发、留言交流,也可以关注我获取更多实用AI大模型实战技巧!