Unsloth 新增支持 Qwen3 系列大模型的微调与部署

近日，Unsloth 新增支持 Qwen3 系列大模型的微调与部署。

这次更新不仅大幅优化了性能表现，还降低了显存门槛，让 Qwen3 模型的使用更加高效、轻量。

以下是本次更新的核心亮点：

✅ 微调速度提升约 2 倍 ✅ 显存使用减少约 70% ✅ 最长上下文支持扩展至 128K ✅ Qwen3-30B-A3B 模型仅需 17.5GB 显存 ✅ 免费 Colab Notebook 即刻上手微调 Qwen3-14B ✅ 已支持全参数微调、预训练和部署

此外，Unsloth 还上线了支持部署的 4-bit 动态量化 safetensors 模型，并适配了包括 Mixtral、MoEs、Cohere 等主流模型架构。

怎么用？Qwen3 微调快速指南

第一步：安装或更新 Unsloth

直接使用 pip 命令安装最新版 Unsloth：

pip install --upgrade --force-reinstall --no-deps unsloth unsloth_zoo

第二步：选择模型（支持 4bit 量化）

以下是官方已发布的 Qwen3 模型与推理时显存需求：

| 模型名称 | 显存需求（约） | | - | | | Qwen3-14B | ≈ 13 GB | | Qwen3-30B-A3B (MoE) | ≈ 17.5 GB | | Qwen3-235B-A22B | > 48 GB |

其中，Qwen3-30B-A3B 是稀疏 MoE 模型，默认禁用了 Router 层的微调，提高了稳定性。

第三步：加载模型

以 30B 模型为例，代码如下：

from unsloth import FastModel

model, tokenizer = FastModel.from_pretrained(
    model_name = "unsloth/Qwen3-30B-A3B",
    max_seq_length = 2048,
    load_in_4bit = True,
    full_finetuning = False,  # 若需要全参数微调可设为 True
)

第四步：准备训练数据

支持两种数据类型：

普通问答：

{"question": "2+2 等于多少？", "answer": "4"}

链式推理（推荐保留 Qwen3 推理能力）：

{"question": "10 是不是质数？", "answer": "不是，因为 10 除以 2 等于 5。"}

如果训练数据完全不包含推理信息，模型在微调后可能会失去原有推理能力。

第五步：使用 Colab 免费微调 Qwen3-14B

官方提供了开箱即用的 Notebook，支持在线微调：

地址如下（点击即可打开）：

Colab Notebook：Qwen3-14B 微调（含推理数据）：https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_%2814B%29-Reasoning-Conversational.ipynb

该数据集融合了：NVIDIA 开源的 open-math-reasoning 数据；Maxime 提供的 FineTome 高质量问答数据

第六步：保存与部署

微调完成后，Unsloth 支持将模型导出为：GGUF 格式（适用于 llama.cpp / Ollama 等推理引擎）；Safetensors（4-bit 量化）（适用于 Hugging Face 等平台）。

官方模型仓库地址：https://huggingface.co/unsloth

延伸阅读推荐

Unsloth 官方博客：Qwen3 更新说明：https://unsloth.ai/blog/qwen3 官方文档：如何运行与微调 Qwen3：https://docs.unsloth.ai/basics/qwen3-how-to-run-and-fine-tune

如果你觉得这篇指南对你有帮助，欢迎点赞、转发、留言交流，也可以关注我获取更多实用AI大模型实战技巧！