从0到1动手训练大模型细节，理解底层原理

如果你想更深入了解大模型技术原理，比别人更懂，最好的方法是从0到1手动训练一个，亲手体验训练一个模型的全过程。

现在你只需要花费2小时，3 块钱，完全从0训练26M的小参数GPT，所有技术细节一览无余。

这个操作思路来自于项目MiniMind 。它把复杂的大模型训练拆解成简单、可操作的步骤，代码全用 PyTorch 原生写成，不依赖第三方库的高级封装，每一行都透明到能看懂。

这不是让你造个顶尖 AI，而是让你实打实地感受大模型训练的完整脉络。

无论你是 AI 新手想摸门道，还是好奇底层细节的爱好者，这份手册都能让你上手体验，从零到一跑通整个流程。

小匠为了体验全过程，把项目文档喂给了AI，让AI一步步指导训练出了一个小模型。如果你训练过程中遇到问题，也可以把项目文档丢给AI，让AI一步步指导你完成整个过程。

项目仓库链接：https://github.com/jingyaogong/minimind.git

1. MiniMind 是什么？核心价值和使用场景

1.1 项目简介

MiniMind 是个专为普通人设计的开源项目，目标是拉低 LLM 训练门槛，让你从零体验全过程。它提供了一套完整的工具箱，最小模型只有 25.8M（0.02B 参数），比 GPT-3 小了 7000 多倍，普通 GPU 就能跑起来。项目不仅开源了模型代码，还包括了从头到尾的所有环节：数据清洗、预训练（Pretrain）、监督微调（SFT）、LoRA 微调、直接偏好优化（DPO）、模型蒸馏，甚至还有视觉多模态的 MiniMind-V。所有核心算法都从零用 PyTorch 重写，干净透明，适合边学边做。

1.2 核心价值

低成本体验：用 NVIDIA 3090 单卡，2 小时、3 块钱，就能跑完预训练到微调，产出一个能聊天的模型。
细节全开：不靠第三方框架封装，代码白盒化，训练的每个阶段都能亲手操作，学到真东西。
灵活实用：支持单卡、多卡训练，带 WebUI 和 OpenAI-API 接口，能快速跑起来看效果。

1.3 使用场景

深入学习：想知道大模型咋炼成的？从数据到推理，这儿全有，边跑边懂。
动手实验：调参数、换数据，试试不同策略，看看效果有啥变化。
入门实践：搭个简单聊天机器人，或者加点自定义数据，感受模型训练的乐趣。

2. 准备工作：环境和硬件

动手前，得把工具备齐。别慌，要求不高，普通玩家也能搞定。

2.1 硬件要求

推荐配置：NVIDIA 3090 单卡，租用约 1.3 元/小时，2 小时成本 3 块钱不到。
进阶选项：多卡（如 8 张 4090）能把时间压到 10 分钟，CPU 也能跑（但慢）。
验证：有 GPU 的电脑跑 torch.cuda.is_available()，返回 True 就行。

2.2 软件环境

Python：3.10 或更高。
Git：用来拉代码。
PyTorch：得支持 CUDA，装前测试下 GPU 可用性。

2.3 获取代码

打开终端，跑这句拉仓库：

git clone https://github.com/jingyaogong/minimind.git
cd minimind

2.4 安装依赖

用清华镜像加速：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

检查 PyTorch：

import torch
print(torch.cuda.is_available())  # 确保 True

没问题？进入正题！

3. 快速体验：试试现成模型

先不着急训练，跑个现成的 MiniMind2 看看效果，熟悉下操作。

3.1 下载模型

从 Hugging Face 拉 MiniMind2：

git clone https://huggingface.co/jingyaogong/MiniMind2

3.2 命令行推理

跑这个脚本加载模型：

python eval_model.py --load 1 --model_mode 2

--load 1：用 transformers 格式加载。
--model_mode 2：指定 MiniMind2。

然后就能输入问题，比如“珠穆朗玛峰多高？”它会答“8848 米”，还算靠谱。

3.3 启动 WebUI

想用界面聊？装 Streamlit：

pip install streamlit
cd scripts
streamlit run web_demo.py

浏览器打开 localhost:8501，输入问题试试。

4. 从零训练：大模型全流程详解

现在进入重头戏——从零到一训练一个 MiniMind。咱们按大模型的标准流程走：数据准备、预训练、监督微调、强化学习，最后推理。

4.1 数据准备

大模型训练离不开数据，MiniMind 提供了清洗好的数据集，直接下载放进 ./dataset 文件夹。

4.1.1 下载数据集

推荐用这俩：

预训练：pretrain_hq.jsonl（1.6GB），高质量中文语料。
微调：sft_mini_512.jsonl（1.2GB），对话数据。

下载地址在 ModelScope 或 Hugging Face（见 README “数据集下载”）。手动建个 ./dataset 文件夹，把文件丢进去。

4.1.2 数据格式

预训练数据：纯文本，像这样：

{"text": "如何才能摆脱拖延症？ 治愈拖延症并不容易，但以下建议可能有所帮助..."}

微调数据：对话格式：

{
    "conversations": [
        {"role": "user", "content": "你好"},
        {"role": "assistant", "content": "你好！"}
    ]
}

4.2 预训练（Pretrain）：让模型学会知识

预训练是 LLM 的第一步，相当于让模型“读书”积累知识。

4.2.1 运行预训练

用默认数据 pretrain_hq.jsonl：

python train_pretrain.py

输出权重文件 pretrain_512.pth 存在 ./out，3090 单卡约 1.1 小时，成本 1.43 元。

4.2.2 多卡加速

有 2 张卡？这样跑：

torchrun --nproc_per_node 2 train_pretrain.py

4.2.3 原理

预训练是无监督学习，模型通过大量文本自学“词语接龙”。比如输入“秦始皇”，它能接“是中国的第一位皇帝”。这阶段不教对话，只灌输知识。

4.3 监督微调（SFT）：教会模型聊天

有了知识，接下来教它怎么跟人聊。

4.3.1 运行 SFT

用 sft_mini_512.jsonl：

python train_full_sft.py

输出 full_sft_512.pth，3090 单卡约 1 小时，1.3 元。

4.3.2 原理

SFT 是指令微调，用对话数据教模型理解“问-答”模式。就像让学富五车的模型学会微信聊天，输入“你好”能回“你好！”。

4.4 测试模型

训练完，试试效果：

python eval_model.py --model_mode 1

输入问题，看回答。想调温度或长度？改 eval_model.py 里的 temperature 和 max_tokens。

4.5 强化学习（RLHF/DPO）：优化回答质量

基础模型能聊了，但可能不够“聪明”或“礼貌”。用 DPO 强化一下。

4.5.1 运行 DPO

需要 dpo.jsonl（0.9GB），格式是偏好对比：

{
  "chosen": [{"role": "user", "content": "Q"}, {"role": "assistant", "content": "good answer"}],
  "rejected": [{"role": "user", "content": "Q"}, {"role": "assistant", "content": "bad answer"}]
}

跑训练：

python train_dpo.py

输出 rlhf_512.pth。

4.5.2 原理

DPO 通过偏好数据教模型分辨“好回答”和“坏回答”，提升符合人类期待的能力，比 SFT 更进一步。

4.6 LoRA 微调：加点专业技能

想让模型懂点医学或特定领域知识？用 LoRA。

4.6.1 准备数据

比如医疗场景，建 lora_medical.jsonl：

{"conversations": [{"role": "user", "content": "颈椎病枕头多高？"}, {"role": "assistant", "content": "根据个人情况，建议6-9厘米..."}]}

4.6.2 运行 LoRA

python train_lora.py

输出 lora_medical_512.pth。

4.6.3 测试

python eval_model.py --lora_name 'lora_medical' --model_mode 2

4.6.4 原理

LoRA 是高效微调，只更新少量参数，像给模型装个“外挂”，不影响原有能力。

4.7 模型蒸馏：让小模型更强

想提升性能？试试知识蒸馏。

4.7.1 黑盒蒸馏

用大模型生成的数据（像 sft_1024.jsonl）再微调：

python train_full_sft.py

改数据路径和 max_seq_len，输出新的 full_sft_512.pth。

4.7.2 白盒蒸馏

用 train_distillation.py（参考用，MiniMind 无强大教师模型）：

python train_distillation.py

4.7.3 原理

蒸馏让小模型模仿大模型的“思考方式”，效果更好，体积不变。

4.8 推理模型：打造 MiniMind-R1

想试试推理能力？蒸馏 DeepSeek-R1 数据：

4.8.1 数据

用 r1_mix_1024.jsonl，格式带思考标签：

{
  "conversations": [
    {"role": "user", "content": "你好"},
    {"role": "assistant", "content": "<think>用户问好，我得礼貌回应</think><answer>你好！</answer>"}
  ]
}

4.8.2 运行

python train_distill_reason.py

输出 reason_512.pth。

4.8.3 原理

推理模型通过 <think> 标签学习思考过程，提升复杂问题的回答能力。

5. 部署与应用

5.1 API 服务

搭个兼容 OpenAI 的接口：

python scripts/serve_openai_api.py

测试：

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "minimind", "messages": [{"role": "user", "content": "你好"}], "max_tokens": 512}'

5.2 WebUI

前面提过，用 streamlit run web_demo.py。

6. 注意事项与优化

显存：默认 512 长度，3090 够用。跑 2048 得调 RoPE 和多卡。
数据质量：用项目提供的数据，别随便丢垃圾数据，不然模型会胡说。
成本：3 块钱是 3090 单卡估算，实际看硬件。

7. 底层原理揭秘

7.1 预训练

无监督学习，模型从文本中总结规律，学会预测下一个词。

7.2 SFT

有监督学习，用对话数据教模型理解指令和回答。

7.3 RLHF/DPO

用偏好数据优化输出，减少“废话”，提升质量。

7.4 LoRA

低秩分解，只调小部分参数，高效加技能。

7.5 蒸馏

小模型模仿大模型，提升性能，保持轻量。

8. 结尾

MiniMind 让你从零到一训练一个大模型，还能推理、优化，成本低到 3 块钱，时间快到 2 小时。通过这套流程，你不仅能造出能聊天的 AI，还能摸清 LLM 的底层逻辑。

试试吧，仓库在这儿：https://github.com/jingyaogong/minimind.git