10+关于DeepSeek R1的常见问题解答
2025年2月1日
DeepSeek 颠覆了人们对 AI 和中国参与AI竞争的预期。
这篇问答整理了大众关心的问题,这些问题及答案来自公开信息整理,如论文,国外科技媒体报道等。
DeepSeek 是什么?它的 R1 模型有什么特点?
R1 是一个类似于 OpenAI 的 o1 的推理模型。其低廉的训练成本、以及强大的推理能力、而且免费开源引发全球关注。大大加速了 AI 普及和 AI 技术发展。
见我们之后整理的这篇文章:实测5种有效解决deepseek服务器繁忙的方法(附教程)
典型使用案例
大众广泛使用,降低使用门槛
DeepSeek APP 在美国 App Store 上下载量迅速飙升,吸引了数百万用户,登顶 App Store 下载榜首
代码生成与辅助开发
硅谷的一位开发者利用 DeepSeek‑R1,仅用一条指令就自动生成了一个具备完整逻辑链条和详细注释的聊天应用原型,大幅缩短了开发周期并降低了成本。
企业知识库集成DeepSeek‑R1
《Politico》报道,多家跨国企业已经将 DeepSeek‑R1 集成到内部知识管理系统中,借助其快速提取和总结大量技术文档的能力,实现了信息检索和内部协作效率的显著提升。
作为考试模拟工具
《Financial Times》评价 DeepSeek‑R1 在复杂数学与逻辑问题上的透明推理能力,使欧洲多所高校和在线教育平台开始试用该模型作为互动辅导和考试模拟工具,帮助学生理解难题解法。
多语言翻译
一家初创企业利用 DeepSeek‑R1 的多语言理解和实时文本摘要功能,构建了一个跨境沟通平台,有效缩短了翻译时间并降低了因语言障碍导致的沟通错误。
模型演进
DeepSeek V2 模型带来了哪些重要突破?
DeepSeek V2 的核心突破包含DeepSeek MoE和DeepSeek MLA两大技术。
其中,DeepSeek MoE采用专家混合架构,将模型划分为多个专家子网络,通过动态路由机制针对不同输入激活特定专家(如传闻中GPT-4的MoE架构含16个专家,每个约1100亿参数),相比传统稠密模型可显著降低计算成本。
DeepSeek MLA 则可能是一种改进的多头注意力机制,旨在增强模型对长上下文和复杂模式的学习能力。
DeepSeek MLA是更大的突破。推理的一个最大限制是所需的内存量;你需要把模型加载到内存中,还要加载整个上下文窗口。
上下文窗口在内存方面特别昂贵,因为每个 token 都需要一个键和对应的值。DeepSeek MLA可以压缩 key-value 存储,大大减少推理时的内存使用。
DeepSeek MoE在这个概念上引入了重要创新,包括区分更细粒度的专门专家和具有更多通用能力的共享专家。关键是,DeepSeekMoE还引入了新的训练时负载均衡和路由方法
V3模型有什么特点?成本如何?
V3的主要特点是训练成本极低。DeepSeek 声称模型训练花费了2,788,000 H800 GPU 小时,以每 GPU 小时2美元计算,仅花费557.6万美元。
这个成本只包括最终训练成本,不包括其他费用,训练成本差距没有网上说的那么夸张。
从论文中的说明;
- 每万亿token的预训练阶段仅需180K H800 GPU 小时
- 在2048个 H800 GPU 的集群上,花费不到3.7天
- 整个预训练阶段在不到两个月内完成,花费2664K GPU 小时
- 加上上下文长度扩展(119K GPU小时)和后训练(5K GPU 小时)
- 总计2.788M GPU 小时
DeepSeek 如何开发R1的?这与其他模型有何不同?
DeepSeek 开发了两个模型:R1和R1-Zero。
特别是 R1-Zero 更具突破性,它使用纯强化学习(不带人类反馈),目标是探索大语言模型在没有任何监督数据的情况下发展推理能力的潜力。
它使用 DeepSeek-V3-Base 作为基础模型,采用 GRPO 作为 RL 框架来提高模型的推理性能。
什么是蒸馏?它在模型开发中起什么作用?
蒸馏是让一个AI模型通过学习另一个更强大的AI模型,来获取知识。
就像让一个普通老师观察这位厉害老师是如何解题的,然后学习他的方法。这样虽然普通老师可能不如大师厉害,但也能教好学生,而且成本低多了。
这就是为什么 DeepSeek 可以做出不错的AI但成本很低 - 他们的模型可能"旁听"了别人更厉害的AI来学习。
蒸馏对领先模型来说是个挑战。从积极的一面来看,OpenAI、Anthropic 和Google几乎肯定在使用蒸馏来优化他们面向消费者应用的推理模型。
从消极的一面来看,他们承担了训练领先边缘的全部成本,而其他人都可以免费搭便车。这可能是 Microsoft 和 OpenAI 缓慢分手的核心经济因素。
硬件与基础设施
DeepSeek 使用了什么样的硬件基础设施?
关于 Scale AI CEO Alexandr Wang 说他们有50,000个H100s的说法,这可能指的是Dylan Patel 2024年11月的推文中提到的"超过50,000个Hopper GPU"。
但需要注意 H800 也是 Hopper GPU ,它们只是因为美国制裁而内存带宽受限。
DeepSeek的许多创新都是为了克服使用 H800 而不是 H100 带来的内存带宽限制。如果实际计算,会发现DeepSeek实际上有多余的计算能力。
这是因为DeepSeek对每个H800的132个处理单元中的20个进行了特殊编程来管理跨芯片通信。
这在CUDA中实际上是不可能做到的。
DeepSeek 工程师不得不使用PTX (一种Nvidia GPU的低级指令集,类似于汇编语言)。这种疯狂的优化只有在使用 H800 时才有意义。
这是否违反了芯片禁令?
没有。H100被禁令禁止,但H800没有。
之前人们普遍认为训练前沿模型需要更多的芯片间内存带宽,但这正是DeepSeek在模型结构和基础设施方面优化的重点。
市场影响与竞争格局
为什么每个人都在对DeepSeek的突破感到恐慌?
有多个因素;
- 中国已经赶上美国领先实验室令人震惊,这打破了"中国在软件方面不如美国"的普遍假设。实际上中国有非常精通的软件产业,在AI模型构建方面也有很好的记录。
- V3 的低训练成本和 DeepSeek 的低推理成本令人惊讶。
- DeepSeek 在芯片禁令下仍然取得这一成就。
对英伟达的影响如何?
这个消息对英伟达提出了真正的挑战。英伟达有两个主要护城河;
- CUDA 是这些模型编程的首选语言,CUDA 只能在英伟达芯片上运行
- 英伟达在将多个芯片组合成一个大型虚拟 GPU 的能力方面遥遥领先
这两个护城河是互补的。如果 DeepSeek 能使用 H100,他们可能会使用更大的集群来训练模型,因为那是更简单的选择。
但是他们没有,而且受到带宽限制,这推动了他们在模型架构和训练基础设施方面的许多决策。
但英伟达仍有三个有利因素;
- DeepSeek 的方法如果应用于 H100 或即将推出的 GB100 会有多大能力?
- 较低的推理成本从长远来看应该会推动更多使用
- 推理模型如R1和o1的优越性能来自于使用更多计算力
对其他科技公司有什么影响?
从长远来看,模型商品化和更便宜的推理对大科技公司来说是好事。Microsoft 可以以更低成本为客户提供推理服务。
Amazon AWS 虽然未能开发出高质量模型,但如果有高质量的开源模型可以以更低成本提供服务,这就不重要了。
Apple 也是大赢家。推理所需的内存大幅减少使边缘推理更加可行,而 Apple Silicon 使用统一内存,意味着CPU、GPU 和 NPU可以访问共享内存池。
Meta 是最大赢家。较低的推理成本使其 AI 愿景更容易实现。
Google 可能处境更糟;硬件需求降低削弱了他们从 TPU 获得的相对优势。更重要的是,零成本推理增加了取代搜索产品的可能性。
使用者的担忧与争议
信息准确性与“幻觉”问题
这个问题是模型都存在。多个媒体和用户反映,DeepSeek‑R1 在处理复杂或敏感问题时偶有事实错误和“幻觉”现象,令用户担心其输出内容的可靠性。
内容审查与政治偏向
国外用户发现 DeepSeek‑R1 在处理涉及政治敏感或争议性话题时,往往倾向于回避或自动输出官方立场,许多使用者担心其内容缺乏独立性和多样性。
数据隐私与安全性疑虑
由于 DeepSeek‑R1 的数据存储在中国服务器上,国际用户对其数据隐私保护和安全性表示担忧,担心敏感信息可能面临泄露风险。
训练数据透明度不足
部分国外使用者质疑 DeepSeek‑R1 的训练数据来源和方法缺乏透明公开,担心这会导致模型在输出时存在系统性偏见或潜在错误,而使用者难以验证其真实性。
开源模型滥用风险
虽然开源使得 DeepSeek‑R1 具有极大的创新和定制潜力,这可能被黑灰产分子利用,进行大规模误导性信息传播、网络攻击或其他恶意用途。
未来发展
为什么 DeepSeek 选择开源他们的模型?
CEO 梁文峰表示开源对吸引人才至关重要;"面对颠覆性技术,封闭源代码创造的护城河是暂时的。即使 OpenAI 的封闭源代码方法也无法阻止其他人赶上。所以我们将价值锚定在团队上——我们的同事通过这个过程成长,积累专业知识,形成能够创新的组织和文化。这就是我们的护城河。"
这超出了理想主义。如果模型是商品,它们确实看起来是这样,那么长期差异化来自于拥有优越的成本结构,这正是 DeepSeek 所实现的。
OpenAI 的未来如何?
不一定悲观。ChatGPT 使 OpenAI 成为意外的消费科技公司,也就是产品公司。
通过订阅和广告的某种组合,在可商品化的模型上建立可持续的消费者业务是可行的。而且还有在AI起飞竞赛中获胜的赌注。
相比之下,Anthropic 当前可能是最大的输家。DeepSeek 登上App Store榜首,突显出 Claude 在旧金山之外没有获得任何吸引力。
其API业务表现较好,但 API 业务普遍最容易受到商品化趋势的影响。
我们离 AGI 还有多远?DeepSeek 的突破意味着什么?
看起来确实接近了。这解释了为什么软银愿意为 OpenAI 提供微软不会提供的资金;他们相信我们正在达到一个起飞点,在这个点上成为第一名将会带来真正的回报。
我们正在看到AI模型在教AI模型,AI模型在自我学习。我们正在实时看到AI起飞场景的组装。
这些发展对几乎每个人都是一个巨大的新年礼物。最大的赢家是消费者和企业,他们可以期待一个实际上免费的AI产品和服务的未来。
从长远来看,杰文斯悖论将主导一切,使用AI的每个人都将从中获益。
这给美国带来了一个选择:可以出于非常合理的原因加倍采取防御措施,如大规模扩大芯片禁令;或者更加积极参与竞争。
无论如何,都要感谢 DeepSeek!
如果你想用AI优化企业/个人工作流,提升获客、内容生产效率。欢迎找我们聊聊(微信:a52947593)
公众号「匠程AI」