通过构建RAG项目3个月内赚了6万多美元:技术+商业细节分解

2025年7月25日

本文作者曾是一名精疲力尽的创业公司创始人,资金所剩无几。后来转而为企业构建 RAG 系统,并在三个月内与制药公司和银行合作,赚取了超过 6 万美元。作者从 3 千到 5 千美元的项目起步,很快意识到公司愿意为生产级解决方案支付更高的费用,于是将价格提高到 1.5 万美元。这篇文章涵盖了业务方面(如何获取客户、定价)和技术实施方面。

下面以第一人称叙述。

大家好,我是 Raj。

三个月前,我在创业公司上烧光了大部分资金。为了维持生计,我转而构建 RAG 系统,结果发现了一个金矿!我现在已经与医疗保健、金融和法律领域的 6 家以上公司合作过,从制药公司到新加坡的银行,都有我的客户。

这篇文章涵盖了业务方面(如何获取客户、定价)和技术实施方面(如何处理 5 万多份文档、分块策略,以及为什么开源模型,特别是 Qwen,效果超出我的预期)。希望它能帮助其他希望进入这个领域的人。

我在创业公司烧钱很快,需要迅速赚钱。RAG 感觉是一个完美的结合点,既有高需求,又有大多数机构无法妥善处理的技术复杂性。关键的洞察是:公司拥有大量的文档库,但访问这些知识的方式却非常糟糕。

如何实际获取客户(业务方面)

首先是个人网络:我的前 3 个客户来自个人关系和推荐。这一点至关重要——你的圈子里很可能有公司正在为文档搜索和知识管理而苦恼。不要低估熟人引荐的力量。

Upwork(国外的自由职业者平台):我通过 Upwork 获得了 2 个客户,但现在竞争异常激烈。每个提案都需要针对客户的具体问题进行超高定制。泛泛的 RAG 提案会被直接忽略。

定价演变:

最初,我为基本实施项目定价 3 千到 5 千美元。

后来,我为一个复杂的制药项目将价格提高到 1.5 万美元(他们立即同意了)。

我意识到我一直在低估自己的价值——公司愿意为生产级 RAG 系统支付高价。

那个神奇的问题,我没有问“你需要 RAG 吗?”,而是问“你的团队每天花多少时间搜索文档?”这个问题总是能开启对话。

关键的思维转变是,我没有直接推销,而是花时间了解他们的核心问题。

深入挖掘,像工程师一样思考,并真正对解决他们 specific 的问题感兴趣。大多数客户都有独特的业务流程和痛点,而通用的 RAG 解决方案无法解决这些问题。

试着抱有这种心态,在成为商人之前先成为一名工程师,这对我来说确实奏效了。

技术实施方式

这对我来说有点意思。大多数 RAG 教程都只处理玩具数据集。真正的企业级实施完全是另一回事。

5 万多份文档的实际情况

在深入技术细节之前,让我描述一下 5 万份文档意味着什么。我们谈论的是拥有几十年研究论文、监管备案、临床试验数据和内部报告的制药公司。

一份 PDF 可能有 200 多页。有些文档会引用几十份其他文档。

挑战简直是天方夜谭,文档格式千差万别(PDF、Word 文档、扫描图像、电子表格),内容质量参差不齐(有些文档结构完美,有些则只是一堵文字墙),交叉引用创建了复杂的依赖网络,最重要的是——检索准确性直接影响数百万美元的业务决策。

当一位制药研究员问“药物 A 与药物 B 结合在 65 岁以上患者中的副作用是什么?”时,你不能错过埋藏在第 47,832 号文档中的关键信息。系统需要做到万无一失的可靠性,而不仅仅是“大部分时间都能工作”。

快速免责声明,所以这是我的方法,并非最终定论,我们每次都会根据学习进行调整,所以请持保留态度。

文档处理与分块方法

第一步是决定分块策略,我是这样开始的。

对于制药客户(5 万多份研究论文和监管文档):

分层分块方法:

  • 第 1 层:文档级元数据(论文标题、作者、发表日期、文档类型)
  • 第 2 层:章节级分块(摘要、方法、结果、讨论)
  • 第 3 层:段落级分块(200-400 个 token,重叠 50 个 token)
  • 第 4 层:句子级分块,用于精确检索

真正奏效的元数据

S每个文档块都包含必要的元数据字段,如文档类型(研究论文、监管文档、临床试验)、章节类型(摘要、方法、结果)、分块层级、用于分层检索的父子关系、提取的领域特定关键词、预先计算的相关性分数,以及监管类别(FDA、EMA、ICH 指南)。

这种元数据结构对于结合语义搜索和基于规则过滤的混合检索系统至关重要。

为什么 Qwen 的效果超出预期

最初我计划将 GPT-4o 用于所有任务,但 Qwen QWQ-32B 在领域特定任务上却出乎意料地提供了非常好的结果。

此外,大多数公司实际上更喜欢开源模型,因为成本和合规性考虑。

  • 成本:对于大批量处理,比 GPT-4o 便宜 85%。
  • 数据主权:对制药和银行客户至关重要。
  • 微调:可以在领域特定术语上进行训练。
  • 延迟:自托管意味着一致的响应时间。

Qwen 在对领域特定文档进行微调后,处理医学术语和制药行话的能力明显更好。GPT-4o 有时会幻化出不存在的药物相互作用。

让我分享两个实际案例

制药公司:我为一家制药公司构建了一个监管合规助手,它摄入了 5 万多份研究论文和 FDA 指南。

该系统自动化了合规性检查,并生成了监管查询的草稿回复。结果是监管响应时间加快了 90%。

这里的技术挑战是在向量搜索之上构建一个基于图的检索层,以维护复杂的文档关系和交叉引用。

新加坡银行:这是那个 1.5 万美元的项目——处理包含财务数据、图表和图形的 CSV 文件,用于并购尽职调查。我必须将传统的 RAG 与计算机视觉相结合,从财务图表中提取数据。我为不同的数据格式构建了自定义解析管道。最终,他们的尽职调查过程缩短了 75%。

扩展 RAG 系统的关键经验教训

元数据就是一切:将 40% 的开发时间花在元数据设计上。糟糕的元数据 = 糟糕的检索,无论你的嵌入(embeddings)有多好。

混合检索有效:纯语义搜索在企业用例中会失败。你需要重排序器(re-rankers)、高级文档摘要、适当的标记系统,以及关键词/规则检索协同工作。

领域特定微调:对于拥有专业词汇的客户来说,这笔投资是值得的。医学、法律和金融术语需要定制训练。

生产基础设施:客户愿意为可靠性支付溢价。适当的监控、备用系统和正常运行时间保证是不可谈判的。

当前对生产级 RAG 系统的需求说实话非常旺盛。每个拥有大量文档库的公司都需要这个,但大多数公司不知道如何正确构建它。

如果你正在这个领域进行构建,或者正在考虑进入这个领域,我很乐意分享更具体的技术细节。

也欢迎与其他希望承担大型企业实施项目的开发者合作。

如果你正在处理文档搜索,或者需要构建知识系统,欢迎与我联系。