AI-RAG实战案例:荷兰商会600万企业代码转换项目,成本从1000万降至5万欧元

2025年9月12日

本文根据项目实施者利用AI-RAG系统为荷兰商会(Chamber of Commerce, CoC) 更新 NACE 代码(行业分类代码)真实分享整理。

该项目展示了利用大模型技术,如RAG高效、低成本解决历史遗留问题的方法。可以做为需要做大型传统项目更新、或者做AI项目的参考。

下面整理项目实施者回答对网友提问的解答。

600万种组合为什么是个大挑战?

这远不止600万次简单的代码匹配。它涉及对每家企业活动描述的深度语义理解。

旧有的手动或规则匹配方法,在两年内仅处理了40万条记录,且准确率堪忧。这是因为语言本身充满了复杂性。比如一个旧代码可能会拆分成多个新代码,或者某些代码完全作废。

另外,像“如果描述包含A、B、C,则匹配代码X”这种简单的规则,充满了例外,一个词的变化或句子的语境都可能导致错误。

AI-RAG系统能够处理这些自然语言的复杂性,通过理解描述的真实含义来匹配代码,这在传统方法中是无法实现的。

€10M的原始预算是如何估算的?

原始预算是基于大量人工操作和传统业务规则制定的。

当时,AI技术在政府机构中不被允许使用,项目方设想只能通过人力或制定复杂的业务规则来完成。

然而,他们很快意识到这行不通,AI才被引入。最终,项目通过AI提示词调用,只花费了不到5万欧元,极大地节约了成本。

AI-RAG如何找到正确的匹配?

系统的工作流程分为几个关键步骤。它接收公司的自由文本活动描述、旧代码和一套新的候选代码。

最核心的是 RAG(检索增强生成)机制:在生成答案前,系统会检索数据库中已知的、正确匹配的相似企业示例,并将这些信息注入到提示词中,作为大模型的参考。

例如,处理一家“约翰的面包糕点房”时,系统会提供其他成功匹配的糕点店案例。

大模型使用的是 Azure OpenAI 的 GPT-4o 或 GPT-4.1。它能提炼出子描述,比如从“烘焙和销售糕点,教烹饪学生”的描述中,识别出“烘焙”和“教育”两个独立的活动,并分别匹配不同的代码。

最终输出被严格限制为结构化的 JSON 格式,包含了新的代码、选择该代码的理由以及用于质量控制的元数据。

如何确保AI的决策符合监管要求?

项目团队采取了多重保障措施。尽管AI是核心,但项目始终坚持“人类参与”政策。一

个专门的质量团队对大量样本进行人工检查,以确保准确性。在六个月内,他们总共检查了近50万条记录。

通过对人工审核的反馈进行分析,团队不断优化提示词,甚至为特定行业创建了定制化的提示词。

此外,为了防止模型幻觉,即生成不存在的代码,系统的输出被严格限定在预定义的有效代码列表中。这确保了即使模型犯错,也只会给出一个有效的、但可能不正确的代码,而不是一个完全虚构的代码。

该项目取得了怎样的成果?

这个项目的最终准确率超过了99.5%,同时预算大幅节省,从1000万欧元降至不到5万欧元。

在六个月内,团队完成了原本需要两年手动完成的任务。

这个项目为政府机构使用AI技术铺平了道路,其方法和流程已记录在荷兰算法登记簿中,具有高度的透明度和可追溯性。