预算1-2.5万欧元，中小型会计师事务所如何构建本地AI大模型

这个案例来自国外，一家中小型会计师事务所，想要构建本地人工智能，预算在1-2.5万欧元（人民币8-20万左右，国内价格根据人工等调整），包括硬件和软件部署费用。

整理于此。越来越多的企业，采用AI发展业务，希望对有这方面需求的企业，和做这方面业务的企业有所启发。

核心需求

一家中小型会计师事务所，想要构建本地人工智能，预算在1-2.5万欧元（人民币8-20万左右），包括硬件和软件部署费用。

产品用于处理多种文件格式（如合同、发票、电子邮件、Excel表格、Word文档、PDF），以支持RAG（检索增强生成）系统，用途包括文档总结、辅助邮件写作、客户端沟通简化等。

预计日常20个用户使用，峰值时约5人同时使用，未来可能扩展，

考虑到是会计师事务所，要求：

准确性优先：AI输出内容需高度准确，避免错误（如虚构数据或计算错误）。AI输出内容需验证参考来源。AI只是辅助，允许实验性失败。

对实时交互要求不高：系统可通过电子邮件或批处理方式运行，实时性不是首要需求，适合异步处理。

本地化运行：由于数据隐私（如GDPR）要求，需本地部署，依托公司现有IT基础设施（安全存储、备份等），避免云服务。

用户友好性：前端需简单，适合非技术员工使用。

实施要点

硬件选择：

建议GPU优先：GPU比CPU更适合AI推理，尤其在多用户场景下。推荐NVIDIA RTX 6000 Pro（48GB VRAM）或类似高VRAM专业卡，支持大型模型（如70B或235B）和多用户推理。

选择单GPU vs 多GPU？

单GPU（如RTX 6000 Pro）：简化部署，降低功耗，易于扩展，适合预算和中小用户规模。

多GPU（如4x RTX 3090）：VRAM总量可匹配，但功耗高、部署复杂，需考虑PCIe通道和模型分割。

CPU与RAM：高性能CPU（如EPYC）和大容量DDR5 RAM（128-384GB）支持GPU+CPU混合推理，适合大型模型或长上下文。快速RAM（如DDR5 5600）对性能提升明显。

存储：高速NVMe SSD（如2x4TB RAID1）用于系统和模型存储，确保快速加载。

预算分配：单RTX 6000 Pro约9,000欧元，搭配EPYC平台（12通道DDR5，128-384GB RAM）约14,000-20,000欧元。

可考虑二手硬件（如EPYC服务器或RTX 3090）以降低成本，但需确保兼容性和稳定性。

软件选择：

包括操作系统、推理引擎、前端界面、RAG系统、底座大模型。

操作系统：Linux（如Ubuntu）为首选，AI框架支持更好，性能优于Windows。

推理引擎：

Ollama：适合初学者，易于部署，支持5个并发用户，适合小规模测试。
vLLM：高性能，支持多用户异步推理，推荐用于生产环境，需FP8支持（RTX 6000 Pro兼容）。
llama.cpp：灵活，支持混合推理（GPU+CPU），适合长上下文和大模型（如R1 671B）。

前端界面：OpenWebUI，简单易用，适合非技术员工，提供文档上传和交互功能。

RAG系统：

向量数据库推荐pgvector（基于PostgreSQL），简单集成，适合已有SQL数据库。
文档处理如bem.ai，用于文档提取和预处理，支持多种文件格式。

底座大模型：

中小模型（如Mistral Small、Qwen 30B）：速度快，适合文档总结，VRAM需求低。
大型模型（如Qwen 235B Q4、R1 671B Q2/Q4）：更高智能，适合复杂任务，但需更多VRAM或RAM支持。
推荐混合使用：小模型处理简单任务，大模型处理复杂查询。

风险与挑战提示

幻觉问题。LLM可能生成错误信息，尤其在会计领域。需强制验证输出，搭配RAG提供来源引用。

员工盲目使用。可能盲目信任或完全不信任AI，需培训和明确使用规范。

数据备份。单机系统可能面临故障风险，需备份和维护计划。

性能瓶颈：多用户并发或长上下文可能导致性能下降，需测试和优化。

安全与合规保证

数据仅在运行时处理，模型推理不存储用户数据，降低泄露风险。

依托公司现有IT基础设施（如安全存储、备份），无需额外数据中心。

确保物理访问控制，防止硬件被盗。

如何实现

硬件实现

推荐配置：

GPU：1x NVIDIA RTX 6000 Pro（48GB VRAM，约9,000欧元）。
CPU：单路AMD EPYC（如7763或更高，20-64核）。
RAM：128-384GB DDR5（5600MHz，12通道优先）。
存储：2x4TB NVMe SSD（RAID1，系统用）+ 2x2TB NVMe SSD（模型存储）。
其他：高效散热（如主动RAM冷却、机箱风扇），1200W电源支持扩展。
总成本约14,000-20,000欧元，预留扩展空间（如第二块RTX 6000 Pro）。

备选方案：

4x RTX 3090（二手，每块约700-800欧元，总VRAM 96GB），但功耗高、部署复杂。
Mac Studio（M3 Ultra，128GB RAM，约2,500欧元/台），适合小规模测试，但多用户性能受限。

采购建议：通过Azerty或Bargain Hardware购买，考虑二手EPYC服务器以降低成本。避免双路主板，性能提升有限，增加复杂性。

测试阶段：在云端（如Runpod）租用A100/L40S测试模型性能，确认需求后再采购硬件。验证VRAM需求（模型+上下文），如70B模型需约40-48GB，235B需约140GB（4bit量化）。

软件实现

部署流程：

1” 安装Ubuntu Server，配置Docker环境。 2” 部署vLLM或llama.cpp作为推理引擎，Ollama用于初期测试。 3” 设置OpenWebUI作为前端，提供简单界面支持文件上传和查询。 4” 集成pgvector作为向量数据库，存储文档嵌入。 5” 使用bem.ai或类似工具处理文档（OCR、提取），生成向量数据。

模型选择与优化：

测试Qwen 235B（Q4量化，140GB VRAM）或R1 671B（Q2/Q4，GPU+CPU混合推理）。
小模型（如Mistral Small）用于快速总结，降低VRAM需求。
使用unsloth进行微调，适配会计领域的特定数据。

RAG系统搭建：

文档预处理：将合同、发票等转为向量存储（pgvector）。
配置RAG流程：用户上传文件→提取文本→生成嵌入→查询LLM并返回带来源的答案。
确保输出包含来源引用，便于员工验证。

实施步骤：

第一阶段（测试与验证，1-2个月）：

租用云GPU（如Runpod的A100）测试模型（如Qwen 30B、Mistral Small）。
搭建原型RAG系统，验证文档处理和总结效果。
评估并发性能（5用户峰值），记录VRAM和TPS需求。

第二阶段（硬件采购与部署，2-3个月）：

采购RTX 6000 Pro+EPYC系统，配置Ubuntu和Docker。
部署vLLM+OpenWebUI，加载优化的Q4模型。
集成pgvector和文档处理工具，导入公司数据。

第三阶段（用户培训与优化，2-3个月）：

培训员工使用OpenWebUI，强调验证AI输出。

其次，监控性能，优化模型选择和硬件配置（如增加GPU）。

持续记录幻觉问题，持续改进RAG流程。

总结

推荐方案：以单块RTX 6000 Pro为核心，搭配EPYC CPU和128-384GB DDR5 RAM，运行vLLM+OpenWebUI+pgvector，部署Qwen 235B（Q4）或Mistral Small，支持20用户（峰值5人）。预算控制在14,000-20,000欧元。

关键注意事项：优先测试云端原型，验证模型与RAG效果；关注员工培训，避免幻觉误导；确保硬件扩展性，预留第二块GPU空间。