Common Corpus:全球最大的公共数据集,开源、合规,六大集合组成

2025年6月4日

在大语言模型(LLMs)数据版权与合规性日益严格的背景下,Common Corpus应运而生,作为目前全球最大的开放预训练数据集,它拥有近2万亿tokens,为LLM的开放科学研究与开发提供了合法、可审计的基础。

其数据来源均为无版权或已获许可的内容,旨在推动AI领域的透明化和负责任发展。被包括Anthropic在内的多家领先AI公司应用于大模型开发。

Common Corpus是同等规模中唯一支持多种语言的数据集,其多语言部分未经机器翻译,也是迄今为止英语、法语、荷兰语、西班牙语、德语和意大利语最大的语料库。

Common Corpus的核心结构由六大集合组成,这些数据通过10,000个Parquet文件在Hugging Face上发布,每个数据对象都附带详细的元数据,方便用户筛选。

组成部分

Open Government (开放政府)

该集合规模超4060亿tokens,专注于公共领域的金融、法律和行政数据。

包含“Finance Commons”(最大的公共领域金融文档集合,涵盖多语言PDF,适合多模态模型开发,来源包括SEC、WTO、AMF等)和“Legal Commons”(涵盖欧美多语言法律行政数据,适用于法律知识型模型,来源如Europarl、美国案例法访问项目等)。

Open Culture (开放文化)

拥有约8860亿tokens,汇集了大量文化遗产数据集,包括专著和期刊。所有文档均处于公共领域,主要来自Collections As Data (CAD)项目、互联网档案馆、Delpher等。

数据集覆盖超过13种语言,并包含18-19世纪甚至更早的历史数据,为训练具有创意写作风格和历史知识的多语言模型提供了独特资源。原始数据存在的OCR问题已通过纠错工具解决。

Open Science (开放科学)

该集合约2810亿tokens,主要包含科学论文及相关文档(如论文、书评、临床试验)。

数据得益于OpenAlex(最大的开放科学文献目录),主要收录CC-By、公共领域/CC0和CC-By-SA许可的文档,其中约85%为英语。它对提升模型在推理和高级世界知识任务上的表现至关重要。

Open Code (开放代码)

提供约2830亿tokens的代码数据,来源于Stack v1和v2数据集,包含多种免费许可协议下的代码,并保留指向原始GitHub资源的链接。

涵盖Stack v1的30种和Stack v2的600多种编程语言,对训练代码生成模型及提升模型在自然语言推理等任务上的表现具有显著价值。

Open Web (开放网络)

包含约730亿tokens,精选自可靠的网络内容。主要来源包括维基媒体项目(维基百科、维基文库)、YouTube Commons(CC-By许可的音频转录)和StackExchange(CC-By-SA许可的问答社区)。

这些来源因其可靠性和教科书风格而广泛用于模型训练。

Open Semantic (开放语义)

最新加入,目前约680亿tokens,仅包含Wikidata。

通过与维基媒体德国合作,将Wikidata的数亿条目和数十亿事实性陈述转换成自然语言序列,而非文本合成。

数据集涵盖Wikidata支持的全部300种语言,有助于语言对齐,旨在将这一重要的知识图谱整合到LLM训练中。

数据清洗与筛选方法

Common Corpus团队投入大量精力进行数据清洗和质量控制,包括:

文本分割:使用Segmentext工具处理多语言非结构化文本。

OCR错误检测与纠错:利用OCRoscope和OCRerrcr模型检测错误,并开发了基于Llama 3 8B的OCRonos模型进行高精度纠错。

个人身份信息 (PII) 移除:为遵守GDPR等法规,使用Microsoft Presidio等工具替换PII为虚构但逼真的值,以保持文本格式完整。

有害内容检测:开发了多语言有害内容分类器Celadon,能识别有害内容并进行文档移除或合成改写,以降低风险。

通过这些精心组织的集合和严格的数据处理流程,Common Corpus正在成为支持开放、负责任的LLM研究与开发的关键基础设施。

数据集见:https://huggingface.co/collections/PleIAs/openculture-65d46e3ea3980fdcd66a5613

参考资料

Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training (arXiv:2506.01732v1)

Hugging Face Common Corpus Dataset