维基百科:AI生成内容辨别指南
2025年10月27日
本文总结自维基百科上的一个指南。该指南基于数千个 AI 生成文本实例,总结出的大型语言模型(LLMs)在写作中常见的风格和格式惯例。
比如过度使用破折号、过度加粗文字、过多使用不是…而是…结构等。
这份清单可用于检测文本是否是大模型生成的内容。
原文:https://en.wikipedia.org/wiki/Wikipedia:Signs_of_AI_writing#
一、 写作风格与措辞特点
1. 趋向平均值和缺乏特异性
LLMs 倾向于趋向平均值,用统计上最可能、最通用的结果替代具体的、不寻常的、微妙的事实。
这导致主题描述同时变得不具体且被夸大。
需要警惕的词语:stands/serves as(作为/充当), is a testament/reminder(是...的证明/提醒), plays a vital/significant/crucial role(扮演着至关重要的角色), underscores/highlights its importance/significance(强调/突显其重要性/意义), reflects broader(反映更广泛的), symbolizing its ongoing(象征着其持续的), enduring/lasting impact(持久的影响), key turning point(关键转折点), indelible mark(不可磨灭的印记), deeply rooted(根深蒂固的), profound heritage(深厚的遗产), steadfast dedication(坚定的奉献)。
2. 过度强调象征意义和重要性
LLMs 经常通过添加关于主题的任意方面如何代表或贡献于更广泛议题的陈述,来夸大主题的重要性。
例如,在讨论生物学话题时,LLMs 倾向于过度强调物种的保护现状和保护工作。
3. 肤浅的分析和表层归因
AI 聊天机器人倾向于插入关于信息意义、认可度或影响的肤浅分析。
通常通过在句末附加现在分词(“-ing”)短语来实现。
当这些动词的主语是事实、事件或其他非生命事物时,指示性更强。
需要警惕的词语:ensuring (确保), highlighting (突出, 强调), emphasizing (强调), reflecting (反映), underscoring (强调, 凸显), showcasing (展示, 呈现), aligns with (与…一致, 符合), contributing to (促成, 有助于)。
4. 宣传性、带有积极偏向的语言
LLMs 在保持中立语调方面存在问题,经常使用带有积极色彩的夸大词汇,尤其在描述“文化遗产”类主题时。
需要警惕的词语:rich/vibrant/diverse tapestry(丰富/充满活力/多样的织锦), artistic/cultural/literary/media/etc. landscape(艺术/文化/文学/媒体/等景观), boasts a(拥有/夸耀), continues to captivate(持续吸引着), groundbreaking(开创性的), intricate(错综复杂的), stunning natural beauty(惊人的自然美景), enduring/lasting legacy(持久的遗产), nestled(坐落于), in the heart of(在...的中心)。
5. 过度强调知名度和来源
像是在不断向读者强调主题的知名度,通常通过列出报道过主题的来源来实现。
它们可能使用与维基百科指导方针完全相同的措辞,例如“独立报道”(independent coverage)。
即使对于琐碎或无争议的事实,LLMs也可能在正文文本中煞费苦心地强调其来源。
需要警惕的词语: independent coverage(独立报道), local/regional/national/[country name] media outlets(地方/地区/国家/[国家名称]媒体), music/business/tech outlets(音乐/商业/技术媒体)。
6. 说教式或编辑式的免责声明
LLMs 经常以“免责声明”的形式告知读者“记住某事很重要”,通常涉及安全、有争议的话题,或区分不同地区/管辖范围的差异。
需要警惕的词语:it's important/critical/crucial to note/remember/consider(需要注意/记住/考虑...很重要/关键), may vary...(可能有所不同...)。
7. 负面排比和三法则
常见涉及 “not”, “but”, 或 “however” 的排比句式,如 “Not only ... but ...” (不仅…而且…) 或 “It is not just about ..., it's ...” (不是…,而是…)。偶尔出现描述缺失或无用事物的负面提纲,如 “no ..., no ..., just ...” (没有…,没有…,只有…)。
过度使用“三法则”结构(如“形容词,形容词,形容词”或“短语,短语,短语”)。
8. 模糊的权威归因
AI倾向于将观点或主张归因于某些模糊的权威(含糊措辞),即使引用的来源并未表达该观点。
需要警惕的词语:Industry reports(行业报告), Observers have cited(观察家引用), Some critics argue(一些评论家认为)。
9. 优雅的变体
倾向于使用不同的同义词或相关术语来指代同一主要角色或概念(例如,使用“主角”、“关键人物”等指代同一人),这是过度变体的倾向。
10. 虚假范围
喜欢使用比喻性的(通常是毫无意义的)“从...到...”结构,声称表示一个尺度,但句子的两个端点之间关联松散甚至不相关,无法推断出有意义的尺度。
二、 内容结构和框架模式
1. 列表或宽泛标题的拟人化
对于标题不是专有名词的文章(如列表),导言的第一句话,会将文章标题当作独立的现实世界实体来引入和/或定义。
2. 结论结构僵化
在生成较长的输出时,LLMs 经常添加名为“In summary”(总而言之), “In conclusion”(总而言之), “Overall”(总的来说)等的总结性部分,或一个独立章节“Conclusion”。
经常通过总结和重申核心思想来结束一个段落或章节。
3. 挑战与未来展望的固定模式
AI 生成的文章通常包含一个“挑战”(Challenges)部分,并遵循一个僵化的模式:通常以“Despite its [正面描述], [文章主题] faces challenges...”开头,并以对主题的模糊积极评估或对未来展望的推测结束。
4. 分类和参见部分
AI 生成的文章经常包含多个分类和一个“参见”(See also)部分,但其中链接的页面往往不存在(显示为红链接)。
AI 倾向于出于义务性将“参见”部分填满(至少 3 个链接),即使链接是宽泛的术语。
三、 格式与排版细节
1. 章节标题大小写
在章节标题中,AI 聊天机器人强烈倾向于将所有主要单词的首字母大写(Title case)。
2. 过度使用粗体和内嵌标题列表
倾向于以过度、机械的方式使用粗体进行强调,有时会以“关键要点”的方式强调选定词汇的每个实例。
常见垂直列表格式:列表标记(如数字、项目符号)后跟内嵌的粗体标题,标题与描述性文本之间用冒号分隔。列表标记可能使用项目符号(•)、连字符(-)、长破折号(–)或表情符号。
3. 标点符号的特殊使用
滥用长破折号 (Em Dashes): LLMs 使用长破折号(—)的频率高于非专业人士,且常在人类可能使用逗号、括号或冒号的地方使用。
花引号和花撇号 (Curly Quotes and Apostrophes): AI 聊天机器人通常使用花引号(“...”或‘...’)而不是直引号("..."或'...'),并使用花撇号(’)而不是直撇号('),有时会不一致地使用。
4. 表情符号
AI 聊天机器人有时会在章节标题或项目符号前添加表情符号进行装饰。
四、 标记语言与技术残余
1. 使用 Markdown 语法
倾向于使用 Markdown 语法进行格式化输出(例如,使用 * 或 _ 代替单引号 ',使用 # 代替 = 表示章节标题)。
混合语法错误: 文本中出现错误的维基文本语法与 Markdown 语法混合的情况,特别是以被围栏的 Markdown 代码块(fenced Markdown code block,可能包含三个反引号 ```wikitext)形式出现时,是一个强烈的指示符。
错误的维基文本 (Broken Wikitext): AI 聊天机器人不精通维基文本,因此常产生错误的语法,例如在 Articles for Creation (AfC) 提交中出现乱码代码。
2. 技术残余和占位符
搜索链接占位符: ChatGPT 可能会在句子末尾包含 cite turn0search0(数字递增)等代码,这是链接到外部网站但在复制粘贴时转换为占位符的痕迹。
内容引用标记: 可能出现 :contentReference[oaicite:0] {index=0} 或 oai_citation 等内部标记。
JSON 格式代码: 句子末尾可能出现 JSON 格式代码,如 ({"attribution": {"attributableIndex":"X-Y"}})。
五、 引用与来源异常
1. 虚假和错误的引用信息
-
无效的 DOI 和 ISBN: 出现无法解析的 DOI 或带有无效校验和的 ISBN,是虚构参考文献(hallucinated references)的指标。也可能出现 DOI 指向完全不相关的文章,或通用书籍引用缺少页码。
-
失效的外部链接: 新文章或草稿中若有多个引用的外部链接失效(404 错误),且在存档站点中找不到,强烈暗示该页面是 AI 生成的。
-
日期占位符: LLMs 可能会在引用字段中插入占位符日期,如
2025-xx-xx。
2. 非传统的引用格式
- 不正确的重复使用语法: 引用工具可能试图包含参考文献,但在关键实施细节上失败,例如不正确地重复使用参考文献的语法。
- 脚注标记: 某些 LLMs 或聊天机器人界面可能使用字符
↩来指示脚注。 - UTM 参数: AI 生成的 URL 中可能包含 UTM 参数
utm_source=openai或utm_source=chatgpt.com。 - 未使用的命名参考文献: 命名参考文献在参考文献部分声明,但在文章正文未被使用。
六、 针对用户的交流信息与特殊痕迹
1. 知识截止日期免责声明
用来表明所提供信息可能不完整或已过时的形式是,信息只准确到某个特定日期。如果 LLM 未能找到来源,它会输出类似免责声明的语句,说明信息“有限/稀少”或“未广泛记录”,并进行推测。
需要警惕的词语:as of [date] (截至[日期]), Up to my last training update (截至我最后的训练更新), as of my last knowledge update (截至我最后的知识更新), While specific details are limited/scarce... (尽管具体细节有限/稀缺…), not widely available/documented/disclosed (未被广泛获取/记录/披露), ...in the provided/available sources/search results... (在提供的/可用的资料/搜索结果中…), based on available information (基于可用信息)。
2. 协作式和礼貌性的交流
编辑者有时会粘贴原本用于通信、预写或建议的 AI 聊天机器人文本。
需要警惕的词语:I hope this helps(希望这有帮助), Of course!(当然!), Certainly!(当然!), You're absolutely right!(你绝对正确!), Would you like...(你是否想要...), is there anything else(还有其他什么吗), let me know(请告诉我), more detailed breakdown(更详细的分解), here is a ...(这是一个...)。
3. 提示拒绝和道歉
AI 聊天机器人可能会拒绝回答提示,通常伴随着道歉和提醒其是“一个 AI 语言模型”。
需要警惕的词语:as an AI language model(作为一个AI语言模型), as a large language model(作为一个大型语言模型), I'm sorry(我很抱歉)。
4. 冗长且形式化的编辑摘要
AI 生成的编辑摘要通常异常冗长,以正式的、第一人称段落形式书写,不使用缩写,并可能明确列举维基百科的惯例和指南。
5. 填空模板和占位符文本
可能会生成填空式的短语模板,供用户替换特定信息,但用户有时会忘记填写这些空白(例如,[Entertainer's Name])。
6. 突然中断生成内容
内容突然停止生成,例如因为预测到文本序列结束或达到最大 token 限制。