谷歌总结的这13个提示词技巧,让AI输出准确率提升200%

2025年4月12日

谷歌官方出版的《提示词工程》白皮书系统阐述了如何通过精心设计的提示词(Prompt)优化大型语言模型的输出效果。

内容包括多种提示词设计技巧、代码相关应用、多模态提示词的可能性、面临的挑战,以及成为优秀提示词工程师的最佳实践。

适用于文本生成、分类、翻译、代码编写等多样化任务。

如果你想要要大模型输出你想要的结果,可以试试这份提示词。

核心提示词工程技巧

以下为文档中介绍的所有提示词工程技巧,按类别整理,确保无遗漏,示例提示词用“”包围:

基础提示技巧

1、零样本提示

仅提供任务描述,无示例,依赖模型预训练知识生成输出。

适用于简单任务,如分类、问答。快速简便,无需准备示例,但是复杂任务可能导致输出不精确。

示例:“将电影评论分类为POSITIVE、NEUTRAL或NEGATIVE。评论:‘Her’是一部揭示AI发展方向的杰作。情感:”

2、单样本与少样本提示

通过1个(单样本)或3-5个(少样本)示例,明确任务模式与输出格式。适用于结构化输出任务,可以显著提高输出一致性与准确性,如解析订单为JSON。

示例:“解析披萨订单为JSON。示例:我想要一个小型奶酪披萨。JSON响应:{‘size’: ‘small’, ‘ingredients’: [‘cheese’]}。现在解析:我要一个大型火腿披萨。”

建议示例需高质量、相关,包含边缘情况;分类任务混淆类别顺序,推荐6个示例起步。

高级提示技巧

3、系统提示

设定模型总体任务目标或输出格式,明确功能。适用于需要特定结构、安全性控制的任务。优点是,强制结构化输出,减少无关内容;可添加安全指令,如“回答需尊重”。但需要注意指令需清晰,避免歧义。

示例:“将电影评论分类为POSITIVE、NEUTRAL或NEGATIVE,仅返回大写标签。评论:‘Her’太扰人,我看不下去。情感:”

4、角色提示

分配特定角色(如“导游”、“教师”),使模型以该视角响应。

适用于需要特定语气或专业知识的任务。建议可结合风格(如“幽默”或“正式”),如“以幽默风格推荐曼哈顿3个景点”。

示例:“你是一名导游,推荐阿姆斯特丹的3个博物馆。我在阿姆斯特丹,只想参观博物馆。”

5、上下文提示

提供任务背景信息,提升输出精准度。适用于需要领域知识或情境的任务,如博客写作.使输出更符合任务需求,适应动态场景。

示例:“你为80年代街机游戏博客写作,推荐3个文章主题,每主题附简要描述。”

推理增强技巧

6、退后一步提示

先回答通用问题激活背景知识,再用其输出指导具体任务。

适用于复杂推理任务,如游戏关卡设计。优点是提升推理深度,减少偏见,输出更丰富。

示例:“列出射击游戏的5个关键场景。然后基于‘海底研究设施’主题,编写一段关卡故事线。”

7、思维链提示

引导模型生成中间推理步骤,增强复杂任务准确性。

适用于逻辑推理任务,如数学、决策分析。可以提高可解释性与准确性,跨模型版本稳健。

示例:“解决此问题并展示推理:2+23=? 推理:先计算乘法23=6,再加2,得8。答案:8。”

建议,“温度设为0”,结合少样本提示,推理后放置答案,分离推理与答案。局限是增加输出token,计算成本高。

8、自我一致性

多次运行CoT提示,选择最常见答案。适用于需要高可靠性的推理任务。

示例:“对数学问题运行3次CoT,选择多数答案。”

9、思维树

探索多条推理路径,选择最佳答案。适用于开放性问题解决,如创意任务,可以提升创造性输出质量。

示例:“为创意任务生成3种解决方案,评估并选最佳。”

10、推理与行动

结合推理与行动(如查询外部数据),动态生成答案。

适用于交互式或需外部信息的任务。适应复杂动态场景,增强任务灵活性。

示例:“查询天气后再推荐活动。”

自动化与代码相关技巧

11.自动化提示词工程

利用模型生成提示词变体,评估后选择最佳提示词。

适用于优化提示词设计,如聊天机器人订单处理。建议用BLEU或ROUGE评分评估,迭代优化。减少人工设计负担,提高效率。

示例:“为T恤订单生成10种表达方式,如‘我要一件小型Metallica T恤’,保持语义一致。”

12、代码提示

设计提示词用于编写、解释、翻译、调试、审查代码。适用于编程任务,简化代码理解与维护。如自动化脚本、代码优化。

示例:

编写:“编写Bash脚本,输入文件夹名,重命名文件加前缀‘draft_’。” 解释:“解释此Bash脚本的逻辑:#!/bin/bash...” 翻译:“将此Bash脚本转为Python。” 调试:“调试Python代码,错误:NameError: ‘toUpperCase’未定义。” 审查:“审查此代码,提出改进建议。”

建议验证代码正确性;优先使用Vertex AI Studio控制配置(如“温度=0.1, Top-P=1”)。

多模态提示

13、多模态提示

结合文本、图像、音频等多种输入格式引导模型。适用于需综合多种数据的任务(如图像描述)。

示例:“基于上传的图片,描述其内容并生成相关故事。”

注意不是所有模型都支持多模态输入,当前以文本为主。

模型配置关键参数(适合开发者)

输出长度:控制生成token数,影响成本与速度。示例:“限制输出为5个token”。

主要是下面三个参数:

  • 温度(Temperature):控制随机性,“温度=0”确保确定性(如数学任务),“温度=0.9”增加创造性(如故事生成)。
  • Top-K:选择概率最高的前K个token,“Top-K=1”等同贪婪解码,“Top-K=40”增加多样性。
  • Top-P(Nucleus Sampling):选择累计概率达P的token,“Top-P=0.95”平衡创造性与相关性。

参数组合配置建议:推荐“温度=0.2, Top-P=0.95, Top-K=30”(适度创造性)。创造性任务:“温度=0.9, Top-P=0.99, Top-K=40”。确定性任务:“温度=0.1, Top-P=0.9, Top-K=20”或“温度=0”。

注意:极端设置(如“温度=0”)可能使其他参数无效,需实验优化。

提示词工程的局限

提示词工程面临输入质量问题,包括模糊提示导致输出不准确以及需要耗时反复迭代优化才能获得理想结果。

大语言模型存在固有局限,它们基于概率预测而非真正推理,配置参数如温度值设置不当会影响输出质量,且模型更新可能使原有提示词效果发生变化。

使用提示词还需考虑资源消耗问题,长输出和多模态提示会增加计算成本,同时必须通过系统提示控制输出内容以避免潜在的安全风险和偏见问题。

使用建议

提供明确示例和输出模板。通过"单样本"或"少样本"技术引导模型理解所需格式;分类任务时应打乱类别顺序并使用至少6个示例以提高准确性。

保持提示词简洁清晰。明确指定所需输出的格式、风格和范围,使用正向指令引导模型,如使用"仅列出游戏机名称、公司、年份"而非"勿列游戏名称"。

控制token长度限制输出篇幅。使用变量动态化提示词,尝试不同措辞和格式获得最佳结果,对非创造性任务采用JSON/XML等结构化输出格式。

密切关注模型更新并及时调整提示词。针对思维链技术采用特定策略如推理后放答案、使用"温度=0"确保确定性,明确分离推理与最终答案便于提取。

系统记录所有提示词实验(包括名称、目标、模型、配置和输出),,将提示词与代码分开存储,建立自动化测试流程验证提示词的泛化能力和稳定性。