我花30个小时为女儿制作一本绘本（详细步骤）

每年圣诞节来临之际，不仅圣诞老人会带来礼物，我们家还会多一本新书。

这件事从一个小型实验开始，如今已经成为我们家的新年传统。然而，随着主角我的女儿玛蒂尔达不断长大，我们后台的技术却发生了量子跃迁般的变化。

如果你关注这个博客，你会知道，我每年这个项目不仅是为了让孩子眼睛发亮，还把它当作终极基准测试，检验当前AI图像生成的最新水平。这是对一致性、叙事效率和整体工作流的完美考验。

今年，我要说，局面完全改变了。

从纯属技术极客的领域，到人人都能触及

回顾过去三年，我看到技术门槛在飞速降低：

2023 年：「玛蒂尔达登月记」 这是狂野西部时代。我们使用 SDXL LoRAs。这意味着：收集照片、整理训练数据、让显卡发热、进行数小时的微调，直到模型终于理解玛蒂尔达的外貌。结果虽然神奇，但过程艰辛。 2024 年：「玛蒂尔达与生病的狮子」 向前迈了一步，使用 Flux.1 LoRAs。质量提升，手部终于看起来像手部，但我们仍需训练特定模型。 2025 年：「玛蒂尔达与独角兽」。 今年，我不再训练任何 LoRAs。没有繁琐的模型训练，也不用上传私人训练数据到未知服务器。相反，我采用更易获取的技术，如谷歌的 Nano Banana Pro 和 Flux.2。

为什么这很重要

今年的书，《玛蒂尔达与独角兽》，不仅是迄今为止最美的，还最具「纯净」生产力。

它证明，到 2026 年，我们不再需要深层技术技能，就能创造一致的角色。我们只需正确的策略、出色的语言模型作为创意搭档，以及恰当的方法。

在这篇文章中，我带你走进幕后。从一个固定想法，到一本印好的精装书。

步骤 1：想法
步骤 2：使用参考图像生成图像——无需训练的一致角色
步骤 3：在 Freepik Spaces 中生产
步骤 4：生成图像——资产参考与场景串联
步骤 5：图像编辑与放大
步骤 6：生成文本——针对主题量身定制
步骤 7：排版与印刷——触感至上
步骤 8：最美的时刻——赠送
结语：呼吁质量而非「AI 垃圾」
最终成果：玛蒂尔达与独角兽

步骤 1：想法

一切从一个问题开始：目标读者想读什么？面对幼儿园的女儿，市场调研很快完成：独角兽。独角兽总能行。

但简单把一个闪闪发光的马放到草地上，对我来说太无聊。我想要一个视觉上不受限制的世界，一个连家长阅读时也会开心的故事。

我的第一个搭档是 ChatGPT。我们从头脑风暴开始，但说实话，这感觉常常像「标准儿童书」。想法不错，但可预见。

转折点来自切换到谷歌 Gemini Pro。突然，模型不仅理解情节，还理解细微差别。它能适应我的幽默，提出真正有趣的建议，而不只是可爱。

框架：12 对开页

一旦核心想法（「独角兽寻找角」）确立，我强迫 AI 严格工作。儿童书需要结构。我们直接把故事塞进固定框架：

格式：12 对开页。叙事：每对开页必须推进情节或引入新角色。

重要经验： 我这里还没写最终韵律。重点纯在视觉叙事：图像显示什么？谁在场？文本到最后才出现，匹配最终插图。这样防止写出无法视觉化的文本。

提示：视觉优先，文本其次

不要试图同时做所有事。分开情节与韵律。

先开发粗略的「分镜剧本」为 12 对开页（图像显示什么？）。
然后生成图像。
最后写文本，匹配最终插图。

原因： 比起让 AI 遵循复杂文本，调整文本适应现有图像更容易。

复制粘贴：你的起始提示

这是我为玛蒂尔达使用的起始提示。复制到 Gemini 并填补空白：

我想和你一起为一个名叫[NAME]的孩子开发一个儿童书故事。

基础数据：
年龄：[ALTER]岁
特别喜欢：[INTERESSEN，比如恐龙、挖掘机、太空]
特别的个性特点：[比如总是穿胶鞋、只吃面条、害怕黑暗]
期望的设定/主题：[THEMA]

Aufgabe:
首先提出5个不同的框架想法供我选择。
如果我选择了其中一个，你的任务就是为一个包含确切[数量]对开页的书创建概念。

为每个对开页简要描述：
1. 情节中发生了什么？
2. 图像上的视觉主要主题是什么？

重要：请暂时不要写文本！我们首先需要视觉流程。

语气应该有趣且不带说教性。[根据需要改写成你们想要的书的样子]

步骤 2：使用参考图像生成图像——无需训练的一致角色

在我之前的项目（2023/24）中，这个步骤是技术终极挑战：我必须训练 LoRAs。

这意味着：收集女儿照片、裁剪、上传、让 GPU 发热并祈祷。

2025 年，我完全跳过了这个。 新模型如此擅长遵循文本指令与参考图像，我找到了一种方式，不仅更简单，还更注重隐私。

A. 「隐私技巧」：迭代而非上传

不用真实照片作为参考，我选择详细文本描述的路径。在 Flux.2（通过 Freepik）迭代过程中，我反复描述女儿，直到 AI 正确定位她。

过程：我反复将特征如「红色头发」、「蓝色眼睛」、「玩耍时总是红膝盖」、她的「好奇眼神」或头形描述塞进提示，直到生成的儿童与我的女儿惊人相似。

优势：从未有真实照片触及服务器。隐私通过创意实现。

独角兽：我对第二个主角应用相同方法，直到小马达到恰当的可爱水平。

B. 风格：「梦幻水彩」

平行于角色，我定义外观。我想摆脱标准外观，转向现代但「手绘」绘本魅力。

这是最终风格提示，你可以随意复制：

「柔和的梦幻水彩插图风格，温暖的柔和色调、精致且极简线条，以及可见纸张纹理。特征包括柔和颜料渗出、透明刷痕，以及手绘传统水彩外观。整体美学光亮、迷人且儿童化，类似于现代绘本艺术，具有平滑渐变、微妙阴影和空气般的友好氛围。」

C. 游戏改变者（我多么讨厌这个词，但这里确实如此）：组合「大师表」

一旦 Flux.2 中外观确立，我为 12 对开页批量生产切换到谷歌 Nano Banana Pro。

这个模型极擅长理解图像上下文。但我添加了一个决定性中间步骤：

AI 模型不会自动知道小马相对于儿童的大小。有时它像狗一样大，有时像房子一样。

解决方案：我在 Photoshop 上将最佳生成单图像合成，一个所谓的 Master-Reference-Sheet。

它显示两人并排站在正确比例。这个单一图像作为整个书的所有参考来源。

角色表提示

为什么大师表？

上下文图像 AI（如 Nano Banana）更精确，如果它们有 单一、强大的参考图像，而非五个松散单图像。

操作方式：

生成： 用 Flux.2 单独创建角色（文本到图像），直到完美。
合成： 生成组合角色表，其中两个主角比例正确。注意比例匹配。
参考： 只用这个单一主图像作为场景生成输入。

效果： AI 现在不仅知道角色外观，还知道玛蒂尔达正好到小马肩膀。这样节省了后续数百次失败尝试于比例与大小。

步骤 3：在 Freepik Spaces 中生产

现在技术稍复杂些。儿童书远不止漂亮单图像集合。我需要自然流动、一致风格和重复元素（角、配角）。

单一生成器很快达到极限。人们会失去概览。

解决方案：节点系统，你可以像积木一样链接输入、参考和提示。

我知道我需要视觉系统，在其中连接输入、参考和提示作为构建块。选择落在 Freepik Spaces 新功能（替代品如 weavy.ai、Flora AI 或 ComfyUI）

原因？我喜欢这个平台（强大的欧洲解决方案，优秀定价，巨大势头）并想直接挑战新「Spaces」功能（仍在测试版）。

设置：一致性的驾驶舱

在 Freepik Spaces 中，我为自己建了一个「生产线」。核心是我的图像 AI 上下文提示机器人，我直接作为助手集成。它将我的场景想法翻译成技术提示。指令在此。

为了机器人助手一致吐出我需要的图像，我给他附加固定额外规则集，每次场景应用。

这个儿童书的 6 黄金规则：

风格执行：「使用这个风格：[这里插入完整风格提示上文]。」
布局卫生：「无居中构图。图像一侧留空间放置文本（但不应为空白！）。」（对后续书籍排版至关重要！）
参考信任：「不要在提示中描述女孩和小马的外貌——它应该只使用参考图像。」（防止文本提示与参考图像相互冲突）。
对象逻辑：「独角兽角是金色的。」（旁注：这条规则有故事。没有这个澄清，AI 喜欢生成金色乐器（角）而非独角兽——或把掉落的角重新粘回小马上。AI 有时非常字面。）
年龄固定：「女孩 4 岁。」（防止她生成得「太成熟」）

工作流：从文本场景到图像

实践中如何？机器人只喂纯场景描述，我之前让 Gemini 总结。

输入（场景）：

「森林边缘，温和日光下。女孩，大约 4 岁，卷发，彩色衣服，惊吓中后退一步。前方坐着一个白色小马，苦苦哭泣。没有角可见——只有悲伤的小马。背景森林开始，树木和好奇动物……」

过程：

合并：机器人取场景/对开页信息 + 6 规则 + 图像 AI 上下文提示机器人的指令 + 作为图像输入的主参考图像与角色。
提示生成：它生成干净图像提示，结合所有元素。
图像生成：这个提示现在与主参考图像结合。
模型使用谷歌 Nano Banana Pro 2K，纵横比 16:9（对开页）。

结果：系统交付图像，风格精确匹配，角色完美击中（感谢参考图像），构图留空间给文本（感谢规则）。

入门提示：完全免费，只用 Gemini 或 ChatGPT

不喜欢节点、复杂工作流或测试访问？没问题。你可以用免费谷歌 Gemini 或 ChatGPT 直接实现类似结果。

3 步骤：

1. 故事架构： 用上文提示，让它为你创建 12 对开页流程。

2. 图像（「复制粘贴」技巧）： Gemini 能在聊天中直接创建图像。为保持半一致，需要提示纪律：

定义一次你的 角色块（如 「4 岁女孩，棕色卷发，星星衬衫，红膝盖」）。定义一次你的 风格块（见上：「柔和梦幻水彩……」）。 提示： 为每个图像重新插入这两个块：[场景：发生什么？] + [角色块] + [风格块] + [规则：留大量文本空间]

3. 布局： 下载图像并打包到免费工具如 Canva 或 PowerPoint。在那里先添加文本。PDF 为祖父母完成！如果想打印，所有按需打印店也提供自家编辑器，可以在相册中放置文本（Cewe、Pixum、Fotofabrik……）

注意：一致性不会像专业工作流那样完美，但对入门足够神奇！

步骤 4：生成图像——资产参考与场景串联

工作流确立后，是苦力活：生产封面、标题页和所有 12 对开页。谁在这里认真工作，会很快遇到问题：交叉引用。

AI 能轻松生成简单「独角兽」。但「第 2 页苔藓中躺着的断金角」，必须在第 10 页矮人手中完全一样。同样，第 6 页欢迎我们的巨人，必须在第 7 页有相同鼻子和背心。

这里节点系统（如 Freepik Spaces）发挥全实力，因为我们可以模块化附加参考。我为此用两种技术：

技术 A：「资产参考」（角）

对必须总是相同外观的重要物品，我生成单独小参考图像（如仅金角作为中性参考图像）。

技巧：在角重要的场景（如河狸或矮人处），我将这个图像作为额外图像参考插入节点图。

结果：AI 现在不仅知道「做金角」，还知道「做这个金角」。

技术 B：「场景串联」（巨人 & 矮人）

有些角色只短暂出现，但必须在多页一致（巨人跨越 2 对开页）。这里我不创建自家角色表，而是利用时间线：

生成对开页 6（巨人出现）。
对开页 7，使用第 6 页成品图像作为额外图像参考。
效果：AI 从前图像接过巨人颜色调色板和粗略特征。读者感觉流畅过渡，像相机只换角度。

同样适用于矮人：一旦群像确立，作为桶细节场景参考。

入门提示：保持简单！

听到「场景串联」和「节点图」让你头疼？别担心。你常能通过 聪明叙事 绕过一致性问题。

原则： 如果某事太难描绘，就别展示！

例子： 第 7 页玛蒂尔达与巨人跟猫头鹰说话。图像「巨人 + 孩子 + 树中猫头鹰」对 AI 很复杂。

技术解决方案： 繁琐串联和修复。 简单解决方案： 做特写！图像只显示树中大猫头鹰。文本叙述巨人站在旁边，但图像中无需看到。

记住： 好的简单图像总是比有挫败潜力的复杂图像更好。

步骤 5：图像编辑与放大

AI 艺术常见误解：「AI 吐出图像就完。」 也许适合 Instagram。但打印书？绝对不行。打印毫不宽恕。智能手机上看起来清晰的分辨率，在 A4 上像像素泥。AI 错误在屏幕上忽略，在纸上大喊。

所以这个步骤必不可少。我的工作流遵循 「最佳 8」策略：每场景生成 8 到 16 变体，取最佳作为基础。

但即使「最佳」也很少完美。

我的精炼管道如下：

A. 直接在 Freepik 中修复

常构图 90% 对，但细节烦人。

经典： 「独角兽」意外又长角。 经典 2： 玛蒂尔达手中的角突然成乐器。

不用重新生成（并失去好部分），我用 Freepik Spaces 中的编辑功能。编辑模式中简单提示：「移除角」 或 「替换为小金独角兽角」。节省时间和神经。为此用谷歌 Nano Banana Pro 相同 2K 分辨率——这样编辑不损失太多图像质量。

Freepik 的修复模式有时也产生好结果，尤其移除事物时。

PS：在 Freepik 达到极限的地方，我在 Adobe Photoshop/Lightroom 中进行修复。

B. 放大（Magnific Precision）

AI 图像常以低分辨率出生成器。为高质量打印，我们需要 300 dpi 在 42 cm 宽度（对开页）。

为此用 Magnific Precision 放大（集成在 Freepik）。Precision 模式确保细节优化而非改变。

目标分辨率：5504 x 3072 像素。

C. 在 Adobe Lightroom 中微调

以前我会开 Photoshop。现在常不需要，因为生成修复已到 Lightroom。我在一个工具中完成修复和外观。

外科手术（生成移除）：手上第六指？背景烦叶？Lightroom 新「移除」工具中，我简单标记对象，AI 用水彩背景填充。如此好，现在 95% 情况不需要 Photoshop。
外观（色彩分级）：这是书感最重要的步骤。AI 图像常有不同光氛围。在 Lightroom 中，我给所有 12 对开页覆盖预设，拉平对比，确保第 3 页森林「绿」与第 10 页一样。这创造视觉平静和一致。

步骤 6：针对主题生成文本

现在圈子闭合。

AI 书中常见错误：先死板写完文本，然后希望图像生成器精确实现。常导致挫败。

2026 年我的方法不同：视觉优先。 在 12 对开页视觉最终和修复后，我写最终文本。或更准确：让人写。

策略：「导演提示」

为了 Gemini 知道旅程走向，我没逐页隔离考虑。我先给模型 完整情节弧（所有 12 对开页） 作为上下文。然后上传单个图像。

提示：Gemini 完美文本提示

想要精确匹配图像的文本？为你调整这个结构：

书中结果：

因为 Gemini 能「看到」图像，文本完美匹配生成细节。第 10 页例子（胶水灾难）：图像中矮人头朝下卡在桶里。Gemini 立即识别并处理：

步骤 7：排版与印刷——触感至上

最终，最美 AI 图像无用，如果作为 PDF 在硬盘积灰。儿童书必须能触摸。必须稳定、好闻，并原谅粘儿童手指。

布局（排版）：

我在 Adobe InDesign 中排版。为什么？因为我需要对排版、版面和切割余量（出血）完全控制。如果图像无边打印，必须超出纸边 3 mm。

入门提示：没 InDesign 订阅？别绝望。Canva 或印刷提供商在线编辑器（如 Saal Digital 或 fotofabrik.de）如今如此好，你能实现绝对可接受结果。只重要：给文本呼吸空间！

印刷

我以 21×21 cm 硬纸书 在 fotofabrik.de 印刷《玛蒂尔达与独角兽》。我故意选硬纸书格式。厚页感觉值钱，材质色彩再现 fantastic。AI 生成水彩结构如此好显现，你几乎以为能感觉到粗糙纸张。

步骤 8：最美的时刻——赠送

所有努力，所有 30 小时工作，所有与 AI 关于河狸眼镜的讨论——在一秒消退。就是递出书时。

当自家孩子翻开书，眼睛变大，突然说：「看爸爸，这是我！」

我们为此做这一切。不为 LinkedIn，不为技术演示，而是这个时刻。

结语：呼吁质量而非「AI 垃圾」

技术上，我们达标。2026 年工具到位，它们强大，民主化图像创建。但在这里，我觉得重要澄清：你们看到的书，是我女儿和我心血项目。它精彩展示，今天在家电脑上可能。

但：即使这个结果，对我在书店真正出版的个人质量标准仍不够。为什么强调？因为我不愿以「耶，一切自动！」结束，而是三个亲近想法：

1. 要求：儿童值得质量

市场正淹没在草率生成内容——所谓「AI 垃圾」。有六指手、不合逻辑故事和错误文本的书。请别成为其中。

儿童是最批判、最重要受众。如果为他们生产，要求必须：完美。正确视觉、一致世界和无错文本是最低。谁再加教育价值，值得勤奋星星。AI 不是平庸的免费通行证。

2. 努力：人机循环非可选

别被骗：好书不会 5 分钟按键生成。《玛蒂尔达与独角兽》花约 30 小时。

3 小时构思，5 小时「浪费」于首方法（探索 & 发现阶段），17 小时开发、视觉 curation（并丢弃数百坏变体）以及编辑，5 小时文本协作、排版、布局和润色。

当然会更快。我也能取首草稿。但个人要求（幸运）挡路。所以别靠全自动。循环中人是质量决定因素。

3. 给出版商和作者的话

是的，我看着你们！我每天给我 4 岁女儿读书。她吞噬书，即使不会读，因为她感觉细节中的爱。

对孩子，书是魔法对象。AI 可成过程一部分，高效工作或解阻塞。但它永远不能取代人类专业和创意灵魂。

别让技术诱使你稀释要求。用 AI 作为工具，但继续聘请真实作者和插画家，知道如何让儿童眼睛发亮。

最终成果：玛蒂尔达与独角兽

够理论和训诫词。你们想知道 30 小时努力、「最佳 16」疯狂和与「德国官僚河狸」的讨论值得吗？

这里你们能数字翻阅成品书——包括闪光条款和彩虹胡须。阅读愉快！

《玛蒂尔达与独角兽》展示，当把 AI 视为工具而非替代时，创意可能。但如何将这力量可扩展集成专业营销工作流？当非仅爸爸，而是整个部门提示时，如何保持品牌一致？

我们正为此帮助。无论你想提升团队，还是找战略伙伴——我们有合适格式：