我花30个小时为女儿制作一本绘本(详细步骤)

2026年1月1日

每年圣诞节来临之际,不仅圣诞老人会带来礼物,我们家还会多一本新书。

这件事从一个小型实验开始,如今已经成为我们家的新年传统。然而,随着主角我的女儿玛蒂尔达不断长大,我们后台的技术却发生了量子跃迁般的变化。

如果你关注这个博客,你会知道,我每年这个项目不仅是为了让孩子眼睛发亮,还把它当作终极基准测试,检验当前AI图像生成的最新水平。这是对一致性、叙事效率和整体工作流的完美考验。

今年,我要说,局面完全改变了。

从纯属技术极客的领域,到人人都能触及

回顾过去三年,我看到技术门槛在飞速降低:

2023 年:「玛蒂尔达登月记」 这是狂野西部时代。我们使用 SDXL LoRAs。这意味着:收集照片、整理训练数据、让显卡发热、进行数小时的微调,直到模型终于理解玛蒂尔达的外貌。结果虽然神奇,但过程艰辛。 2024 年:「玛蒂尔达与生病的狮子」 向前迈了一步,使用 Flux.1 LoRAs。质量提升,手部终于看起来像手部,但我们仍需训练特定模型。 2025 年:「玛蒂尔达与独角兽」。 今年,我不再训练任何 LoRAs。没有繁琐的模型训练,也不用上传私人训练数据到未知服务器。相反,我采用更易获取的技术,如谷歌的 Nano Banana ProFlux.2

为什么这很重要

今年的书,《玛蒂尔达与独角兽》,不仅是迄今为止最美的,还最具「纯净」生产力。

它证明,到 2026 年,我们不再需要深层技术技能,就能创造一致的角色。我们只需正确的策略、出色的语言模型作为创意搭档,以及恰当的方法。

在这篇文章中,我带你走进幕后。从一个固定想法,到一本印好的精装书。

  1. 步骤 1:想法
  2. 步骤 2:使用参考图像生成图像——无需训练的一致角色
  3. 步骤 3:在 Freepik Spaces 中生产
  4. 步骤 4:生成图像——资产参考与场景串联
  5. 步骤 5:图像编辑与放大
  6. 步骤 6:生成文本——针对主题量身定制
  7. 步骤 7:排版与印刷——触感至上
  8. 步骤 8:最美的时刻——赠送
  9. 结语:呼吁质量而非「AI 垃圾」
  10. 最终成果:玛蒂尔达与独角兽

步骤 1:想法

一切从一个问题开始:目标读者想读什么?面对幼儿园的女儿,市场调研很快完成:独角兽。独角兽总能行。

但简单把一个闪闪发光的马放到草地上,对我来说太无聊。我想要一个视觉上不受限制的世界,一个连家长阅读时也会开心的故事。

我的第一个搭档是 ChatGPT。我们从头脑风暴开始,但说实话,这感觉常常像「标准儿童书」。想法不错,但可预见。

转折点来自切换到谷歌 Gemini Pro。突然,模型不仅理解情节,还理解细微差别。它能适应我的幽默,提出真正有趣的建议,而不只是可爱。

框架:12 对开页

一旦核心想法(「独角兽寻找角」)确立,我强迫 AI 严格工作。儿童书需要结构。我们直接把故事塞进固定框架:

格式:12 对开页。 叙事:每对开页必须推进情节或引入新角色。

重要经验: 我这里还没写最终韵律。重点纯在视觉叙事:图像显示什么?谁在场?文本到最后才出现,匹配最终插图。这样防止写出无法视觉化的文本。

提示:视觉优先,文本其次

不要试图同时做所有事。分开 情节韵律

  1. 先开发粗略的「分镜剧本」为 12 对开页(图像显示什么?)。
  2. 然后生成图像。
  3. 最后写文本,匹配最终插图。

原因: 比起让 AI 遵循复杂文本,调整文本适应现有图像更容易。

复制粘贴:你的起始提示

这是我为玛蒂尔达使用的起始提示。复制到 Gemini 并填补空白:

我想和你一起为一个名叫[NAME]的孩子开发一个儿童书故事。

基础数据:
年龄:[ALTER]岁
特别喜欢:[INTERESSEN,比如恐龙、挖掘机、太空]
特别的个性特点:[比如总是穿胶鞋、只吃面条、害怕黑暗]
期望的设定/主题:[THEMA]

Aufgabe:
首先提出5个不同的框架想法供我选择。
如果我选择了其中一个,你的任务就是为一个包含确切[数量]对开页的书创建概念。

为每个对开页简要描述:
1. 情节中发生了什么?
2. 图像上的视觉主要主题是什么?

重要:请暂时不要写文本!我们首先需要视觉流程。

语气应该有趣且不带说教性。[根据需要改写成你们想要的书的样子]

步骤 2:使用参考图像生成图像——无需训练的一致角色

在我之前的项目(2023/24)中,这个步骤是技术终极挑战:我必须训练 LoRAs。

这意味着:收集女儿照片、裁剪、上传、让 GPU 发热并祈祷。

2025 年,我完全跳过了这个。 新模型如此擅长遵循文本指令与参考图像,我找到了一种方式,不仅更简单,还更注重隐私。

A. 「隐私技巧」:迭代而非上传

不用真实照片作为参考,我选择详细文本描述的路径。在 Flux.2(通过 Freepik)迭代过程中,我反复描述女儿,直到 AI 正确定位她。

过程:我反复将特征如「红色头发」、「蓝色眼睛」、「玩耍时总是红膝盖」、她的「好奇眼神」或头形描述塞进提示,直到生成的儿童与我的女儿惊人相似。

优势:从未有真实照片触及服务器。隐私通过创意实现。

独角兽:我对第二个主角应用相同方法,直到小马达到恰当的可爱水平。

B. 风格:「梦幻水彩」

平行于角色,我定义外观。我想摆脱标准外观,转向现代但「手绘」绘本魅力。

这是最终风格提示,你可以随意复制:

「柔和的梦幻水彩插图风格,温暖的柔和色调、精致且极简线条,以及可见纸张纹理。特征包括柔和颜料渗出、透明刷痕,以及手绘传统水彩外观。整体美学光亮、迷人且儿童化,类似于现代绘本艺术,具有平滑渐变、微妙阴影和空气般的友好氛围。」

C. 游戏改变者(我多么讨厌这个词,但这里确实如此):组合「大师表」

一旦 Flux.2 中外观确立,我为 12 对开页批量生产切换到谷歌 Nano Banana Pro。

这个模型极擅长理解图像上下文。但我添加了一个决定性中间步骤:

AI 模型不会自动知道小马相对于儿童的大小。有时它像狗一样大,有时像房子一样。

解决方案:我在 Photoshop 上将最佳生成单图像合成,一个所谓的 Master-Reference-Sheet。

它显示两人并排站在正确比例。这个单一图像作为整个书的所有参考来源。

角色表提示

为什么大师表?

上下文图像 AI(如 Nano Banana)更精确,如果它们有 单一、强大的参考图像,而非五个松散单图像。

操作方式:

  1. 生成: 用 Flux.2 单独创建角色(文本到图像),直到完美。
  2. 合成: 生成组合角色表,其中两个主角比例正确。注意比例匹配。
  3. 参考: 只用这个单一主图像作为场景生成输入。

效果: AI 现在不仅知道角色外观,还知道玛蒂尔达正好到小马肩膀。这样节省了后续数百次失败尝试于比例与大小。

步骤 3:在 Freepik Spaces 中生产

现在技术稍复杂些。儿童书远不止漂亮单图像集合。我需要自然流动、一致风格和重复元素(角、配角)。

单一生成器很快达到极限。人们会失去概览。

解决方案:节点系统,你可以像积木一样链接输入、参考和提示。

我知道我需要视觉系统,在其中连接输入、参考和提示作为构建块。选择落在 Freepik Spaces 新功能(替代品如 weavy.aiFlora AIComfyUI

原因?我喜欢这个平台(强大的欧洲解决方案,优秀定价,巨大势头)并想直接挑战新「Spaces」功能(仍在测试版)。

设置:一致性的驾驶舱

在 Freepik Spaces 中,我为自己建了一个「生产线」。核心是我的 图像 AI 上下文提示机器人,我直接作为助手集成。它将我的场景想法翻译成技术提示。指令在此

为了机器人助手一致吐出我需要的图像,我给他附加固定额外规则集,每次场景应用。

这个儿童书的 6 黄金规则:

  1. 风格执行:「使用这个风格:[这里插入完整风格提示上文]。」
  2. 布局卫生:「无居中构图。图像一侧留空间放置文本(但不应为空白!)。」(对后续书籍排版至关重要!)
  3. 参考信任:「不要在提示中描述女孩和小马的外貌——它应该只使用参考图像。」(防止文本提示与参考图像相互冲突)。
  4. 对象逻辑:「独角兽角是金色的。」(旁注:这条规则有故事。没有这个澄清,AI 喜欢生成金色乐器(角)而非独角兽——或把掉落的角重新粘回小马上。AI 有时非常字面。)
  5. 年龄固定:「女孩 4 岁。」(防止她生成得「太成熟」)

工作流:从文本场景到图像

实践中如何?机器人只喂纯场景描述,我之前让 Gemini 总结。

输入(场景):

「森林边缘,温和日光下。女孩,大约 4 岁,卷发,彩色衣服,惊吓中后退一步。前方坐着一个白色小马,苦苦哭泣。没有角可见——只有悲伤的小马。背景森林开始,树木和好奇动物……」

过程:

  1. 合并:机器人取场景/对开页信息 + 6 规则 + 图像 AI 上下文提示机器人的指令 + 作为图像输入的主参考图像与角色。
  2. 提示生成:它生成干净图像提示,结合所有元素。
  3. 图像生成:这个提示现在与主参考图像结合。
  4. 模型使用谷歌 Nano Banana Pro 2K,纵横比 16:9(对开页)。

结果:系统交付图像,风格精确匹配,角色完美击中(感谢参考图像),构图留空间给文本(感谢规则)。

入门提示:完全免费,只用 Gemini 或 ChatGPT

不喜欢节点、复杂工作流或测试访问?没问题。你可以用免费谷歌 Gemini 或 ChatGPT 直接实现类似结果。

3 步骤:

1. 故事架构: 用上文提示,让它为你创建 12 对开页流程。

2. 图像(「复制粘贴」技巧): Gemini 能在聊天中直接创建图像。为保持半一致,需要提示纪律:

定义一次你的 角色块(如 「4 岁女孩,棕色卷发,星星衬衫,红膝盖」)。 定义一次你的 风格块(见上:「柔和梦幻水彩……」)。 提示:每个 图像重新插入这两个块:[场景:发生什么?] + [角色块] + [风格块] + [规则:留大量文本空间]

3. 布局: 下载图像并打包到免费工具如 CanvaPowerPoint。在那里先添加文本。PDF 为祖父母完成!如果想打印,所有按需打印店也提供自家编辑器,可以在相册中放置文本(Cewe、Pixum、Fotofabrik……)

注意:一致性不会像专业工作流那样完美,但对入门足够神奇!

步骤 4:生成图像——资产参考与场景串联

工作流确立后,是苦力活:生产封面、标题页和所有 12 对开页。谁在这里认真工作,会很快遇到问题:交叉引用

AI 能轻松生成简单「独角兽」。但「第 2 页苔藓中躺着的断金角」,必须在第 10 页矮人手中 完全 一样。同样,第 6 页欢迎我们的巨人,必须在第 7 页有相同鼻子和背心。

这里节点系统(如 Freepik Spaces)发挥全实力,因为我们可以模块化附加参考。我为此用两种技术:

技术 A:「资产参考」(角)

对必须总是相同外观的重要物品,我生成单独小参考图像(如仅金角作为中性参考图像)。

技巧:在角重要的场景(如河狸或矮人处),我将这个图像作为额外图像参考插入节点图。

结果:AI 现在不仅知道「做金角」,还知道「做这个金角」。

技术 B:「场景串联」(巨人 & 矮人)

有些角色只短暂出现,但必须在多页一致(巨人跨越 2 对开页)。这里我不创建自家角色表,而是利用时间线:

  1. 生成对开页 6(巨人出现)。
  2. 对开页 7,使用第 6 页成品图像作为额外图像参考。
  3. 效果:AI 从前图像接过巨人颜色调色板和粗略特征。读者感觉流畅过渡,像相机只换角度。

同样适用于矮人:一旦群像确立,作为桶细节场景参考。

入门提示:保持简单!

听到「场景串联」和「节点图」让你头疼?别担心。你常能通过 聪明叙事 绕过一致性问题。

原则: 如果某事太难描绘,就别展示!

例子: 第 7 页玛蒂尔达与巨人跟猫头鹰说话。图像「巨人 + 孩子 + 树中猫头鹰」对 AI 很复杂。

技术解决方案: 繁琐串联和修复。 简单解决方案:特写!图像只显示树中大猫头鹰。文本叙述巨人站在旁边,但图像中无需看到。

记住: 好的简单图像总是比有挫败潜力的复杂图像更好。

步骤 5:图像编辑与放大

AI 艺术常见误解:「AI 吐出图像就完。」 也许适合 Instagram。但打印书?绝对不行。打印毫不宽恕。智能手机上看起来清晰的分辨率,在 A4 上像像素泥。AI 错误在屏幕上忽略,在纸上大喊。

所以这个步骤必不可少。我的工作流遵循 「最佳 8」策略:每场景生成 8 到 16 变体,取最佳作为基础。

但即使「最佳」也很少完美。

我的精炼管道如下:

A. 直接在 Freepik 中修复

常构图 90% 对,但细节烦人。

经典: 「独角兽」意外又长角。 经典 2: 玛蒂尔达手中的角突然成乐器。

不用重新生成(并失去好部分),我用 Freepik Spaces 中的编辑功能。编辑模式中简单提示:「移除角」「替换为小金独角兽角」。节省时间和神经。为此用谷歌 Nano Banana Pro 相同 2K 分辨率——这样编辑不损失太多图像质量。

Freepik 的修复模式有时也产生好结果,尤其移除事物时。

PS:在 Freepik 达到极限的地方,我在 Adobe Photoshop/Lightroom 中进行修复。

B. 放大(Magnific Precision)

AI 图像常以低分辨率出生成器。为高质量打印,我们需要 300 dpi 在 42 cm 宽度(对开页)。

为此用 Magnific Precision 放大(集成在 Freepik)。Precision 模式确保细节优化而非改变。

目标分辨率:5504 x 3072 像素。

C. 在 Adobe Lightroom 中微调

以前我会开 Photoshop。现在常不需要,因为生成修复已到 Lightroom。我在一个工具中完成修复和外观。

  1. 外科手术(生成移除):手上第六指?背景烦叶?Lightroom 新「移除」工具中,我简单标记对象,AI 用水彩背景填充。如此好,现在 95% 情况不需要 Photoshop。
  2. 外观(色彩分级):这是书感最重要的步骤。AI 图像常有不同光氛围。在 Lightroom 中,我给所有 12 对开页覆盖预设,拉平对比,确保第 3 页森林「绿」与第 10 页一样。这创造视觉平静和一致。

步骤 6:针对主题生成文本

现在圈子闭合。

AI 书中常见错误:先死板写完文本,然后希望图像生成器精确实现。常导致挫败。

2026 年我的方法不同:视觉优先。 12 对开页视觉最终和修复后,我写最终文本。或更准确:让人写。

策略:「导演提示」

为了 Gemini 知道旅程走向,我没逐页隔离考虑。我先给模型 完整情节弧(所有 12 对开页) 作为上下文。然后上传单个图像。

提示:Gemini 完美文本提示

想要精确匹配图像的文本?为你调整这个结构:

书中结果:

因为 Gemini 能「看到」图像,文本完美匹配生成细节。第 10 页例子(胶水灾难):图像中矮人头朝下卡在桶里。Gemini 立即识别并处理:

步骤 7:排版与印刷——触感至上

最终,最美 AI 图像无用,如果作为 PDF 在硬盘积灰。儿童书必须能触摸。必须稳定、好闻,并原谅粘儿童手指。

布局(排版):

我在 Adobe InDesign 中排版。为什么?因为我需要对排版、版面和切割余量(出血)完全控制。如果图像无边打印,必须超出纸边 3 mm。

入门提示:没 InDesign 订阅?别绝望。Canva 或印刷提供商在线编辑器(如 Saal Digital 或 fotofabrik.de)如今如此好,你能实现绝对可接受结果。只重要:给文本呼吸空间!

印刷

我以 21×21 cm 硬纸书fotofabrik.de 印刷《玛蒂尔达与独角兽》。我故意选硬纸书格式。厚页感觉值钱,材质色彩再现 fantastic。AI 生成水彩结构如此好显现,你几乎以为能感觉到粗糙纸张。

步骤 8:最美的时刻——赠送

所有努力,所有 30 小时工作,所有与 AI 关于河狸眼镜的讨论——在一秒消退。就是递出书时。

当自家孩子翻开书,眼睛变大,突然说:「看爸爸,这是我!」

我们为此做这一切。不为 LinkedIn,不为技术演示,而是这个时刻。

结语:呼吁质量而非「AI 垃圾」

技术上,我们达标。2026 年工具到位,它们强大,民主化图像创建。但在这里,我觉得重要澄清:你们看到的书,是我女儿和我心血项目。它精彩展示,今天在家电脑上可能。

但:即使这个结果,对我在书店真正出版的个人质量标准仍不够。为什么强调?因为我不愿以「耶,一切自动!」结束,而是三个亲近想法:

1. 要求:儿童值得质量

市场正淹没在草率生成内容——所谓「AI 垃圾」。有六指手、不合逻辑故事和错误文本的书。请别成为其中。

儿童是最批判、最重要受众。如果为他们生产,要求必须:完美。正确视觉、一致世界和无错文本是最低。谁再加教育价值,值得勤奋星星。AI 不是平庸的免费通行证。

2. 努力:人机循环非可选

别被骗:好书不会 5 分钟按键生成。《玛蒂尔达与独角兽》花约 30 小时。

3 小时构思,5 小时「浪费」于首方法(探索 & 发现阶段),17 小时开发、视觉 curation(并丢弃数百坏变体)以及编辑,5 小时文本协作、排版、布局和润色。

当然会更快。我也能取首草稿。但个人要求(幸运)挡路。所以别靠全自动。循环中人是质量决定因素。

3. 给出版商和作者的话

是的,我看着你们!我每天给我 4 岁女儿读书。她吞噬书,即使不会读,因为她感觉细节中的爱。

对孩子,书是魔法对象。AI 可成过程一部分,高效工作或解阻塞。但它永远不能取代人类专业和创意灵魂。

别让技术诱使你稀释要求。用 AI 作为工具,但继续聘请真实作者和插画家,知道如何让儿童眼睛发亮。

最终成果:玛蒂尔达与独角兽

够理论和训诫词。你们想知道 30 小时努力、「最佳 16」疯狂和与「德国官僚河狸」的讨论值得吗?

这里你们能数字翻阅成品书——包括闪光条款和彩虹胡须。阅读愉快!

《玛蒂尔达与独角兽》展示,当把 AI 视为工具而非替代时,创意可能。但如何将这力量可扩展集成专业营销工作流?当非仅爸爸,而是整个部门提示时,如何保持品牌一致?

我们正为此帮助。无论你想提升团队,还是找战略伙伴——我们有合适格式: