我花30个小时为女儿制作一本绘本(详细步骤)
2026年1月1日
每年圣诞节来临之际,不仅圣诞老人会带来礼物,我们家还会多一本新书。
这件事从一个小型实验开始,如今已经成为我们家的新年传统。然而,随着主角我的女儿玛蒂尔达不断长大,我们后台的技术却发生了量子跃迁般的变化。
如果你关注这个博客,你会知道,我每年这个项目不仅是为了让孩子眼睛发亮,还把它当作终极基准测试,检验当前AI图像生成的最新水平。这是对一致性、叙事效率和整体工作流的完美考验。
今年,我要说,局面完全改变了。
从纯属技术极客的领域,到人人都能触及
回顾过去三年,我看到技术门槛在飞速降低:
2023 年:「玛蒂尔达登月记」 这是狂野西部时代。我们使用 SDXL LoRAs。这意味着:收集照片、整理训练数据、让显卡发热、进行数小时的微调,直到模型终于理解玛蒂尔达的外貌。结果虽然神奇,但过程艰辛。 2024 年:「玛蒂尔达与生病的狮子」 向前迈了一步,使用 Flux.1 LoRAs。质量提升,手部终于看起来像手部,但我们仍需训练特定模型。 2025 年:「玛蒂尔达与独角兽」。 今年,我不再训练任何 LoRAs。没有繁琐的模型训练,也不用上传私人训练数据到未知服务器。相反,我采用更易获取的技术,如谷歌的 Nano Banana Pro 和 Flux.2。
为什么这很重要
今年的书,《玛蒂尔达与独角兽》,不仅是迄今为止最美的,还最具「纯净」生产力。
它证明,到 2026 年,我们不再需要深层技术技能,就能创造一致的角色。我们只需正确的策略、出色的语言模型作为创意搭档,以及恰当的方法。
在这篇文章中,我带你走进幕后。从一个固定想法,到一本印好的精装书。
- 步骤 1:想法
- 步骤 2:使用参考图像生成图像——无需训练的一致角色
- 步骤 3:在 Freepik Spaces 中生产
- 步骤 4:生成图像——资产参考与场景串联
- 步骤 5:图像编辑与放大
- 步骤 6:生成文本——针对主题量身定制
- 步骤 7:排版与印刷——触感至上
- 步骤 8:最美的时刻——赠送
- 结语:呼吁质量而非「AI 垃圾」
- 最终成果:玛蒂尔达与独角兽
步骤 1:想法
一切从一个问题开始:目标读者想读什么?面对幼儿园的女儿,市场调研很快完成:独角兽。独角兽总能行。
但简单把一个闪闪发光的马放到草地上,对我来说太无聊。我想要一个视觉上不受限制的世界,一个连家长阅读时也会开心的故事。
我的第一个搭档是 ChatGPT。我们从头脑风暴开始,但说实话,这感觉常常像「标准儿童书」。想法不错,但可预见。
转折点来自切换到谷歌 Gemini Pro。突然,模型不仅理解情节,还理解细微差别。它能适应我的幽默,提出真正有趣的建议,而不只是可爱。
框架:12 对开页
一旦核心想法(「独角兽寻找角」)确立,我强迫 AI 严格工作。儿童书需要结构。我们直接把故事塞进固定框架:
格式:12 对开页。 叙事:每对开页必须推进情节或引入新角色。
重要经验: 我这里还没写最终韵律。重点纯在视觉叙事:图像显示什么?谁在场?文本到最后才出现,匹配最终插图。这样防止写出无法视觉化的文本。
提示:视觉优先,文本其次
不要试图同时做所有事。分开 情节 与 韵律。
- 先开发粗略的「分镜剧本」为 12 对开页(图像显示什么?)。
- 然后生成图像。
- 最后写文本,匹配最终插图。
原因: 比起让 AI 遵循复杂文本,调整文本适应现有图像更容易。
复制粘贴:你的起始提示
这是我为玛蒂尔达使用的起始提示。复制到 Gemini 并填补空白:
我想和你一起为一个名叫[NAME]的孩子开发一个儿童书故事。
基础数据:
年龄:[ALTER]岁
特别喜欢:[INTERESSEN,比如恐龙、挖掘机、太空]
特别的个性特点:[比如总是穿胶鞋、只吃面条、害怕黑暗]
期望的设定/主题:[THEMA]
Aufgabe:
首先提出5个不同的框架想法供我选择。
如果我选择了其中一个,你的任务就是为一个包含确切[数量]对开页的书创建概念。
为每个对开页简要描述:
1. 情节中发生了什么?
2. 图像上的视觉主要主题是什么?
重要:请暂时不要写文本!我们首先需要视觉流程。
语气应该有趣且不带说教性。[根据需要改写成你们想要的书的样子]
步骤 2:使用参考图像生成图像——无需训练的一致角色
在我之前的项目(2023/24)中,这个步骤是技术终极挑战:我必须训练 LoRAs。
这意味着:收集女儿照片、裁剪、上传、让 GPU 发热并祈祷。
2025 年,我完全跳过了这个。 新模型如此擅长遵循文本指令与参考图像,我找到了一种方式,不仅更简单,还更注重隐私。
A. 「隐私技巧」:迭代而非上传
不用真实照片作为参考,我选择详细文本描述的路径。在 Flux.2(通过 Freepik)迭代过程中,我反复描述女儿,直到 AI 正确定位她。
过程:我反复将特征如「红色头发」、「蓝色眼睛」、「玩耍时总是红膝盖」、她的「好奇眼神」或头形描述塞进提示,直到生成的儿童与我的女儿惊人相似。
优势:从未有真实照片触及服务器。隐私通过创意实现。
独角兽:我对第二个主角应用相同方法,直到小马达到恰当的可爱水平。
B. 风格:「梦幻水彩」
平行于角色,我定义外观。我想摆脱标准外观,转向现代但「手绘」绘本魅力。
这是最终风格提示,你可以随意复制:
「柔和的梦幻水彩插图风格,温暖的柔和色调、精致且极简线条,以及可见纸张纹理。特征包括柔和颜料渗出、透明刷痕,以及手绘传统水彩外观。整体美学光亮、迷人且儿童化,类似于现代绘本艺术,具有平滑渐变、微妙阴影和空气般的友好氛围。」
C. 游戏改变者(我多么讨厌这个词,但这里确实如此):组合「大师表」
一旦 Flux.2 中外观确立,我为 12 对开页批量生产切换到谷歌 Nano Banana Pro。
这个模型极擅长理解图像上下文。但我添加了一个决定性中间步骤:
AI 模型不会自动知道小马相对于儿童的大小。有时它像狗一样大,有时像房子一样。
解决方案:我在 Photoshop 上将最佳生成单图像合成,一个所谓的 Master-Reference-Sheet。
它显示两人并排站在正确比例。这个单一图像作为整个书的所有参考来源。
角色表提示
为什么大师表?
上下文图像 AI(如 Nano Banana)更精确,如果它们有 单一、强大的参考图像,而非五个松散单图像。
操作方式:
- 生成: 用 Flux.2 单独创建角色(文本到图像),直到完美。
- 合成: 生成组合角色表,其中两个主角比例正确。注意比例匹配。
- 参考: 只用这个单一主图像作为场景生成输入。
效果: AI 现在不仅知道角色外观,还知道玛蒂尔达正好到小马肩膀。这样节省了后续数百次失败尝试于比例与大小。
步骤 3:在 Freepik Spaces 中生产
现在技术稍复杂些。儿童书远不止漂亮单图像集合。我需要自然流动、一致风格和重复元素(角、配角)。
单一生成器很快达到极限。人们会失去概览。
解决方案:节点系统,你可以像积木一样链接输入、参考和提示。
我知道我需要视觉系统,在其中连接输入、参考和提示作为构建块。选择落在 Freepik Spaces 新功能(替代品如 weavy.ai、Flora AI 或 ComfyUI)
原因?我喜欢这个平台(强大的欧洲解决方案,优秀定价,巨大势头)并想直接挑战新「Spaces」功能(仍在测试版)。
设置:一致性的驾驶舱
在 Freepik Spaces 中,我为自己建了一个「生产线」。核心是我的 图像 AI 上下文提示机器人,我直接作为助手集成。它将我的场景想法翻译成技术提示。指令在此。
为了机器人助手一致吐出我需要的图像,我给他附加固定额外规则集,每次场景应用。
这个儿童书的 6 黄金规则:
- 风格执行:「使用这个风格:[这里插入完整风格提示上文]。」
- 布局卫生:「无居中构图。图像一侧留空间放置文本(但不应为空白!)。」(对后续书籍排版至关重要!)
- 参考信任:「不要在提示中描述女孩和小马的外貌——它应该只使用参考图像。」(防止文本提示与参考图像相互冲突)。
- 对象逻辑:「独角兽角是金色的。」(旁注:这条规则有故事。没有这个澄清,AI 喜欢生成金色乐器(角)而非独角兽——或把掉落的角重新粘回小马上。AI 有时非常字面。)
- 年龄固定:「女孩 4 岁。」(防止她生成得「太成熟」)
工作流:从文本场景到图像
实践中如何?机器人只喂纯场景描述,我之前让 Gemini 总结。
输入(场景):
「森林边缘,温和日光下。女孩,大约 4 岁,卷发,彩色衣服,惊吓中后退一步。前方坐着一个白色小马,苦苦哭泣。没有角可见——只有悲伤的小马。背景森林开始,树木和好奇动物……」
过程:
- 合并:机器人取场景/对开页信息 + 6 规则 + 图像 AI 上下文提示机器人的指令 + 作为图像输入的主参考图像与角色。
- 提示生成:它生成干净图像提示,结合所有元素。
- 图像生成:这个提示现在与主参考图像结合。
- 模型使用谷歌 Nano Banana Pro 2K,纵横比 16:9(对开页)。
结果:系统交付图像,风格精确匹配,角色完美击中(感谢参考图像),构图留空间给文本(感谢规则)。
入门提示:完全免费,只用 Gemini 或 ChatGPT
不喜欢节点、复杂工作流或测试访问?没问题。你可以用免费谷歌 Gemini 或 ChatGPT 直接实现类似结果。
3 步骤:
1. 故事架构: 用上文提示,让它为你创建 12 对开页流程。
2. 图像(「复制粘贴」技巧): Gemini 能在聊天中直接创建图像。为保持半一致,需要提示纪律:
定义一次你的 角色块(如 「4 岁女孩,棕色卷发,星星衬衫,红膝盖」)。
定义一次你的 风格块(见上:「柔和梦幻水彩……」)。
提示: 为 每个 图像重新插入这两个块:[场景:发生什么?] + [角色块] + [风格块] + [规则:留大量文本空间]
3. 布局: 下载图像并打包到免费工具如 Canva 或 PowerPoint。在那里先添加文本。PDF 为祖父母完成!如果想打印,所有按需打印店也提供自家编辑器,可以在相册中放置文本(Cewe、Pixum、Fotofabrik……)
注意:一致性不会像专业工作流那样完美,但对入门足够神奇!
步骤 4:生成图像——资产参考与场景串联
工作流确立后,是苦力活:生产封面、标题页和所有 12 对开页。谁在这里认真工作,会很快遇到问题:交叉引用。
AI 能轻松生成简单「独角兽」。但「第 2 页苔藓中躺着的断金角」,必须在第 10 页矮人手中 完全 一样。同样,第 6 页欢迎我们的巨人,必须在第 7 页有相同鼻子和背心。
这里节点系统(如 Freepik Spaces)发挥全实力,因为我们可以模块化附加参考。我为此用两种技术:
技术 A:「资产参考」(角)
对必须总是相同外观的重要物品,我生成单独小参考图像(如仅金角作为中性参考图像)。
技巧:在角重要的场景(如河狸或矮人处),我将这个图像作为额外图像参考插入节点图。
结果:AI 现在不仅知道「做金角」,还知道「做这个金角」。
技术 B:「场景串联」(巨人 & 矮人)
有些角色只短暂出现,但必须在多页一致(巨人跨越 2 对开页)。这里我不创建自家角色表,而是利用时间线:
- 生成对开页 6(巨人出现)。
- 对开页 7,使用第 6 页成品图像作为额外图像参考。
- 效果:AI 从前图像接过巨人颜色调色板和粗略特征。读者感觉流畅过渡,像相机只换角度。
同样适用于矮人:一旦群像确立,作为桶细节场景参考。
入门提示:保持简单!
听到「场景串联」和「节点图」让你头疼?别担心。你常能通过 聪明叙事 绕过一致性问题。
原则: 如果某事太难描绘,就别展示!
例子: 第 7 页玛蒂尔达与巨人跟猫头鹰说话。图像「巨人 + 孩子 + 树中猫头鹰」对 AI 很复杂。
技术解决方案: 繁琐串联和修复。 简单解决方案: 做 特写!图像只显示树中大猫头鹰。文本叙述巨人站在旁边,但图像中无需看到。
记住: 好的简单图像总是比有挫败潜力的复杂图像更好。
步骤 5:图像编辑与放大
AI 艺术常见误解:「AI 吐出图像就完。」 也许适合 Instagram。但打印书?绝对不行。打印毫不宽恕。智能手机上看起来清晰的分辨率,在 A4 上像像素泥。AI 错误在屏幕上忽略,在纸上大喊。
所以这个步骤必不可少。我的工作流遵循 「最佳 8」策略:每场景生成 8 到 16 变体,取最佳作为基础。
但即使「最佳」也很少完美。
我的精炼管道如下:
A. 直接在 Freepik 中修复
常构图 90% 对,但细节烦人。
经典: 「独角兽」意外又长角。 经典 2: 玛蒂尔达手中的角突然成乐器。
不用重新生成(并失去好部分),我用 Freepik Spaces 中的编辑功能。编辑模式中简单提示:「移除角」 或 「替换为小金独角兽角」。节省时间和神经。为此用谷歌 Nano Banana Pro 相同 2K 分辨率——这样编辑不损失太多图像质量。
Freepik 的修复模式有时也产生好结果,尤其移除事物时。
PS:在 Freepik 达到极限的地方,我在 Adobe Photoshop/Lightroom 中进行修复。
B. 放大(Magnific Precision)
AI 图像常以低分辨率出生成器。为高质量打印,我们需要 300 dpi 在 42 cm 宽度(对开页)。
为此用 Magnific Precision 放大(集成在 Freepik)。Precision 模式确保细节优化而非改变。
目标分辨率:5504 x 3072 像素。
C. 在 Adobe Lightroom 中微调
以前我会开 Photoshop。现在常不需要,因为生成修复已到 Lightroom。我在一个工具中完成修复和外观。
- 外科手术(生成移除):手上第六指?背景烦叶?Lightroom 新「移除」工具中,我简单标记对象,AI 用水彩背景填充。如此好,现在 95% 情况不需要 Photoshop。
- 外观(色彩分级):这是书感最重要的步骤。AI 图像常有不同光氛围。在 Lightroom 中,我给所有 12 对开页覆盖预设,拉平对比,确保第 3 页森林「绿」与第 10 页一样。这创造视觉平静和一致。
步骤 6:针对主题生成文本
现在圈子闭合。
AI 书中常见错误:先死板写完文本,然后希望图像生成器精确实现。常导致挫败。
2026 年我的方法不同:视觉优先。 在 12 对开页视觉最终和修复后,我写最终文本。或更准确:让人写。
策略:「导演提示」
为了 Gemini 知道旅程走向,我没逐页隔离考虑。我先给模型 完整情节弧(所有 12 对开页) 作为上下文。然后上传单个图像。
提示:Gemini 完美文本提示
想要精确匹配图像的文本?为你调整这个结构:
书中结果:
因为 Gemini 能「看到」图像,文本完美匹配生成细节。第 10 页例子(胶水灾难):图像中矮人头朝下卡在桶里。Gemini 立即识别并处理:
步骤 7:排版与印刷——触感至上
最终,最美 AI 图像无用,如果作为 PDF 在硬盘积灰。儿童书必须能触摸。必须稳定、好闻,并原谅粘儿童手指。
布局(排版):
我在 Adobe InDesign 中排版。为什么?因为我需要对排版、版面和切割余量(出血)完全控制。如果图像无边打印,必须超出纸边 3 mm。
入门提示:没 InDesign 订阅?别绝望。Canva 或印刷提供商在线编辑器(如 Saal Digital 或 fotofabrik.de)如今如此好,你能实现绝对可接受结果。只重要:给文本呼吸空间!
印刷
我以 21×21 cm 硬纸书 在 fotofabrik.de 印刷《玛蒂尔达与独角兽》。我故意选硬纸书格式。厚页感觉值钱,材质色彩再现 fantastic。AI 生成水彩结构如此好显现,你几乎以为能感觉到粗糙纸张。
步骤 8:最美的时刻——赠送
所有努力,所有 30 小时工作,所有与 AI 关于河狸眼镜的讨论——在一秒消退。就是递出书时。
当自家孩子翻开书,眼睛变大,突然说:「看爸爸,这是我!」
我们为此做这一切。不为 LinkedIn,不为技术演示,而是这个时刻。
结语:呼吁质量而非「AI 垃圾」
技术上,我们达标。2026 年工具到位,它们强大,民主化图像创建。但在这里,我觉得重要澄清:你们看到的书,是我女儿和我心血项目。它精彩展示,今天在家电脑上可能。
但:即使这个结果,对我在书店真正出版的个人质量标准仍不够。为什么强调?因为我不愿以「耶,一切自动!」结束,而是三个亲近想法:
1. 要求:儿童值得质量
市场正淹没在草率生成内容——所谓「AI 垃圾」。有六指手、不合逻辑故事和错误文本的书。请别成为其中。
儿童是最批判、最重要受众。如果为他们生产,要求必须:完美。正确视觉、一致世界和无错文本是最低。谁再加教育价值,值得勤奋星星。AI 不是平庸的免费通行证。
2. 努力:人机循环非可选
别被骗:好书不会 5 分钟按键生成。《玛蒂尔达与独角兽》花约 30 小时。
3 小时构思,5 小时「浪费」于首方法(探索 & 发现阶段),17 小时开发、视觉 curation(并丢弃数百坏变体)以及编辑,5 小时文本协作、排版、布局和润色。
当然会更快。我也能取首草稿。但个人要求(幸运)挡路。所以别靠全自动。循环中人是质量决定因素。
3. 给出版商和作者的话
是的,我看着你们!我每天给我 4 岁女儿读书。她吞噬书,即使不会读,因为她感觉细节中的爱。
对孩子,书是魔法对象。AI 可成过程一部分,高效工作或解阻塞。但它永远不能取代人类专业和创意灵魂。
别让技术诱使你稀释要求。用 AI 作为工具,但继续聘请真实作者和插画家,知道如何让儿童眼睛发亮。
最终成果:玛蒂尔达与独角兽
够理论和训诫词。你们想知道 30 小时努力、「最佳 16」疯狂和与「德国官僚河狸」的讨论值得吗?
这里你们能数字翻阅成品书——包括闪光条款和彩虹胡须。阅读愉快!
《玛蒂尔达与独角兽》展示,当把 AI 视为工具而非替代时,创意可能。但如何将这力量可扩展集成专业营销工作流?当非仅爸爸,而是整个部门提示时,如何保持品牌一致?
我们正为此帮助。无论你想提升团队,还是找战略伙伴——我们有合适格式:
相关文章
如何用AI模仿任何人的写作风格
2个方法
2025/6/8用AI帮房地产广告公司处理发票,每月无需任何工作赚取650美元
我合作的这家日本房地产营销公司为几十家房地产开发商在雅虎广告、谷歌广告和META上投放广告。 每个月,他们要花好几天时间手工处理发票,即从各种不同格式里提取数据,全部重新整理成符合日本会计标准的格式...
2025/11/18AI正让传统求职方法实效:这16位营销岗位求职者分享了他们的经历
当下的营销岗位求职市场,竞争激烈得可怕。有人投了200多份简历才换来20次初面。但同时,也有人凭借正确的方法脱颖而出,取得了成功。
2025/9/23谷歌正用 AI 让每个学生得到专属定制教材,这才是教材的未来
教科书是教育的基石,但它们有固定局限:所有学生的教科书一样、信息过时。那么,如果每个学生都能得到一本专门为他们自己量身定制的教科书呢?
2025/9/21