E05 GPT-Image-2很强，但品牌真能用 AI 生图做广告吗？

-本期简介-

大家好，欢迎收听和关注播客《Afterprompt 码后炮》，这是我们的第五期节目《GPT-Image-2很强，但品牌真能用 AI 生图做广告吗?》。从GPT-Image-2 带来的照片级真实感和大片质感出发，四位主播深入探讨了 AI 生图在品牌营销中的应用边界。这一期既有技术原理的拆解——为什么会出现六根手指、文字错误，也有实战思考——什么场景该用真人、什么场景该用 AI。核心问题不是技术能不能做，而是用户心理接不接受，以及营销人如何在效率与信任之间找到平衡。

-人物介绍-

Claire | 品牌和市场策略 | 品牌叙事、组织变革、全球化视野(WPP和甲方市场部leader)

Craig | 爆款内容操盘手 | AI 社区前沿、内容算法、用户增长、AI 审美(内容平台爆款内容)

Gaudi | 营销实操派 | 科研支撑、执行链路优化、营销管理和运营

大脑呆 | 商业化与变现 | 流量变现、商业投资逻辑、广告逻辑

-时间轴-

00:02 ‒ 03:15 GPT-Image-2 的技术突破:真实感与信息处理

• GPT-Image-2 的两大突破:

◦ 真实感飞跃：年代感照片、名人合影、群像照片不再有统一动作，明显感觉参数库巨大

◦ 信息处理能力增强：中文字、英文字、结构化信息（如发动机解剖说明书）生成能力大幅提升

• 与前代的对比:

◦ Midjourney （曾经的生图之王）通过大语言模型先处理提示词，再生成结构化提示词喂给生图模型

◦ Image 2 把这个流程大大增强，搜索能力更强，文字识别能力大幅提升

• 从 Stable Diffusion 到 Midjourney 再到 Image 2 的演进路径

03:15 ‒ 06:41 AI 生图的技术原理与常见 Bug

• 经典的三大 AI 生图 bug：

◦ 手指画错（六根手指问题）：AI 不懂物理世界，训练时可能出现错误

◦ 文字渲染失败：分辨率低+中文字库庞大（几万字 vs 英文26字母）+训练语料不足

◦ 微调后图片崩盘：每次都是从噪声重新开始生成

• Diffusion 原理解析：

◦ 先生成噪声图（类似电视雪花屏），根据提示词从模糊到清晰逐步推导

◦ AI 不知道自己画的是什么，导致“尸块”问题——拆分理解后重新拼合出现错误

• 第一张图特别好的心理学原因：

◦ 用户没有预期，先入为主

◦ 给的信息少，AI 给什么都觉得不错

◦ 改细节时用户有了明确预期，AI 每次从噪声重新生成导致难以控制

06:41 ‒ 09:53 如何让 AI 生图越改越好：从 Text to Image 到 Image to Image

• 高迪的实战经验：

◦ 第一轮：检查描述、画面、风格是否对（如要真人不要动画）

◦ 第二轮：基于第一张图作为附件参考，写清楚要改的细节

◦ 原理：从 Text to Image 变成 Image to Image，有参考图后效果更好

• Craig 的上下文理论：

◦ AI 上下文是有限的，不是越多越好

◦ 上下文越多噪音越多，可能结果更差

◦ 类比：给设计师下 brief 时也会找情绪版参考

09:53 ‒ 12:17 GPT Image 2.0 的底层创新:Harness + 三层架构

• 沃顿教授的三层框架分析：

◦ 底层模型：GPT 5.5 从 0 开始重新训练（不同于 5.1→5.2 的增量训练）

◦ 应用层：从 ChatGPT/Chatbox 接入

◦ Harness 层：模糊指令处理能力的关键

• Harness 的威力：

◦ 用户只需 20 字以内模糊指令，无需专业黑话（masterpiece、4K、8K、相机型号等）

◦ GPT 5.5 先生成一大串提示词，进行搜索匹配、深度背景搜索、结构化处理

◦ 处理后的 Prompt 再喂给 AI 生图模型

◦ 增加了多模态识别能力：自动识别要改的部分重新生成

• 两个大模型协同：大语言模型（GPT 5.5）+ 图像生成模型

12:17 ‒ 17:18 Vibe Design：从 Brief 到 Prompt 的能力迁移

• 核心观点：

◦ AI 生图流程类似传统广告流程：Account 拿 reference 确定方向 → Designer 完成设计

◦ 区别：Text to Image 是概率选择，人的设计是漏斗式精修

◦ 加了 Harness 后，AI 也能像漏斗一样慢慢收窄，得到精细化结果

• Vibe Design 的定义：

◦ 通过语言描述画面，省去设计师环节

◦ 核心能力一：能把画面用语言描述出来

◦ 核心能力二：写详细的 brief/工作简报

◦ 高迪的实践：Reference + 详细 Prompt，手稿和终稿都由自己决定，省去与设计师 Argue 的时间

17:18 ‒ 22:01 与设计师沟通 vs 与 AI 沟通：信任的建立与 Skills 化

• 沟通成本的降低：

◦ 设计师：两个构建（你的+他的）相遇产生 gap，需要长时间服务品牌才能抓到洞见

◦ AI：喂 Skills 可以快速建立品牌理解，训练 AI 比训练设计师快

• 潜在风险：AI 完全符合预期，设计师可能带来惊喜

• Design MD / Skills 的应用：

◦ 建立品牌 VI、设定、对话框大小、字体、LOGO 颜色、主色配色辅色

◦ 喂给 AI 后自动触发生成符合规范的内容

◦ 可一次性生成不同平台不同尺寸的素材

• Lovart 等工具：无限画布 + 区域生成 + Agent 能力

22:01 ‒ 24:32 品牌营销的核心困境:用户为什么抵触 AI 广告？

• 小红书用户的三大吐槽：

◦ 觉得丑、视觉毒药

◦ 觉得品牌在糊弄、连真人拍摄成本都不愿投

◦ 对 AI 的刻板印象：时间短、省钱、不可靠

• 品牌的本质：建立认知与信任

◦ 通过 LOGO、广告、视觉让消费者认识、了解、信任品牌

◦ AI 制作让用户失去信任：“我值得被好好对待,值得人花时间精力投入”

• 媒介环境的影响：

◦ Digital 小屏幕：假人感不强

◦ 户外/地铁广告：大尺寸视觉冲击力强，AI 感明显

24:32 ‒ 28:35 情感投射的三个层级：产品图 vs 普通人 vs 明星

• Craig 的情感投射光谱理论：

◦ 没有情感投射(纯产品图)：宽容度高，3D 渲染本来就有假质感

◦ 很多情感投射(AI 生成明星)：抵触情绪最高（爱奇艺 AI 明星事件）

◦ 中间地带（AI 生成普通人广告）：介于两者之间

• Gaudi的反驳：单独拍产品更危险

◦ 有人有故事性和场景

◦ 纯产品用 AI 一眼看出是假产品

• Craig 的反驳：产品图消耗量最大（LiblibAI、Lovart 数据），宽容度更高

28:35 ‒ 31:09 营销人的决策边界：何时用 AI、何时用真人？

• 高迪的核心问题：市场部需要判断什么情况用真人、什么情况用 AI

• Craig 的使用场景建议：

◦ 可以用 AI：指示性、说明性内容（民宿指引、产品说明书、公益广告）——功能性强

◦ 不该用 AI：建立品牌形象、情感连接场景——用户需要被真切的人对待

• 小红书的 AI 内容治理策略：

◦ 鼓励：AI 艺术创作、知识分享、真实有情感的内容

◦ 拒绝：AI Slop（重复性高、无实质内容、废话多、模板化）

• 工具强大后对人的要求更高：品味、社会学、心理学把控能力

31:09 ‒ 34:37 超越生图的 Vibe Design：PPT 的 HTML 化与 Claude Design

• PPT 的 AI 困境：

◦ 格式统一难、中文标题换行问题

◦ 原因：AI 从代码层理解，看不到“文字跳到下一行”，只看到文本框长度

◦ PPT 是 UI 产物，AI 通过 UI 交互困难（需要视觉识别）

• HTML Deck 的优势：

◦ Vibe Coding 能力强，各大厂商针对性加强

◦ 体积小、可编辑性强、交互效果好

◦ Craig 的实践：用 HTML 给中学生解释 AI 概念，用动画和交互讲清分词、TOKEN

◦ 建议：把之前的 PPT 直接给 AI，让它生成 HTML 演示文档

• Claude Design 的影响：

◦ 可视化 + UI 化的设计工作

◦ 生成代码后可视化呈现（APP/网页）

◦ 画圈点击评论修改，解决“指哪打哪”的问题

◦ 上线前传言导致 Figma、Adobe 等设计大厂股票大跌

• Vibe Design 的范畴：不只是生图生视频，还包括 UI、HTML、代码化设计

-节目中提到的工具 & 资源-

AI 生图工具与模型

• GPT Image 2.0 — OpenAI 最新生图模型，真实感和信息处理能力飞跃，可用模糊指令生成照片级图片

• GPT 5.5 — OpenAI 从 0 重新训练的大语言模型，为 Image 2.0 提供提示词处理能力

• Midjourney /Nano Banana — 曾经的生图之王，通过大语言模型处理提示词后生图

• Stable Diffusion — 最早期开源 AI 生图项目，基于扩散（Diffusion）原理

• Seedance / Seedream — 知名 AI 生图模型

• LiblibAI — Craig 曾供职的 AI 生图平台，产品图消耗量最大

• Lovart — 新一代 AI 生图工具，生完图后可精确修改编辑，支持无限画布和区域生成

设计与开发工具

• Claude Design — Anthropic 新产品，可视化 UI 化的 AI 设计工具，上线传言导致 Figma/Adobe 股票大跌

• Figma — 主流设计工具，受 Claude Design 冲击

• Adobe — 设计软件大厂，受 Claude Design 冲击

• PowerPoint — 传统 PPT 工具，对 AI 不友好

• HTML Deck — 用 HTML 代码生成的演示文档，体积小、交互强、适合 AI 生成

AI 能力与技术

• Harness — 给 AI 套上的可靠运行系统，Image 2.0 通过 Harness 处理模糊指令

• MCP — Model Context Protocol，Claude Design 等工具的能力组件

• Skills — 品牌知识库系统，可快速让 AI 理解品牌 VI、规范、设定

• Vibe Coding — AI 代码生成能力，各大厂商针对性加强

• Agent — 智能体能力，如 Lovart 的自动识别修改区域

内容平台

• 小红书 — 对 AI 内容进行治理，鼓励艺术创作/知识分享,拒绝 AI Slop

• 爱奇艺 — AI 明星事件，引发用户强烈抵触

-概念速查-

Vibe Design — 通过语言模式描述画面并让 AI 生成的能力。核心是把传统广告流程中“写 brief 给设计师”的能力转化为“写 Prompt 给 AI”，省去中间沟通环节。要求两个核心能力：能用语言描述画面 + 写详细的工作简报。本质是把市场营销人的 brief 能力迁移到 AI 平台

Diffusion (扩散) — AI 生图的底层原理。先生成噪声图（类似电视雪花屏），根据提示词从模糊到清晰逐步推导。每次修改都是从噪声重新开始生成，所以难以精确控制细节

尸块 — AI 生图的训练机制导致的问题。AI 将图片拆分理解后重新拼合，可能拼合出错，产生六指、多眼睛等不符合物理认知的结果。AI 不知道自己画的是什么物理状态

Text to Image vs Image to Image — 两种 AI 生图模式。Text to Image 是从文字描述生成图片，像在大池子里概率选择；Image to Image 是基于参考图生成，有明确参考后效果更好,更像漏斗式精修过程

GPT Image 2.0 的三层架构 — 底层模型（GPT 5.5 从 0 重新训练）+ 应用层（ChatGPT 接入）+ Harness 层（模糊指令处理）。两个大模型协同工作：大语言模型处理提示词，图像生成模型执行生图

情感投射光谱 — Craig 提出的用户心理理论。没有情感投射（纯产品图）宽容度高 → 中间地带（AI 生成普通人）部分抵触 → 很多情感投射（AI 生成明星）抵触情绪最高。情感投射越强，对 AI 的抵触越大

AI Slop — 低质量 AI 内容：重复性高、无实质内容、废话多、模板化生成。与艺术创作、知识分享、真实有情感的 AI 内容相对

Design MD / Skills — 品牌设计的 AI 知识库。包含品牌 VI、设定、对话框大小、字体、LOGO 颜色、主色配色辅色等规范。喂给 AI 后可自动触发生成符合品牌规范的内容，训练 AI 比训练设计师快

品牌信任困境 — 用户对 AI 广告的心理抵触。品牌本质是建立认知与信任，但 AI 制作给用户“时间短、省钱、不可靠”的刻板印象。核心矛盾：“我值得被好好对待、值得人花时间精力投入” vs “品牌用 AI 糊弄我”

功能性 vs 情感性场景 — 判断是否使用 AI 的决策框架。功能性强的场景（指示性、说明性内容如民宿指引、产品说明书、公益广告）可大胆用 AI：建立品牌形象、情感连接的场景应该用真人，因为用户需要被真切的人对待

HTML Deck — 用 HTML 代码生成的演示文档，替代传统 PPT。优势：体积小、可编辑性强、交互效果好、动画丰富、适合 AI 生成。PPT 是 UI 产物，AI 通过 UI 交互困难：HTML 是代码产物,AI 的 Vibe Coding 能力强

Claude Design — Anthropic 的可视化设计工具。生成代码后可视化呈现为 APP/网页，支持画圈点击评论修改，解决 AI 生图“指哪打哪”的问题。上线前传言导致 Figma、Adobe 等设计大厂股票大跌

品味要求提升论 — Craig 的核心观点：AI 或工具越强大，对人的品味、社会学、心理学把控能力要求越高。Vibe Design 的目的不是让 AI 产生什么，而是影响用户什么样的心理、让用户产生什么样的决策

「本期节目由声湃提供录音场地」,感谢大力支持。

欢迎各位扫码加入我们的飞书社群

(社群中将分享更多 AI 生图实战案例和 Vibe Design 技巧)