-本期简介-
大家好,欢迎收听和关注播客《Afterprompt 码后炮》,这是我们的第五期节目《GPT-Image-2很强,但品牌真能用 AI 生图做广告吗?》。从GPT-Image-2 带来的照片级真实感和大片质感出发,四位主播深入探讨了 AI 生图在品牌营销中的应用边界。这一期既有技术原理的拆解——为什么会出现六根手指、文字错误,也有实战思考——什么场景该用真人、什么场景该用 AI。核心问题不是技术能不能做,而是用户心理接不接受,以及营销人如何在效率与信任之间找到平衡。
-人物介绍-
Claire | 品牌和市场策略 | 品牌叙事、组织变革、全球化视野(WPP和甲方市场部leader)
Craig | 爆款内容操盘手 | AI 社区前沿、内容算法、用户增长、AI 审美(内容平台爆款内容)
Gaudi | 营销实操派 | 科研支撑、执行链路优化、营销管理和运营
大脑呆 | 商业化与变现 | 流量变现、商业投资逻辑、广告逻辑
-时间轴-
‒ GPT-Image-2 的技术突破:真实感与信息处理
• GPT-Image-2 的两大突破:
◦ 真实感飞跃:年代感照片、名人合影、群像照片不再有统一动作,明显感觉参数库巨大
◦ 信息处理能力增强:中文字、英文字、结构化信息(如发动机解剖说明书)生成能力大幅提升
• 与前代的对比:
◦ Midjourney (曾经的生图之王)通过大语言模型先处理提示词,再生成结构化提示词喂给生图模型
◦ Image 2 把这个流程大大增强,搜索能力更强,文字识别能力大幅提升
• 从 Stable Diffusion 到 Midjourney 再到 Image 2 的演进路径
‒ AI 生图的技术原理与常见 Bug
• 经典的三大 AI 生图 bug:
◦ 手指画错(六根手指问题):AI 不懂物理世界,训练时可能出现错误
◦ 文字渲染失败:分辨率低+中文字库庞大(几万字 vs 英文26字母)+训练语料不足
◦ 微调后图片崩盘:每次都是从噪声重新开始生成
• Diffusion 原理解析:
◦ 先生成噪声图(类似电视雪花屏),根据提示词从模糊到清晰逐步推导
◦ AI 不知道自己画的是什么,导致“尸块”问题——拆分理解后重新拼合出现错误
• 第一张图特别好的心理学原因:
◦ 用户没有预期,先入为主
◦ 给的信息少,AI 给什么都觉得不错
◦ 改细节时用户有了明确预期,AI 每次从噪声重新生成导致难以控制
‒ 如何让 AI 生图越改越好:从 Text to Image 到 Image to Image
• 高迪的实战经验:
◦ 第一轮:检查描述、画面、风格是否对(如要真人不要动画)
◦ 第二轮:基于第一张图作为附件参考,写清楚要改的细节
◦ 原理:从 Text to Image 变成 Image to Image,有参考图后效果更好
• Craig 的上下文理论:
◦ AI 上下文是有限的,不是越多越好
◦ 上下文越多噪音越多,可能结果更差
◦ 类比:给设计师下 brief 时也会找情绪版参考
‒ GPT Image 2.0 的底层创新:Harness + 三层架构
• 沃顿教授的三层框架分析:
◦ 底层模型:GPT 5.5 从 0 开始重新训练(不同于 5.1→5.2 的增量训练)
◦ 应用层:从 ChatGPT/Chatbox 接入
◦ Harness 层:模糊指令处理能力的关键
• Harness 的威力:
◦ 用户只需 20 字以内模糊指令,无需专业黑话(masterpiece、4K、8K、相机型号等)
◦ GPT 5.5 先生成一大串提示词,进行搜索匹配、深度背景搜索、结构化处理
◦ 处理后的 Prompt 再喂给 AI 生图模型
◦ 增加了多模态识别能力:自动识别要改的部分重新生成
• 两个大模型协同:大语言模型(GPT 5.5)+ 图像生成模型
‒ Vibe Design:从 Brief 到 Prompt 的能力迁移
• 核心观点:
◦ AI 生图流程类似传统广告流程:Account 拿 reference 确定方向 → Designer 完成设计
◦ 区别:Text to Image 是概率选择,人的设计是漏斗式精修
◦ 加了 Harness 后,AI 也能像漏斗一样慢慢收窄,得到精细化结果
• Vibe Design 的定义:
◦ 通过语言描述画面,省去设计师环节
◦ 核心能力一:能把画面用语言描述出来
◦ 核心能力二:写详细的 brief/工作简报
◦ 高迪的实践:Reference + 详细 Prompt,手稿和终稿都由自己决定,省去与设计师 Argue 的时间
‒ 与设计师沟通 vs 与 AI 沟通:信任的建立与 Skills 化
• 沟通成本的降低:
◦ 设计师:两个构建(你的+他的)相遇产生 gap,需要长时间服务品牌才能抓到洞见
◦ AI:喂 Skills 可以快速建立品牌理解,训练 AI 比训练设计师快
• 潜在风险:AI 完全符合预期,设计师可能带来惊喜
• Design MD / Skills 的应用:
◦ 建立品牌 VI、设定、对话框大小、字体、LOGO 颜色、主色配色辅色
◦ 喂给 AI 后自动触发生成符合规范的内容
◦ 可一次性生成不同平台不同尺寸的素材
• Lovart 等工具:无限画布 + 区域生成 + Agent 能力
‒ 品牌营销的核心困境:用户为什么抵触 AI 广告?
• 小红书用户的三大吐槽:
◦ 觉得丑、视觉毒药
◦ 觉得品牌在糊弄、连真人拍摄成本都不愿投
◦ 对 AI 的刻板印象:时间短、省钱、不可靠
• 品牌的本质:建立认知与信任
◦ 通过 LOGO、广告、视觉让消费者认识、了解、信任品牌
◦ AI 制作让用户失去信任:“我值得被好好对待,值得人花时间精力投入”
• 媒介环境的影响:
◦ Digital 小屏幕:假人感不强
◦ 户外/地铁广告:大尺寸视觉冲击力强,AI 感明显
‒ 情感投射的三个层级:产品图 vs 普通人 vs 明星
• Craig 的情感投射光谱理论:
◦ 没有情感投射(纯产品图):宽容度高,3D 渲染本来就有假质感
◦ 很多情感投射(AI 生成明星):抵触情绪最高(爱奇艺 AI 明星事件)
◦ 中间地带(AI 生成普通人广告):介于两者之间
• Gaudi的反驳:单独拍产品更危险
◦ 有人有故事性和场景
◦ 纯产品用 AI 一眼看出是假产品
• Craig 的反驳:产品图消耗量最大(LiblibAI、Lovart 数据),宽容度更高
‒ 营销人的决策边界:何时用 AI、何时用真人?
• 高迪的核心问题:市场部需要判断什么情况用真人、什么情况用 AI
• Craig 的使用场景建议:
◦ 可以用 AI:指示性、说明性内容(民宿指引、产品说明书、公益广告)——功能性强
◦ 不该用 AI:建立品牌形象、情感连接场景——用户需要被真切的人对待
• 小红书的 AI 内容治理策略:
◦ 鼓励:AI 艺术创作、知识分享、真实有情感的内容
◦ 拒绝:AI Slop(重复性高、无实质内容、废话多、模板化)
• 工具强大后对人的要求更高:品味、社会学、心理学把控能力
‒ 超越生图的 Vibe Design:PPT 的 HTML 化与 Claude Design
• PPT 的 AI 困境:
◦ 格式统一难、中文标题换行问题
◦ 原因:AI 从代码层理解,看不到“文字跳到下一行”,只看到文本框长度
◦ PPT 是 UI 产物,AI 通过 UI 交互困难(需要视觉识别)
• HTML Deck 的优势:
◦ Vibe Coding 能力强,各大厂商针对性加强
◦ 体积小、可编辑性强、交互效果好
◦ Craig 的实践:用 HTML 给中学生解释 AI 概念,用动画和交互讲清分词、TOKEN
◦ 建议:把之前的 PPT 直接给 AI,让它生成 HTML 演示文档
• Claude Design 的影响:
◦ 可视化 + UI 化的设计工作
◦ 生成代码后可视化呈现(APP/网页)
◦ 画圈点击评论修改,解决“指哪打哪”的问题
◦ 上线前传言导致 Figma、Adobe 等设计大厂股票大跌
• Vibe Design 的范畴:不只是生图生视频,还包括 UI、HTML、代码化设计
-节目中提到的工具 & 资源-
AI 生图工具与模型
• GPT Image 2.0 — OpenAI 最新生图模型,真实感和信息处理能力飞跃,可用模糊指令生成照片级图片
• GPT 5.5 — OpenAI 从 0 重新训练的大语言模型,为 Image 2.0 提供提示词处理能力
• Midjourney /Nano Banana — 曾经的生图之王,通过大语言模型处理提示词后生图
• Stable Diffusion — 最早期开源 AI 生图项目,基于扩散(Diffusion)原理
• Seedance / Seedream — 知名 AI 生图模型
• LiblibAI — Craig 曾供职的 AI 生图平台,产品图消耗量最大
• Lovart — 新一代 AI 生图工具,生完图后可精确修改编辑,支持无限画布和区域生成
设计与开发工具
• Claude Design — Anthropic 新产品,可视化 UI 化的 AI 设计工具,上线传言导致 Figma/Adobe 股票大跌
• Figma — 主流设计工具,受 Claude Design 冲击
• Adobe — 设计软件大厂,受 Claude Design 冲击
• PowerPoint — 传统 PPT 工具,对 AI 不友好
• HTML Deck — 用 HTML 代码生成的演示文档,体积小、交互强、适合 AI 生成
AI 能力与技术
• Harness — 给 AI 套上的可靠运行系统,Image 2.0 通过 Harness 处理模糊指令
• MCP — Model Context Protocol,Claude Design 等工具的能力组件
• Skills — 品牌知识库系统,可快速让 AI 理解品牌 VI、规范、设定
• Vibe Coding — AI 代码生成能力,各大厂商针对性加强
• Agent — 智能体能力,如 Lovart 的自动识别修改区域
内容平台
• 小红书 — 对 AI 内容进行治理,鼓励艺术创作/知识分享,拒绝 AI Slop
• 爱奇艺 — AI 明星事件,引发用户强烈抵触
-概念速查-
Vibe Design — 通过语言模式描述画面并让 AI 生成的能力。核心是把传统广告流程中“写 brief 给设计师”的能力转化为“写 Prompt 给 AI”,省去中间沟通环节。要求两个核心能力:能用语言描述画面 + 写详细的工作简报。本质是把市场营销人的 brief 能力迁移到 AI 平台
Diffusion (扩散) — AI 生图的底层原理。先生成噪声图(类似电视雪花屏),根据提示词从模糊到清晰逐步推导。每次修改都是从噪声重新开始生成,所以难以精确控制细节
尸块 — AI 生图的训练机制导致的问题。AI 将图片拆分理解后重新拼合,可能拼合出错,产生六指、多眼睛等不符合物理认知的结果。AI 不知道自己画的是什么物理状态
Text to Image vs Image to Image — 两种 AI 生图模式。Text to Image 是从文字描述生成图片,像在大池子里概率选择;Image to Image 是基于参考图生成,有明确参考后效果更好,更像漏斗式精修过程
GPT Image 2.0 的三层架构 — 底层模型(GPT 5.5 从 0 重新训练)+ 应用层(ChatGPT 接入)+ Harness 层(模糊指令处理)。两个大模型协同工作:大语言模型处理提示词,图像生成模型执行生图
情感投射光谱 — Craig 提出的用户心理理论。没有情感投射(纯产品图)宽容度高 → 中间地带(AI 生成普通人)部分抵触 → 很多情感投射(AI 生成明星)抵触情绪最高。情感投射越强,对 AI 的抵触越大
AI Slop — 低质量 AI 内容:重复性高、无实质内容、废话多、模板化生成。与艺术创作、知识分享、真实有情感的 AI 内容相对
Design MD / Skills — 品牌设计的 AI 知识库。包含品牌 VI、设定、对话框大小、字体、LOGO 颜色、主色配色辅色等规范。喂给 AI 后可自动触发生成符合品牌规范的内容,训练 AI 比训练设计师快
品牌信任困境 — 用户对 AI 广告的心理抵触。品牌本质是建立认知与信任,但 AI 制作给用户“时间短、省钱、不可靠”的刻板印象。核心矛盾:“我值得被好好对待、值得人花时间精力投入” vs “品牌用 AI 糊弄我”
功能性 vs 情感性场景 — 判断是否使用 AI 的决策框架。功能性强的场景(指示性、说明性内容如民宿指引、产品说明书、公益广告)可大胆用 AI:建立品牌形象、情感连接的场景应该用真人,因为用户需要被真切的人对待
HTML Deck — 用 HTML 代码生成的演示文档,替代传统 PPT。优势:体积小、可编辑性强、交互效果好、动画丰富、适合 AI 生成。PPT 是 UI 产物,AI 通过 UI 交互困难:HTML 是代码产物,AI 的 Vibe Coding 能力强
Claude Design — Anthropic 的可视化设计工具。生成代码后可视化呈现为 APP/网页,支持画圈点击评论修改,解决 AI 生图“指哪打哪”的问题。上线前传言导致 Figma、Adobe 等设计大厂股票大跌
品味要求提升论 — Craig 的核心观点:AI 或工具越强大,对人的品味、社会学、心理学把控能力要求越高。Vibe Design 的目的不是让 AI 产生什么,而是影响用户什么样的心理、让用户产生什么样的决策
「本期节目由声湃提供录音场地」,感谢大力支持。
欢迎各位扫码加入我们的飞书社群

(社群中将分享更多 AI 生图实战案例和 Vibe Design 技巧)
