

E003.AI生视频模型的3年进化史(2023-2026)▶️播客简介 本期播客按2023–2026 时间线,系统梳理全球 AI 生视频技术发展:先科普文生视频、图生视频、视频编辑三大核心类型,再按时间顺序复盘 OpenAI Sora、Google Veo、Runway 等国际模型的迭代历程,重点呈现中国模型从追赶到反超的关键节点,包括字节 Seedance、快手可灵、阿里通义万相、腾讯混元、生数 Vidu 等国产第一梯队产品;同时对比商业模型与开源模型的差异、核心技术路线(扩散模型 + Transformer),并覆盖普通人、创作者、企业的实用场景与未来趋势。 感谢大家的收听!欢迎大家的评论
E002.AI生图模型3年进化史(2023-2026)核心主题:2023-2026年AI生图模型的进化历程、核心突破及实用指南 ▶️播客笔记 一、开场暖场 核心:AI生图已广泛应用于短视频、电商海报、游戏素材等场景,本期聚焦2023-2026年生图模型从“凑活看”到“主流创作工具”的进化,内容无晦涩术语,适配所有听众。 二、引子:什么是生图模型? 1. 核心定义 无需绘画基础,输入文字提示(如“一只橘猫趴在阳光下的沙发上,画面温暖柔和”),AI即可自动生成对应画面。 2. 三大主流技术路线 * GAN:老一辈技术,出图快、适合早期人脸/风格化创作;缺点是训练不稳、易崩,现在基本淘汰。 * 扩散模型(当前主流):代表模型Midjourney、Stable Diffusion,原理是“加噪声-去噪声”;优点是画质高、细节足、画风多样、可控性强;缺点是生成慢、吃算力。 * 自回归模型:逐像素生成,优点是稳定、语义理解准;缺点是极慢,高清大图适配差,细节不及扩散模型。 3. 关键前提 2022年生图模型已出现爆发苗头(Stable Diffusion、DALL·E等可生成高质量图像,webui式工具流行),但2023-2026年才是从“能用”走向“好用、可控、专业”的关键三年。 三、核心内容:2023-2026.2 生图模型进化时间线 (一)2023年:破局之年——从“自由瞎画”到“精准可控” 1. 核心突破:ControlNet技术 相当于给AI画“草稿”,可精准控制人物姿态、场景结构,解决了AI画人手脚错位、姿态奇怪的痛点,提升生图可控性,为后续应用奠定基础。 2. 明星模型及亮点 * Midjourney V5:分辨率从512×512翻倍至1024×1024,优化手部细节,支持风格化参数、无缝平铺、自定义纵横比;用户规模爆发(Discord社区超1400万),采用SaaS订阅制,市场份额居首(26.8%)。 * Stable Diffusion XL(SDXL)1.0: 35亿参数base模型+66亿参数refiner模型,双模型架构实现高清生成;后续SDXL Turbo通过蒸馏技术将生成步数压缩至1-4步,实现实时生成;开源特性,占AI生图市场80%份额。 * DALL-E 3:基于ChatGPT原生构建,语义理解能力极强,可精准还原复杂提示词的所有细节,与ChatGPT深度集成,降低使用门槛。 3. 行业影响 AI生图走进日常,提升设计、自媒体等行业效率;游戏美术岗位需求下降58%,AI训练师岗位激增320%;《太空歌剧院》获奖,标志AI艺术获主流认可;全球市场规模从2.57亿美元增长至2.99亿美元。 (二)2024年:变革之年——架构升级+中国厂商崛起 1. 核心突破:Transformer架构替代传统U-Net架构 以FLUX.1为代表,生图速度大幅提升(几秒生成高清图),细节处理能力升级,可适配多人聚会、大型景观等复杂场景。 2. 明星模型及亮点 * SD3(Stability AI):混合架构,采用整流流技术和多模态DiT架构,文字渲染、多主体关系理解出色。 * FLUX.1 Pro:复杂场景理解、细节生成、美学质量达顶尖水平,受专业设计师青睐。 * Imagen 3(谷歌):光影真实感强,媲美专业摄影,语义理解能力优秀。 * 混元DiT(腾讯):业内首个中文原生DiT架构开源模型(15亿参数),精准理解中文成语、古风描述,贴合中式审美,打破国外垄断。 3. 行业现状 中文用户无需再翻译提示词,使用门槛降低;市面上出现多款特定场景SaaS图片处理工具(虚拟试穿、背景更改等),未出现通用生图模型。 (三)2025年:融合之年——多模态+轻量化+垂直落地 1. 核心趋势:原生多模态 生图模型可结合文本、音频等形式,实现“图文联动”(如输入故事生成连贯画面),打破“输一句话、出一张图”的单一模式。 2. 明星模型及亮点(分国内外) 国内模型 * 混元图像3.0(腾讯):80亿参数,混合专家架构,高清细腻、常识推理强,全球26个主流模型中排名第一,开源商用。 * Z-Image(阿里):轻量化路线(6亿参数),普通电脑/笔记本可流畅运行,Turbo版2.3秒生成1024×1024高清图,首日下载量50万次。 * Qwen-Image(阿里):专注中文场景,精准还原古诗词意境,支持清晰中文排版。 * Seedream 4.0(字节跳动):“生成+编辑+组图”一体化,4K高清,适配电商产品图生成,效率提升3倍。 国外模型 * Flux.1 Kontext(黑森林实验室):上下文感知编辑能力强,单模型统一处理局部编辑、风格迁移等,主体特征保留率高,Dev版开源可商用。 * Imagen 4(谷歌):速度更快、分辨率更高,画面具备专业质感。 * Nano Banana(谷歌,官方Gemini 2.5 Flash Image):解决跨场景人物/物体特征不变痛点,无需蒙版即可精准编辑,支持清晰多语言文本生成,可融合多张参考图风格。 * 其他:GPT-Image-1.5(OpenAI,实时生成、多轮对话优化)、Midjourney V7(语音提示、草稿模式)、Adobe Firefly Image Model 5(与Adobe软件无缝集成)。 (四)2026.1-2:可控性与落地性比拼 春节档前夕中国厂商“生图大战”: * Qwen-Image-2.0(阿里):单一模型整合生成与编辑功能,支持2K分辨率,中文排版精准,适配海报、推文配图。 * Seedream 5.0(字节跳动,预览版):智能理解能力强,整合实时知识查询,已在剪映、CapCut上线,限时免费。 行业现状:厂商不再比拼参数,聚焦“可控性”“落地性”,AI生图彻底成为生产力工具。 四、总结+未来展望 1. 三年进化核心关键词(重点记忆) * 可控:从ControlNet到模型优化,解决“画崩”问题,实现精准控制。 * 平等:中国厂商打破垄断,轻量化模型降低门槛,实现“人人可创作”。 * 实用:多模态融合,垂直领域落地,成为提效降本的生产力工具。 2. 未来展望(可落地变化) * 更轻量化:未来手机可流畅运行,实现随时随地生图。 * 更精准:贴合物理规律,避免反常识细节,还原真实场景。 * 更懂需求:无需复杂提示词,精准理解用户对画面氛围、风格的需求。 3. 针对性启发 * 普通人:用AI节省时间(PPT配图、朋友圈插画),提升生活工作效率。 * 创作者:将AI作为助手,解放双手,聚焦创意本身。 * 企业(尤其是中小企业):用AI降低设计成本、缩短开发周期,提升竞争力。
E001.从OpenClaw到Agent发展史▶️播客简介 本期播客以 GitHub 爆火开源项目 OpenClaw 为切入点,系统梳理 2023–2026 年 AI Agent 简要进化历程。OpenClaw 作为本地运行的 Agent 框架,通过网关架构接入 IM 工具、极简技能系统与本地持久化记忆实现爆发式增长,同时也带来系统权限风险等安全争议。 播客依次拆解 Agent 在大脑上从 AutoGPT 死循环到可插拔模型(BYOB)、双手上从 API 孤岛到 MCP 协议与 Computer Use、记忆上从 RAG 检索到本地原生存储的三大技术演进,并指出 OpenClaw 代表的本地优先趋势,预示未来将走向去 App 化的技能经济,一定程度上会把 AI 控制权与数据主权还给用户。