AI漫谈 | 小宇宙 - 听播客，上小宇宙

13已订阅

AI漫谈

Rangen

单集更新

节目详情

E003.AI生视频模型的3年进化史（2023-2026）
▶️播客简介本期播客按2023–2026 时间线，系统梳理全球 AI 生视频技术发展：先科普文生视频、图生视频、视频编辑三大核心类型，再按时间顺序复盘 OpenAI Sora、Google Veo、Runway 等国际模型的迭代历程，重点呈现中国模型从追赶到反超的关键节点，包括字节 Seedance、快手可灵、阿里通义万相、腾讯混元、生数 Vidu 等国产第一梯队产品；同时对比商业模型与开源模型的差异、核心技术路线（扩散模型 + Transformer），并覆盖普通人、创作者、企业的实用场景与未来趋势。感谢大家的收听！欢迎大家的评论
43分钟 · 4个月前
10
0
E002.AI生图模型3年进化史（2023-2026）
核心主题：2023-2026年AI生图模型的进化历程、核心突破及实用指南 ▶️播客笔记一、开场暖场核心：AI生图已广泛应用于短视频、电商海报、游戏素材等场景，本期聚焦2023-2026年生图模型从“凑活看”到“主流创作工具”的进化，内容无晦涩术语，适配所有听众。二、引子：什么是生图模型？ 1. 核心定义无需绘画基础，输入文字提示（如“一只橘猫趴在阳光下的沙发上，画面温暖柔和”），AI即可自动生成对应画面。 2. 三大主流技术路线 * GAN：老一辈技术，出图快、适合早期人脸/风格化创作；缺点是训练不稳、易崩，现在基本淘汰。 * 扩散模型（当前主流）：代表模型Midjourney、Stable Diffusion，原理是“加噪声-去噪声”；优点是画质高、细节足、画风多样、可控性强；缺点是生成慢、吃算力。 * 自回归模型：逐像素生成，优点是稳定、语义理解准；缺点是极慢，高清大图适配差，细节不及扩散模型。 3. 关键前提 2022年生图模型已出现爆发苗头（Stable Diffusion、DALL·E等可生成高质量图像，webui式工具流行），但2023-2026年才是从“能用”走向“好用、可控、专业”的关键三年。三、核心内容：2023-2026.2 生图模型进化时间线（一）2023年：破局之年——从“自由瞎画”到“精准可控” 1. 核心突破：ControlNet技术相当于给AI画“草稿”，可精准控制人物姿态、场景结构，解决了AI画人手脚错位、姿态奇怪的痛点，提升生图可控性，为后续应用奠定基础。 2. 明星模型及亮点 * Midjourney V5：分辨率从512×512翻倍至1024×1024，优化手部细节，支持风格化参数、无缝平铺、自定义纵横比；用户规模爆发（Discord社区超1400万），采用SaaS订阅制，市场份额居首（26.8%）。 * Stable Diffusion XL（SDXL）1.0: 35亿参数base模型+66亿参数refiner模型，双模型架构实现高清生成；后续SDXL Turbo通过蒸馏技术将生成步数压缩至1-4步，实现实时生成；开源特性，占AI生图市场80%份额。 * DALL-E 3：基于ChatGPT原生构建，语义理解能力极强，可精准还原复杂提示词的所有细节，与ChatGPT深度集成，降低使用门槛。 3. 行业影响 AI生图走进日常，提升设计、自媒体等行业效率；游戏美术岗位需求下降58%，AI训练师岗位激增320%；《太空歌剧院》获奖，标志AI艺术获主流认可；全球市场规模从2.57亿美元增长至2.99亿美元。（二）2024年：变革之年——架构升级+中国厂商崛起 1. 核心突破：Transformer架构替代传统U-Net架构以FLUX.1为代表，生图速度大幅提升（几秒生成高清图），细节处理能力升级，可适配多人聚会、大型景观等复杂场景。 2. 明星模型及亮点 * SD3（Stability AI）：混合架构，采用整流流技术和多模态DiT架构，文字渲染、多主体关系理解出色。 * FLUX.1 Pro：复杂场景理解、细节生成、美学质量达顶尖水平，受专业设计师青睐。 * Imagen 3（谷歌）：光影真实感强，媲美专业摄影，语义理解能力优秀。 * 混元DiT（腾讯）：业内首个中文原生DiT架构开源模型（15亿参数），精准理解中文成语、古风描述，贴合中式审美，打破国外垄断。 3. 行业现状中文用户无需再翻译提示词，使用门槛降低；市面上出现多款特定场景SaaS图片处理工具（虚拟试穿、背景更改等），未出现通用生图模型。（三）2025年：融合之年——多模态+轻量化+垂直落地 1. 核心趋势：原生多模态生图模型可结合文本、音频等形式，实现“图文联动”（如输入故事生成连贯画面），打破“输一句话、出一张图”的单一模式。 2. 明星模型及亮点（分国内外）国内模型 * 混元图像3.0（腾讯）：80亿参数，混合专家架构，高清细腻、常识推理强，全球26个主流模型中排名第一，开源商用。 * Z-Image（阿里）：轻量化路线（6亿参数），普通电脑/笔记本可流畅运行，Turbo版2.3秒生成1024×1024高清图，首日下载量50万次。 * Qwen-Image（阿里）：专注中文场景，精准还原古诗词意境，支持清晰中文排版。 * Seedream 4.0（字节跳动）：“生成+编辑+组图”一体化，4K高清，适配电商产品图生成，效率提升3倍。国外模型 * Flux.1 Kontext（黑森林实验室）：上下文感知编辑能力强，单模型统一处理局部编辑、风格迁移等，主体特征保留率高，Dev版开源可商用。 * Imagen 4（谷歌）：速度更快、分辨率更高，画面具备专业质感。 * Nano Banana（谷歌，官方Gemini 2.5 Flash Image）：解决跨场景人物/物体特征不变痛点，无需蒙版即可精准编辑，支持清晰多语言文本生成，可融合多张参考图风格。 * 其他：GPT-Image-1.5（OpenAI，实时生成、多轮对话优化）、Midjourney V7（语音提示、草稿模式）、Adobe Firefly Image Model 5（与Adobe软件无缝集成）。（四）2026.1-2：可控性与落地性比拼春节档前夕中国厂商“生图大战”： * Qwen-Image-2.0（阿里）：单一模型整合生成与编辑功能，支持2K分辨率，中文排版精准，适配海报、推文配图。 * Seedream 5.0（字节跳动，预览版）：智能理解能力强，整合实时知识查询，已在剪映、CapCut上线，限时免费。行业现状：厂商不再比拼参数，聚焦“可控性”“落地性”，AI生图彻底成为生产力工具。四、总结+未来展望 1. 三年进化核心关键词（重点记忆） * 可控：从ControlNet到模型优化，解决“画崩”问题，实现精准控制。 * 平等：中国厂商打破垄断，轻量化模型降低门槛，实现“人人可创作”。 * 实用：多模态融合，垂直领域落地，成为提效降本的生产力工具。 2. 未来展望（可落地变化） * 更轻量化：未来手机可流畅运行，实现随时随地生图。 * 更精准：贴合物理规律，避免反常识细节，还原真实场景。 * 更懂需求：无需复杂提示词，精准理解用户对画面氛围、风格的需求。 3. 针对性启发 * 普通人：用AI节省时间（PPT配图、朋友圈插画），提升生活工作效率。 * 创作者：将AI作为助手，解放双手，聚焦创意本身。 * 企业（尤其是中小企业）：用AI降低设计成本、缩短开发周期，提升竞争力。
38分钟 · 4个月前
2
0
E001.从OpenClaw到Agent发展史
▶️播客简介本期播客以 GitHub 爆火开源项目 OpenClaw 为切入点，系统梳理 2023–2026 年 AI Agent 简要进化历程。OpenClaw 作为本地运行的 Agent 框架，通过网关架构接入 IM 工具、极简技能系统与本地持久化记忆实现爆发式增长，同时也带来系统权限风险等安全争议。播客依次拆解 Agent 在大脑上从 AutoGPT 死循环到可插拔模型（BYOB）、双手上从 API 孤岛到 MCP 协议与 Computer Use、记忆上从 RAG 检索到本地原生存储的三大技术演进，并指出 OpenClaw 代表的本地优先趋势，预示未来将走向去 App 化的技能经济，一定程度上会把 AI 控制权与数据主权还给用户。
57分钟 · 4个月前
2
0

与你见证AI时代~