知识讲解 | 小宇宙 - 听播客，上小宇宙

18已订阅

知识讲解

Jason2025

单集更新

节目详情

生成超级棒MV的Skills，有点Seedance2.0的味道
当AI可以写歌、画画、剪辑，我们离"一个人的音乐工作室"还有多远？起因：一个不切实际的想法故事要从一个深夜说起。那天我刷到一条短视频，画面是AI生成的动漫风格，配着一首AI写的歌。评论区炸了："这也太酷了吧！" 但我仔细一看，制作流程是这样的：先用ChatGPT写歌词，再用Suno生成音乐，然后用Midjourney一张张画图，最后手动剪辑合成。前前后后折腾了大半天。我当时就想：能不能把这些全部串起来，输入一个主题，一键生成完整MV？作为一个Claude Code的重度用户，我决定把这个想法做成一个skill。先说结果经过8个版本的迭代，现在只需要一行命令： /music2video 童年的冬天 --genre pop --lang zh 20分钟后，你会得到一支完整的竖版MV： • AI创作的歌词和旋律 • 角色一致的动漫场景插画（20多张） • 精确到每个字的歌词字幕 • 电影级的转场和运镜效果 • 带封面的竖屏视频，可以直接发短视频平台整个过程全自动，不需要任何手动操作，请观看下方视频效果。架构：七个阶段的流水线做这件事最难的不是单个环节，而是把所有环节串成一条可靠的流水线。我把整个流程拆成了七个阶段：歌词创作 → 音乐生成 → 时间戳提取 → 角色设计 → 场景描述 → 图像生成 → 视频合成每个阶段都由不同的AI模型负责，像一条装配线上的不同工位。第一站：歌词创作用大语言模型根据主题写歌词。这里有个关键约束：歌词必须适合演唱。不能太长（20-30行），不能有太生僻的词，还要有韵律感。我花了不少时间调prompt，最后发现最有效的方式是给模型明确的"格式约束"而不是"内容约束"——告诉它字数范围、行数限制、不要写注释说明，比告诉它"写得有感情"有用得多。第二站：音乐生成歌词写好后，交给音乐生成API。这一步最让我惊喜的是风格提示词的效果。我设计了一个"六要素公式"来生成风格描述：比如一首关于童年冬天的歌，生成的风格描述可能是： Warm nostalgic pop, gentle and dreamy, piano and acoustic guitar, soft childlike female vocal, moderate tempo 95 BPM, East Asian winter atmosphere 效果比简单写"pop"好太多了。为了做好这一步，我整理了1600多条风格参考样本。第三站：时间戳——让字幕跟上节奏这是整个项目中最"看不见但最重要"的环节。音乐生成后，我通过API获取每个字的精确时间戳。拿到的是这样的数据：每个word的开始时间和结束时间，精确到毫秒。然后我需要把这些单字组合成"行"——用于字幕显示的单位。这里的算法考虑了： • 英文按词数分组（最多8个词一行） • 中文按字符数分组（最多14个字一行） • 单词间超过0.3秒的间隔，视为自然断句点这样出来的字幕，观感就像KTV的歌词滚动一样自然。第四站：角色设计——保持一致性的关键如果每张图的角色长得都不一样，那MV看起来就像PPT而不是动画。角色一致性是整个项目最大的技术挑战之一。我的解决方案是：先让LLM设计一个完整的角色描述（发型、服装、配色、体型等），然后生成一张角色参考图。后续所有场景图都会带着这张参考图一起提交给图像生成API。这样做的效果出奇地好。虽然不是百分之百完美，但角色的发型、服装颜色、体型基本保持一致，足以让观众认出"这是同一个人"。第五站：场景描述——从歌词到画面每一句歌词都需要一个对应的画面。但不能简单地"翻译"歌词——需要视觉化思维。比如歌词是"哈出的白雾气在冬日"，场景描述不能只写"白雾"，而要写出具体的画面：一个穿着红色棉袄的小女孩，站在雪地里，呼出的白气在阳光下像一个小星球。这一步全靠LLM的"导演能力"。我在prompt里要求它像电影分镜师一样思考：镜头角度、光线方向、情绪氛围、色彩基调。第六站：图像生成——批量且可靠一首歌通常有50多句歌词，意味着需要生成50多张图。这里有两个工程挑战：速度：串行生成太慢。我采用了3个并发的批处理策略，大幅缩短了等待时间。可靠性：网络请求有时会失败。V1.8之前，失败的图像会变成纯黑色的占位图——直接毁掉整支MV。后来我加了一套完整的验证和重试机制： • 生成完成后，检查每张图的文件大小（真实图像800KB以上，占位图只有5KB） • 发现占位图，自动重试，最多两轮 • 从缓存加载时也做同样的校验 • 如果重试成功，自动更新缓存这个改进让成功率从之前的"听天由命"变成了几乎百分之百。第七站：视频合成——FFmpeg的艺术最后一步是把所有素材合成视频。这一步代码量最大，也最讲究。运镜效果：每个画面都不是静止的。我实现了五种运镜效果循环使用——推进、拉远、左移、右移、上移。配合不同的缩放比例模拟广角、中景、特写三种镜头。智能转场：不同歌曲段落用不同的转场效果。主歌用溶解、淡入淡出（慢节奏），副歌用滑动、擦除（快节奏），桥段和间奏各有各的风格。分屏和闪切：在副歌高潮部分，约20%的画面会使用分屏效果（两张图并排），10%会使用闪切蒙太奇（快速切换3-5张图）。这些效果让视频的节奏感一下子就上来了。色彩调色：根据音乐风格自动调色。流行乐偏暖色、摇滚偏高对比度、电子乐偏冷色调。最后，把音乐、画面、字幕三层叠加在一起。字幕用黑色半透明底框，确保在任何画面上都清晰可读。迭代的故事：从能用到好用这个项目经历了8个主要版本。每个版本都解决了一个"看起来小但影响很大"的问题。其中最有意思的bug是V1.7要解决的问题：AI在生成歌词时，偶尔会在歌词里混入一些"自言自语"，比如"( Wait, removed the note as per rules:"这种。因为歌词会被送去生成时间戳，这些垃圾文本也会被精确打上时间点，最后堂而皇之地出现在字幕里。解决方案是三层过滤：在歌词生成时加强约束、在时间戳分组后过滤、在字幕渲染时再做一次清洗。缓存：让迭代成为可能一次完整生成需要20分钟，其中大部分时间花在音乐生成和图片生成上。如果每次修改字幕样式都要从头来过，那就太崩溃了。所以我设计了一套缓存机制：用 MD5(主题+风格+语言) 作为缓存key 首次生成后，音乐、歌词时间戳、场景描述、所有图片全部缓存后续修改只需要重新合成视频，从20分钟缩短到15分钟左右缓存验证确保不会使用损坏的数据这个设计让"改一点、试一次"的迭代循环变得可行。 Claude Code Skill的优势把这个做成Claude Code的skill，而不是独立的Python脚本，有几个关键优势：对话式交互：用户不需要记住复杂的命令参数，可以用自然语言描述需求。智能错误处理：出错时，Claude可以分析错误原因并尝试修复，而不是直接报错退出。增量开发：每次改进都可以直接在现有代码上迭代，Claude Code的git集成让版本管理变得很顺畅。跨Agent编排：一个流水线里用到了LLM（写歌词、设计角色、描述场景）、音乐生成、图像生成、视频处理四类不同的AI能力，Claude Code天然适合做这种多Agent编排。写在最后从第一个版本到现在，这个项目教会我一件事： AI工具的真正威力不在于单个模型有多强，而在于你能把多少个模型串成一条流水线。每个AI模型都有自己的强项和局限。LLM擅长理解和创作文本，音乐模型擅长作曲，图像模型擅长绘画。把它们按照正确的顺序组合起来，输入一个简单的主题，输出一支完整的MV——这就是"Skills"的魅力。当然，这个项目还有很多可以改进的地方。图片偶尔还会出现角色不一致的情况，转场效果还可以更丰富，甚至可以加入AI生成的视频片段来替代静态图片。但至少现在，你可以用一行命令，在20分钟内得到一部很棒的MV。这在半年前都是完全不可想象的事情。
11分钟 · 5个月前
11
0
一张图片，15秒爆款视频：一条Skills干掉了整个视频团队
你有没有想过，别人花3000块请人拍的带货视频，你一张手机拍的产品图就能搞定？今天这篇文章，我手把手教你用Claude Code的一个隐藏技能，把**任意一张产品图片**变成**15秒竖版营销短视频**——全程不需要写一行代码，不需要会剪辑，不需要懂AI。这不是PPT，这是真实可用的视频。先看效果随手拍一张产品照，丢给Claude Code，它会自动完成这些事： - 识别你的产品是什么、品牌是什么、卖点是什么 - 写一份15秒的专业带货脚本（有开场钩子、卖点展示、价值主张、行动号召） - 调用OpenAI的Sora 2把脚本变成真实视频 - 自动把横版图片转成竖版9:16（模糊背景填充，不裁切产品） - 输出一个可以直接发抖音/小红书的mp4文件整个过程你只需要做一件事：给它一张图片路径。这到底是什么？这是一个叫 `/sora2video` 的Claude Code技能。它把4个AI服务串成了一条自动化流水线： | 环节 | 谁在干活 | 干什么 | |------|---------|--------| | 图片处理 | Pillow | 智能裁切/填充，确保9:16竖版 | | 图片托管 | ImgBB | 把本地图片变成临时公开链接 | | 商品分析 | 豆包大模型 | 看图识别产品，写带货脚本 | | 视频生成 | Sora 2 | 根据脚本生成15秒视频 | 你不需要分别注册这4个服务。配好一次，终身可用。从零开始：完整搭建指南第一步：安装Claude Code 如果你还没装Claude Code，先搞定它。打开终端（Windows用PowerShell，Mac用Terminal），输入： macOS, Linux, WSL: curl -fsSL https://claude.ai/install.sh | bash Windows PowerShell: irm https://claude.ai/install.ps1 | iex 装完后输入 `claude` 回车，按提示登录你的Anthropic账号。 > 前提：你的电脑需要有Node.js 18+。没有的话去 nodejs.org 下载安装。第二步：安装Python依赖这个技能的底层脚本是Python写的，需要装几个包： ```bash pip install requests pillow aiohttp python-dotenv ``` > 前提：你的电脑需要有Python 3.8+。没有的话去 python.org 下载安装。第三步：创建技能目录 ```bash mkdir -p ~/.claude/skills/sora2video-k ``` 第四步：配置API密钥这是最关键的一步。你需要获取3个API Key： 1) Sora 2 视频生成 API（通过kie.ai）这是视频生成的核心。去 kie.ai 注册账号，获取API Key。 2) ImgBB 图片托管 API 去 api.imgbb.com 注册，获取免费API Key。这个用来把你本地图片变成临时公开链接（2小时后自动失效，不用担心隐私）。 3) 豆包大模型 API（火山引擎）去火山引擎的方舟平台开通豆包模型，获取API Key。这个用来「看懂」你的产品图片并写出带货脚本。拿到3个Key后，在技能目录下创建 `config.json`： ```json { "sora2_api": { "base_url": "https://api.kie.ai/api/v1/jobs", "api_key": "你的kie.ai API Key", "model": "sora-2-pro-image-to-video" }, "imgbb_api": { "base_url": "https://api.imgbb.com/1", "api_key": "你的ImgBB API Key", "expiration": 600 }, "doubao_api": { "base_url": "https://ark.cn-beijing.volces.com/api/v3", "api_key": "你的豆包 API Key", "model": "doubao-seed-1-6-251015" }, "video_settings": { "default_duration": 15, "default_aspect_ratio": "9:16", "default_language": "中文", "max_wait_time": 900, "poll_interval": 30, "max_image_width": 1024 } } ``` 第五步：获取技能文件你需要把完整的技能代码放到 `~/.claude/skills/sora2video-k/` 目录下。包含以下文件结构： ``` sora2video-k/ ├── SKILL.md # 技能说明（Claude读这个来理解怎么干活） ├── config.json # 你的API配置 ├── requirements.txt # Python依赖声明 ├── scripts/ │ ├── video_generator.py # 主程序：串联整个流程 │ ├── api_client.py # API调用层：和4个服务通信 │ └── image_processor.py # 图片处理：尺寸调整、竖版转换 └── references/ ├── director-prompt.md # AI导演的提示词模板 └── video-styles.md # 5种视频风格参考 ``` 第六步：开始生成视频一切就绪。打开Claude Code，输入： ``` /sora2video ./my-product.jpg ``` 然后等着。Claude会实时汇报进度： ``` 正在读取图片 ./my-product.jpg ... ✓ 图片格式验证通过 (1920x1080) ✓ 检测到横版图片，正在转换为9:16竖版... ✓ 图片已上传至ImgBB 正在分析商品并生成视频脚本... ✓ 识别到商品: XX品牌蓝牙耳机 ✓ 核心卖点: 主动降噪、30小时续航、轻量设计正在调用 Sora 2 生成视频... ✓ 任务已创建，等待生成... [=====> ] 30% - processing ✓ 视频生成完成！ 📹 视频链接: https://xxxxx/video.mp4 ``` 从输入到拿到视频，通常2-5分钟。它写的脚本长什么样？这是它给一款蓝牙耳机自动生成的脚本（中文版）： ``` [0-2s] 画面：一只耳机从暗处缓缓浮出，柔和的光线勾勒出外壳轮廓旁白："在嘈杂的世界里，你需要一个安静的角落" [2-7s] 画面：镜头推进至耳机特写，展示品牌Logo和材质细节旁白："XX主动降噪，40dB深度静音" [7-12s] 画面：年轻人戴着耳机在咖啡馆专注工作，周围喧嚣渐弱旁白："30小时超长续航，一次充电用一周" [12-15s] 画面：产品居中展示，背景微光流转旁白："现在体验，开启你的沉浸时刻" ``` 注意最后一句不是「立即购买」「限时优惠」这种硬广。这个技能内置了品牌安全机制——它会自动避开生硬的促销用语，用中性的引导话术代替。这样生成的视频不会被平台限流。有几个坑，提前告诉你 1. 图片格式只支持 JPG、PNG、WEBP。不要传 HEIC（iPhone默认格式）或 GIF。 2. 横版图片不要怕很多人拍产品照是横版的。这个技能会自动把横版图转成竖版——不是粗暴裁切，而是在产品周围加上模糊背景填充，确保产品完整展示。 3. 生成时间 Sora 2生成视频需要时间。如果超过5分钟没出结果也不用急，系统会每30秒自动查一次状态，最长等15分钟。如果真的超时了，它会给你一个任务ID，你可以后续手动查。 4. 英文脚本默认是中文脚本。如果你做外贸，加个参数就行： ``` /sora2video ./product.jpg --lang=en ``` 英文版只输出画面描述，不带旁白文案——因为Sora 2本身是英文驱动的，直接用英文效果最好。 5种视频风格，覆盖所有品类这个技能内置了5种视频风格模板： | 风格 | 适合品类 | 特点 | |------|---------|------| | 经典带货 | 美妆、食品、日用品 | 产品特写+使用场景+效果展示 | | 故事叙述 | 服装、饰品、礼品 | 情景剧式，有故事线和情感 | | 快节奏 | 数码、运动、潮流 | 多角度快切，视觉冲击强 | | 简约高级 | 奢侈品、设计师品牌 | 大量留白，强调品质和工艺 | | 自然清新 | 有机食品、天然护肤 | 户外场景，清新健康氛围 | AI会根据你的产品自动选择最匹配的风格。你不需要手动指定。背后的技术架构（给好奇的人）整个流水线分6步： ``` 产品图片 → 图片预处理（竖版转换）→ 上传ImgBB → 豆包AI分析写脚本 → Sora 2生成视频 → 返回视频链接 ``` 每一步都有独立的Python模块负责： - `image_processor.py` 负责图片验证、尺寸调整、9:16转换（用PIL的高斯模糊做背景填充） - `api_client.py` 封装了4个API的调用逻辑（ImgBB、豆包、Sora 2、飞书） - `video_generator.py` 是总调度，串联整个流程并处理异常有一个巧妙的设计：kie.ai的任务状态接口有时候不稳定，代码里做了双重检查——既轮询官方接口，又直接探测视频文件的CDN地址。两条路只要有一条通就能拿到视频。这东西能用在哪？几个真实场景： - 独立站卖家：产品图一拍，视频自动出。不用请摄影师，不用请剪辑师 - 小红书/抖音带货：批量生成产品视频，日更无压力 - 跨境电商：切换英文模式，直接做TikTok素材 - 品牌方测试：快速出视频Demo给客户看概念，通过了再投入正式制作最后这个技能本质上做了一件事：把4个AI服务串成流水线，让你用一句命令完成原来需要一个团队干的事。它不完美——15秒的AI视频还做不到专业TVC的水准。但对于电商场景，它已经够用了。尤其是当你需要批量产出内容的时候，效率差距是数量级的。如果你已经在用Claude Code，现在就试试。一张图片，一行命令，15秒视频。 --- 本文介绍的是Claude Code的 `/sora2video` 技能。技能源码基于MIT协议开源。文中涉及的第三方API需自行注册获取密钥。
8分钟 · 5个月前
15
0
疯了，半小时驯服Claude，从此PPT不求人
本期要点：【核心问题】为什么AI总是不稳定？同样的Prompt今天好用明天不行？【解决方案】 Claude Skills - 给AI写一本"操作手册"，让它变成稳定输出的专家系统【四步驯服AI方法论】 1. 定义边界 - 明确能做什么、不做什么 2. 拆解流程 - 把复杂任务分成可控的阶段 3. 设计记忆 - 用外部文件让AI"记住"关键信息 4. 验证迭代 - 测试并持续优化【Skills设计5个黄金法则】 - 渐进式披露，不要信息过载 - 决策树优于自由发挥 - 设定明确的边界和"不做"清单 - 设计检查点，避免跑偏 - 留有修改入口，让用户能介入【你可以创造的Skills】合同审查专家、小红书爆款生成器、PRD撰写助手、论文润色专家... 授人以鱼不如授人以渔，学会这套方法，创造属于你的AI技能包！
9分钟 · 6个月前
32
2

专注AI编程，Claude Skills讲解