

生成超级棒MV的Skills,有点Seedance2.0的味道当AI可以写歌、画画、剪辑,我们离"一个人的音乐工作室"还有多远? 起因:一个不切实际的想法 故事要从一个深夜说起。 那天我刷到一条短视频,画面是AI生成的动漫风格,配着一首AI写的歌。评论区炸了:"这也太酷了吧!" 但我仔细一看,制作流程是这样的:先用ChatGPT写歌词,再用Suno生成音乐,然后用Midjourney一张张画图,最后手动剪辑合成。前前后后折腾了大半天。 我当时就想: 能不能把这些全部串起来,输入一个主题,一键生成完整MV? 作为一个Claude Code的重度用户,我决定把这个想法做成一个skill。 先说结果 经过8个版本的迭代,现在只需要一行命令: /music2video 童年的冬天 --genre pop --lang zh 20分钟后,你会得到一支完整的竖版MV: • AI创作的歌词和旋律 • 角色一致的动漫场景插画(20多张) • 精确到每个字的歌词字幕 • 电影级的转场和运镜效果 • 带封面的竖屏视频,可以直接发短视频平台 整个过程全自动,不需要任何手动操作,请观看下方视频效果。 架构:七个阶段的流水线 做这件事最难的不是单个环节,而是 把所有环节串成一条可靠的流水线 。 我把整个流程拆成了七个阶段: 歌词创作 → 音乐生成 → 时间戳提取 → 角色设计 → 场景描述 → 图像生成 → 视频合成 每个阶段都由不同的AI模型负责,像一条装配线上的不同工位。 第一站:歌词创作 用大语言模型根据主题写歌词。这里有个关键约束: 歌词必须适合演唱 。不能太长(20-30行),不能有太生僻的词,还要有韵律感。 我花了不少时间调prompt,最后发现最有效的方式是给模型明确的"格式约束"而不是"内容约束"——告诉它字数范围、行数限制、不要写注释说明,比告诉它"写得有感情"有用得多。 第二站:音乐生成 歌词写好后,交给音乐生成API。这一步最让我惊喜的是 风格提示词 的效果。 我设计了一个"六要素公式"来生成风格描述: 比如一首关于童年冬天的歌,生成的风格描述可能是: Warm nostalgic pop, gentle and dreamy, piano and acoustic guitar, soft childlike female vocal, moderate tempo 95 BPM, East Asian winter atmosphere 效果比简单写"pop"好太多了。为了做好这一步,我整理了1600多条风格参考样本。 第三站:时间戳——让字幕跟上节奏 这是整个项目中最"看不见但最重要"的环节。 音乐生成后,我通过API获取 每个字的精确时间戳 。拿到的是这样的数据:每个word的开始时间和结束时间,精确到毫秒。 然后我需要把这些单字组合成"行"——用于字幕显示的单位。这里的算法考虑了: • 英文按词数分组(最多8个词一行) • 中文按字符数分组(最多14个字一行) • 单词间超过0.3秒的间隔,视为自然断句点 这样出来的字幕,观感就像KTV的歌词滚动一样自然。 第四站:角色设计——保持一致性的关键 如果每张图的角色长得都不一样,那MV看起来就像PPT而不是动画。 角色一致性 是整个项目最大的技术挑战之一。 我的解决方案是:先让LLM设计一个完整的角色描述(发型、服装、配色、体型等),然后生成一张角色参考图。后续所有场景图都会带着这张参考图一起提交给图像生成API。 这样做的效果出奇地好。虽然不是百分之百完美,但角色的发型、服装颜色、体型基本保持一致,足以让观众认出"这是同一个人"。 第五站:场景描述——从歌词到画面 每一句歌词都需要一个对应的画面。但不能简单地"翻译"歌词——需要 视觉化思维 。 比如歌词是"哈出的白雾气在冬日",场景描述不能只写"白雾",而要写出具体的画面:一个穿着红色棉袄的小女孩,站在雪地里,呼出的白气在阳光下像一个小星球。 这一步全靠LLM的"导演能力"。我在prompt里要求它像电影分镜师一样思考:镜头角度、光线方向、情绪氛围、色彩基调。 第六站:图像生成——批量且可靠 一首歌通常有50多句歌词,意味着需要生成50多张图。 这里有两个工程挑战: 速度 :串行生成太慢。我采用了3个并发的批处理策略,大幅缩短了等待时间。 可靠性 :网络请求有时会失败。V1.8之前,失败的图像会变成纯黑色的占位图——直接毁掉整支MV。 后来我加了一套完整的验证和重试机制: • 生成完成后,检查每张图的文件大小(真实图像800KB以上,占位图只有5KB) • 发现占位图,自动重试,最多两轮 • 从缓存加载时也做同样的校验 • 如果重试成功,自动更新缓存 这个改进让成功率从之前的"听天由命"变成了几乎百分之百。 第七站:视频合成——FFmpeg的艺术 最后一步是把所有素材合成视频。这一步代码量最大,也最讲究。 运镜效果 :每个画面都不是静止的。我实现了五种运镜效果循环使用——推进、拉远、左移、右移、上移。配合不同的缩放比例模拟广角、中景、特写三种镜头。 智能转场 :不同歌曲段落用不同的转场效果。主歌用溶解、淡入淡出(慢节奏),副歌用滑动、擦除(快节奏),桥段和间奏各有各的风格。 分屏和闪切 :在副歌高潮部分,约20%的画面会使用分屏效果(两张图并排),10%会使用闪切蒙太奇(快速切换3-5张图)。这些效果让视频的节奏感一下子就上来了。 色彩调色 :根据音乐风格自动调色。流行乐偏暖色、摇滚偏高对比度、电子乐偏冷色调。 最后,把音乐、画面、字幕三层叠加在一起。字幕用黑色半透明底框,确保在任何画面上都清晰可读。 迭代的故事:从能用到好用 这个项目经历了8个主要版本。每个版本都解决了一个"看起来小但影响很大"的问题。 其中最有意思的bug是V1.7要解决的问题:AI在生成歌词时,偶尔会在歌词里混入一些"自言自语",比如"( Wait, removed the note as per rules:"这种。因为歌词会被送去生成时间戳,这些垃圾文本也会被精确打上时间点,最后堂而皇之地出现在字幕里。 解决方案是三层过滤:在歌词生成时加强约束、在时间戳分组后过滤、在字幕渲染时再做一次清洗。 缓存:让迭代成为可能 一次完整生成需要20分钟,其中大部分时间花在音乐生成和图片生成上。如果每次修改字幕样式都要从头来过,那就太崩溃了。 所以我设计了一套缓存机制: 用 MD5(主题+风格+语言) 作为缓存key 首次生成后,音乐、歌词时间戳、场景描述、所有图片全部缓存 后续修改只需要重新合成视频,从20分钟缩短到15分钟左右 缓存验证确保不会使用损坏的数据 这个设计让"改一点、试一次"的迭代循环变得可行。 Claude Code Skill的优势 把这个做成Claude Code的skill,而不是独立的Python脚本,有几个关键优势: 对话式交互 :用户不需要记住复杂的命令参数,可以用自然语言描述需求。 智能错误处理 :出错时,Claude可以分析错误原因并尝试修复,而不是直接报错退出。 增量开发 :每次改进都可以直接在现有代码上迭代,Claude Code的git集成让版本管理变得很顺畅。 跨Agent编排 :一个流水线里用到了LLM(写歌词、设计角色、描述场景)、音乐生成、图像生成、视频处理四类不同的AI能力,Claude Code天然适合做这种多Agent编排。 写在最后 从第一个版本到现在,这个项目教会我一件事: AI工具的真正威力不在于单个模型有多强,而在于你能把多少个模型串成一条流水线。 每个AI模型都有自己的强项和局限。LLM擅长理解和创作文本,音乐模型擅长作曲,图像模型擅长绘画。把它们按照正确的顺序组合起来,输入一个简单的主题,输出一支完整的MV——这就是"Skills"的魅力。 当然,这个项目还有很多可以改进的地方。图片偶尔还会出现角色不一致的情况,转场效果还可以更丰富,甚至可以加入AI生成的视频片段来替代静态图片。 但至少现在,你可以用一行命令,在20分钟内得到一部很棒的MV。 这在半年前都是完全不可想象的事情。
一张图片,15秒爆款视频:一条Skills干掉了整个视频团队你有没有想过,别人花3000块请人拍的带货视频,你一张手机拍的产品图就能搞定? 今天这篇文章,我手把手教你用Claude Code的一个隐藏技能,把**任意一张产品图片**变成**15秒竖版营销短视频**——全程不需要写一行代码,不需要会剪辑,不需要懂AI。 这不是PPT,这是真实可用的视频。 先看效果 随手拍一张产品照,丢给Claude Code,它会自动完成这些事: - 识别你的产品是什么、品牌是什么、卖点是什么 - 写一份15秒的专业带货脚本(有开场钩子、卖点展示、价值主张、行动号召) - 调用OpenAI的Sora 2把脚本变成真实视频 - 自动把横版图片转成竖版9:16(模糊背景填充,不裁切产品) - 输出一个可以直接发抖音/小红书的mp4文件 整个过程你只需要做一件事:给它一张图片路径。 这到底是什么? 这是一个叫 `/sora2video` 的Claude Code技能。它把4个AI服务串成了一条自动化流水线: | 环节 | 谁在干活 | 干什么 | |------|---------|--------| | 图片处理 | Pillow | 智能裁切/填充,确保9:16竖版 | | 图片托管 | ImgBB | 把本地图片变成临时公开链接 | | 商品分析 | 豆包大模型 | 看图识别产品,写带货脚本 | | 视频生成 | Sora 2 | 根据脚本生成15秒视频 | 你不需要分别注册这4个服务。配好一次,终身可用。 从零开始:完整搭建指南 第一步:安装Claude Code 如果你还没装Claude Code,先搞定它。 打开终端(Windows用PowerShell,Mac用Terminal),输入: macOS, Linux, WSL: curl -fsSL https://claude.ai/install.sh | bash Windows PowerShell: irm https://claude.ai/install.ps1 | iex 装完后输入 `claude` 回车,按提示登录你的Anthropic账号。 > 前提:你的电脑需要有Node.js 18+。没有的话去 nodejs.org 下载安装。 第二步:安装Python依赖 这个技能的底层脚本是Python写的,需要装几个包: ```bash pip install requests pillow aiohttp python-dotenv ``` > 前提:你的电脑需要有Python 3.8+。没有的话去 python.org 下载安装。 第三步:创建技能目录 ```bash mkdir -p ~/.claude/skills/sora2video-k ``` 第四步:配置API密钥 这是最关键的一步。你需要获取3个API Key: 1) Sora 2 视频生成 API(通过kie.ai) 这是视频生成的核心。去 kie.ai 注册账号,获取API Key。 2) ImgBB 图片托管 API 去 api.imgbb.com 注册,获取免费API Key。这个用来把你本地图片变成临时公开链接(2小时后自动失效,不用担心隐私)。 3) 豆包大模型 API(火山引擎) 去火山引擎的方舟平台开通豆包模型,获取API Key。这个用来「看懂」你的产品图片并写出带货脚本。 拿到3个Key后,在技能目录下创建 `config.json`: ```json { "sora2_api": { "base_url": "https://api.kie.ai/api/v1/jobs", "api_key": "你的kie.ai API Key", "model": "sora-2-pro-image-to-video" }, "imgbb_api": { "base_url": "https://api.imgbb.com/1", "api_key": "你的ImgBB API Key", "expiration": 600 }, "doubao_api": { "base_url": "https://ark.cn-beijing.volces.com/api/v3", "api_key": "你的豆包 API Key", "model": "doubao-seed-1-6-251015" }, "video_settings": { "default_duration": 15, "default_aspect_ratio": "9:16", "default_language": "中文", "max_wait_time": 900, "poll_interval": 30, "max_image_width": 1024 } } ``` 第五步:获取技能文件 你需要把完整的技能代码放到 `~/.claude/skills/sora2video-k/` 目录下。包含以下文件结构: ``` sora2video-k/ ├── SKILL.md # 技能说明(Claude读这个来理解怎么干活) ├── config.json # 你的API配置 ├── requirements.txt # Python依赖声明 ├── scripts/ │ ├── video_generator.py # 主程序:串联整个流程 │ ├── api_client.py # API调用层:和4个服务通信 │ └── image_processor.py # 图片处理:尺寸调整、竖版转换 └── references/ ├── director-prompt.md # AI导演的提示词模板 └── video-styles.md # 5种视频风格参考 ``` 第六步:开始生成视频 一切就绪。打开Claude Code,输入: ``` /sora2video ./my-product.jpg ``` 然后等着。Claude会实时汇报进度: ``` 正在读取图片 ./my-product.jpg ... ✓ 图片格式验证通过 (1920x1080) ✓ 检测到横版图片,正在转换为9:16竖版... ✓ 图片已上传至ImgBB 正在分析商品并生成视频脚本... ✓ 识别到商品: XX品牌蓝牙耳机 ✓ 核心卖点: 主动降噪、30小时续航、轻量设计 正在调用 Sora 2 生成视频... ✓ 任务已创建,等待生成... [=====> ] 30% - processing ✓ 视频生成完成! 📹 视频链接: https://xxxxx/video.mp4 ``` 从输入到拿到视频,通常2-5分钟。 它写的脚本长什么样? 这是它给一款蓝牙耳机自动生成的脚本(中文版): ``` [0-2s] 画面:一只耳机从暗处缓缓浮出,柔和的光线勾勒出外壳轮廓 旁白:"在嘈杂的世界里,你需要一个安静的角落" [2-7s] 画面:镜头推进至耳机特写,展示品牌Logo和材质细节 旁白:"XX主动降噪,40dB深度静音" [7-12s] 画面:年轻人戴着耳机在咖啡馆专注工作,周围喧嚣渐弱 旁白:"30小时超长续航,一次充电用一周" [12-15s] 画面:产品居中展示,背景微光流转 旁白:"现在体验,开启你的沉浸时刻" ``` 注意最后一句不是「立即购买」「限时优惠」这种硬广。这个技能内置了品牌安全机制——它会自动避开生硬的促销用语,用中性的引导话术代替。这样生成的视频不会被平台限流。 有几个坑,提前告诉你 1. 图片格式 只支持 JPG、PNG、WEBP。不要传 HEIC(iPhone默认格式)或 GIF。 2. 横版图片不要怕 很多人拍产品照是横版的。这个技能会自动把横版图转成竖版——不是粗暴裁切,而是在产品周围加上模糊背景填充,确保产品完整展示。 3. 生成时间 Sora 2生成视频需要时间。如果超过5分钟没出结果也不用急,系统会每30秒自动查一次状态,最长等15分钟。如果真的超时了,它会给你一个任务ID,你可以后续手动查。 4. 英文脚本 默认是中文脚本。如果你做外贸,加个参数就行: ``` /sora2video ./product.jpg --lang=en ``` 英文版只输出画面描述,不带旁白文案——因为Sora 2本身是英文驱动的,直接用英文效果最好。 5种视频风格,覆盖所有品类 这个技能内置了5种视频风格模板: | 风格 | 适合品类 | 特点 | |------|---------|------| | 经典带货 | 美妆、食品、日用品 | 产品特写+使用场景+效果展示 | | 故事叙述 | 服装、饰品、礼品 | 情景剧式,有故事线和情感 | | 快节奏 | 数码、运动、潮流 | 多角度快切,视觉冲击强 | | 简约高级 | 奢侈品、设计师品牌 | 大量留白,强调品质和工艺 | | 自然清新 | 有机食品、天然护肤 | 户外场景,清新健康氛围 | AI会根据你的产品自动选择最匹配的风格。你不需要手动指定。 背后的技术架构(给好奇的人) 整个流水线分6步: ``` 产品图片 → 图片预处理(竖版转换)→ 上传ImgBB → 豆包AI分析写脚本 → Sora 2生成视频 → 返回视频链接 ``` 每一步都有独立的Python模块负责: - `image_processor.py` 负责图片验证、尺寸调整、9:16转换(用PIL的高斯模糊做背景填充) - `api_client.py` 封装了4个API的调用逻辑(ImgBB、豆包、Sora 2、飞书) - `video_generator.py` 是总调度,串联整个流程并处理异常 有一个巧妙的设计:kie.ai的任务状态接口有时候不稳定,代码里做了双重检查——既轮询官方接口,又直接探测视频文件的CDN地址。两条路只要有一条通就能拿到视频。 这东西能用在哪? 几个真实场景: - 独立站卖家:产品图一拍,视频自动出。不用请摄影师,不用请剪辑师 - 小红书/抖音带货:批量生成产品视频,日更无压力 - 跨境电商:切换英文模式,直接做TikTok素材 - 品牌方测试:快速出视频Demo给客户看概念,通过了再投入正式制作 最后 这个技能本质上做了一件事:把4个AI服务串成流水线,让你用一句命令完成原来需要一个团队干的事。 它不完美——15秒的AI视频还做不到专业TVC的水准。但对于电商场景,它已经够用了。尤其是当你需要批量产出内容的时候,效率差距是数量级的。 如果你已经在用Claude Code,现在就试试。一张图片,一行命令,15秒视频。 --- 本文介绍的是Claude Code的 `/sora2video` 技能。技能源码基于MIT协议开源。文中涉及的第三方API需自行注册获取密钥。
疯了,半小时驯服Claude,从此PPT不求人本期要点: 【核心问题】 为什么AI总是不稳定?同样的Prompt今天好用明天不行? 【解决方案】 Claude Skills - 给AI写一本"操作手册",让它变成稳定输出的专家系统 【四步驯服AI方法论】 1. 定义边界 - 明确能做什么、不做什么 2. 拆解流程 - 把复杂任务分成可控的阶段 3. 设计记忆 - 用外部文件让AI"记住"关键信息 4. 验证迭代 - 测试并持续优化 【Skills设计5个黄金法则】 - 渐进式披露,不要信息过载 - 决策树优于自由发挥 - 设定明确的边界和"不做"清单 - 设计检查点,避免跑偏 - 留有修改入口,让用户能介入 【你可以创造的Skills】 合同审查专家、小红书爆款生成器、PRD撰写助手、论文润色专家... 授人以鱼不如授人以渔,学会这套方法,创造属于你的AI技能包!