

【AI日报】EP.223 10月1 豆包大模型1.6-vision发布;DeepSeek发布V3.2-【AI模型】 🤖 豆包1.6-Vision发布:多模态更强,成本再降50% 强化工具调用与视觉理解,推理与开发效率双提升。 综合成本较上一代约降一半,性价比显著提升。 【技术突破】 🔬 通义千问Qwen3-LiveTranslate-Flash:同传延迟刷新至3秒 覆盖18种语言与多方言,视觉上下文加持复杂场景更准。 行业领先的3秒级同传,显著提升实时沟通流畅度。 【AI模型】 🤖 DeepSeek V3.2-exp:稀疏注意力将API成本砍半 “闪电索引器”与“细粒度标记选择”协同,长上下文处理更高效。 初测显示调用成本下降约50%,更经济可用。 - 参考链接:https://www.chinaz.com/tags/855878.shtml - 参考链接:https://www.chinaz.com/tags/919172.shtml - 参考链接:https://www.chinaz.com/tags/937841.shtml 【AI模型】 🤖 Claude Sonnet 4.5发布:编码与复杂任务全面跃升 在编码基准与长时自主执行上表现卓越,新增检查点、上下文编辑与内存工具。 更强对齐与安全,适配高风险企业场景。 【行业动态】 📰 ChatGPT上线“即时结账”:聊天里一键下单 接入Stripe“代理商务协议”,多支付方式安全便捷。 后续将支持多件购物车与全球市场,重塑电商闭环体验。 【行业动态】 📰 OpenAI将推“AI版TikTok”:Sora2全AI生成短视频 10秒短片形态,支持身份认证与肖像使用标记。 同步强调安全与版权管控,力保社区健康与用户留存。 【效率工具】 ⚙️ Claude Code 2.0:检查点+VS Code插件,编程效率飞跃 新增状态回滚、内联差异与图形化交互,IDE与终端协同更顺滑。 Sonnet4.5在OSWorld拿下61.4%,擅长复杂代理构建。 【效率工具】 ⚙️ 百度地图小度想想2.0:出行智能助手全面进化 出行知识库+实时搜索,复杂出行意图理解更准。 跨端记忆打通手机与车机,支持即时/近期/长期个性化推荐。 【开源项目】 🧩 蚂蚁集团开源万亿参数Ring-1T-preview:逼近GPT-5水准 在AIME25与CodeForces等测试表现优异,强化推理与代码生成。 团队持续后训练,潜力有望进一步释放。 【技术突破】 🔬 DeepMind提出“帧链”:通用视频理解迈出关键一步 让视频模型具备跨时空推理能力,Veo3多任务强势表现。 通用视频模型或将替代专用模型,开启机器视觉新阶段。 - 源链接:https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf 【开源项目】 🧩 智谱GLM-4.6开源:编程能力对齐Sonnet4,国产硬件适配破局 Agentic Coding等能力大幅升级,超越DeepSeek V3.2-Exp于代码生成。 已在寒武纪与摩尔线程硬件上高效部署。
【AI日报】EP.222 9月27 京东物流推出超脑大模型2.0;DeepSeek V3.1终结版发布【技术突破】 🚀 京东物流发布“超脑大模型2.0”和“异狼”具身机械臂 在 JDDiscovery-2025 上,物流从“辅助决策”迈向“具身执行”新阶段。 大模型2小时解千万级变量;“异狼”机械臂自主学习,复杂包裹高精度抓取。 - 参考链接:https://www.chinaz.com/tags/jingdongwuliu.shtml - 参考链接:https://www.chinaz.com/tags/996720.shtml - 参考链接:https://www.chinaz.com/tags/996721.shtml 【AI模型】 🧠 DeepSeek V3.1 Terminus终结版发布,稳定性大幅提升 修复中英文混杂与异常字符等关键问题,优化 Code/Search Agent。 V3系列收官,V4或R2全新架构呼之欲出。 【效率工具】 ⚙️ Kimi 上线全新 Agent 模式“OK Computer”,开启灰度 基于 K2 模型,参数总量达1T,自主编程与工具调用表现突出。 以自然指令完成网站开发、数据分析等复杂任务。 【效率工具】 ⚙️ ChatGPT 推出个性化资讯功能,打造你的专属新闻助手 结合聊天历史,定制推送多领域每日资讯。 旨在提升信息获取效率与体验。 【开源项目】 🔓 Exa Code 发布:为 Coding Agent 提供亿级代码上下文 精准提取相关token,提升信息密度,显著降低幻觉与冗长输出。 免费开源、易集成,助力多场景开发提速。 - 源链接:https://exa.ai/blog/exa-code 【行业动态】 📰 Meta 推出 AI 视频平台 Vibes,轻松创作与分享短视频 支持从零创作、素材再混、动态 remix,多样玩法一站式。 作品可在 Vibes 发布,或跨平台分享至 Instagram 与 Facebook。 - 源链接:https://about.fb.com/news/2025/09/introducing-vibes-ai-videos/ 【技术突破】 🚀 蚂蚁数科发布隐私保护AI算法,推理提速超100倍 Gibbon 框架采用安全两方训练,显著加速传统GBDT。 基于同态查找表的决策图推理,兼顾隐私与高效计算。 【行业动态】 📰 OpenAI 发布 GDPval 基准,GPT-5 多行业逼近专家水平 涵盖九大行业、44种职业评估,GPT-5与Claude Opus4.1部分任务接近专家。 真实工作能力仍待验证,后续将推出更全面测试。 - 源链接:https://openai.com/index/gdpval/
【AI日报】EP.221 9月26 生数科技推出Vidu Q2;火山引擎推出炉米Lumi;通义千问开源【技术突破】 🚀 生数科技发布 Vidu Q2:细微表情生成更真实 在图生视频细微表情与情感传达上实现显著提升,画面更自然、更生动。 支持图生视频、首尾帧生成与可调时长,为创意影像提供更灵活的制作能力。 【效率工具】 ⚙️ 火山引擎炉米 Lumi 支持视觉模型 LoRA 微调 首次支持豆包、即梦等同款视觉模型的 LoRA 微调,企业可快速定制视觉风格。 提供从图片到视频的全流程 AIGC 能力,助力高效构建生产线。 【行业动态】 📰 阿里云:通义千问开源300+模型,下载量突破6亿 云栖大会披露最新进展,展现开源生态与应用落地的强劲势头。 通义万象生成超3.9亿张图片、7000万+视频,数字内容能力持续攀升。 【开源项目】 🧩 百度开源 Qianfan-VL:多模态视觉理解模型三档规模 依托昆仑芯 P800,兼顾低功耗与高效训练,在 OCR 与教育场景表现突出。 3B/8B/70B 全系开放,GitHub 与 Hugging Face 同步面向开发者使用。 - 项目链接(如有):https://github.com/baidubce/Qianfan-VL 【行业动态】 📰 微软引入 Anthropic 模型扩展 Copilot Assistant 在保持与 OpenAI 紧密合作的同时,多元化引入 Anthropic 满足企业需求。 管理员启用后,企业可用 Anthropic 模型构建 AI 代理,并在多云环境运行。 【行业动态】 📰 OpenAI 在美国新建五个数据中心,推进“Stargate”算力 总投资约 5000 亿美元,目标算力接近 7GW,基础设施按周扩容。 Oracle 参与建设,阿比林数据中心扩容新增 600MW,支撑生成式 AI 加速发展。 【开源项目】 🧩 英伟达开源 Audio2Face:实时语音驱动面部动画 提供 SDK 与训练框架,支持离线渲染与实时流式,覆盖游戏与影视场景。 多家开发商已采用,显著提升虚拟角色真实感与制作效率。 - 项目链接(如有):https://build.nvidia.com/nvidia/audio2face-3d 【AI模型】 🤖 Meta 发布 CWM:32B 参数代码世界模型支持沙箱推演 生成前先在沙箱模拟运行结果,快速定位错误并提升调试与安全性。 硬件要求高,需双 H100 与 RDMA 支持,适配高性能工程环境。 - 项目链接(如有):https://github.com/facebookresearch/cwm
【AI日报】EP.220 9月25 接入MJ!夸克发布造点AI;Wan2.5-Preview发布;可灵【效率工具】 ⚙️ 阿里夸克发布AI创作平台“造点”,Wan2.5视频生成7天免费 集成通义万相 Wan2.5 与 Midjourney V7,支持音画同步视频生成与高级图像创作。 提供轻量化创作体验,满足普通用户日常修图与创意需求。 - 参考链接:https://www.chinaz.com/tags/875912.shtml - 参考链接:https://www.chinaz.com/tags/835556.shtml - 参考链接:https://www.chinaz.com/tags/754515.shtml - 参考链接:https://www.chinaz.com/tags/996134.shtml - 参考链接:https://www.chinaz.com/tags/812428.shtml 【AI模型】 🧠 Wan2.5-Preview发布:多模态输入,电影级视听同步视频生成 视频生成支持高保真、高一致性视听同步,覆盖多人声、音效与BGM。 图像生成更强,涵盖逼真摄影、艺术风格与专业图表,并支持对话式指令级编辑。 【行业动态】 📰 可灵AI发布可灵2.5Turbo视频模型,订阅降价近30% 新模型上线同步降价,基础会员66元,最高级会员月费1314元。 二季度营收超2.5亿元,显示视频大模型订阅价格进入分化阶段。 【开源项目】 🧑💻 阿里通义推出Qwen3-ASR-Toolkit:小时级音视频转录开源工具 基于Qwen3-ASR-Flash,突破三分钟限制,支持多格式、智能静音切分与并行上传。 显著提升长时音视频转录的速度与准确率。 - 项目链接:https://github.com/QwenLM/Qwen3-ASR-Toolkit 【效率工具】 ⚙️ 谷歌相册AI编辑全面开放:用自然语言一键修图,安卓全覆盖 支持光线调整、背景移除与老照片修复等高级操作,降低修图门槛。 同步推进AI透明度,支持C2PA内容凭证,维护影像真实性。 【效率工具】 ⚙️ 谷歌推出Mixboard:情绪板生成与图像编辑一站式AI工具 支持模板与文本提示,上传图片或自然语言即可生成视觉方案。 一键再生与编辑提升创作效率,适用于家居装饰与活动策划等场景。 - 项目链接:https://labs.google.com/mixboard/welcome 【AI模型】 🧠 Qwen3-Max发布:代码生成与自主思考双强,MoE架构加持 规模超万亿参数,使用36万亿tokens预训练,提升训练效率与稳定性。 Instruct版本编程基准表现优异,Thinking版本数学推理满分。 【技术突破】 🚀 Figma MCP服务器升级:一键设计转代码,协作效率飞跃 远程访问语义层信息,与Figma Make无缝集成,资源直出代码级资产。 Code Connect映射优化,代码还原度提升,开发时间缩短60%-80%。 - 项目链接:https://127.0.1:3845/sse
【AI日报】EP.219 9月23 美团发布推理大模型LongCat-Flash-Thinking;阿【AI模型】 🤖 美团推出推理大模型 LongCat-Flash-Thinking 基于混合专家架构,峰值规模达5600亿参数,动态激活186亿至313亿,在数学、通用推理与代码生成中表现突出。 权重与聊天模板已开放,配套专属聊天站点,便于开发与研究。 - 项目链接:https://longcat.chat/ 【开源项目】 🧩 一图生成动画,人物无缝替换:Wan-Animate 开源 单模型双任务,给一张图和一段参考视频即可出片;骨骼控制、面部隐式特征与 Relighting LoRA 提升同步与动作还原。 适用于MV、电商广告、培训等场景,后续有望支持多人物视频。 - 项目链接:https://github.com/Wan-Video/Wan2.2 【AI模型】 🤖 字节跳动发布豆包翻译大模型:28语互译,比肩GPT-4o 覆盖28种语言对,性能接近或超越主流旗舰模型。定价激进:输入每百万字符1.20元,输出3.60元。 企业可在火山引擎获取完整计费与接入说明。 - 参考链接:https://www.volcengine.com/docs/82379/1820188 【技术突破】 🚀 华为携浙大发布 DeepSeek-R1-Safe:安全与性能双优 基于昇腾千卡算力平台,在多维有害信息防御上接近100%拦截。通用能力损耗控制在1%以内。 为国产算力生态构建安全可靠的大模型提供了范式样本。 【行业动态】 📰 Qwen3-Omni 即将登场:端侧跨模态再升级 采用 Thinker-Talker 双轨设计,支持高效流式与实时交互。已向 Transformers 提交支持 PR,开源集成在路上。 预计将进一步优化资源受限设备上的多模态体验。 【技术突破】 🚀 xAI 发布 Grok4Fast:算力降40%,单任务成本降98% 在 GPQA Diamond、AIME2025 等基准上表现优异,以更少计算实现更高吞吐。 为复杂任务提供高性价比方案,适合企业在成本敏感场景快速落地。 【效率工具】 ⚡ YouTube 上新创作与直播工具,助力变现与运营 工作室新增灵感标签、标题A/B测试、肖像识别等;直播支持小游戏、横竖屏与AI自动高光。 品牌合作与购物计划拓展收入渠道,优化创作者工作流。 【开源项目】 🧩 IBM 推出 Granite-Docling-258M:轻量文档转换模型 2.58亿参数的视觉语言模型,相比传统OCR识别更准,保留版面结构,支持多种输出格式。 已支持中文、阿拉伯语、日语,后续将扩展更多语言。 - 项目链接:https://huggingface.co/ibm-granite/granite-docling-258M 【技术突破】 🚀 中科院发布类脑大模型 SpikingBrain:2%数据达百倍长文速度 混合线性注意力将复杂度由二次降至线性;自适应阈值脉冲神经元显著降能耗、提升稀疏性。 长文本处理速度比主流模型快100倍,训练数据仅需2%。 - 项目链接:https://github.com/BICLab/SpikingBrain-7B 【行业动态】 📰 OpenAI 将推高算力新功能,部分仅向 Pro 开放 未来数周陆续上线,可能收取额外费用以覆盖算力。 Altman 称长期目标仍是降低智能服务成本、提升可及性。
【AI日报】EP.218 9月20 小米开源首个原生端到端语音大模型;通义万相Wan2.2-Anima【开源项目】 🧩 小米开源端到端语音大模型 Xiaomi-MiMo-Audio 基于创新预训练与上亿小时数据,具备语音领域少样本In-Context泛化能力。 在多项音频理解基准中超越Google与OpenAI闭源模型,并开放完整预训练方案。 - 项目链接:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct 【开源项目】 🧩 通义万相开源动作生成模型 Wan2.2-Animate 人物一致性与生成质量大幅提升,支持动作模仿与角色扮演两种模式。 独立光照融合LoRA确保光影无缝迁移,适用于短视频与动漫制作。 - 项目链接:https://github.com/Wan-Video/Wan2.2 【行业动态】 📰 Suno v5音乐模型即将登场 被视为AI音乐创作的里程碑,预计引入更强语义控制与多模态输入。 v4.5期间用户作品播放量已达数亿次,新版本引发全球期待。 【行业动态】 📰 生数科技获数亿元融资,视频生成商业化提速 Vidu视频大模型年收入达2000万美元,多模态AI进展显著。 视频生成将重塑内容生产,但也面临版权与虚假信息治理挑战。 【行业动态】 📰 OpenAI修复ChatGPT漏洞,防止Gmail数据被盗 “深度研究”功能曾可被特制邮件诱导外泄敏感信息,OpenAI已紧急修复。 此类攻击难以被常规防护检测,用户需保持警惕与良好安全习惯。 【效率工具】 ⚡️ Chrome引入Gemini,开启跨页智能助理体验 支持理解网页内容、跨选项卡协同与任务安排,深度整合谷歌应用。 面向企业提供数据保护与代理能力,助力更安全高效的浏览与搜索。 【技术突破】 🚀 Luma AI发布Ray3:HDR与“推理”重塑视频生成 支持10/12/16位色深与EXR导出,贴合专业后期工作流。 具备复杂指令理解与自评迭代能力,并可用草图精准控制画面。 【开源项目】 🧩 Mistral开源24B推理模型 Magistral Small 1.2 支持最高128k上下文,引入[THINK]特殊token以增强推理表现。 新增视觉编码器并兼容多框架,强化图文多模态能力。 【效率工具】 ⚡️ Notion发布AI智能体:自动纪要与全库分析 基于工作区上下文生成会议笔记、分析报告与竞品评估,可创建/更新页面与数据库。 支持从Slack、邮件与Google Drive触发,20分钟处理数百页文档。 【效率工具】 ⚡️ 腾讯混元3D Studio上线:3D创作从天级提速到分钟级 原生3D分割支持部件自动拆分与独立编辑,AI语义UV 1-2分钟出图。 智能材质编辑通过文本/图片生成高质量PBR纹理,显著提升生产效率。 - 项目链接:https://3d.hunyuan.tencent.com/studio
【AI日报】EP.217 9月19 可灵AI发布数字人新功能;腾讯混元新技术给大模型 “去油”;抖音上【效率工具】 ⚙️ 可灵AI发布数字人新功能:一张图片生成1分钟高清视频 从静态图片到动态视频,几步即可生成高质量数字人内容。 支持文字/音频驱动与多语种,为教育、培训与宣传降本增效。 - 项目链接:https://klingavatar.github.io/ 【技术突破】 🚀 腾讯混元携高校推出SRPO:给生成图像“去油”更逼真 引入语义相对偏好优化与Direct-Align,显著提升真实感并降低重建误差。 训练高效,10分钟即可超越现有方法,真实度与美学评分大幅提升。 - 项目链接:https://tencent.github.io/srpo-project-page/ 【开源项目】 🧩 IBM开源Granite-Docling-258M:企业级文档AI模型上线 端到端保留版式结构,精准提取表格、代码与公式,优于传统OCR。 多语种支持与新架构上阵,相比SmolDocling全面进化。 - 项目链接:https://huggingface.co/collections/ibm-granite/granite-docling-682b8c766a565487bcb3ca00 【行业动态】 📰 Meta发布首款带屏幕AI眼镜Ray-Ban:随身智能助理更近一步 镜片内置显示,搭配神经腕带肌电识别,实现更自然的交互。 连接云端可用Meta应用、导航与实时翻译,减少对手机依赖。 【行业动态】 📰 DeepSeek R1登上Nature封面:大模型首次通过同行评审 强化学习驱动自主演化,推理能力显著提升。 AIME2024成绩由15.6%跃升至71.0%,与顶级模型相当。 【行业动态】 📰 OpenAI为ChatGPT网页端上线“Thinking时长”可调功能 用户可在GPT-5模式下调节思考时长,平衡回复速度与智能程度。 同步推进儿童版ChatGPT研发,强化未成年人使用安全。 【行业动态】 📰 抖音上线“AI求真”功能:助你识谣辨真更安心 一键跳转“求真卡”,联合辟谣大模型与团队提升信息透明度。 面向全平台误导内容治理,增强用户保护能力。 【开源项目】 🧩 通义DeepResearch发布全开源AI模型:让AI“会做研究” 多项权威基准名列前茅,性能超越多款国际模型。 模型、框架与方案全面开源,推动科研协作与复现。
【AI日报】EP.216 9月18 阿里云开源通义DeepResearch;夸克推医师考试大模型;迪士【开源项目】 🧩 阿里云开源通义DeepResearch:轻量级AI代理,对标OpenAI 以300亿参数(实际激活约30亿)实现强劲检索与推理,支持128K超长上下文。 适用于多日行程规划、法律文档分析等复杂任务。 【行业动态】 📰 夸克发布国内首个全阶段医师考试大模型测试集 覆盖12门核心学科、约7600道题,来源于2024年最新考试。 以梯度化策略提升推理要求,填补高时效与广覆盖测试集空白。 【效率工具】 ⚡ 全球首位AI全栈工程师“Orchids”问世 开箱即用前后端开发,内置身份验证、数据库管理与支付,无需第三方服务。 从原型、UI到完整应用与网站一站式生成。 【效率工具】 ⚡ 微软Copilot将上线类ChatGPT记忆管理,接入Google Drive 可记住用户关键信息,提供更个性化的助理体验;支持访问Drive文件。 部分连接器或纳入每月20美元订阅计划,功能将逐步推送多平台。 【行业动态】 📰 迪士尼、华纳、环球起诉MiniMax,涉AI训练版权 指控海螺AI未经授权使用电影角色进行训练与商业化运营。 按每项著作权最高15万美元请求赔偿,或成AI版权里程碑事件。 - 参考链接:https://www.reuters.com/legal/litigation/disney-universal-warner-bros-discovery-sue-chinas-minimax-copyright-infringement-2025-09-16/ 【效率工具】 ⚡ Gamma 3.0发布:用Agent与API重塑演示文稿工作流 Gamma Agent支持提示驱动的智能编辑,一键全面优化内容与结构。 Gamma API助力企业级集成,团队/商业版覆盖不同规模需求。 【行业动态】 📰 OpenAI更新ChatGPT搜索:更全面也更及时 支持长对话与图像搜索,答案覆盖更广更即时。 响应时间可能变长且偶有错误,建议用户交叉核实。 【效率工具】 ⚡ Notion将推个性化AI智能体,支持分享与售卖 自定义助手头像、名称与行为指令,可用模板或自配流程。 9月18日主题演讲亮相,预计兼容网页版与移动端。 【效率工具】 ⚡ Cursor 1.6发布:自定义命令与MCP协议提升协作 新增自定义命令与/summarize,优化代理终端性能与稳定性。 支持MCP无缝连接外部工具与数据源,拓展AI代理能力边界。 - 参考链接:https://cursor.com/blog/tab-rl 【AI模型】 🤖 谷歌TimesFM-2.5:小型长上下文的时间序列基础模型 仅2亿参数的解码器架构,更小更快且准确性提升。 支持16,384上下文与本地概率预测,GIFT-Eval点/概率预测均居首。 - 项目链接:https://huggingface.co/google/timesfm-2.5-200m-pytorch 【效率工具】 ⚡ Figma AI编辑功能上新:选中画布一键评论即改稿 基于Make扩展成通用AI编辑器,支持自然语言直接修改与实时协作。 由Beta转向限量Alpha,面向付费计划用户开放。 - 参考链接:https://docs.google.com/forms/d/e/1FAIpQLSdGtm-FFZIq1mhn62VRvMBP71yGG_zn9mjKgeqKhDUY-ymMvQ/viewform
【AI日报】EP.215 9月13 MiniMax Music 1.5上线;腾讯会议上线AI托管;蚂蚁【AI模型】 🤖 MiniMax Music 1.5上线:生成音乐时长提升至4分钟 支持强控制力、自然人声、丰富编曲与清晰结构。 16种风格×11种情绪×10个场景自定义,覆盖配乐与虚拟偶像等创作场景。 - 参考链接:https://www.chinaz.com/tags/803315.shtml - 参考链接:https://www.chinaz.com/tags/824394.shtml - 参考链接:https://www.chinaz.com/tags/849274.shtml 【效率工具】 ⚡ 腾讯会议上线AI托管:会议分身、要点记录、一键生成纪要 可代替参会并在突发情况下无缝接管,确保信息不遗漏。 会后自动输出清晰纪要,缓解“撞会”与时间管理压力。 【技术突破】 🚀 蚂蚁发布gPass:AI眼镜可信连接框架 聚焦标准不一与跨设备协同难题,推动眼镜向个人智能体演进。 可信身份流通、端到端加密与无感核身,强化安全与便捷。 【AI模型】 🤖 Anthropic为Claude加入自动记忆与隐身聊天 团队/企业对话可被自动记忆并延续到项目内容与产出。 新增隐身模式保护隐私,兼顾效率与合规。 【行业动态】 📰 苹果AI实时翻译在欧盟受DMA限制暂停 苹果称延迟与数据保护无关,主要受制于DMA规则。 也折射大型科技公司在多地法规下的落地挑战。 【行业动态】 📰 职业球队首度启用AI主教练并取胜 奥克兰球手队以AI“AaronLytics”指挥,5:0完胜对手。 技术可计算“最优解”,但也引发对体育人性与不确定性的讨论。 【效率工具】 ⚡ Google AI Edge Gallery上架:手机端离线多模态AI 集成Gemma系列,支持图像识别、语音转写/翻译、文本对话等。 全离线运行与隐私保护,模型可按需切换。 【行业动态】 📰 首个企业应用AI成熟度模型AIM²发布 定义从“单点试验”到“AI原生”的五级进阶,覆盖六大评估维度。 帮助企业识别短板,规划从概念验证到规模收益的路径。 【效率工具】 ⚡ Claude上线Web Fetch与Search一体化工作流 直接抓取并分析网页与PDF,打通“搜索—抓取—分析”闭环。 白/黑名单与次数限制加强安全控制与可信度。 【行业动态】 📰 FTC调查多家AI聊天机器人,聚焦未成年人安全 涉及Alphabet、CharacterAI、Instagram、Meta、OpenAI、Snap与xAI。 重点审视安全评估、盈利模式与家长告知机制,防范负面影响。
【AI日报】EP.214 9月12 快手推出AI视频制作助手Kwali;字节跳动推出USO模型;Ope【效率工具】 🛠️ 快手发布 Kwali:一语生成短视频的多Agent助手 云端多Agent自动拆解卖点、受众与情境标签,生成脚本、匹配镜头并剪辑合成。大幅降低制作成本,帮助商家更快投放。 - 项目链接:https://kc.kuaishou.com/kwali 【开源项目】 🧩 字节跳动开源 USO 模型:打破“风格与主题”对立 以创新训练与海量数据实现风格与主题的灵活融合,显著提升图像生成的精准度与可控性,面向创意与商业设计场景。 - 项目链接:https://github.com/bytedance/USO 【行业动态】 📰 微软推出 Copilot Audio 音频模式:更个性化的语音交互 基于 MAI-Voice-1,提供情感、故事、脚本三种模式与多样声音风格;配合 MAI-1 入驻 Office,丰富办公场景语音体验。 - 项目链接:https://copilot.microsoft.com/labs/audio-expression 【AI模型】 🧠 Stability AI 发布 Stable Audio 2.5:专业音频生成再升级 支持最长三分钟音轨的高质量生成与音频修补,满足复杂音乐创作,并与 WPP 合作强化品牌音频识别。 【技术突破】 ⚡ 阿联酋开源 K2 Think:320 亿参数,号称全球最快 最高每秒 2000 tokens 的生成速度,擅长复杂数学与编程推理;开放权重与训练/部署方案,支持商业落地。 - 项目链接:https://www.k2think.ai/guest 【行业动态】 📰 微信公众号上线智能回复:数字分身 7×24 小时在线 可学习历史文章与语言风格,提供个性化回复,提升运营效率与用户黏性。 【技术突破】 ⚡ OpenAI 推出 ChatGPT 开发者模式:AI 直接控制外部工具 支持自定义连接器执行写入与复杂任务,多层安全防护保障准确与安全,迈向自动化代理时代。 - 项目链接:https://platform.openai.com/docs/mcp - 项目链接:https://platform.openai.com/docs/guides/developer-mode 【开源项目】 🧩 字节 Seed 推出 AgentGym-RL 框架:让 LLM 更会决策 以强化学习训练多轮交互代理,配合 ScalingInter-RL 方法平衡探索与利用;多项任务表现超越商业模型。 - 项目链接:https://agentgym-rl.github.io/ 【开源项目】 🧩 月之暗面开源 Checkpoint Engine:LLM 推理原地热更新 最高可在 20 秒内完成万亿参数权重同步,支持数千 GPU 并行,显著减少停机并利于扩展到 SGLang 等框架。 【开源项目】 🧩 B 站开源 IndexTTS-2.0:情感与时长可控的零样本 TTS 引入时间编码实现精准时长控制,音色与情感解耦提升自然度,适用于配音、有声读物与跨语种本地化。 - 项目链接:https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo 【效率工具】 🛠️ Replit 发布 Agent 3:自主性提升 10 倍的编程助手 可基于自然语言生成与优化代码,支持多语言与全流程协作(生成、调试、管理),显著提升开发效率。 - 项目链接:https://replit.com/agent3
【AI日报】EP.214 9月11 腾讯开源图像模型HunyuanImage2.1;爱诗科技获6000【AI模型】 🤖 腾讯混元生图模型升级至 Hunyuan Image 2.1,支持写字与原生2K 原生2K分辨率与更强复杂语义理解,支持中英文与高质量文本渲染。 模型已在社区开源,助力多模态图像生成研究与创作。 - 项目链接:https://hunyuan.tencent.com/image 【行业动态】 📰 爱诗科技完成6000万美元B轮融资,阿里巴巴领投 视频生成大模型 PixVerse V5 领跑图生视频赛道,用户规模突破1亿。 开放平台 API 计划将推动视频生成技术的规模化应用。 【AI模型】 🤖 Freepik 上线豆包 Seedream 4.0 图像模型,会员无限生成图片 支持2K/4K分辨率与多种纵横比,满足多场景设计需求。 Premium+与Pro会员享无限生成,火山引擎同步开放 Seedream 4.0 API。 【技术突破】 🚀 阿里通义千问 Qwen3-Next-80B-A3B 推理提速10倍,降本增效 MoE专家混合架构实现高效推理与低资源占用,长上下文更稳。 训练与推理成本显著下降,降低机构部署大模型门槛。 【行业动态】 📰 微软多元化AI供应商,在 Office 365 集成 Anthropic 技术 基于性能引入 Anthropic 能力,优化办公场景智能体验。 推进自研与多供应链并行,调整对单一伙伴的依赖。 【效率工具】 ⚡ 首款 AI Agent 浏览器 Fellou CE 发布,主打“无缝衔接”体验 通过自然语言与自主执行处理复杂任务,显著提升工作效率。 构建开放智能生态,强调隐私与数据安全。 - 项目链接:https://fellou.ai/ 【开源项目】 🧑💻 清华开源 GUAVA:0.1 秒单张照片生成 3D 数字人 结合 EHM 与 3D 高斯泼溅,高质量表情还原与极速渲染。 覆盖自媒体、直播、电商、教育等场景,效率与体验大幅提升。 - 项目链接:https://github.com/Pixel-Talk/GUAVA - 项目链接:https://eastbeanzhang.github.io/GUAVA/ 【效率工具】 ⚡ Claude 升级:一键生成与编辑 Excel、PPT、PDF 等办公文件 面向 Max/Team/Enterprise 预览开放,Pro 将陆续覆盖。 支持代码执行与文件处理,协作产出更快落地。
【AI日报】EP.213 9月10 生数科技上线Vidu Q1参考生图;字节跳动发布Seedream4【AI模型】 🤖 生数科技全球上线 Vidu Q1 参考生图:支持最多7张图片输入 多图参考、多主体一致性与场景生成同步升级,创作可控性更强。 支持服装与背景自由替换,推动多模态创作进入新阶段。 - 参考链接:https://www.chinaz.com/tags/854050.shtml 【AI模型】 🤖 字节跳动发布 Seedream4.0:全新多模态图像创作模型 支持文生图、图生图和多图编辑,覆盖多样化创作场景。 美感与逻辑理解显著提升,推理速度较前代快10倍以上。 【效率工具】 🧰 腾讯推出 AI CLI 工具 CodeBuddy:国内首家全形态AI编程 覆盖插件、IDE与CLI,自然语言驱动代码生成与部署。 官方称编码时间缩短40%,AI生成代码占比超50%。 - 项目链接:https://www.codebuddy.ai/ 【AI模型】 🤖 百度文心大模型 X1.1 发布:学习与执行力再升级 在事实性、指令遵循与智能体表现上全面进步。 面向个人与企业开放体验,千帆平台提供开发接入。 【行业动态】 📰 OpenAI支持AI动画长片《Critterz》:计划2026戛纳首映 预算不足3000万美元,30人团队9个月完成,探索AI降本增效拍片。 人机协同制作流程,应用GPT-5等生成式AI工具。 【开源项目】 🛠️ 上海AI实验室发布 XTuner V1 训练引擎:训练效率显著提升 吞吐量提升5%以上,计算资源利用率(MFU)增长超20%。 采取开源策略,助推大模型训练技术进步与普及。 【行业动态】 📰 谷歌AI搜索模式扩展:新增5种语言支持 覆盖印地语、印尼语、日语、韩语与巴西葡萄牙语。 基于定制Gemini 2.5,强化多模态与推理,辅助而非替代传统结果。 【行业动态】 📰 我国发布30项AI国家标准,15项人形机器人国标在研 既有与在制标准覆盖多领域,规范产业发展与应用安全。 牵头推进《生成式人工智能风险处理指南》国际标准,输出中国方案。
【AI日报】EP.212 9月6 拍我AI接入Nano Banana;腾讯智影暂停服务;京东自研京点点【行业动态】 📰 拍我AI接入谷歌 Nano Banana,开启六天免费创作 接入 Gemini 2.5 Flash Image(Nano Banana),视频生成速度与质量双升级。限时六天免费,全球用户已突破1亿,创作门槛进一步下降。 - 参考链接:https://www.chinaz.com/tags/992068.shtml 【效率工具】 ⚡ 京东自研「京点点AI文案」上线,3秒出稿 面向商家的一站式AI文案工具,支持视频脚本、直播话术等多场景。完全免费,每日可生成多达50条,高效又省成本。 - 项目链接:https://ai.jd.com/ 【行业动态】 📰 腾讯数字人平台“智影”暂停服务,原因未披露 官网显示升级维护中,相关公众号与视频号已注销。官方尚未回应,引发业务走向与产品调整的猜测。 【AI模型】 🧠 微软发布 GPT-realtime:更逼真语音与多模态输入 新增 Marin、Cedar 两种语音,音质更清晰、情感更自然;支持图像输入与更强指令跟随。Real-time API 开放,价格较预览期下调约20%。 【开源项目】 🧩 钉钉与 OpenDataLab 联合推出文档解析工具 DLU 基于 MinerU 技术,支持多格式文档,精准提取复杂元素并转化高质量语料。预计开源并深度融入钉钉生态,助力企业内容理解与协同。 【效率工具】 ⚡ ChatGPT 新功能向免费用户开放,项目管理更高效 免费用户最多可上传5个文件(Plus 25个、Pro/企业版40个)。支持项目颜色与图标自定义,新增项目级记忆控制,切换场景更顺手。 【行业动态】 📰 华纳兄弟探索起诉 Midjourney 侵权,涉大量版权角色 指控其生成未授权的衍生图像,即便未直接提及角色也会输出相关内容。华纳兄弟请求法院禁止侵权并索赔,版权边界再受关注。 【开源项目】 🧩 电子书一键变思维导图:AI解析 EPUB/PDF 自动解析章节结构,生成思维导图与文字总结,支持多种模式与离线缓存。提升长文阅读效率,便于知识整理与复盘。 - 项目链接:https://github.com/SSShooter/ebook-to-mindmap
【AI日报】EP.211 9月5 苹果明年推出SiriAI搜索;OpenAI放开ChatGPT Pro【行业动态】 📰 苹果与谷歌联手将Gemini引入Siri,或重塑搜索入口 苹果正在测试将谷歌Gemini集成进Siri,并可能扩展到Spotlight等核心功能。Siri的全面AI升级预计推迟到2026年,语音助手有望直接回答更多信息检索需求。 【效率工具】 ⚡️ ChatGPT Projects向免费用户开放,任务管理更省心 OpenAI将Projects功能开放给所有用户,支持对话分组、文件上传(每Project至多5个)、自定义颜色与图标。新增Project-only memory,兼顾隐私与专注。 【开源项目】 🧩 谷歌发布Gemini CLI GitHub Actions:免费把AI带进代码仓库 支持自动化问题分类、PR审核与按需协作命令,降低团队使用AI门槛。内置安全认证方案,便于在现有CI/CD中稳定落地。 - 源链接:https://blog.google/technology/developers/introducing-gemini-cli-github-actions/ 【行业动态】 📰 OpenAI估值飙至5000亿美元,二级出售达103亿美元 资本市场对AI的信心继续升温,OpenAI完成大额二级交易。伴随Anthropic等平台融资走强,行业热度与竞争加速升级。 【行业动态】 📰 苹果自研“世界知识问答”AI搜索,计划2026年春上线 新引擎将嵌入Siri、Safari与Spotlight,强化智能搜索体验。苹果同时与谷歌合作引入其AI模型,并加紧招募AI人才。 【AI模型】 🤖 Kimi K2-0905登陆Discord:更强编程与写作,无思考/视觉 Moonshot AI发布K2-0905版本,聚焦代码生成与创意写作能力提升。仍未开源,现阶段通过开放Beta邀请体验。 【效率工具】 ⚡️ Raycast上新Cursor Agent插件,AI编码一键直达 在Raycast内直接调用Cursor代理执行编辑与运行任务,减少工具切换。提供实时状态显示,进一步优化开发工作流。 【技术突破】 🔬 谷歌发布nano banana官方Prompt模板,附完整代码示例 六套模板覆盖写实与插画等风格,零门槛生成高质量图像。为创意设计与内容生产提供即用型范式。 - 源链接:https://x.com/GoogleAIStudio/status/19629576152622245111
【AI日报】EP.210 9月4 抖音打击AI技术滥用行为;OpenAI 收购开发数据分析平台 Sta【行业动态】 📰 抖音重拳打击AI滥用:违规内容与账号将下架清退 平台点名虚假商品展示、夸大宣传与AI仿冒名人等行为,严重扰乱秩序。 发布AI生成内容需主动标注,未声明将被重点治理。 【AI模型】 🧠 ElevenLabs音效模型升级至V2:长片段、无缝循环与高保真 最高支持30秒生成与48kHz采样率,音质与灵活性全面提升。 新增无缝循环,适合配乐与背景音效连续播放。 【行业动态】 📰 OpenAI收购Statsig:创始人赴任CTO,强化产品数据分析 Statsig每日处理1万亿事件,助力实验与迭代加速。 收购后平台将继续独立运营,支撑下一代产品规模化。 【效率工具】 ⚙️ 亚马逊上线Lens Live:实景扫描即购,AI助手Rufus加持 对准实物即可识别匹配商品,一键加入购物车。 AI自动总结要点、解答问题,提升购物决策效率。 【效率工具】 ⚙️ 谷歌推出Stax:按自定义标准评测大模型的开发者工具 支持并排对比、多提示批测与预构建评估器,结果更贴近真实需求。 项目与数据集管理助力大规模一致性评测。 - 项目链接:https://stax.withgoogle.com/landing/index.html 【效率工具】 ⚙️ WordPress发布AI工具Telex:用提示词构建网站内容 通过AI生成可复用内容块,一键打包为.zip下载。 仍处实验阶段,旨在降低建站门槛并引发生态讨论。 【AI模型】 🧠 Liquid AI推LFM2-VL:轻量多模态模型,端侧推理更快 450M与1.6B两款规模,兼顾资源受限与单GPU部署。 高分辨率输入、非重叠切片与工具链兼容,推理提速最高2倍。 - 项目链接:https://huggingface.co/LiquidAI/LFM2-VL-1.6B 【开源项目】 🧩 苹果开源FastVLM与MobileCLIP2:边缘设备多模态性能跃升 FastVLM首词响应提速达85倍,面向高分辨率与移动端。 MobileCLIP2聚焦高效图文对齐,支持实时交互与搜索生成。 - 项目链接:https://huggingface.co/collections/apple/fastvlm-68ac97b9cd5cacefdd04872e 【开源项目】 🧩 MetaGPT发布RealDevWorld:端到端自动化测试,准确率92% 自然语言生成用例与自愈脚本,显著降低维护成本。 覆盖Web/移动端/API全栈流程,提升测试可靠性与效率。 - 项目链接:https://github.com/tanghaom/AppEvalPilot 【开源项目】 🧩 瑞士发布完全开源大模型Apertus:覆盖千余语言 EPFL、ETH与CSCS联合研发,透明公开训练数据与流程。 提供面向个人与复杂场景的两个版本,依托可再生能源算力。 - 项目链接:https://huggingface.co/swiss-ai/Apertus-8B-Instruct-2509