

AI早报 9月11日 阿里巴巴 华为 蚂蚁集团 谷歌AI早报 2025年09月11日 1. 阿里巴巴千问团队发布Qwen3-Next-80B-A3B-Instruct模型,采用MoE架构,推理吞吐量较Qwen3-32B提升明显。 2. 华为发布openPangu-Embedded-7B-v1.1开源模型,具备快慢思考双模式,支持手动或自动切换,平均思维链长度缩短近50%。 3. 蚂蚁集团百灵团队开源Ling-mini-2.0 16B 模型,采用MoE架构,激活1.4B,支持128K上下文,问答生成速度超300 Token/秒。 4. 谷歌推出“AI Plus”订阅服务,提供更多Gemini 2.5 Pro访问权限,支持128K上下文,集成Veo 3 Fast、Google Flow和Whisk工具。 5. 上海交通大学IPADS实验室推出移动端智能体工具链MobiAgent,支持从零构建智能体,在20款热门应用中表现优于多款闭源大模型。 6. Claude新增生成和编辑Excel、Word、PPT、PDF文件功能,目前向Max、Team和Enterprise用户开放。
AI早报 9月10日 苹果发布17系列,腾讯开源混元图像模型2.1AI早报 2025年09月10日 1. 英伟达发布Rubin CPX GPU,专为大规模上下文处理设计,支持超100万tokens,集成128GB GDDR7显存,提供30 petaflops计算能力,预计2026年底发售。 2. 腾讯开源混元图像模型2.1,支持2K分辨率生图和中英文输入,新增PromptEnhancer文本改写模型,提升复杂语义理解和多主体生成能力。 3. 魔法原子发布全尺寸双足人形机器人MagicBot Gen1,具备42个自由度、毫秒级响应和5小时续航,集成大语言模型与视觉识别。 4. B站开源自研语音生成大模型IndexTTS-2.0,采用自回归架构,支持精确时长控制和情感音色解耦。 5. 生数科技推出Vidu视频大模型Q1参考生图功能,突破多主体一致性技术,同时支持7张参考图输入。 6. 腾讯发布AI CLI工具CodeBuddy Code,支持自然语言开发,无需邀请码,面向所有用户开放使用。 7. 百度发布文心大模型X1.1深度思考模型,基于文心4.5优化,事实性提升34.8%,指令遵循能力提高12.5%。
AI早报 2025年09月09日 即梦 谷歌 苹果AI早报 2025年09月09日 1. 即梦全量上线图片4.0模型,可快速生成2K分辨率图像,并支持最高4K输出和精准指令编辑。 2. 中国科学院自动化研究所与沐曦MetaX合作开发并开源类脑脉冲大模型“瞬悉1.0”,在国产千卡GPU算力平台上完成训练和推理。 3. 谷歌深度学习团队发布开源嵌入模型EmbeddingGemma,参数0.308B,支持移动设备离线操作,适用于RAG和语义搜索。 4. OpenAI参与制作动画长片《Critterz》,使用GPT-5和图像生成模型,预计9个月内完成,预算约3000万美元,旨在展示AI在电影制作中的提速降本潜力。 5. 苹果正在开发自研生成式AI搜索产品“World Knowledge Answers”,可能集成到Safari浏览器和Spotlight搜索工具中。 6. 复旦大学研究人员提出可解释甲骨文破译框架,利用部首和象形分析,在HUST-OBC和EV-OBC数据集上达到Top-10识别准确率。
AI早报 2025年09月06日 阿里通义 腾讯混元 谷歌AI早报 2025年09月06日 1. 阿里通义千问上线Qwen-3-Max-Preview模型,在推理、指令跟随、多语言支持和长尾知识覆盖方面有重大改进,提升数学、编码、逻辑和科学任务准确性。 2. 腾讯混元游戏视觉生成平台发布2.0版本,新增图生视频、自定义模型训练、角色一键精修等功能,支持用户训练LoRA模型。 3. 拍我AI接入谷歌Nano Banana技术,提升生成速度与视频质量,并推出免费开放日活动供用户体验。 4. OpenAI与博通达成战略合作,共同设计并量产自研人工智能芯片,博通已获得来自OpenAI的价值100亿美元的AI芯片订单。 5. 月之暗面发布Kimi K2 0905,优化编程能力和任务处理性能,扩展上下文长度至256K,支持复杂任务。
AI早报 2025年09月05日 DeepSeek OpenAI 特斯拉AI早报 2025年09月05日 1. 据传DeepSeek正在开发先进AI代理模型,具备自主执行与学习优化能力,计划2025年第四季度发布,对标OpenAI等竞争对手。 2. OpenAI向免费用户开放ChatGPT Projects功能,支持创建对话文件夹、文件上传及自定义指令。 3. 特斯拉Optimus 3人形机器人原型曝光,配备仿生手部设计,支持响应语音指令执行任务如寻找物品。 4. 谷歌推出六套nano banana图像生成工具官方Prompt模板,涵盖写实、贴纸、文本渲染、产品摄影等风格。 5. OpenAI开发AI招聘平台,拟2026年中上线,使用AI匹配人才与企业,并提供AI技能认证,与LinkedIn竞争。
AI早报 2025年09月04日AI早报 2025年09月04日 1. 智谱推出开发者专属套餐「GLM Coding Plan」,适用于GLM-4.5及GLM-4.5-Air模型,月费20~100元。 2. MetaGPT团队推出端到端自动化测试工具RealDevWorld,基于多智能体协作框架,在RealDevBench上的精准度达92%。 3. ElevenLabs升级AI音效模型至版本2,支持最长30秒音频片段生成和48kHz采样率,新增无缝循环功能,并扩展音效库和搜索功能。 4. 瑞士联邦理工学院、苏黎世联邦理工学院和国家超级计算中心共同推出开源大语言模型Apertus,提供80亿和700亿参数两个版本。 5. OpenAI以11亿美元收购产品开发数据分析平台Statsig,Statsig创始人Vijaye Raji将加入OpenAI并担任应用首席技术官(CTO)。 6. Anthropic完成130亿美元F轮融资,估值达1830亿美元,年化收入突破50亿美元,旗下编程助手Claude Code年化收入超5亿美元。 7. 谷歌推出实验性工具Stax,允许开发者根据自定义标准评估大,提供快速比较和项目数据集功能,支持自定义和预构建评估器。
AI早报 2025年09月02日 腾讯 微软AI早报 2025年09月02日 1. 腾讯混元开源国际翻译模型Hunyuan-MT-7B,支持33个语种和5种民汉语言/方言互译,在ACL WMT2025比赛中获30个语种第一名。 2. 阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini,支持语音原生Tool Calling能力,包括联网搜索。 3. 美团开源AI大模型LongCat-Flash-Chat,参数量达560B,采用MoE架构和“零计算专家”机制,在H800硬件上推理速度达每秒100个token。 4. 微软推出实验性AI中心Copilot Labs,其中“Copilot音频表达”可将文本转换为自然语音,支持情感和故事模式,免费开放使用。 5. Anthropic确认其AI模型Claude Opus4.1和Opus4在8月25日至28日出现“降智”现象,原因为推理堆栈更新未达预期,已回滚并修复。
AI早报 2025年08月29日腾讯 阿里巴巴 谷歌AI早报 2025年08月29日 1. xAI发布智能代码生成模型Grok Code Fast 1,支持TypeScript、Python、Java等多种语言,定价为每百万输入token 0.20美元,输出token 1.50美元。 2. 腾讯混元开源端到端视频音效生成模型HunyuanVideo-Foley,可输入视频和文字生成音效,支持多场景创作应用。 3. 阿里巴巴瓴羊发布“超级数据分析师”Agent,由问数、解读和报告三大核心Agent组成,数据获取速度缩短至10秒,报告生成时间缩短至20分钟。 4. 微软推出自研AI模型MAI-Voice-1和MAI-1-preview,前者可在1秒内生成1分钟音频,后者用于Copilot助手,正进行公开测试。 5. IBM与NASA联合发布开源太阳物理基础模型Surya,用于预测太阳耀斑、太阳风等活动,提升太阳天气预报准确性。 6. 谷歌升级Google Sheets“转换为表格”功能,引入Gemini AI助手,可自动命名表格并简化公式引用方式。
AI早报 2025年08月28日 腾讯 谷歌 百度AI早报 2025年08月28日 1. Anthropic推出“Claude for Chrome”扩展程序,可自动执行网页操作如导航、点击和填写表单,目前仅对Max订阅用户开放。 2. 腾讯游戏发布游戏创作AI工具集VISVISE,涵盖动画制作、模型制作、数字资产管理和智能NPC等核心领域。 3. 谷歌翻译基于Gemini AI模型进行升级,新增实时同传功能,实现无缝跨语言交流,支持70多种语言,并推出智能语言陪练模式。 4. NVIDIA发布Jet-Nemotron语言模型,包含2亿和4亿参数版本,生成速度提升53.6倍,采用PostNAS技术改造现有模型,降低训练成本和计算内存需求。 5. 百度AI搜索应用“Tizzy.ai”更名为“梯子AI”并重新上架,主打无广告高效搜索,提供智能双模式搜索、简洁界面和多元影视内容整合。
AI早报 2025年08月27日 谷歌 阿里云AI早报 2025年08月27日 1. 谷歌DeepMind推出Gemini 2.5 Flash图像编辑模型,支持文字指令编辑,已在Gemini应用上线,开发者可通过API和平台试用。 2. 阿里云开源全新多模态视频生成模型通义万相 Wan2.2-S2V,可基于一张图片和音频生成电影级数字人视频,支持真人、卡通、动物等多种类型图片,并支持不同画幅和文本控制。 3. 微软发布开源文本转语音(TTS)模型VibeVoice-1.5B,能生成最长90分钟、最多4位说话者的自然语音,支持跨语言和歌声合成。 4. 香港大学与快手可灵团队提出“Context-as-Memory”方法,解决长视频生成中场景一致性控制难题,通过context learning技术和基于FOV的记忆检索机制提升计算效率。 5. 钉钉推出新型AI办公应用“钉钉ONE”,将采用信息流卡片的形式呈现优先级排序后的工作信息与任务。 6. 英伟达发布新一代机器人专用芯片Jetson Thor,能效提升至3.5倍,采用Blackwell架构GPU,支持生成式AI模型推理。 7. 面壁智能与清华大学NLP实验室联合发布端侧多模态大模型MiniCPM-V4.5,支持视觉、文本、视频理解。
AI早报 2025年08月26日 苹果 AnthropicAI早报 2025年08月26日 1. 苹果研究人员提出“基于清单反馈的强化学习”(RLCF)方法,使用任务清单代替传统评分,提升大语言模型执行复杂指令的能力,在Qwen2.5-7B-Instruct模型上测试性能最高提升8.2%。 2. 阿里云开源Vivid-VR生成式视频修复工具,基于T2V基础模型和ControlNet技术,可高质量修复视频闪烁、抖动、模糊和噪点等问题。 3. Anthropic 向 Claude Code 订阅用户灰度开放支持 100 万 token 上下文长度的 claude-sonnet-4 模型,提升代码分析等能力。 4. Runway推出AI游戏平台Game Worlds Beta版,支持用户创建非线性叙事游戏,实时生成图文内容,并设定规则驱动交互。 5. 韩国AI芯片企业Rebellions发布首款采用UCIe-Advanced技术的NPU芯片REBEL-Quad,基于三星SF4X制程,算力达2 PFLOPS FP8。 6. 香港科技大学团队推出沙盒游戏Aivilization,允许用户通过提示词驱动AI角色完成任务,具有虚拟经济系统,提供高度动态的游戏体验。 7. 钉钉推出首款AI硬件产品DingTalk A1录音笔,厚度3.8毫米,支持8米内清晰收音,提供10000分钟免费转写服务,准确率97%。
AI早报 2025年08月24日 苹果 腾讯元宝 MetaAI早报 2025年08月24日 1. xAI开源Grok 2.5模型,并计划在六个月后开源Grok 3模型。 2. 苹果研究团队开源SlowFast-LLaVA-1.5长视频多模态大语言模型,采用双流设置,刷新了LongVideoBench、MLVU等基准纪录。 3. 腾讯元宝接入DeepSeek V3.1最新版,支持混合推理架构,实现思考模式与非思考模式的切换,提升思考效率和Agent能力。 4. 清华大学与IDEA研究院联合推出GUAVA框架,一张照片即可生成逼真的3D上半身化身,渲染速度可达约50帧/秒。 5. Meta与Midjourney达成合作,计划将Midjourney的AI图像和视频生成技术集成到Meta未来的AI模型和产品中。
AI早报 2025年08月22日字节跳动百度AI早报 2025年08月22日 1. 字节跳动开源Seed-OSS-36B大语言模型,支持512K的原生长文本窗口和新思考预算机制,刷新多项推理能力记录。 2. 通义APP推出知识库功能,支持官方与个人知识库创建、多库联合查询,整合教育、法律等权威资料并允许用户上传自定义文档。 3. 百度MuseSteamer音视频一体化模型升级至2.0版本,首次实现多人有声视频一体化生成,支持运镜和电影级表演。 4. ElevenLabs推出Eleven v3 Alpha API,支持70多种语言的文本转语音,引入多角色对话模式和高级音频标签控制。 5. Liquid AI推出LFM2-VL视觉语言基础模型系列,包括450M和1.6B参数版本,优化低延迟和设备适应性,支持原始分辨率图像处理。 6. vivo发布Vision探索版MR头显,采用自研空间计算算法,搭载第二代骁龙XR2+平台,支持自然眼动追踪和微手势识别。
AI早报 08月21日 智谱 苹果 谷歌 MetaAI早报 2025年08月21日 1. 智谱发布AutoGLM2.0,配备智能体手机和电脑,突破硬件限制,可在任何设备场景下运行,支持美团、京东点单等应用操作。 2. 苹果在Xcode 26 Beta 7版本中新增对Anthropic Claude系列大模型的原生支持,开发者可直接调用Claude模型用于代码生成与优化。 3. 谷歌推出全新语音助手“Gemini for Home”,使用最新Gemini人工智能模型提升推理、搜索和语境理解能力,支持多轮自然语音对话。 4. 微软在Excel中测试集成“Copilot”功能,通过公式调用LLM进行内容生成、数据摘要、文本分类等任务,提升数据分析效率。 5. 上海人工智能实验室等机构联合推出LongVie框架,提升超长视频生成的可控性和一致性问题,并推出超长视频生成基准数据集LongVGenBench。 6. Meta推出AI语音翻译功能,支持使用创作者原声进行翻译并提供唇形同步,首发支持英语和西班牙语双向翻译。
7月20日 AI早报AI早报 2025年08月20日 1. DeepSeek发布并开源大语言模型DeepSeek-V3.1,上下文窗口扩展至128K tokens,官网和API均已上线。 2. 中山大学、鹏城实验室与美团联合发布X-SAM图像分割模型,实现从“分割万物”到“任意分割”的突破,支持多种视觉和文本查询输入。 3. 英伟达推出9B模型Nemotron Nano v2,在复杂推理基准测试上准确率与Qwen3-8B相当,支持“思考”预算控制。 4. 腾讯发布大模型训练库WeChat-YATT,专注于强化学习和多模态模型训练,通过定制化并行计算策略解决大尺寸模型和长序列输入问题。 5. 淘天集团提出3B多模态大模型CombatVLA,在动作角色扮演游戏的战斗任务中成功率超越GPT-4o和人类玩家。 6. Vercel发布AI前端开发工具v0的iOS版本,利用自然语言生成全栈Web应用,提升开发效率。