AI每日早报 | 小宇宙 - 听播客，上小宇宙

51已订阅

AI每日早报

每日AI

单集更新

节目详情

AI早报 9月11日阿里巴巴华为蚂蚁集团谷歌
AI早报 2025年09月11日 1. 阿里巴巴千问团队发布Qwen3-Next-80B-A3B-Instruct模型，采用MoE架构，推理吞吐量较Qwen3-32B提升明显。 2. 华为发布openPangu-Embedded-7B-v1.1开源模型，具备快慢思考双模式，支持手动或自动切换，平均思维链长度缩短近50%。 3. 蚂蚁集团百灵团队开源Ling-mini-2.0 16B 模型，采用MoE架构，激活1.4B，支持128K上下文，问答生成速度超300 Token/秒。 4. 谷歌推出“AI Plus”订阅服务，提供更多Gemini 2.5 Pro访问权限，支持128K上下文，集成Veo 3 Fast、Google Flow和Whisk工具。 5. 上海交通大学IPADS实验室推出移动端智能体工具链MobiAgent，支持从零构建智能体，在20款热门应用中表现优于多款闭源大模型。 6. Claude新增生成和编辑Excel、Word、PPT、PDF文件功能，目前向Max、Team和Enterprise用户开放。
9分钟 · 7个月前
63
0
AI早报 9月10日苹果发布17系列，腾讯开源混元图像模型2.1
AI早报 2025年09月10日 1. 英伟达发布Rubin CPX GPU，专为大规模上下文处理设计，支持超100万tokens，集成128GB GDDR7显存，提供30 petaflops计算能力，预计2026年底发售。 2. 腾讯开源混元图像模型2.1，支持2K分辨率生图和中英文输入，新增PromptEnhancer文本改写模型，提升复杂语义理解和多主体生成能力。 3. 魔法原子发布全尺寸双足人形机器人MagicBot Gen1，具备42个自由度、毫秒级响应和5小时续航，集成大语言模型与视觉识别。 4. B站开源自研语音生成大模型IndexTTS-2.0，采用自回归架构，支持精确时长控制和情感音色解耦。 5. 生数科技推出Vidu视频大模型Q1参考生图功能，突破多主体一致性技术，同时支持7张参考图输入。 6. 腾讯发布AI CLI工具CodeBuddy Code，支持自然语言开发，无需邀请码，面向所有用户开放使用。 7. 百度发布文心大模型X1.1深度思考模型，基于文心4.5优化，事实性提升34.8%，指令遵循能力提高12.5%。
10分钟 · 7个月前
8
0
AI早报 2025年09月09日即梦谷歌苹果
AI早报 2025年09月09日 1. 即梦全量上线图片4.0模型，可快速生成2K分辨率图像，并支持最高4K输出和精准指令编辑。 2. 中国科学院自动化研究所与沐曦MetaX合作开发并开源类脑脉冲大模型“瞬悉1.0”，在国产千卡GPU算力平台上完成训练和推理。 3. 谷歌深度学习团队发布开源嵌入模型EmbeddingGemma，参数0.308B，支持移动设备离线操作，适用于RAG和语义搜索。 4. OpenAI参与制作动画长片《Critterz》，使用GPT-5和图像生成模型，预计9个月内完成，预算约3000万美元，旨在展示AI在电影制作中的提速降本潜力。 5. 苹果正在开发自研生成式AI搜索产品“World Knowledge Answers”，可能集成到Safari浏览器和Spotlight搜索工具中。 6. 复旦大学研究人员提出可解释甲骨文破译框架，利用部首和象形分析，在HUST-OBC和EV-OBC数据集上达到Top-10识别准确率。
8分钟 · 7个月前
5
0
AI早报 2025年09月06日阿里通义腾讯混元谷歌
AI早报 2025年09月06日 1. 阿里通义千问上线Qwen-3-Max-Preview模型，在推理、指令跟随、多语言支持和长尾知识覆盖方面有重大改进，提升数学、编码、逻辑和科学任务准确性。 2. 腾讯混元游戏视觉生成平台发布2.0版本，新增图生视频、自定义模型训练、角色一键精修等功能，支持用户训练LoRA模型。 3. 拍我AI接入谷歌Nano Banana技术，提升生成速度与视频质量，并推出免费开放日活动供用户体验。 4. OpenAI与博通达成战略合作，共同设计并量产自研人工智能芯片，博通已获得来自OpenAI的价值100亿美元的AI芯片订单。 5. 月之暗面发布Kimi K2 0905，优化编程能力和任务处理性能，扩展上下文长度至256K，支持复杂任务。
8分钟 · 7个月前
11
0
AI早报 2025年09月05日 DeepSeek OpenAI 特斯拉
AI早报 2025年09月05日 1. 据传DeepSeek正在开发先进AI代理模型，具备自主执行与学习优化能力，计划2025年第四季度发布，对标OpenAI等竞争对手。 2. OpenAI向免费用户开放ChatGPT Projects功能，支持创建对话文件夹、文件上传及自定义指令。 3. 特斯拉Optimus 3人形机器人原型曝光，配备仿生手部设计，支持响应语音指令执行任务如寻找物品。 4. 谷歌推出六套nano banana图像生成工具官方Prompt模板，涵盖写实、贴纸、文本渲染、产品摄影等风格。 5. OpenAI开发AI招聘平台，拟2026年中上线，使用AI匹配人才与企业，并提供AI技能认证，与LinkedIn竞争。
9分钟 · 7个月前
6
0
AI早报 2025年09月04日
AI早报 2025年09月04日 1. 智谱推出开发者专属套餐「GLM Coding Plan」，适用于GLM-4.5及GLM-4.5-Air模型，月费20~100元。 2. MetaGPT团队推出端到端自动化测试工具RealDevWorld，基于多智能体协作框架，在RealDevBench上的精准度达92%。 3. ElevenLabs升级AI音效模型至版本2，支持最长30秒音频片段生成和48kHz采样率，新增无缝循环功能，并扩展音效库和搜索功能。 4. 瑞士联邦理工学院、苏黎世联邦理工学院和国家超级计算中心共同推出开源大语言模型Apertus，提供80亿和700亿参数两个版本。 5. OpenAI以11亿美元收购产品开发数据分析平台Statsig，Statsig创始人Vijaye Raji将加入OpenAI并担任应用首席技术官（CTO）。 6. Anthropic完成130亿美元F轮融资，估值达1830亿美元，年化收入突破50亿美元，旗下编程助手Claude Code年化收入超5亿美元。 7. 谷歌推出实验性工具Stax，允许开发者根据自定义标准评估大，提供快速比较和项目数据集功能，支持自定义和预构建评估器。
8分钟 · 7个月前
2
0
AI早报 2025年09月02日腾讯微软
AI早报 2025年09月02日 1. 腾讯混元开源国际翻译模型Hunyuan-MT-7B，支持33个语种和5种民汉语言/方言互译，在ACL WMT2025比赛中获30个语种第一名。 2. 阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini，支持语音原生Tool Calling能力，包括联网搜索。 3. 美团开源AI大模型LongCat-Flash-Chat，参数量达560B，采用MoE架构和“零计算专家”机制，在H800硬件上推理速度达每秒100个token。 4. 微软推出实验性AI中心Copilot Labs，其中“Copilot音频表达”可将文本转换为自然语音，支持情感和故事模式，免费开放使用。 5. Anthropic确认其AI模型Claude Opus4.1和Opus4在8月25日至28日出现“降智”现象，原因为推理堆栈更新未达预期，已回滚并修复。
7分钟 · 7个月前
11
1
AI早报 2025年08月29日腾讯阿里巴巴谷歌
AI早报 2025年08月29日 1. xAI发布智能代码生成模型Grok Code Fast 1，支持TypeScript、Python、Java等多种语言，定价为每百万输入token 0.20美元，输出token 1.50美元。 2. 腾讯混元开源端到端视频音效生成模型HunyuanVideo-Foley，可输入视频和文字生成音效，支持多场景创作应用。 3. 阿里巴巴瓴羊发布“超级数据分析师”Agent，由问数、解读和报告三大核心Agent组成，数据获取速度缩短至10秒，报告生成时间缩短至20分钟。 4. 微软推出自研AI模型MAI-Voice-1和MAI-1-preview，前者可在1秒内生成1分钟音频，后者用于Copilot助手，正进行公开测试。 5. IBM与NASA联合发布开源太阳物理基础模型Surya，用于预测太阳耀斑、太阳风等活动，提升太阳天气预报准确性。 6. 谷歌升级Google Sheets“转换为表格”功能，引入Gemini AI助手，可自动命名表格并简化公式引用方式。
9分钟 · 8个月前
12
0
AI早报 2025年08月28日腾讯谷歌百度
AI早报 2025年08月28日 1. Anthropic推出“Claude for Chrome”扩展程序，可自动执行网页操作如导航、点击和填写表单，目前仅对Max订阅用户开放。 2. 腾讯游戏发布游戏创作AI工具集VISVISE，涵盖动画制作、模型制作、数字资产管理和智能NPC等核心领域。 3. 谷歌翻译基于Gemini AI模型进行升级，新增实时同传功能，实现无缝跨语言交流，支持70多种语言，并推出智能语言陪练模式。 4. NVIDIA发布Jet-Nemotron语言模型，包含2亿和4亿参数版本，生成速度提升53.6倍，采用PostNAS技术改造现有模型，降低训练成本和计算内存需求。 5. 百度AI搜索应用“Tizzy.ai”更名为“梯子AI”并重新上架，主打无广告高效搜索，提供智能双模式搜索、简洁界面和多元影视内容整合。
9分钟 · 8个月前
9
0
AI早报 2025年08月27日谷歌阿里云
AI早报 2025年08月27日 1. 谷歌DeepMind推出Gemini 2.5 Flash图像编辑模型，支持文字指令编辑，已在Gemini应用上线，开发者可通过API和平台试用。 2. 阿里云开源全新多模态视频生成模型通义万相 Wan2.2-S2V，可基于一张图片和音频生成电影级数字人视频，支持真人、卡通、动物等多种类型图片，并支持不同画幅和文本控制。 3. 微软发布开源文本转语音（TTS）模型VibeVoice-1.5B，能生成最长90分钟、最多4位说话者的自然语音，支持跨语言和歌声合成。 4. 香港大学与快手可灵团队提出“Context-as-Memory”方法，解决长视频生成中场景一致性控制难题，通过context learning技术和基于FOV的记忆检索机制提升计算效率。 5. 钉钉推出新型AI办公应用“钉钉ONE”，将采用信息流卡片的形式呈现优先级排序后的工作信息与任务。 6. 英伟达发布新一代机器人专用芯片Jetson Thor，能效提升至3.5倍，采用Blackwell架构GPU，支持生成式AI模型推理。 7. 面壁智能与清华大学NLP实验室联合发布端侧多模态大模型MiniCPM-V4.5，支持视觉、文本、视频理解。
10分钟 · 8个月前
3
0
AI早报 2025年08月26日苹果 Anthropic
AI早报 2025年08月26日 1. 苹果研究人员提出“基于清单反馈的强化学习”（RLCF）方法，使用任务清单代替传统评分，提升大语言模型执行复杂指令的能力，在Qwen2.5-7B-Instruct模型上测试性能最高提升8.2%。 2. 阿里云开源Vivid-VR生成式视频修复工具，基于T2V基础模型和ControlNet技术，可高质量修复视频闪烁、抖动、模糊和噪点等问题。 3. Anthropic 向 Claude Code 订阅用户灰度开放支持 100 万 token 上下文长度的 claude-sonnet-4 模型，提升代码分析等能力。 4. Runway推出AI游戏平台Game Worlds Beta版，支持用户创建非线性叙事游戏，实时生成图文内容，并设定规则驱动交互。 5. 韩国AI芯片企业Rebellions发布首款采用UCIe-Advanced技术的NPU芯片REBEL-Quad，基于三星SF4X制程，算力达2 PFLOPS FP8。 6. 香港科技大学团队推出沙盒游戏Aivilization，允许用户通过提示词驱动AI角色完成任务，具有虚拟经济系统，提供高度动态的游戏体验。 7. 钉钉推出首款AI硬件产品DingTalk A1录音笔，厚度3.8毫米，支持8米内清晰收音，提供10000分钟免费转写服务，准确率97%。
9分钟 · 8个月前
8
0
AI早报 2025年08月24日苹果腾讯元宝 Meta
AI早报 2025年08月24日 1. xAI开源Grok 2.5模型，并计划在六个月后开源Grok 3模型。 2. 苹果研究团队开源SlowFast-LLaVA-1.5长视频多模态大语言模型，采用双流设置，刷新了LongVideoBench、MLVU等基准纪录。 3. 腾讯元宝接入DeepSeek V3.1最新版，支持混合推理架构，实现思考模式与非思考模式的切换，提升思考效率和Agent能力。 4. 清华大学与IDEA研究院联合推出GUAVA框架，一张照片即可生成逼真的3D上半身化身，渲染速度可达约50帧/秒。 5. Meta与Midjourney达成合作，计划将Midjourney的AI图像和视频生成技术集成到Meta未来的AI模型和产品中。
9分钟 · 8个月前
6
0
AI早报 2025年08月22日字节跳动百度
AI早报 2025年08月22日 1. 字节跳动开源Seed-OSS-36B大语言模型，支持512K的原生长文本窗口和新思考预算机制，刷新多项推理能力记录。 2. 通义APP推出知识库功能，支持官方与个人知识库创建、多库联合查询，整合教育、法律等权威资料并允许用户上传自定义文档。 3. 百度MuseSteamer音视频一体化模型升级至2.0版本，首次实现多人有声视频一体化生成，支持运镜和电影级表演。 4. ElevenLabs推出Eleven v3 Alpha API，支持70多种语言的文本转语音，引入多角色对话模式和高级音频标签控制。 5. Liquid AI推出LFM2-VL视觉语言基础模型系列，包括450M和1.6B参数版本，优化低延迟和设备适应性，支持原始分辨率图像处理。 6. vivo发布Vision探索版MR头显，采用自研空间计算算法，搭载第二代骁龙XR2+平台，支持自然眼动追踪和微手势识别。
7分钟 · 8个月前
9
0
AI早报 08月21日智谱苹果谷歌 Meta
AI早报 2025年08月21日 1. 智谱发布AutoGLM2.0，配备智能体手机和电脑，突破硬件限制，可在任何设备场景下运行，支持美团、京东点单等应用操作。 2. 苹果在Xcode 26 Beta 7版本中新增对Anthropic Claude系列大模型的原生支持，开发者可直接调用Claude模型用于代码生成与优化。 3. 谷歌推出全新语音助手“Gemini for Home”，使用最新Gemini人工智能模型提升推理、搜索和语境理解能力，支持多轮自然语音对话。 4. 微软在Excel中测试集成“Copilot”功能，通过公式调用LLM进行内容生成、数据摘要、文本分类等任务，提升数据分析效率。 5. 上海人工智能实验室等机构联合推出LongVie框架，提升超长视频生成的可控性和一致性问题，并推出超长视频生成基准数据集LongVGenBench。 6. Meta推出AI语音翻译功能，支持使用创作者原声进行翻译并提供唇形同步，首发支持英语和西班牙语双向翻译。
9分钟 · 8个月前
4
0
7月20日 AI早报
AI早报 2025年08月20日 1. DeepSeek发布并开源大语言模型DeepSeek-V3.1，上下文窗口扩展至128K tokens，官网和API均已上线。 2. 中山大学、鹏城实验室与美团联合发布X-SAM图像分割模型，实现从“分割万物”到“任意分割”的突破，支持多种视觉和文本查询输入。 3. 英伟达推出9B模型Nemotron Nano v2，在复杂推理基准测试上准确率与Qwen3-8B相当，支持“思考”预算控制。 4. 腾讯发布大模型训练库WeChat-YATT，专注于强化学习和多模态模型训练，通过定制化并行计算策略解决大尺寸模型和长序列输入问题。 5. 淘天集团提出3B多模态大模型CombatVLA，在动作角色扮演游戏的战斗任务中成功率超越GPT-4o和人类玩家。 6. Vercel发布AI前端开发工具v0的iOS版本，利用自然语言生成全栈Web应用，提升开发效率。
9分钟 · 8个月前
0
0

每日分享关于AI方面最新资讯！