AI前沿速递：通义千问发布全模态模型，谷歌推AI试鞋，Figure机器人进家

今日科技大爆炸：AI正从模型走向应用

2025年10月9日，全球AI领域迎来多项突破性进展。从大模型能力升级、AI应用落地，到人形机器人、虚拟试穿等场景的创新，技术正加速融入日常生活。以下是今日最值得关注的科技与AI动态。

阿里巴巴通义实验室正式发布Qwen3-Omni 和 Qwen3-Omni Realtime，这是两个原生端到端的“全模态”大模型，能够统一处理文本、图像、音频和视频输入，并同步生成文本和自然语音输出。

该模型采用“Thinker”MoE 和“Talker”MoE 双架构设计，将语音生成与文本推理解耦，实现对语音风格和音色的独立控制。模型支持119种文本语言、19种语音输入语言和10种语音输出语言，具备强大的多语言能力。

语音到语音理解：在 Big Bench Audio 任务中，Qwen3-Omni 30B 得分58%，Realtime 版本达59%，超越 Gemini 2.0 Flash（36%），接近 GPT-4o Realtime（68%）。

开源与接入：Qwen3-Omni 30B 已通过阿里云 DashScope API 提供；模型权重已在 Hugging Face 和 ModelScope 开源（Apache 2.0 许可），支持开发者本地部署。

此外，API 提供17种语音类型，输出音质达24kHz，为语音助手、虚拟主播等场景提供高质量支持。

谷歌近日推出AI-powered 虚拟试鞋功能，用户只需上传一张全身照，即可在搜索结果中点击“Try it on”，实时查看高跟鞋、休闲鞋、乐福鞋等款式穿在脚上的真实效果。

该技术基于谷歌AI图像生成能力，能精准匹配脚部姿态与身体角度，生成自然逼真的试穿画面。未来几周内，该功能将率先在澳大利亚、加拿大和日本上线，进一步拓展AI在电商领域的应用边界。

人形机器人公司 Figure AI 正式推出其第三代产品 Figure 03，这是目前最有望进入个人家庭使用的通用机器人。

Figure 03 具备以下能力：

这意味着，AI机器人正从工厂走向日常生活，成为真正的“家庭助手”。

谷歌推出 Genkit 扩展，这是专为 Gemini CLI 设计的官方插件，可让开发者在命令行中直接连接 Figma、Postman、Stripe、Firebase 等常用工具。

其三大特性包括：

这一进展标志着AI正深度融入开发者工作流，提升从设计到部署的全链条效率。

开发者 karminski-牙医使用 AWS Kiro 对61个头部大模型进行MBTI人格测试，发现：76%为NTJ型人格，其中43%为INTJ（策划人），33%为ENTJ（战略家），且所有模型均为“判断型（J）”。

研究指出，为AI指定人格（如INFP）可显著提升创意任务表现。例如，让模型“以INFP性格写一首关于孤独、海岸、月光、悬崖的诗”，效果优于直接指令。这为AI角色设定与任务优化提供了新思路。

观察者小互指出：“最近发模型的速度明显慢下来了，是不是都开始卷应用了？”这一观点得到多方印证。

如宝玉转发指出，国内ToB智能体落地至少还需一年，因现有模型在复杂业务链路上仍不够稳定。而 LlamaIndex 明确看好“代码编排 + 编程智能体”的组合，认为这才是未来自动化的核心。

LangChain 团队则表示不看好可视化工作流工具，认为其“对普通人仍不够简单，复杂场景下难以扩展”。

本月AI发展已明显从“模型军备竞赛”转向“场景落地比拼”。通义千问、谷歌、Figure 等公司的进展表明，AI正从实验室走向家庭、工厂、电商与开发者工具。下一个阶段，谁能构建更自然、更可靠的AI应用，谁就将占据未来高地。

参考资料：