vol.243 - 2026年1月30日 谷歌世界模型Genie 3开放测试
6分钟
·
6
·
0
- 谷歌DeepMind发布Project Genie实验原型,支持通过文本和图片直接创建可交互的虚拟世界。
- 生成的场景中角色可以飞行、驾驶甚至行走,用户甚至能下载探索视频,被形容为“梦想照进现实”。
- 目前该功能仅对美国18岁以上的Ultra用户开放,引发了对未来游戏创造方式的无限遐想。
- Gemini语音导航已在全球范围向iOS和Android用户推送,不仅能导航,还能实时查询路况。
- 具备高度智能的代理功能,例如能语音代发迟到通知短信,极大提升了驾驶场景下的便利性。
- 谷歌通过此举将AI助手战略贯彻到底,统一了跨平台的智能体验。
- 腾讯动作频频:内测**“元宝派”社交功能,打通QQ音乐与视频资源库,支持AI生成梗图,并计划投入10亿红包**推广。
- 百度技术突围:发布PaddleOCR-VL-1.5模型,在OmniDocBench榜单登顶,参数虽小(0.9B)但性能强悍。
- 百度新模型首次实现异形框定位,能稳定解析歪斜文档,且支持藏语、孟加拉语等小语种,实用价值超越DeepSeek-OCR2。
- OpenAI宣布GPT-4o、4.1等旧模型将于2月13日退役,显示出AI领域令人咋舌的迭代速度,倒逼用户随时迁移。
- 清华大学联合微软发布**“LLM-in-Sandbox”范式**,让大模型在沙盒环境中自由探索。
- 该范式显著提升了数理化表现,且能将长文本Token消耗降低8倍,实现了无需额外训练的降本增效。
- 商汤科技SenseNova-MARS以高分超越Gemini-3-Pro,作为首个支持动态视觉推理的Agentic VLM,能像人一样思考并调用工具。
- Anthropic研究揭示AI辅助编码的复杂性:资深开发者受益,但初学者过度依赖可能导致概念理解和调试能力下降。
- 提示企业在引入AI时需制定精细化策略,关注人机协作的培训而非单纯替代。
- 春节前夕爆发“模型大战”:字节Doubao 2.0、阿里通义千问3.5(打通电商支付)、DeepSeek V4争夺14亿用户入口。
- AI领域面临严峻争议:特斯拉Robotaxi因样本小、数据不透明受质疑;Anthropic面临音乐巨头30亿美元版权诉讼。
- 版权案创下索赔纪录,凸显大模型数据来源合规性已成为行业发展的关键卡点。
- 巨头持续加码:腾讯引入清华强化学习人才,亚马逊拟向OpenAI投资高达500亿美元,云计算格局面临重塑。
- 关于“护城河”的思考:在产品同质化下,忠诚用户、合规保护及内容生态成为关键壁垒。
- 行业正在建立新规则,如Cursor联合制定的Agent Trace规范,旨在区分人类与AI的代码贡献,探索未来的共存之道。