“亚秒级”视频交互延迟:Gemini 3 Flash 的“主动视觉”正在教做人

“亚秒级”视频交互延迟:Gemini 3 Flash 的“主动视觉”正在教做人

4分钟 ·
播放数1
·
评论数0

简介: 除了巨头互搏,AI 正在悄悄重构“安全”与“创作”的边界。今天是 2026 年 1 月 31 日。当你以为本地部署模型就能高枕无忧时,全球 17.5 万个 Ollama 节点正在被黑客打包成“算力盲盒”在黑市兜售。本期《小河早报》硬核拆解:当 Google 终于睡醒,用 Gemini 3 Flash 的“智能体视觉”打响反击战;当 Veo 3 实现了视频与音效的完美同步;当学术界开始用 LLM 的逻辑去“指导”扩散模型画图——我们发现,AI 的下半场,不仅是算力的较量,更是对“物理世界理解力”的争夺。

本期高光:

LLMjacking 危机爆发: 别让你的显卡裸奔!全球 17.5 万个暴露接口引发“怪异巴扎”算力盗窃行动。

Google 全线反击: Gemini 3 Flash 引入“主动视觉”,Veo 3 终于解决了视频生成“有画无声”的尴尬。

T2G 新范式: 扩散模型也开始“长脑子”了?Dual-GRPO 策略让 AI 先思考逻辑,再动笔画图。

DeepSeek vs 硅谷: 6000 亿美元基建 vs 极致效率优化,中美 AI 发展的两条路彻底分道扬镳。

Ref:

[核心] Google Gemini 3 Flash:为速度与视觉代理而生 blog.google

[核心] Google Generative Media (Veo 3/Imagen 4) 发布日志 blog.google

[安全] 17.5 万个 Ollama 服务暴露与 LLMjacking 威胁报告 thehackernews.com

[前沿] Think-Then-Generate (T2G) 推理增强扩散模型 arxiv.org

[宏观] 华尔街日报:关于中国 AI 效率革命的误读 www.morningstar.com

[快讯] 耶鲁 x Google:Gemma 模型发现癌症治疗新路径 blog.google