vol.236 - 2026年1月23日 谷歌4D世界模型D4RT发布,能动态视频重建成四维全息场景
8分钟
·
10
·
0
- 小酒馆开场,探讨科技圈“炸裂”进展。
- 谷歌DeepMind发布D4RT四维世界模型:能将动态视频重建为四维全息场景,速度比现有技术快300倍,1分钟视频仅需5秒处理,对具身智能和自动驾驶意义重大。
- OpenAI ChatGPT Atlas Mac版:新增标签页分组,支持ChatGPT与Google搜索自动切换,优化垂直布局。
- 字节跳动TRAE IDE MCP工具包:覆盖开发全流程,提供Context7(拉取文档)、自动化浏览器工具及Figma AI Bridge等,提升开发效率。
- VibeTensor事件:英伟达工程师许冰开源完全由AI编写的深度学习系统(4.7万行内核代码,零人类代码),引发关于AI自我进化与失控风险(弗兰肯斯坦效应)的讨论。
- CGS-GAN:解决3D人头合成身份一致性问题,输出2048x2048高分辨率,利好虚拟人。
- Event-VStream:将视频视为离散事件序列,低延迟处理长视频流(如2小时Ego4D视频)。
- PyraTok:多尺度视频分词器,支持4K/8K处理,显著提升文生视频质量。
- 谷歌限制Programmable Search:迫使小引擎迁移,暴露平台依赖风险,推动去中心化自建索引(如欧洲Qwant)。
- 亚马逊与科技业裁员:AWS增速放缓,资金转向生成式AI,导致HR等岗位大规模缩减(2025年已破5万人)。
- 燧原科技IPO:国产AI芯片公司冲刺科创板,估值近200亿,腾讯重仓,标志国产GPU崛起。
- OpenAI“价值共享”:从单纯卖API转向从AI驱动项目(如药物研发)中进行利润分成,探索新商业逻辑。
- browser-use:让网站对AI代理开放,自动化复杂工作流(填表、抢票)。
- GitHub Copilot CLI:将AI编码带入命令行终端。
- WorkAny桌面Agent:开源桌面助理,整理文件、生成PPT/Excel,复用本地订阅。
- 回顾:从D4RT的未来科技到OpenAI商业模式探索,再到AI自写代码的里程碑与就业影响。
- 观点:AI发展速度惊人,既有机遇也有挑战(如就业结构调整、风险控制),需持续关注。
- 结语:感谢分享,下期再见。