vol.242 - 2026年1月29日 chrome浏览器上线AI自动浏览功能
5分钟
·
10
·
0
- 阿里通义开源 **Qwen3-ASR** 语音识别模型,支持52种语言和方言,具备抗噪能力**,甚至能识别唱歌,单次可处理 **20分钟音频**。**
- MiniMax发布 **Music 2.5** 模型,支持14种结构标签控制(如副歌、桥段),特别优化了 **华语咬字** 和人声颤音等细节,降低了音乐制作门槛。
- 谷歌Chrome上线 **Gemini自动浏览** 功能,通过侧边栏即可实现查机票、订酒店及自动比价购物。
- 支持自动使用折扣码结账,旨在 解放双手,但目前需将系统语言和地区设为 **美国** 才能体验。
- 大模型训练新进展:按 **难度排序** 训练数据(先易后难),可减少 45% 的训练步数,关键在于压缩率和词汇多样性。
- 尽管技术进步,LLM仍面临 **输出漂移** 问题,即便在温度为0时也存在非确定性。
- 代码智能领域提出 **GenCode框架**,通过生成筛选提升代码准确率至 2.92%,增强了对抗鲁棒性。
- 尚未推出产品的AI初创公司 **Flapping Airplanes** 获1.8亿美元融资,致力于解决AI数据效率问题。
- 亚马逊裁员 **16000人**,引发员工利用AI分析Slack记录预测裁员名单的现象。
- 凸显了AI在提升资本效率的同时,也加速了 传统岗位的消失。
- OpenAI布局硬件领域,Sam Altman主力机为超薄 **iPhone Air**,并投资脑机接口,计划明年推出 **自研硬件**。
- 国内硬件突破:平头哥推出 **真武810E芯片**,采用自研架构及 **96G HBM** 内存,性能超越A800,已服务400多家客户。
- 伦理担忧升级:美国ICE启用 **Palantir** AI系统处理举报信息,引发隐私争议。
- Anthropic分析显示,千分之一的Claude对话存在 严重风险,主因是用户脆弱性。
- 观点指出:AI写代码更像 **“独狼开发者”**,缺乏人类的沟通协作概念,在复杂项目管理上仍不可替代。
- 蚂蚁灵波开源 **LingBot-World** 世界模型,支持10分钟连续交互视频及自然语言改场景,利好游戏开发。
- 实用资源推荐:GitHub上的 **system_prompts_leaks** 项目、DeeplearningAI的文档课程及百度 **PaddleOCR-VL-1.5**。
- 总结:AI技术在效率、硬件、开源方面全面爆发,但需警惕 就业结构 和 伦理边界 的挑战,保持拥抱与思考并重的态度。