Daily-AI | 12.18 | 刚刚，智谱又融了30亿！超200亿估值引领大模型创业赛道 - AI早知到

0:00 Meta 更新其智能眼镜，增加实时 AI 视频功能

1:17 刚刚，智谱又融了30亿！超200亿估值引领大模型创业赛道

2:32 全球最大的仓储机器人公司赴港上市，蚂蚁英特尔是股东

3:49 李飞飞专访：实现全面智能，解决3D智能是基础性工程

4:45 24万“AI民工”血汗，哺出一个95后亿万富豪

5:45 OpenAI 向所有用户免费开放 ChatGPT 搜索功能，新增实时搜索和高级语音

6:43 Meta Ray-Ban 智能眼镜迎来大更新：“实时 AI”可持续分析用户所见内容

7:30 谷歌最强文生图 AI 模型 Imagen 3 再进化：多样艺术风格、构图更平衡

8:31 图森未来发布图生视频开源大模型“Ruyi”：RTX 4090 就能运行，可生成 5 秒内容

9:39 语言游戏让 AI 自我进化，谷歌 DeepMind 推出苏格拉底式学习

文字版

#Meta近日为Ray-Ban Meta智能眼镜推出重要固件更新v11，为美国和加拿大的早期用户带来多项AI驱动的新功能。最引人注目的是”实时AI”功能，用户可与Meta AI助手进行连续对话，无需每次使用”Hey, Meta”唤醒词。该功能还支持实时视频互动，用户可询问关于当前所见场景的问题。此次更新还引入实时翻译功能，支持英语与西班牙语、法语、意大利语之间的即时翻译，用户可通过眼镜听取翻译后的语音，并在手机上查看文字记录。另外，新版本还集成了Shazam音乐识别功能。Meta表示这些新功能仍在持续优化中。值得一提的是，Ray-Ban Meta在欧洲、中东和非洲地区的Ray-Ban门店中表现出色，60%的门店中该产品为销量最高的眼镜品牌。

#大模型创业公司智谱AI完成30亿人民币融资，估值超200亿元。新资方包括多家战投及国资，君联资本等继续跟投。这是智谱近三个月来的第二轮融资。智谱首次公开商业化战绩:今年收入增长超100%，API年收入同比增长超30倍，付费客户数增长超20倍。C端产品智谱清言拥有超2500万用户，三季度开始上线付费功能。

智谱COO张帆透露公司对AGI的五级发展规划:从语言能力到复杂问题求解、使用工具、自我学习,最终目标是超越人类。智谱已在多模态、Agent和端侧领域布局,发布了视频生成模型CogVideoX、语音模型GLM-4-Voice等产品。公司坚持开源策略,ChatGLM等20余款模型已获15万GitHub星标,全球下载量3000万。

本轮融资将用于进一步研发智谱基座大模型,提升复杂推理和多模态任务能力。

#全球最大仓储机器人公司极智嘉正式向港交所递交招股说明书，拟主板挂牌上市。极智嘉成立于2015年，是一家自主移动机器人(AMR)解决方案提供商。截至2024年6月，极智嘉已向全球约40个国家和地区交付约46,000台AMR，拥有约770家终端客户，其中60家为财富500强企业。2021年至2024年上半年，极智嘉累计营收达59.16亿元，海外市场占比已超七成。公司主要收入来自AMR解决方案销售，包括货架到人、货箱到人、托盘到人等拣选系统以及智能分拣和搬运解决方案。极智嘉打造了整合硬件、软件和算法的技术架构，开发了全球首个机器人通用技术平台Robot Matrix。公司实际控制人为创始人郑勇等管理层，主要股东包括蚂蚁集团、英特尔等知名机构。此次IPO募资将用于研发、销售网络扩张、供应链发展等方面。

#斯坦福大学教授、人工智能领域知名专家李飞飞近日接受专访时表示，视觉智能与语言模型同等重要，空间智能是视觉智能的发展方向。她强调，解决3D智能问题是实现全面人工智能的基础。李飞飞创办的World Labs公司正致力于为AI提供"空间智能"，即生成3D世界并在其中进行推理和交互的能力。她指出，空间智能需要大量算力，呼吁为公共部门提供足够的数据和算力资源，以推动AI研究发展。李飞飞预测，AI系统理解3D世界将为人类带来巨大创造力和生产力提升，应用领域包括建筑设计、医疗、机器人、增强现实等。她相信这些技术将在我们有生之年实现。

#硅谷AI数据标注独角兽Scale AI近日被其数据标注工人诉至法庭，公司创始人、95后亿万富翁Alexandr Wang也被列为被告。起诉书称Scale AI是"支撑生成式AI行业的肮脏软肋"。公司在全球拥有24万名注册工人，但被指控在招募时对薪酬做出虚假陈述，并将工人归类为独立承包商以规避劳工法保护。工人们经常遭遇克扣、迟发薪资，被迫加班加点，还需处理危害身心健康的内容。Scale AI的客户包括OpenAI、微软等AI巨头，以及美国政府和军队。此前Scale AI已多次面临劳资纠纷，在菲律宾等地的外包业务也被曝存在剥削行为。诉讼可能导致Scale AI支付数千万美元赔偿。

#OpenAI宣布向所有登录用户免费开放ChatGPT搜索功能。这项功能经过深度优化，可提供分钟级别的实时内容，包括股票和新闻等信息。新增的高级语音模式支持用户与ChatGPT进行更自然的多轮搜索对话，在移动端使用效率提升40%以上。ChatGPT还集成了全新的地图功能，用户可直接在搜索结果中查看周边地理位置信息，进行路线规划和地点探索。

搜索模型采用经过微调的GPT4，使用新的合成数据生成技术进行后期训练。ChatGPT搜索利用第三方搜索提供商与合作伙伴直接提供的内容，为用户提供所需信息。此次更新是OpenAI"12天活动"的第8天内容。

#Meta旗下Ray-Ban智能眼镜推出重大更新，引入"实时AI"功能。这项新功能能够持续分析用户所见内容，无需唤醒词即可进行自然对话。用户可随时打断AI提问或更改话题，AI甚至会主动提供建议。此外，更新还包括"实时翻译"功能，支持英语与西班牙语、法语或意大利语之间的实时对话翻译。新版本还集成了Shazam音乐识别功能，用户只需说"Hey Meta，Shazam这首歌"即可识别周围播放的音乐。这些新功能将首先向"早期体验计划"用户开放，预计2025年初正式版本发布。

#谷歌公司宣布对其最强大的文本生成图像AI模型Imagen 3进行了升级。新版本增加了多种艺术风格，包括现实主义、幻想主义和肖像画等。Imagen 3现在能够更精准地根据文字提示生成图像，并呈现出更明亮、构图更平衡的视觉效果。

升级后的Imagen 3还带来了更丰富的纹理和增强的图片细节。在官方测试中，Imagen 3的表现超越了OpenAI的DALL-E3和Flux等主流AI图像生成模型。

谷歌还发布了名为Veo 2的新一代AI视频生成模型。Veo 2能够生成最高4K分辨率的视频，并提高了对现实世界的理解能力。

谷歌推出了一款名为Whisk的新AI图像生成工具，支持用户上传多张图片进行以图生图操作。

#图森未来推出了名为"Ruyi"的图生视频开源大模型。该模型总参数量约7.1B，由Casual VAE和Diffusion Transformer两部分组成，经过约2亿个视频片段训练。Ruyi支持多种分辨率和时长的视频生成，最长可达5秒，并提供首帧控制、运动幅度调节等功能。Ruyi专为消费级显卡如RTX 4090设计，普通用户也能轻松运行。

图森未来已开源Ruyi-Mini-7B版本，用户可从Hugging Face平台下载使用。该公司表示，Ruyi旨在降低动漫和游戏内容的开发成本和周期。目前模型仍存在手部畸形、多人面部细节崩坏等问题，公司正在努力改进。

作为图森未来首款正式发布的图生视频模型，Ruyi是AI在视频生成领域的应用。未来，图森未来计划发布两个不同版本，以满足创作者的多样需求。

#谷歌旗下人工智能研究部门DeepMind推出了一种名为"苏格拉底式学习"的新方法，旨在让AI系统能够自主递归增强，超越初始训练数据的限制。这种方法的核心是语言游戏，即结构化的交互，AI在其中交流、解决问题并接收反馈。在封闭系统中，AI通过自己玩游戏、生成数据来改进能力，无需人工输入。如果玩腻了现有游戏，AI还可以创建新游戏，解锁更多抽象技能。

研究人员表示，只要满足三个条件：足够的信息量和一致的反馈、广泛的经验覆盖范围、足够的能力和资源，AI就可以在封闭系统中掌握任何所需能力。

然而，这种学习方式也面临挑战，如在递归过程中防止数据分布漂移或崩溃，以及设计足够通用的反馈机制。研究人员认为，纯粹的苏格拉底式学习是可能的，但需要通过强大且一致的批评者生成广泛的数据。