0:00 Meta 更新其智能眼镜,增加实时 AI 视频功能
1:17 刚刚,智谱又融了30亿!超200亿估值引领大模型创业赛道
2:32 全球最大的仓储机器人公司赴港上市,蚂蚁英特尔是股东
3:49 李飞飞专访:实现全面智能,解决3D智能是基础性工程
4:45 24万“AI民工”血汗,哺出一个95后亿万富豪
5:45 OpenAI 向所有用户免费开放 ChatGPT 搜索功能,新增实时搜索和高级语音
6:43 Meta Ray-Ban 智能眼镜迎来大更新:“实时 AI”可持续分析用户所见内容
7:30 谷歌最强文生图 AI 模型 Imagen 3 再进化:多样艺术风格、构图更平衡
8:31 图森未来发布图生视频开源大模型“Ruyi”:RTX 4090 就能运行,可生成 5 秒内容
9:39 语言游戏让 AI 自我进化,谷歌 DeepMind 推出苏格拉底式学习
文字版
#Meta近日为Ray-Ban Meta智能眼镜推出重要固件更新v11,为美国和加拿大的早期用户带来多项AI驱动的新功能。最引人注目的是”实时AI”功能,用户可与Meta AI助手进行连续对话,无需每次使用”Hey, Meta”唤醒词。该功能还支持实时视频互动,用户可询问关于当前所见场景的问题。此次更新还引入实时翻译功能,支持英语与西班牙语、法语、意大利语之间的即时翻译,用户可通过眼镜听取翻译后的语音,并在手机上查看文字记录。另外,新版本还集成了Shazam音乐识别功能。Meta表示这些新功能仍在持续优化中。值得一提的是,Ray-Ban Meta在欧洲、中东和非洲地区的Ray-Ban门店中表现出色,60%的门店中该产品为销量最高的眼镜品牌。
#大模型创业公司智谱AI完成30亿人民币融资,估值超200亿元。新资方包括多家战投及国资,君联资本等继续跟投。这是智谱近三个月来的第二轮融资。智谱首次公开商业化战绩:今年收入增长超100%,API年收入同比增长超30倍,付费客户数增长超20倍。C端产品智谱清言拥有超2500万用户,三季度开始上线付费功能。
智谱COO张帆透露公司对AGI的五级发展规划:从语言能力到复杂问题求解、使用工具、自我学习,最终目标是超越人类。智谱已在多模态、Agent和端侧领域布局,发布了视频生成模型CogVideoX、语音模型GLM-4-Voice等产品。公司坚持开源策略,ChatGLM等20余款模型已获15万GitHub星标,全球下载量3000万。
本轮融资将用于进一步研发智谱基座大模型,提升复杂推理和多模态任务能力。
#全球最大仓储机器人公司极智嘉正式向港交所递交招股说明书,拟主板挂牌上市。极智嘉成立于2015年,是一家自主移动机器人(AMR)解决方案提供商。截至2024年6月,极智嘉已向全球约40个国家和地区交付约46,000台AMR,拥有约770家终端客户,其中60家为财富500强企业。2021年至2024年上半年,极智嘉累计营收达59.16亿元,海外市场占比已超七成。公司主要收入来自AMR解决方案销售,包括货架到人、货箱到人、托盘到人等拣选系统以及智能分拣和搬运解决方案。极智嘉打造了整合硬件、软件和算法的技术架构,开发了全球首个机器人通用技术平台Robot Matrix。公司实际控制人为创始人郑勇等管理层,主要股东包括蚂蚁集团、英特尔等知名机构。此次IPO募资将用于研发、销售网络扩张、供应链发展等方面。
#斯坦福大学教授、人工智能领域知名专家李飞飞近日接受专访时表示,视觉智能与语言模型同等重要,空间智能是视觉智能的发展方向。她强调,解决3D智能问题是实现全面人工智能的基础。李飞飞创办的World Labs公司正致力于为AI提供"空间智能",即生成3D世界并在其中进行推理和交互的能力。她指出,空间智能需要大量算力,呼吁为公共部门提供足够的数据和算力资源,以推动AI研究发展。李飞飞预测,AI系统理解3D世界将为人类带来巨大创造力和生产力提升,应用领域包括建筑设计、医疗、机器人、增强现实等。她相信这些技术将在我们有生之年实现。
#硅谷AI数据标注独角兽Scale AI近日被其数据标注工人诉至法庭,公司创始人、95后亿万富翁Alexandr Wang也被列为被告。起诉书称Scale AI是"支撑生成式AI行业的肮脏软肋"。公司在全球拥有24万名注册工人,但被指控在招募时对薪酬做出虚假陈述,并将工人归类为独立承包商以规避劳工法保护。工人们经常遭遇克扣、迟发薪资,被迫加班加点,还需处理危害身心健康的内容。Scale AI的客户包括OpenAI、微软等AI巨头,以及美国政府和军队。此前Scale AI已多次面临劳资纠纷,在菲律宾等地的外包业务也被曝存在剥削行为。诉讼可能导致Scale AI支付数千万美元赔偿。
#OpenAI宣布向所有登录用户免费开放ChatGPT搜索功能。这项功能经过深度优化,可提供分钟级别的实时内容,包括股票和新闻等信息。新增的高级语音模式支持用户与ChatGPT进行更自然的多轮搜索对话,在移动端使用效率提升40%以上。ChatGPT还集成了全新的地图功能,用户可直接在搜索结果中查看周边地理位置信息,进行路线规划和地点探索。
搜索模型采用经过微调的GPT4,使用新的合成数据生成技术进行后期训练。ChatGPT搜索利用第三方搜索提供商与合作伙伴直接提供的内容,为用户提供所需信息。此次更新是OpenAI"12天活动"的第8天内容。
#Meta旗下Ray-Ban智能眼镜推出重大更新,引入"实时AI"功能。这项新功能能够持续分析用户所见内容,无需唤醒词即可进行自然对话。用户可随时打断AI提问或更改话题,AI甚至会主动提供建议。此外,更新还包括"实时翻译"功能,支持英语与西班牙语、法语或意大利语之间的实时对话翻译。新版本还集成了Shazam音乐识别功能,用户只需说"Hey Meta,Shazam这首歌"即可识别周围播放的音乐。这些新功能将首先向"早期体验计划"用户开放,预计2025年初正式版本发布。
#谷歌公司宣布对其最强大的文本生成图像AI模型Imagen 3进行了升级。新版本增加了多种艺术风格,包括现实主义、幻想主义和肖像画等。Imagen 3现在能够更精准地根据文字提示生成图像,并呈现出更明亮、构图更平衡的视觉效果。
升级后的Imagen 3还带来了更丰富的纹理和增强的图片细节。在官方测试中,Imagen 3的表现超越了OpenAI的DALL-E3和Flux等主流AI图像生成模型。
谷歌还发布了名为Veo 2的新一代AI视频生成模型。Veo 2能够生成最高4K分辨率的视频,并提高了对现实世界的理解能力。
谷歌推出了一款名为Whisk的新AI图像生成工具,支持用户上传多张图片进行以图生图操作。
#图森未来推出了名为"Ruyi"的图生视频开源大模型。该模型总参数量约7.1B,由Casual VAE和Diffusion Transformer两部分组成,经过约2亿个视频片段训练。Ruyi支持多种分辨率和时长的视频生成,最长可达5秒,并提供首帧控制、运动幅度调节等功能。Ruyi专为消费级显卡如RTX 4090设计,普通用户也能轻松运行。
图森未来已开源Ruyi-Mini-7B版本,用户可从Hugging Face平台下载使用。该公司表示,Ruyi旨在降低动漫和游戏内容的开发成本和周期。目前模型仍存在手部畸形、多人面部细节崩坏等问题,公司正在努力改进。
作为图森未来首款正式发布的图生视频模型,Ruyi是AI在视频生成领域的应用。未来,图森未来计划发布两个不同版本,以满足创作者的多样需求。
#谷歌旗下人工智能研究部门DeepMind推出了一种名为"苏格拉底式学习"的新方法,旨在让AI系统能够自主递归增强,超越初始训练数据的限制。这种方法的核心是语言游戏,即结构化的交互,AI在其中交流、解决问题并接收反馈。在封闭系统中,AI通过自己玩游戏、生成数据来改进能力,无需人工输入。如果玩腻了现有游戏,AI还可以创建新游戏,解锁更多抽象技能。
研究人员表示,只要满足三个条件:足够的信息量和一致的反馈、广泛的经验覆盖范围、足够的能力和资源,AI就可以在封闭系统中掌握任何所需能力。
然而,这种学习方式也面临挑战,如在递归过程中防止数据分布漂移或崩溃,以及设计足够通用的反馈机制。研究人员认为,纯粹的苏格拉底式学习是可能的,但需要通过强大且一致的批评者生成广泛的数据。
