【第632期】大规模合成计算机长程办公模拟技术报告Seventy3

【第632期】大规模合成计算机长程办公模拟技术报告

23分钟 ·
播放数7
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

Synthetic Computers at Scale for Long-Horizon Productivity Simulation

Summary

真实的长期生产力工作强烈依赖于用户特定的计算机环境,其中大部分的工作上下文是通过目录结构和内容丰富的工作产物来存储和组织的。为了扩展此类生产力场景的合成数据创建,我们引入了“规模化合成计算机”(Synthetic Computers at Scale)——这是一种可扩展的方法,用于创建具备逼真文件夹层级和丰富内容产物(如文档、电子表格和演示文稿)的计算机环境。

基于每台合成计算机,我们运行长周期的模拟:一个智能体会创建专门针对该计算机用户的生产力目标,这些目标需要多项专业交付物以及大约一个月的人力工作量;随后,另一个智能体会扮演该用户并在该计算机上持续工作——例如,在文件系统中导航以获取背景信息(grounding),与模拟的协作者进行协调,并制作专业的产物——直到完成这些目标。

在初步实验中,我们创建了 1,000 台合成计算机并在其上进行长期模拟;每次运行平均需要超过 8 小时的智能体运行时间,并跨越 2,000 多个交互轮次。这些模拟生成了丰富的经验学习信号,而智能体在域内和域外的生产力评估中均取得了显著的性能提升,验证了这些信号的有效性。

考虑到用户画像(personas)的数量级高达数十亿,原则上,只要有充足的算力,这种方法就可以扩展到数百万甚至数十亿个合成用户世界,从而能够更广泛地覆盖各类职业、角色、上下文、环境和生产力需求。我们认为,可扩展的合成计算机创建及其规模化模拟,极有希望成为长期生产力场景下智能体自我改进(self-improvement)和智能体强化学习(agentic reinforcement learning)的基础基座。

原文链接:arxiv.org