

卢志武教授开讲:视频生成的挑战、进展与趋势早于OpenAI发布类Sora的视频生成底座VDT 【Shownotes】 不同于图像生成,视频生成在内容一致性、长视频生成、计算资源消耗等方面均面临巨大的挑战。但是,视频生成仍然在2023年取得了飞速的发展,涌现出Stable Video Diffusion、Runway Gen-2、Video Diffusion Transformer、Sora等优秀模型。本报告首先介绍当前视频生成面临的挑战,然后详细介绍最新的视频生成优秀模型,最后还对视频生成的技术发展进行展望。 【嘉宾简介】 卢志武博士,中国人民大学高瓴人工智能学院教授,博士生导师。2005年毕业于北京大学数学科学学院信息科学系,获理学硕士学位;2011年毕业于香港城市大学计算机系,获PhD学位。研究方向为机器学习与计算机视觉。设计首个中文通用多模态预训练模型文澜BriVL。发表多模态领域首篇Nature子刊论文。早于OpenAI发布类Sora的视频生成底座VDT。
代码自动生成,给程序员带来的是“春天”还是“寒冬”?AI技术的飞速发展对各个领域带来了深远的影响和变革。在计算机编程领域,各种代码生成工具的出现也对程序员们带来了重要挑战。此类工具可以通过对大量代码的学习,高效地生成高质量的代码,极大提升了代码编写的效率。不禁让我们开始思考未来的程序员们,该何去何从,是被取代还是与代码生成工具和谐共生,这都有待深思…… 本期活动邀请了智谱AI 大模型事业部 VP、CodeGeeX产品负责人薛宇飞,华为云PaaS技术创新Lab代码智能专家申博,云起无垠创始人兼CEO沈凯文,aiXcoder COO李力行,极狐(GitLab)资深创新架构师郭旭东五位专家参与。活动中,五位嘉宾围绕代码模型、AI代码生成时代的变革、未来的软件开发等方面进行了深入探讨。 【时间轴】 00:01Open AI和Google是否有大模型的护城河?开源模式颠覆的是什么? 13:00 单独的代码模型是否有必要?多大规模的代码模型才能满足需求? 42:00 AI代码生成时代会产生哪些变革? 薛宇飞:“护城河”是一个相对的概念,不会存在永久的无法跨越的技术壁垒。不管是OpenAI还是Google,“护城河”没有想象得那么深,其他大模型公司完全有可能通过一段时间的努力追上他们甚至超越他们。开源一方面促进了大家对大模型的认知和应用,另一方面它也在推动着技术向前更好地发展。 申博:OpenAI和Google处在大模型技术的最前沿,在共同推进这一领域的发展。开源的方式让其他公司或组织也有机会训练出可用的大模型,然而,要超越OpenAI和Google,就需要面对和突破很多未知的技术问题,而对这些细节问题的认知和经验是OpenAI和Google的护城河,也是其研究越来越封闭的原因之一。此外,高质量数据的积累也是关键因素。OpenAI较早地将大规模公开发布上线,已经积累了大量的用户数据和较高的用户粘性,这使得后期发布的模型很难再分享到用户红利,包括Google的Bard。 李力行:“护城河”是一个相对的概念,会随时间而发生变化的。OpenAI或Google目前在模型规模、数据积累、工程上的技术细节等方面都有了一定的时间积累,占据优势,这是它们的护城河。开源颠覆的是相对不那么完善的模型和应用,可以让小公司甚至独立开发者有机会体验和感受大模型。 沈凯文:信息的流动有助于创造价值。虽然OpenAI和Google本身具有一定的技术优势,但它们的“护城河”并不是无法逾越的。通过开源,其他开发者可以在短期内追赶甚至超越它们,尤其是垂直模型或者应用场景方面。然而,对于先行者而言,它们的模型在模型规模、数据集、商业地位等方面已经取得了一定的优势,后来者需要一定的时间来积累这些优势。 郭旭东:OpenAI和Google的护城河主要体现在三个方面:人才、成本和数据集。它们之所以具有优势,是因为他们更早地掌握了相关资源并布局了社区生态。然而,我对开源持乐观态度,因为,开源的颠覆是不可避免的,只是时间问题。开源让普通用户也有机会在低成本的情况下体验模型,并增加了底层力量,从而能够促进整个生态的繁荣。 单独的代码模型是否有必要?多大规模的代码模型才能满足需求? 郭旭东:ChatGPT时代,单独的代码生成模型是必不可少的,而这些模型往往是以语言模型为基础的。然而,由于应用场景的不同,在未来的发展中,专注于垂直领域的代码生成模型将变得更加重要。这样能够降低模型的部署成本和体积,使更多的企业能够参与并发挥更大的价值。 申博:单独的代码大模型存在是有必要的。从应用层面来看,原因主要有两个:一是实际可用性的要求,二是编程语言的特殊性。从用户体验角度来看,用作代码生成、解释、调试的大模型应该满足低延迟、高并发、高精确性等要求,模型的领域知识、输入输出形式等都有较为明确的限制,因此需要专业的代码大模型来承载。从训练角度来看,自然语言与编程语言之间存在很大差异,不同于自然语言,编程语言实际上隐含的是一种图形式的信息,可以看做与自然语言不同的另一种模态,这决定了代码专用大模型的架构和训练方法可能与自然语言需要有所不同。总之,单独的代码大模型存在是有必要的,但实际的软件开发需要同时具备计算机知识与世界知识,代码大模型最好要在通用大模型的基础上派生。 薛宇飞:有了通用的大模型之后,专门的代码模型还是有必要存在的。在代码生成和补全方面,用纯粹的代码模型能够保证响应速度,并且可以降低推理成本。我们目前也在探索使用通用模型解决代码解释相关的问题,因为它在自然语言方面的能力更强,可以更好地解释代码,这两种模型都有各自适合的应用场景。在目前来看,百亿是代码生成模型较适合模型的规模。 李力行:在代码领域,确实有必要拥有专门的代码大模型,并且我们应该基于自然语言的基础构建代码模型。代码模型对模型推理、计算资源有特殊的要求,因此将其它冗余的信息与代码模型结合起来是没有必要的。代码语言具有独特性和语法限制,因此,在代码模型的结构上也值得进一步探索。关于代码规模的问题,“够用”是一个很难定义的概念。目前来看,百亿级或者千亿级的大模型能够达到不错的效果,能够解决现实的问题。 沈凯文:在代码领域,确实应该存在独立的代码大模型。这可以分为两个阶段来看待:在AGI出现之前,我们可以将人类的需求分为通用需求、专业领域、长尾需求,其中长尾需求还是需要人类去进行调控的。在AGI出现后,它有可能真的取代程序员的工作。在某些场景中采用垂直的模型能降低资源消耗,对独特领域能赋予更多的知识,有更准确的结果。因此,专注于独特领域的模型可以更好地满足特定需求,并提供高质量的解决方案。 AI代码生成时代会产生哪些变革? 沈凯文:低代码平台因其易用性和灵活性,更容易被广大用户接受和应用。然而,产品的付费与否并不是衡量其质量的关键因素。付费的产品要能够给用户创造价值,而免费的产品最终需要找到适合的盈利模式,以便在维护和研发方面保持可持续性。在使用代码生成模型时需要考虑到不同的应用场景,使其能真正满足用户需求,并发挥其应有的意义。 郭旭东:目前,国内外发布的各种大模型在能力上存在差异,它们的作用相互冲突且局限于很小的语言范围内,对代码的上下文理解能力有限,无法有效解决实际问题,这也成为后续发展的一个需要解决的方向。Copilot采用的订阅制收费策略为用户接受新模式提供了机会,这是一个进步,并且在未来将会持续发展。随着竞争加剧和成本降低,开发者将推出更好的功能。目前,我们已经将代码生成模型应用到了软件开发的多个方面,例如代码注释、代码检查和功能总结等,这降低了获取信息的门槛,提高了研发效率。 李力行:免费本身是一种商业模式,我认为Copilot目前的收费策略是为了区分用户,将有限的资源留给真正需要的人。对于代码生成模型的使用,是一个逐步适应和提升效率的过程。目前,大多数人停留在Demo层面,仅通过自然语言描述就能生成一个方法或代码。另外,从培训和教育用户的角度看,它也给很多零基础的人提供了感受AI魅力的机会。在实际开发的过程中,它可以作为编程的辅助伴侣,节省时间并提高效率。那么在后期,我期待产生一种新的编程交互方式,在写代码的过程中辅助模型提问、解释、自动定位bug或者有更高阶的应用。 薛宇飞:AI代码生成应用的商业模式不会再聚焦在个人用户身上,而会转向企业用户付费。很多用户在使用AI产品的时候往往有更高阶的要求,现在的代码生成模型在满足用户需求方面是有局限的,这是未来AI编程要努力的方向。使用者也需要更详细地了解AI产品的特性,才能更好地辅助自己工作提高效率。 申博:大模型将会对所有软件开发工具和其商业模式带来变革。未来AI加持下的软件开发工具应该会形成免费和收费并存的模式。免费提供代码生成功能对于用户和工具开发者来讲都是有益的,它降低了使用门槛并扩大了市场,使得更多人可以上手尝试并探索有趣的使用场景;但是,仅凭借代码生成进行收费是不够有竞争力的,开发者的日常工作除了代码编写,还有测试、交付、维护等更加耗时的工作,这些比代码生成的应用场景更丰富,也更有可能对开发效率和质量带来正向收益。因此,在代码生成这一基础需求之上,更具体的高级功能和定制化需求,例如智能测试、知识问答、错误调试、安全问题或开发规范扫描等,才是具有付费价值的差异化点,用户可以根据自己的实际需求实时选购。 对未来软件开发的畅想 沈凯文:希望未来的大模型可以提供一些辅助,人类进行微调和优化。 李力行:未来一个人可能具备一个团队的能力和功能,活成一个团队。 申博:软件研发领域是AI提升生产力最有潜力的方向之一,未来每个人都有可能成为某种程度上的软件开发者。 薛宇飞:未来编程语言可能不复存在,只需人类用自然语言描述就能产生可以运行的程序。 郭旭东:在短期内会涌现出更多的全栈工程师,希望未来能够产生完全不需要人工介入的人工智能工具。 刘道全:虽然大模型有可能替代一部分工作,但更好的情景是辅助人类完成工作。 何芸:大模型推动了人类的进步,在未来可以让人类释放一部分精力,将时间投入到提升自己的领域。
大模型狂飙背后的推动力是什么?随着ChatGPT、GPT-4、Copilot的火热出圈,大模型已经成为AI领域的研究热点与必争之地。2023年3月28日,由AI TIME、清华校友总会AI大数据专委会联合主办,有孚网络、智谱AI、金地集团智汇港湾孵化器赞助支持的“大模型为什么是AI领域的‘兵家必争之地’?”大咖思辨活动,邀请了中国人民大学高瓴人工智能学院教授、博士生导师卢志武,新加坡国立大学校长青年教授、潞晨科技创始人、董事长尤洋,北京智谱华章科技有限公司CEO张鹏,金沙江创投主管合伙人张予彤,上海有孚网络股份有限公司联合创始人兼CTO臧云峰。五位嘉宾围绕大模型的技术革新、道德伦理、商业价值等方面进行了深度探讨。本次活动共吸引了来自线上线下的专业领域观众约4.2万人次参与。 大模型为什么能够风起云涌? AIGC的快速迭代演变,让大模型技术席卷全球,而3月也是语言大模型集中爆发的一个月,这让我们看到AI技术的飞速前进,而大模型受到前所未有的关注,原因究竟在哪?对此,不同领域的专家分享了他们独到的见解。 尤洋:这是一件顺其自然的事情,AI从2011年发展到现在已经十多年了,深度神经网络这方面的技术积累也经历了很长的时间,最近几年Transformer架构的出现,是一种爆发式的体现。过去一年AI之所以引起这么大的关注,是因为它以产品的性能说话,确实让人们看到了好的效果。 张予彤:在16年投资AI的公司非常多,但是17年的市场热度又有所减退,科技的发展是与人们的预期是有差距的。在2022年3月份之前,国内外关于AI的投资量是很少的,而今年则上升到了50%。对于技术的发展来讲,是有一定的发展周期的,很期待能够穿越周期去做很多新的事情。 卢志武:无论是ChatGPT还是其他模型,都应该关注出圈的本质原因,即它们能够深入理解NLP的各种任务,达到前所未有的水平,使普通人也能够享受技术发展的红利。OpenAI已经将AGI的发展推向了一个新的水平,但未来还有很多的工作需要完成,例如让数字人在具体应用场景中能够与人类正常交流。从学术的角度来看,在GPT-4发布后,比如在多模态方面国人还是有可能去做出一些特色成果的。 张鹏:ChatGPT通过其卓越的自然语言水平让人们更容易认同它。虽然预训练模型等工作在学术圈已经得到了很多研究,但很少走入产品和日常生活中,所以人们对技术的体感比较弱。ChatGPT的出现让人们切身感受到之前的很多研究成果,需要长期的坚持、耐心和投入才能实现技术的进步。 臧云峰:人工智能的快速发展需要足够的算力支持,现在的神经网络层数已达数百层,这也是“大力出奇迹”的体现。随着ChatGPT的深度使用,相信人工智能的时代已经到来,它能够深刻地改变我们的生活,这是超过以往大语言模型让我们感到震撼的地方。 未来大模型面对哪些技术难点和壁垒? l 大模型在短时间内会有哪些突破? 臧云峰:神经网络可能已经接近人类语言的边界,但这不一定是最终的边界。当前的ChatGPT比单一的语言辞藻堆砌更好,但还远未实现深度思维,因此逻辑训练很重要。在这方面,可以通过算力的帮助做得更好,发挥更大的创造性。关于小模型是否可以有卓越的性能,模型蒸馏和语料训练已证明是可行的,未来也期待更多的创新。 窗体底端 张鹏:就技术探索和应用实际两个方面来看,大模型在能力上明显高于小模型,但要在实际应用中取得平衡,不能只追求大模型的能力提升而忽略经济实惠,也不能停留于享受当前红利。应该从技术探索的角度看待大模型的潜力,从实际应用的角度讲究性价比,探索更适合的模型。 卢志武:从学术角度来看,探索上限是值得的。语言模型需要至少达到5600B才能涌现,但是增加模型大小可能会遇到数据不足的问题。单纯追求万亿参数可能没有意义,因为数据无法支撑。模型需要落地,需要用户检验其真实性能。小模型也有研究价值,未来可以更多地探索模型蒸馏和多模态学习的应用。 张予彤:随着模型参数的增大,性能会提升,但在足够大的情况下,要想进一步提升性能,需要探索不同的优化方向。DeepMind证明了一个更小的模型使用更多的训练数据,能够取得更好的性能。目前模型参数规模和数据获取能力还是瓶颈,模型基于所有人类历史上沉淀的文字数据,未来需要更多地关注高质量的数据源。多模态可能会带来新的数据来源,未来的突破可能在于标注数据、训练过程和预训练的数据源。 l 大模型在到达一定的瓶颈之后还会有发展空间吗? 尤洋:评价一个模型大小和好坏往往是凭经验,大模型训练本质上是优化问题,但现在训练的模型都没有收敛,理论证明上还有很多事情无法解释,无法确定大模型是否已经到达上限。理论上,参数越多的大模型效果肯定越好。随着像ChatGPT这样的更好的数据处理工具的出现,能够探索的边界会更多。未来想要更好地解决这个问题,主要的优化点在于软件如何更好地规划数据和移动通信,只有将效率大幅提升,才能达到更好的模拟效果。 张予彤:现在还处于早期阶段,大模型展示了通用泛化能力,超出了以往任何一个垂直的子任务。很多人认为中国的AI目前与美国相比是有差距的,这个观点是从算力角度出发的。AI的基础设施需要大量算力,因此需要更好的分布式并行计算架构来提高运行效率,弥补硬件上的差距。虽然现在在很多领域是有局限性的,但是未来有希望实现突破。 卢志武:OpenAI和谷歌等公司已经深入探索了人工智能语言方面的路径图,因此短期内,大家的思路基本会沿着这个方向走。但在视觉领域,尚未发现真正有效的大模型。如果能够在这方面进一步突破,就可以将文本、多模态等领域真正联系起来,未来在多模态大模型合理架构上还有探索很多空间。 张鹏:在解决这件事情时,可以从几个方面入手。首先是硬件条件,芯片是训练模型的关键,模型的训练也可以反哺芯片性能。其次是软件方面,包括训练框架等方面的创新,不一定按照打造ChatGPT的思路走,创新可能会带来意想不到的收获。最后,需要更多关注大型模型的最终应用结果,而不仅是理论和学术上的证明。因此,需要学术、产业、开源社区的共同努力,集体做出贡献,努力解决这些限制的问题。 臧云峰:首先国产硬件有潜力,例如可以将Transformer标准化固化到硬件,这会有很大的发展潜力;其次要将学术成果应用到产业化中,用新数据反哺模型,产生更好的效果, 以形成良性互动;最后开源也是必不可少的,比如可以把开源的一些小模型嫁接在大模型之上,实现增值服务应用。 大模型如何赋能产业应用? 随着大模型在技术上产生更多的突破,会对应用系统落地产生更好的促进作用,而它又将如何在不同的业界内绽放光彩? 臧云峰:大模型的智能化与AI应用是相辅相成的。大模型需要深入了解人类表达和创作背景,其中会涉及隐私数据问题,因此保障数据安全尤为重要。通用的人工智能模型国家之间共享的可能性非常小,我们需要拥有自己的人工智能大模型平台。基于大模型平台,可以发展出很多领域的小模型,来对接不同领域的AI应用开发。 张鹏:底层模型平台的发展会赋能AI应用,但也可能挤压到上层应用的空间,机遇和危机并存。大模型技术的发展会淘汰一些行业,但也会催生新业态的发展。AI能力的提升会带来应用新形态的变化,我们需要往前看,加快前进的步伐,不被过去的成本束缚。大模型的发展是在加速的,预计还会更快。新的技术能够给大家的工作和生活带来更多的新体验。 卢志武:现在的大模型应用于企业中,能够有生产力的提升,但是却又有应用场景的限制。客户的需求是不断增长的,大模型在具体场景中的应用也是需要做出很多调整的。新技术的发展固然会淘汰掉一些职业,但也会带来新的职业发展机会。 张予彤:历史的角度来看,新技术的出现会带来机遇与挑战,但最终人和工具还是会有一个更好的融合。大模型实现了超级UI和端到端的交互,可被看作一个新的操作系统,提供了之前基础设施所不具备的智能能力。基于小模型的公司如果大模型的加持,有助于实现性能大幅提升并进行业务模式升级。无论是基础设施层还是模型层的企业,不断关注和探索,会带来巨大的应用机会。 尤洋:大模型可能会引领AI进入一个新的范式。回顾互联网带来的变革,可以分为3个阶段:搜索引擎阶段、智能推荐阶段、高度定制化阶段。大模型有很大机会将所有东西串联汇总起来,进入高度命令式的时代。未来可能会出现一个私人定制化的“诸葛亮”,这将会在应用层面带来很大的空间。高度智能虽然是很难量化的,但随着产品体验以及其他行业的发展,会是一个逐渐变好的过程。 大模型未来“路在何方” 卢志武:在AGI这一点,中国人还是有很多机会的。 张予彤:希望未来能够实现边际成本为0的智能生产力。 尤洋:用AI去解放生产力,释放创造力。 臧云峰:很多的岗位不是最终被取代,而是被升华。 刘道全:整个AI产业都在重构,一个新的格局正在诞生。 何芸:通过ChatGPT推动我们思考未来要走什么样的路,应该成为什么样的人,怎样去拥抱AI。
ChatGPT会引领AI新范式吗?曾有研究人员计算得出目前互联网上的纯文本数据大多已经被大模型所使用。从技术角度而言,除了人类的反馈外,模型在语言端的自我进化该如何继续呢? 刘群:对于纯文本数据大多已被大模型使用这个说法,我觉得网上数据的更新还是非常快的。数据永远是不够的,即使是现在这个大模型也会有很多地方没有覆盖到。在数据比较充分的情况下,如今的ChatGPT可以表现得非常好,但是如果数据没有那么充分,还是会表现出很多问题的。 黄民烈:今天的ChatGPT的数据可能还停留在2021年,大模型如何持续的更新是一个比较重要的问题,涉及到如训练成本、学习性能等问题。这些动态信息如何包含进来?以前的模型怎样持续更新并进行持续的学习? 这些都是我们后续需要思考的问题。 薛宇飞:AlphaGo是可以自我训练并迭代的,在我们的语言模型训练过程中,有没有可能演化出一种新的范式使得语言模型自我迭代并且变得更强大呢? 周杰:按照ChatGPT目前的训练过程,已经在和人类进行交互和反馈并获得数据的优化了,但是和刚刚提到的下围棋还是有着不小的区别。首先是迭代的速度,对话能够收集到的和下围棋棋盘上收集语料的速度是不一样的。另外就是收集语料的目标,围棋有着非常清晰的loss function即目标。但是语言可能不是一个清晰的目标,而是比较多元化。 尚利峰:人们都在努力使得大模型进行自我进化,比如让他先问一些问题并回答来获取反馈,这样做当然可以,但是却有上限。ChatGPT是在和人的需求对齐,因为人的需求是多种多样的。不仅仅是一些简单问答,还存在其他的复杂任务。而围棋的规则相比之下则较为有限,因此这二者还是非常不一样的。 刘群:尽管围棋影响非常大,但其实还是一个有限空间。语言对我们世界的描述和围棋并不是一个可以比较的问题。 黄民烈:ChatGPT中很明显的一点就是它用了人类的比较数据并基于强化学习去做优化,而且这个优化所带来的收益是非常之大的。目前ChatGPT的demo已经在通过API的形式来收集用户反馈,因此可以说我们今天已经在给chatGPT提供数据了。很多产品在设计上引入行为反馈机制,这也是一个非常重要的步骤。刚刚很多老师也都提到语言的评价是一件非常难的事情,需要一个很强大的模型去做评估以给出一个可靠的reward。 ChatGPT的爆火,让大家都跃跃欲试,但是在一些性能表现方面仍存在局限性,比如在被问到小学语文常识题的时候,乱编金庸籍贯,胡扯诗句作者,一本正经的胡说八道,这是由什么原因造成的呢? 尚利峰:ChatGPT本质上还是一个统计模型,统计问题时难免会遇到各种各样的问题。比如回答相同的一个问题,中英文之间常常会存在差异。对于解决方式,现实问题还是非常复杂的。如何让ChatGPT把外部的知识快速描述出来?我觉得这并不是一件很简单的事情。 刘群:现在的大模型本质上还是一种统计模型,我们看到统计模型在数据充足的时候表现得非常好。机器总是难以理解常识一类的问题,就算常识足够多,大模型在生成数据的时候也会进行推理,而且它即便是可以分辨数据的真假也会犯错误,因为它不能保证推理出来的东西一定是对的。 周杰:假设数据库含有全世界70%的知识,我们要证明的是它做不到的另外30%。做到这些,我们也就证明了ChatGPT的局限性。 黄民烈:刚刚几位老师也提到,ChatGPT是一种生成模型,即像开盲盒一样。即便每次提相同的问题,输出的结果也不一样。这里有一些固有的不可控性,今天的大模型其实已经表现得不错了,但是在边界上难免会出错。ChatGPT模型已经在对常识问题等上面做了针对性的优化,然而根本的解决这些问题是很难的,需要一些外接模块的支持。因此,我觉得在未来除了这个模型之外还需要去做一些工程的框架。 应用领域 根据现阶段ChatGPT的惊人效果,特别是在某些话题问题方面性能都超越了Google和Siri,所以ChatGPT对话模型可以在哪些领域直接应用?和元宇宙如何结合? 薛宇飞:我觉得ChatGPT里面表现最惊艳的部分还是对于开放性问题的回答,它可以有条理、有层次的给开放性问题一个方案。所以我觉得这其实是ChatGPT中可以直接应用的部分,ChatGPT的答案是已经可以给提问者带来实质帮助的了。谈到与元宇宙结合,ChatGPT本就可以看作是元宇宙中虚拟人物的一个大脑。塑造了元宇宙中这个角色,ChatGPT完全可以以这样的一个身份与元宇宙中的其他角色进行各种各样的对话。 尚利峰:ChatGPT最大的能力不在于信息精准性这一点,而是在于它的创造性。比如尝试让它用第一人称进行对话,这些创造性的能力它都有。对于内容工作者来说,无论是编写代码还是撰写小说,ChatGPT都可以为我们带来很多灵感。对于行业来说,各个垂类都需要客服角色的存在,也许需要更多的小公司参与进来帮助其进一步的发展。 周杰:如果ChatGPT可以达到细粒度,那么它直接就可以应用。因为只有细粒度层面的信息,可以帮助我们直接地解决问题。而现在的ChatGPT可能还达不到这个境界,在下一个版本也许就能做到。 黄民烈:想问几位工业界的老师一个问题,你们是否愿意去使用安装有ChatGPT的产品呢? 刘群:如果一个东西在目前的领域好用,一定是需要大量的数据填满的。比如一个问题的各种问答,一件事实的各种表述,无论怎样的产品本质上都是一个数据积累的问题。 周杰:我觉得场景可以分为两类吧,一种是创作类,如AIGC;另一种是客服类,如果说明书可以被机器很好读懂,这也是个不错的方向。目前我们来看,如果想写一篇文章,ChatGPT可以很好帮助到我们,但是这个技术能力和产品之间还是有着很大不同。举个例子,如果所有创作者都用ChatGPT去写,那么会不会所有创作者写出来的文章在同一个topic下是一样的?那么这样的产品是否是一个好产品?另外,读者发现所读的文章是一个机器人写的,那么是否还有热情去投入阅读?所以说,ChatGPT更有想象力,但也承受着诸多质疑。 黄民烈:ChatGPT是一个通用的任务助理,目前较为惊艳的点 在于可以在同一个模型上做各种想要的事情。大家好奇的是ChatGPT可以将所有东西都装在一个模型之中,但是如果要将这些东西用到一个垂直领域中就需要对产品在细分领域之中做针对性优化。我们需要把其中的知识、规则和语料库准备的相当充分,才有可能在产品上去用。ChatGPT给我们打开了一个新的思路,不再像过去那样而是跨领域、跨任务的去泛化。 尽管很多小规模的预训练模型在今天的人机对话领域已经有很多成功的商业应用,但像ChatGPT这样大规模的模型,在ToB领域中有哪些应用和挑战呢? 薛宇飞:ChatGPT大模型如果应用肯定能取得比小模型更好的表现,但随之而来的是模型推理而带来的巨大算力成本。对于一个商业场景来说,综合考虑大模型和小模型各自的收益和成本,就是一件很有挑战的事情。今年智谱AI和清华联合发布的模型——GL130B,是一个1300亿的中英文语言模型。我们在做这个模型的时候就在想,能否尽可能低的降低成本。因此,我觉得ChatGPT的成本是一个亟待解决的挑战。 尚利峰:我觉得大模型不是ToB的全部,ToB领域的业务是非常复杂的,很多领域的建模都不止是一个语言模型问题。另外,ToB领域涉及到大量的业务逻辑等固定的知识,是一个非常长链条而不能出错的。如果错误不断叠加,就会非常危险。 刘群:大模型具备原先小模型所不具备的能力,我们要思考如何把这些能力在ToB场景用起来。我最看好的就是创意类产业,毕竟这一类创作出来没有对错之分。每个人的需求不一样,我们也不必过于担心每个人创作出来的结果都一样。 未来展望 中国将会如何打造“ChatGPT”? 薛宇飞:中国如果要打造ChatGPT,我觉得首先要看一下ChatGPT对中文的支持怎么样。目前有人说,尽管ChatGPT支持中文,却并没有在特别多的中文语料上做训练,很多的支持和表达都是通过英文的训练文本达到的。所以我觉得,无论是打造中文的ChatGPT,还是中文的OpenAI,我们都需要把中文的语言模型训练好,把互联网上的中文语料用好,才能成为更懂中国人的模型。 刘群:单从算法角度来说,我们觉得ChatGPT并没有什么我们做不到的东西。技术上没有什么大问题,但是中文数据的整体质量可能会差一些。英文的高质量数据要多一些,而且目前中文大模型规模可以和GPT-3比肩的还是不多,训练也远远不如GPT-3充分。 黄民烈:如果我们要打造中国的OpenAI或是ChatGPT这种模型,我们首先需要有足够多的钱和足够专注且专业的团队。回顾近几年OpenAI的发展路径,我们会发现自从GPT-3之后再也没有进行开源,而是对API接口调用收费。在这背后,OpenAI也拥有了许多高质量的API调用数据,甚至还找了专门的众包团队去标注数据。尽管算法本身较为简单,但是数据方面可能是我们目前的欠缺。回到我们做中文的问题上,我们的目标并不是超越他们,而是达到80%就可以了。中文很难,但是我们可以尝试在一些特定领域对ChatGPT完成超越。ChatGPT是通用的任务处理,我们可以只关注动漫、情感这些特定方向,同时这些也是后续值得我们思考的内容。 薛宇飞:刚刚几位老师都提到了开源和开放的问题,智谱做了一系列的大模型,我们的这些模型不仅在网上有大量的API可以调用,而且都是开源的。感兴趣的朋友可以来试一试,我们的模型有GPT这样的语言模型,也有能够生成代码的模型。我觉得我们的模型效果还是不错的,大家也可以来使用感受一下。 尚利峰:数据一定要闭环。数据并不像想法创新这些亮眼,但是却是非常需要静下心来做的事情。做大模型的路,可能真的是一件未来还具有不确定的道路,需要相当多的专注。 未来发展会改变“AI+”范式而进入“ChatGPT+”吗? 周杰:这是毫无疑问会的,我觉得这些会遇到的困难可以分为两类。第一类是相信和热情,而且这是最困难的。第二类困难是技术上的困难,但是只要能克服第一类的困难,第二类的困难都不是问题。国外的ChatGPT等于是为我们树立了一个标杆,将会有很多人怀着热情去推动大模型的发展,这点是毫无疑问的。 薛宇飞:我觉得ChatGPT最为核心的是AI在与人类交流的过程中能够记住更长且更为复杂的背景信息,能做到更复杂、更深刻的逻辑推理,这才是ChatGPT最为本质的东西。未来随着技术的发展,还会有其他像ChatGPT一样令人眼前一亮的成果出来。我觉得在AI+的时代,大家的认知会被一遍遍刷新,而不一定是新的东西取代AI+。 黄民烈:生成式的模型在未来的应用可能会越来越广泛,尤其是现在的工业应用场景,几亿甚至十几亿级别的模型是非常常见的,逐渐替代了传统的机器学习方法。我觉得未来会进入一个模型的时代,模型会发挥越来越大的作用,尤其是创作类、生成类的模型。现在AI+的研究越来越落地,可以预见的是从学术到工业落地的这条路径会变短,而且变得越来越快。
论道AIGC:如何看待用于内容生成的永动机?01:40 不同群体有共享的人类总体价值观和稍有差异的价值观。目前AIGC,要如何从社会层面把模型的价值观和人类总体和各个群体的价值观做一个对齐?我们需要对AIGC做内容审核吗?是人来审核,还是机器自己审核? 付杰:之前遇到过一些有趣的问题,比如是希望婚礼让别人参加,还是希望葬礼让别人参加?对于整个数据集来说,有很多人去玩这个游戏,选A或是选B。假如我们训练的BERT是选择希望婚礼能有更多人参加,那么就可以和人类的整体价值匹配了。但是我们只有一个BERT,中国的BERT是否会和中国人的反应更为相似呢?而如果我们用GPT去做生成,生成的内容是否也需要和不同的国家、不同的区域做一个匹配呢?毕竟模型反映出来的其实就是爬取数据所在国家人群的价值观,去生成图片也会有所在国家或地域的一些特色在里面。 于济凡:关于这个问题,是否应该是现在的AIGC都由一个统一的模型来完成呢? 付杰:我觉得它不应该由一个统一的模型来完成。比如调用ChatGPT时是美国网民占主要部分,那么一定是以他们的语料为主。 于济凡:以我们日常的生产和科研环境,如果想做一个特定的AIGC的agent,都是需要在自己收集到的数据集上做调整。每一个训练出来的AIGC都是一个独立的个体,我们其实并不需要把它从社会的层面考虑成一个整体的价值观,而是把它们看作由我们创造出来的新人类就好了。我们是否可以通过大模型的修正和微调来解决foundation model自带的bias问题? 秦雪彬:模型上反映的其实是数据分布,数据上对不齐首先就是问题,我们不能拿着北美的数据去做欧洲的东西。目前来看,这些大模型对于数据分布的分析基本是没有的,或者是很粗糙的。事实上这些东西也是因为模型的过拟合和差值产生的,真正外推性的东西确实是可以和AI道德这些联系起来。但是我认为其本质还是一个数据的问题,因为如果把控不好数据就难免会出现bias绑定在数据上。 于济凡:我觉得这个观点非常本质,什么样的数据就会得出什么样的模型。前段时间,ChatGPT给大家的震撼其实也是来自数据收集的本身。老师们觉得,对于本问题的后半部分,无论我们接下来是作AIGC的研究还是工程,是不是还需要人工审核的环节?而不是把太多的自主权交给AIGC模型。 薛宇飞:我觉得内容本身是没有什么好审核的,只有当内容被传播,被分发或是在互联网上产生影响的时候,这时候内容才有了被审核的需求。在内容传播平台上,其实从来都不需要被界定这条内容是AIGC,PGC还是UGC。而是要根据平台的特点或是传播的特点来判断。从这种角度看,AIGC和现有的UGC、PGC一样是需要被审核的,也是机器审核和人类审核来共同决定的。而随着AI技术的发展,即使是机器审核模型的能力,也会比过去更好。 于济凡:AIGC带来的技术革新同样可以作为人们更好的工具去帮助审核,所以审核本身并不是一个需要单独讨论的问题。 14:26 如果AIGC的内容充斥了整个互联网和人类知识库,人类的文化传承会出现问题吗? 戴勃:我觉得是不会出现问题的。如果哪一天AIGC的内容真的充斥了整个互联网和人类知识库,我觉得更像是我们人类做出了选择,因为其质量超出或达到了我们的想象并可以用来解决某些问题。人们不会被动的让AIGC的内容真的充斥了整个互联网和人类知识库,一定是有选择的使AIGC这种技术能够更好的为人们服务,如让一些古老的传承重新焕发光彩。反而会对人类文化传承产生帮助。 于济凡:现在的AIGC都是由一些很强的模型来驱动生成,所以其背后代表的是当前主流的数据强权,如拥有数据主导权的人将能够主导AIGC生成。如果是自然选择的话是没问题的,但如果背后带有这种数据霸权的情况是否会最终出现赢家通吃的现象而导致最终收敛到某个特定文化圈子之中呢? 戴勃:AI只是一个工具,所谓的数据霸权只是说数据带有某种bias,最终是否会成为数据霸权还要看人们如何使用。即便是出现了,我认为也不是AIGC带有的bias,而是人们有意引导而为之的。 付杰:现在B站上好多电影解说的第一句就是“注意看,这个男人叫小帅”。这就是当下很多公司依懒于对自动生成的语言来作进一步修改的结果。如果这种情况最终充斥了整个互联网,对于人们的使用体验也会造成很大的冲击。 戴勃:如果这样真的成为潮流,人们也会主动选择将这种潮流压下去的,一定会有相应的解决办法。 薛宇飞:在历史中,知识和文化都是通过书籍传播的。谁能够有能力写出这些书籍,他们的认知就能够随着书籍的传播而发扬光大。但是随着互联网出现之后,这个门槛就被大大降低了,每个人都可以贡献自己的知识和内容。这样也会有人担心,会不会有人在网上贡献一些虚假的知识。其实,互联网通过其自由的网络社区管理机制很好的控制了这一切,虚假的知识也没有造成多么严重的后果。知识和文化不一定就要由权威来输出,普通人同样可以为知识的传播做出贡献。媒体同样是这样,互联网时代诞生的自媒体也是从一开始的混乱慢慢变得规范起来。我们如今看待AIGC也是如此,相信随着其慢慢发展也会产生机制使其变得更加规范化。 于济凡:不只是AIGC,互联网诞生以来的很多事物都存在类似问题,但实际上我们只需要对其进行略微的极限问题管制,它就能很好的发展。 24:09 AIGC会对人类教育造成怎样的影响?比如小学生到底要如何学习写作呢? 秦雪彬: 为什么会对人类教育产生影响呢?是生成的东西不真实?这样可以给生成的东西打上标签,有标签就不会被纳入教育内容,如果是虚假信息就会被过滤掉。以上这些肯定都是需要规章制度去约束的,具体说对教育的影响,我觉得是不冲突。计算机相对于人来说,过去的优势在于其庞大的计算能力,而人的优势在于想象力和创作能力。如今的计算机也会拥有创作能力,但我始终认为所有的AIGC模型都只是对数据的拟合。其对大量数据的采集要比人类强,因此插值的空间和变换的形态就非常多。但是这些东西是否是有价值的呢? 胡奇:去年投了一家AI教育公司,他们做的就是通过AI的方式帮助小孩子解题。其比较擅长的是数学和几何,最终会通过一个虚拟形象将解题方法讲解出来。相比于一对一的家教,这种AI的方式大大节约了成本,同时还可以给每位孩子带来一个个性化的老师。AIGC在目前教育场景中,在答案确定的情况下,可以很好拓展内容的丰富度,达到寓教于乐的效果,是对教育有促进的。不过,对于主观性过强的题目,还是需要人工审核的介入。 秦雪彬:目前AI对于生产力的促进还并不是很大,细究到技术层面,还是归结于精度和鲁棒性的问题。 于济凡:对于现在的生成和大模型的评测,是不是已经不能用上一个时代的深度学习模型评测模式,如封闭数据集再加上一些测试集的划分来算准确率了?是否应该换上一些更加高级或是严苛的评测方式来促使大家把技术做的更好? 秦雪彬:我觉得这要看目的是什么,如果是科学研究或是模型性能的提升,是可以还用封闭数据集来做的。但是在实际应用中,精度是不能完全反映模型精度的,很考验数据采样的功底。如果想要在没有groundtruth的情况下去判断模型的好坏,这也是一个不错的研究方向。如今看似很炫的一些技术,但针对我们真正要解决的问题还有很大的gap,离我们的应用之路还有很远。 戴勃:个人觉得AIGC这种生成模型的评测思路可能不太一样,生成是有很多方面要去考虑的,包括模型的效率以及多样性等等。AIGC各种大模型层出不穷,我们也一直想用一种客观的方式去衡量并指出其中问题,但发现这确实是一个很难的事情。对于教育的问题,刚刚各位老师也提到要在内容正确的情况下减少人工的部分,部分主动性很高的东西就不太适合AIGC来写作。然而,AIGC对教育的好处基本就来自其主动的部分,毕竟其就像一位随时on-call的老师。孩子在与AIGC的交流之中,或许会比在课堂上能够收获更多。 付杰:之前在思考,能否让小学生带着ChatGPT去考试,这样就不用背课文了,就好比是和机器一起考试,但是这样如果能实现的话又该怎么评分? 戴勃:如果是考试,肯定是不可能带上ChatGPT的,毕竟这样就和开卷考试没啥区别了。AIGC的出现一定会改变我们工作和生活的方式,是否会出现离开AI就什么也不会做了的情况?就好比今天的互联网和电,我们今天离开这些确实是会无法正常生活的。 薛宇飞:我觉得这件事或许对所有人都会有很大影响。比如,我们在有了计算机等工具之后,我们写字的机会就大大减少了,有些人甚至已经开始提笔忘字了。这是我们已经看到的影响,而如果到了AIGC的时代,我们是否会离开AI就不会写论文和画画了呢? AIGC的应用前景和工业落地的障碍 秦雪彬:之前做计算机视觉,我觉得它不是一个纯理论的研究,而是一个理论和应用的结合。和其他AI算法类似,我们能够得到一个相比之前很fancy的结果,但是距离我们的预期依然相差较多。我们可能只走了20%,后面还有80%的路。每年论文的投稿量如此之大,但是应用起来依然问题多多。这样长久以来,可能就会失去人们的信任。 胡奇:今天的AIGC,一些图像、视频等等都离更高级的大KA客户的实际使用很远。其还是需要去满足一些特定场景的需求,但这就比较考验两个东西,一是技术是否可以做到一些场景的可用,10年前的NLP技术肯定是与现在无法同日而语的;二是应该怎样设计这些场景,我们对软件产品的使用是要符合人的习惯和诉求的。为什么NLP当年也没有厉害的AIGC算法,但是google和百度却可以做大?是因为C端用户们没有这么强的期待,只要搜索的东西与我想要的有一点关联,能翻到自己喜欢的东西就可以了。而今天的AIGC能不能找到一些场景,这些场景不仅是技术上可以做到,还可以通过与人的协作配上一些知识图谱或是算法来满足商业化需求,我觉得这就算是一种很好的做法。目前AIGC落地的问题,可能更多的还是在于大家对它的预期太高了。在工业落地的时候,还是应该找到一个可以自己去做中间层,能把这层做强做厚的场景并提供一款真的去PMF的产品,而不是去找几个大KA把产品卖出去但实际并没有用起来,否则这样的次数多了也会让大家逐渐失去对AIGC的信心。 戴勃:我觉得AIGC的应用前景还是很足的,不仅可能挑战现有的共识,更有可能创造出新的共识而改变人们的现有认知。从技术的角度,我觉得AIGC落地的可控性还是需要进一步加强。另一个就是版权了,除了使用的内容是否侵犯了他人的版权,还要关注生成的内容版权究竟要属于谁。这些问题如果不能妥善的解决,工业落地还会存在障碍。 薛宇飞:AIGC在工业上的应用还有很长的一段路要走。比如AIGC生成图片的技术,真要做成像photoshop那样的流行应用恐怕还有着不小的距离,还需要很多研究上的投入。但同时我也觉得,不需要过于为前路漫长而悲观,现在起码已经有人在用AIGC做一些有意思的事情。比如,我之前在微博关注的一个设计师就在用AIGC生成一些有趣的设计作品并将他们印在帆布包上售卖。在一些偏C端的领域,AIGC反而可能得到快速应用。对于AIGC的应用前景,也许并不会太遥远,我们会看到AIGC已经被应用在了我们的生活之中,可能是很小很细分的领域,但确实是令人眼前一亮的结果。 付杰:我目前在做两个相对比较小众的AIGC任务,一种是在蛋白质序列生成中,生成抗生素来杀死细菌。我觉得这其实也是AIGC,正如刚刚各位老师讲的,生成最难的是如何做evaluation。生成蛋白质并不难,生成一个好的却是很难的。一是我用来训练生成器的data是很少的,因为已知的抗生素序列的蛋白质是比较少的。最后我们需要去进行筛选,一个简单的筛选是训练一个分类器,很严重的问题是这个classifier是严重过拟合到这个数据集的。给它一个生成的,它根本不知道能否抗菌。这个场景下的evaluation是个大问题。另一个在做的AIGC是音乐生成,这里面临的是和生成图片不一样的挑战,毕竟生成图片不会生成一个超长序列。最有代表性的是OpenAI在2020年生成的音乐,它们生成的音乐也是比较短的,长序列的也是无法做到。所以我觉得AIGC落地目前的障碍,制药领域中的evaluation是个大问题,音乐领域的超长序列生成和表征也是一个问题。