

6G,AI and 黑客帝国目前我们正处在第5代无线电通讯网络被广泛应用的时代之中,下一代就是6G。AI(人工智能)是当前最为火爆的科技领域。尽管黑客帝国是一部20年前的老电影,其中的许多黑科技依然能给6G和AI的技术开发带来很多启发。 Background on “The Matrix” [图片] 黑客帝国中的几类人物主要分为以Neo为代表的自由人类、系统中的虚拟编码Agents(负责追踪并消灭自由人类)以及每天处在睡眠状态并为机器提供能量的被奴役的人类。其中沉睡的人类每天生活在虚拟的世界之中,这令我们不禁思考:虚拟和现实的世界究竟是如何交互的呢?其实6G技术为虚拟世界和真实世界之间的联系提供了无限可能,实现虚拟世界,也是6G最主要的目的之一。下面我们介绍一下6G近些年的发展趋势。 Trend 1— Rise of Edge Computing and AI [图片] 十几年前还是云端计算的天下,而计算却在渐渐地从云端转向网络的边缘。如今联网设备数量在大幅增加,如果都采用云端计算则会产生很多问题。毕竟如今每个边缘设备都随着芯片成本的降低而日趋智能化,但是依然受限于计算资源。因此,边缘设备一般都需要连接到网络之中并利用其资源进行计算。把计算推往网络的边缘有几个好处,首先可以很接近边缘的设备,增加其计算能力;第二,这个服务可以减少数据的流量,减少网络的堵塞;第三,网络能够感知设备的位置和需要而提供也智能服务,从而支持设备和人类的交互。鉴于此,边缘AI如今成为学术和工业领域的研究热点之一。 Trend 2 — Integrated Communicationand Computing [图片] 在5G的时代,无线电通信,感知,控制,计算等领域都是独立开来的,整个网络设计思想就是把这些模块组装起来。在6G时代,科学家发现该设计思想的不足是以达到达到我们6G的要求,从而推动将这些领域整一体化的革命性设计,特别是通讯和AI的结合。这使得很多人认为6G就是5G+AI.我们今天主要也将聊一聊6G与AI 的结合。 Classic Communication — Shannon 1.0 [图片] 数学家香农(Claude Shannon)奠定了信息通讯领域的理论基础。他希望将一串bits通过一条信道进行无错传输,并提出了上述香农公式——无错信息传输的最高速率。这一公式不仅应用于无线电通讯,还影响一切和信息相关的领域,其中也包括AI。 Importance of Helper and Teamwork [图片] 我们都知道珠峰登顶很困难,但是如果没有尼泊尔当地的夏尔巴人帮助登山者将装备背到山上,恐怕登山者也不会有那么充足的体力完成珠峰的登顶。由此可见,登山领域中的helper有多么的重要。 Shannon 1.0 - Coding Keeps Bits Safe Helper在Shannon的公式中同样很重要。 [图片] 信道中存在噪声,所以传递的bits可能会出现错误。香农在思考纠正错误并使得结果具有可靠性的方法,其理论基于两方面,分别就是helper和teamwork。香农提出的编码技术不仅在传输当中加入多余的bits(helper), 还将所有的bits串联了起来, 从而给予接收机纠错的能力。 Shannon 2.0 — Connected Intelligence 香农为何想要做这些?他首先是希望保证人与人的通信是没有困难的。 [图片] 人与人之间的信号传输使得你我可以理解对方。当前及未来快要到来的时代也可以称为香农 2.0。这一时代,将所有拥有智慧的人和物连接起来。5G时代中,我们只关心人与人、机器与机器之间的通信。而6G时代,人与机器之间的通信也被囊括了进来。 Shannon 2.0 — Shannon MeetsWarren and Turing [图片] 可以说,整个6G时代之前的无线电通讯都是香农理论在支撑。而6G技术的理论基础来自3个人的研究成果,如上图所示。除了香农,另外2人分别是AI之父Turing和机器翻译之父Weaver。这象征着通讯,AI,和语意的结合。 Shannon 2.0 - A New Objective 香农 1.0和香农2.0时代可以总结如下: [图片] 香农 1.0是在建立一条很大的管道,使得很多bits都可以从一边传输到另一边,传输速率越大越好;香农 2.0更加注重语义通信,将语义从人传递给人,甚至传递给机器。侧重点从单纯的通信转向了执行一个任务。下面我们将话题转回黑客帝国这部电影,那么它与6G AI又有什么联系呢? 1 Tactile communication 触觉通信是什么?触觉显示出的是人的反应速度有多快。 Approaching Human Reaction Speed [图片] 人类具有4种反应速度,都是在片刻之间作出反应。6G时代想达到这种程度也是很艰难的,网络在接收到数据之后需要先编码,然后将信息通过波传递到基站,并在之后做出相应决定和反应. 这其中的每一步都是存在延迟的。整个的信息传递过程如果想达到人的反应速度,需要将这极少的时间拆分成10-4s的数量级,这是很难做到的。 Can Neo dodge a bullet using 6G? 不过,我们在想在6G时代触觉通信成为现实的背景下,黑客帝国是否能够成为现实。 [图片] 我们给出了黑客帝国中经典场景“躲子弹”的数学分析,大致过程如上图所示。最终,我们发现留给Neo的时间是12ms,而在分类反应达到极限的情况下只会花费11ms,可见在6G技术的加持是可以使得Neo躲过子弹的。 Why In-memory (Neuromorphic) Computing [图片] Computing的技术如今已经达到了天花板,如上图所示。我们的计算变得越来越快,也是在于transistor变得越来越小。越多的transistor使得其计算的power越来越大。我们发现如今芯片可以说是已经缩小到了极限,而当transistor越来越小则会带来更大的消耗能量,这是瓶颈之一。另一个瓶颈是如今的处理器需要大量地从内存中传输数据而消耗了绝大部分的能量,导致用于计算的能量过少。 In-memory Computing EmpoweredUltra-fast 6G [图片] 由于并不能像人脑一样做到计算和存储在同一位置,导致用于计算的能量过少,我们提出了“存内计算”这一概念,即将data存储到处理器中而不是其他地方。存内计算这一技术用到了忆阻器,忆阻器类似于寄存器regsister,其特点是其中电阻的数值可以改变。忆阻器能够很快地增加运算速度,甚至达到数码电路速度的100倍。目前该设备主要被用于AI的加速器中,我们选择将其用在无线电通讯之中,同时也相信这一技术一定可以帮助Neo很好地躲开子弹。 Tactile Internet Enables New Applications [图片] 如果我们可以将通讯的用时在数学层面减少到1 ms,我们可以做什么呢?我们可以遥远地控制一个机器人,因为其时间之短可以做到“人机合一”。同样,我们也可以做到自动驾驶等等。毕竟,通讯时间变得很短,反应速度变得很快。上述内容也就是触觉技术和无线电通讯技术与黑客帝国的联系了。 2 In-situ AI downloading Neo’s Superpower [图片] 黑客帝国中的Neo具有很多的超能力,无论是躲避子弹,还是柔道、空手道,他都信手拈来。但是实际上,他需要背后的programmer为他的大脑输入相关的需求信息,自然而然也就能做出各种各样的超人动作。 AI Downloading in 6G [图片] 对于6G时代而言,我们可以从网络中下载智能到我们边缘设备的大脑中。AI Downloading是一个什么概念呢?一个机器是可以存储AI Model的,但是不可能存储所有的model,因为数量太多了。我们可以将其存在云端,在需要的时候直接从云端下载即可。 6G Network Requirements [图片] 我们进行一个计算,分别是小、中、大的AI Model。由上图可知,6G的速率足够支持这些AI Model的运行。6G如果能在最高的Data Rate和普通的Data Rate中间实现的话,是可以支持人类AI下载的,也说明这是有可能的。 In-situ AI — One Day in Alice’s Life 下面,让我们跳出黑客帝国,看下in-situ AI是如何影响普通人一天的生活的。 [图片] 上图中的小女孩先是早晨到教室中上课,她佩戴的headset可以从网络下载和教育相关的AI;之后,她又拿出手机导航前往博物馆,其中涉及到增强现实即在AI Library 中下载AR Model,以便她快速找到博物馆;当她到达博物馆后,又会下载Museum Model来学习博物馆的知识;结束回家时,她选择坐一辆无人驾驶的车辆,而汽车对目的地又不是很熟悉,这时就可以下载一个Auto-pilot来帮助车辆导航。 Conflicts between models, devices, and users [图片] 我们也不要期待所有的AI模型都能够被下载到电脑或手机中,因为AI模型正在朝着超大模型的方向发展。这种超大模型对芯片计算能力的要求是难以想象的,已经无法用in-situ模型来实现。 In-network Inference Network as an AI Model [图片] 我们引进了一个新的概念in-network AI,在这个概念下整个网络都是一个AI model。这方面的应用可以把网络中的许多计算机快速连接起来,超大的AI model可以被其分成很多块并放在网络中的不同地方。在我们用6G的无线电将他们连接起来之后,整个网络就成为了一个AI Model。这样一来,AI的能力将没有边界。 [图片] 正如同游客搭载列车游玩一样,计算的任务和数据在网络中四处游走,在达到要求的精度后就可以结束旅程。 3 Over-the-air Federatedmachine learning 下面,我们讲一下大型的AI Model如何在6G的网络中实现。 The Architecture - Federated Machine Learning [图片] 从上图右上角的图片中,我们可以看到黑客帝国中的Neo在面对面与一位老人交谈。这位老人在电影中控制着许多事情的发生,也可以理解为他本身就是一个程序。因此,这位老人也被称为母体。母体是什么?是成千上万的机器人和人类之间的交互使得母体学到很多的知识。那么又该如何实现母体的智慧呢?目前有一个常用的技术——联邦学习,用在分布式机器学习上的热门技术。这个技术究竟是基于什么样的算法呢?其主体大脑和很多机器人一起训练一个超大的AI Model。 [图片] 我们看到的surface代表一个描述学习错误的function。母体做出决定的错误程度可以用这个function来描述。而且这也可以用很多agents合作来寻减少决定出错的路径,这个是分布式学习的一种方法。 Bringing Models to Data [图片] 这一技术在黑客帝国之外也是有很多应用的,处在很多边缘设备上存在一个server来告诉device帮忙训练一个模型。然后,无需知道data,就可以将模型叠加得到一个更加精确的模型,毕竟data常常是保密的。 Scalability Problem of TraditionalMultiple Access [图片] 上述讲的内容又和无线电通讯有什么关系呢?成千上万个nodes需要将模型上传到网络中,造成了Multiple Access问题。目前是成千上万分机器人都产生了需求,这也就要求我们需要将要切分的“蛋糕”做得更大。 Radio Wave Superposition [图片]
如何打造自己的AI创造力?【本期简介】 当人类的创造力与AI相遇,会发生怎样的化学反应?如何创造性的运用AI?AI将如何赋能、激发人类创造力?……设计与人工智能专家,中国传媒大学副教授吴卓浩,将带来他的研究和实践的分享。 关于AI,人们在讨论什么? [图片] 关于AI,人们要学习什么? [图片] 人类与AI其实很互补 [图片] 提到AI,可能大家首先想到的是距离普通人遥远的宏观数据和复杂技术,还有引发人们焦虑的“AI夺走人类的工作机会”的说法;然而实际上在人们的生活与工作中AI已经无处不在,而且AI与人类的能力特点其实很互补,完全可以很好的“共创”。AI的确会取代当前一部分的职业,但每次技术革新都是如此;在AI的帮助下,人们反而能腾出精力去进行更有价值的工作,做更适合人做的事情。比如,人类习惯于将复杂问题抽象、提炼、简单化,以此来解决复杂问题;而AI则是以复杂去应对复杂,凭借巨大的算力去解决问题。AI已经用这种“暴力美学”的方式解决了越来越多人类没能解决的问题,比如AlphaGo打败人类围棋冠军、AlphaFold破解蛋白质结构。尽管人类大脑的计算能力相对AI较弱,但是在创造力上却往往很擅长。在创造这件事上,AI与人类能够形成很好的互补。 人们需要”AI创造力 [图片] 倡导人与AI各展所长、共生共创的AI创造力,聚焦于创造性的运用AI、以AI激发人类更强的创造力。 AI创造力是一种新理念 [图片] 2018年在世界顶级的拍卖行中,第一次成功出现了AI画作的拍卖。这件作品是怎样产生的呢?一个来自法国,由艺术家和人工智能专家组成,叫“显而易见(Obvious)”的艺术团体,利用人工智能技术创造了它。Obvious团体借助一位叫罗比·巴拉特(Robbie Barrat)的技术艺术爱好者在Github(github.com,程序员常用的代码托管平台)上开源的代码,用15000幅从14世纪到20世纪的肖像画作为训练素材,通过一种叫“GAN(生成式对抗网络, Generative Adversarial Networks,一种深度学习模型,擅长生成式任务,比如生成图像、文字、音乐等)”的技术,生成了这幅画作。简而言之,就是一个法国艺术团体,基于一个美国人的发明和另一个美国人的开源代码,用一堆人类油画训练出一个人工智能,生成了这幅作品。你能想象有机会跨越数百年的时间、跨越世界各地,和从未谋面甚至不可能见面的人一起协作,共同创造作品么?AI就像一扇时空门,让你有机会和人类文明的历史积累进行共创。 AI创造力是一种新力量 [图片] 这种新力量能够帮助每一个人超越自我,让不擅长画画的人能够在人工智能的帮助下用美术的形式来表达自己的思想和情绪,让不擅长音乐的人能够在人工智能的帮助下为自己爱的人谱上一曲心中的音乐,让不擅长工程技术的人能够在人工智能的帮助下把自己的想法变为切实可行的解决方案,让不擅长体育运动的人能够在人工智能的帮助下分析改进自己的运动、甚至去为专业运动员提供辅助指导,让时间精力有限的科学家能够在人工智能的帮助下进行更大范围、更深层次的探索……我们研究了自2017年以来超过 45 个领域的超过2000个AI创造力案例,发现创造性的使用人工智能、或者利用人工智能来激发人类创造力,这样的AI创造力的应用其实已经广泛存在。 AI创造力是一种新策略 [图片] 接下来,当我们要去做各种各样的产品或者技术研发的时候,我们完全可以使用新的理念和策略来更好的运用AI创造力这种新力量。我提出了AI时代的“人智共创”模型——在创造的全流程,感知、思考、表达、协作、建造和测试这六大环节,AI在每个环节中的都可以发挥很大作用。人与AI的协作至关重要,哪怕你是一个人在做创造,也完全可以、也应该选择与AI协作,这与人们过去习以为常的创造过程有着很大的差别。 [图片] 在上图中,这些类似于台灯的东西就是我们当时研发的面包识别产品的原型。面包放在这个“台灯”下面,就会被自动识别,计算出要付的金额。 [图片] 而实际应用时出现了两种完全不同的选择:一种是有意把面包识别机的科技元素隐藏于普通的生活场景之中,使其看起来和普通的结账柜台没有什么差别;而另一种是凸显其中的科技感,把面包识别机做成独立、显眼的机器台。我们研发的面包识别机识别准确率非常高,但是第一次过万圣节就“罢工”了。原来是蛋糕房的师傅为了节日气氛特意在面包上撒了蝙蝠形状的糖粉,AI遇到这种训练时未曾出现的影像,一下就无法识别了。今天的AI产品对训练数据太过依赖,缺乏变通、更不要说真正的创造力,这就是个典型的例子。在产业里,如果AI的准确性、可靠性不能达到极高,就不能投入使用;那么,对于没有标准答案、对于准确性与可靠性没有特别高要求的艺术与设计呢? [图片] 上图是我和AI共创的作品“AI创造力”:一个融合的智慧体,由一半像人类的大脑与一半像机器的大脑共同构成。 [图片] 我让AI基于上图的素材生成了各种各样视觉风格的探索结果: [图片] 然后从中挑选符合我要求的,进行下一步的发展、调整,得到最终的视觉形象: [图片] 除此之外,我和AI一起为这幅画作诗、谱曲,得到融合了诗画音的成果(请点击文章最后的“阅读原文”查看演示视频)。 [图片] 有了AI的帮助,我能更方便高效的在日常进行艺术和设计创作,比如下图中邻居家的初生小鸭、环境优美的古法酿制黄酒厂;而对于大多数人来说,让不会画画的人能画画、让不会音乐的人作曲,这样的AI创造力真的能改变人们的生活与工作。 [图片] [图片] 线上积聚的群体知识 [图片] 人类在线上积累的大量知识是当今AI的力量源泉。上图展示的是AI用Google的搜索关键词所构成的知识图谱,而线上积聚的群体知识不仅仅有文字,还有影像,比如下图中展示的就是AI基于互联网上的文字和影像信息生成的,100张巴塞罗那早晨的窗景,以及借用已故艺术家吴冠中先生绘画风格创作的巴塞罗那、纽约、北京的城市画作。 [图片] [图片] 不过,因为目前的AI其实并不能真正的理解这个世界,所以生成不靠谱的影像也是很正常的事情,比如下图中的飞天大辣椒: [图片] 其实我希望AI生成的是窗边的辣椒,符合人类逻辑的输出结果应该是: [图片] 当人们能够跨过那些过去需要经年累月去学习的创作技能,可以更聚焦于创意本身,而让AI去进行充分探索,再由人从结果中挑选最合适的,这本身就形成了巨大的进步。同时,这也对人提出了更高的要求,充分、高效运用AI创造力的要求。基于这些研究成果,我们尝试着把AI创造力的思维方式、从全球数千个AI应用中精选出来的AI共创工具,运用在青少年的AI创造力教育上。继2019年我们开设的第一个儿童创造力乐园、第一个AI创造力成长营以来,我们持续打磨乐园和课程的设计与实践,在2022年8月将会开启全新的北京旗舰园,8万平米户外、创造力与科技主题,位于北京绿心森林公园内、环球影城旁,详情请见公众号“阿派朗创造力乐园”。小朋友在玩中学、学中玩,直观体验AI技术的神奇应用,与AI一起共创创意成果。 [图片] 未来属于擅长与AI各展所长、共生共创的AI创造力人才! 【关于我们】 AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。 迄今为止,AI TIME已经邀请了800多位海内外讲者,举办了逾400场活动,超400万人次观看。 查看更多精彩内容,欢迎关注B站账号及公众号“AI TIME论道”。
智能仿生机器鱼【本期简介】 认识海洋,经略海洋,需要先进的水下装备。水下仿生机器人是其中一类关键核心装备,具有广泛应用前景。本报告将介绍北京大学谢广明教授团队在水下仿生机器人——机器鱼学术研究和产业化方面的研究进展,包括运动仿生、感知仿生、通信仿生、群体仿生、组织的相关机器人竞赛,以及科研成果产业化等。 【本期嘉宾】 北京大学工学院教授、博士生导师。主持多项国家级科研项目,获得国家自然科学奖二等奖、教育部自然科学奖一等奖等多项奖励。现担任中国仿真学会机器人系统仿真专业委员会主任,是多个国际国内期刊的主编、编委。主要研究复杂系统动力学与控制,智能仿生机器人与多机器人协作等,发表SCI论文百余篇,2014年起连续入选爱思唯尔中国高被引学者,获得十余项发明专利,主持国家一流线上课程《魅力机器人》,是国际水中机器人大赛的创立者,曾接受包括《新闻联播》在内的多种媒体报道和专访。 研究背景之一 人类已经进入了信息技术时代 信息技术对人类社会的政治、 军事、 经济、 文化乃至对普通人的工作、 生活方式的影响越来越大。对信息技术发展可以进一步细分,最先广泛应用模拟信号技术,标志性产品是电视机和录像机等,然后是第一波数字信号技术浪潮,标志性产品是个人电脑,之后紧接着是第二波数字信号浪潮,标志性产品是互联网和移动数字消费。进入21世纪以后,新的技术浪潮就是机器人。所谓未来以来,人类已经进入了机器人时代。比尔盖茨也曾预言,机器人带给人类社会的改变丝毫不逊于电脑过去30年来的影响。“机器换人”已经成为一场静悄悄的社会变革。 [图片] 研究背景之二 党的十八大以来,“建设海洋强国”成为国家重大战略需求,是实现中华民族伟大复兴的重要组成部分。海洋机器人是实现海洋强国梦想的关键核心装备。水下作业环境机器恶劣复杂,发展水下机器人协同技术可以作为有效应对方案,具有重要科学意义和广泛应用前景。 [图片] 仿生水下机器人 [图片] 美国MIT在1994年就研制出世界上首条仿金枪鱼潜水器。如今各种水下生物都成为仿生对象,各种仿生水下机器人原理样机层出不穷。 [图片] [图片] 仿生机器鱼 [图片] ● 仿生机器鱼,参照鱼类游动的推进机理,利用机械、电子元器件或智能材料来实现水下推动的运动装置。 ● 高效率、高机动性、高隐身性、低噪声、高适应性 面临的挑战 ● 多学科交叉问题:鱼类游动方式包含着生物学和流体力学机理,仿生学,新材料,控制,微小型技术,群体行为学等... ● 理论方法问题:如非定常流体力学,材料科学,动态网格技术,水洞实验... ● 仿鱼机器人技术——机构建模与仿真,高效驱动装置,智能控制与决策,群体行为控制 一种典型的仿鱼水下推进系统设计与控制 我们发现鱼尾的摆动可以给水一个向后的推力,同时水也可以给鱼一个向前的反作用力,这就是鱼类在水中前进的基本原理。人们也仿照这个原理在机械中进行实现。 [图片] 这是北京大学的部分仿生水下机器人样机,曾先后成功在南北极由科考人员下水试验。 [图片] 仿生运动研究 以箱鲀鱼为仿生对象 ● 外形具有自稳定性 ● 内部可利用空间大 ● 高机动性 [图片] 我们仿生实现了机器箱鲀的很多仿生运动行为,如倒游、翻滚运动、后空翻和垂直旋转等。 仿生感知研究 侧线是鱼体特有的感受水流信息的器官,一般分布在身体两侧和面部。 [图片] 侧线在鱼类行为发挥重要作用: ● 趋流行为 ● 避障行为 ● 猎物定位 ● 鱼群形成 ● 从涡街中捕获能量 感知机器鱼自身状态: 机器鱼自由游动下,仿生侧线可对机器鱼速度进行估计。 [图片] 鱼在水中游动的同时,侧线就会记录下变化的数据。通过数据的收集,我们可以求出鱼在水中的游速。之后,我们甚至可以估计出鱼类在水中游动的轨迹。 [图片] 感知邻居机器鱼状态 侧线研究激励源往往是恒定水流、偶极子振荡源或卡门涡街。而在鱼群或多机器鱼编队行为中,个体周围涡街多是反卡门涡街。我们研究振荡源为反卡门涡街时,侧线对邻居状态感知。 [图片] 涡街显示实验确定尾鳍摆动是否产生稳定反卡门涡街,涡街宽度及有效距离等参数。 仿生通信研究 生物电场通信:自然界有种鱼类可以通过发射和接收微弱电场信号进行信息交互。 [图片] 受此启发,设计了仿生电场通信系统,实现了一种新的水下通信方式。 [图片] 个体层面的仿生 ● 运动能力 ● 感知能力 ● 通信能力然而,现实告诉我们仅靠个体仿生是很难帮助我们解决绝大多数问题的,我们不得不转向对群体仿生的研究——如机器鱼的集群协作编队,依据的原理就是鱼类集群协作来对抗天敌。 群体层面的仿生 [图片] 将鱼类集群协作的原理应用到机器鱼之上,也是人工智能的一个重要方向——群体智能。这些研究,无论是个体仿生还是群体仿生,我们的创新方式都是师法自然,向自然学习,将大自然的法则融入到工程装备之中,提升了人造系统的性能。 小结 ● 人类已经进入机器人时代 ● 仿生水下机器人技术蓬勃发展 ● 水下机器人应用前景广阔 【关于我们】 AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。 迄今为止,AI TIME已经邀请了800多位海内外讲者,举办了逾400场活动,超400万人次观看。 查看更多精彩内容,欢迎关注B站账号及公众号“AI TIME论道”。
以计算机图形学的视点看元宇宙发展【本期简介】 计算机图形学是利用计算机研究图形的表示、生成、处理、显示的学科,主要研究对3D几何模型的建模、渲染、动画和交互技术,被广泛应用于计算机辅助设计CAD、计算机动画、游戏和虚拟现实等领域,是创造和显示数字世界的关键支撑学科。元宇宙作为近期科技界和产业界热议的话题,被认为是数字世界的未来趋势之一,而计算机图形学将为元宇宙的发展提供关键的支撑技术。在本次讲座中我们将介绍计算机图形学的历史、关键技术和应用,并通过总结计算机图形学的技术发展历程对元宇宙进行展望。并将介绍近期计算机图形学的一些关键技术发展对实现元宇宙的潜在的促进作用,比如神经辐射场NeRF以及人人可用的数字内容创造方法。 【Shownotes】 00:30 计算机图形学基本概念 01:00 计算机图形学的应用场景 03:00 计算机图形学的发展历史 22:00 几何建模的意义 23:00 几何建模的主要方法 25:00 几何建模的发展历史 28:00 几何建模的展望 33:00 计算机图形学研究内容 34:00 渲染技术 40:00 动画 44:00 人机交互 47:00 关于元宇宙 【本期嘉宾】 高林,CCF高级会员、中国科学院计算技术研究所博士生导师、副研究员,北京市杰青,英国皇家学会牛顿高级学者。研究方向为计算机图形学,在ACM SIGGRAPH\TOG, IEEE TPAMI, IEEE TVCG, CVPR 等国际知名期刊会议发表论文50余篇(其中CCF A类30余篇),相关研究工作入选ESI高被引论文,并被180余个国家或地区的用户所使用,获亚洲图形学会青年学者奖、CCF技术发明一等奖、CCF CAD&CG专委图形软件开源奖等奖励。 计算机图形学 计算机图形学是利用计算机研究图形表示、生成、处理和显示的学科,是计算机科学中最为活跃、应用最广的分支之一。 [图片] 计算机图形学应用场景 计算机图形学深深地影响了我们的生活。如今大火的“元宇宙”概念,同样是以图形学技术为基础而发展至今的。 [图片] 计算机图形学发展历史 [图片] 我们发现,研究图形学的历史可以从计算的历史来入手,早在计算机之前就已经有了计算器。而等到现代意义的电子管、晶体管计算机出现后,人们则开始使用打孔卡来进行计算器输入。在交互方面,SketchPad光笔交互矢量显示的出现则为我们展示了新的思路。计算机图形学的研究范畴不仅包括通过计算机将图形计算和显示出来,其中最重要的一点是理解人并与其交互。在工业发展中,需要大量的图纸从二维的平面将物体画出来。这个步骤需要设计师大量的想象能力,而如果交给计算机就会事半功倍。在三维层面完成的维度修改,不仅方便工程师去设计,也极大地提高了生产效率。由此可见,几何建模也是计算机发展历程中很重要的部分,具有着划时代的意义。然而,仅仅有线条也是不够的,我们还需要有模型。我们需要营造立体感,而这些立体感的营造是需要算法实现的。毕竟,推动科学前进的重要因素还是科学家们的科研成果。这里就不得不提到SIGGRAPH社区,该社区的历史可以追溯到1967年,因举办SIGGRAPH会议而享誉于世。在最早的计算机时代,交互方式对使用者非常不友好,一度只能由专业程序员来使用计算机。这一现象直到施乐公司提出图形用户界面GUI的概念才最终画上了句号。图形学在有了用户界面 之后也是发展突飞猛进,应用范围也在变得越来越广。2019年,Ed Catmull获得了图灵奖。他的代表工作就是对网格进行细分建模并进行纹理贴图,进行真实的三维渲染。我们可以看出,图形学的发展同时也是和工业、商业紧密结合的。提到商业,我们就要提到一些和图形学联系紧密的投资家。 [图片] 施乐公司最早提出了图形界面,之后乔布斯和苹果公司进一步研发了带有图形用户界面的个人电脑,极大的推广了计算机的应用范围。人们在不使用命令行的情况下也可以使用计算机,这也拓展了图形学的应用范围。科学家们同时在思考,能否用计算机建造出三维模型呢?他们希望能够通过计算机将当前所有的已知物体渲染出来。贝尔实验室的科学家Turner Whitted提出了光线跟踪算法,成功的将三维模型渲染了出来,让真实物体也可以得到渲染。同时,硬件公司也开发了图形工作站,帮助人们高效的实现这些算法。康奈尔大学基于此开发了大量基于物理的渲染方法,这时已经可以将这些三维模型真实地渲染出来。 [图片] 接下来,乔布斯发现后续可以继续利用图形学去做电影,便找了图形学专家Catmull一起投资了Pixar公司。Pat Hanrahan 开发了RenderMan引擎用于离线渲染。乔布斯便将这种技术应用到电影之上,通过结合图形学的技术开创了时代的先河。这里同时也使用了Catmull的网格细分建模技术,可见如今的电影也无一不是与图形学技术结合的结果。在工业时代,图形学也起到了划时代的作用,尤其是CAD技术。波音777的设计完全是应用的CAD技术,这也为其省去了大量的图纸。波音777是第一款完全应用CAD技术生产出来的民用飞机。如今的汽车工业同样大量应用了CAD技术,而电影工业更是离不开图形学的技术。然而,运营图形工作站所需的条件是个人所不具备的,因此我们个人很难在最初接触到图形学的应用。独具慧眼的NVIDIA公司开发了首个图形处理单元GPU,这也标志着传统图形工作站的市场开始走向衰落。 [图片] 进入21世纪,乔布斯再次展示了其优秀的才能,颠覆性地革新了交互模式。Iphone 2G这一款全触控交互手机的出现使得人们步入了图形学与人机交互的新纪元。图形学在如今科技的发展中依然扮演着极其重要的角色,2019图灵奖就是颁发给了图形学杰出学者Catmull和Hanrahan。 几何建模的意义 几何建模用于CAD/CAM系统中,高质量的几何建模结果,应用于科技生活的方方面面。 [图片] 几何建模主要方法 ● 基于几何造型的建模技术渲染由专业人员通过专业软件等工具搭建出物体的三维模型。 [图片] ● 利用激光三维扫描仪能够自动构建出物体的三维模型,并且精度很高。 [图片] 几何建模的发展历史 [图片] 在几何建模领域,计算机辅助设计的研究对象从最初的Bezier曲线发展至后续的NURBS曲面。而在数字娱乐如电影、游戏中,离散的多边形网格也逐渐被广泛使用,这时就需要设计一些算法对这些多边形进行处理。另一方面,三维重建也在研究如何通过激光扫描仪建模真实的物理世界。在自动驾驶中,点云已成为当前的主要研究对象。 几何建模的展望 [图片] 未来的几何建模应该是更具多样性的。我们试着展望未来,用户将能做到个性化地进行3D设计并完成三维打印。人们完全可以使用低成本的彩色相机进行三维建模,物理真实世界也会渐渐迈向数字化。 计算机图形学研究内容 渲染数字几何建模后的模型,经过模拟光照、纹理、材质等信息处理,而得到视觉呈现的过程与结果。 [图片] 渲染技术的应用 高质量的渲染,可以合成具有极高真实感的图像,在CG与电影行业、游戏行业有广泛的应用和深远的影响。 [图片] 渲染的研究内容发展历史 [图片] 渲染如果按照实时性区分,可以分为离线渲染和实时渲染。同时,渲染也有很多种方法。传统图形学的渲染一定需要投影和透视等算法,并且要将其转换成像素,把散点模型转换成光栅。具体方法如下: (1)启发式方法:光照模型,效果快但是不真实; (2)光线跟踪算法:真实,但是效果慢;因此,当前有大量的研究去提升光线跟踪的速度。微软公司更是推出了Direct X来做模型的加速。2018年,NVIDIA公司取得了一个重大突破——通过RTX硬件加速实现了实时光线跟踪。这样,游戏用户也能得到和观看电影同样的视觉效果。 渲染与新兴技术的结合 不得不说,AI技术尤其是深度学习的突飞猛进为我们的生活带来了日新月异的变化,同时很大助力了图形学的发展。 [图片] 计算机图形学内容和意义 动画通过计算机技术,模拟2D、3D模型的运动过程,应用于游戏的开发,电视动画制作,电影特技制作,生产过程及科研的模拟,增添多媒体的感官效果。 [图片] 动画技术的分类 ● 二维动画: ■ 图像变形 ■ 形状混合 ● 三维动画: ■ 关键帧动画 ■ 变形物体的动画 ■ 过程动画 ■ 人体动画 ■ 智能体行为动画等… [图片] [图片] 动画技术的发展同样也是一个漫长的过程,由二维的关键帧动画变为三维也需要技术的突破。能否把人的动作传递给电影中的虚拟形象呢?这就诞生了动作捕捉技术,目前也在动画片中大量应用。在未来数字世界之中,我们将很容易的建立虚拟人的形象,同样需要动画技术的辅助。 动画技术的发展历史 [图片] 动画技术的未来 低成本虚拟人,驱动,视频虚拟人,粒子破碎,增强现实... [图片] 人机交互的发展历史 [图片] 人机交互技术的应用范围 [图片] 任何一种新交互技术的诞生,都会带来其新的应用人群、新的应用领域,并带来巨大的社会经济效益。 人机交互技术的研究内容 研究人与计算机系统之间自然高效信息交换的原理与技术,具体实现为由多种模态的输入输出软硬件接口所构成的用户终端界面,形成特定的交互模式。 [图片] 人机交互技术的未来 集成化,智能化,标准化 [图片] 计算机图形学的发展趋势 ● 渲染更加真实化 ■ 光源、毛发、动作的新建模技术让渲染更真实 ■ 硬件的发展让渲染更快速 [图片] ● 交互更加多样化 [图片] ● 硬件更加小型化、低成本、低门槛 [图片] [图片] 钱学森关于虚拟现实、灵境和元宇宙 [图片] 元宇宙定义 ● 一个平行于现实世界的虚拟世界 ● 现实世界虚拟化、虚拟世界现实化 ● 是下一代互联网,是人类未来的数字化生存 [图片] 元宇宙前传:《雪崩》 ● 元宇宙概念的提出: ● 1992年,Neal Stephenson的科幻小说《Snow Crash》中提出了“metaverse (元宇宙,汉译本译为“超元域”)”和 “化身(Avatar)”这两个概念。书中情节发生在一个现实人类通过VR设备与虚拟人共同生活在一个虚拟 空间的未来设定中。 ● 《 Second Life》 :第一个现象级的虚拟世界,发布于2003年,拥有更强的世界编辑功能与发达的虚拟经济系统,吸引了大量企业与教育机构。 2021:元宇宙元年 2021年,可以被称为“元宇宙”元年。“元宇宙”呈现超出想象的爆发力,其背后是相关“元宇宙”要素的“群聚效应”(Critical Mass),近似1995年互联网所经历的“群聚效应”。 ——朱嘉明 元宇宙的七层要素 元宇宙应用了大量的区块链技术进行去中心化,同时也离不开空间计算。图形学技术对UI、引擎等多方面发挥了重要的作用。 [图片] 元宇宙的发展情况 [图片] 元宇宙中的图形学 ● 元宇宙基本要素:人、物和场景 ● 数字内容创作的数量和质量决定了元宇宙体验的质量 [图片] 基于动态纹理表达的数字人生成 [图片] 核心思想 ■ 人体纹理特征同时包含静态外观信息和动态细节特征 ■ 神经网络易于拟合低频函数,增加数据流形复杂度有助于高频信号的学习 [图片] 真实世界数字化-NeRFEditing [图片] 【关于我们】 AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。迄今为止,AI TIME已经邀请了800多位海内外讲者,举办了逾400场活动,超400万人次观看。 查看更多精彩内容,欢迎关注B站账号和公众号“AI TIME论道”。
青少年的AI修炼手册【本期简介】 本期“科普大佬说“很邀请到科技部“新一代人工智能创新发展与应用研究”项目,中小学人工智能教育服务平台研发及创新应用课题组的孙国玉、陈文娟、吴卓浩老师,以及新英才学校的信息中心副主任鲁家钰老师,和大家一起聊聊青少年AI教育。 【Shownotes】 05:00 吴卓浩老师《孩子与AI的共创》 15:00 孙国玉老师《中小学人工智能素质教育平台与创新应用》 28:00 孙文娟老师《青少年AI 教育》 44:06 鲁家钰老师《认识世界的另一种哲学——人工智能》 59:00 大佬debate 1)向AI学习如何学习(learning how to learn) 2)怎样的AI适合青少年(关心的、担心的,以及解决办法) 3)青少年与AI的共创(美术、音乐、写作、表演等) 【本期嘉宾】 1. 孙国玉,中国传媒大学数字媒体艺术专业教师,副教授,研究生导师,全国高等院校计算机基础教育研究会网络科技与智能媒体设计专业委员会秘书长,国家级一流社会实践课主讲人,多次获得北京市、校先进教学团体和个人奖,一直专注于自然交互技术、人工智能技术与艺术创意设计相融汇的交叉学科相关领域的研究与设计创新应用,参加或主持过多项国家、省部级的科研项目。 2. 陈文娟,中国传媒大学动画与数字艺术学院副教授、硕士生导师。研究方向为人工智能与艺术创作、青少年以“AI +艺术”的人工智能教育方法与实践,参加或主持过多项国家、省部级的科研项目。 3. 鲁家钰,北京市新英才学校信息中心副主任,从程序员转行为老师的跨界者,曾参与多项省部级智能视频综合应用平台等项目建设。 4. 吴卓浩,人工智能与用户体验专家,中国传媒大学副教授,阿派朗创造力乐园联合创始人。毕业于清华大学与同济大学,曾任创新工场AI工程院副总裁,Google、Airbnb中国设计负责人,辅导过数百个创业企业与成熟企业,其产品与服务被全球数以十亿计的用户使用。在中国高校计算机基础教育研究会网络科技与智能媒体设计专业委员会担任副主任,在中国红星设计奖、DIA中国设计智造大奖、UXDA国际用户体验创新大赛、GAAC全球AI文创大赛、光华龙腾奖中国设计业十大杰出青年、2022冬奥会吉祥物设计大赛担任评委。在工信部、文化部,以及清华、北大、央美、ArtCenter等40余所大学授课。 【关于我们】 AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。迄今为止,AI TIME已经邀请了800多位海内外讲者,举办了逾400场活动,超400万人次观看。