人工智能中AR AI VR是什么意思?
AI(人工智能)、VR(虚拟现实)、AR(增强现实)
人工智能(Artificial
Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能是实体词n-1466744539724841
target="_blank"计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。
虚拟现实技术是一种可以创建和体验虚拟世界的计算机仿真系统它利用计算机生成一种模拟环境是一种多源信息融合的交互式的三维动态视景和实体行为的系统仿真使用户沉浸到该环境中。
增强现实技术(Augmented
Reality,简称
AR),是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术,这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。这种技术由1990年提出。随着随身电子产品运算能力的提升,预期增强现实的用途将会越来越广。
人工智能与VR是何关系 VR是否需要AI支撑
据传媒投资大佬谈人工智能与VR技术的关系:VR的最佳模式就是叙事模式,未来可能是会需要AI技术的支持,对此,各位AR、AI爱好者是怎么看,未来也许VR、AI不分家。
Rob Ogden目前任职于麦迪逊威尔斯传媒(Madison Wells Media),担任战略与合作发展执行副总裁。自从他2016年5月加入这家公司之后,便在公司的战略方向调整和投资方向上扮演了关键性的角色;在这期间,公司投资了Wevr,Atom Tickets和The Void数家以VR媒体内容为主要业务的企业。那么,这位传媒投资界的精英是如何看待VR叙事的发展方向和关键要素的呢?前日,他撰写了一篇题为“AI与叙事:看似遥远的友谊”的文章,讲述他对VR内容创作和人工智能技术这二者关系的看法。
文章指出,最适合VR内容的叙事模式是自然叙事,这是一种不同于传统叙事方式的高自由度多可能性叙事方式,也是最接近真实世界内容的叙事方式。这种叙事方式在传统媒介上是难以实现的,而VR恰恰是能够实现、并且是模仿这一叙事模式的最佳载体。
但要实现这一叙事,仅仅靠随机是不够的。自然叙事最基础的材料其实是人的不可预测性,而没有足够人数的支撑,原本有无限可能的VR世界将会被限定为几个顶层世界所垄断,这就失去了虚拟现实最大的价值之一:无限可能性。而能够解决这一问题的答案就是人工智能技术。AI和VR之间的这一层共生关系常常被人所忽视,但实际上AI是解决VR内容问题的一大关键。
文章内容看似天马行空,然而却向我们揭示出一些VR媒体行业高层对VR内容发展前景的洞见,对VR从业者或有启迪。
原文如下:
当我们谈到互动VR作品中的叙事时,至少有一件事是确定的:没有人知道全部的答案。
一方面,人们批评那些来自好莱坞的VR作品太拘泥于自己的2D银幕经验;另一方面,评论者又批评游戏开发者只注重重复任务和游戏机制。但事实上,VR既不是电影,也不是单纯的游戏,要在VR里讲好故事,既需要好莱坞的叙事技术,也需要来自科技界的创新。要弄明白这一点,首先要从厘清叙事类型开始
叙事技术类型与相应载体
· 线性叙事。自从人类能够实现交流以来就存在的最传统的叙事类型。故事有开头,有过程,有结尾,一切都是预先注定好的。例子:传统出版小说,戏剧,电影等等。
· 分支叙事。半互动性质的叙事方式,在其中观众可以影响故事结局的方向。有若干条固定的发展路径(或者情节排列方式)。例子:观众选角扮演系列童书,Telltale(美国游戏制作公司,擅长剧情类和同名改编类游戏,代表作《行尸走肉》《侏罗纪公园》等)出品的游戏。
· 自然叙事。全互动性质的叙事方式,有无限的发展可能。例子:生活。
那么,最适合VR的叙事形式是什么?在最理想的的层面,虚拟现实有能力达到这样的程度:一个世界。你可以进入、探索、体验,就如同体验真实世界一样。因此,从直觉上你会想要使用最能够模拟真实体验的叙事形式,那就是自然叙事。但是如何能够达到这一点?这说起来就有些复杂了。
在电影和电视的世界中,线性叙事无疑是最佳的选择。它要讲的是一个完整的故事,这个故事经过精心的打磨和雕琢,意在成为这个故事所能成为的那个最佳版本。一本传统小说或者剧本在正式出版、进入消费环节之前往往要经过无数次不厌其烦的修改和编辑,这对故事的质量颇有裨益。在这种语境下,为分支叙事创作额外的内容的成本极其高昂,而创作者付出精力创作的支线情节可能只是被观众当做剧情的碎片。自然叙事在这里更不必提,从机制上就是不可能的。
在游戏世界中,线性叙事往往也是最佳的选择,这是出于和上面同样的原因:成本。创作多重叙事会增加成本;而且,即使在电脑这个载体上进行这样的创作逻辑上会稍微简单些,多重叙事的难度依旧很高。自然叙事在游戏世界里开始成为可能,尤其是在MMO(massively multiplayer online games,大型多人在线游戏)这个体裁里最有可能出现。在MMO游戏中,许多角色是由人类玩家扮演,于是他们能够如同人类一样行动,也就是说,他们的行动相对而言是无法预测的。
MMO策略适用于VR叙事吗?
那么,VR是否能依靠MMO的策略来达成可信的自然叙事呢?
答案是否,原因如下。
· 即使是MMO,也会经常使用剧情动画(也就是一种线性叙事的方式)来讲述关键情节或者复杂内容。但是在VR中,你无法在第一人称视角下随意插入剧情动画。第一,这会导致晕眩;第二,更重要的是,这会严重破坏沉浸感和怀疑暂停状态(suspension of disbelief,文艺理论中的一种状态,指读者在这种状态下不会倾向于怀疑和批判作品提供的信息,作品的叙事是可信的),而这正是VR最独特和最有价值的地方。
· 理论上VR能够支持无限数量的世界,但事实上不论进入VR世界的玩家有多少,最终一定只会有少数几个世界(也就是最受欢迎的那些)达到一定的规模,有足够的玩家数量来形成更接近“真实”的世界。如果没有足够的初始用户群,一个新生的世界很难能够达到足够的人数规模,有足够的角色在其中行动、足够真实。
· MMO要求玩家“扮演”他们化身的角色,在通常的MMO游戏里这倒是没什么问题,毕竟大家都是有着相同目标、面临着同样挑战的大英雄。但在虚拟现实世界里,如果要营造真实感,打造自然叙事,就要有丰富多样的角色。可哪个玩家会想去虚拟快餐店当个虚拟服务员天天拖虚拟地板呢?
AI支持下的VR自然叙事
那么,打造VR世界叙事的答案究竟是什么?
是人工智能。AI和VR可能是当下在科技圈最流行的几个词,但这二者之间可能存在的一种共生关系却常常被人所忽视。现在,科技界在AI开发上投入了巨量的资源,但AI通常应用的领域是数据分析、聊天机器人、虚拟助手和无人驾驶。人们似乎忘记了,AI一直以来都是游戏的关键组成部分之一,但即使在如今最先进的游戏中,使用的AI也十分粗糙简陋,根本无法造就一个自然世界中的“真实”角色。这很大程度上是因为目前的游戏并不需要那么高级的AI。但VR则不同。VR所承诺的沉浸体验给自己创造了这样一个挑战,必须要结合硅谷的技术力量、游戏产业的交互经验、和好莱坞的叙事DNA,才有可能真正达成。
那么,如果我们真的能够让AI可信地模仿人类的决策逻辑,好莱坞式的体系化叙事经验是否就过时了呢?我并不这样认为。首先,你需要有经验的创作者来设定最基础的AI人格和行为模式,仅仅只是随机并不能生成真实、可信、有意思的角色。就好像《西部世界》里安东尼·霍普金斯扮演的那个角色一样,那就是一个创造AI角色的高手。即使是在AI为动力的VR世界中,我们依然需要能够描绘出故事的基本蓝图。
总结
AI到底能为VR带来什么呢?它能为VR的无限世界带来生命之息,它能让VR真正成为VR技术所承诺的那个提供沉浸体验、有着无限可能的“另一个宇宙”,这是VR可为之事,也是应为之事。它能让原本荒芜的无限世界中诞生角色,而且是真实可信的角色,任何进入任何一个世界的玩家都能够真正享受这个世界,不论这是一个大型多人在线的世界,还是一个单机的世界。如果科技界、好莱坞和游戏产业能够勠力同心,创造出所需要的工具和应用技术,无限的高信度VR世界才有可能成功。
前沿专访 - 商汤科技栾青:人工智能的基础是现实世界数字化
栾青认为, AI是把现实世界数字化的重要工具。有了人工智能,就可以在虚拟世界里更快生成人、物、场景,大大降低元宇宙的构建门槛和成本 。AR/VR与AI的结合,能跨行业解决很多不同问题。除了 游戏 、社交外,在工业、建筑、医疗等产业数字化领域,也有比较多的应用空间。
不过,栾青也指出,目前相关产业还是处于初期发展的阶段,不管是硬件体验、内容生成平台,还是所涉及的经济系统、授权认证系统等均需时间来建立。 五年通常被认为是硬件的一个迭代周期,而最终的成熟时间依然很难预测 。但在终极的数字世界建立之前,会有比较多的雏形形态,能够解决日常生活中的一些问题。
人工智能的核心,在于持续把现实世界数字化
栾青:不管是称其为元宇宙,还是叫混合现实,或者数字世界也好,类似的概念已经存在非常久了。目前来看,AI所起到的作用主要包括三个方面。
首先,人需要拥有一个新的身份,AI将帮助大家以数字分身Avatar,更好地进入到虚拟世界里;其次是虚拟世界的多模态人机交互体验,即这些数字人对不同的虚拟世界、不同服务进行人机的交互;第三,虚拟要与真实结合,AI可以更快速地构建虚拟世界。
《科创板日报》:当下已经有哪些落地的应用场景?
栾青:目前所基于的载体是各类屏幕、电子设备,比如手机、电脑、大屏,当然还有开始初步应用的VR和AR眼镜。
在To C的应用方面,包括了各种各样的VR社交应用、会议系统等。在To B的方向,较为常见的是通过智能数字人,来替代某一项服务的重复性劳动。比如在商场、银行、医院等,数字人可以帮助前台来完成刷卡、来访登记等这些简单、重复的工作。
AI还能实现三维内容的快速生成,比如通过无人机或者手机快速扫描,就可以把现实场景在数字空间里建立起来。这在智慧城市的管理,智能遥感技术的应用已经非常多了。
在今年冬奥会期间,我们就对冰壶赛场冰立方的整个场馆进行了三维数字化。通过AI技术捕捉冰壶在三维场景中的位置,成功实现了在超大空间范围内,远距离精准检测并识别定位跟踪可能被遮挡的运动冰壶。不仅如此,我们还通过“虚实结合”的方式,在现场大屏和咪咕视频还原冰壶的运动轨迹曲线。这不仅可以帮助运动员分析研判对战形式,适时调整战术,还能让观众更好地了解和感受冰壶运动的精髓。
《科创板日报》:完成对水立方场景的三维数字化重建,大概需要多久时间?
栾青:我们在场馆内走一圈的时间大概是十几、二十分钟,然后在两个小时之内就能把整个水立方冰壶比赛场馆进行完整建模。这还是普通服务器的建模速度,如果使用性能更强的服务器,还有可能会更快。
《科创板日报》:AI为现实世界数字化所带来的效率提升,您有没有相关的数据?
栾青:比如, 过去建立一个数字人,平均时长大概剩3-4个月。通过AI的优化之后,在初步情况下可达到一个月以内。未来我们还将会把整个流程优化到以天为单位的级别 ,这样可以让很多行业高效率使用自己的虚拟形象代言人,这是我们正在努力的方向。
可以说,现实世界数字化,是AI最核心在做的事情。如何更快生成人、物、场景,降低成本和门槛,而不是需要专业的设计师花很长时间才能做完。
《科创板日报》:所谓现实世界数字化,在产业化场景也有应用空间,比如说像工业领域一直在提的数字孪生。
栾青:是的, 三维建模和数字化管理是比较通用的技能,可以跨行业解决很多不同问题 。在工业、建筑、医疗等等,都有比较多的可能性。
其中,工业是非常典型的场景。我们也实现了许多工厂,包括对工业园区、工业厂房等的快速三维建模。通过快速三维建模后,对现有的各种摄像头设备或者其他分配的信号进行连接,就形成了一个典型的数字孪生场景。
AI的优势在于,不需要设计师进行场景的三维重建 ,这是一项较为劳动力密集的工作。我们用 普通的民用摄像头产品,甚至手机围绕现场走一圈就可以把场景快速地建立出来 。
而且这些部署的摄像头,可以实现三维高清定位,快速地标定至三维的空间位置中,这样不管厂区还是园区的数字化管理就会非常高效地进行。
数据化和硬件体验是两大挑战
《科创板日报》:“AI+XR”的结合应用还是处于初期发展阶段,您觉得可能还存在哪些挑战?
栾青:挑战主要有两个方面。
首先是体验。这是需要全行业一起解决的事情,包括大家常说的VR或AR内容生态,依赖整个行业一系列的技术提升,把整个体验和内容建立起来。
其次则是数据化。虚拟世界或者说数字世界的存在,最终要帮助到真实世界解决实际的问题。但挑战在于,很多的场景是具有长尾效应。比如在工厂,有些设备是在别的厂区见不到的,或者在这个特殊行业才拥有的,那就需要进行一系列长尾内容的数据化。 如何高效率低成本识别不同的内容,并且实时的数据化到我们系统当中,这也是一大挑战 。
《科创板日报》:虚拟现实应用要真正发展起来的话,可能涉及到哪些关键产业链?
栾青:首先 硬件的产业链肯定是第一步 。必须采用大家习惯、能够日常使用的体验方式,才能普及。就像手机如果非常重,又很昂贵,那么大家不太可能用起来,很多应用也无从落脚。
所以,硬件成本的降低,以及重量、散热、耗能等的提升,仍然要不断去攻克的瓶颈。由此来看, 光学显示,包括轻量化的芯片等,应该都会有较强的发展空间。同时,基于硬件的各种智能化,包括手势识别、面部驱动,三维人建模等内容工具,也亟待发展 。
内容生成平台也非常关键 。三维比二维的内容制作要复杂很多。以前可能只有 游戏 厂商,需要做复杂的三维内容,但投入也是非常大的。 如果我们希望走向全民普适,比如银行、商场、办事大厅等,都进入到三维数字世界之中,你发现成本就会变得非常巨大 。各种各样高效的内容生产工具和平台也会有一轮需要被突破的过程。
此外,如果所有人都需要在三维互联网进行更深入地交流,那么大规模云端的协同性计算,也会有一个巨大的发展契机。当然,还包括经济系统、授权认证系统等,都要在这个体系下被建立起来。
看好数字文创和数字人
《科创板日报》:您预估成熟期需要多久呢?
栾青:现在还比较难预测。不过, 在终极的数字世界建立之前,会有比较多的雏形形态,可以解决日常生活中比较多的问题 。
比如刚才提到的数字人在垂直领域的应用,已经可以消除很多服务体验和效率上的难点。并不一定非要有全新的硬件或者不同的内容生产生态。只要在专业领域做得比较好,就可以有效地提升生产效率。这种行业级别的应用,我们认为已经到来了。
而 全民的、普适性的三维互联网级别,可能还需要一定的发展周期,大家常说5年是一个硬件迭代周期,我们也拭目以待 。
《科创板日报》:目前比较有前景的应用,除了数字人之外还有哪些?
栾青:数字世界需要各种各样的内容,人是一方面,物是另一方面。把很多现实物品进行数字化,也已经成为一个重要的体验环节。
在这方面,数字文创拥有比较大的发展契机。我们已经与敦煌、故宫等大型IP合作,来进行数字内容的体验提升,更好地展示中国传统文化的魅力。
事实上,数字世界可以有更大的创造空间,展示现实文创产品展现不了的内容。 过去是数字赋能实物,现在是实物赋能数字,通过AI/AR的方式,把虚拟的数字内容附着在实体上面,这是我们对数字文创的定义 。
《科创板日报》:您在人工智能从事研究工作多年,您认为人工智能对人类而言,所具有的最大意义是什么?
栾青:人工智能本质上模拟了人类大脑处理信号的方式。在人工智能出现之前,计算机只能处理数字化的信号,没有办法表达自己的思想,依然需要人对这些信号进行解析,才让其变得有意义。
人工智能出现,首先是把现实世界数字化。这样计算机在很多领域就能看懂现实世界的信号,而不用依靠人力。计算机可以自动地、主动去做一些事情,这样提升了数据处理的效率。 其核心是解决了信息入口的问题。也就是原先需要人进行输入,现在整个世界的数据信息不断自动地流入到计算世界里。
当然,人工智能不只是解决入口问题,还要进行各种三维数字内容生成,这是另一价值所在。这方面,人工智能可以把许多重复性劳动替代掉,也是我认为未来重要的发展方向。
AR的核心技术,及与人工智能之间的关系
AR/VR常作为孪生兄弟被相提并论,被普遍认为为应用层新技术或者说是“智能可穿戴设备”,相比人工智能相对的“算法”标签,显得不够有深度有内涵高大上,那AR和人工智能之间到底是什么关系?AR属不属于当下我们认知中的人工智能?
AR属不属于人工智能?看完本文你就懂了 AR资讯
2018年3月,上海市经济和信息化委员会公示了2018年第一批本市人工智能创新发展专项拟支持项目。“一共有19家创新企业入围,亮风台作为AR公司也入围此次支持项目”亮风台工作人员告诉青亭网,这不是AR企业第一次被划归到人工智能,但这种归类方式也并不常见。据了解此专项由经信委与市财政局联合开展,拟支持金额超过1亿。
简单梳理下AR的核心技术
AR(Augmented
Reality),是在现实世界中叠加虚拟信息,也即给现实做“增强”,这种增强可以是来自视觉、听觉乃至触觉,主要的目的均是在感官上让现实的世界和虚拟的世界融合在一起。
其中,对现实世界的认知主要体现在视觉上,这需要通过摄像机来帮助获取信息,以图像和视频的形式反馈。通过视频分析,实现对三维世界环境的感知理解,比如场景的3D结构,里面有什么物体,在空间中的什么地方。而3D交互理解的目的是告知系统要“增强”的内容。
这其中有几个关键点:
首先是3D环境理解。要理解看到的东西,主要依靠物体/场景的识别和定位技术。识别主要是用来触发AR响应,而定位则是知道在什么地方叠加AR内容。定位根据精度的不同也可以分为粗定位和细定位,粗定位就是给出一个大致的方位,比如区域和趋势。而细定位可能需要精确到点,比如3D坐标系下的XYZ坐标、物体的角度。根据应用环境的不同,两种维度的定位在AR中都有应用需求。在AR领域,常见的检测和识别任务有人脸检测、行人检测、车辆检测、手势识别、生物识别、情感识别、自然场景识别等。
在感知现实3D世界并和虚拟内容融合后,需要以一定方式将这种虚实融合信息呈现出来,这里面需要的就是AR中的第二个关键技术:显示技术,
目前大多数的AR系统采用透视式头盔显示器,这其中又分为视频透视和光学透视,其他的代表有光场技术(主要因Magic
Leap而显名)、全息投影(在科幻影视剧作品中常出现)等。
AR中的第三个关键技术在于人机交互,用以让人和叠加后的虚拟信息互动,AR追求在触摸按键之外自然的人机交互方式,比如语音、手势、姿态、人脸等,用的比较多的语音跟手势。
人工智能和AR的技术关联
在人工智能领域有几个概念常被提及,如深度学习(DL)、机器学习(ML),在学术领域包括人工智能(AI)在内几大领域均有自己的研究界限,而在普遍意义上,我们常说的是泛意的人工智能,涵括所有“让机器像人一样”的技术的应用方向。
从这张图也可以简单一窥三者的关系,深度学习是实现机器学习的一种技术方式,而机器学习是为了让机器变得智能,去达到人工智能。可以说人工智能是最终目标,而机器学习是为了实现这个目标延伸出的一个技术方向。在这其中,还有另一个重要概念为计算机视觉(CV),主要来研究如何让机器像人去“看”,是目前人工智能概念中的一个重要分支,这也是因为人类获取信息最主要的方式之一就是视觉,目前计算机视觉已经在商业市场发挥价值,比如人脸识别;自动驾驶中读取交通信号和注意行人以导航;工业机器人用来检测问题控制过程;三维环境的重建图像的处理等等。这些概念既有区分也有一定范围的重叠。
其中,2006年开始,Hinton引发的深度学习热潮开始蔓延,在一定程度上带动了AI的又一次崛起,十年中,在包括语音识别、计算机视觉、自然语言处理在内的多个领域取得重大突破,并向应用领域延伸,正发展的如火如荼。
在AR的核心技术中,3D环境理解、3D交互理解和计算机视觉、深度学习都有着紧密的联系。3D环境理解在学术界里主要对应的是计算机视觉领域,而近年来深度学习在计算机视觉中得到广泛应用。交互方面,更趋自然的交互方式如手势和语音在硬件终端的使用,得益于近几年深度学习在相关领域的突破。也可以说,深度学习在AR中应用主要在视觉关键技术。
目前,AR最常见的形式是2D图片扫描识别,如腾讯QQ-AR火炬活动、支付宝五福等多数AR营销中所见,用手机扫描识别图出现叠加的内容,但主要的研发方向还在3D物体识别和3D场景建模。
现实的物体是以3D形态存在的,有不同的角度和空间方位。所以一个自然的扩展就是从2D图片识别到3D物体识别,识别物体的类别和姿态,深度学习可以用在这里。以水果识别为例,识别不同类别的水果,并且给出定位区域,即集成了物体识别与检测的功能。
3D场景建模,从识别3D物体扩大到更大更复杂的3D区域。比如识别场景里面有哪些东西、它们的空间位置和相互关系等等,这就是3D场景建模,是AR比较核心的技术。这其中涉及目前热门的SLAM(实时定位与地图构建)。通过扫描某个场景,然后在上面叠加虚拟战场等三维虚拟内容。如果只是基于普通2D图像识别就需要有特定的图片,而在图片不可见时会识别失败。而在SLAM技术里面,即使特定平面不存在,但是空间定位依然非常精确,就是因为有周围3D环境的帮助。
这里想探讨下深度学习和SLAM技术的融合,计算机视觉大体上可以分两个流派,一种基于学习的思路,例如特征提取-特征分析-分类,目前深度学习技术在这一路线上取得了主导性的地位。另外一种路线是基于几何的视觉,从线条、边缘、3D形状推出物体的空间结构信息,代表性的技术就是SFM/SLAM。基于学习的方向上深度学习基本上一统天下,但是在基于几何视觉的领域,目前相关的进展还很少。从学术界而言,深度学习技术的研究进展可以说日新月异,而SLAM技术最新十年的进展相对较少。在国际视觉顶级会议ICCV
2015年度组织的SLAM技术专题讨论会上,基于近年深度学习在视觉其它领域的快速发展,有与会专家曾提出SLAM中采用深度学习的可能性,但是目前还没有成熟的思路。总体而言,短期内将深度学习和SLAM融合是一个值得研究的方向,长远来看联合语义和几何信息是一个非常有价值的趋势。因此,SLAM+DL值得期待。
在交互方式方面,主要的包括语音识别和手势识别,语音识别在目前已经取得了较大进展,国内如百度、科大讯飞、云知声等都是其中的佼佼者,AR公司更想突破的是手势识别的成熟商业化。
“亮风台展示过的一款基于深度学习的手势识别系统,主要定义了上下左右、顺时针、逆时针六种手势”亮风台工作人员告诉青亭网,先实现人手的检测和定位,然后通过识别相应的手势轨迹来实现对人手势的识别。虽然人脸识别等其他人工智能热门领域在AR中也有使用,但不是AR公司重要的研发方向。
以上不难看出,AR的底层技术或者说基础部分是计算机视觉以及关联领域的融合,而当下热门的深度学习和AR的结合,也是算法工程师们的努力方向。这也是AR为计算机视觉与人机交互的交叉学科,AR的基础是人工智能和计算机视觉等说法的依据。
20180528163858218.png
图:计算机视觉与AR流程关联
在去年今日头条发布的《人工智能影响力报告》中也简单统计了人工智能科学家的分布情况,这其中包括人脸识别、语音识别、机器人、AR、芯片等领域的公司与大型研发机构,高端研发人员的分布也说明了AI领域的细分方向。
那AR究竟是不是人工智能?
对AR从业者来说,理想的状态是用更智能的AR终端去取代智能手机,所以对于用户来说接触使用AR首先受影响的是内容,其次是终端,AR产业链可以粗略划分为技术提供商、智能终端研发公司,以及AR内容提供商。在这其中,AR设备提供商不可避免关注硬件技术,如底层的芯片、电池、光学镜片等,以及硬件本身的性能优化,而内容提供商更倾向于在现有技术基础上优化内容及表现。所以我们可以说AR技术提供商,或者说在底层算法研发上有一定成绩的AR公司是人工智能公司。
对公司来说,特别是创企会把底层技术转化为成熟的产品或服务,这可能是如无人机、AR智能终端、机器人等,也可能是行业解决方案,以达到商业目的,并且这已经成为在沸腾声音之后,媒体、企业以及大众对AI企业的期待和要求。近期,人工智能产业发展联盟(AIIA)出版的图书《人工智能浪潮:科技改变生活的100个前沿AI应用》将对外发布,以及涵括了目前巨头公司以及创企在商业化上的前沿成果,也直接反映了AI目前的主要商业化方向。
作为技术驱动的商业领域,无论是AR还是人工智能的其他多数方向,技术距离完全成熟还有很长的路程要走,在整个产业链逐渐繁荣,关注商业化实现的同时,也需要有更多公司机构去不断拓展技术边界,建立核心竞争力,让行业爆发更大的价值与潜力,如此,AI时代中国弯道超车当可期。
和空间计算做好友,什么才是AR/VR的未来?
比起当下成熟的智能手机市场,AR和VR仍然处于早期阶段。但当我们对技术了解得越深入,就会发现AR和VR未来具备着极大的潜力,这种潜力有助于开拓更多应用场景,同时反过来对于产品形态优化、产品体验提升都有着至关重要的作用。
从获取信息的角度来看,AR和VR是最贴近人类自然习惯的信息获取方式,它能沉浸式的显示图文、视频、甚至一个三维模型,虚拟物体可以融入到现实环境中来,身临其境的氛围和交互逻辑与智能手机完全不同。
那么具备如此多优势的AR和VR接下来会如何发展,未来是否又会诞生比AR和VR更重要的技术或应用呢?下面我们就带着大家来探究一下。
VR方面最明显的还是屏幕分辨率,如今主流VR头显的分辨率达到双目4K级别,如Oculus Quest 2,它比上一代多出50%像素,清晰度大有改观。结合多方因素,Quest 2不仅被更多人了解和认识,还成功引领了VR一体机市场生态的活跃。
Facebook全息 短焦VR原型机
光学方面VR正在朝着折叠光路(短焦光学)方向演进,目前包括松下VR、3Glasses X1等已采用短焦光学方案,其优势在于大幅缩小头显体积和重量。同时据了解,Facebook正研究将短焦光学与全息技术融合,让VR可以做到太阳镜般大小,相比现阶段的VR头显有巨大的提升,这种支持全天候佩戴的XR眼镜可以说是未来最值得期待的 科技 产品之一。因此,轻量化、小型化一直以来都是AR、VR的演进方向。
AR方面同样如此,适用于AR的微显示和光学方案仍在 探索 和进化中,例如Micro LED、激光等光源方案,全息显示、光波导等光学技术,包括苹果、谷歌、Facebook等行业巨头都在此领域持续投入。几乎可以肯定的是,随着显示和光学的升级,未来AR和VR的产品体验将更值得期待。
AR和VR的本质就是在与人和环境交互,因此面向人和环境的传感器也会越来越重要。例如,面向人类体验者的眼球追踪传感器,可以带来更自然的操控模式,还可以实现注视点渲染等好处,甚至未来还可以融合心率、肌电图、脑电图等生物传感器,今后的人机交互体验有大幅提升。面向环境的传感器如深度传感器或激光雷达等,可让设备轻松感知周围环境和深度,甚至实现三维建模,这对于AR遮挡来说极为重要,虚实融合的世界将变成现实。
综合来看,AR和VR硬件未来迭代方向有以下几点:高清化,视觉显示能力进一步提升;小型化,目标是轻量级、支持全天候佩戴;感知融合,加入更多传感器,提供接近人类习惯的使用体验等。
相对硬件的变化来说,生态和体验层面对于AR和VR来说更为重要,那么接下来又会有哪些玩法和新趋势呢?
几乎可以明确的是,AR和VR在融合AI、5G等技术的趋势上越来越深入,这一点在3月份的举行的一场混合现实demo day上能看到更多例证。该活动是德国电信旗下孵化器hubraum与高通、Nreal、Unity等公司联合举办,主题围绕空间计算展开,目的就是让人们看到“互联网的未来”。
eyecandy lab 体育 赛事AR增强效果
其中一个案例是用于增强电视的场景,eyecandy lab提出未来电视需要具备几个特点:社交属性、网络互联互通、沉浸式体验,结合AR技术可以很好的实现这几点。同时eyecandy lab列举了三个典型场景:通过AR同步显示电视中的3D地图,例如3D 体育 馆或3D的户外山峰,提高互动性同时为电视直播增加信息扩展能力;通过AR同步显示电视中显示商品的3D模型,实现家庭AR电商购物;通过AR为 体育 比赛增加AR特效,增强观看乐趣。仔细观察,在这些场景中充分利用了AI技术,如基于视觉的SLAM能力、基于视觉识别电视画面或展示的商品,3D空间音频,甚至语音识别,手势识别等。
虽然现在说AR/VR要取代智能手机还为 时尚 早,但这绝对是完全不同的两种体验。在智能手机上,我们获取信息只能通过2D屏幕,信息碎片化、孤岛化严重;而在AR/VR中我们将处于3D沉浸式的空间中,所有应用将以三维化方式呈现,你可以像现实中一样处理各种信息,这也就是所谓“空间计算”的概念。
简单来讲,空间计算就是未来我们工作和生活的一种虚实融合场景集合,未来我们可以看到其中几个主要的应用场景或特征:数字化身(全息化身)以及对应的社交和会议场景、三维化,更沉浸的电商购物场景、沉浸式话剧,影片,书籍等、增强电视观看体验、增强的沉浸式联机 游戏 场景、物体识别等。
vTime XR智能虚拟人
另一个案例是虚拟社交平台vTime XR,这是一个跨平台社交工具,自2019年开始就在 探索 AR社交玩法。在本次活动上展示了一个基于虚拟化身的AR社交环境,玩家佩戴AR眼镜即可直接和虚拟化身展开对话,虚拟化身拥有灵活的肢体动作、面部表情和眼球神态也比较真实,还可以基于AI更换虚拟化身及对应的音色,这让我们看到了AR会议、AR视频通话的潜在可能性。其中,5G技术对整个场景来说至关重要,例如虚拟化身传输,甚至未来还可以传输整个虚拟场景,让对话双方同时处于同一个虚拟可交互的场景中,高带宽、低延迟特性可以保证整个虚拟对话的连续和稳定性。
据青亭网了解,“空间计算”概念实际上集合了三项关键性技术:AR/VR、终端侧AI能力、5G技术。其中,AR/VR负责显示和交互部分,终端侧AI可完成环境与物体识别、手势和语音交互、眼球追踪等功能,5G可实现高带宽和低延迟的网络连接,从而为云XR铺路。
熟悉的朋友可能已经发现,“空间计算”描绘的场景和高通无界XR(Boundless XR)的理念不谋而合。
无界XR是高通在AR和VR领域分布式计算的前瞻性技术方案,它的优势在于可以让XR眼镜获得高质量图形渲染能力和高保真的视觉效果。它还可以充分利用好WiFi 6和5G网络的优势,在5G环境下直连边缘云服务器,WiFi 6环境下实现云端和本地的分离式渲染。
如前文提到,AR/VR设备正朝着小型轻量化趋势演进,用户对产品重量、佩戴体验、发热量等要求变得提高,同时随着显示分辨率提高、传感器数量提升,硬件层面也就需要更大的算力来支撑。
然而,AR和VR眼镜在既需要轻量化,更好的佩戴体验和散热能力,同时又想要更大的算力,这在追求小体积的AR和VR中难以实现,并且这种矛盾也越发明显。虽然现阶段可以通过分体式设计来解决,但仅能作为过渡阶段使用。而一个基于5G网络的分布式云端渲染方案,或将成为未来轻量化AR和VR设备的最佳选择。
作为AR、VR芯片和解决方案的上游厂商,高通已提前预料到这一点,无界XR推出的目标也正是解决这些局限和矛盾。
高通中国区XR业务负责人郭鹏此前向青亭网表示:我们最开始做无界XR理念规划时,长期目标就是基于5G进行云端渲染,现阶段可能是基于5GHz或6GHz的Wi-Fi来实现本地连接,但基于5G技术的无界XR是我们未来规划的重点。
在5G网络和云渲染等技术成熟之前,本地无线串流就是最好的方式。Oculus Quest 2等作为首批无界XR设备,让众多玩家率先体验到无界XR的优势。Oculus Air Link无线串流功能可以让VR一体机玩家更灵活、更便捷的体验到本地PC VR内容,各大bbs上玩家们对该功能讨论的热烈程度也代表了它足够受欢迎。
对于那些没有高性能PC的玩家来说,就无法体验到这些优势了吗?可能你也会有疑问:VR一体机的优势不就是独立工作、无拘无束的使用吗?
是的,而无界XR的目标也正是如此。正如郭鹏所讲,基于5G技术的无界XR才是高通在XR业务上的未来愿景。通过5G网络和云端渲染技术,玩家们既可以获得高质量画面,还可以体验到更丰富的PC VR 游戏 ,更无需借助PC。而这个过程本质就是分离式渲染,把显示和交互放到XR终端,把重型的计算和渲染交给云端,这样就能把5G网络大带宽和低延迟能力、本地AI能力和云端渲染能力等各自的优势共同发挥出来。
由此可见,未来的AR和VR设备在越来越轻便的同时,还能够完成更复杂的任务,这是以往是难以实现的一次巨大升级。随着互联网从智能手机的2D屏幕向AR、VR等三维化的空间计算演变,一个虚实融合、人人可用的空间计算网络将遍布在我们身边,而高通正是希望通过无界XR帮助每个个体更好的向空间计算完成过渡。
科普知识:AR、VR、AI、MR、CR
科普知识:AR、VR、AI、MR、CR
VR ( Virtual Reality ),虚拟现实
首先说说这个VR,VR就是虚拟现实,虚拟现实技术是一种可以创建和体验虚拟世界的计算机仿真系统它利用计算机生成一种模拟环境是一种多源信息融合的交互式的三维动态视景和实体行为的系统仿真使用户沉浸到该环境中。VR掀起的*R技术,将人类带入了『三维』信息视角,通过*R技术,我们全角度来观看这个世界的数字记录,看新闻、看比赛、看电影、看美女……数字世界与物理世界的便捷在AR技术(增强现实)的加持下,被模糊掉了,我们处在一个比特与原子世界混肴的世界。这将彻底颠覆我们获取信息、产生信息、与世界交互、进行生产诸多方式,就像计算机曾经改变世界的那样,听上去让人振奋。VR消费类设备现可分为三类:需要配合电脑的头戴式设备代表为Oculus Rift,尚未商用;投射手机内容的VR转换支架,代表有暴风魔镜、CardBoard;自带主机无需电脑手机等外设的VR一体机。还有专业的VR内容生产设备例如Nokia OZO。
AR(Augmented Reality),增强现实
AR就是增强现实,增强现实技术(Augmented Reality,简称 AR),是一种实时地计算摄影机影像的位置及角度并加上相应图像、视频、3D模型的技术,这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。这种技术由1990年提出。随着随身电子产品CPU运算能力的提升,预期增强现实的用途将会越来越广。最典型的AR设备是Google Glass(中国对应是BaiduEye),当你盯着某个餐厅,就帮你检索相关信息并显示,当你盯着某个美女,就显示其三围,类似于这样的应用。如果我们用手机拍照之后再进行图像搜索或者进行PS操作算AR吗?
VR和AR的区别:
简单来说,虚拟现实(VR),看到的场景和人物全是假的,是把你的意识代入一个虚拟的世界。增强现实(AR),看到的场景和人物一部分是真一部分是假,是把虚拟的信息带入到现实世界中。
交互区别:
VR设备:因为VR是纯虚拟场景,所以VR装备更多的是用于用户与虚拟场景的互动交互,更多的使用是:位置跟踪器、数据手套(5DT之类的)、动捕系统、数据头盔等等。
AR设备:由于AR是现实场景和虚拟场景的结合,所以基本都需要摄像头,在摄像头拍摄的画面基础上,结合虚拟画面进行展示和互动,比如GOOGLE GLASS这些(其实严格的来说,IPAD,手机这些带摄像头的只能产品,都可以用于AR,只要安装AR的软件就可以。)
MR(Mix Reality),混合现实
MR定义是:将真实世界和虚拟世界混合在一起,来产生新的可视化环境,环境中同时包含了物理实体与虚拟信息,并且必须是“实时的”。MR的两大代表设备就是Hololens与Magic Leap。混合现实(Mix reality,简称MR),既包括增强现实和增强虚拟,指的是合并现实和虚拟世界而产生的新的可视化环境。在新的可视化环境里物理和数字对象共存,并实时互动。
系统通常采用三个主要特点:
1.它结合了虚拟和现实;
2. 在虚拟的三维(3D注册);
3. 实时运行。
CR(Cinematic Reality),影像现实
这是Google投资的Magic Leap提出的概念,主要为了强调与VR和AR技术的不同,同样,其自认为与MR也不同,实际上理念是类似的,均是模糊物理世界与虚拟世界的便捷,所完成的任务、所应用的场景、所提供的内容,与MR产品是相似的。CR的核心在于,通过光波传导棱镜设计,Magic Leap从多角度将画面直接投射于用户视网膜,从而达到“欺骗”大脑的目的。就是说,有别于通过屏幕投射显示技术,通过这样的技术,实现更加真实的影响,直接与视网膜交互,解决了Hololens视野太窄或者眩晕等问题。
AI是人工智能,而非穿戴设备。人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。
人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。
人工智能是一门极富挑战性的科学,从事这项工作的人必须懂得计算机知识,心理学和哲学。人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等,总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。但不同的时代、不同的人对这种“复杂工作”的理解是不同的。