您当前的位置:华夏生活网行业资讯正文

2D图片3秒变立体视角流畅自然这是什么黑科技

2019-09-17 21:33:45  阅读:7182+ 作者:责任编辑NO。石雅莉0321

来历丨量子位(ID:QbitAI)

作者丨鱼羊 栗子 乾明 发自 凹非寺

你离礁石越来越近,似乎还有一秒就要触礁了。

不过这张动图,并不是从人类拍照的视频里截下来的。

是Adobe放出的新魔法,把这张静态相片变出了立体感,整个进程只需求2-3秒:

这种特效处理,常常用于纪录片等视频的后期制造,名为Ken Burns Effect。

本来仅仅2D缩放 (下图左) ,经过对静止图画的平移和缩放,来发生视差,然后完结动画作用。

但Adobe这种3D作用 (上图右) ,不只有平移和缩放,还有视角转化,给人更沉溺的体会。想要完结,需求专业的设计师在Photoshop等软件中花费数个小时时刻。

而且制造本钱也很高,一张相片大约需求40-50美元 (约合人民币280-350元) 。Adobe也登上了ACM主办的计算机图形学尖端期刊TOG,引发了许多评论与重视。不乏有激动的网友给出“三连”:

Incredible. Amazing. Holy shit.

彻底不是简略的缩放

透视原理决议,远景比布景的移动/缩放更剧烈。所以,远景移动的时分,布景除了移动,也要跟着修正。AI的布景修正十分天然,办法显着比“长辈”更高明:

形状有点古怪的教堂

而且,不管布景简略杂乱,AI都不怕。比方,走到沙发跟前,沙发就挡住了后边窗野外的草地:

布景的色彩和结构都很杂乱,但AI并没有遮盖。

假如你觉得,方才的视角改变仅仅由远及近,不行杂乱。那就看一眼这陈旧的台阶吧:

似乎你方案走上台阶,所以正在朝着它的方向,渐渐回身。

除此之外,一条陈旧的走廊,你置身其间,如同正在从上仰的视角,变得平视前方。

当然,不只仅景色,人像也可以处理。

比方,草地上的新娘,可以远观,也可以近距离赏识:

就像最初说的那样,一切的改换,只靠一张静态图来完结。

这天然不是一般的缩放可以做到的:

左为一般缩放,右为3D魔法

所以,究竟是怎样的技能做到的?

三步定鸿沟,结合上下文感知

用单个图画组成传神的相机移动的作用要处理两个基本问题。首要,要设置一个新的相机方位,组成新视图,而且需求准确地康复原始视图的场景几许结构。其次,根据猜测的场景几许结构,要将新视图在接连的时刻线上组成,这就涉及到去遮挡这样的图画修正手法。

研讨人员们用了三个神经网络来构建处理结构。

用以练习的数据集是用计算机生成的。研讨人员从UE4 Marketplace2收集了32种虚拟环境,用虚拟摄像机在32个环境中捕获了134041个场景,包括室内场景,城市场景,村庄场景和天然场景。每个场景包括4个视图,每个视图都包括分辨率为512×512像素的色彩、深度和法线贴图。

指定一张高分辨率图画,首要根据其低分辨率版别估量粗糙深度。这一步由VGG-19来完结,根据VGG-19提取的语义信息辅导深度估量网络的练习,并用具有ground truth的计算机组成数据集进行监督。如此,就能提取出原始图画的深度图。

第二个网络,是Mask R-CNN。为了防止语义失真,平行于VGG-19,用Mask R-CNN对输入的高分辨率图画进行切割,然后用切割的成果来对深度图进行调整,以保证图中的每个目标都映射到一个相干平面上。

最终,运用深度细化网络,参阅输入的高分辨率图画,对提取出的粗糙深度进行上采样,保证深度鸿沟愈加准确。

之所以要选用深度细化网络,是由于裁切目标的进程中,目标很可能在鸿沟处被扯开。

有了从输入图画取得的点云和深度图(注:点云指经过3D扫描得到的物品外观外表的点数据调集),就可以烘托接连的新视图了。

不过,这儿又会出现一个新的问题——当虚拟摄像机向前移动的时分,目标自身会发生裂隙(下图中高塔右侧像被网格切开了)。

为了处理这个问题,研讨人员采取了结合上下文感知修正的办法。

结合上下文信息可以发生更高质量的组成视图。上下文信息划定了相应像素在输入图画中方位的邻域,因而点云中的每个点都可以运用上下文信息来进行扩展。

详细而言,榜首步,是进行色彩和深度图画修正,以从不完好的烘托中康复出完好的新视图,其间每个像素都包括色彩,深度和上下文信息。

然后,运用图画修正深度,将图画修正色彩映射到点云中新的色彩点。

重复这一进程,直到点云充沛扩展,添补空地,可以实时地出现完好且接连的画面。

“用过都说好”

研讨人员觉得好,那不算好。新办法作用怎么,仍是用户说了算。

所以,研讨团队搞出了一个“非正式用户调研”。他们在YouTube上搜集了30个人类发明的3D Ken Burns视频,将其分红“景色”,“肖像”,“室内”,“人工室外环境”四组,每组随机抽取三个视频作为样本。

8位志愿者参加到了这个测验之中。团队为每个志愿者分配了一张静态图,并供给了人类著作作为参阅,要求志愿者运用新办法和Adobe After Effects模板、移动App Viewmee这两种Ken Burns制造东西创造相似的作用。

志愿者会根据自己的片面定见点评每种东西的可用性和质量。

在志愿者们看来,不管是从作用上,仍是易用性上,Adobe的这个新东西明显好得多。

来自Adobe的实习生(现已转Google)

这项研讨的榜首作者,是一名波特兰州立大学的博士生,名为Simon Niklaus,研讨方向为计算机视觉与深度学习。

他在Adobe Research实习的时分完结了这项作业,现在他正在Google实习。

他的博士生导师,名为Feng Liu,博士结业于威斯康辛大学麦迪逊分校,现在是波特兰州立大学的助理教授,也是这一研讨的做作者之一。

此外,这项研讨还有别的两名作者,分别是Long Mai和Jimei Yang,都是Adobe的研讨科学家。

Simon Niklaus在Hacker News上与网友互动时也谈到了研讨的开源方案。他说,自己方案发布代码以及数据集,但还没有得到赞同。由于这项作业是“实习生”完结的, Adobe在开源方面都比较大度。

当然,这也无法扫除他们商业化的可能性,假如你对这一研讨感兴趣,可以先看下研讨论文:

3D Ken Burns Effect from a Single Image

论文传送门:https://arxiv.org/abs/1909.05483

主页传送门:http://sniklaus.com/papers/kenburns

One more thing……

关于Ken Burns Effect,也有一段乔布斯的往事。

为了将这一特效用到苹果中,乔布斯还特地联络了Ken Burns,期望可以得到他的答应。一开始,Burns是回绝的,他不想自己的姓名被商业化。但后来,Burns泄漏,他赞同了乔布斯的恳求。

这中心究竟发生了什么,也没有太多信息传递出来。

现在,这一效应在iPhone中使用十分广泛,比方相片的“回想”功用,就可以主动运用这一特效,把一张张相片制造成视频。

这也给Burns带来了许多“费事”。他说,有时分自己走在街上,会有陌生人冲到他面前,说自己怎么在iPhone上运用它,或者是问他问题。

关于这种状况,他说自己都是极力快速逃离现场。跟明星遇上私生饭差不多。

emmm……

本文经授权转载自量子位(ID:QbitAI),如需二次转载请联络原作者。

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!