视频新技术成就美好世界梦想

发布时间:2020-08-02 22:27:51

视频新技术成就美好世界梦想

/ 牛新志

【期刊名称】海峡科技与产业

【年(),期】2013(000)006

【总页数】5

【文献来源】https://www.zhangqiaokeyan.com/academic-journal-cn_technology-industry-across-straits_thesis/0201241207605.html

2012928日,由好莱坞华人导演李安执导的首部3D电影《少年派的奇幻漂流》在纽约电影节全球首映,同年1122日在中国正式上映,首周末票房快速攀升,四天票房累计超过一个亿。李安更是凭借《少年派的奇幻漂流》获得第85届奥斯卡最佳导演奖、最佳摄影奖、最佳视觉效果奖和最佳原创音乐奖4项奖项,成为两次问鼎奥斯卡大奖的唯一的华人导演,引起全世界华人的振奋和自豪!影片展现了冒险、生存、希望、惊奇,给予观众灵性和信念,这得力于令人震撼的3D画面。李安表示,这部电影不仅是3D的艺术片,更将水、小孩、动物这电影界公认最难拍的三大元素一网打尽并放到了一起。李安成就的辉煌,再次点燃了人们对3D电影的狂热。

国际3D电影热,期待我国3D技术新突破

回想起3年前3D电影《阿凡达》在全球包括在中国引起的轰动,3D电影以其立体逼真、身临其境的震撼效果,使人刮目相看。自《阿凡达》后,各种3D大片活跃在荧屏上,但大多数是通过后期立体转换而来,立体效果普遍不佳,被斥为3D”那是因为从二维到三维的视频转化技术不成熟,呈现的三维画面不够真实,没有表现出应有的3D效果。

我国视频技术研究专家、浙江大学计算机学院副教授章国锋指出:《阿凡达》是采用3D技术拍摄的,还有很多电影比如3D版的《泰坦尼克号》则是利用后期处理技术将其从二维转为三维的。视频立体化技术直接影响3D电影的视觉效果。视频三维立体化已是大势所趋,是数字媒体产业的下一核心技术竞争点,产业前景巨大。章国锋博士及他的团队的研究正是为了提供更成熟的3D技术,让人们享受到更完美的3D画面。

章国锋,1981年生,博士,浙江大学副教授。2003年毕业于浙江大学计算机系,20096月获浙江大学计算机应用专业博士学位。同年7月在浙江大学计算机学院做博士后,20119月博士后出站并留校,2011年底被评为副教授。主要研究方向为摄像机跟踪、三维重建、增强现实、视频分割与编辑等方面。其博士论文《视频场景的重建与增强处理》获2010年度计算机学会优秀博士学位论文奖,教育部和国务院学位委员会评定的2011年度全国百篇优秀博士学位论文奖。近年来在国际著名期刊(IEEE TPAMIIEEE TVCG 机视觉领域三大国际会议(CVPR,ICCV, ECCV)上发表了十多篇高水平论文。尤其在摄像机跟踪与三维重建方面的研究取得了一系列重要成果,已经在国内外有较大影响力。

在博士后期间,他顺利获得国家自然科学基金青年项目的资助,研究如何从拍摄的视频数据中恢复出高质量的深度和三维几何模型,以解决实际应用遇到的一些问题。在国家自然科学基金青年项目结题之际又顺利获得了青年科学基金-面上项目的连续资助,同时承担了一项国家科技支撑计划项目的子课题。

从图像、视频数据中重建出实际场景的三维模型,是计算机视觉领域的基本问题,在虚拟现实、增强现实、机器人视觉导航、模拟仿真和影视娱乐等领域有着广泛的应用前景。但目前以多视图立体为代表的三维重建方法,在精度、规模和效率上都遇到不同程度的瓶颈,难以满足一些高端应用需求。针对这些问题,章国锋在其青年基金项目中成功研发了一套完整的基于密集图像、视频采样的三维重建框架,后续拟结合各种自动和交互技术来研究如何将实拍的二维视频高效地转换成三维立体视频,并搭建起一套完整的视频三维立体化系统,可以处理各种类型的视频三维立体化转换,以满足日益高涨的3D视频需求。

如果技术足够成熟,我们可以通过对场景拍照就能准确地构建出其三维几何模型。除了视频三维立体化,这些技术还可以用在三维城市建模、机器人视觉导航、模拟仿真等多个领域。章国锋博士满怀信心地设想着。

章国锋团队研究成果简介

随着信息获取与处理技术的飞速发展,如何利用计算机技术高效逼真地表达虚拟和真实的世界,实现二者的高度互动和融合,已经成为一个非常重要的研究课题。一方面,处理对象复杂程度的日益提高,使得采用正向三维建模并进行绘制的方式在真实性、计算效率和交互的自然性等方面遇到了巨大的挑战;另一方面,实拍的影像数据虽然直接呈现了真实世界的外观,但由于不直观地反映实际场景的三维结构和层次信息,导致计算机难以准确自动地理解实际复杂场景。因此,如何对影像数据进行深层次的信息挖掘,恢复其三维几何结构、运动和层次等信息就成了解决诸多问题的关键。

基于上述研究背景,近几年来深入研究了视频场景的三维几何重建、运动恢复与层次分割等问题,充分利用视频序列中信息的连贯性和冗余性,借助视频场景的关键帧表达和多帧信息统计互补的创新思路,提出了一个高效鲁棒的全局优化计算框架,有效解决了摄像机参数、深度和光流等信息的高精度恢复以及视频场景的层次分割等难题,为城市三维建模、混合现实、机器人视觉导航和仿真模拟等重要应用奠定了基础。其主要研究成果可以概括为以下三个方面:

1.基于视频的摄像机自动跟踪定位

传统的摄像机的自动跟踪定位方法在处理规模、计算效率和稳定性等方面都存在不同程度的瓶颈,这严重阻碍了其在实际问题上的应用。经过多年的努力,课题组成功研发了一套基于视频序列的摄像机自动跟踪系统,采用基于关键帧的求解框架,并通过优化关键帧求解次序、最佳自定标时机选择以及集束调整局部化等策略,极大地提高了焦距变化的长序列的求解稳定性和计算效率。

此外,为了解决循环回路序列和大尺度场景的高精度摄像机定位问题,还提出了一个高效的非连续特征跟踪方法,不但能有效延长特征点跟踪寿命,而且还能快速地将分布在不同视频序列的公共特征点匹配起来,从而可以将不同视频序列恢复的三维结构注册到同一个三维坐标系下。在此基础上还提出了一个基于分段的运动推断结构技术,可以在有限内存情况下对整个场景的三维结构和摄像机进行全局高效地优化,从而快速消除误差累积和重建漂移问题。如图1(a)所示,绕着某个小区拍摄的十几段视频序列在恢复了场景的三维结构和摄像机运动轨迹之后注册到同一个三维坐标系下,并最终叠加到谷歌地图上。另外,通过在离线预处理中对场景进行关键帧简化表达,并结合在线的关键帧快速识别与匹配,实现了街道规模级别下的摄像机在线实时跟踪定位和增强现实,如图1(b)所示。

这些研究成果分表发表在计算机视觉会议CVPR 2007ICCV 2009ECCV 2010上。开发的摄像机自动跟踪系统ACTS20097月底在网上发布(http://www.zjucvg.net/acts/acts.html),供大家免费使用,受到了国内外同行的广泛关注和好评。该系统已经更新到V2.0版本,目前已经有超过一千名的注册用户下载使用。该系统已经成为课题组诸多研究工作的基础平台。

2.稠密深度恢复与三维重建

为了能从实拍的视频数据中恢复出高质量的深度信息,基于多帧信息统计互补的思想,创造性地提出了一个基于集束优化的稠密视频深度恢复算法,有效克服了噪声、遮挡和误差对深度恢复的影响,很好地解决了深度恢复的时空一致性和边界瑕疵等问题,如图2(a)所示。该项研究成果最初发表在计算机视觉会议CVPR 2008 上作为大会宣读论文(录取率4%),其扩展版发表在计算机视觉和模式识别领域的著名期刊IEEE Transactions on Pattern Analysis and Machine Intelligence上(影响因子4.908)。这方面工作目前累计已被他引超过100次。

针对动态场景,分别提出了基于三目摄像机和基于多个自由移动的同步摄像机的时空一致性深度恢复方法,比传统方法更为方便灵活,而且成本更小(图2b))。还特别针对含有多个刚性运动物体的序列,提出了一个多体立体匹配深度恢复方法,可以将多个刚性运动物体自动分割出来并同时恢复其深度(图2c))。这方面的工作分别发表在计算机视觉顶级会议CVPR 2012ECCV2012ICCV 2011上。课题组还提出了一个新的视频对象三维运动迁移技术,无需借助特殊运动捕捉设备,只需一个手持的摄像机就可以将视频物体的运动抽取出来作用到一个指定的三维模型上,生成三维模型动画(图2d))。该项工作发表在国际著名期刊IEEE Transactions on Visualization and Computer Graphics上。

3.单目视频立体化、时空一致性视频分割与视频编辑

基于摄像机自动跟踪技术研发了一个自动高效的无需稠密三维恢复的单目视频立体化技术,极大便利了立体视频的创作。通过创造性地将视频立体化问题转化为一个非线性能量优化问题,并对立体感、相似度和光滑度进行综合优化,实现了无需稠密三维恢复的单目视频到立体视频的自动转化。该项研究成果发表在国际著名期刊IEEE Transactions on Visualization and Computer Graphics上,并曾在国家十五科技重大创新成就展上展出。

在视频分割方面,提出了一个新的运动前景抽取方法,通过鲁棒的深度和运动估计来实现对运动前景的有效抽取,并且估计出整个场景的光流信息和背景的深度信息(图3a))。该研究成果发表在计算机视觉和模式识别领域的著名期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(影响因子4.908)。此外,基于深度恢复,还提出了一个时空一致性视频分割方法,可以将输入的视频序列分割成一堆时空分割块,每个分割块在序列上具有高度的时空一致性。基于分割结果,还可以实现多帧深度图的三维网格拼接,从而实现大尺度场景的高精度三维重建(图3b))。

基于深度恢复和视频分割技术研发了一个半自动的视频再创作技术框架,可以将各种视频资源有效地利用起来,并解决了基于视频的混合现实创作中所面临的几何一致性、光照一致性和遮挡一致性等问题。该系统提供了一系列的视频特效制作功能(如图4所示),有效增加了视频编缉的手段和多样性。该项工作发表在国际著名期刊IEEE Transactions on Visualization and Computer Graphics上。

【文献来源】https://www.zhangqiaokeyan.com/academic-journal-cn_technology-industry-across-straits_thesis/0201241207605.html

视频新技术成就美好世界梦想

相关推荐