返回顶部
关闭软件导航
位置:首页 > 资讯 > 电商资讯>阿里达摩院1秒替换直播背景像素级视频分割如何实现
阿里达摩院1秒替换直播背景像素级视频分割如何实现

计算机视觉领域的AI顶会CVPR2020刚刚落下帷幕,与往年更专注图片识别不同,学术界和工业界的研究方向逐渐转向了更难的视频分割和三维视觉等领域。本次,阿里巴巴拿下了四项比赛的世界冠军,其中就包括CVPR2020的DAVIS视频目标分割比赛,本文将具体解读这项冠军技术背后的原理。

与图像识别不同,AI分析理解视频的技术门槛较高。长期以来,业界在视频AI技术的研究上鲜有重大突破。以CVPR会议难度很高的比赛之一DAVIS(DenselyAnnotatedVideoSegmentation)为例,该比赛需要参赛团队精准处理复杂视频中物体快速运动、外观变化、遮挡等信息,过去几年,全球高级科技在该比赛中的成绩从未突破80分,而达摩院的模型很终在test-challenge上取得了84.1的成绩。

DAVIS的数据集经过精心挑选和标注,视频分割中比较难的点都有体现,比如:快速运动、遮挡、消失与重现、形变等。DAVIS的数据分为train(60个视频序列),val(30个视频序列),test-dev(30个视频序列),test-challenge(30个视频序列)。其中train和val是可以下载的,且提供了每一帧的标注信息。对于半监督任务,test-dev和test-challenge,每一帧的RGB图片可以下载,且第一帧的标注信息也提供了。算法需要根据第一帧的标注mask,来对后续帧进行分割。分割本身是instance级别的。

阿里达摩院提供了一种全新的空间约束方法,打破了传统STM方法缺乏时序性的瓶颈,可以让系统基于视频前一帧的画面猜测目标物体下一帧的位置;此外,阿里还引入了语义分割中的精细化分割微调模块,大幅提高了分割的精细程度。很终,精准识别动态目标的轮廓边界,并且与背景进行分离,实现像素级目标分割。

达摩院的算法基于去年CVPR的STM做了进一步改进。STM的主要思想在于,对于历史帧,每一帧都编码为key-value形式的feature。猜测当前帧的时候,以当前帧的key去和历史帧的key做匹配。匹配的方式是non-local的。这种non-local的匹配,可以看做将当前key,每个坐标上的C维特征,和历史每一帧在这个坐标上的C维特征做匹配。匹配得到的结果,作为一个soft的index,去读取历史value的信息。读取的特征和当前帧的value拼接起来,用于后续的猜测。

STM的特征匹配方式,提供了一种空间上的长依靠,类似于Transformer中,通过self-attention来做序列关联。这种机制,能够很好地处理物体运动、外观变化、遮挡等。但也有一个问题,就是缺乏时序性,缺少短时依靠。当某一帧忽然出现和目标相似的物体时,简单产生误召回。在视频场景中,很多情况下,当前帧临近的几帧,对当前帧的影响要大于更早的帧。基于这一点,达摩院提出依靠前一帧结果,计算attention来约束当前帧目标猜测的位置,相当于对短期依靠的建模。

具体的方法如下图所示:

下图为空间attention的可视化结果,可以看到大致对应了前景的位置。

达摩院引入了语义分割中的感受野增强技术ASPP和精细化分割的微调(refinement)模块。ASPP作用于memory读取后的特征,用于融合不同感受野的信息,提升对不同尺度物体的处理能力。

阿里达摩院1秒替换直播背景像素级视频分割如何实现1

达摩院提出了一个简单但是有效的练习策略,减少了练习阶段和测试阶段存在的差异,提升了很终效果。

原始STM练习时,会随机从视频中采样3帧。这三帧之间的跳帧间隔,随着练习逐渐增大,目的是增强模型鲁棒性。但达摩院发现,这样会导致练习时和测试时不一致,因为测试时,是逐帧处理的。为此,在练习的很后阶段,达摩院将跳帧间隔重新减小,以保证和测试时一致。

backbone:达摩院使用了ResNeST这个比较新的backbone,它可以无痛替换掉原STM的resnet。在结果上有比较明显提升。

测试策略:达摩院使用了多尺度测试和modelensemble。不同尺度和不同model的结果,在很终猜测的map上,做了简单的等权重平均。

显存优化:达摩院做了一些显存优化方面的工作,使得STM在多目标模式下,可以支持大尺度的练习、测试,以及支持较大的memory容量。

数据:练习数据上,达摩院使用了DAVIS、Youtube-VOS,以及STM原文用到的静态图像数据库。没有其他数据。

达摩院的模型,很终在test-challenge上取得了84.1的成绩。

在test-dev上的消融实验。达摩院复现的STM达到了和原文一致的结果。在各种trick的加持下,得到了11个点的提升。

随着互联网技术、5G技术等的发展,短视频、视频会议、直播的场景越来越多,视频分割技术也将成为不可或缺的一环。比如,在视频会议中,视频分割可以正确区分前背景,从而对背景进行虚化或替换;在直播中,用户只需要站在绿幕前,算法就实时替换背景,实现一秒钟换新直播间;在视频编辑领域,可以辅助进行后期制作。

Reference:

阿里达摩院1秒替换直播背景像素级视频分割如何实现2
如果您觉得 阿里达摩院1秒替换直播背景像素级视频分割如何实现 这篇文章对您有用,请分享给您的好友,谢谢
文章地址:https://www.tianxianmao.com/article/online/8956.html
解放双手无尽可能,有问题添加天线猫微信