Attention-guided Temporally Coherent Video Object Matting

（注意引导的时间相干视频对象抠图）

论文下载地址

论文下载地址 .

代码下载地址

代码下载地址.

摘要：他的论文提出了一种新的基于深度学习的视频对象抠图方法，可以实现时间相干抠图结果。其关键组件是一个基于注意力的时间聚合模块，该模块可以最大限度地提高图像抠图网络在视频抠图网络中的实力。该模块计算特征空间中相邻像素在时间轴上的时间相关性，对运动噪声具有鲁棒性。我们还设计了一种新颖的训练注意力权重的方法，大大提高了视频匹配性能。此外，我们展示了如何有效地解决trimap生成问题，通过微调一个最先进的视频对象分割网络与用户标注的关键帧的稀疏集。为了方便视频抠图和trimap生成网络的训练，我们构建了一个大规模的视频抠图数据集，包含80个训练和28个验证前景视频剪辑，使用ground-truth alpha mattes。实验结果表明，该方法可以对各种具有外观变化、遮挡和快速运动特征的视频生成高质量的alpha mattes。

鲁棒性：指控制系统在一定（结构，大小）的参数摄动下，维持其它某些性能的特性。
alpha mattes解释.
trimap.

贡献：（1）提出了一个时间聚合模块集成图像抠图网络实现时间相干视频席子的结果。它利用了注意力机制为了计算特征空间中的时间亲和值，产生了一个鲁棒的抠图方法来处理具有挑战性的视频具有外观变化，遮挡，和快速运动。（2）提出了一种基于stm的trimap生成方法大大提高了视频抠图的效率。用户只需要在几个关键帧注释trimaps生成
Trimap为每个视频帧.（3）为了使视频对象抠图和trimap生成networks training，构建了一个视频对象抠图数据集，称为VideoMatting108，涵盖各种对象和不同类型的运动。数据集总共有108个前景视频剪辑与地面真相阿尔法哑光，全部1080p分辨率，平均每段821帧的数据集将公开提供。

CSDN参考:本次研究，提出全新的基于深度学习的视频目标抠图方法，可以实现时间上的连贯抠图结果。关键部分是一个基于注意力的时间聚合模块，可以最大限度地发挥图像抠图网络对视频抠图网络的作用。该模块计算了特征空间中沿时间轴彼此相邻像素的时间相关性，以便对运动噪声具有鲁棒性。还设计一个新的损失项来训练注意力权重，极大地提高了视频抠图的性能。
另外还解释了如何通过用一组稀疏的用户标注的关键帧来微调最先进的视频物体分割网络来有效解决 trimap generation 问题。
实验结果表明，所提出方法可以为各种具有外观变化、遮挡和快速运动的视频生成高质量的 alpha mattes。

更多推荐

Attention-guided Temporally Coherent Video Object Matting论文总结