ACL20｜MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning

背景

腾讯AI Lab主导，与美国北卡罗来纳大学教堂山分校（UNC）合作完成。提出了一种增强视频描述生成的连贯性的循环Transformer结构MART，使用记忆存储单元增强transformer架构，实现递归模型。这个记忆存储单元从视频片段和句子历史记录，生成高度汇总的记忆state，帮助预测。实验证明，MART可以产生更连贯、没有重复、具有相关性的文本。
paper：https://www.aclweb/anthology/2020.acl-main.233.pdf
github：https://github/jayleicn/recurrent-transformer
TVCaption：https://github/jayleicn/TVCaption（ECCV2020）
Video：https://slideslive/38929078/mart-memoryaugmented-recurrent-transformer-for-coherent-video-paragraph-captioning

Xiong2018 使用LSTM hidden states对之前生成的文本进行建模传递到解码阶段
Park2019 (AdvInf) 对LSTM进行改进，使用三个鉴别器衡量相关性、文本多样性和连贯性
Zhou2018第一次使用Transformer解决video paragraph captioning任务（baseline）
Dai2019 (transformer-xl) 定义context fragmentation问题，认为是没有上下文视频输入因此没有长时间依赖造成的不连贯/重复，所以加了循环。与之相比，本文MART使用memory能更有效地传递语义线索给未来的句子。

Vanilla transformer

MART（left） transformer-XL（right）

Vanilla transformer：N encoder layers N decoder layers，每层encoder都把上一层的隐状态作为输入然后做self-attention，输出用一个前馈网络映射，每层decoder用masked multi-head attention编码上一层隐状态。每层encoder、decoder都用了餐叉链接和layer-normalization。缺点：encoder和decoder是分离的。
MART：type embedding vectors表征输入token是video还是text的。position embedding只编码text token positions用于生成单词和计算loss。然后编码器和解码器是一起的，Memory Updater的公式：

输入是当前segment的hidden state和之前memory state，输出是当前memory state。其中，C是Cell State，Z是Update Gate，决定是否保留memory state。圆圈是Hadamard product。结构跟LSTM非常相似。

Dataset：ActivityNet Captions和YouCookII，其中Anet的val一个segment对应2个paragraph，被分为两个部分，2460 for val，2457 for test。
Feature：用的masked transformer的，2fps， Zhou2018 provided，如下两部分normalized and concatenated
- 2048D RGB ImageNet image recognition feature from flatten-673 in ResNet-200。
- 1024D ActivityNet action recognition feature from global pool layer iof BN-Inception。
预处理：video 100 text 20 长度。anet 6 yc2 12 视频分段。单词至少出现5次in anet 3次in yc2，最终词典分别3544和992words。

Standard metircis：BLEU@4 ，METEOR，CIDEr-D （Higher = better）
Repetition：R@4，degree of N-gram (N=4) repetition in a paragraph （ Less = better）

结论：transformer比lstm提升了一点性能，本文使用MART比Transformer-XL方法生成的文本更连贯、没有重复性，说明更能解决长时间依赖问题，是dense video captioning的sota。

更多推荐

ACL20｜MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph