文章目录

    • 背景
    • Motivation
    • Related Work
    • Approach
    • Data
    • Metrics
    • implementation details

背景

  • 腾讯AI Lab主导,与美国北卡罗来纳大学教堂山分校(UNC)合作完成。提出了一种增强视频描述生成的连贯性的循环Transformer结构MART,使用记忆存储单元增强transformer架构,实现递归模型。这个记忆存储单元从视频片段和句子历史记录,生成高度汇总的记忆state,帮助预测。实验证明,MART可以产生更连贯、没有重复、具有相关性的文本。
  • paper:https://www.aclweb/anthology/2020.acl-main.233.pdf
  • github:https://github/jayleicn/recurrent-transformer
  • TVCaption:https://github/jayleicn/TVCaption(ECCV2020)
  • Video:https://slideslive/38929078/mart-memoryaugmented-recurrent-transformer-for-coherent-video-paragraph-captioning

Motivation

  • 问题:之前的dense video caption方法对每个segment独立decode,缺乏对上下文信息(video&text)的利用。

Related Work

  • Xiong2018 使用LSTM hidden states对之前生成的文本进行建模传递到解码阶段
  • Park2019 (AdvInf) 对LSTM进行改进,使用三个鉴别器衡量相关性、文本多样性和连贯性
  • Zhou2018第一次使用Transformer解决video paragraph captioning任务(baseline)
  • Dai2019 (transformer-xl) 定义context fragmentation问题,认为是没有上下文视频输入因此没有长时间依赖造成的不连贯/重复,所以加了循环。与之相比,本文MART使用memory能更有效地传递语义线索给未来的句子。

Approach

Vanilla transformer

MART(left) transformer-XL(right)

  • Vanilla transformer:N encoder layers N decoder layers,每层encoder都把上一层的隐状态作为输入然后做self-attention,输出用一个前馈网络映射,每层decoder用masked multi-head attention编码上一层隐状态。每层encoder、decoder都用了餐叉链接和layer-normalization。缺点:encoder和decoder是分离的。
  • MART:type embedding vectors表征输入token是video还是text的。position embedding只编码text token positions用于生成单词和计算loss。然后编码器和解码器是一起的,Memory Updater的公式:

输入是当前segment的hidden state和之前memory state,输出是当前memory state。其中,C是Cell State,Z是Update Gate,决定是否保留memory state。圆圈是Hadamard product。结构跟LSTM非常相似。

  • Transformer-XL:使用循环机制获取长时间依赖。SG代表stop-gradient,保存GPU memory和computation。

Data

  • Dataset:ActivityNet Captions和YouCookII,其中Anet的val一个segment对应2个paragraph,被分为两个部分,2460 for val,2457 for test。
  • Feature:用的masked transformer的,2fps, Zhou2018 provided,如下两部分normalized and concatenated
    • 2048D RGB ImageNet image recognition feature from flatten-673 in ResNet-200。
    • 1024D ActivityNet action recognition feature from global pool layer iof BN-Inception。
  • 预处理:video 100 text 20 长度。anet 6 yc2 12 视频分段。单词至少出现5次in anet 3次in yc2,最终词典分别3544和992words。

Metrics

  • Standard metircis:BLEU@4 ,METEOR,CIDEr-D (Higher = better)
  • Repetition:R@4,degree of N-gram (N=4) repetition in a paragraph ( Less = better)

implementation details

  • hidden size 768 transformer layers 2 attention heal 12 recurrent memory 1
  • adam 1e-4 b1=0.9 b2=0.999 L2 decay 0.01 50 epochs batch size 16
  • greedy decoding without beam search

结论:transformer比lstm提升了一点性能,本文使用MART比Transformer-XL方法生成的文本更连贯、没有重复性,说明更能解决长时间依赖问题,是dense video captioning的sota。

更多推荐

ACL20|MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph