文章ACL2019  - Coherent Comment Generation for Chinese Articles with a Graph-to-Sequence Model

Code https://github/lancopku/Graph-to-seq-comment-generation

Data 

  • 论文研究内容

根据新闻title和文章自动评论Comments

摘要:自动文章评论有助于鼓励用户参与和在线新闻平台上的互动。然而,对于传统的基于encoder-decoder的模型来说,新闻文档通常太长,这往往会导致一般性和不相关的评论。在本文中,我们提出使用一个Graph-to-Sequence的模型来生成评论,该模型将输入的新闻建模为一个主题交互图。通过将文章组织成图结构,我们的模型可以更好地理解文章的内部结构和主题之间的联系,这使得它能够更好地理解故事。我们从中国流行的在线新闻平台Tencent Kuaibao上收集并发布了一个大规模的新闻评论语料库。广泛的实验结果表明,与几个强大的baseline模型相比,我们的模型可以产生更多的连贯性和信息丰富性的评论。

  • Motivation:

a.新闻文章可能很长、标题短,seq2seq无法获取足够的信息;b.链接广告形式的新闻内容不够生成连贯的评论。c.用户关注的topic不同,生成的comments侧重也不同。

基于此,文章提出用graph-to-sequence model 生成评论信息。步骤:1. 用文章生成 topic interaction graph---图的顶点:topic words,边-semantic relation;2. 用GNN建模,3种metrics 测试;

  • Related works

GNN做文本生成

  • 具体实现

在本节中,我们将介绍所提出的图形序列模型(如图1所示)。我们的模型遵循编码器 - 解码器框架。编码器必须将作为交互图表呈现的文章文本编码成一组隐藏向量,解码器基于该隐藏向量生成评论序列。

1.Graph Construction

对于文章D,用textRank 算法生成keywords(k),包含keywords的句子(s)作为边,一个句子有多个keywords,建立两个keywords之间的联系;不包含keywords的句子顶点(v)标记为Empty,文章title的顶点特殊标记;边的权重值取决于重复句子的数量或者两个顶点的tf-idf值

2. Vertex Encoder

word embedding and positional embedding

 QKV 分别表示:query vector, key vector and value vectors

3. Graph Encoder 也就是Graph Embedding Method

采用graph convolutional model 

4. Decoder

解码是RNN+ Attention

  •  

实验-数据集

结果

 

更多推荐

Coherent Comment Generation for Chinese Articles with a Graph-to-Sequence Model-