Multi-Modal Knowledge Graph Construction and Application: A Survey

作者:Xiangru Zhu,Yanghua Xiao et al.

单位:复旦大学

期刊:


摘要

现在大多知识图谱用纯符号表示,会损害对真实世界的理解,multi-modalization是实现人机智能的关键,即MMKG。在这项由文本和图像构建的 MMKG 的调查中, MMKG 的定义——多模态任务和技术的初步介绍——系统地回顾了 MMKG 的构建和应用所面临的挑战、进展和机遇——详细分析了不同解决方案的优缺点。我们通过与 MMKG 相关的开放研究问题来完成这项调查。

系统地回顾与MMKG相关的近期研究进展。

1、introduction

KG: 大规模语义网络,实物概念为节点,语义关系为边。

applications:text understanding, recommendation system and natural language question answering

问题:**现有的知识图谱大多是纯符号的,并以文本的形式表示出来,这削弱了机器对现实世界的描述和理解能力。**e.g. dog代表狗,但是与物理世界的实物联系不起来。将符号形式与非符号experiences联系起来有利于接收真正的交流意图。符号与相关图片、声音、视频结合,并将符号映射到其物理世界中具有意义的对应所指对象,使机器能够像真人一样产生类似的“体验”。

MMKG近期研究进展
  • construction:
    • 从图像到符号:用KG中的符号标记图像
    • 从符号到图像:将KG中的符号联系上图像,符号接地
  • application
    • In-MMKG:针对MMKG本身质量或集成问题
    • Out-of-MMKG:应用于多模态任务

2、DEFINITIONS AND PRELIMINARIES

2.1 定义

传统KG:定义为有向图:
G = { E , R , A , V , T R , T A } G=\{E,R, A, V,T_R,T_A\} G={E,R,A,V,TR,TA}
分别代表实体entities、关系relations、属性attributes和文字属性值literal attribute values。TR = E ×R× E代表关系三元组,TA = E ×A× V代表属性三元组

  • 三元组 (s, p, o) ∈ TR 表示实体 s ∈ E 与实体 o ∈ E 具有关系 p ∈ R。三元组 (s, p, o) ∈ TA 表示实体 s ∈ E 具有属性 p ∈ A 具有属性值 o ∈ V。

模态:the way in which something happens or is experienced.
某事物存在、体验或完成的特定方式。多模态有助于获取知识和理解。

多模态:a research problem is characterized as multimodal when it includes multiple such modalities.
一般主要自然语言、视觉信号、声音信号。
知识符号除了文本与其他类型的数据也相关联,e.g.关系三元组 (s, p, o) 可以用图像来描述p进行多模式化。

  • 表示MMKGs的主要方式:

    • A-MMKG:多模态数据作为E的A,即看做一种属性,(s,p,o):s实物,p是关系hasImage,o是相应图片。

      TA = E ×A× (VKG ∪ VMM),VKG是KG属性集合,VMM是多模态数据集合

    • N-MMKG:多模态数据看做新的实体E,两个图片之间也有contain、nearBy、 sameAs、similar等关系。且图像可用特征向量表示,图像之间的关系也可以通过向量计算。

      TR = (EKG ∪ EMM) ×R× (EKG ∪ EMM)

2.2 预备知识

Multi-Modal Tasks:Image Captioning、Visual Grounding、Visual Question Answering (VQA)、Cross-Modal Retrieval

Multi-Modal Learning challenges:

  • 多模态表示:利用多模态的潜在互补性学习特征表示。利用VGG、ResNet把多模态投影到同一空间中;在满足某些约束的向量空间中表达每单个模态。

    • 用计算模型可以使用的格式来表示原始数据,特征/表示(向量)。
    • 单模态表示:视觉描述-CNN;音频-数据驱动深度神经网络、循环神经网络;文本-利用单词上下文的数据驱动单词嵌入。
    • 多模态表示:联合和协调。
      • 联合表示:将单模态信号组合到相同的表示空间中。通常用于在训练和推理步骤中都存在多模态数据的任务中。xm = f(x1,…xn) e.g. 早期融合即串联。
      • 协调表示:分别处理单模态信号但对他们施加某种相似性约束,使它们进入我们所说的协调空间。协调表示强制表示之间的相似性,鼓励同一物体的描述之间的距离最小(eg. 单词dog和图片狗距离<单词dog和图片车距离)。f(x1) ~ g(x2),把所有单模态映射到一个协调的多模态空间中。
  • 多模态翻译:从一个模态翻译到另一个模态,e.g.用语言描述图像;翻译:基于实例的翻译模型、生成性翻译模型。

  • 多模态对齐:找到不同模态的对应。e.g.视觉接地

  • 多模态融合:不同模态的信息结合进行预测。

  • 多模态共同学习:协调其他模态的资源来缓解某一种模态资源不足问题。

Multi-Modal Pretrained Language Model:

根据不同模态的基于Transformer的融合,自监督预训练任务的多模态预训练语言模型可以分为:单流模型(VL-BERT 、ViLT),将所有模态信息输入到单个 Transformer 编码器中,通过自注意模块进行融合,同时在同一个编码器中学习不同模态数据的这些表示。 双流模型(LXMERT):将不同的模态信息输入到它们自己的编码器中,并通过一个额外的交叉注意模块融合来自不同模态编码器的这些表示。 最终的输出表示不仅包含跨模态交互,而且还保留了每个模态内的交互。

2.3Discussions

优势:MMKGs提供足够的背景知识丰富实体和概念的表示;理解图像中看不见的物体,提供看不见的对象的符号信息或建立看得见的对象和看不见的对象之间的语义关系;多模态推理;提供多模态信息作为附加特征来弥合NLP任务中的信息差距。

不足:需要大规模的高质量的MMKG。

3、CONSTRUCTION

实质是将传统KG中的符号知识与对应的图像联系起来。

3.1从图像到符号:标记图像

图像映射到标签集,有监督学习,需人工标注。根据要连接的符号的类别,分为:

3.1.1视觉实体/概念提取:检测和定位目标对象,用KG中的实体符号标记。
  • 挑战:没有大规模细粒度、注释良好的数据集下学习有效细粒度提取模型,大数据集大多是粗粒度的。

  • 进展:

    目标识别方法

    • 定义:对检测对象的区域进行分类来标记视觉实体。一般一幅图像多个实体,需多个标签。需要预先训练检测器。

    • 缺点:给予监督学习,只能产生有限制的labels。想要识别大量的labels,需要很大的预处理工作,因此难以用于大规模知识获取。

    视觉接地方法

    • 定义:将字幕中的单词或短语映射到最相关的区域来标记视觉实体/概念。

      web中有很多图像-字幕对可弱监督提取信息,根据空间热图选择单词的活动像素作为视觉对象区域。

    • 如何学习短语的热图:

      • 基于注意力的方法(更常用):把跨通道相关性作为热图值,热图阈值化获得对象边界框。选择与给定短语最相关的边界框。但是语义尺度不一致会导致不正确的匹配。例如,部队可能映射到几个穿着军装的人,乌克兰(国家)可能映射到乌克兰国旗,这两者都只是相关的而不是等价的。
      • 基于显著性的方法:通过梯度计算像素对给定短语的敏感度作为热图的值。
  • 机遇:

    • 提取实体和概念的更强大的表示能力。
3.1.2关系提取

识别图像中检测到的视觉实体之间的语义关系。

  • 挑战:大多只能提取出表面关系(空间、动作),不能获取更一般的关系。

  • 进展:

    基于规则的关系提取:如空间关系、动作关系,专家预定义判断标准,通过启发式方法对判别特征进行评分和选择。根据标签类型和区域相对位置预定义关系,准确,但依赖人工,不能大规模。(×)

    基于统计的一般关系提取:将检测到的对象的视觉、空间、特征向量编码为分布式向量,并通过分类模型预测给定对象之间的关系。能检测出所有关系。(很难检测长尾关系)

    长尾细粒度关系抽取:有偏差的数据集使得预测具有大量样本的关系变得有可能。细粒度关系是一种长尾关系。

  • 机遇:

3.1.3视觉事件提取

通过触发器(表示事件发生的动词或名词)来预测事件类型,然后根据预先定义的事件模式提取它们的参数。 预测视觉事件类型;定位和提取源图像或视频中的对象作为视觉参数。

3.2从符号到图像:符号接地

寻找合适的多模态数据来表示传统KG中存在的符号知识。

3.2.1实体接地

现有的主要是将实体接地到对应的图像上。

  • 挑战:如何低成本找到足够多的高质量图像;如何从大量噪声中选择最匹配的。
  • 进展:查找图像:在线百科全书、搜索引擎
3.2.2概念接地

为视觉概念寻找具有代表性的、辨别力和多样性的图像。e.g.男人、女人、狗

  • 挑战:不是所有概念都能用实体形象化,e.g.非宗教主义,如何区分可视化概念和不可视化概念。且可视化图像非常多,如何最具代表性。
  • 进展:
    • 可视化概念判断:如何自动判断是否可视。
    • 代表性图像选择:聚类重排序。
    • 图像多样化。
  • 机遇:
    • 抽象概念接地:视觉联想。
    • 动名词接地。
    • 概念不可视化:选择典型的概念的实体可视化。
3.2.3关系接地

找到能够表示特定关系的图像。

视觉编码、知识融合

本体:结构化知识库的概念模板,定义数据类型、关系等等。

三、自我想法

思路:

图表:

句式

  1. Recent years have witnessed the resurgence of knowledge engineering which is featured by the fast growth of knowledge graphs.

近年来,以知识图谱快速增长为特征的知识工程再次兴起。

文献:
Multi-Modal Knowledge Graph Construction and Application: A Survey
Multimodal Machine Learning: A Survey and Taxonomy

更多推荐

论文笔记Multi-Modal Knowledge Graph Construction and Application: A Survey