《预训练周刊》第67期： ChatGPT引起热议、量化技术、Meta图像掩码加速CLIP

No.67

智源社区

预训练组

预

训

练

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息，《预训练周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《预训练周刊》。订阅方法：

方式1：扫描下面二维码，进入《预训练周刊》主页，选择“关注TA”。

方式2：点击本文下方的“阅读原文”，进入《预训练周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。

关于周刊

本期周刊，我们选择了9篇预训练相关的论文：多模态话题包括掩码优化CLIP方法FLIP，分层信息融合；视觉话题包括不平衡数据学习，掩码对比预训练，双曲对比学习；自然语言话题包括自我进化，信息溯源校正；基础研究方面包括两篇介绍大模型量化的文章。此外，在资讯动态方面，我们选择了6篇预训练资讯：工具方面包括BERT加速工具包，智源的开源阿拉伯语和EVA视觉大模型，观点方面包括汇总了关于近期爆火的ChatGPT相关的一些最新内容，包括基础原理、是否可以作为搜索引擎、在NLP任务评价和商业化等，希望能帮助各位读者加深对ChatGPT认识。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：翟珂吴新刚）

论文推荐

【多模态研究】

标题：Meta | Scaling Language-Image Pre-training via Masking（通过掩码进行语言-图像预训练的缩放）

作者：Yanghao Li、Kaiming He等

简介：本文提出一种用于训练CLIP的简单而有效的方案FLIP，它在训练过程中对图像块进行大比例的随机掩码移除，可以将CLIP的训练过程加速2～3倍。其核心改进就是在训练过程对图像进行随机掩码。这样做的好处包括：一是由于图像编码器只处理未掩码的patches，降低了计算用时，这样同样的训练时间内可以学习更多的图像-文本对；二是图像编码器的显存使用也下降，这样在一定的硬件资源下就可以实现更大的batch size，而对比学习往往需要较大的batch size。当然对图像掩码也会造成部分信息丢失，但是这也可能是一种正则化方法。在于FLIP和OpenCLIP的对比结果上，训练同样的轮数时遮蔽50%的FLIP可以提升训练速度2倍，而且在ImageNet1K上零样本准确度可以提升0.9%

论文下载：https://arxiv/pdf/2212.00794.pdf

标题：希腊雅典国立技术大学、雅典娜研究中心 | Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis（采用分层融合的自适应多模态 BERT 进行情感分析）

作者：Odysseas S. Chlapanis , Georgios Paraskevopoulos , Alexandros Potamianos

简介：本文研究基于bert的多模态模型、避免了灾难性遗忘和模态失衡的陷阱。多模式学习的pipelines技术，受益于预训练语言模型的成功。然而，这是以增加模型参数为代价的。在这项工作中，作者提出了基于BERT的自适应多模态模型：AMB，它使用适配器模块和中间融合层的组合。适配器为当前的任务调整预训练的语言模型，而融合层执行特定于任务的、逐层融合视听信息与文本 BERT 表示。在适应过程中，预训练的语言模型参数保持冻结状态，从而可以进行快速、参数高效的训练。由于有效地利用了预训练和非主导模态的有用知识，实验表明：AMB模型不仅性能高效、优于经过微调的模型，并且对输入噪声具有鲁棒性。

论文下载：https://arxiv/pdf/2212.00678.pdf

【NLP研究】

标题：武汉大学、京东等联合 | Toward Efficient Language Model Pretraining and Downstream Adaptation via Self-Evolution: A Case Study on SuperGLUE（SuperGLUE 案例研究：以自我进化实现高效的语言模型预训练和下游适应）

作者：Qihuang Zhong，Liang Ding2，Yibing Zhan等

简介：本文介绍了京东探索研究院在 SuperGLUE 排行榜上提交的Vega大模型。作者不任意增加预训练语言模型 (PLM) 的大小，而是想为达成如下两个目标：（1）在给定特定参数预算的情况下，从输入的预训练数据中充分提取知识；（2）有效地将这些知识转移到下游任务。为了实现目标 1，作者建议 PLM 进行自我进化学习，以明智地预测应该屏蔽的信息标记，并使用修正后的平滑标签、来监督掩码语言建模 (MLM) 过程。对于目标 2，作者利用Prompt提示迁移技术：通过将知识从基础模型和相关下游任务，迁移到目标任务、以改进低资源任务。实验表明：通过作者优化的预训练和微调策略，作者具有60亿参数的Vega模型（V2版）在四大任务上取得了新的SOTA性能，在 SuperGLUE 排行榜上名列前茅、平均分 91.3。

论文下载：https://arxiv/pdf/2212.01853.pdf

标题：CMU、谷歌等 | RARR: Researching and Revising What Language Models Say, Using Language Models（RARR：使用语言模型研究和修改语言模型所说的内容）

作者：Luyu Gao，Kelvin Guu等

简介：本文介绍了在ChatGPT火爆当下，一种查验对错和出处的一种方法。语言模型有时会生成未经验证或具有误导性的内容。用户无法轻易确定输出是否可信，因为大多数语言没有任何内置机制来归因于外部证据。为了在启用归因的同时仍然保留最新一代模型的所有强大优势，本文提出了 RARR（使用研究和修订的改造归因），该系统自动为任何文本生成模型的输出找到出处，以及可以对输出再编辑，修改未经验证的内容，同时尽可能保留原始输出。当应用于一组不同的生成任务的多个最先进语言模型的输出时，本文发现 RARR 显着改善了归因，同时在其他方面比以前探索的编辑模型更大程度地保留了原始输入。此外，RARR 的实施只需要少量训练示例、一个大型语言模型和标准互联网搜索。

论文下载：https://arxiv/pdf/2210.08726.pdf

【CV研究】

标题：清华大学 | Learning Imbalanced Data with Vision Transformers(使用视觉Transformers 学习不平衡数据)

作者：Zhengzhuo Xu, Ruikang Liu, Shuo Yang,等

简介：本文研究基于掩码生成预训练与平衡的二元交叉熵的视觉Transformer、实现了新SOTA的长尾识别技术。现实世界的数据往往严重不平衡、并严重扭曲数据驱动的深度神经网络，使得长尾识别 (LTR) 成为一项具有挑战性的任务。现有的 LTR 方法很少使用长尾 (LT) 数据训练 Vision Transformers (ViT)，而现成的 ViT 预训练权重总是导致比较不公平。在本文中，作者系统地研究了 ViT 在 LTR 中的性能，并提出 LiVT ：仅使用 LT 数据从头开始训练 ViT。广泛的实验表明：当基于掩码生成预训练和平衡二元交叉熵的使用，LiVT 在没有任何额外数据的情况下成功地训练了 ViTs、并且显着优于可比的最先进的方法。

论文下载：https://arxiv/pdf/2212.02015.pdf

源码下载：https://github/XuZhengzhuo/LiVT

标题：阿里巴巴、北航、中科院 | Masked Contrastive Pre-Training for Efficient Video-Text Retrieval（用于高效视频文本检索的掩码对比预训练）

作者：Fangxun Shu，Biaolong Chen，Yue Liao等

简介：本文研究端到端高效的视频文本对齐的预训练框架(VidLP) 、以用于视频文本检索任务。作者的掩码对比学习视频语言预训练模型（MAC），旨在通过掩码采样机制减少 VidLP 模型中视频表示的空间和时间冗余，进而实现预训练效率的提高。作者提出的端到端预训练框架，高效地达成：减少 FLOP（减少 60%）、加速预训练（3 倍）并提高性能。作者的 MAC模型在多个视频文本检索数据集上取得了SOTA结果，包括 MSR-VTT、DiDeMo 和 ActivityNet。

论文下载：https://arxiv/pdf/2212.00986.pdf

标题：马里兰大学、谷歌、Meta | Hyperbolic Contrastive Learning for Visual Representations beyond Objects（超越对象的视觉表示的双曲对比学习）

作者：Songwei Ge， Shlok Mishra， Simon Kornblith等

简介：本文研究以对象为中心的场景层次结构上的双曲对比目标。尽管自监督/无监督方法在视觉表示学习方面取得了快速进展，但这些方法通常使用相同的场景来处理对象和场景。在本文中，作者专注于学习保留其中结构的对象和场景的表示。由于观察到视觉上相似的对象在表示空间中很接近，作者认为场景和对象应该遵循基于它们的组合性的层次结构。为了利用这种结构，作者提出了一个对比学习框架，其中欧几里德损失用于学习对象表示，双曲线损失用于鼓励场景的表示靠近双曲线空间中其组成对象的表示。这种新颖的双曲线目标通过优化其规范的大小来鼓励表示之间的场景对象同义词。实现表明：在对 COCO 和 OpenImages 数据集进行预训练时，双曲线损失提高了跨多个数据集和任务的多个基线的下游性能。

论文下载：https://arxiv/pdf/2212.00653.pdf

【基础研究】

标题：高通AI | Quadapter: Adapter for GPT-2 Quantization（Quadapter：用于 GPT-2 量化的适配器）

作者：Minseop Park , Jaeseong You , Markus Nagel ,等

简介：本文研究语言模型的量化感知训练领域的新方法。Transformer 语言模型（如 GPT-2）很难量化，因为激活过程中存在大量与信道相关的异常值，这些异常会导致较大的量化误差。为了适应错误，必须使用量化感知训练（QAT），训练后量化（PTQ）是QAT的一种对应物，它在不修改模型参数的情况下执行量化，但其功能不足以应对异常值。QAT需要基于数据集和与原始模型相同的训练管道的微调过程。然而，预训练语言模型通常不授予对其数据集和训练管道的访问权限，迫使研究人员依赖模型进行微调。而在这种情况下，QAT将使模型过度拟合微调数据。为了在不过度拟合的情况下进行量化，作者引入了一个量化适配器：Quadapter，以一组轻量级的参数，通过按通道缩放、可以学习使激活量化友好；同时可以保持模型的参数不发生任何变化。实验证明：作为有效的PTQ技术、Quadapter缓解了“QAT的过拟合问题和激活中的信道间方差”这两个业界难题！

论文下载：https://arxiv/pdf/2211.16912.pdf

标题：华盛顿大学、Meta、Huggingface | LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale（LLM.int8()：Transformer的八比特矩阵乘法的规模化）

作者：Tim Dettmers, Mike Lewis等

简介：本文介绍了一种大模型量化技术。在神经网络中，量化可以理解为用低精度的数据格式来表示原来用高精度的数据格式表示的模型，从而降低内存使用以及提高计算速度。本文不仅介绍了常用的量化策略，还分享了一种基于混合精度分解的量化方法，并通过对比实验验证了混合精度分解量化可以有效地保持模型性能，避免了在大模型上使用量化技术导致的性能下降。除了量化之外，本文也帮助我们从另一个角度来理解Transformer：通过对离群值的分析，解释了Transformer是如何通过这些离群值来去除无用特征，以及Transformer的每一层是如何进行协作的。

论文下载：https://arxiv/pdf/2208.07339.pdf

工具资源

标题：香港科技大学、英国南安普顿大学 | ExtremeBERT: A Toolkit for Accelerating Pretraining of Customized BERT（ExtremeBERT：加速定制 BERT 预训练的工具包）

作者：Rui Pan, Shizhe Diao, Jianlin Chen等

简介：本文介绍了用于加速和定制 BERT 预训练的工具包ExtremeBERT。作者的目标是为研究社区和行业提供易于使用的 BERT 预训练工具包。为在资源有限的情况下，可以负担得起在定制数据集上对流行语言模型进行预训练。实验表明：基于GLUE分数比较的维度、对照原始的BERT论文，作者工具包的时间成本：（1）比BERT Base减少6倍、（2）比BERT Large 减少了 9倍。

论文下载：https://arxiv/pdf/2211.17201.pdf

代码下载：https://github/extreme-bert/extreme-bert

标题：智源 | 阿拉伯语通用大模型ALM，最大阿拉伯语数据集ArabicText

简介：近日，北京智源人工智能研究院（以下简称“智源”）联合多家阿拉伯科研机构，开源兼具自然语言理解和生成能力的通用阿拉伯语预训练模型ALM 1.0，并发布开源世界目前数据量最大的阿拉伯语预训练文本数据集ArabicText，共同推动阿拉伯语大模型AI生态的建设。在模型训练上，阿拉伯语大模型ALM 1.0基于自然语言理解、条件和无条件生成的广泛任务上都表现优异的智源悟道GLM架构进行训练，兼具自然语言生成和理解能力。ALM 1.0将广泛支持阿拉伯语场景下的内容摘要、文本续写和生成、常识问答等一系列下游应用。同时基于对阿拉伯语文本数据的采集、整理和清洗，并基于支撑WuDaoCorpora的自研网页文本深度清洗工具，研究团队针对阿语进行了高度适配和优化，并最终获得了超过200GB的高质量预训练语料ArabicText。

工具地址：https://github/FlagAI-Open/FlagAI/blob/master/examples/ALM/README_zh.md

标题：智源 | 视觉基础模型EVA

简介：近日智源曹越团队最新开源的视觉预训练模型 EVA，EVA 的训练方法与 MVP、MILLAN 类似，即通过重构 CLIP 特征来进行掩码图像建模。如CLIP 模型输入为完整的图像，而 EVA 模型的输入为有遮蔽的图像，训练过程是让 EVA 模型遮蔽部分的输出去重构 CLIP 模型对应位置的输出，从而以简单高效的方式让 EVA 模型同时拥有了最强语义学习 CLIP 的能力和最强几何结构学习 MIM 的能力。不同于之前的方法，EVA 证明了这种训练方式可以帮助模型将参数扩展到十亿量级，并且在这个参数量级下在广泛下游任务中取得出色的性能。开源工具包括十亿参数的预训练模型，下游 ImageNet 图像分类、Kinetics 视频动作识别、COCO 和 LVIS 目标检测和分割、ADE20K 语义分割、以及最强 CLIP 模型。

工具地址：https://github/baaivision/EVA

前沿观点

标题：ChatGPT的训练过程解析，它会成为下一代搜索引擎吗？

作者：张俊林

简介：本文介绍了ChatGPT的训练过程和它和真正搜索引擎的差距。整体技术路线上，ChatGPT在效果强大的GPT3.5大规模语言模型基础上，引入“人工标注数据+强化学习”（RLHF ，人工反馈其实就是人工标注数据）来不断微调预训练语言模型，主要目的是让大语言模型学会理解人类的命令指令的含义（比如给我写一段小作文生成类问题、知识回答类问题、头脑风暴类问题等不同类型的命令），以及让LLM学会判断对于给定的prompt输入指令，什么样的答案是优质的。本文认为目前还不能取代搜索引擎：首先，对于不少知识类型的问题，chatGPT会给出看上去很有道理，但是事实上是错误答案的内容；其次，ChatGPT目前这种基于GPT大模型基础上进一步增加标注数据训练的模式，对于LLM模型吸纳新知识是非常不友好的；其三，ChatGPT或GPT4的训练成本以及在线推理成本太高。

标题：作为普通NLP科研人员对ChatGPT的一些思考

作者：郭必扬

简介：本文从NLP角度，包括任务，技巧，反思等角度讨论ChatGPT。作者在一些NLP任务上进行了测试，关键信息抽取任务上表现的相当好。简单推理任务还是完全可以胜任的，但给一些涉及简单数学推理的，可能就在一本正经的瞎推理了。写作辅助任务相当完美，需要一定知识储备的开放域问答有板有眼但实际并不靠谱，主观问题一定回答的很圆滑，可能存在的一定的模板。写代码任务上也只是搬运训练语料内容，或者给你把互联网上已有的信息“糅合”一下吐出来。作者表示在AI领域，阶层鸿沟问题日趋严重，普通研究者和顶级研究机构的思路已经开始差距越来越大。在这大背景下普通研究者的出路可能是研究一些更加底层的，大小模型都适用的问题，或者研究一些很特殊的，需要特定领域知识的任务，或者以数据为中心。

标题：ChatGPT的商业落地问题

作者：齐健

简介：本文介绍了ChatGPT的商业前景以及面临的挑战。ChatGPT商业化最为核心的问题，在于模型的准确性和部署成本。首先，ChatGPT的回答并不能保证准确性，这对需要准确回答具体问题的商业应用来说是致命伤。另一个问题是经济性，ChatGPT目前尚处在免费的测试阶段，眼前最接近实际的应用场景是搜索引擎优化、营销媒体内容创作辅助和开发者编程。对于这个问题容联云AI科学院院长刘杰表示，To B行业对人工智能要求更严肃、严谨，目前的人机对话内容主要集中在客服、外呼、营销等领域，需要有针对的模型库，利用轻量预训练模型和满足基础的框架的规模小一些的模型进行快速训练。刘杰认为：包括ChatGPT在内的NLP，在商业化上还处在一个螺旋上升的阶段，未来应用场景很广；但当下技术和商业模式还需要尽快找到一个“共振”的频率。不过，也有很多人认为ChatGPT未来的应用领域未必局限在人机对话，可能会扩展到更多应用领域，例如程序问题的识别和搜索引擎等。

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：