出品人:Towhee 技术团队 顾梦佳

从AI作画背后的 Diffusion 到智能聊天里的 ChatGPT,生成模型的热潮一浪接着一浪,似乎也预示着超大预训练模型就是人工智能的未来。在万众瞩目的 GPT 4.0 “官宣”之前,微软率先发布融合了大语言模型和大视觉模型的 Visual ChatGPT。智能对话不再局限于文本类的交流,机器人不仅可以“看图说话”,还能沟通作画。不同模态的大模型各有千秋却无一全能,因此它们的结合势在必行。Visual ChatGPT 无疑是一个好的开端,正式开启了以 ChatGPT 为基础的拓展研究。

Architecture of Visual ChatGPT

Visual ChatGPT 没有选择从头训练一个多模态的模型,而是直接让 ChatGPT “汲取”各种大视觉模型的知识。它设计了一系列“提示”(Prompts)将来自 22 个大视觉模型的信息注入 ChatGPT。这些提示会明确告诉 ChatGPT 每个大视觉模型的能力,并指定输入和输出的格式。它们还会将不同的视觉信息转换成语言的形式,以帮助 ChatGPT 更好地理解图像。另外,提示也会帮助处理不同大视觉模型的历史、优先级、冲突。Visual ChatGPT 选择利用这些提示不断迭代来自大视觉模型的反馈,直到满足用户的要求或达到结束条件。经过在许多案例上进行大量的零样本迁移实验,Visual ChatGPT 成功证明了其理解和生成的能力。

相关资料:

  • 项目地址:https://github/microsoft/visual-chatgpt

  • 论文链接:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

  • 更多资料:https://github/microsoft/visual-chatgpt

更多推荐

如何跟聊天机器人一起绘画?