如何跟聊天机器人一起绘画？

出品人：Towhee 技术团队顾梦佳

从AI作画背后的 Diffusion 到智能聊天里的 ChatGPT，生成模型的热潮一浪接着一浪，似乎也预示着超大预训练模型就是人工智能的未来。在万众瞩目的 GPT 4.0 “官宣”之前，微软率先发布融合了大语言模型和大视觉模型的 Visual ChatGPT。智能对话不再局限于文本类的交流，机器人不仅可以“看图说话”，还能沟通作画。不同模态的大模型各有千秋却无一全能，因此它们的结合势在必行。Visual ChatGPT 无疑是一个好的开端，正式开启了以 ChatGPT 为基础的拓展研究。

Architecture of Visual ChatGPT

Visual ChatGPT 没有选择从头训练一个多模态的模型，而是直接让 ChatGPT “汲取”各种大视觉模型的知识。它设计了一系列“提示”（Prompts）将来自 22 个大视觉模型的信息注入 ChatGPT。这些提示会明确告诉 ChatGPT 每个大视觉模型的能力，并指定输入和输出的格式。它们还会将不同的视觉信息转换成语言的形式，以帮助 ChatGPT 更好地理解图像。另外，提示也会帮助处理不同大视觉模型的历史、优先级、冲突。Visual ChatGPT 选择利用这些提示不断迭代来自大视觉模型的反馈，直到满足用户的要求或达到结束条件。经过在许多案例上进行大量的零样本迁移实验，Visual ChatGPT 成功证明了其理解和生成的能力。

相关资料：