Visual ChatGPT

GitHub - microsoft/visual-chatgpt: VisualChatGPT

Visual ChatGPT 将 ChatGPT 和一系列可视化基础模型连接起来，以支持在聊天过程中发送和接收图像。

近年来，大型语言模型（LLM）取得了令人难以置信的进展，尤其是去年 11 月 30 日，OpenAI 重磅推出的聊天对话模型 ChatGPT，短短三个月席卷社会各个领域。ChatGPT 会的东西五花八门，能陪你聊天、编写代码、修改 bug、解答问题……

但即便是非常强大的 ChatGPT 也存在短板，由于它是用单一语言模态训练而成，因此其处理视觉信息的能力非常有限，相比较而言，视觉基础模型（VFM，Visual Foundation Models）在计算机视觉方面潜力巨大，因而能够理解和生成复杂的图像。例如，BLIP 模型是理解和提供图像描述的专家；大热的 Stable Diffusion 可以基于文本提示合成图像。然而由于 VFM 模型对输入 - 输出格式的苛求和固定限制，使得其在人机交互方面不如会话语言模型灵活。

我们不禁会问，能否构建一个同时支持图像理解和生成的类似 ChatGPT 的系统？一个直观的想法是训练多模态对话模型。然而，建立这样一个系统会消耗大量的数据和计算资源。此外，另一个挑战是，如果我们想整合语言和图像以外的模态，

更多推荐

【大数据 AI】视觉ChatGPT来了,微软发布,代码已开源