VisualChatGPT: 微软发布可发送和接收图片的 ChatGPT

公众号关注「奇妙的 Linux 世界」

设为「星标」，每天带你玩转 Linux ！

Visual ChatGPT 连接了 ChatGPT 和一系列的 Visual Foundation 模型，以便在聊天过程中发送和接收图像。

下图为演示效果：

对该应用实现感兴趣的可以查看其论文 Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models(https://arxiv/abs/2303.04671)。

整个系统架构如下所示：

要安装的话可以安装下面的命令步骤进行：

# create a new environment
conda create -n visgpt python=3.8

# activate the new environment
conda activate visgpt

#  prepare the basic environments
pip install -r requirement.txt

# download the visual foundation models
bash download.sh

# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}

# create a folder to save images
mkdir ./image

# Start Visual ChatGPT !
python visual_chatgpt.py

下面列出了每个视觉基础模型的 GPU 内存使用情况，可以修改 self.tools 使用较少的视觉基础模型来节省您的 GPU 内存：

Foundation Model	Memory Usage (MB)
ImageEditing	6667
ImageCaption	1755
T2I	6677
canny2image	5540
line2image	6679
hed2image	6679
scribble2image	6679
pose2image	6681
BLIPVQA	2709
seg2image	5540
depth2image	6677
normal2image	3974
InstructPix2Pix	2795