分享回顾 | 多模态 AI 技术女性 Talk，深度解读 ChatGPT 与 LLM 发展趋势等热点 - 行业资讯

3月5日，Jina AI 联合 14 家科技行业伙伴，发起第二届「Impact Tech, She Can」线上对话，通过 2 场圆桌对话、1 场技术Talk专场，让大家从科技创业者、技术社区推动者、硬核技术人等多角度，全方位感受到 STEM 领域女性的硬核魅力。

希望通过对于本次线上对话的回顾梳理，不断激发更多灵感、传递更多价值！

本文将梳理「多模态AI技术Talk专场」的四场技术分享，附：演讲大纲、PPT 资源、单场回放视频，供大家参考。

💾 PPT获取方式

关注“Jina AI”公众号，后台回复“影响力”

💡 加入活动交流群

添加小助手（jinaai01），备注暗号“影响力”，获取入群地址

分享回顾

Talk 1：专为多模态AI框架而生的数据结构：DocArray

分享嘉宾

杨小燕，DocArray 开源项目贡献者、中国原子能科学研究院在读研究生

GitHub：AnneYang720

演讲内容

1、什么是 DocArray 和神经搜索？

2、如何将现有的多模态数据转化成一个 DocArray 中的 Document ？

3、如何用 DocArray 处理一系列的数据？

4、目前在积极开发的 DocArray 的 Version 2 版本。

过去几年 AI 比较专注的任务都是单模态，比如 CV 是图像，NLP 是语言，但是在我们的真实世界中，数据以各种模态存在，如文字、视频、音频等。

神经搜索是借助深度学习跟神经网络的发展，能够在各种各样模态之间的数据去建立联系。有了神经搜索，也就可以在任意模态的数据间进行搜索。

搭建一个多模态应用，第一步往往是对数据进行封装，因为多模态数据往往是非结构化的，所涉及的数据内容非常丰富，只有进行封装后才能保证在整个系统里顺利流转，并作对应处理。

DocArray 是一个用于处理、传输和存储多模态数据的 Python 工具包。DocArray 提供便捷的多模态数据处理功能，具备基于 Protobuf 提供高性能的网络传输性能，同时也为多种向量存储方案提供统一的 API 接口，同时 DocArray 也是 Jina 生态通用的数据结构。

😎 DocArray 为机器学习而生的数据结构：https://docarray.jina.ai/

回顾视频 分享嘉宾

嘉宾

Talk 2：AIGC + Jina 多模态框架：感受开源与远程协作

分享嘉宾

赵然，Jina AI 社区开发者，ZMO.AI 算法工程师

GitHub：ruanrz

演讲内容

得益于 Stable Diffusion，AI 绘画从最上游的学术论文，到中游的开源工程的实现，以及下游的产品和创业公司，都得到了很大的促进和繁荣。

赵然分享了在她的开发过程中，最常使用的开源项目：Diffusers 和 Jina，开源的分享和创造力使得这些项目广为人知，并且能够持续的发展。

在实际开发过程中，图像生成只是整个任务流程的一个环节。整个线上服务流程还包括图片的上传、读取、审核、过滤、生成和展示。此外，还包括模型训练和微调。因此，我们需要建立一个算法生成的流水线，以支持完整的服务流程。

由于业务逻辑的复杂性和图像技术的快速迭代，希望功能模块能够像拼积木一样灵活地移动、组合和更换。这样，整个开发流程的效率都能大大提高。这也是 MLOps 的核心思想之一。Jina 就是一个能够去构建多模态 AI 服务和 pipeline 的 MLOps 框架，很轻松地提供服务和扩展，并且还能很方便地部署到生产环境。

😎 Jina 搭建多模态、跨模态应用的 MLOps 框架：get.jina.ai

回顾视频

Talk 3：AI 绘画：技术不止，开源不息

分享嘉宾

曾艳红，上海人工智能实验室青年研究员

GitHub/Twitter：zengyh1900

演讲内容

曾艳红为我们介绍了 AI 绘画背后的技术及其在这一两年中引起关注的原因。在被戏称 “AI 绘画元年”的 2022 年，Diffusion Model 这一不同于生成对抗网络的生成模型引发了越来越多的关注。背后有三个原因：

首先，是 Diffusion Model 取得了重大的突破，能够很好地避免在 GAN 模型中存在的模式崩溃问题，使得图像生成的质量取得了突破性的进展。

其次，是多模态预训练大模型的突破性进展，视觉-语言的对应关系使得现有技术能很好地将文本描述转化成图像，进一步解放想象力。

最后也是非常重要的一点就是开源。一方面 Stable Diffusion 模型算法和权重的开源，极大促进了社区的发展。同时，应用部署的开源算法库和一些平台，使得社区训练的权重、应用、prompt 等等都能被快速分享和再创作。

作为个人，想要去了解和学习这些技术，曾艳红认为最好的方式就是参与开源项目。她毕业之后加入了 OpenMMlab 团队，并成为了 MMEditing 的开发维护者。加入一个开源项目，从贡献代码中学习和成长，这是对个人和社区都非常有意义的一件事情。

MMEditing 是一个基于 PyTorch 的开源框架，它支持各种底层视觉算法和多种生成模型，比如，图像/视频超分辨率，抠图，文生图等等。

🔗 https://github/open-mmlab/mmediting

回顾视频

Talk 4：预训练模型的发展——语言模型通往 AGI 之路

分享嘉宾

潘骁，AWS AI Labs 应用科学家

GitHub：PANXiao1994

演讲内容

潘骁在 Talk 中对 ChatGPT 诞生的历史背景做了详细梳理，同时和大家一起展望了通用智能模型的未来。

人工智能的终极目标是通用人工智能，即 AGI，经历了跨语种、跨任务、跨模态任务这几个阶段。潘骁带领我们梳理了预训练/通用模型发展的历程，并讲解了其中的重要里程碑和代表性事件。

潘骁解释了预训练和通用语言模型的联系和区别。预训练+微调的范式，用无标注的语言模型去训练，在下游任务上进行微调，从共性出发一步步逼近最终的特定任务；而预训练 + Prompting 的范式，不需要人为对任务进行划分，可以支持不同的下游任务。

潘骁介绍了 ChatGPT 的基础模型——Prompting 新范式，理解类和生成类的任务都可以被囊括到 Prompting 新范式，本身自然拥有了跨任务的迁移能力。prompt 也分为手工设计（无需额外训练）、自动学习（需要在下游任务上训练少量参数）两类。

总结来看，预训练-promt 能够达到和预训练-微调相当的效果；模型越大、prompt 的模型效果越好；对任务有泛化能力，few-shot/zero-shot 的能力更强。

最后，潘骁也分享了她的一些思考：

1、所有的 AI 领域问题都是由真实场景需求去推动的，我们研究预训练和通用语言模型的原因是我们关注数据稀缺（成本）和知识迁移（收益）。

2、设计这些语言模型的关键是和目标对齐。

3、Prompting 范式是“通往真正大一统语言模型的关键一步”，因为不需要对任务本身做定义，是一个真正的通用的语言模型。

4、未来趋势：单任务-> 多任务->多模态（走向大一统）

回顾视频

3月7-8日，我们将陆续整理两场圆桌对话「科技创业能量场」和「打造技术影响力」的精华回顾文章，敬请关注“Jina AI”公众号的后续更新！

💾 多模态 AI 技术 Talk 专场 PPT 获取方式

关注“Jina AI”公众号，后台回复“影响力”

💡 加入活动交流群

添加小助手（jinaai01），备注暗号“影响力”，获取入群地址

👆 200+ 位科技女性等你加入哦！

🔗 填写活动反馈问卷，赢取 Jina AI 2023最新周边

为了帮助我们更好地提升活动体验，诚邀各位参与活动的观众朋友可以抽出1分钟的时间帮我们提交你的活动反馈，将有机会获得 Jina AI 的最新周边礼包，不可多得的新品尝鲜机会，不要错过哦～

⬇️ 扫描下方二维码或点击阅读原文即可填写问卷

关于 Jina AI

Jina AI 是一家专注于神经搜索和生成式 AI 技术的商业化开源软件公司，我们围绕核心的 Jina(get.jina.ai) 和 DocArray (github/docarray/docarray)两个开源项目，打造了针对多模态应用的 MLOps 平台，帮助企业高效高质地开发多模态搜索和生成应用。在 GitHub 累计收到来自全球开发者超过 38k Star 的关注。

更多技术文章

⚖️ 模型微调，低预算，高期望！

🌪 开箱即用的云原生多模态系统解决方案

📖 Jina AI 创始人肖涵博士解读多模态AI的范式变革

🎨 语音生成图像任务｜🚀 模型微调神器 Finetuner

👬 在 Jina AI 社区连接、分享、共创

更多推荐

分享回顾 | 多模态 AI 技术女性 Talk,深度解读 ChatGPT 与 LLM 发展趋势等热点