3月5日,Jina AI 联合 14 家科技行业伙伴,发起第二届「Impact Tech, She Can」线上对话,通过 2 场圆桌对话、1 场技术Talk专场,让大家从科技创业者、技术社区推动者、硬核技术人等多角度,全方位感受到 STEM 领域女性的硬核魅力。

希望通过对于本次线上对话的回顾梳理,不断激发更多灵感、传递更多价值!

本文将梳理「多模态AI技术Talk专场」的四场技术分享,附:演讲大纲、PPT 资源、单场回放视频,供大家参考。

 💾 PPT获取方式 

关注“Jina AI”公众号,后台回复“影响力”

 💡 加入活动交流群  

添加小助手(jinaai01),备注暗号“影响力”,获取入群地址

分享回顾

Talk 1:专为多模态AI框架而生的数据结构:DocArray

 分享嘉宾 

杨小燕,DocArray 开源项目贡献者、中国原子能科学研究院在读研究生

GitHub:AnneYang720

 演讲内容 

1、什么是 DocArray 和神经搜索?

2、如何将现有的多模态数据转化成一个 DocArray 中的 Document ?

3、如何用 DocArray 处理一系列的数据?

4、目前在积极开发的 DocArray 的 Version 2 版本。

过去几年 AI 比较专注的任务都是单模态,比如 CV 是图像,NLP 是语言,但是在我们的真实世界中,数据以各种模态存在,如文字、视频、音频等。

神经搜索是借助深度学习跟神经网络的发展,能够在各种各样模态之间的数据去建立联系。有了神经搜索,也就可以在任意模态的数据间进行搜索。

搭建一个多模态应用,第一步往往是对数据进行封装,因为多模态数据往往是非结构化的,所涉及的数据内容非常丰富,只有进行封装后才能保证在整个系统里顺利流转,并作对应处理。

DocArray 是一个用于处理、传输和存储多模态数据的 Python 工具包。DocArray 提供便捷的多模态数据处理功能,具备基于 Protobuf 提供高性能的网络传输性能,同时也为多种向量存储方案提供统一的 API 接口,同时 DocArray 也是 Jina 生态通用的数据结构。

😎 DocArray 为机器学习而生的数据结构:https://docarray.jina.ai/

 回顾视频 分享嘉宾 

嘉宾 

Talk 2:AIGC + Jina 多模态框架:感受开源与远程协作

 分享嘉宾 

赵然,Jina AI 社区开发者,ZMO.AI 算法工程师

GitHub:ruanrz

 演讲内容 

得益于 Stable Diffusion,AI 绘画从最上游的学术论文,到中游的开源工程的实现,以及下游的产品和创业公司,都得到了很大的促进和繁荣。

赵然分享了在她的开发过程中,最常使用的开源项目:Diffusers 和 Jina,开源的分享和创造力使得这些项目广为人知,并且能够持续的发展。

在实际开发过程中,图像生成只是整个任务流程的一个环节。整个线上服务流程还包括图片的上传、读取、审核、过滤、生成和展示。此外,还包括模型训练和微调。因此,我们需要建立一个算法生成的流水线,以支持完整的服务流程。

由于业务逻辑的复杂性和图像技术的快速迭代,希望功能模块能够像拼积木一样灵活地移动、组合和更换。这样,整个开发流程的效率都能大大提高。这也是 MLOps 的核心思想之一。Jina 就是一个能够去构建多模态 AI 服务和 pipeline 的 MLOps 框架,很轻松地提供服务和扩展,并且还能很方便地部署到生产环境。

😎 Jina 搭建多模态、跨模态应用的 MLOps 框架:get.jina.ai

 回顾视频 

Talk 3:AI 绘画:技术不止,开源不息

 分享嘉宾 

曾艳红,上海人工智能实验室 青年研究员

GitHub/Twitter:zengyh1900

 演讲内容 

曾艳红为我们介绍了 AI 绘画背后的技术及其在这一两年中引起关注的原因。在被戏称 “AI 绘画元年”的 2022 年,Diffusion Model 这一不同于生成对抗网络的生成模型引发了越来越多的关注。背后有三个原因:

首先,是 Diffusion Model 取得了重大的突破,能够很好地避免在 GAN 模型中存在的模式崩溃问题,使得图像生成的质量取得了突破性的进展。

其次,是多模态预训练大模型的突破性进展,视觉-语言的对应关系使得现有技术能很好地将文本描述转化成图像,进一步解放想象力。

最后也是非常重要的一点就是开源。一方面 Stable Diffusion 模型算法和权重的开源,极大促进了社区的发展。同时,应用部署的开源算法库和一些平台,使得社区训练的权重、应用、prompt 等等都能被快速分享和再创作。

作为个人,想要去了解和学习这些技术,曾艳红认为最好的方式就是参与开源项目。她毕业之后加入了 OpenMMlab 团队,并成为了 MMEditing 的开发维护者。加入一个开源项目,从贡献代码中学习和成长,这是对个人和社区都非常有意义的一件事情。 

MMEditing 是一个基于 PyTorch 的开源框架,它支持各种底层视觉算法和多种生成模型,比如,图像/视频超分辨率,抠图,文生图等等。

🔗 https://github/open-mmlab/mmediting

 回顾视频 

Talk 4:预训练模型的发展——语言模型通往 AGI 之路

 分享嘉宾 

潘骁,AWS AI Labs 应用科学家

GitHub:PANXiao1994

 演讲内容 

潘骁在 Talk 中对 ChatGPT 诞生的历史背景做了详细梳理,同时和大家一起展望了通用智能模型的未来。

人工智能的终极目标是通用人工智能,即 AGI,经历了跨语种、跨任务、跨模态任务这几个阶段。潘骁带领我们梳理了预训练/通用模型发展的历程,并讲解了其中的重要里程碑和代表性事件。

潘骁解释了预训练和通用语言模型的联系和区别。预训练+微调的范式,用无标注的语言模型去训练,在下游任务上进行微调,从共性出发一步步逼近最终的特定任务;而预训练 + Prompting 的范式,不需要人为对任务进行划分,可以支持不同的下游任务。

潘骁介绍了 ChatGPT 的基础模型——Prompting 新范式,理解类和生成类的任务都可以被囊括到 Prompting 新范式,本身自然拥有了跨任务的迁移能力。prompt 也分为手工设计(无需额外训练)、自动学习(需要在下游任务上训练少量参数)两类。

总结来看,预训练-promt 能够达到和预训练-微调相当的效果;模型越大、prompt 的模型效果越好;对任务有泛化能力,few-shot/zero-shot 的能力更强。

最后,潘骁也分享了她的一些思考:

1、所有的 AI 领域问题都是由真实场景需求去推动的,我们研究预训练和通用语言模型的原因是我们关注数据稀缺(成本)和知识迁移(收益)。

2、设计这些语言模型的关键是和目标对齐。

3、Prompting 范式是“通往真正大一统语言模型的关键一步”,因为不需要对任务本身做定义,是一个真正的通用的语言模型。

4、未来趋势:单任务-> 多任务->多模态(走向大一统)

 回顾视频 


3月7-8日,我们将陆续整理两场圆桌对话「科技创业能量场」「打造技术影响力」的精华回顾文章,敬请关注“Jina AI”公众号的后续更新!

 💾 多模态 AI 技术 Talk 专场 PPT 获取方式 

关注“Jina AI”公众号,后台回复“影响力”

 💡 加入活动交流群  

添加小助手(jinaai01),备注暗号“影响力”,获取入群地址

👆 200+ 位科技女性等你加入哦!

 🔗 填写活动反馈问卷,赢取 Jina AI 2023最新周边  

为了帮助我们更好地提升活动体验,诚邀各位参与活动的观众朋友可以抽出1分钟的时间帮我们提交你的活动反馈,将有机会获得 Jina AI 的最新周边礼包,不可多得的新品尝鲜机会,不要错过哦~

⬇️ 扫描下方二维码或点击阅读原文即可填写问卷


关于 Jina AI

Jina AI 是一家专注于神经搜索和生成式 AI 技术的商业化开源软件公司,我们围绕核心的 Jina(get.jina.ai) 和 DocArray (github/docarray/docarray)两个开源项目,打造了针对多模态应用的 MLOps 平台,帮助企业高效高质地开发多模态搜索和生成应用。在 GitHub 累计收到来自全球开发者超过 38k Star 的关注。

更多技术文章

⚖️ 模型微调,低预算,高期望!

🌪 开箱即用的云原生多模态系统解决方案

📖 Jina AI 创始人肖涵博士解读多模态AI的范式变革

🎨 语音生成图像任务|🚀 模型微调神器 Finetuner

👬 在 Jina AI 社区连接、分享、共创

更多推荐

分享回顾 | 多模态 AI 技术女性 Talk,深度解读 ChatGPT 与 LLM 发展趋势等热点