开云平台皇马赞助商「中国」官方入口

体育游戏app平台以往的多模态检索提醒数据集大多依赖东说念主工标注-开云平台皇马赞助商「中国」官方入口

发布日期:2025-03-21 14:47    点击次数:111

BGE 系列模子自觉布以来广受社区好评。近日,智源商讨院协调多所高校诱导了多模态向量模子 BGE-VL,进一步推行了原有生态体系。

BGE-VL 在图文检索、组合图像检索等主要多模态检索任务中均取得了最好完结。BGE-VL 借助大规模合成数据 MegaPairs 磨砺而成。

这一筹划具备以下两大中枢上风 :

优异的可延迟性:MegaPairs 劝诱多模态表征模子、多模态大模子和大谈话模子,在海量图文语料库中高效挖掘多模态三元组数据。其算法大约以极低老本执续生成种种化且高质地的多模态三元组。本次发布的版块涵盖 2600 万条样本,为多模态检索模子的磨砺提供了大规模、高价值的数据撑执。

超卓的数据质地:相较于传统多模态数据,MegaPairs 仅需 1/70 的数据量即可完结更优的磨砺完结。行使该合成数据,智源磨砺了多模态检索模子 BGE-VL,权贵进步了多个主流多模态检索基准的性能。

BGE-VL 的本领禀报已发布,运筹帷幄数据、模子及代码资源将继续向社区全面灵通。

MegaPairs 构造

在大模子期间,信息检索需要骄慢东说念主们日益种种化的需求,这种需求不仅体咫尺用户的多模态查询输入上,也体咫尺对多模态信息的需求上。举例,用户可能拍摄一张汽车外不雅图,并但愿获得该款汽车的指定信息。在这种情况下,多模态检索器需要详细交融用户的图像和文本提醒,并从多种模态的信息中检索出最运筹帷幄的执行。

可是,现存的多模态检索模子频繁基于单一样子的跨模态配对数据(如图像 - 文本对)进行磨砺,这使得它们难以处理复杂的组合模态输入。连年来,提醒微调本领在文本检索和大谈话模子等领域也曾诠释注解了其增强多任务身手的有用性。可是,以往的多模态检索提醒数据集大多依赖东说念主工标注,罢明显大规模种种化数据的获得。

为惩办这一完结,智源 BGE 团队更正性地提倡了MegaPairs 数据合成按序。该按序通过从现存大规模图像数据鸠集挖掘种种的关联图像对,并行使开源多模态大模子和大谈话模子进行自动化提醒生成,从而构建出高质地、可延迟、泛化性强的多模态检索提醒微调数据集。团队基于 MegaPairs 的高质地数据,磨砺并开源多模态向量模子 BGE-VL 系列,完结了刻下最好的多模态检索身手。

MegaPairs 提倡从现存大规模图文语料库中挖掘并构造大规模、高质地多模态检索提醒数据集。

具体地,MegaPairs 的构造主要分为两个关节身手:

(1)使用多种雷同度模子从图像数据鸠集挖掘种种的图像对;

(2)使用开源的多模态大模子和大谈话模子合成灵通域检索提醒。

以下图为例,MegaPairs 最先从大规模图像数据鸠集采样一双图像 - 文本数据行为查询数据。然后,行使多种图像和文本雷同度模子,挖掘出多组关联图像对(举例:同款汽车的外饰与内饰、同款汽车不同涂装、同品牌汽车将来想法图等)。接着,针对这些挖掘出的图像对,MegaPairs 遴选两阶段标注按序:最先使用多模态大谈话模子(MLLM)回来两张图片之间的关联关连,然后使用大谈话模子(LLM)撰写最终的灵通域检索提醒。

值得驻扎的是,MegaPairs 澈底基于开源数据集和开源模子进行自动化构建和标注。通过引入多个雷同度模子和两阶段标注按序,MegaPairs 大约在无需东说念主工参与的情况下,延迟性地生成大规模、高质地且种种化的多模态检索提醒数据集。

△MegaPairs 多模态三元数据构造经由

基于上述活水线,MegaPairs 合成了卓著 2600 万条(查询图像 , 查询语句 , 标的图像)三元数据对。此外,鉴于"难负例"在磨砺检索模子的膺惩性,MegaPairs 关于每组挖掘的图像对数据王人选取了其他雷同图片行为难负例。

BGE-VL 模子

基于 MegaPairs 合成的大规模多模态检索提醒数据集,智源 BGE 团队磨砺出了 3 款不同尺寸的多模态检索模子。包括基于 CLIP 架构的 BGE-VL-Base 和 BGE-VL-Large,以及基于多模态大模子架构的 BGE-VL-MLLM。团队发现,只是使用 MegaPairs 三元组数据磨砺,模子就在多个任务上完结了远超以往按序的的最先性能上风。

详细多模态镶嵌任务性能发扬

团队最先在 Massive Multimodal Embedding Benchmark(MMEB)上考证了 BGE-VL 模子的性能。MMEB 是一个详细性基准测试,涵盖了 4 大类系数 36 个不同多模态镶嵌评测任务:分类(Classification)、视觉问答(Visual Question Answering)、检索(Retrieval)和视觉定位(Visual Grounding)。

△MMEB 评测任务示例图

在零样人性能发扬方面,BGE-VL 在 MMEB 的多个任务类型和举座评分均完结了最优性能。更令东说念主开心的是,MegaPairs 并未包含 MMEB 中的绝大部分任务类型数据(举例 Classification、VQA,Grounding),却大约完结重大的任务泛化身手。

左证 MMEB 的建设,团队进一步在 MMEB 的漫衍内(IND)连系(包含 36 个评测任务中的 20 个任务)上对 BGE-VL 进行了有监督微调。实验完结剖释,BGE-VL 的平均性能目的比较成功在 MMEB 上微调的 VLM2Vec ( LLaVA-1.6 ) 模子跳跃 9.1 个百分点。同期,在漫衍外(OOD)数据集上的平均发扬也比两版 VLM2Vec 分歧跳跃 11.6% 和 7.1%。这些完结诠释注解了 MegaPairs 数据的高质地和泛化身手。

组合图像检索性能

传统图像检索频繁遴选"文搜图"或"图搜图"的样式。连年来,组合图像检索行为一种新兴的图像搜索范式,允许用户同期输入图像和搜索提醒,完结更精确的图像检索完结。这一按序被谷歌称为"下一代图像搜索范式"。

在刻下主流的组合图像检索评测集 CIRCO 上,BGE-VL 在不同模子尺寸上均权贵刷新了现存基准。大幅超越包括谷歌的 MagicLens 系列和英伟达的 MM-Embed 等对比基线。具体而言,BGE-VL-MLLM 较之前的 SOTA 模子进步了 8.1 个百分点。此外,BGE-VL-Base 模子以不到 1/50 的参数目超越了如 MM-Embed 和 E5-V 等大模子底座的多模态检索器。这些实验完结有劲展示了 MegaPairs 数据的有用性。

团队还对 MegaPairs 的可延迟性和数据质地进行了长远商讨。如图所示,一方面,跟着 MegaPairs 数据规模的加多,BGE-VL 模子发扬出一致的性能增长趋势,诠释注解了 MegaPairs 数据构造按序的重大可延迟性。

另一方面,与在 37M 闭源数据上磨砺的 SOTA 模子 Google MagicLens 比较,MegaPairs 仅需 1/70 的数据规模(0.5M)即可完结权贵的性能上风,诠释注解了 MegaPairs 数据的高效性和高质地。

△MegaPairs 可延迟性分析:使用不同规模的 MegaPairs 数据磨砺 BGE-VL-base 模子在各评测基准上的性能变化趋势。虚线默示基于 CLIP-base 并在 37M MagicLens 数据集上磨砺的 MagicLens-B 模子的性能。BGE-VL 检索可视化完结

将来,智源将连接探索 MegaPairs 与更丰富的多模态检索场景劝诱,进一步打造更万能通用的多模态检索器。

更多按序和实验细节请参照论文。

论文地址:https://arxiv.org/abs/2412.14475

样子主页:  https://github.com/VectorSpaceLab/MegaPairs

模子地址:  https://huggingface.co/BAAI/BGE-VL-MLLM-S1

* 本文系量子位获授权刊载体育游戏app平台,不雅点仅为原作家统统。