ag百家乐九游会 北大彭宇新解释团队开源细粒度多模态大模子Finedefics

AIxiv专栏是机器之心发布学术、时刻内容的栏目。以前数年,机器之心AIxiv专栏罗致报谈了2000多篇内容,心事群众各大高校与企业的顶级实验室,有用促进了学术疏导与传播。若是您有优秀的责任念念要共享,迎接投稿或者运筹帷幄报谈。投稿邮箱:[email protected];[email protected]
本文是北京大学彭宇新解释团队在细粒度多模态大模子限制的最新征询效果,关连论文已被 ICLR 2025 罗致,并已开源。
尽管多模态大模子在通用视觉理撤职务中发扬出色,但不具备细粒度视觉识别才气,这极大制约了多模态大模子的应用与发展。
细粒度视觉识别旨在折柳合并粗粒度大类下的不同细粒度子类别,如将鸟类(粗粒度大类)图像折柳为西好意思鸥、灰背鸥、银鸥等(细粒度子类别);将车折柳为、飞奔、奥迪等,奥迪折柳为 A4、A6、A8 等;将飞机折柳为波音 737、波音 747、波音 777、空客 320、空客 380 等。杀青对视觉对象的细粒度识别,在试验坐褥和生计中具有进击的征询和应用价值。
针对这一问题,北京大学彭宇新解释团队系统地分析了多模态大模子在细粒度视觉识别上所需的 3 项才气:对象信息提真金不怕火才气、类别学问储备才气、对象 - 类别对皆才气,发现了「视觉对象与细粒度子类别未对皆」是放弃多模态大模子的细粒度视觉识别才气的舛错问题,并建议了细粒度多模态大模子 Finedefics。
率先,Finedefics 通过教唆诳言语模子构建视觉对象的细粒度属性学问;然后,通过对比学习将细粒度属性学问分别与视觉对象的图像与文本对皆,杀青数据 - 学问协同教训。
Finedefics 在 6 个泰斗细粒度图像分类数据集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均准确率达到了 76.84%,比拟 Hugging Face 2024 年 4 月发布的 Idefics2 大模子提高了 10.89%。

论文标题:Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models论文皆集:https://openreview.net/forum?id=p3NKpom1VL开源代码:https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025模子地址:https://huggingface.co/StevenHH2000/Finedefics实验室网址:https://www.wict.pku.edu.cn/mipl
布景与动机
多模态大模子是指提真金不怕火并交融文本、图像、视频等多模态数据表征,通过诳言语模子进行推理,经过微调后适配到多种卑劣任务的基础模子。
尽管现存多模态大模子在视觉问答、推理等多种任务上发扬出色,但存在识别粒度粗的局限性:因为多模态大模子的视觉识别才气依赖大宗教训数据,由于教训数据的细粒度子类别的标注资本雄伟,骨子亦然无法细粒度标注的,导致现存多模态大模子缺少细粒度视觉识别才气。

图 1. 多模态大模子在细粒度视觉识别上所需的 3 项才气
本文系统地分析了多模态大模子在细粒度视觉识别上所需的 3 项才气,如图 1 所示,包括:
1.对象信息提真金不怕火才气:视觉编码器大要从图像中准确并全面地提真金不怕火折柳不同细粒度子类别的辨识性信息;
2.类别学问储备才气:诳言语模子大要储备充分的细粒度子类别学问;
3.对象 - 类别对皆才气:基于提真金不怕火的辨识性视觉信息与储备的细粒度子类别学问,在诳言语模子的表征空间中对皆视觉对象与细粒度子类别,以建树输入图像到子类又名呼的细粒度映射关系。
实验终结标明,ag真人多台百家乐的平台官网「视觉对象与细粒度子类别未对皆」是放弃多模态大模子具备细粒度视觉识别才气的舛错问题。
时刻决策
为处分视觉对象与细粒度子类别未对皆的问题,本文建议了细粒度多模态大模子 Finedefics。
如图 2 所示,Finedefics 构建历程包含 2 个主要设施:
1. 率先通过属性刻画构建,行使辨识属性挖掘取得折柳细粒度子类别的舛错特征,举例折柳猫的品种的辨识性属性「毛色」、「毛型」、「毛皮质量」等,并行使视觉属性提真金不怕火取得图像对象的辨识性属性对,举例「毛色:棕褐色」、「毛型:带有花纹」、「毛皮质量:质量柔嫩」等,再行使属性刻画追溯将属性对滚动为当然话语式样的对象属性刻画,举例「图中小猫的毛为棕褐色,带有花纹,质量柔嫩」;
2. 然后通过属性增强对皆,将构建的对象属性刻画看成视觉对象与细粒度子类别的共同对皆意见,通过对象 - 属性、属性 - 类别、类别 - 类别对比学习充分建树视觉对象与细粒度子类别的细粒度对应关系,再行使以识别为中心的指示微调促进模子校服细粒度视觉识别的任务指示。具体地,包含如下两个教训阶段:

图 2. 细粒度多模态大模子(Finedefics)框架图
阶段 I:属性增强的对比学习


实验终结
表 1. 细粒度多模态大模子(Finedefics)实验终结

表 1 的实验终结标明,Finedefics 在 6 个泰斗细粒度图像分类数据集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均准确率达到了76.84%,比拟阿里 2024 年 1 月发布的通义千问大模子(Qwen-VL-Chat)提高了9.43%,比拟 Hugging Face 2024 年 4 月发布的Idefics2大模子提高了10.89%。

图 3. 视觉对象 - 细粒度子类别对皆效果可视化

图 4. 细粒度多模态大模子(Finedefics)案例展示
图 3 的可视化终结标明,(a)仅微调大模子,视觉对象与细粒度子类别表征的分散相反大;(b)仅引入对象 - 类别对比学习时,上述分散相反仍然难以缩小;(c)同期引入对象 - 属性、属性 - 类别、类别 - 类别对比学习时,分散相反显耀缩小,优化了视觉对象与细粒度子类别的对皆效果,普及了多模态大模子的细粒度视觉识别才气。
图 4 的案例展示标明,相较于 Idefics2,本法式 Finedefics 能得手捕捉视觉对象特征的幽微区别,并将其与相通的细粒度子类别对象显耀折柳。
更多细则,请参宽恕论文。