• 亚州色图 视觉自总结生成相识裁剪大一统!北大团队多模态新险阻,锻真金不怕火数据代码全面开源

  • 发布日期:2025-07-07 00:07    点击次数:163

    亚州色图 视觉自总结生成相识裁剪大一统!北大团队多模态新险阻,锻真金不怕火数据代码全面开源

    最近 Google 的 Gemini Flash 和 OpenAI 的 GPT-4o 等先进模子又一次鼓吹了 AI 波浪。这些模子通过整合文本、图像、音频等多种数据形势亚州色图,完结了更为当然和高效的生成和交互。

    北京大学团队继 VARGPT 完结视觉相识与生成任务合并之后,再度推出了 VARGPT-v1.1 版块。

    该版块进一步擢升了视觉自总结模子的才智,不仅在在视觉相识方面有所加强,还在图像生成和裁剪任务中达到新的性能高度

    现在锻真金不怕火、推理和评估代码,数据,模子均已开源。

    VARGPT-v1.1 不时了前作的想象理念,摄取了创新的" next-token "与" next-scale "自总结预测机制,同期引入四大略津创新点:

    迭代视觉指示微调与强化学习联结的锻真金不怕火计谋:  通过瓜代进行监督微调(SFT)与基于偏好班师优化(DPO)的强化学习,灵验提高了模子的图像生成质料。模子逐步擢升图像生因素辨率,从 256 × 256 彭胀至 512 × 512 像素,图像细节与信得过性权贵增强。

    更大范围的视觉生成锻真金不怕火数据集:  VARGPT-v1.1 摄取了多达 830 万条视觉生成指示数据,包括信得过全国的 LAION-COCO 数据集以及由 Midjourney 与 Flux 模子生成的合成数据。大范围数据的使用权贵扩大了模子对不同类型图像生成的泛化才智。

    升级说话模子骨干至 Qwen2:  引入最新的 Qwen2-7B 说话模子骨干,诳骗其高效的细心力机制与更好的 token 化计谋,灵验擢升了模子的视觉相识才智。

    无架构修改的图像裁剪才智:  VARGPT-v1.1 在不改变模子架构的基础上,通过有利构建的图像裁剪数据集,完结了图像裁剪功能。这使得模子不仅不错相识和生成图像,还能凭证用户指示对图像进行裁剪。

    1 模子架构

    VARGPT-v1.1 顺从 VARGPT 的模子架构想象,以合并视觉相识和生成,其架构如上图所示。由(1)一个大说话模子(Qwen2-7B)、视觉编码器和用于视觉相识的相识投影器;(2)视觉解码器和用于视觉生成的双生成投影器构成。VARGPT-v1.1 在大说话模子骨干中摄取因果细心力机制,同期在视觉解码器中使用块因果细心力机制。

    2 锻真金不怕火计谋

    VARGPT-v1.1 的锻真金不怕火顺从 VARGPT 的三阶段锻真金不怕火才略,举座锻真金不怕火过程如上图所示。区别于 VARGPT,在第三阶段, VARGPT-v1.1 提议了迭代指示微结伙强化学习的才略,以增强合并模子的视觉生成才智。具体来说,第三阶段的迭代锻真金不怕火过程如下图所示:

    2.1 视觉指示微调

    视觉生成的指示微调旨在通过监督微调赋予 VARGPT-v1.1 视觉生成才智。这个阶段,最初解冻视觉解码器和两个投影器,并冻结其他参数以进行有监督微调,如上图所示。本文摄取一种逐步提高图像分辨率的锻真金不怕火才略来锻真金不怕火 VARGPT-v1.1。具体来说,在第一个 SFT 阶段,图像分辨率竖立为 256x256,模子锻真金不怕火 40K 步,以赋予其生成图像的伊始才智。在第二个 SFT 阶段,图像分辨率竖立为 512x512 ,模子锻真金不怕火 30K 步,以进一步增强其高分辨率视觉生成才智。该视觉指示微调阶段的锻真金不怕火数据包括 8.3M 鸠集和构建的指示对。

    2.2 基于东谈主类响应的强化学习

    除了指示微调外,VARGPT-v1.1 提议迭代指示微调与强化学习来锻真金不怕火视觉自总结的大视觉说话模子。VARGPT-v1.1 通过将生成质料的擢升表述为一个偏好选用问题 , 并摄取班师偏好优化(DPO)来对模子进行锻真金不怕火。这种才略引发模子倾向于生成高质料的图像输出,同期拒却质料较差的输出。具体来说,VARGPT-v1.1 锻真金不怕火时将倾向于拒却低质料的图像 , 收受高质料的图像来优化计谋模子 :

    2.3 视觉裁剪的有监督微调

    经过有监督微调(SFT)和班师偏好优化(DPO)的多阶段渐进式分辨率迭代后,咱们系统地构建了一个包含来自 Style-Booth 的 11325 个样本的指示调优数据集,以使 VARGPT-v1.1 具备视觉裁剪才智。该经由通过视觉编码器责罚策划图像,同期诳骗裁剪指示动作文本教导,综合吧来监督模子对裁剪后图像分散的面临。这种才略完结了:(1)架构保留式适配,无需引入的冗余想象完结裁剪才智;(2)通过连合文本 - 图像符号预测完结合并的多模态裁剪。在该监督微调时期,整个模子参数均未冻结,以在保捏生成各样性的同期最大化裁剪保真度。

    3 实验与成果

    顺从 VARGPT 和其他多模态大说话模子的竖立,本文在一系列面向学术任务的基准测试和最新的视觉相识基准测试中,评估了 VARGPT-v1.1 在视觉相识方面的灵验性,统统波及 11 个基准测试:在包括 MMMU、MME、MMBench、SEEDBench 和 POPE (包括不同的竖立,赶紧、流行和叛逆)在内的多模态基准上进行零样本多模态评估。总体来说,VARGPT-v1.1 完结了权贵的视觉相识性能,在各式合并模子和各种多模态大说话模子的对比上均占上风。

    3.1 Zero-shot multi-modal evaluation

    对 VARGPT-v1.1 与各式先进的多模态模子进行了全面评估,成果如下表。实验成果标明 VARGPT -v1.1 在整个基准测试中发扬出色,在 MMBench 上达到 81.01,在 SEED 上达到 76.08,在 MMMU 上达到 48.56,取得了先进水平的成果。此外,在 LLaVA - Bench 基准测试上的捏续性能擢升考证了咱们的架构选用和锻真金不怕火计谋的灵验性,建立了 VARGPT-v1.1 动作一个鉴定且通用的多模态模子的地位。

    3.2 Performance comparison on visual question answering tasks

    本文在多个视觉问答数据集上评估了 VARGPT - v1.1 的性能,并将其与几种最先进的多模态模子进行了比较。成果见表 3。咱们的实验成果标明 VARGPT-v1.1 在整个视觉问答(VQA)基准测试中均取得了罕见的性能,相较于现存模子有权贵擢升。

    3.3 Performance comparison on visual question answering tasks.

    为了评估 VARGPT 的视觉生成才智,咱们使用庸俗摄取的 GenEval 基准和 DPG - Bench 基准进行了全面评估,定量成果永别见下表。这些数据集为文本到图像的生成才智提供了严格的评估框架。咱们的实验成果标明,VARGPT-v1.1 优于好多有利的图像生成模子,包括基于扩散的架构(如 SDv2.1)和自总结才略(如 LlamaGen)。

    3.4 Performance comparison on the DPG-Bench benchmark.

    3.5 视觉相识的比较

    VARGPT-v1.1 展现了更强的相识息争读视觉试验中幽默元素的才智。

    3.6 多模态图像文本生成

    VARGPT-v1.1 生成的一些 512 x 512 的样本如下所示。VARGPT-v1.1 提拔用户输入文本和图像指示,并同期输出文本和图像的夹杂模态数据。此外,与现存的合并模子基线比拟,咱们的才略在准确的文本到图像生成方面取得了权贵鼎新。如下图所示,咱们展示了 VARGPT-v1.1 生成的代表性图像输出和对话交互。定性分析标明,VARGPT-v1.1 恒久能生成与给定文本指示考究匹配的高质料图像。

    3.7 图像裁剪才智

    视觉裁剪成果可视化如下图所示,本文对视觉裁剪才智进行的定性评估标明,VARGPT-v1.1 具备基本的图像操作才智。这种才智仅通过使用视觉裁剪指示微调数据进行锻真金不怕火即可获取,无需对架构进行任何修改。此外,这些不雅察成果证据了合并模子架构在单一框架内完结通用视觉相识、生成和裁剪方面具有广泛后劲。

    鬼怪韩剧在线播放

    4 论断与掂量

    VARGPT-v1.1 通过摄取为多模态大模子想象的纯确切锻真金不怕火计谋使其具有可彭胀性,同期为多模态系统架构想标志战了新的工夫路线。尽管 VARGPT-v1.1 取得了紧要进展,但团队指出现在版块和商用生成模子之间仍存在差距,此外皮图像裁剪才智方面也存在局限性。改日,团队将进一步彭胀锻真金不怕火数据范围,探索新式 token 化才略,并尝试更多的强化学习计谋,进一步鼓吹多模态生成相识合并大模子的发展。

    project:   https://vargpt1-1.github.io/

    code:   https://github.com/VARGPT-family/VARGPT-v1.1

    arxiv:   https://arxiv.org/abs/2504.02949

    一键三连「点赞」「转发」「严防心」

    迎接在磋议区留住你的念念法!

    —  完  —

    学术投稿请于责任日发邮件到:

    ai@qbitai.com

    标题注明【投稿】,告诉咱们:

    你是谁,从哪来,投稿试验‍

    附上论文 / 形貌主页流通,以及关系时势哦

    咱们会(尽量)实时申诉你

    � � 点亮星标 � �

    科技前沿进展逐日见亚州色图