< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

首次引入GPT-4o！图像自动评估新基准来啦

一水 2024-06-27 17:23:55 来源：量子位

抱抱脸已开源

面对层出不穷的个性化图像生成技术，一个新问题摆在眼前：

缺乏统一标准来衡量这些生成的图片是否符合人们的喜好

对此，来自清华、西交大、伊利诺伊厄巴纳-香槟分校、中科院、旷视的研究人员共同推出了一项新基准DreamBench++。

首次引入GPT-4o！图像自动评估新基准来啦

通过收集不同的图像和提示，团队利用GPT-4o实现了符合人类偏好的自动评估。

首次引入GPT-4o！图像自动评估新基准来啦

简单来说，通过精心设计prompt以及引入思维链提示，团队让GPT-4o在图像评估过程中学会了像人类一样思考，并展现其思考过程。

为了测试效果，团队以7名专业人类标注员的打分为基准，对7种不同的图像生成方法进行了评估。

结果显示DreamBench++与人类评价高度一致。

更多细节接下来一起瞅瞅~

什么是DreamBench++？

DreamBench++是一个全新的评估工具，它在个性化图像评估领域实现了两项关键技术突破。

引入支持多模态的GPT-4o，同时实现与人类偏好的深度对齐以及自动化评估
推出了一个更为全面和多元化的数据集

与人类对齐的自动化评估

尽管GPT-4o支持多模态输入，但在评估图像中的细微差异时面临挑战。

在评价不同方法的个性化效果时，研究人员选择直接打分而非对比，因为对比可能会受到不同方法生成的图像顺序的影响，而且两两对比需要更长的标注时间。

为了确保评估的准确性和一致性，研究人员设计了包含以下要素的prompt：

任务描述，明确评估的目标和要求。
评分标准解释，详细说明评估的依据。
评分范围定义，设定评分的量化标准。
格式规范，确保评分的统一性和可比性。

评分规则涵盖了形状、颜色、纹理以及面部细节（特别针对人和动物），以全面评估图像的个性化效果。

首次引入GPT-4o！图像自动评估新基准来啦

最后，为了收集无偏的人类偏好数据，研究团队招募了7名经过专业培训、充分理解个性化任务的人类标注员。他们的标注结果被用作人类打分的基准，以确保评估结果的客观性和可靠性。

更全面的个性化数据集

为了确保评估过程的公正性和无歧视性，DreamBench++的研究人员构建了一个新的个性化数据集。

这一数据集的构建过程涵盖了以下几个关键步骤：

获取主题关键词：团队挑选以及生成了一系列可用于个性化生成的主体名称，如猫、钟表、男人等，共200个关键词，分为物体（objects）、活物（living objects)，以及风格化图片（style）三种类型。
图片收集：收集来源包含Unsplash, Rawpixel和Google Image Search。接着，从这些图片中挑选了背景干净、主体占比大的图片，以确保图像的清晰度和识别度。
prompt生成：引导GPT-4o生成不同复杂程度的prompt。这些prompt的复杂性与生成任务的难度相对应，即越复杂的prompt对应越具有挑战性的生成任务。

首次引入GPT-4o！图像自动评估新基准来啦

实验结果

在DreamBench++平台上，研究团队对7种不同的图像生成方法进行了评估。

这些方法涵盖了基于训练的、无需训练的，以及基于多模态大语言模型（MLLM）的多种方案。

首次引入GPT-4o！图像自动评估新基准来啦

评估结果显示：

在图像相似性方面，DINO-I和CLIP-I（现有的图像自动评估指标）的评分往往高于人类的评价。

而在文本遵循方面，CLIP-T的评分则相对较低。

相比之下，GPT-4o在这两方面的评分均更接近人类的打分。

团队推测上述结果背后的原因是，GPT-4o和人类评价者都会综合考虑多个视觉元素，如形状、轮廓、纹理，以及人或动物的面部细节等，最终给出一个综合性的评分。

这种评价方式更符合人类的直觉和偏好，因为它不仅仅关注单一的方面，而是全面地评估图像的各个方面。

此外，团队还对不同图像生成方法在DreamBench++上的生成结果进行了可视化展示。

首次引入GPT-4o！图像自动评估新基准来啦

在评估图像生成结果的保持主体情况时，DreamBench++与人类评估者达到了79.64%的一致性。

在遵循文本指令生成图像的能力方面，DreamBench++的一致性高达93.18%。

从数据来看，DreamBench++的人类一致性比DINO score高出54.1%，比CLIP score高出50.7%。

首次引入GPT-4o！图像自动评估新基准来啦

这也侧面说明，通过设计prompt，能够让GPT-4o较为准确地捕捉和反映人类的审美和偏好。

另外，Dreambench++的数据集多样性更高，与DreamBench相比，finetune-based方法在DreamBench++上的表现会下降。

首次引入GPT-4o！图像自动评估新基准来啦

团队推测这可能是因为他们在DreamBench上调整了参数，而DreamBench的种类并不全面。

同时，Emu2在非自然或复杂图像上的表现也会下降。

首次引入GPT-4o！图像自动评估新基准来啦

这些都说明DreamBench++更全面的数据集暴露了已有的个性化方法中的新问题。

目前相关论文及数据集已公开，感兴趣可以进一步了解。

AI开源开源

一水

突发，翁荔离职Thinking Machines2026-07-28
陶哲轩在菲尔兹颁奖现场：数学迎来百年新危机2026-07-27
机器人为啥困在Demo？讯飞新公司爻方智能给出答案：缺一味「本体认知」2026-07-23
看了20万小时「人类干活实录」，机器人悟了2026-07-19

首次引入GPT-4o！图像自动评估新基准来啦

什么是DreamBench++？

与人类对齐的自动化评估

更全面的个性化数据集

实验结果

相关阅读

腾讯优图开源深度学习推理框架TNN，助力AI开发降本增效

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

度小满“轩辕70B”金融大模型开源！登顶两大权威测评榜单，所有用户均可下载

腾讯开源手机端离线翻译模型，仅0.4G，支持33种语言

卡帕西开源Agent自进化训练框架，5分钟一轮实验，48h内揽星9.5k

华为又开源了个大的：超大规模MoE推理秘籍

热门文章

合肥又押中AI独角兽：多模态赛道，3个月融了21亿

智能体政策新闻相关背景和简要解读

国产世界模型登顶李飞飞团队榜单！适配国产昇腾算力、代码权重全开源

世界模型“六小龙”在WAIC吵起来了！行业红利就在非共识里

长内容创作者苦AI失忆久矣，这个新Agent漂亮填坑！门槛低到只需要会用键盘打字