字节 Q-Insight 模型——基于强化学习的综合图像质量评估新范式

你是否好奇，AI 如何像专业摄影师一样，不仅能给图片打分，还能解释“这张照片为什么好”或“它有哪些缺陷”？今天我们介绍一个由北京大学和字节跳动研究人员提出的模型 Q-Insight，它利用最新的强化学习技术，让多模态大语言模型（MLLM）不再只是机械地打分，而是真正学会了对图像质量进行深度推理。

----------------------------------------------------------------

一、核心挑战：传统 IQA 的局限性

图像质量评估（IQA）是计算机视觉中的关键基础任务，对图像重建、压缩和生成等下游应用至关重要。

• 传统痛点： 传统的 IQA 方法侧重于局部特征或统计测量，往往难以全面捕捉全局视觉质量，在复杂现实场景中可靠性有限。

• MLLM 登场： 多模态大语言模型的进步，使 IQA 范围扩展到了内容分析、退化感知和比较推理等更复杂的任务。

• 现有 MLLM 模型的不足： 现有的 MLLM-based IQA 方法通常存在两个极端：

1. 分数模型： 仅输出数值分数，缺乏可解释性。

2. 描述模型： 产生详细的文本描述，但严重依赖大量文本注释进行监督微调 (SFT)，成本高昂且无法输出精确分数。

二、Q-Insight 的创新方法：基于 GRPO 的强化学习

Q-Insight 旨在解决上述矛盾，目标是启发大型模型“如何在评分过程中深入推理并形成对图像质量指标的深刻见解”，而不是仅仅教它“如何评分”。

• 技术核心： Q-Insight 采用 群体相对策略优化 (GRPO) 这一强化学习框架。

◦ 优势： 与需要大量标注推理链或额外价值模型的传统方法不同，GRPO 使用启发式奖励信号高效地指导 MLLMs 发掘其内在的推理能力。

◦ 数据效率： Q-Insight 只需有限的平均意见分数（MOS）和退化标签，就能实现卓越的理解能力，不依赖于海量的文本训练数据。

三、关键能力：评分与感知的联合优化

Q-Insight 的统一框架联合优化了两个关键任务：评分回归和退化感知。

1. 图像质量评分（Score Regression）：

◦ 模型不仅输出精确的数值评分（例如：4.38分），还会生成连贯的推理过程。

◦ 它能够识别和分析图像中的文本信息、光照条件、阴影和构图等多种感知因素。

◦ 为此，研究者设计了可验证评分奖励，将连续的 MOS 预测视为“正确”或“不正确”的二元奖励，避免了奖励值过大或过小，并允许预测分数在预设阈值 ϵ 内浮动。

2. 退化感知（Degradation Perception）：

◦ 仅用评分标签训练的模型，往往对细节退化（如 JPEG 压缩）感知较差。通过联合训练退化感知任务，可以显著提高模型对低级失真的敏感度。

◦ Q-Insight 被要求预测失真类别（如：“噪声”、“模糊”、“JPEG”等）及其对应的严重程度（如：“轻微”、“明显”等）。

◦ 使用了退化分类奖励和强度感知奖励来确保模型准确识别失真类型和等级。

核心发现： 实验结果验证，评分回归和退化感知任务是相互有益的，联合训练策略能大幅提升模型性能。

四、卓越表现：强大的零样本泛化能力

Q-Insight 在多个 IQA 任务和 OOD（域外）数据集上持续优于现有的最先进方法。

• 超越 SOTA： 在 OOD 数据集上的表现优于 DeQA-Score 等方法，展现出强大的泛化能力。

• 零样本比较推理： Q-Insight 在未见过的任务上展示了令人印象深刻的零样本泛化能力，例如图像比较推理任务。

◦ 它可以根据构图和退化情况，解释并判断哪张图像质量更优。

◦ 即使在零样本（Zero-Shot）场景下，Q-Insight 的性能也显著优于依赖大规模文本数据集的描述性方法（如 DepictQA）。

五、总结与展望

Q-Insight 作为首个推理风格的多模态大语言模型，通过基于 GRPO 的强化学习和多任务联合优化，在仅使用有限标签数据的情况下，实现了数值准确性与可解释性推理的结合。

• 未来前景： Q-Insight 作为一个集评分、感知、比较和推理于一体的统一模型，有望应用于图像美学评估，并可以作为强大的判别信号，用于改进图像增强模型，推动图像质量评估和增强领域的变革。

• 当前局限： 目前 Q-Insight 主要集中在自然图像上，未来将进一步探索扩展到 AI 生成图像和视频领域。