想象一下，有一天人工智能可以赋能家里的安防系统，来识别每一位访客。
在这一集，我们将介绍了一种名为个性化视觉指令调整（PVIT）的新训练范式，旨在提升多模态大型语言模型（MLLMs）处理个性化输入的能力。尽管MLLMs在处理图像输入并进行对话方面取得了进步，但它们在执行针对特定个体的个性化对话时仍显示出局限性。
PVIT通过将每个个体表示为一个包含个人图像和简介的多模态前缀，从而允许模型在推理时针对不同的输入个体提供响应。
通过自动化的数据合成框架生成训练数据，这一框架在三个阶段运作：视觉概念策划、双层文本信息提取与融合、以及PVIT数据集生成。我们还创建了一个名为P-Bench的基准测试，以评估MLLMs的个性化能力，实验结果表明，通过我们的数据集进行微调后，模型在个性化对话方面的性能得到了显著提升。

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

欢迎来到《AI十分钟》，这里是你的AI新知天地。每集只用十分钟左右的时间，为你解读最前沿的人工智能研究，带你领略AI科技的最新进展。加入我们，一起探索AI变革世界的方式。

AI_SUMMARIZE_EPISODE

AI十分钟

EP.14 人工智能可能比你更懂身边的人