多模态的下游任务
- 图文检索(Image-Text Retrieval):图像到文本的检索,文本到图像的检索,即给定一个数据库(gallery),再给定query,找到对应的ground-truth,评价指标通常是recall,即R1、R5、R10
- 视觉蕴含(Visual Entailment):即给定一个前提:一句事实陈述,和一个假设:另一句待判断的话。模型需要判断这两句话之间的逻辑关系:
- 蕴含 (Entailment):从前提可以合乎逻辑地推导出假设。
- 矛盾 (Contradiction):假设与前提的描述相矛盾。
- 中立 (Neutral):假设与前提没有明确的逻辑关系,既不蕴含也不矛盾。
因此这个任务通常被看成是一个3分类的任务
- 视觉问答(Visual Question Answering):即给定一个问题和一个图片,模型需要预测一个答案。VQA通常有两种版本:一种是闭集VQA,一种是开集VQA,闭集VQA中,通常有一个答案的集合,模型需要选出正确的答案,因此闭集VQA通常也被看作是一个分类任务。而开集VQA则是模型需要生成一个文本来回答问题,因此开集VQA也被看作是一个文本生成的任务,需要一个transformer decoder来生成答案
- 视觉推理(Natural Language for Visual Reasoning):该任务是取预测一个文本能否同时描述一对图片,因此这是一个二分类问题
- 视觉定位(Visual Grounding):给定一个文本和一张图片,模型需要根据描述文本定位到图片中的区域(框选出图片中的对应区域,类似于目标检测) 查看全文 >>



