中山大学 KRVQA 数据集
文件列表(压缩包大小 10.89M)
免费
概述
近期,中山大学为VQA模型评估提出了一个基于常识的无偏视觉问答数据集(Knowledge-Routed Visual Question Reasoning,KRVQA)。考虑到理想的VQA模型应该正确地感知图像上下文,理解问题并整合其学习的知识,KRVQA数据集旨在切断当前深度模型所利用的快捷学习,并推动基于知识的视觉问题推理的边界研究。
具体而言,基于视觉基因组场景图和带有受控程序的外部知识库生成问题--答案对,可以将知识与其他偏差中分离出来。从图像场景图或知识库中选择一个或两个三元组进行多步推理,并平衡答案分布,避免答案歧义。与现有的VQA数据集相反,知识推理的两个主要约束为:
一个问题必须与知识库中的多个三元组相关,但只有一个三元组与图像对象有关。这强制VQA模型正确地感知图像,而不是仅仅基于给定的问题猜测知识。
所有问题都基于不同的知识库三元组,但是训练集和测试集的候选答案集合相同。
“question_answer_reason.json”是生成的问题答案对样本。它包含一个问题答案对样本列表。每个样本都有以下字段:
“question”:问题原始文本。
“answer”:答案原始文本。
"level”:此问题的推断步骤。
“ KB”:0或1,指示是否使用外部知识库生成此问题。
“ qtype”:本文中描述的问题类型。
“reason”:一个列表,其中包含Visual Genome中使用的场景图三元组或FVQA中的知识三元组(“ all_fact_triples_release.json”)。
“ image_id”:视觉基因组的图像ID。
“ question_id”:此问题的ID问题。
“ splits.json”包含我们的训练/验证/测试分组的问题ID。包括:
图像的特征和场景图注释可以从Visual Genome官方网站下载。
基础知识由FVQA [1]提供,可以从dropbox下载。我们使用“ new_dataset_release / all_fact_triples_release.json”作为完整的外部知识库。
如果遇到文件不能下载或其他产品问题,请添加管理员微信:ligongku001,并备注:产品反馈
评论(0)