摘要:
为了增强视觉问答模型的鲁棒性, 提出一种偏见消减方法, 并在此基础上探究语言与视觉信息对偏见的影响。进一步地, 构造两个偏见学习分支来分别捕获语言偏见以及语言和图片共同导致的偏见, 利用偏见消减方法, 得到鲁棒性更强的预测结果。最后, 依据标准视觉问答与偏见分支之间的预测概率差异, 对样本进行动态赋权, 使模型针对不同偏见程度的样本动态地调节学习程度。在VQA-CP v2.0等数据集上的实验结果证明了所提方法的有效性, 缓解了偏见对模型的影响。
张丰硕, 李豫, 李向前, 徐金安, 陈钰枫. 一种消减多模态偏见的鲁棒视觉问答方法[J]. 北京大学学报自然科学版, 2024, 60(1): 23-33.
ZHANG Fengshuo, LI Yu, LI Xiangqian, XU Jin’an, CHEN Yufeng. Reducing Multi-model Biases for Robust Visual Question Answering[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2024, 60(1): 23-33.