Robust visual question answering via semantic cross modal augmentation

Akib Mashrur; Wei Luo; Nayyar A. Zaidi; Antonio Robles‐Kelly

doi:10.1016/j.cviu.2023.103862

ScienceGate Book Chapters

JOURNAL ARTICLE

Robust visual question answering via semantic cross modal augmentation

Akib Mashrur Wei Luo Nayyar A. Zaidi Antonio Robles‐Kelly

Year: 2023 Journal: Computer Vision and Image Understanding Vol: 238 Pages: 103862-103862 Publisher: Elsevier BV

DOI: 10.1016/j.cviu.2023.103862

Get Full-Text PDF Get Analytical Report

Abstract

Recent advances in vision-language models have resulted in improved accuracy in visual question answering (VQA) tasks. However, their robustness remains limited when faced with out-of-distribution data containing unanswerable questions. In this study, we first construct a simple randomised VQA dataset, incorporating unanswerable questions from the VQA v2 dataset, to evaluate the robustness of a state-of-the-art VQA model. Our findings reveal that the model struggles to predict the "unknown" answer or provides inaccurate responses with high confidence scores for irrelevant questions. To address this issue without retraining the large backbone models, we propose Cross Modal Augmentation (CMA), a model-agnostic, test-time-only, multi-modal semantic augmentation technique. CMA generates multiple semantically-consistent but heterogeneous instances from the visual and textual inputs, which are then fed to the model, and the predictions are combined to achieve a more robust output. We demonstrate that implementing CMA enables the VQA model to provide more reliable answers in scenarios involving unanswerable questions, and show that the approach is generalisable across different categories of pre-trained vision language models.

Keywords:

Robustness (evolution) Computer science Modal Artificial intelligence Retraining Question answering Construct (python library) Machine learning Natural language processing

Metrics

Cited By

1.64

FWCI (Field Weighted Citation Impact)

Refs

0.81

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Multimodal Machine Learning Applications

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Domain Adaptation and Few-Shot Learning

Physical Sciences → Computer Science → Artificial Intelligence

Advanced Image and Video Retrieval Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Robust visual question answering via semantic cross modal augmentation

Abstract

Metrics

Citation History

Topics

Related Documents

Cross-Modal Generative Augmentation for Visual Question Answering

Semantic multi-modal reprojection for robust visual question answering

Rethinking Data Augmentation for Robust Visual Question Answering

Jointly Learning Attentions with Semantic Cross-Modal Correlation for Visual Question Answering

Semantic Equivalent Adversarial Data Augmentation for Visual Question Answering