Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual Question Answering

Alireza Salemi; Mahta Rafiee; Hamed Zamani

doi:10.1145/3578337.3605137

ScienceGate Book Chapters

JOURNAL ARTICLE

Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual Question Answering

Alireza Salemi Mahta Rafiee Hamed Zamani

Year: 2023 Pages: 169-176

DOI: 10.1145/3578337.3605137

Get Full-Text PDF Get Analytical Report

Abstract

This paper studies a category of visual question answering tasks, in which accessing external knowledge is necessary for answering the questions. This category is called outside-knowledge visual question answering (OK-VQA). A major step in developing OK-VQA systems is to retrieve relevant documents for the given multi-modal query. Current state-of-the-art asymmetric dense retrieval model for this task uses an architecture with a multi-modal query encoder and a uni-modal document encoder. Such an architecture requires a large amount of training data for effective performance. We propose an automatic data generation pipeline for pre-training passage retrieval models for OK-VQA tasks. The proposed approach leads to 26.9% Precision@5 improvements compared to the current state-of-the-art asymmetric architecture. Additionally, the proposed pre-training approach exhibits a good ability in zero-shot retrieval scenarios.

Keywords:

Question answering Computer science Pipeline (software) Modal Information retrieval Artificial intelligence Architecture Encoder Task (project management) Natural language processing Programming language

Metrics

Cited By

1.64

FWCI (Field Weighted Citation Impact)

Refs

0.81

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Multimodal Machine Learning Applications

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Advanced Image and Video Retrieval Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Domain Adaptation and Few-Shot Learning

Physical Sciences → Computer Science → Artificial Intelligence

Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual Question Answering

Abstract

Metrics

Citation History

Topics

Related Documents

Cross-Modal Dense Passage Retrieval for Outside Knowledge Visual Question Answering

RAMM: Retrieval-augmented Biomedical Visual Question Answering with Multi-modal Pre-training

Multi-modal Concept Alignment Pre-training for Generative Medical Visual Question Answering

Entity-Focused Dense Passage Retrieval for Outside-Knowledge Visual Question Answering

Outside Knowledge Visual Question Answering Version 2.0