Visual Question Answering with Textual Representations for Images

Yusuke Hirota; Noa García; Mayu Otani; Chenhui Chu; Yuta Nakashima; Ittetsu Taniguchi; Takao Onoye

doi:10.1109/iccvw54120.2021.00353

ScienceGate Book Chapters

JOURNAL ARTICLE

Visual Question Answering with Textual Representations for Images

Yusuke Hirota Noa García Mayu Otani Chenhui Chu Yuta Nakashima Ittetsu Taniguchi Takao Onoye

Year: 2021 Pages: 3147-3150

DOI: 10.1109/iccvw54120.2021.00353

Get Full-Text PDF Get Analytical Report

Abstract

How far can we go with textual representations for understanding pictures? Deep visual features extracted by object recognition models are prevailing used in multiple tasks, and especially in visual question answering (VQA). However, conventional deep visual features may struggle to convey all the details in an image as we humans do. Mean-while, with recent language models' progress, descriptive text may be an alternative to this problem. This paper delves into the effectiveness of textual representations for image understanding in the specific context of VQA.

Keywords:

Question answering Computer science Artificial intelligence Context (archaeology) Natural language processing Object (grammar) Image (mathematics) Information retrieval Visualization History

Metrics

Cited By

0.61

FWCI (Field Weighted Citation Impact)

Refs

0.69

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Multimodal Machine Learning Applications

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Domain Adaptation and Few-Shot Learning

Physical Sciences → Computer Science → Artificial Intelligence

Advanced Image and Video Retrieval Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Visual Question Answering with Textual Representations for Images

Abstract

Metrics

Citation History

Topics

Related Documents

Visual Question Answering Agent with Visual and Textual Attention

Visual Question Answering with Satellite Images

Elevating Textual Question Answering with On-Demand Visual Augmentation

Fusing Visual and Textual Representations via Multi-layer Fusing Transformers for Vietnamese Visual Question Answering

Visual-Textual Semantic Alignment Network for Visual Question Answering