Multi-Attention Fusion and Fine-Grained Alignment for Bidirectional Image-Sentence Retrieval in Remote Sensing

Qimin Cheng; Yuzhuo Zhou; Haiyan Huang; Zhongyuan Wang

doi:10.1109/jas.2022.105773

ScienceGate Book Chapters

JOURNAL ARTICLE

Multi-Attention Fusion and Fine-Grained Alignment for Bidirectional Image-Sentence Retrieval in Remote Sensing

Qimin Cheng Yuzhuo Zhou Haiyan Huang Zhongyuan Wang

Year: 2022 Journal: IEEE/CAA Journal of Automatica Sinica Vol: 9 (8)Pages: 1532-1535 Publisher: Institute of Electrical and Electronics Engineers

DOI: 10.1109/jas.2022.105773

Get Full-Text PDF Get Analytical Report

Abstract

Dear editor, Cross-modal retrieval in remote sensing (RS) data has inspired increasing enthusiasm due to its merit in flexible input and efficient query. In this letter, we address to establish semantic relationship between RS images and their description sentences. Specially, we propose a multi-attention fusion and fine-grained alignment network, termed MAFA-Net, for bidirectional cross-modal image-sentence retrieval in RS. While multiple attention mechanisms are fused to enhance the discriminative ability of visual features for RS images with complex scenes, fine-grained alignment strategy is introduced to study the hidden connection between RS observations and sentences. To validate the capability of MAFA-Net, we leverage four captioning benchmark datasets with paired RS images and descriptions, i.e., UCM-Captions, Sydney-Captions, RSICD and NWPU-Captions. Experimental results on the four datasets demonstrate that MAFA-Net can yield better performance than the current state-of-the-art approaches.

Keywords:

Computer science Closed captioning Discriminative model Leverage (statistics) Artificial intelligence Sentence Benchmark (surveying) Modal Pattern recognition (psychology) Image (mathematics) Information retrieval

Metrics

Cited By

1.73

FWCI (Field Weighted Citation Impact)

Refs

0.83

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Multimodal Machine Learning Applications

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Advanced Image and Video Retrieval Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Domain Adaptation and Few-Shot Learning

Physical Sciences → Computer Science → Artificial Intelligence

Multi-Attention Fusion and Fine-Grained Alignment for Bidirectional Image-Sentence Retrieval in Remote Sensing

Abstract

Metrics

Citation History

Topics

Related Documents

Fine-Grained Visual-Language Alignment for Remote Sensing Image–Text Retrieval

Multi-Grained Attention Studying for Fine-Grained Image Retrieval

Multi-Grained Attention Studying for Fine-Grained Image Retrieval

Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation

A Fine-Grained Semantic Alignment Method Specific to Aggregate Multi-Scale Information for Cross-Modal Remote Sensing Image Retrieval