Multimodal Fusion Methods with Vision Transformers for Remote Sensing Semantic Segmentation

Veronica Grazia Morelli; Mirko Paolo Barbato; Flavio Piccoli; Paolo Napoletano

doi:10.1109/whispers61460.2023.10430788

ScienceGate Book Chapters

JOURNAL ARTICLE

Multimodal Fusion Methods with Vision Transformers for Remote Sensing Semantic Segmentation

Veronica Grazia Morelli Mirko Paolo Barbato Flavio Piccoli Paolo Napoletano

Year: 2023 Pages: 1-5

DOI: 10.1109/whispers61460.2023.10430788

Get Full-Text PDF Get Analytical Report

Abstract

This paper presents a comparative analysis of transformerbased fusion methods applied to a novel multimodal dataset for remote sensing semantic segmentation. This investigation evaluates the impact of several fusion methods on the accuracy of the results. In particular, for early fusion, we investigate the Early Concatenation. For middle fusion, we investigate four methods, namely the Token Patch Embedding, Channel Patch Embedding, Token Fusion at Attention Level, and Cross-Attention. Finally, as a representative of late fusion, we investigate the use of Late Concatenation. The methods presented here are specifically designed to operate effectively with all modalities under investigation. Experiments conducted on the Ticino dataset show that Late Concatenation outperforms the best single modality RGB method of 4.04%, 2.24% and 3.47% respectively on accuracy, precision and mIoU. This study provides an opportunity to further explore fusion methods utilizing transformers, thereby enhancing our understanding of the potential of data fusion.

Keywords:

Computer science Artificial intelligence Computer vision Segmentation Fusion Transformer Sensor fusion Image segmentation Remote sensing Geology Engineering

Metrics

Cited By

0.43

FWCI (Field Weighted Citation Impact)

Refs

0.66

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Remote-Sensing Image Classification

Physical Sciences → Engineering → Media Technology

Advanced Image and Video Retrieval Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Advanced Image Fusion Techniques

Physical Sciences → Engineering → Media Technology

Multimodal Fusion Methods with Vision Transformers for Remote Sensing Semantic Segmentation

Abstract

Metrics

Citation History

Topics

Related Documents

Vision Foundation Model Guided Multimodal Fusion Network for Remote Sensing Semantic Segmentation

Learning Frequency-Domain Fusion for Multimodal Remote Sensing Semantic Segmentation

A Multilevel Multimodal Fusion Transformer for Remote Sensing Semantic Segmentation

Multimodal Semantic Segmentation Based On Improved Vision Transformers

FTransDeepLab: Multimodal Fusion Transformer-Based DeepLabv3+ for Remote Sensing Semantic Segmentation