Text-Vision Relationship Alignment for Referring Image Segmentation

Mingxing Pu; Bing Luo; Chao Zhang; Li Xu; Fayou Xu; Mingming Kong

doi:10.1007/s11063-024-11487-2

ScienceGate Book Chapters

JOURNAL ARTICLE

Text-Vision Relationship Alignment for Referring Image Segmentation

Mingxing Pu Bing Luo Chao Zhang Li Xu Fayou Xu Mingming Kong

Year: 2024 Journal: Neural Processing Letters Vol: 56 (2) Publisher: Springer Science+Business Media

DOI: 10.1007/s11063-024-11487-2

Get Full-Text PDF Get Analytical Report

Abstract

Abstract Referring image segmentation aims to segment object in an image based on a referring expression. Its difficulty lies in aligning expression semantics with visual instances. The existing methods based on semantic reasoning are limited by the performance of external syntax parser and do not explicitly explore the relationships between visual instances. This article proposes an end-to-end method for referring image segmentation by aligning ’linguistic relationship’ with ’visual relationships’. This method does not rely on external syntax parser for expression parsing. In this paper, the expression is adaptively and structurally parsed into three components: ’subject’, ’object’, and ’linguistic relationship’ by the Semantic Component Parser (SCP) in a learnable manner. Instances Activation Map Module (IAM) locates multiple visual instances based on the subject and object. In addition, the Relationship Based Visual Localization Module (RBVL) firstly enables each instance of the image to learn global knowledge, then decodes the visual relationships between these visual instances, and finally aligns the visual relationships with the linguistic relationships to further accurately locate the target object. The experimental results show that the proposed method improves performance by 4– 9% compared with baseline method on multiple referring image segmentation datasets.

Keywords:

Computational intelligence Artificial intelligence Image (mathematics) Image segmentation Computer vision Computer science Segmentation Pattern recognition (psychology)

Metrics

Cited By

1.06

FWCI (Field Weighted Citation Impact)

Refs

0.64

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Multimodal Machine Learning Applications

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Topic Modeling

Physical Sciences → Computer Science → Artificial Intelligence

Advanced Image and Video Retrieval Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Text-Vision Relationship Alignment for Referring Image Segmentation

Abstract

Metrics

Citation History

Topics

Related Documents

Extending CLIP’s Image-Text Alignment to Referring Image Segmentation

Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation

Referring Image Segmentation Without Text Annotations

Referring Image Segmentation Using Text Supervision

A Multiscale Vision-Text Collaborative Dual-Encoder for Referring RS Image Segmentation