Multilingual Text-to-Image Person Retrieval via Bidirectional Relation Reasoning and Aligning

Min Cao; Xinyu Zhou; Ding Jiang; Bo Du; Mang Ye; Min Zhang

doi:10.1109/tpami.2025.3620139

ScienceGate Book Chapters

JOURNAL ARTICLE

Multilingual Text-to-Image Person Retrieval via Bidirectional Relation Reasoning and Aligning

Min Cao Xinyu Zhou Ding Jiang Bo Du Mang Ye Min Zhang

Year: 2025 Journal: IEEE Transactions on Pattern Analysis and Machine Intelligence Vol: 48 (2)Pages: 1961-1977 Publisher: IEEE Computer Society

DOI: 10.1109/tpami.2025.3620139

Get Full-Text PDF Get Analytical Report

Abstract

Text-to-image person retrieval (TIPR) aims to identify the target person using textual descriptions, facing challenge in modality heterogeneity. Prior works have attempted to address it by developing cross-modal global or local alignment strategies. However, global methods typically overlook fine-grained cross-modal differences, whereas local methods require prior information to explore explicit part alignments. Additionally, current methods are English-centric, restricting their application in multilingual contexts. To alleviate these issues, we pioneer a multilingual TIPR task by developing a multilingual TIPR benchmark, for which we leverage large language models for initial translations and refine them by integrating domain-specific knowledge. Correspondingly, we propose Bi-IRRA: a Bidirectional Implicit Relation Reasoning and Aligning framework to learn alignment across languages and modalities. Within Bi-IRRA, a bidirectional implicit relation reasoning module enables bidirectional prediction of masked image and text, implicitly enhancing the modeling of local relations across languages and modalities, a multi-dimensional global alignment module is integrated to bridge the modality heterogeneity. The proposed method achieves new state-of-the-art results on all multilingual TIPR datasets.

Keywords:

Metrics

Cited By

4.77

FWCI (Field Weighted Citation Impact)

Refs

0.89

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Image Retrieval and Classification Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Advanced Image and Video Retrieval Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Video Surveillance and Tracking Methods

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Multilingual Text-to-Image Person Retrieval via Bidirectional Relation Reasoning and Aligning

Abstract

Metrics

Citation History

Topics

Related Documents

BCRA: bidirectional cross-modal implicit relation reasoning and aligning for text-to-image person retrieval

Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval

Relation-aware Semantic Alignment Network for Text-to-Image Person Retrieval

Remote Sensing Image-Text Retrieval With Implicit-Explicit Relation Reasoning

Text-to-image person retrieval with implicit relation alignment and contrastive learning