Progressive Multi-modal Conditional Prompt Tuning

Xiaoyu Qiu; Hao Feng; Yuechen Wang; Wengang Zhou; Houqiang Li

doi:10.1145/3652583.3658049

ScienceGate Book Chapters

JOURNAL ARTICLE

Progressive Multi-modal Conditional Prompt Tuning

Xiaoyu Qiu Hao Feng Yuechen Wang Wengang Zhou Houqiang Li

Year: 2024 Pages: 46-54

DOI: 10.1145/3652583.3658049

Get Full-Text PDF Get Analytical Report

Abstract

Pre-trained vision-language models (VLMs) have shown remarkable generalization capabilities via prompting, which leverages VLMs as knowledge bases to extract information beneficial for downstream tasks. However, existing methods primarily employ uni-modal prompting, which only engages a uni-modal branch, failing to simultaneously adjust vision-language (V-L) features. Additionally, the one-pass forward pipeline in VLM encoding struggles to align V-L features that have a huge gap. Confronting these challenges, we propose a novel method, Progressive Multi-modal conditional Prompt Tuning (ProMPT). ProMPT exploits a recurrent structure, optimizing and aligning V-L features by iteratively utilizing image and current encoding information. It comprises an initialization and a multi-modal iterative evolution (MIE) module. Initialization is responsible for encoding images and text using a VLM, followed by a feature filter that selects text features similar to image. MIE then facilitates multi-modal prompting through class-conditional vision prompting, instance-conditional text prompting, and feature filtering. In each MIE iteration, vision prompts are obtained from filtered text features via a vision generator, promoting image features to focus more on target object during vision prompting. The encoded image features are fed into a text generator to produce text prompts that are more robust to class shifts. Thus, V-L features are progressively aligned, enabling advance from coarse to exact prediction. Extensive experiments are conducted in three settings to evaluate the efficacy of ProMPT. The results indicate that ProMPT outperforms existing methods on average across all settings, demonstrating its superior generalization and robustness. Code is available at https://github.com/qiuxiaoyu9954/ProMPT.

Keywords:

Computer science Initialization Robustness (evolution) Encoding (memory) Modal Artificial intelligence Feature (linguistics) Generator (circuit theory) Generalization Filter (signal processing) Pipeline (software) Pattern recognition (psychology) Computer vision

Metrics

Cited By

2.12

FWCI (Field Weighted Citation Impact)

Refs

0.79

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Multimodal Machine Learning Applications

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Domain Adaptation and Few-Shot Learning

Physical Sciences → Computer Science → Artificial Intelligence

Advanced Image and Video Retrieval Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Progressive Multi-modal Conditional Prompt Tuning

Abstract

Metrics

Citation History

Topics

Related Documents

Multi-Modal Sarcasm Detection with Prompt-Tuning

Temporally Language Grounding With Multi-Modal Multi-Prompt Tuning

Multi-modal soft prompt-tuning for Chinese Clickbait Detection

DviT: Debiased variational inference for multi-modal mutual prompt tuning

PromptMM: Multi-Modal Knowledge Distillation for Recommendation with Prompt-Tuning