ModalChorus: Visual Probing and Alignment of Multi-Modal Embeddings via Modal Fusion Map

Yilin Ye; Shishi Xiao; Xingchen Zeng; Wei Zeng

doi:10.1109/tvcg.2024.3456387

ScienceGate Book Chapters

JOURNAL ARTICLE

ModalChorus: Visual Probing and Alignment of Multi-Modal Embeddings via Modal Fusion Map

Yilin Ye Shishi Xiao Xingchen Zeng Wei Zeng

Year: 2024 Journal: IEEE Transactions on Visualization and Computer Graphics Vol: 31 (1)Pages: 294-304 Publisher: Institute of Electrical and Electronics Engineers

DOI: 10.1109/tvcg.2024.3456387

Get Full-Text PDF Get Analytical Report

Abstract

Multi-modal embeddings form the foundation for vision-language models, such as CLIP embeddings, the most widely used text-image embeddings. However, these embeddings are vulnerable to subtle misalignment of cross-modal features, resulting in decreased model performance and diminished generalization. To address this problem, we design ModalChorus, an interactive system for visual probing and alignment of multi-modal embeddings. ModalChorus primarily offers a two-stage process: 1) embedding probing with Modal Fusion Map (MFM), a novel parametric dimensionality reduction method that integrates both metric and nonmetric objectives to enhance modality fusion; and 2) embedding alignment that allows users to interactively articulate intentions for both point-set and set-set alignments. Quantitative and qualitative comparisons for CLIP embeddings with existing dimensionality reduction (e.g., t-SNE and MDS) and data fusion (e.g., data context map) methods demonstrate the advantages of MFM in showcasing cross-modal features over common vision-language datasets. Case studies reveal that ModalChorus can facilitate intuitive discovery of misalignment and efficient re-alignment in scenarios ranging from zero-shot classification to cross-modal retrieval and generation.

Keywords:

Modal Computer science Fusion Computer vision Artificial intelligence Computer graphics (images) Visualization Sensor fusion Data visualization

Metrics

Cited By

1.06

FWCI (Field Weighted Citation Impact)

Refs

0.68

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Advanced Image and Video Retrieval Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Multimodal Machine Learning Applications

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Industrial Vision Systems and Defect Detection

Physical Sciences → Engineering → Industrial and Manufacturing Engineering

ModalChorus: Visual Probing and Alignment of Multi-Modal Embeddings via Modal Fusion Map

Abstract

Metrics

Citation History

Topics

Related Documents

Multi-modal Data Fusion based on Embeddings

Token Embeddings Alignment for Cross-Modal Retrieval

Multi-modal Fusion

LiDAR-BIND: Multi-Modal Sensor Fusion Through Shared Latent Embeddings

Multi-level Fusion of Multi-modal Semantic Embeddings for Zero Shot Learning