Multi-Dimensional Attention With Similarity Constraint for Weakly-Supervised Temporal Action Localization

Zhengyan Chen; Hong Liu; Linlin Zhang; Xin Liao

doi:10.1109/tmm.2022.3174344

ScienceGate Book Chapters

JOURNAL ARTICLE

Multi-Dimensional Attention With Similarity Constraint for Weakly-Supervised Temporal Action Localization

Zhengyan Chen Hong Liu Linlin Zhang Xin Liao

Year: 2022 Journal: IEEE Transactions on Multimedia Vol: 25 Pages: 4349-4360 Publisher: Institute of Electrical and Electronics Engineers

DOI: 10.1109/tmm.2022.3174344

Get Full-Text PDF Get Analytical Report

Abstract

Weakly-supervised temporal action localization (WTAL) is a challenging task in understanding untrimmed videos, in which no frame-wise annotation is provided during training, only the video-level category label is available. Current methods mainly adopt temporal attention branches to conduct foreground-background separation with RGB and optical flow features simply concatenated, regardless of the discriminative spacial features and the complementarity between different modalities. In this work, we propose a Multi-Dimensional Attention (MDA) method to explore attention mechanism across three dimensions in weakly supervised action localization, i . e ., 1) temporal attention that focuses on segments containing action instances, 2) channel attention that discovers the most relevant cues for action description, and 3) modal attention that fuses RGB and flow information adaptively based on feature magnitudes during background modeling. In addition, we introduce a similarity constraint loss to refine the action segment representation in feature space, which helps the network to detect less discriminative frames of an action to capture the full action boundaries. The proposed MDA with similarity constraints can be easily applied to existing action detection frameworks with few parameters. Extensive experiments on THUMOS'14 and ActivityNet v1.2 datasets show that the proposed method outperforms the current state-of-the-art WTAL approaches, and achieves comparable results with some advanced fully-supervised methods.

Keywords:

Discriminative model Computer science Artificial intelligence RGB color model Pattern recognition (psychology) Similarity (geometry) Constraint (computer-aided design) Optical flow Feature (linguistics) Feature vector Machine learning Mathematics Image (mathematics)

Metrics

Cited By

1.86

FWCI (Field Weighted Citation Impact)

Refs

0.84

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Human Pose and Action Recognition

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Multimodal Machine Learning Applications

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Anomaly Detection Techniques and Applications

Physical Sciences → Computer Science → Artificial Intelligence

Multi-Dimensional Attention With Similarity Constraint for Weakly-Supervised Temporal Action Localization

Abstract

Metrics

Citation History

Topics

Related Documents

Weakly-Supervised Temporal Action Localization with Multi-Head Cross-Modal Attention

Weakly-Supervised Temporal Action Localization with Regional Similarity Consistency

Weakly-supervised temporal action localization using multi-branch attention weighting

Weakly Supervised Temporal Action Localization With Bidirectional Semantic Consistency Constraint

Leaky Gated Cross-Attention for Weakly Supervised Multi-Modal Temporal Action Localization