Study of Positional Encoding Approaches for Audio Spectrogram Transformers

Leonardo Pepino; Pablo Riera; Luciana Ferrer

doi:10.1109/icassp43922.2022.9747742

ScienceGate Book Chapters

JOURNAL ARTICLE

Study of Positional Encoding Approaches for Audio Spectrogram Transformers

Leonardo Pepino Pablo Riera Luciana Ferrer

Year: 2022 Journal: ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) Pages: 3713-3717

DOI: 10.1109/icassp43922.2022.9747742

Get Full-Text PDF Get Analytical Report

Abstract

Transformers have revolutionized the world of deep learning, specially in the field of natural language processing. Recently, the Audio Spectrogram Transformer (AST) was proposed for audio classification, leading to state of the art results in several datasets. However, in order for ASTs to outperform CNNs, pretraining with ImageNet is needed. In this paper, we study one component of the AST, the positional encoding, and propose several variants to improve the performance of ASTs trained from scratch, without ImageNet pretraining. Our best model, which incorporates conditional positional encodings, significantly improves performance on Audioset and ESC-50 compared to the original AST.

Keywords:

Spectrogram Computer science Transformer Speech recognition Scratch Encoding (memory) Artificial intelligence Audio signal processing Pattern recognition (psychology) Speech coding Audio signal Engineering

Metrics

Cited By

0.70

FWCI (Field Weighted Citation Impact)

Refs

0.64

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Music and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Speech and Audio Processing

Physical Sciences → Computer Science → Signal Processing

Speech Recognition and Synthesis

Physical Sciences → Computer Science → Artificial Intelligence

Study of Positional Encoding Approaches for Audio Spectrogram Transformers

Abstract

Metrics

Citation History

Topics

Related Documents

Spectrogram Transformers for Audio Classification

MAST: Multiscale Audio Spectrogram Transformers

POSITIONAL ENCODING FOR TRANSFORMERS

Parameter-Efficient Transfer Learning of Audio Spectrogram Transformers

Adapter Incremental Continual Learning of Efficient Audio Spectrogram Transformers