Multimodal Transformer for Multimodal Machine Translation

Shaowei Yao; Xiaojun Wan

doi:10.60692/t3s04-95542

ScienceGate Book Chapters

JOURNAL ARTICLE

Multimodal Transformer for Multimodal Machine Translation

Shaowei Yao Xiaojun Wan

Year: 2020 Journal: Greater South Information System

DOI: 10.60692/t3s04-95542

Get Full-Text PDF Get Analytical Report

Abstract

Multimodal Machine Translation (MMT) aims to introduce information from other modality, generally static images, to improve the translation quality.Previous works propose various incorporation methods, but most of them do not consider the relative importance of multiple modalities.In MMT, equally treating text and images may encode too much irrelevant information from images which may introduce noise.In this paper, we propose the multimodal self-attention in Transformer to solve the issues above.The proposed method learns the representations of images based on the text, which avoids encoding irrelevant information in images.Experiments and visualization analysis demonstrate that our model benefits from visual information and substantially outperforms previous works and competitive baselines in terms of various metrics.

Keywords:

Machine translation ENCODE Transformer Visualization Translation (biology) Encoding (memory)

Metrics

Cited By

0.00

FWCI (Field Weighted Citation Impact)

Refs

0.41

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Topics

Natural Language Processing Techniques

Physical Sciences → Computer Science → Artificial Intelligence

Generative Adversarial Networks and Image Synthesis

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Multimodal Machine Learning Applications

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Multimodal Transformer for Multimodal Machine Translation

Abstract

Metrics

Topics

Related Documents

Multimodal Transformer for Multimodal Machine Translation

Multimodal Transformer for Multimodal Machine Translation

Multimodal Machine Translation

5. Multimodal Machine Translation

Multimodal interactive machine translation