Data augmentation English-Indonesia-Madurese parallel corpus dataset using neural machine translation

Fairuz Iqbal Maulana; Yaya Heryadi; Gede Putra Kusuma; Widodo Budiharto

doi:10.1016/j.dib.2025.112046

ScienceGate Book Chapters

JOURNAL ARTICLE

Data augmentation English-Indonesia-Madurese parallel corpus dataset using neural machine translation

Fairuz Iqbal Maulana Yaya Heryadi Gede Putra Kusuma Widodo Budiharto

Year: 2025 Journal: Data in Brief Vol: 62 Pages: 112046-112046 Publisher: Elsevier BV

DOI: 10.1016/j.dib.2025.112046

Get Full-Text PDF Get Analytical Report

Abstract

INMAD is a dataset containing a corpus of English-Indonesian-Madurese translated sentences. This corpus stores a list of 23086 lines of sentences, as well as their translations in Indonesian and English. The details of each Madurese translation cover 1 language level, namely the 'engghi-enten' level. The framework for creating the dataset consists of two stages. First, the Combine source of parallel corpus to create and improve the quality of sentences corpus. Second, Data Augmentation with Back-translation using MarianMT and combine parallel dataset with original parallel corpus. INMAD received validation from a Madurese language specialist, who also served as the translator for the source of this dataset. Consequently, this dataset can serve as the primary resource for Natural Language Processing (NLP) research, particularly for Madurese at the 'engghi-enten' level.

Keywords:

Metrics

Cited By

4.82

FWCI (Field Weighted Citation Impact)

Refs

0.94

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Natural Language Processing Techniques

Physical Sciences → Computer Science → Artificial Intelligence

Topic Modeling

Physical Sciences → Computer Science → Artificial Intelligence

Handwritten Text Recognition Techniques

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Data augmentation English-Indonesia-Madurese parallel corpus dataset using neural machine translation

Abstract

Metrics

Citation History

Topics

Related Documents

Corpus Augmentation for Neural Machine Translation with Chinese-Japanese Parallel Corpora

Corpus Augmentation for Improving Neural Machine Translation

100× Monolingual Data Augmentation Using LLMs to Build a Parallel Corpus for Machine Translation

Neural Machine Translation Based on Multi Translation Parallel Corpus

Parallel Corpus Development Using Machine Translation