PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for Languages in India

Ashok Urlana; Pinzhen Chen; Zheng Zhao; Shay B. Cohen; Manish Shrivastava; Barry Haddow

doi:10.18653/v1/2023.findings-emnlp.777

ScienceGate Book Chapters

JOURNAL ARTICLE

PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for Languages in India

Ashok Urlana Pinzhen Chen Zheng Zhao Shay B. Cohen Manish Shrivastava Barry Haddow

Year: 2023 Pages: 11606-11628

DOI: 10.18653/v1/2023.findings-emnlp.777

Get Full-Text PDF Get Analytical Report

Abstract

This paper introduces PMIndiaSum, a multilingual and massively parallel summarization corpus focused on languages in India. Our corpus provides a training and testing ground for four language families, 14 languages, and the largest to date with 196 language pairs. We detail our construction workflow including data acquisition, processing, and quality assurance. Furthermore, we publish benchmarks for monolingual, cross-lingual, and multilingual summarization by fine-tuning, prompting, as well as translate-and-summarize. Experimental results confirm the crucial role of our data in aiding summarization between Indian languages. Our dataset is publicly available and can be freely modified and re-distributed.

Keywords:

Automatic summarization Computer science Headline Workflow Natural language processing Artificial intelligence Information retrieval Linguistics Database

Metrics

Cited By

0.51

FWCI (Field Weighted Citation Impact)

Refs

0.68

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Topic Modeling

Physical Sciences → Computer Science → Artificial Intelligence

Natural Language Processing Techniques

Physical Sciences → Computer Science → Artificial Intelligence

Text and Document Classification Technologies

Physical Sciences → Computer Science → Artificial Intelligence

PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for Languages in India

Abstract

Metrics

Citation History

Topics

Related Documents

Cross-Lingual Summarization for Low-Resource Languages Using Multilingual Retrieval-Based In-Context Learning

Cross-lingual timeline summarization

Transformer-based Cross-Lingual Summarization using Multilingual Word Embeddings for English - Bahasa Indonesia

XMSumm: A Unified Framework for Cross-Lingual and Multilingual Multi-Document Summarization

Zero-Shot Cross-Lingual Neural Headline Generation