ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization

Jiaan Wang; Fandong Meng; Ziyao Lu; Duo Zheng; Zhixu Li; Jianfeng Qu; Jie Zhou

doi:10.18653/v1/2022.emnlp-main.526

ScienceGate Book Chapters

JOURNAL ARTICLE

ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization

Jiaan Wang Fandong Meng Ziyao Lu Duo Zheng Zhixu Li Jianfeng Qu Jie Zhou

Year: 2022

DOI: 10.18653/v1/2022.emnlp-main.526

Get Full-Text PDF Get Analytical Report

Abstract

We present ClidSum, a benchmark dataset towards building cross-lingual summarization systems on dialogue documents. It consists of 67k+ dialogue documents and 112k+ annotated summaries in different target languages. Based on the proposed ClidSum, we introduce two benchmark settings for supervised and semi-supervised scenarios, respectively. We then build various baseline systems in different paradigms (pipeline and end-to-end) and conduct extensive experiments on ClidSum to provide deeper analyses. Furthermore, we propose mDialBART which extends mBART via further pre-training, where the multiple objectives help the pre-trained model capture the structural characteristics as well as key content in dialogues and the transformation from source to the target language. Experimental results show the superiority of mDialBART, as an end-to-end model, outperforms strong pipeline models on ClidSum. Finally, we discuss specific challenges that current approaches faced with this task and give multiple promising directions for future research. We have released the dataset and code at https://github.com/krystalan/ClidSum.

Keywords:

Automatic summarization Benchmark (surveying) Computer science Pipeline (software) Baseline (sea) Key (lock) Task (project management) Artificial intelligence Code (set theory) Natural language processing Transformation (genetics) Machine learning Language model Source code Information retrieval Programming language

Metrics

Cited By

5.09

FWCI (Field Weighted Citation Impact)

Refs

0.94

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Topic Modeling

Physical Sciences → Computer Science → Artificial Intelligence

Natural Language Processing Techniques

Physical Sciences → Computer Science → Artificial Intelligence

Advanced Text Analysis Techniques

Physical Sciences → Computer Science → Artificial Intelligence

ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization

Abstract

Metrics

Citation History

Topics

Related Documents

Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation

MCLS: A Large-Scale Multimodal Cross-Lingual Summarization Dataset

Enhancing Cross-Lingual Dialogue Summarization Through Interpretable Chain-of-Thought

MM-CLS: A Large-Scale Multimodal Cross-Lingual Summarization Dataset

Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation