Revisiting the Centroid-based Method: A Strong Baseline for Multi-Document Summarization

Demian Gholipour Ghalandari

doi:10.18653/v1/w17-4511

ScienceGate Book Chapters

JOURNAL ARTICLE

Revisiting the Centroid-based Method: A Strong Baseline for Multi-Document Summarization

Demian Gholipour Ghalandari

Year: 2017 Pages: 85-90

DOI: 10.18653/v1/w17-4511

Get Full-Text PDF Get Analytical Report

Abstract

The centroid-based model for extractive document summarization is a simple and fast baseline that ranks sentences based on their similarity to a centroid vector. In this paper, we apply this ranking to possible summaries instead of sentences and use a simple greedy algorithm to find the best summary. Furthermore, we show possibilities to scale up to larger input document collections by selecting a small number of sentences from each document prior to constructing the summary. Experiments were done on the DUC2004 dataset for multi-document summarization. We observe a higher performance over the original model, on par with more complex state-of-the-art methods.

Keywords:

Automatic summarization Centroid Computer science Baseline (sea) Ranking (information retrieval) Similarity (geometry) Simple (philosophy) Information retrieval Artificial intelligence Data mining Image (mathematics)

Metrics

Cited By

1.60

FWCI (Field Weighted Citation Impact)

Refs

0.87

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Citation History

Topics

Topic Modeling

Physical Sciences → Computer Science → Artificial Intelligence

Natural Language Processing Techniques

Physical Sciences → Computer Science → Artificial Intelligence

Advanced Text Analysis Techniques

Physical Sciences → Computer Science → Artificial Intelligence

Revisiting the Centroid-based Method: A Strong Baseline for Multi-Document Summarization

Abstract

Metrics

Citation History

Topics

Related Documents

Supervising the Centroid Baseline for Extractive Multi-Document Summarization

Multi-Document Summarization with Centroid-Based Pretraining

Random Indexing and Centroid Based Technique for Multi Document Summarization

Extractive Multi-document Summarization using K-means, Centroid-based Method, MMR, and Sentence Position

Benchmarking Semantic, Centroid, and Graph-Based Approaches for Multi-document Summarization