Robust, efficient, and knowledge-augmented text generation with pre-trained language models

Li, Junyi

doi:10.71781/77

ScienceGate Book Chapters

DISSERTATION

Robust, efficient, and knowledge-augmented text generation with pre-trained language models

Li, Junyi

Year: 2025 University: Papyrus : Institutional Repository (Université de Montréal) Publisher: Université de Montréal

DOI: 10.71781/77

Get Full-Text PDF Get Analytical Report

Abstract

Les modèles de langage pré-entraînés (PLM) ont considérablement fait progresser le domaine de la génération de texte. Cependant, leur application pratique est souvent entravée par des défis liés à l'évaluation systématique des capacités, aux coûts de calcul élevés pour l'entraînement et l'inférence, et aux limitations imposées par des connaissances internes statiques et obsolètes. Cette thèse aborde ces défis critiques pour rendre la génération de texte basée sur les PLM plus robuste, efficace et fiable. Premièrement, nous développons ElitePLM, un cadre d'évaluation complet qui évalue systématiquement les capacités langagières générales (mémoire, compréhension, raisonnement et composition) de divers PLM. Ce cadre fournit non seulement une compréhension plus approfondie de leurs forces et faiblesses, mais met également en évidence les limitations spécifiques qui motivent nos recherches ultérieures. Deuxièmement, pour répondre au coût élevé de l'entraînement, nous proposons PTG (Prompt Transfer for Text Generation), une approche efficace en paramètres. PTG exploite l'apprentissage par transfert basé sur les invites (prompts), en utilisant un réseau de mémoire multi-clés et un mécanisme d'attention adaptatif pour transférer efficacement les connaissances des tâches sources vers de nouvelles tâches de génération avec des mises à jour minimales des paramètres. Troisièmement, pour pallier l'inefficacité de l'inférence, nous introduisons ELMER, un modèle non autorégressif. ELMER intègre une stratégie de sortie anticipée avec un nouvel objectif de pré-entraînement de Modélisation du Langage par Permutation de Couches (LPLM), accélérant considérablement la génération tout en maintenant des performances compétitives grâce à une modélisation efficace des dépendances entre tokens. Quatrièmement, pour surmonter les contraintes des connaissances internes des PLM, nous présentons UniWeb, un cadre qui augmente les PLM avec des connaissances dynamiques et complètes récupérées sur le Web en ligne. UniWeb emploie une récupération active assistée par moteur de recherche basée sur la confiance du modèle et une tâche d'apprentissage continu des connaissances pour intégrer efficacement les nouvelles informations. Collectivement, les méthodologies et les cadres développés dans cette thèse contribuent à une évaluation plus approfondie des PLM et offrent des solutions novatrices pour leur entraînement efficace, leur inférence rapide et leur meilleure ancrage factuel. Ces avancées visent à rendre les technologies sophistiquées de génération de texte plus accessibles, évolutives et dignes de confiance pour un large éventail d'applications.

Keywords:

Context (archaeology) Domain (mathematical analysis) Agrégation

Metrics

Cited By

0.00

FWCI (Field Weighted Citation Impact)

Refs

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Topics

Geochemistry and Geologic Mapping

Physical Sciences → Computer Science → Artificial Intelligence

Geological Modeling and Analysis

Physical Sciences → Earth and Planetary Sciences → Geochemistry and Petrology

Electrical and Electromagnetic Research

Physical Sciences → Physics and Astronomy → Atomic and Molecular Physics, and Optics

Robust, efficient, and knowledge-augmented text generation with pre-trained language models

Abstract

Metrics

Topics

Related Documents

Text Augmented Open Knowledge Graph Completion via Pre-Trained Language Models

Non-Autoregressive Text Generation with Pre-trained Language Models

Knowledge-Grounded Dialogue Generation with Pre-trained Language Models

Knowledge-Grounded Dialogue Generation with Pre-trained Language Models

Knowledge-Grounded Dialogue Generation with Pre-trained Language Models