DISSERTATION

Robust, efficient, and knowledge-augmented text generation with pre-trained language models

Li, Junyi

Year: 2025 University:   Papyrus : Institutional Repository (Université de Montréal)   Publisher: Université de Montréal

Abstract

Les modèles de langage pré-entraînés (PLM) ont considérablement fait progresser le domaine de la génération de texte. Cependant, leur application pratique est souvent entravée par des défis liés à l'évaluation systématique des capacités, aux coûts de calcul élevés pour l'entraînement et l'inférence, et aux limitations imposées par des connaissances internes statiques et obsolètes. Cette thèse aborde ces défis critiques pour rendre la génération de texte basée sur les PLM plus robuste, efficace et fiable. Premièrement, nous développons ElitePLM, un cadre d'évaluation complet qui évalue systématiquement les capacités langagières générales (mémoire, compréhension, raisonnement et composition) de divers PLM. Ce cadre fournit non seulement une compréhension plus approfondie de leurs forces et faiblesses, mais met également en évidence les limitations spécifiques qui motivent nos recherches ultérieures. Deuxièmement, pour répondre au coût élevé de l'entraînement, nous proposons PTG (Prompt Transfer for Text Generation), une approche efficace en paramètres. PTG exploite l'apprentissage par transfert basé sur les invites (prompts), en utilisant un réseau de mémoire multi-clés et un mécanisme d'attention adaptatif pour transférer efficacement les connaissances des tâches sources vers de nouvelles tâches de génération avec des mises à jour minimales des paramètres. Troisièmement, pour pallier l'inefficacité de l'inférence, nous introduisons ELMER, un modèle non autorégressif. ELMER intègre une stratégie de sortie anticipée avec un nouvel objectif de pré-entraînement de Modélisation du Langage par Permutation de Couches (LPLM), accélérant considérablement la génération tout en maintenant des performances compétitives grâce à une modélisation efficace des dépendances entre tokens. Quatrièmement, pour surmonter les contraintes des connaissances internes des PLM, nous présentons UniWeb, un cadre qui augmente les PLM avec des connaissances dynamiques et complètes récupérées sur le Web en ligne. UniWeb emploie une récupération active assistée par moteur de recherche basée sur la confiance du modèle et une tâche d'apprentissage continu des connaissances pour intégrer efficacement les nouvelles informations. Collectivement, les méthodologies et les cadres développés dans cette thèse contribuent à une évaluation plus approfondie des PLM et offrent des solutions novatrices pour leur entraînement efficace, leur inférence rapide et leur meilleure ancrage factuel. Ces avancées visent à rendre les technologies sophistiquées de génération de texte plus accessibles, évolutives et dignes de confiance pour un large éventail d'applications.

Keywords:
Context (archaeology) Domain (mathematical analysis) Agrégation

Metrics

0
Cited By
0.00
FWCI (Field Weighted Citation Impact)
0
Refs
Citation Normalized Percentile
Is in top 1%
Is in top 10%

Topics

Geochemistry and Geologic Mapping
Physical Sciences →  Computer Science →  Artificial Intelligence
Geological Modeling and Analysis
Physical Sciences →  Earth and Planetary Sciences →  Geochemistry and Petrology
Electrical and Electromagnetic Research
Physical Sciences →  Physics and Astronomy →  Atomic and Molecular Physics, and Optics
© 2026 ScienceGate Book Chapters — All rights reserved.