DISSERTATION

VGCN-BERT : augmenting BERT with graph embedding for text classification : application to offensive language detection

Zhibin Lu

Year: 2020 University:   @nalyses (University of Ottawa)   Publisher: University of Ottawa

Abstract

Le discours haineux est un problème sérieux sur les média sociaux. Dans ce mémoire, nous étudions le problème de détection automatique du langage haineux sur réseaux sociaux. Nous traitons ce problème comme un problème de classification de textes. La classification de textes a fait un grand progrès ces dernières années grâce aux techniques d’apprentissage profond. En particulier, les modèles utilisant un mécanisme d’attention tel que BERT se sont révélés capables de capturer les informations contextuelles contenues dans une phrase ou un texte. Cependant, leur capacité à saisir l’information globale sur le vocabulaire d’une langue dans une application spécifique est plus limitée. Récemment, un nouveau type de réseau de neurones, appelé Graph Convolutional Network (GCN), émerge. Il intègre les informations des voisins en manipulant un graphique global pour prendre en compte les informations globales, et il a obtenu de bons résultats dans de nombreuses tâches, y compris la classification de textes. Par conséquent, notre motivation dans ce mémoire est de concevoir une méthode qui peut combiner à la fois les avantages du modèle BERT, qui excelle en capturant des informations locales, et le modèle GCN, qui fournit les informations globale du langage. Néanmoins, le GCN traditionnel est un modèle d'apprentissage transductif, qui effectue une opération convolutionnelle sur un graphe composé d'éléments à traiter dans les tâches (c'est-à-dire un graphe de documents) et ne peut pas être appliqué à un nouveau document qui ne fait pas partie du graphe pendant l'entraînement. Dans ce mémoire, nous proposons d'abord un nouveau modèle GCN de vocabulaire (VGCN), qui transforme la convolution au niveau du document du modèle GCN traditionnel en convolution au niveau du mot en utilisant les co-occurrences de mots. En ce faisant, nous transformons le mode d'apprentissage transductif en mode inductif, qui peut être appliqué à un nouveau document. Ensuite, nous proposons le modèle Interactive-VGCN-BERT qui combine notre modèle VGCN avec BERT. Dans ce modèle, les informations locales captées par BERT sont combinées avec les informations globales captées par VGCN. De plus, les informations locales et les informations globales interagissent à travers différentes couches de BERT, ce qui leur permet d'influencer mutuellement et de construire ensemble une représentation finale pour la classification. Via ces interactions, les informations de langue globales peuvent aider à distinguer des mots ambigus ou à comprendre des expressions peu claires, améliorant ainsi les performances des tâches de classification de textes. Pour évaluer l'efficacité de notre modèle Interactive-VGCN-BERT, nous menons des expériences sur plusieurs ensembles de données de différents types -- non seulement sur le langage haineux, mais aussi sur la détection de grammaticalité et les commentaires sur les films. Les résultats expérimentaux montrent que le modèle Interactive-VGCN-BERT surpasse tous les autres modèles tels que Vanilla-VGCN-BERT, BERT, Bi-LSTM, MLP, GCN et ainsi de suite. En particulier, nous observons que VGCN peut effectivement fournir des informations utiles pour aider à comprendre un texte haiteux implicit quand il est intégré avec BERT, ce qui vérifie notre intuition au début de cette étude.

Keywords:
Offensive Embedding Computer science Artificial intelligence Natural language processing Information retrieval Mathematics Operations research

Metrics

0
Cited By
0.00
FWCI (Field Weighted Citation Impact)
0
Refs
Citation Normalized Percentile
Is in top 1%
Is in top 10%

Topics

Hate Speech and Cyberbullying Detection
Physical Sciences →  Computer Science →  Artificial Intelligence
Spam and Phishing Detection
Physical Sciences →  Computer Science →  Information Systems

Related Documents

BOOK-CHAPTER

VGCN-BERT: Augmenting BERT with Graph Embedding for Text Classification

Zhibin LuPan DuJian‐Yun Nie

Lecture notes in computer science Year: 2020 Pages: 369-382
BOOK-CHAPTER

Aggressive Language Detection Using VGCN-BERT for Spanish Texts

Errol Mamani-CondoriJosé Ochoa-Luna

Lecture notes in computer science Year: 2021 Pages: 359-373
BOOK-CHAPTER

Enriching BERT With Knowledge Graph Embedding For Industry Classification

Shiyue WangYoucheng PanZhenran XuBaotian HuXiaolong Wang

Communications in computer and information science Year: 2021 Pages: 709-717
JOURNAL ARTICLE

Offensive Language Detection in Turkish Tweets with Bert Models

Anil OzberkIlyas Cicekli

Journal:   2021 6th International Conference on Computer Science and Engineering (UBMK) Year: 2021
JOURNAL ARTICLE

Enhancing Arabic offensive language detection with BERT-BiGRU model

Rajae BensoltaneTaher Zaki

Journal:   Bulletin of Electrical Engineering and Informatics Year: 2024 Vol: 13 (2)Pages: 1351-1361
© 2026 ScienceGate Book Chapters — All rights reserved.