Deep learning algorithms and architectures for natural language processing

Φλώρα Σακκέτου

doi:10.12681/eadd/48299

ScienceGate Book Chapters

DISSERTATION

Deep learning algorithms and architectures for natural language processing

Φλώρα Σακκέτου

Year: 2020

DOI: 10.12681/eadd/48299

Get Full-Text PDF Get Analytical Report

Abstract

Αυτή η διατριβή διερευνά την ανάπτυξη αλγορίθμων και αρχιτεκτονικών βαθιάς μάθησης που μπορούν να χρησιμοποιηθούν στην επεξεργασία φυσικής γλώσσας. Για το λόγο αυτό, αξιοποιούμε ένα πρωτότυπο πλαίσιο βελτιστοποίησης υπό περιορισμούς που ενσωματώνει a priori γνώσεις στη διαδικασία της εκπαίδευσης. Το πλαίσιο αυτό επιδιώκει να μεγιστοποιήσει σταδιακά μια αντικειμενική συνάρτηση και ταυτόχρονα να ικανοποιήσει ένα σύνολο προϋποθέσεων κατά τη διάρκεια της εκπαίδευσης. Οι προϋποθέσεις αυτές είναι οι εξής: α) η συνάρτηση κόστους πρέπει να μειώνεται σε κάθε εποχή και β) η αναζήτηση του βέλτιστου διανύσματος προσαρμογής βαρών θα πρέπει να περιορίζεται σε μια υπερσφαίρα γνωστής ακτίνας, έτσι ώστε να μην αυξάνονται απεριόριστα οι τιμές των βαρών. Η αντικειμενική συνάρτηση είναι μια ποσότητα που κωδικοποιεί τις πρόσθετες γνώσεις που πρέπει να ενσωματωθούν στον μηχανισμό μάθησης. Μέσω της επίλυσης αυτού του προβλήματος βελτιστοποίησης υπό περιορισμούς εξάγεται ένα γενικό πλαίσιο βελτιστοποίησης, το οποίο χρησιμοποιείται ως γενική βάση και επεκτείνεται προκειμένου να διαμορφωθούν αποτελεσματικοί αλγόριθμοι που ενσωματώνουν a-priori γνώσεις στη διαδικασία εκπαίδευσης. Εξετάζονται δύο βασικές κατηγορίες επιπρόσθετης γνώσης. Η πρώτη περιλαμβάνει εγγενείς γνώσεις που προέρχονται από όλες τις συνθήκες που αφορούν στα χαρακτηριστικά της υπερεπιφάνειας της συνάρτησης κόστους. Η δεύτερη κατηγορία αποτελείται από τις συνθήκες εκείνες που κωδικοποιούν την εξωτερική γνώση η οποία προέρχεται από τη φύση του προβλήματος προς επίλυση. Στην περίπτωση της εγγενούς γνώσης, αναπτύσσουμε έναν αλγόριθμο για την εκπαίδευση βαθιών νευρωνικών δικτύων, ο οποίος ονομάζεται Hessian Free algorithm with Curvature Scaled Adaptive Momentum (HF-CSAM), και λαμβάνει υπόψη τις εγγενείς γνώσεις που προέρχονται από τη δεύτερη παράγωγο της συνάρτησης κόστους (Εσσιανό πίνακα). Το κίνητρο πίσω από τη διαμόρφωση του αλγορίθμου είναι ότι στην πράξη, η εκπαίδευση νευρωνικών δικτύων περιλαμβάνει την ελαχιστοποίηση μη κυρτών συναρτήσεων, επομένως οι μέθοδοι που βασίζονται στην πρώτη παράγωγο μπορούν να οδηγήσουν μόνο σε κάποιο τοπικό ελάχιστο. Επιπρόσθετα, ένα άλλο ζήτημα που προκύπτει είναι η ακραία καμπυλότητα της συνάρτησης κόστους. Παρόλο που η χρήση μεθόδων πρώτης τάξης, όπως για παράδειγμα η στοχαστική μέθοδος καθόδου κλίσης (stochastic gradient descent - SGD), είναι η πιο δημοφιλής προσέγγιση για την εκπαίδευση νευρωνικών δικτύων, αυτές οι μέθοδοι αγνοούν εντελώς την καμπυλότητα της αντικειμενικής συνάρτησης. Σε αντίθεση με τις μεθόδους πρώτης τάξης, οι μέθοδοι δεύτερης τάξης είναι πολύ καλές στην αντιμετώπιση της καμπυλότητας. Επομένως ενσωματώνοντας τις πληροφορίες που λαμβάνουμε από τον Εσσιανό πίνακα στον κανόνα της μάθησης θα καταλήξουμε σε καλύτερα αποτελέσματα. Το κύριο μειονέκτημα των μεθόδων δεύτερης τάξης είναι ότι δεν είναι πρακτικές για την εκπαίδευση νευρωνικών δικτύων μεγάλης κλίμακας λόγω της υπολογιστικής πολυπλοκότητας του υπολογισμού του Εσσιανού πίνακα. Ο αλγόριθμος HF-CSAM, παρά το ότι είναι αλγόριθμος δεύτερης τάξης, απαιτεί ελάχιστους επιπλέον υπολογισμούς σε σύγκριση με ένα κλασικό αλγόριθμο SGD με ορμή (momentum). Ο υπολογισμός των παραγώγων επιτυγχάνεται μέσω τεχνικών Hessian Free (HF) optimization και του τελεστή R{.} που επιτρέπουν τον απ'ευθείας υπολογισμό του γινομένου ενός διανύσματος με τον πίνακα δεύτερων παραγώγων για την εκτίμηση του επόμενου βήματος προς την ελαχιστοποίηση της συνάρτησης κόστους. Ο κανόνας της ενημέρωσης των βαρών του αλγορίθμου HF-CSAM είναι παρόμοιος με αυτόν του SGD με ορμή, αλλά με δύο κύριες διαφορές που προκύπτουν από τη διατύπωση του προβλήματος της εκμάθησης ως πρόβλημα βελτιστοποίησης υπό περιορισμούς: (α) ο όρος της ορμής κλιμακώνεται με την πληροφορία καμπυλότητας (με τη μορφή του Εσσιανού πίνακα). (β) οι συντελεστές για το ρυθμό εκμάθησης (learning rate) και ο όρος της κλιμακωτής ορμής (scaled momentum) καθορίζονται προσαρμοστικά. Η αποτελεσματικότητα του αλγορίθμου HF-CSAM αποδεικνύεται μέσω της υλοποίησης του σε διαφορετικές αρχιτεκτονικές νευρωνικών δικτύων για προβλήματα επεξεργασίας φυσικής γλώσσας και υπολογιστικής όρασης όπου αξιολογείται έναντι των πιο συχνά εφαρμοσμένων αλγορίθμων εκπαίδευσης νευρωνικών δικτύων. Στην περίπτωση της κωδικοποίησης εξωτερικής πληροφορίας η οποία προέρχεται από τη φύση του προβλήματος, διερευνούμε μια ποικιλία εξωτερικών πηγών γνώσης ανάλογα με το πρόβλημα που έχουμε προς επίλυση. Αρχικά εξετάζουμε μεθοδολογίες σε συστήματα συστάσεων, καθώς προκύπτουν αρκετά προβλήματα λόγω της έλλειψης επαρκούς πληροφορίας στον πίνακας αξιολογήσεων. Επομένως οποιαδήποτε επιπλέον γνώση εκτός από αυτή που παρέχεται από τον πίνακα βαθμολογίας μπορεί να βελτιώσει σημαντικά την ποιότητα των προτάσεων. Ερευνώνται τεχνικές συνεργατικού φιλτραρίσματος (collaborative filtering) οι οποίες κάνουν αυτόματες προβλέψεις σχετικά με τα ενδιαφέροντα των χρηστών, χρησιμοποιώντας πληροφορίες που συλλέγονται από χρήστες με παρόμοια συμπεριφορά ώστε να προτείνουν νέα στοιχεία. Λόγω του ότι ο πίνακας βαθμολογιών είναι εξαιρετικά αραιός, το βήμα υπολογισμού της ομοιότητας μεταξύ των χρηστών συχνά αποτυγχάνει. Για το λόγο αυτό προτείνεται μια μέθοδος για τη δημιουργία συστάσεων σε τέτοιες προβληματικές περιπτώσεις η οποία μοντελοποιεί το σύστημα συστάσεων ως ένα σταθμισμένο γράφο και αντιμετωπίζει το πρόβλημα αυτό επεκτείνοντας και διασχίζοντας το γράφο ομοιότητας/κοινωνικής δικτύωσης των χρηστών. Η προτεινόμενη μέθοδος δημιουργεί νέες προβλέψεις συνδέσμων μεταξύ χρηστών που δεν είναι άμεσα συνδεδεμένοι, εκμεταλλευόμενη τις έμμεσες διαδρομές που περνούν από τους κοινούς γείτονές τους, γεγονός που επιτρέπει τη δημιουργία προτάσεων ακόμη και σε προβληματικές περιπτώσεις. Επιπλέον, χρησιμοποιείται μια μέθοδος διανυσματικής αναπαράστασης γράφου (graph embedding method) τελευταίας τεχνολογίας, η οποία λέγεται node2vec, για τη διανυσματική αναπαράσταση των χρηστών και την κατασκευή ενός νέου γράφου ομοιοτήτων. Οι μέθοδοι αυτοί αξιολογούνται στο δίκτυο κοινωνικής αξιολόγησης Epinions όπου αποδεικνύεται ότι η προτεινόμενη μέθοδος διάσχισης του γράφου παράγει συγκρίσιμα αποτελέσματα με το node2vec αλλά με σημαντικά χαμηλότερο υπολογιστικό κόστος και άμεσα συγκρίσιμη κάλυψη. Παρατηρώντας τις αδυναμίες των μεθόδων συνεργατικού φιλτραρίσματος, διαπιστώνουμε ότι οι τεχνικές παραγοντοποίησης πινάκων (matrix factorization) είναι πιο αποτελεσματικές στα συστήματα συστάσεων. Επομένως, διερευνάται το πρόβλημα παραγοντοποίησης του πίνακα βαθμολογιών ως ένα νευρωνικό δίκτυο, όπου οι χρήστες και τα αντικείμενα εκφράζονται ως διανύσματα (embeddings) τα οποία εκπαιδεύονται ως μέρος του δικτύου. Μέσω αυτού του φορμαλισμού, αποκαλύπτονται ενδιαφέρουσες ιδιότητες της συνάρτησης ενεργοποίησης Scaled Exponential Linear Unit (SELU), η οποία έχει αποδειχθεί ότι ρυθμίζει αυτόματα τις παραμέτρους του δικτύου και καθιστά τη μάθηση εύρωστη λόγω των αυτο-κανονικοποιημένων (self-normalizing) ιδιοτήτων της. Πιο συγκεκριμένα, η SELU παρουσιάζει συστηματική απόδοση ανεξάρτητα από την επιλογή του αλγορίθμου βελτιστοποίησης και των αντίστοιχων υπερπαραμέτρων του. Αυτό αποδεικνύεται ξεκάθαρα από έναν αριθμό πειραματικών αποτελεσμάτων που περιλαμβάνουν έναν αριθμό διαφορετικών συναρτήσεων ενεργοποίησης και αλγόριθμων βελτιστοποίησης για την εκπαίδευση διάφορων αρχιτεκτονικών νευρωνικών δικτύων σε τυποποιημένα σύνολα δεδομένων για συστήματα συστάσεων. Ακόμα καλύτερα αποτελέσματα μπορούν να επιτευχθούν αν αντλήσουμε πληροφορίες από τα κοινωνικά δίκτυα αξιολόγησης, και πιο συγκεκριμένα από τις κοινωνικές συνδέσεις μεταξύ των χρηστών. Το γενικευμένο πλαίσιο βελτιστοποίησης υπό περιορισμούς που έχει προταθεί μας επιτρέπει να αξιοποιήσουμε την πληροφορία αυτή μέσω ενός αλγόριθμου παραγοντοποίησης πινάκων για συστήματα υποδείξεων. Αυτός ο αλγόριθμος ονομάζεται SocialFALCON και λαμβάνει υπόψη τις πληροφορίες που παρέχονται από το κοινωνικό δίκτυο των χρηστών σε συνδυασμό με τη συμπεριφορά αξιολόγησης τους. Η βασική ιδέα πίσω από την διαμόρφωση του SocialFALCON είναι η ενσωμάτωση των πρόσθετων γνώσεων που αποκτήθηκαν από το κοινωνικό δίκτυο στον κανόνα εκμάθησης του πίνακα παραγοντοποίησης. Επομένως, σε κάθε εποχή θέλουμε να μεγιστοποιήσουμε την ευθυγράμμιση του διανύσματος ενημέρωσης του χρήστη με τον σταθμισμένο μέσο όρο των διανυσμάτων ενημέρωσης των άμεσων γειτόνων του (όπως ορίζονται από το κοινωνικό δίκτυο) στην αμέσως προηγούμενη εποχή. Επιτυγχάνοντας τη μέγιστη δυνατή ευθυγράμμιση μεταξύ των διαδοχικών διανυσμάτων ενημερώσεων του κάθε χρήστη με εκείνα των άμεσων γειτόνων του, αλλάζουν και τα διανύσματα των έμμεσων γειτόνων του στο κοινωνικό δίκτυο και ως εκ τούτου η επιρροή του κοινωνικού δικτύου διαχέεται κατά τη διάρκεια της εκπαίδευσης. Το SocialFALCON υλοποιείται σε διάφορα πειράματα σε δημοφιλή σύνολα δεδομένων για συστήματα συστάσεων και αξιολογείται σε σύγκριση με άλλες μεθόδους οι οποίες ελαχιστοποιούν την συνάρτηση κόστους χρησιμοποιώντας μεθόδους καθόδου κλίσης χωρίς περιορισμούς. Σε σύγκριση με αυτές τις μεθόδους ο προτεινόμενος αλγόριθμος βελτιώνει την απόδοση όσον αφορά την ταχύτητα σύγκλισης και την ακρίβεια των προτάσεων, ειδικότερα σε χρήστες που έχουν βαθμολογήσει ελάχιστα αντικείμενα. Αυτή η προσέγγιση τροποποιείται κατάλληλα ώστε να εφαρμοστεί στον τομέα της επεξεργασίας φυσικής γλώσσας. Όπως έχει αποδειχθεί, οι μέθοδοι διανυσματικών αναπαραστάσεων κατηγορικών μεταβλητών είναι πολύ ισχυρές και έχουν αξιοσημείωτη απόδοση σε προβλήματα επεξεργασίας φυσικής γλώσσας. Για το λόγο αυτό προτείνεται ένας αποτελεσματικός αλγόριθμος, που ονομάζεται LexiconFALCON, ο οποίος παράγει διανυσματικές αναπαραστάσεις λέξεων (word embeddings) που ενισχύονται από τις σημασιολογικές πληροφορίες. Ο αλγόριθμος LexiconFALCON υιοθετεί το πλαίσιο βελτιστοποίησης υπό περιορισμούς που έχει προταθεί για να αξιοποιήσει την πληροφορία από διαθέσιμες οντολογίες/λεξικά που περιλαμβάνουν συσχετίσεις μεταξύ λέξεων σε μορφή γράφου. Αυτός ο αλγόριθμος εμπνέεται από τον πολύ γνωστό αλγόριθμο GloVe όπου οι αναπαραστάσεις λέξεων μαθαίνονται από την παραγο

Keywords:

Transformer Stochastic gradient descent Algorithm Gradient descent Computer science Artificial intelligence Electrical engineering Artificial neural network Engineering

Metrics

Cited By

0.00

FWCI (Field Weighted Citation Impact)

Refs

Citation Normalized Percentile

Is in top 1%

Is in top 10%

Topics

Natural Language Processing Techniques

Physical Sciences → Computer Science → Artificial Intelligence

Multimodal Machine Learning Applications

Physical Sciences → Computer Science → Computer Vision and Pattern Recognition

Fuzzy Logic and Control Systems

Physical Sciences → Computer Science → Artificial Intelligence

Deep learning algorithms and architectures for natural language processing

Abstract

Metrics

Topics

Related Documents

Deep learning algorithms and architectures for natural language processing

Evaluating Deep Learning Algorithms for Natural Language Processing

Advancements in Deep Learning Architectures for Natural Language Processing Tasks

Application of Deep Learning Algorithms in Natural Language Processing

Applied Natural Language Processing with Python: Implementing Machine Learning and Deep Learning Algorithms for Natural Language Processing