JOURNAL ARTICLE

Unsupervised Adversarial Video Summarization with Diverse Captions

Abstract

Σκοπός της διπλωματικής ήταν η μελέτη της « Μη Επιβλεπόμενης Περίληψης Βίντεο με Ποικίλους Υπότιτλους» - “Unsupervised Adversarial Video Summarization with Diverse Captions”. Η συνοπτική παρουσίαση βίντεο έγινε πρόσφατα ένας ενεργός τομέας έρευνας, λόγω πολλών πιθανών εφαρμογών, όπως στη βιομηχανία ψυχαγωγίας, τον αθλητισμό και την παρακολούθηση. Η περίληψη βίντεο είναι ένα από τα πιο σημαντικά θέματα, τα οποία ενδέχεται να επιτρέψουν την ταχύτερη περιήγηση μεγάλων συλλογών βίντεο και επίσης πιο αποτελεσματική δημιουργία ευρετηρίων περιεχομένου και πρόσβαση. Ουσιαστικά, αυτός ο τομέας έρευνας αποτελείται από τη δημιουργία μιας σύντομης περίληψης ενός βίντεο, το οποίο μπορεί είτε να είναι μια στατική περίληψη είτε μια δυναμική περίληψη. Οι στατικές περιλήψεις βίντεο αποτελούνται από ένα σύνολο βασικών καρέ που εξάγονται από το αρχικό βίντεο, ενώ οι δυναμικές περιλήψεις βίντεο αποτελούνται από ένα σύνολο λήψεων και παράγονται λαμβάνοντας υπόψη την ομοιότητα ή τις ειδικές σχέσεις τομέα μεταξύ όλων των λήψεων βίντεο. Εξετάσαμε λοιπόν την ορολογία που χρησιμοποιείται για την Περίληψη Βίντεο-Video Summarization γενικά και ειδικά. Στη συνέχεια παρουσιάσαμε αναλυτικά τις κατηγορίες Περίληψης Βίντεο καθώς και τις διάφορες μεθοδολογίες που χρησιμοποιούνται για την Περίληψη Βίντεο και την Περίληψη Βίντεο με Γενετικά Δίκτυα Αντιπαραθέσεων-GANs. Ακόμη αναφερθήκαμε αναλυτικότερα σε κάποιες συγκεκριμένες τεχνικές δημιουργίας περίληψης βίντεο με Γενετικά Δίκτυα Αντιπαραθέσεων. Τα Γενετικά Δίκτυα Αντιπαραθέσεων - Generative Adversarial Networks - GAN) είναι μια κατηγορία συστημάτων μηχανικής μάθησης που εφευρέθηκε από τον Ian Goodfellow και τους συναδέλφους του το 2014. Βασίζονται στην λογική της αντιπαλικής μάθησης. Δύο νευρωνικά δίκτυα διαγωνίζονται σε ένα παίγνιο (με την έννοια της θεωρίας παιγνίων, συχνά αλλά όχι πάντα με τη μορφή ενός παιγνίου μηδενικού αθροίσματος ). Δοθέντος ενός συνόλου εκπαίδευσης, αυτή η τεχνική μαθαίνει να δημιουργεί νέα δεδομένα με τα ίδια στατιστικά στοιχεία. Για παράδειγμα, ένα αντιπαλικό δίκτυο εκπαιδευμένο σε φωτογραφίες μπορεί να δημιουργήσει νέες φωτογραφίες που φαίνονται τουλάχιστον επιφανειακά αυθεντικές στους ανθρώπινους παρατηρητές, έχοντας πολλά ρεαλιστικά χαρακτηριστικά. Αν και αρχικά προτάθηκαν αμιγώς ως μορφή παραγωγικού μοντέλου για εφαρμογές μη επιβλεπόμενη μάθηση, τα Γενετικά Δίκτυα Αντιπαραθέσεων έχουν επίσης αποδειχθεί χρήσιμα για την ημι-εποπτευόμενη μάθηση, την πλήρως εποπτευόμενη μάθηση και ενισχυτική μάθηση. Ένα άλλο θέμα που θίξαμε ήταν η δημιουργία Λεζάντας Βίντεο-Video Captioning. Οι λεζάντες βίντεο-Video Captioning, αναφέρονται ως το πρόβλημα της δημιουργίας μιας περιγραφή κειμένου για ένα δεδομένο περιεχόμενο βίντεο. Κατά τη διάρκεια των περασμένων ετών παρατηρήθηκε ότι η διεπιστημονική φύση του προβλήματος αυτού άνοιξε τεράστιες νέες δυνατότητες αλληλεπίδρασης με συλλογές βίντεο και έχει αυξηθεί ερευνητική προσπάθεια για αυτό το θέμα. Αναφερθήκαμε λοιπόν αναλυτικά στους ορισμούς της Λεζάντας, Λεζάντας Εικόνας και της Λεζάντας Βίντεο. Στη συνέχεια παρουσιάσαμε αναλυτικά τα σύνολα δεδομένων-Datasets που χρησιμοποιούνται για την δημιουργία της Λεζάντας Βίντεο και τις διάφορες τεχνικές δημιουργίας Λεζάντας Βίντεο. Ακόμη ασχοληθήκαμε αναλυτικά με τις διάφορες μεθόδους μετρήσεων και αξιολογήσεων της δημιουργίας Λεζάντας Βίντεο και παρουσιάσαμε κάποιες μελλοντικές κατευθύνσεις και προσεγγίσεις σχετικά με την δημιουργία Λεζάντας Βίντεο. Ασχοληθήκαμε επιπλέον με το βασικότερο θέμα, την προτεινόμενη έρευνα της διπλωματικής για τη βελτίωση της περίληψης βίντεο με τη βοήθεια της μεθόδου «Απώλειας καθοριστικού σημείου διαδικασίας (DPP)» (Determinantal Point Process (DPP) loss). Οι διαδικασίες καθοριστικών σημείων (DPP), είναι κομψά πιθανολογικά μοντέλα απωθήσεως που προκύπτουν από τη κβαντική φυσική και τη θεωρία των τυχαίων πινάκων. Τα DPP προσφέρουν αποτελεσματικούς και ακριβείς αλγόριθμους για δειγματοληψία, περιθωριοποίηση, ρύθμιση και άλλα συμπερασματικές εργασίες. Τα DPP μπορούν να εφαρμοστούν σε πραγματικές εφαρμογές όπως βρίσκοντας διαφορετικά σύνολα υψηλής ποιότητας αποτελεσμάτων αναζήτησης, χτίζοντας ενημερωτικές περιλήψεις επιλέγοντας διαφορετικές προτάσεις από έγγραφα, μοντελοποίηση μη αλληλεπικαλυπτόμενων ανθρώπινων στάσεων (poses) σε εικόνες ή βίντεο, και δημιουργώντας αυτόματα χρονοδιαγράμματα σημαντικών ιστοριών ειδήσεων. Αναλύσαμε λοιπόν την προτεινόμενη μέθοδο, δηλαδή σε ποιο ήδη υπάρχον μοντέλο βασίστηκε (SUM-GAN-AAE), το μαθηματικό μοντέλο που ορίσαμε, την αρχιτεκτονική του, τα σενάρια για τα οποία θα υλοποιούνταν, καθώς επίσης προτείναμε και μία νεωτεριστική προσέγγιση χρησιμοποιώντας ένα προεκπαιδευμένο νευρωνικό δίκτυο LSTM προκειμένου να έχουμε καλλίτερα αποτελέσματα. Αναφερθήκαμε αναλυτικά στα μοντέλα των συνόλων δεδομένων-Datasets που χρησιμοποιήσαμε για το πείραμα μας, καθώς επίσης και στην υλοποίηση της μεθόδου του πειράματος και του νεωτερισμού μας. Τέλος παραθέσαμε τα αποτελέσματα του πειράματος, τα αξιολογήσαμε και τα συγκρίναμε με την προηγούμενη μέθοδο στην οποία είχαμε βασιστεί

Keywords:
Automatic summarization Adversarial system Generative grammar Key (lock) Multi-document summarization

Metrics

0
Cited By
0.00
FWCI (Field Weighted Citation Impact)
0
Refs
0.27
Citation Normalized Percentile
Is in top 1%
Is in top 10%

Topics

Video Analysis and Summarization
Physical Sciences →  Computer Science →  Computer Vision and Pattern Recognition
Generative Adversarial Networks and Image Synthesis
Physical Sciences →  Computer Science →  Computer Vision and Pattern Recognition
Multimodal Machine Learning Applications
Physical Sciences →  Computer Science →  Computer Vision and Pattern Recognition
© 2026 ScienceGate Book Chapters — All rights reserved.