Deep Transformer Neural Networks with Stochastic Competition

Voskou, Andreas

Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: https://hdl.handle.net/20.500.14279/33461

Τίτλος:	Deep Transformer Neural Networks with Stochastic Competition
Συγγραφείς:	Voskou, Andreas
Λέξεις-κλειδιά:	Transformers;deep learning
Advisor:	Chatzis, Sotirios P.
Ημερομηνία Έκδοσης:	Απρ-2024
Department:	Department of Electrical Engineering, Computer Engineering and Informatics
Faculty:	Faculty of Engineering and Technology
Περίληψη:	Transformers have become one of the most successful architectures in deep learning, experiencing a steady rise in popularity. These advanced networks have revolutionized the field of Natural Language Processing (NLP) and are extending their influence into new domains within artificial intelligence and beyond. The recent rise of large language models, fundamentally reliant on Transformer architectures, highlights their effectiveness and underscores their transformative impact. This thesis delves into exploring further capabilities of this deep learning framework by incorporating stochastic methodologies as an essential component of Transformer networks. Our primary focus is on leveraging stochastic competition techniques, proven to be highly advantageous in various contexts, as the cornerstone for developing highperforming models. Instead of focusing on the extensively researched application areas such as NLP, our research pivots to exploring two distinct and significantly different fields: i) Sign Language Translation and ii) Tabular Data Modeling.
Description:	Οι Transformers έχουν αναδειχθεί ως ένα από τα πιο επιτυχημένα παραδείγματα αρχιτε- κτονικής στην βαθιά μάθηση, με μεγάλη και σταθερά αυξανόμενη δημοτικότητα. Η συγκε- κριμένη οικογένεια νευρωνικών δικτύων έχει, στο πρόσφατο παρελθόν, φέρει επανάσταση στον τομέα της Επεξεργασίας Φυσικής Γλώσσας (NLP) και επεκτείνεται με ραγδαίους ρυθ- μούς και σε άλλους τομείς. Η πρόσφατη άνοδος των μεγάλων γλωσσικών μοντέλων (LLMs), που βασίζονται στην μεγάλη πλεοψηφία τους σε Transformer, αποτελεί ίσως το ποιό ηχηρό παράδείγμα της κυριαρχίας τους στη σύγχρονη εποχή της τεχνιτής νοημοσύνης. Αυτή η διατριβή εξετάζει τις δυνατότητες και τις προεκτάσεις αυτού του πλαισίου βαθιάς μάθησης συνδιαστικά με την ενσωμάτωση στοχαστικών μεθοδολογιών στα θεμελιώδη δομικά μέρη των δικτύων Transformer. Πιο συγκεκριμένα, εστιάζουμε κυρίως στην αξιοποίηση τεχνικών στοχαστικού ανταγωνισμού, οι οποίες έχουν αποδειχθεί ιδιαίτερα πλεονεκτικές σε διάφορα πλαίσια βελετιώνοντας τις απόδοσεις αντίστοιχων ντετερμινιστικών μοντέλων. Η έρευνά μας στρέφεται πέραν των εκτενώς μελετημένων περιοχων εφαρμογής (NLP, κλπ ), προς την μελέτη δύο εναλλακτικών και ανόμιων μεταξύ τους πεδίων: i) την Μετάφραση Νοηματικής Γλώσσας και ii) την Μοντελοποίηση Δεδομένων Πινάκων, σκοπεύοντας στην γενίκευση των συμπερασμάτων μας.
URI:	https://hdl.handle.net/20.500.14279/33461
Rights:	Attribution-NonCommercial-NoDerivatives 4.0 International
Type:	PhD Thesis
Affiliation:	Cyprus University of Technology
Εμφανίζεται στις συλλογές:	Διδακτορικές Διατριβές/ PhD Theses

Αρχεία σε αυτό το τεκμήριο:

Αρχείο	Περιγραφή	Μέγεθος	Μορφότυπος
PHD_Ανδρέας Βοσκού_2024.pdf	full text	2.98 MB	Adobe PDF	Δείτε/ Ανοίξτε

CORE Recommender

Δείξε την πλήρη περιγραφή του τεκμηρίου

Page view(s)

197

Last Week
5

Last month
19

checked on 5 Δεκ 2025

Download(s)

284

checked on 5 Δεκ 2025

Google Scholar^TM

Check

Αυτό το τεκμήριο προστατεύεται από άδεια Άδεια Creative Commons

Αρχεία σε αυτό το τεκμήριο:

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM