Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.14279/33461
Title: Deep Transformer Neural Networks with Stochastic Competition
Authors: Voskou, Andreas 
Keywords: Transformers;deep learning
Advisor: Chatzis, Sotirios P.
Issue Date: Apr-2024
Department: Department of Electrical Engineering, Computer Engineering and Informatics
Faculty: Faculty of Engineering and Technology
Abstract: Transformers have become one of the most successful architectures in deep learning, experiencing a steady rise in popularity. These advanced networks have revolutionized the field of Natural Language Processing (NLP) and are extending their influence into new domains within artificial intelligence and beyond. The recent rise of large language models, fundamentally reliant on Transformer architectures, highlights their effectiveness and underscores their transformative impact. This thesis delves into exploring further capabilities of this deep learning framework by incorporating stochastic methodologies as an essential component of Transformer networks. Our primary focus is on leveraging stochastic competition techniques, proven to be highly advantageous in various contexts, as the cornerstone for developing highperforming models. Instead of focusing on the extensively researched application areas such as NLP, our research pivots to exploring two distinct and significantly different fields: i) Sign Language Translation and ii) Tabular Data Modeling.
Description: Οι Transformers έχουν αναδειχθεί ως ένα από τα πιο επιτυχημένα παραδείγματα αρχιτε- κτονικής στην βαθιά μάθηση, με μεγάλη και σταθερά αυξανόμενη δημοτικότητα. Η συγκε- κριμένη οικογένεια νευρωνικών δικτύων έχει, στο πρόσφατο παρελθόν, φέρει επανάσταση στον τομέα της Επεξεργασίας Φυσικής Γλώσσας (NLP) και επεκτείνεται με ραγδαίους ρυθ- μούς και σε άλλους τομείς. Η πρόσφατη άνοδος των μεγάλων γλωσσικών μοντέλων (LLMs), που βασίζονται στην μεγάλη πλεοψηφία τους σε Transformer, αποτελεί ίσως το ποιό ηχηρό παράδείγμα της κυριαρχίας τους στη σύγχρονη εποχή της τεχνιτής νοημοσύνης. Αυτή η διατριβή εξετάζει τις δυνατότητες και τις προεκτάσεις αυτού του πλαισίου βαθιάς μάθησης συνδιαστικά με την ενσωμάτωση στοχαστικών μεθοδολογιών στα θεμελιώδη δομικά μέρη των δικτύων Transformer. Πιο συγκεκριμένα, εστιάζουμε κυρίως στην αξιοποίηση τεχνικών στοχαστικού ανταγωνισμού, οι οποίες έχουν αποδειχθεί ιδιαίτερα πλεονεκτικές σε διάφορα πλαίσια βελετιώνοντας τις απόδοσεις αντίστοιχων ντετερμινιστικών μοντέλων. Η έρευνά μας στρέφεται πέραν των εκτενώς μελετημένων περιοχων εφαρμογής (NLP, κλπ ), προς την μελέτη δύο εναλλακτικών και ανόμιων μεταξύ τους πεδίων: i) την Μετάφραση Νοηματικής Γλώσσας και ii) την Μοντελοποίηση Δεδομένων Πινάκων, σκοπεύοντας στην γενίκευση των συμπερασμάτων μας.
URI: https://hdl.handle.net/20.500.14279/33461
Rights: Attribution-NonCommercial-NoDerivatives 4.0 International
Type: PhD Thesis
Affiliation: Cyprus University of Technology 
Appears in Collections:Διδακτορικές Διατριβές/ PhD Theses

Files in This Item:
File Description SizeFormat
PHD_Ανδρέας Βοσκού_2024.pdffull text2.98 MBAdobe PDFView/Open
CORE Recommender
Show full item record

Page view(s)

183
Last Week
6
Last month
8
checked on Nov 11, 2025

Download(s)

250
checked on Nov 11, 2025

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons