Stochastic Deep Networks with Linear Competing Units for Transfer Learning

Kalais, Konstantinos

Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.14279/31268

Title:	Stochastic Deep Networks with Linear Competing Units for Transfer Learning
Authors:	Kalais, Konstantinos
Keywords:	Bayesian Deep Learning;Machine Learning
Advisor:	Chatzis, Sotirios P.
Issue Date:	Jan-2024
Department:	Department of Electrical Engineering, Computer Engineering and Informatics
Faculty:	Faculty of Engineering and Technology
Abstract:	Deep Learning (DL) has become the preferred approach to addressing various challenging machine learning (MLe) tasks, like computer vision, natural language processing, and speech recognition. Deep Neural Networks (DNN's) have achieved superior performance in those tasks compared to traditional MLe methods. However, they entail a huge number of weights causing them to make over-confident predictions, that may reduce their generalization capacity in hard problems, e.g. a Meta-Learning (ML) scenario. To mitigate this issue, researchers have applied Bayesian modeling to DNN's, where they employ Bayesian Neural Networks (BNN's) with more robust and tractable estimates of uncertainty in a model's predictions. That way, we can build safer MLe systems in safety-critical applications, such as healthcare, video recognition, and autonomous vehicle control. DL models trained to solve a single task suffer from a common drawback: they cannot combine data from diverse tasks in order to learn new tasks in a future training round. Such models often require extensive training and data collection for each task individually, which can be time-consuming and data-intensive. This limitation has given rise to the importance of research in ML. This field aims to address these shortcomings by developing methods that allow existing models to efficiently learn from and adapt quickly to new tasks, by leveraging knowledge gained from previous tasks. Therefore, ML methods aim to make models more capable of generalizing well to unseen tasks with just a small amount of examples; this is the so-called problem of few-shot learning. In this thesis, we aim to study how some existing DL methods for ML are used to tackle this phenomenon, and suggest a novel ML method regarding improving generalization capacity, predictive performance, and computational efficiency. Specifically, our proposed approach relies on the concepts of stochastic and sparse learned representations. In that way, we aim to define a sparse and stochastic network paradigm for ML, with novel network design principles compared to currently used ML models; we use stochastic deep networks with linear competing units in the context of model-agnostic ML. As we empirically show, our approach produces state-of-the-art predictive accuracy on few-shot image classification and regression experiments, as well as reduced predictive error on an active learning setting; these improvements come with an immensely reduced computational cost. These encouraging results, further motivate us to also examine the case where we do not have all tasks available beforehand, but they come in sequentially. In such a case, a DNN should learn to adapt to this continuous stream of data, effectively handling a major problem that affects DNN's in such settings, namely catastrophic forgetting. Continual Learning (CL) methods are designed to mitigate or reduce this issue. Specifically, such a method learns the DNN to accumulate new knowledge after a few training iterations on a new data distribution, and avoid drastically forgetting previously learned information from older tasks. Recently, researchers have developed various approaches in order to counteract this problem. To address this challenge, this thesis proposes a radically different regard toward addressing catastrophic forgetting in CL tasks, and especially in a famous variant of CL called class-incremental learning (CIL). Our approach is founded upon the framework of stochastic local competition which is implemented in a task-wise manner. We have shown that it produces state-of-the-art predictive accuracy on few-shot image classification experiments, and imposes a considerably lower computational overhead compared to the current state-of-the-art.
Description:	Η βαθιά μάθηση (DL) έχει γίνει η προτιμώμενη προσέγγιση για την αντιμετώπιση διαφόρων απαιτητικών εργασιών μηχανικής μάθησης (MLe), όπως η όραση υπολογιστών, η επεξεργασία φυσικής γλώσσας και η αναγνώριση ομιλίας. Τα βαθιά νευρωνικά δίκτυα (DNN) έχουν επιτύχει ανώτερες επιδόσεις σε αυτές τις εργασίες σε σύγκριση με τις παραδοσιακές μεθόδους MLe. Ωστόσο, εμπεριέχουν έναν τεράστιο αριθμό βαρών με αποτέλεσμα να κάνουν υπερβολικά σίγουρες προβλέψεις, γεγονός που μπορεί να μειώσει την ικανότητα γενίκευσής τους σε δύσκολα προβλήματα, π.χ. σε ένα σενάριο μετα-μάθησης (ML). Για να μετριάσουν αυτό το πρόβλημα, οι ερευνητές έχουν εφαρμόσει την Μπεϋζιανή μοντελοποίηση στα DNN, όπου χρησιμοποιούν Μπεϋζιανά Νευρωνικά Δίκτυα (BNN) με καλύτερες και πιο αξιόπιστες εκτιμήσεις της αβεβαιότητας στις προβλέψεις ενός μοντέλου. Με αυτόν τον τρόπο, μπορούμε να κατασκευάσουμε ασφαλέστερα συστήματα MLe σε κρίσιμες για την ασφάλεια εφαρμογές, όπως η υγειονομική περίθαλψη, η αναγνώριση βίντεο και ο αυτόνομος έλεγχος οχημάτων. Τα μοντέλα DL που εκπαιδεύονται για την επίλυση μιας μόνο εργασίας έχουν ένα κοινό μειονέκτημα: δεν μπορούν να συνδυάσουν δεδομένα από διαφορετικές εργασίες προκειμένου να μάθουν νέες εργασίες σε έναν μελλοντικό γύρο εκπαίδευσης. Τέτοια μοντέλα συχνά απαιτούν εκτεταμένη εκπαίδευση και συλλογή δεδομένων για κάθε εργασία ξεχωριστά, η οποία μπορεί να είναι χρονοβόρα και να απαιτεί μεγάλο πλήθος δεδομένων. Αυτός ο περιορισμός έχει δώσει το έναυσμα για τη εξέλιξη της έρευνας στην ML. Ο τομέας αυτός αποσκοπεί στην αντιμετώπιση αυτών των ελλείψεων με την ανάπτυξη μεθόδων που επιτρέπουν στα υπάρχοντα μοντέλα να μαθαίνουν αποτελεσματικά από νέες εργασίες και να προσαρμόζονται γρήγορα σε αυτές, αξιοποιώντας τη γνώση που αποκτήθηκε από προηγούμενες εργασίες. Ως εκ τούτου, οι μέθοδοι ML αποσκοπούν στο να καταστήσουν τα μοντέλα πιο ικανά να γενικεύουν καλά σε άγνωστες εργασίες με μικρό μόνο αριθμό παραδειγμάτων· αυτό είναι το λεγόμενο πρόβλημα της εκμάθησης με λίγα βήματα (few-shot learning). Στην παρούσα διατριβή, σκοπός μας είναι να μελετήσουμε πώς ορισμένες υπάρχουσες DL μέθοδοι χρησιμοποιούνται για την αντιμετώπιση αυτού του φαινομένου στην ML, και να προτείνουμε μια νέα μέθοδο ML η οποία βελτιώνει την ικανότητα γενίκευσης, την απόδοση πρόβλεψης και την υπολογιστική αποδοτικότητα. Συγκεκριμένα, η προτεινόμενη προσέγγισή μας βασίζεται στις έννοιες των στοχαστικών και αραιών αναπαραστάσεων. Με αυτόν τον τρόπο, στοχεύουμε να δημιουργήσουμε ένα πρότυπο μοντέλο αραιών και στοχαστικών δικτύων για την ML, με νέες αρχές σχεδιασμού δικτύων σε σύγκριση με τα ήδη υπάρχοντα ML μοντέλα· χρησιμοποιούμε στοχαστικά βαθιά δίκτυα με γραμμικούς ανταγωνιστικούς νευρώνες στο πλαίσιο της model-agnostic ML. Όπως δείχνουμε εμπειρικά, η προσέγγισή μας παράγει κορυφαία ακρίβεια πρόβλεψης σε πειράματα ταξινόμησης και παλινδρόμησης σε σύνολα δεδομένων που αποτελούνται από εικόνες, καθώς και μειωμένο σφάλμα πρόβλεψης σε ένα περιβάλλον ενεργητικής μάθησης· οι βελτιώσεις αυτές συνοδεύονται και από ένα εξαιρετικά μειωμένο υπολογιστικό κόστος. Αυτά τα ενθαρρυντικά αποτελέσματα, μας παρακινούν να εξετάσουμε επίσης την περίπτωση όπου δεν έχουμε όλες τις εργασίες διαθέσιμες εκ των προτέρων, αλλά έρχονται διαδοχικά. Σε μια τέτοια περίπτωση, ένα DNN θα πρέπει να μάθει να προσαρμόζεται σε αυτή τη συνεχή ροή δεδομένων, αντιμετωπίζοντας αποτελεσματικά ένα σημαντικό πρόβλημα που επηρεάζει τα DNN σε τέτοια περιβάλλοντα, το catastrophic forgetting. Οι μέθοδοι συνεχούς μάθησης (CL) έχουν σχεδιαστεί για να μετριάσουν ή να μειώσουν αυτό το πρόβλημα. Συγκεκριμένα, μια τέτοια μέθοδος μαθαίνει το DNN να συσσωρεύει νέα γνώση μετά από μερικές επαναλήψεις εκπαίδευσης σε μια νέα κατανομή δεδομένων και να αποφεύγει να ξεχνάει τις πληροφορίες που είχε μάθει προηγουμένως από παλαιότερες εργασίες. Πρόσφατα, οι ερευνητές έχουν αναπτύξει διάφορες προσεγγίσεις προκειμένου να αντιμετωπίσουν αυτό το πρόβλημα. Για την αντιμετώπιση αυτής της πρόκλησης, η παρούσα διατριβή προτείνει μια ριζικά διαφορετική προσέγγιση για την αντιμετώπιση του catastrophic forgetting σε εργασίες CL, και ιδιαίτερα σε μια γνωστή παραλλαγή της CL που ονομάζεται class-incremental learning (CIL). Η προσέγγισή μας βασίζεται στο πλαίσιο του στοχαστικού τοπικού ανταγωνισμού, ο οποίος λαμβάνει μέρος ανά εργασία. Αποδείξαμε ότι παράγει κορυφαία ακρίβεια πρόβλεψης σε πειράματα ταξινόμησης δεδομένων από εικόνες και επιβάλλει σημαντικά μικρότερη υπολογιστική επιβάρυνση σε σύγκριση με τα πιο πρόσφατα καλύτερα μοντέλα του κλάδου.
URI:	https://hdl.handle.net/20.500.14279/31268
Rights:	Attribution-NonCommercial-NoDerivatives 4.0 International
Type:	PhD Thesis
Affiliation:	Cyprus University of Technology
Appears in Collections:	Διδακτορικές Διατριβές/ PhD Theses

Files in This Item:

File	Description	Size	Format
Thesis_Kalais.pdf	Fulltext	8.37 MB	Adobe PDF	View/Open

CORE Recommender

Show full item record

Google Scholar^TM

Check

This item is licensed under a Creative Commons License

Files in This Item:

Google ScholarTM

Google Scholar^TM