Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.14279/10759
DC FieldValueLanguage
dc.contributor.advisorΤσαπατσούλης, Νικόλας-
dc.contributor.authorΔανός, Θεόδωρος-
dc.date.accessioned2018-03-09T06:10:47Z-
dc.date.available2018-03-09T06:10:47Z-
dc.date.issued2015-
dc.identifier.urihttps://hdl.handle.net/20.500.14279/10759-
dc.description.abstractΣτο διαδίκτυο μέρα με την μέρα δημιουργείται μεγάλος όγκος πληροφορίας. Πληροφορία που όμως είναι αδόμητη. Οι μηχανές αναζήτησης επιτρέπουν ανάκτηση πληροφοριών από αδόμητα δεδομένα βασιζόμενες κατά κύριο λόγο στο κείμενο που υπάρχει στις οικείες ιστοσελίδες. Η ανάγκη για αλγόριθμους βελτιστοποίησης των αποτελεσμάτων (αποδοτικότητα) και απόδοσης των μηχανών αναζήτησης (χρονική αποτελεσματικότητα) είναι μεγάλη. Η ταξινόμηση ιστοσελίδων σε κατηγορίες θεωρείται ότι επιταχύνει την αναζήτηση και επιτρέπει ερωτήματα προσαρμοσμένα στο προφίλ του εκάστοτε χρήστη αυξάνοντας την αποδοτικότητα. Στην παρούσα εργασία εστιάζουμε στην ταξινόμηση ιστοσελίδων σε πορνογραφικές και μη πορνογραφικές δημιουργώντας έτσι έναν αλγόριθμό εντοπισμού πορνογραφικών ιστοσελίδων. Σε αντίθεση με τις υφιστάμενες τεχνικές που βασίζονται στην ανάλυση των εικόνων των ιστοσελίδων για τον εντοπισμό γυμνού η δική μας τεχνική βασίζεται αποκλειστικά σε χαρακτηριστικά κειμένου και στη δομή της ιστοσελίδας. Τα χαρακτηριστικά κειμένου εξάγονται με τη βοήθεια τεχνικών από την περιοχή της ανάκτησης πληροφορίας και συγκεκριμένα με τη μέθοδο tf-df που αποτελεί μια παραλλαγή της πολύ γνωστής μεθόδου tf-idf. Τα χαρακτηριστικά δομής επιλέχθηκαν με ευρυστικό τρόπο και περιλαμβάνουν τον αριθμό των εικόνων της ιστοσελίδας (κανονικοποιημένο και απόλυτο) και τον αριθμό των υπερσυνδέσμων της ιστοσελίδας (κανονικοποιημένο και απόλυτο). Ο ταξινομητής μας εκπαιδεύτηκε με την τεχνική εκμάθησης μέσω παραδειγμάτων με χρήση των χαρακτηριστικών που αναφέρθηκαν νωρίτερα (κειμένου και δομής) με τη βοήθεια διάφορων αλγορίθμων από την περιοχή της μηχανικής μάθησης. Καταλήξαμε ότι την βέλτιστη επίδοση έχει o ταξινομητής Bayesian Net τον οποίο και υιοθετήσαμε για τα τελικά μας πειράματα. Χρησιμοποιώντας ελέγχους σημαντικότητας, και συγκεκριμένα το t-test, δείξαμε ότι η επίδοση του αυτόματου εντοπισμού πορνογραφικών ιστοσελίδων είναι συγκρίσιμη με την χειρωνακτική ταξινόμηση (δηλαδή την ταξινόμηση από ανθρώπους). Πιστεύουμε ότι πέρα από τα επιστημονικά αποτελέσματα η παρούσα ερεύνα είναι σημαντική και σε πρακτικό επίπεδο (για μηχανές αναζήτησης αλλά και για οργανισμούς ή ιδιώτες όπου επιθυμούν την απαγόρευση των πορνογραφικών ιστοσελίδων). Ακόμη, είναι σημαντική για τον αυτόματο εντοπισμό πορνογραφικών ιστοσελίδων στο διαδίκτυο ή σε ενδοδίκτυα.en_US
dc.formatpdfen_US
dc.language.isoelen_US
dc.publisherΤμήμα Επικοινωνίας και Σπουδών Διαδικτύου, Σχολή Επικοινωνίας και Μέσων Ενημέρωσης, Τεχνολογικό Πανεπιστήμιο Κύπρουen_US
dc.rightsΑπαγορέυεται η δημοσίευση ή αναπαραγωγή,ηλεκτρονική η άλλη χωρίς τη γραπτή συγκατάθεση του δημιουργού και κατόχου των πνευματικών δικαιωμάτων.en_US
dc.subjectΤαξινόμηση ιστοσελίδωνen_US
dc.subjectΠορνογραφικέςen_US
dc.subjectΜη πορνογραφικέςen_US
dc.subjectΑλγόριθμοςen_US
dc.subjectΤαξινομητήςen_US
dc.titleΑνίχνευση ιστοσελίδων πορνογραφικού περιεχομένου με βάση το κείμενο και τη δομήen_US
dc.typeBachelors Thesisen_US
dc.affiliationCyprus University of Technologyen_US
dc.relation.deptDepartment of Communication and Internet Studiesen_US
dc.description.statusCompleteden_US
cut.common.academicyear2014-2015en_US
dc.relation.facultyFaculty of Communication and Media Studiesen_US
item.languageiso639-1el-
item.openairecristypehttp://purl.org/coar/resource_type/c_46ec-
item.fulltextWith Fulltext-
item.grantfulltextopen-
item.openairetypebachelorThesis-
item.cerifentitytypePublications-
crisitem.author.deptDepartment of Communication and Marketing-
crisitem.author.facultyFaculty of Communication and Media Studies-
crisitem.author.orcid0000-0002-6739-8602-
crisitem.author.parentorgFaculty of Communication and Media Studies-
Appears in Collections:Πτυχιακές Εργασίες/ Bachelor's Degree Theses
Files in This Item:
File Description SizeFormat
πτυχιακη_θεόδωρος_δανος.pdfFulltext618.11 kBAdobe PDFView/Open
CORE Recommender
Show simple item record

Page view(s) 50

317
Last Week
4
Last month
5
checked on Jul 25, 2024

Download(s) 50

381
checked on Jul 25, 2024

Google ScholarTM

Check


Items in KTISIS are protected by copyright, with all rights reserved, unless otherwise indicated.