Παρακαλώ χρησιμοποιήστε αυτό το αναγνωριστικό για να παραπέμψετε ή να δημιουργήσετε σύνδεσμο προς αυτό το τεκμήριο: https://hdl.handle.net/20.500.14279/10759
Τίτλος: Ανίχνευση ιστοσελίδων πορνογραφικού περιεχομένου με βάση το κείμενο και τη δομή
Συγγραφείς: Δανός, Θεόδωρος 
Λέξεις-κλειδιά: Ταξινόμηση ιστοσελίδων;Πορνογραφικές;Μη πορνογραφικές;Αλγόριθμος;Ταξινομητής
Advisor: Τσαπατσούλης, Νικόλας
Ημερομηνία Έκδοσης: 2015
Department: Department of Communication and Internet Studies
Faculty: Faculty of Communication and Media Studies
Περίληψη: Στο διαδίκτυο μέρα με την μέρα δημιουργείται μεγάλος όγκος πληροφορίας. Πληροφορία που όμως είναι αδόμητη. Οι μηχανές αναζήτησης επιτρέπουν ανάκτηση πληροφοριών από αδόμητα δεδομένα βασιζόμενες κατά κύριο λόγο στο κείμενο που υπάρχει στις οικείες ιστοσελίδες. Η ανάγκη για αλγόριθμους βελτιστοποίησης των αποτελεσμάτων (αποδοτικότητα) και απόδοσης των μηχανών αναζήτησης (χρονική αποτελεσματικότητα) είναι μεγάλη. Η ταξινόμηση ιστοσελίδων σε κατηγορίες θεωρείται ότι επιταχύνει την αναζήτηση και επιτρέπει ερωτήματα προσαρμοσμένα στο προφίλ του εκάστοτε χρήστη αυξάνοντας την αποδοτικότητα. Στην παρούσα εργασία εστιάζουμε στην ταξινόμηση ιστοσελίδων σε πορνογραφικές και μη πορνογραφικές δημιουργώντας έτσι έναν αλγόριθμό εντοπισμού πορνογραφικών ιστοσελίδων. Σε αντίθεση με τις υφιστάμενες τεχνικές που βασίζονται στην ανάλυση των εικόνων των ιστοσελίδων για τον εντοπισμό γυμνού η δική μας τεχνική βασίζεται αποκλειστικά σε χαρακτηριστικά κειμένου και στη δομή της ιστοσελίδας. Τα χαρακτηριστικά κειμένου εξάγονται με τη βοήθεια τεχνικών από την περιοχή της ανάκτησης πληροφορίας και συγκεκριμένα με τη μέθοδο tf-df που αποτελεί μια παραλλαγή της πολύ γνωστής μεθόδου tf-idf. Τα χαρακτηριστικά δομής επιλέχθηκαν με ευρυστικό τρόπο και περιλαμβάνουν τον αριθμό των εικόνων της ιστοσελίδας (κανονικοποιημένο και απόλυτο) και τον αριθμό των υπερσυνδέσμων της ιστοσελίδας (κανονικοποιημένο και απόλυτο). Ο ταξινομητής μας εκπαιδεύτηκε με την τεχνική εκμάθησης μέσω παραδειγμάτων με χρήση των χαρακτηριστικών που αναφέρθηκαν νωρίτερα (κειμένου και δομής) με τη βοήθεια διάφορων αλγορίθμων από την περιοχή της μηχανικής μάθησης. Καταλήξαμε ότι την βέλτιστη επίδοση έχει o ταξινομητής Bayesian Net τον οποίο και υιοθετήσαμε για τα τελικά μας πειράματα. Χρησιμοποιώντας ελέγχους σημαντικότητας, και συγκεκριμένα το t-test, δείξαμε ότι η επίδοση του αυτόματου εντοπισμού πορνογραφικών ιστοσελίδων είναι συγκρίσιμη με την χειρωνακτική ταξινόμηση (δηλαδή την ταξινόμηση από ανθρώπους). Πιστεύουμε ότι πέρα από τα επιστημονικά αποτελέσματα η παρούσα ερεύνα είναι σημαντική και σε πρακτικό επίπεδο (για μηχανές αναζήτησης αλλά και για οργανισμούς ή ιδιώτες όπου επιθυμούν την απαγόρευση των πορνογραφικών ιστοσελίδων). Ακόμη, είναι σημαντική για τον αυτόματο εντοπισμό πορνογραφικών ιστοσελίδων στο διαδίκτυο ή σε ενδοδίκτυα.
URI: https://hdl.handle.net/20.500.14279/10759
Rights: Απαγορέυεται η δημοσίευση ή αναπαραγωγή,ηλεκτρονική η άλλη χωρίς τη γραπτή συγκατάθεση του δημιουργού και κατόχου των πνευματικών δικαιωμάτων.
Type: Bachelors Thesis
Affiliation: Cyprus University of Technology 
Εμφανίζεται στις συλλογές:Πτυχιακές Εργασίες/ Bachelor's Degree Theses

Αρχεία σε αυτό το τεκμήριο:
Αρχείο Περιγραφή ΜέγεθοςΜορφότυπος
πτυχιακη_θεόδωρος_δανος.pdfFulltext618.11 kBAdobe PDFΔείτε/ Ανοίξτε
CORE Recommender
Δείξε την πλήρη περιγραφή του τεκμηρίου

Page view(s) 50

317
Last Week
4
Last month
5
checked on 25 Ιουλ 2024

Download(s) 50

381
checked on 25 Ιουλ 2024

Google ScholarTM

Check


Όλα τα τεκμήρια του δικτυακού τόπου προστατεύονται από πνευματικά δικαιώματα