Ανίχνευση ιστοσελίδων πορνογραφικού περιεχομένου με βάση το κείμενο και τη δομή
Date Issued
2015
Author(s)
Advisor
Abstract
Στο διαδίκτυο μέρα με την μέρα δημιουργείται μεγάλος όγκος πληροφορίας.
Πληροφορία που όμως είναι αδόμητη. Οι μηχανές αναζήτησης επιτρέπουν
ανάκτηση πληροφοριών από αδόμητα δεδομένα βασιζόμενες κατά κύριο λόγο
στο κείμενο που υπάρχει στις οικείες ιστοσελίδες. Η ανάγκη για αλγόριθμους
βελτιστοποίησης των αποτελεσμάτων (αποδοτικότητα) και απόδοσης των
μηχανών αναζήτησης (χρονική αποτελεσματικότητα) είναι μεγάλη. Η
ταξινόμηση ιστοσελίδων σε κατηγορίες θεωρείται ότι επιταχύνει την
αναζήτηση και επιτρέπει ερωτήματα προσαρμοσμένα στο προφίλ του
εκάστοτε χρήστη αυξάνοντας την αποδοτικότητα.
Στην παρούσα εργασία εστιάζουμε στην ταξινόμηση ιστοσελίδων σε
πορνογραφικές και μη πορνογραφικές δημιουργώντας έτσι έναν αλγόριθμό
εντοπισμού πορνογραφικών ιστοσελίδων. Σε αντίθεση με τις υφιστάμενες
τεχνικές που βασίζονται στην ανάλυση των εικόνων των ιστοσελίδων για
τον εντοπισμό γυμνού η δική μας τεχνική βασίζεται αποκλειστικά σε
χαρακτηριστικά κειμένου και στη δομή της ιστοσελίδας. Τα χαρακτηριστικά
κειμένου εξάγονται με τη βοήθεια τεχνικών από την περιοχή της ανάκτησης
πληροφορίας και συγκεκριμένα με τη μέθοδο tf-df που αποτελεί μια
παραλλαγή της πολύ γνωστής μεθόδου tf-idf. Τα χαρακτηριστικά δομής
επιλέχθηκαν με ευρυστικό τρόπο και περιλαμβάνουν τον αριθμό των εικόνων
της ιστοσελίδας (κανονικοποιημένο και απόλυτο) και τον αριθμό των
υπερσυνδέσμων της ιστοσελίδας (κανονικοποιημένο και απόλυτο). Ο
ταξινομητής μας εκπαιδεύτηκε με την τεχνική εκμάθησης μέσω
παραδειγμάτων με χρήση των χαρακτηριστικών που αναφέρθηκαν νωρίτερα
(κειμένου και δομής) με τη βοήθεια διάφορων αλγορίθμων από την περιοχή
της μηχανικής μάθησης. Καταλήξαμε ότι την βέλτιστη επίδοση έχει o
ταξινομητής Bayesian Net τον οποίο και υιοθετήσαμε για τα τελικά μας
πειράματα. Χρησιμοποιώντας ελέγχους σημαντικότητας, και συγκεκριμένα το t-test,
δείξαμε ότι η επίδοση του αυτόματου εντοπισμού πορνογραφικών
ιστοσελίδων είναι συγκρίσιμη με την χειρωνακτική ταξινόμηση (δηλαδή την
ταξινόμηση από ανθρώπους).
Πιστεύουμε ότι πέρα από τα επιστημονικά αποτελέσματα η παρούσα ερεύνα
είναι σημαντική και σε πρακτικό επίπεδο (για μηχανές αναζήτησης αλλά και
για οργανισμούς ή ιδιώτες όπου επιθυμούν την απαγόρευση των
πορνογραφικών ιστοσελίδων). Ακόμη, είναι σημαντική για τον αυτόματο
εντοπισμό πορνογραφικών ιστοσελίδων στο διαδίκτυο ή σε ενδοδίκτυα.
Πληροφορία που όμως είναι αδόμητη. Οι μηχανές αναζήτησης επιτρέπουν
ανάκτηση πληροφοριών από αδόμητα δεδομένα βασιζόμενες κατά κύριο λόγο
στο κείμενο που υπάρχει στις οικείες ιστοσελίδες. Η ανάγκη για αλγόριθμους
βελτιστοποίησης των αποτελεσμάτων (αποδοτικότητα) και απόδοσης των
μηχανών αναζήτησης (χρονική αποτελεσματικότητα) είναι μεγάλη. Η
ταξινόμηση ιστοσελίδων σε κατηγορίες θεωρείται ότι επιταχύνει την
αναζήτηση και επιτρέπει ερωτήματα προσαρμοσμένα στο προφίλ του
εκάστοτε χρήστη αυξάνοντας την αποδοτικότητα.
Στην παρούσα εργασία εστιάζουμε στην ταξινόμηση ιστοσελίδων σε
πορνογραφικές και μη πορνογραφικές δημιουργώντας έτσι έναν αλγόριθμό
εντοπισμού πορνογραφικών ιστοσελίδων. Σε αντίθεση με τις υφιστάμενες
τεχνικές που βασίζονται στην ανάλυση των εικόνων των ιστοσελίδων για
τον εντοπισμό γυμνού η δική μας τεχνική βασίζεται αποκλειστικά σε
χαρακτηριστικά κειμένου και στη δομή της ιστοσελίδας. Τα χαρακτηριστικά
κειμένου εξάγονται με τη βοήθεια τεχνικών από την περιοχή της ανάκτησης
πληροφορίας και συγκεκριμένα με τη μέθοδο tf-df που αποτελεί μια
παραλλαγή της πολύ γνωστής μεθόδου tf-idf. Τα χαρακτηριστικά δομής
επιλέχθηκαν με ευρυστικό τρόπο και περιλαμβάνουν τον αριθμό των εικόνων
της ιστοσελίδας (κανονικοποιημένο και απόλυτο) και τον αριθμό των
υπερσυνδέσμων της ιστοσελίδας (κανονικοποιημένο και απόλυτο). Ο
ταξινομητής μας εκπαιδεύτηκε με την τεχνική εκμάθησης μέσω
παραδειγμάτων με χρήση των χαρακτηριστικών που αναφέρθηκαν νωρίτερα
(κειμένου και δομής) με τη βοήθεια διάφορων αλγορίθμων από την περιοχή
της μηχανικής μάθησης. Καταλήξαμε ότι την βέλτιστη επίδοση έχει o
ταξινομητής Bayesian Net τον οποίο και υιοθετήσαμε για τα τελικά μας
πειράματα. Χρησιμοποιώντας ελέγχους σημαντικότητας, και συγκεκριμένα το t-test,
δείξαμε ότι η επίδοση του αυτόματου εντοπισμού πορνογραφικών
ιστοσελίδων είναι συγκρίσιμη με την χειρωνακτική ταξινόμηση (δηλαδή την
ταξινόμηση από ανθρώπους).
Πιστεύουμε ότι πέρα από τα επιστημονικά αποτελέσματα η παρούσα ερεύνα
είναι σημαντική και σε πρακτικό επίπεδο (για μηχανές αναζήτησης αλλά και
για οργανισμούς ή ιδιώτες όπου επιθυμούν την απαγόρευση των
πορνογραφικών ιστοσελίδων). Ακόμη, είναι σημαντική για τον αυτόματο
εντοπισμό πορνογραφικών ιστοσελίδων στο διαδίκτυο ή σε ενδοδίκτυα.
File(s)![Thumbnail Image]()
Name
πτυχιακη_θεόδωρος_δανος.pdf
Size
618.11 KB
Format
Adobe PDF
Checksum (MD5)
a996013ff4f6153db10efd830ce66932

