Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.14279/10759
Title: Ανίχνευση ιστοσελίδων πορνογραφικού περιεχομένου με βάση το κείμενο και τη δομή
Authors: Δανός, Θεόδωρος 
Keywords: Ταξινόμηση ιστοσελίδων;Πορνογραφικές;Μη πορνογραφικές;Αλγόριθμος;Ταξινομητής
Advisor: Τσαπατσούλης, Νικόλας
Issue Date: 2015
Department: Department of Communication and Internet Studies
Faculty: Faculty of Communication and Media Studies
Abstract: Στο διαδίκτυο μέρα με την μέρα δημιουργείται μεγάλος όγκος πληροφορίας. Πληροφορία που όμως είναι αδόμητη. Οι μηχανές αναζήτησης επιτρέπουν ανάκτηση πληροφοριών από αδόμητα δεδομένα βασιζόμενες κατά κύριο λόγο στο κείμενο που υπάρχει στις οικείες ιστοσελίδες. Η ανάγκη για αλγόριθμους βελτιστοποίησης των αποτελεσμάτων (αποδοτικότητα) και απόδοσης των μηχανών αναζήτησης (χρονική αποτελεσματικότητα) είναι μεγάλη. Η ταξινόμηση ιστοσελίδων σε κατηγορίες θεωρείται ότι επιταχύνει την αναζήτηση και επιτρέπει ερωτήματα προσαρμοσμένα στο προφίλ του εκάστοτε χρήστη αυξάνοντας την αποδοτικότητα. Στην παρούσα εργασία εστιάζουμε στην ταξινόμηση ιστοσελίδων σε πορνογραφικές και μη πορνογραφικές δημιουργώντας έτσι έναν αλγόριθμό εντοπισμού πορνογραφικών ιστοσελίδων. Σε αντίθεση με τις υφιστάμενες τεχνικές που βασίζονται στην ανάλυση των εικόνων των ιστοσελίδων για τον εντοπισμό γυμνού η δική μας τεχνική βασίζεται αποκλειστικά σε χαρακτηριστικά κειμένου και στη δομή της ιστοσελίδας. Τα χαρακτηριστικά κειμένου εξάγονται με τη βοήθεια τεχνικών από την περιοχή της ανάκτησης πληροφορίας και συγκεκριμένα με τη μέθοδο tf-df που αποτελεί μια παραλλαγή της πολύ γνωστής μεθόδου tf-idf. Τα χαρακτηριστικά δομής επιλέχθηκαν με ευρυστικό τρόπο και περιλαμβάνουν τον αριθμό των εικόνων της ιστοσελίδας (κανονικοποιημένο και απόλυτο) και τον αριθμό των υπερσυνδέσμων της ιστοσελίδας (κανονικοποιημένο και απόλυτο). Ο ταξινομητής μας εκπαιδεύτηκε με την τεχνική εκμάθησης μέσω παραδειγμάτων με χρήση των χαρακτηριστικών που αναφέρθηκαν νωρίτερα (κειμένου και δομής) με τη βοήθεια διάφορων αλγορίθμων από την περιοχή της μηχανικής μάθησης. Καταλήξαμε ότι την βέλτιστη επίδοση έχει o ταξινομητής Bayesian Net τον οποίο και υιοθετήσαμε για τα τελικά μας πειράματα. Χρησιμοποιώντας ελέγχους σημαντικότητας, και συγκεκριμένα το t-test, δείξαμε ότι η επίδοση του αυτόματου εντοπισμού πορνογραφικών ιστοσελίδων είναι συγκρίσιμη με την χειρωνακτική ταξινόμηση (δηλαδή την ταξινόμηση από ανθρώπους). Πιστεύουμε ότι πέρα από τα επιστημονικά αποτελέσματα η παρούσα ερεύνα είναι σημαντική και σε πρακτικό επίπεδο (για μηχανές αναζήτησης αλλά και για οργανισμούς ή ιδιώτες όπου επιθυμούν την απαγόρευση των πορνογραφικών ιστοσελίδων). Ακόμη, είναι σημαντική για τον αυτόματο εντοπισμό πορνογραφικών ιστοσελίδων στο διαδίκτυο ή σε ενδοδίκτυα.
URI: https://hdl.handle.net/20.500.14279/10759
Rights: Απαγορέυεται η δημοσίευση ή αναπαραγωγή,ηλεκτρονική η άλλη χωρίς τη γραπτή συγκατάθεση του δημιουργού και κατόχου των πνευματικών δικαιωμάτων.
Type: Bachelors Thesis
Affiliation: Cyprus University of Technology 
Appears in Collections:Πτυχιακές Εργασίες/ Bachelor's Degree Theses

Files in This Item:
File Description SizeFormat
πτυχιακη_θεόδωρος_δανος.pdfFulltext618.11 kBAdobe PDFView/Open
CORE Recommender
Show full item record

Page view(s) 50

299
Last Week
0
Last month
8
checked on Apr 27, 2024

Download(s) 10

361
checked on Apr 27, 2024

Google ScholarTM

Check


Items in KTISIS are protected by copyright, with all rights reserved, unless otherwise indicated.