Repository logoCyprus University of Technology
Log In(current)
Ελληνικά
English
  1. Home
  2. Cyprus University of Technology (Research Output)
  3. Πτυχιακές Εργασίες/ Bachelor's Degree Theses
  4. Ανίχνευση ιστοσελίδων πορνογραφικού περιεχομένου με βάση το κείμενο και τη δομή
  • Details

Ανίχνευση ιστοσελίδων πορνογραφικού περιεχομένου με βάση το κείμενο και τη δομή

Date Issued
2015
Author(s)
Δανός, Θεόδωρος  
Advisor
Τσαπατσούλης, Νικόλας  
Abstract
Στο διαδίκτυο μέρα με την μέρα δημιουργείται μεγάλος όγκος πληροφορίας.
Πληροφορία που όμως είναι αδόμητη. Οι μηχανές αναζήτησης επιτρέπουν
ανάκτηση πληροφοριών από αδόμητα δεδομένα βασιζόμενες κατά κύριο λόγο
στο κείμενο που υπάρχει στις οικείες ιστοσελίδες. Η ανάγκη για αλγόριθμους
βελτιστοποίησης των αποτελεσμάτων (αποδοτικότητα) και απόδοσης των
μηχανών αναζήτησης (χρονική αποτελεσματικότητα) είναι μεγάλη. Η
ταξινόμηση ιστοσελίδων σε κατηγορίες θεωρείται ότι επιταχύνει την
αναζήτηση και επιτρέπει ερωτήματα προσαρμοσμένα στο προφίλ του
εκάστοτε χρήστη αυξάνοντας την αποδοτικότητα.
Στην παρούσα εργασία εστιάζουμε στην ταξινόμηση ιστοσελίδων σε
πορνογραφικές και μη πορνογραφικές δημιουργώντας έτσι έναν αλγόριθμό
εντοπισμού πορνογραφικών ιστοσελίδων. Σε αντίθεση με τις υφιστάμενες
τεχνικές που βασίζονται στην ανάλυση των εικόνων των ιστοσελίδων για
τον εντοπισμό γυμνού η δική μας τεχνική βασίζεται αποκλειστικά σε
χαρακτηριστικά κειμένου και στη δομή της ιστοσελίδας. Τα χαρακτηριστικά
κειμένου εξάγονται με τη βοήθεια τεχνικών από την περιοχή της ανάκτησης
πληροφορίας και συγκεκριμένα με τη μέθοδο tf-df που αποτελεί μια
παραλλαγή της πολύ γνωστής μεθόδου tf-idf. Τα χαρακτηριστικά δομής
επιλέχθηκαν με ευρυστικό τρόπο και περιλαμβάνουν τον αριθμό των εικόνων
της ιστοσελίδας (κανονικοποιημένο και απόλυτο) και τον αριθμό των
υπερσυνδέσμων της ιστοσελίδας (κανονικοποιημένο και απόλυτο). Ο
ταξινομητής μας εκπαιδεύτηκε με την τεχνική εκμάθησης μέσω
παραδειγμάτων με χρήση των χαρακτηριστικών που αναφέρθηκαν νωρίτερα
(κειμένου και δομής) με τη βοήθεια διάφορων αλγορίθμων από την περιοχή
της μηχανικής μάθησης. Καταλήξαμε ότι την βέλτιστη επίδοση έχει o
ταξινομητής Bayesian Net τον οποίο και υιοθετήσαμε για τα τελικά μας
πειράματα. Χρησιμοποιώντας ελέγχους σημαντικότητας, και συγκεκριμένα το t-test,
δείξαμε ότι η επίδοση του αυτόματου εντοπισμού πορνογραφικών
ιστοσελίδων είναι συγκρίσιμη με την χειρωνακτική ταξινόμηση (δηλαδή την
ταξινόμηση από ανθρώπους).
Πιστεύουμε ότι πέρα από τα επιστημονικά αποτελέσματα η παρούσα ερεύνα
είναι σημαντική και σε πρακτικό επίπεδο (για μηχανές αναζήτησης αλλά και
για οργανισμούς ή ιδιώτες όπου επιθυμούν την απαγόρευση των
πορνογραφικών ιστοσελίδων). Ακόμη, είναι σημαντική για τον αυτόματο
εντοπισμό πορνογραφικών ιστοσελίδων στο διαδίκτυο ή σε ενδοδίκτυα.
Subjects

Ταξινόμηση ιστοσελίδω...

Πορνογραφικές

Μη πορνογραφικές

Αλγόριθμος

Ταξινομητής

File(s)
Thumbnail Image
Name

πτυχιακη_θεόδωρος_δανος.pdf

Size

618.11 KB

Format

Adobe PDF

Checksum (MD5)

a996013ff4f6153db10efd830ce66932

Explore by
  • Collections
  • Research Outputs
  • Researchers
  • Faculty & Departments
  • Theses
  • Patents
  • Projects
  • Journals
  • Conferences
Useful Links
  • Researcher Portfolio Guide
  • Researcher Profile
  • Create an ORCID ID
  • CUT Open Access Author Fund
  • ETDS Guide
Copyright Policies

Use Sherpa/Romeo to find publisher copyright policies

Go
Go
  • SPARC Author Addendum Engine
  • National Open Access Policy in Cyprus
Deposit your work to Ktisis
  • Self-archiving. Please sign in to Ktisis.
  • Email your work to:
    library.dspace@cut.ac.cy
  • Contact your subject librarian

Member of

OpenAIREre3dataOpenDOARCOREDART
Cyprus University of Technology
Library and
Information
Services

Copyright © 2022 - Library and Information Services Feedback - Built with DSpace-CRIS - 4Science

  • Accessibility settings
  • Privacy policy
  • End User Agreement
COAR NotifyCOAR Notify