Εξόρυξη και Ανάλυση Δεδομένων Μεγάλου Όγκου (8ΕΠ01 )
Διδάσκων : Βασίλης Πλαγιανάκος
Βοηθός : Πηγαδάς Βασίλειος
ΕίδοςΕπιλογής (υποχρεωτικό)
Εξάμηνο8
ΠερίοδοςΕΕ
ECTS5
Ώρες Θεωρίας3
Ώρες Εργαστηρίου
Περιγραφή
Το μάθημα αυτό παρέχει μια εισαγωγή στην εξόρυξη δεδομένων και ανακάλυψης γνώσης. Οι βασικές μέθοδοι ομαδοποίησης, κατηγοριοποίησης και πρόβλεψης αναλύονται, καθώς και τα απαραίτητα πρακτικά εργαλεία για την εφαρμογή τους. Στη συνέχεια, επικεντρωνόμαστε σε συγκεκριμένες πτυχές των δεδομένων μεγάλου όγκου, όπως το μεγάλο πλήθος, η υψηλή διάσταση και η ταχύ ροή και ενσωματώνουμε πρακτικές για την διαχείριση τέτοιων δομών (μείωσης διάστασης, σταδιακή ομαδοποίηση) σε μεθοδολογίες εξόρυξης δεδομένων. Τέλος θα μελετηθούν βασικές μέθοδοι για την καταγραφή και αποθήκευση δεδομένων μεγάλου όγκου, μαζί με τις βασικές εφαρμογές τους στην εξόρυξη κοινωνικών δικτύων, στην εξόρυξη κειμένου και στη Βιοϊατρική. Το μάθημα καταλήγει με μια εισαγωγή στην οπτικοποίηση δεδομένων μεγάλου όγκου. Πρόγραμμα: 1. Εξόρυξη δεδομένων και ανακάλυψη γνώσης. Περίληψη των τεχνικών εξόρυξης δεδομένων και εκμάθησης μηχανών. Μελέτη με παραδείγματα στην ομαδοποίηση, την κατηγοριοποίηση και την εξόρυξη προτύπων. 2. Ομαδοποίηση. Ταξινόμηση τεχνικών ομαδοποίησης: με βάση την απόσταση (διαχωρισμός, κέντρα βάρους, γειτνίαση), με βάση την πυκνότητα, ιεραρχικοί εναντίων τμηματικοί. Μέθοδοι ομαδοποίησης με βάση το κέντρο βάρους (k-means), ιεραρχική ομαδοποίηση (συγχωνευτική και διχαστική), ομαδοποίηση βασισμένη στην πυκνότητα (DBSCAN). 3. Μοντέλα κατηγοριοποίησης και πρόβλεψης. Εκμάθηση μοντέλων. Επεξήγηση έναντι πρόβλεψης. Ταξινομητές και δένδρα αποφάσεων βασισμένα σε κανόνες. Αφελής ταξινομητές Bayes. Βασικά μοντέλα εκμάθησης μηχανών (Κ-πλησιέστεροι γείτονες, γραμμική διακριτική ανάλυση, SVM, συνδυαστικές μέθοδοι). 4. Μείωση διάστασης σε δεδομένα μεγάλου όγκου (Ανάλυση Πρωτευουσών Συνιστωσών, Τυχαίες Προβολές, Παράλληλες μέθοδοι) 5. Εξόρυξη προτύπων και κανόνες συσχέτισης. Εξόρυξη προτύπων υψηλής συχνότητας και κανόνες υψηλής εμπιστοσύνης. Μετρικές ενδιαφέροντος για κανόνες και πρότυπα. 6. Δεδομένα μεγάλου όγκου και αναγνώριση κοινωνικής συμπεριφοράς. Τεχνολογίες απόκτησης και διαχείρισης δεδομένων μεγάλου όγκου από το διαδίκτυο. 7. Εξόρυξη σε μέσα κοινωνικής δικτύωσης - Εξόρυξη Κειμένου. Παρακολούθηση των κοινωνικών τάσεων. Βασικές αρχές στην εξόρυξη γνώμης και ανάλυση νοημάτων. Συστήματα συστάσεων. 8. Εφαρμογές στη Βιοϊατρική, γονιδιακές εκφράσεις πληθυσμών, εξόρυξη σε ακολουθίες DNA. 9. Οπτικοποίηση δεδομένων για την ανάλυση. Βασικές αρχές της οπτικής αναπαράστασης δεδομένων: ιεραρχίες, δίκτυα, χάρτες, χρονοσειρές, χωροχρονικά δεδομένα, κείμενο.
Μαθησιακοί Στόχοι
  • Κατανόηση, επιλογή και χρήση των κατάλληλων μεθοδολογιών εξόρυξης δεδομένων.
  • Εισαγωγή στις βασικές αρχές την ανάλυσης δεδομένων μεγάλου όγκου.
  • Απόκτηση εμπειρίας στην χρήση αλγορίθμων ομαδοποίησης σε συνδυασμό με τη μείωση διάστασης.
  • Απόκτηση εμπειρίας στην χρήση αλγορίθμων ομαδοποίησης σε ταχείς ροές δεδομένων.
  • Επέκταση γνώσης και κατανόηση σε πραγματικές εφαρμογές που παράγουν δεδομένα μεγάλου όγκου.
Συγγράμματα/Βιβλιογραφία
  • Data Mining, Εισαγωγικά και Προηγμένα Θέματα Εξόρυξης Γνώσης από Δεδομένα, Margaret H. Dunham, ΕΚΔΟΣΕΙΣ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΜΟΝ. ΕΠΕ, 1η/2004, ΑΘΗΝΑ
  • Εισαγωγή στην Εξόρυξη Δεδομένων και τις Αποθήκες Δεδομένων, Αλ. Νανόπουλος - Γ. Μανωλόπουλος, ΕΚΔΟΣΕΙΣ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΜΟΝ. ΕΠΕ, 1η/2008, ΑΘΗΝΑ
  • Εξόρυξη Γνώσης από Βάσεις Δεδομένων και τον Παγκόσμιο ιστό, Βαζιργιάννης Μιχάλης, Χαλκίδη Μαρία, Γ. ΔΑΡΔΑΝΟΣ - Κ. ΔΑΡΔΑΝΟΣ Ο.Ε., 2η έκδ./2005, ΑΘΗΝΑ
  • Εισαγωγή στην εξόρυξη δεδομένων, Tan Pang - Ning,Steinbach Michael,Kumar Vipin, ΕΚΔΟΣΕΙΣ Α. ΤΖΙΟΛΑ & ΥΙΟΙ Α.Ε., 1η έκδ./2010, ΘΕΣ/ΝΙΚΗ
Τρόπος Εξέτασης
Γραπτή εξέταση στο τέλος του εξαμήνου και προαιρετικές εργασίες.