Το λήμμα παραθέτει τις πηγές του αόριστα, χωρίς παραπομπές. |
Συσταδοποίηση είναι η διαδικασία εκείνη κατά την οποία ένα σύνολο από «αντικείμενα», διαχωρίζονται σε ένα σύνολο από λογικές ομάδες. Η καταχώρηση αντικειμένων σε ίδια ομάδα μεταφράζεται ως ομοιότητα των αντικειμένων αυτών και αντίστροφα (αντικείμενα που ανήκουν σε διαφορετικές ομάδες είναι ανόμοια). Η ομοιότητα ή μη, μεταξύ των αντικείμενων, ουσιαστικά εξαρτάται από το συγκεκριμένο πρόβλημα και τη μορφή των «αντικειμένων». Στη βιβλιογραφία συναντάται ως ομαδοποίηση και μη επιβλεπόμενη μάθηση. Τα αντικείμενα μπορούν να αναφερθούν και αυτά με διαφορετικούς όρους: πρότυπα, διανύσματα (παρακάτω θα αναφέρονται ως διανύσματα).
Δοθέντος ενός συνόλου διανυσμάτων X = {x1,x2,x3... xn} ζητούνται m σύνολα-ομάδες C1,C2...Cm,με m<<n έτσι ώστε :
Ci i =1,2,3...m
και οι m ομάδες αποτελούν διαμέριση του συνόλου Χ.
Ο ορισμός αυτός αναφέρεται στην αυστηρή συσταδοποίηση διότι κάθε διάνυσμα ανήκει σε μία και μόνο ομάδα. Εναλλακτικά μπορεί να οριστεί η ασαφής συσταδοποίηση. Κάνοντας χρήση των ασαφών συνόλων μπορούμε να ορίσουμε m συναρτήσεις συμμετοχής
uj:X→[0,1] για j=1,2,...m. Οι συναρτήσεις u ποσοτικοποιούν την βεβαιότητα που έχουμε για το αν κάποιο διάνυσμα i ανήκει στην ομάδα j.
Η διαδικασία της συσταδοποίησης ακολουθεί τα τρία βασικά βήματα:[1][2]
Οι συναρτήσεις εγγύτητας d:X×X R στην απλή τους μορφή μπορεί να είναι απλά μέτρα ανομοιότητας
∃ d0 ∈ R :
d(x,x) = d0 ∀ x ∈ X,
d(x,y) ≥ d0∀ x,y ∈ X
d(x,y) = d(y,x) ∀ x,y ∈ X ή να αποτελούν μετρική ανομοιότητας ( μετατροπή σε ομοιότητα με κατάλληλες αλλαγές ).Σε κάθε περίπτωση η επιλογή της συνάρτησης αυτής εξαρτάται από την μορφή των διανυσμάτων, αν τα χαρακτηριστικά των διανυσμάτων ανήκουν σε συνεχή ή διακριτό χώρο, αν είναι αριθμητικά ή όχι… και υπάρχουν διαφορές επιλογές (απόσταση Milikowski η οποία εμπεριέχει και την ευκλείδεια απόσταση, απόσταση Hamming...). Επιπλέον μπορούμε να ορίσουμε και ανομοιότητα μεταξύ δύο συνόλων διανυσμάτων ή μεταξύ συνόλου διανυσμάτων και διανύσματος. Και εδώ όμως η απόσταση μεταξύ συνόλων μετριέται με αποστάσεις μεταξύ διανυσμάτων. Για κάθε σύνολο διανυσμάτων-ομάδα C, επιλέγουμε ένα διάνυσμα αντιπρόσωπο π.χ το διάνυσμα ελάχιστης συνολικής απόστασης mc για το οποίο ισχύει
∀ z ∈ C ή το μέσο διάνυσμα mp το οποίο ορίζεται : όπου nc ο πληθάριθμος της ομάδας C είτε ένα σύνολο διανυσμάτων που το αντιπροσωπεύει με το σύνολο αυτό να έχει μία συγκεκριμένη μορφή στο χώρο π.χ ένα υπερεπίπεδο, μία υπερσφαίρα.
Υπάρχει ένα μεγάλο πλήθος από αλγόριθμους συσταδοποίησης που έχουν προταθεί και ο καθένας τους βασίζεται σε διαφορετική φιλοσοφία. Σχεδόν όλοι τους δέχονται ένα σύνολο παραμέτρων που μπορεί να είναι το πλήθος των ομάδων, διανύσματα αρχικοποίησης που απαιτούνται από τον αλγόριθμο κάποιες υποθέσεις για την πυκνότητα των διανυσμάτων στο χώρο και άλλες διάφορες παραμέτρους. Διαφοροποιώντας αυτές τις παραμέτρους προκύπτει ένα σύνολο από αλγόριθμους σε κάθε βασική κατηγορία.
Ο συγκεκριμένος αλγόριθμος είναι από τους πιο πολυεφαρμοσμένους και είναι η ρίζα για πολλούς άλλους. Ανήκει στην κατηγορία της επίπεδης συσταδοποίησης διότι παράγει ένα σύνολο συσταδοποιήσεων οι οποίες δεν έχουν κάποια ιδιαίτερη δομή-σχέση μεταξύ τους. Ο αλγόριθμος έχει ως στόχο τη βελτιστοποιήση μίας συνάρτησης – της συνάρτησης κόστους.
Αρχικά έχουμε k-ομάδες, με την κάθε ομάδα να αντιπροσωπεύεται από το μέσο διάνυσμα. Ο αλγόριθμος λειτουργεί σε δύο βήματα:
Ο αλγόριθμος ολοκληρώνεται όταν οι ενημερώσεις που γίνονται σε κάθε mi είναι αμελητέες. Σημαντικό σημείο του αλγορίθμου είναι η αρχικοποίηση των k-διανυσμάτων. Αν αντί για το μέσο διάνυσμα χρησιμοποιήσουμε ένα διάνυσμα xj, με xj ∈ X, τότε έχουμε τον αλγόριθμο k-εσωτερικών αντιπροσώπων (k-medoids). Η χρονική πολυπλοκότητα του αλγόριθμου είναι Ο(Νkq) όπου q ο αριθμός των επαναλήψεων που πρέπει να εκτελέσει ο αλγόριθμος για να τερματίσει.
Οι ιεραρχικοί αλγόριθμοι συσταδοποίησης παράγουν μια ιεραρχία εμφωλιασμένων συσταδοποιήσεων . Δύο συσταδοποίησεις λέγονται εμφωλιασμένες
όταν ισχύει :∀ xi,xj,∈ Ck,κατά την συσταδοποίηση Εp → xi,xj ∈ Ck' κατά την συσταδοποίηση Εq
Οι αλγόριθμοι αυτοί διαχωρίζονται σε δύο υποκατηγορίες
Γενικά στο βήμα b, συγχωνεύονται οι ομάδες οι οποίες είναι το λιγότερο ανόμοιες :
d(Ci,Ci)=min(d(Ck,Ch) ,∀ Ck,Ch ∈ Εb-1 συσταδοποίηση και k≠h. Οι αλλαγές που γίνονται είναι :
Cq =Ci ∪ Cj,Eb=(Eb-1-{Cj,Cj}) ∪ {Cq}, όπου d συνάρτηση ανομοιότητας μεταξύ συνόλων διανυσμάτων.
Μετά την συγχώνευση στο επίπεδο b+1, η ανομοιότητα μεταξύ μίας ομάδας Cs και της Cq υπολογίζεται ως
d(Cq,Cs) = f(d(Ci,Cs),d(Cj,Cs),d(Ci,Cj). Γενικά η f μπορεί να είναι οποιαδήποτε αλλά μία απλή μορφή είναι:
d(Cq,Cs) =a d(Ci,Cs)+cd(Cj,Cs)+wd(Ci,Cj)+ e|d(Ci,Cs)-d(Cj,Cs)|
Για την παραπάνω μορφή της f, επιλέγοντας διαφορετικούς συντελεστές καταλήγουμε σε διαφορετικά μέτρα ανομοιότητας κάθε φορά με αποτέλεσμα η εξέλιξη του αλγορίθμου να διαφοροποιείται( άρα και η έξοδος του αν ζητήσουμε μία συσταδοποίηση διαφορετική της τελευταίας και της πρώτης).Τα δύο άκρα όταν η συνάρτηση ενημέρωσης είναι η παραπάνω είναι τα εξής :
d(Cq,Cs) = min(d(Ci,Cq) για a=1, c=1, e=-1/2, αλγόριθμος απλού δεσμού
d(Ci,Ci) = max(d(Ck,Ch) για a=1 ,c=1, e=1/2, αλγόριθμος πλήρους δεσμού
. Μπορούμε να προσαρμόσουμε τη μορφή του δενδρογράμματος ενός αλγόριθμου ,σε μία από τις δύο παραπάνω μορφές με κατάλληλη επιλογή τιμών των συντελεστών.
Όλα αυτά είναι αποτελέσματα χρήσης του πίνακα ανομοιότητας , μία μήτρα το οποίο το aij στοιχείο δηλώνει την ανομοιότητα των i,j διανυσμάτων. Μπορούν να μεταφερθούν εύκολα από την θεωρία πινάκων στη θεωρία γράφων .Γενικά υπάρχει ολόκληρη κατηγορία αλγορίθμων που βασίζονται στους γράφους, κατευθυνόμενους ή μη ).
Η χρονική πολυπλοκότητα των συσσωρευτικών αλγόριθμων είναι Ο(n3).Η πολυπλοκότητα αυτή μπορεί να κατέβει κοντά στο Ο(n2).Για παράδειγμα ο CURE (Clustering Using REpresentatives data clustering algorithm) έχει πολυπλοκότητα Ο(n2lgn).
Οι συγκεκριμένοι αλγόριθμοι χρησιμοποιούν ένα σύνολο αντιπροσώπων wi για i=1,2…m. Αυτά είναι μία από τις παραμέτρους εισόδου του αλγόριθμου όπως και το μέγιστο πλήθος ομάδων ,το κριτήριο τερματισμού του αλγόριθμου… Η λογική του αλγόριθμου είναι η εξής,∀ i=1,2…N
Οι παράμετροι είναι οι ρυθμοί μάθησης των νικητών και των ηττημένων ενώ η h(·) είναι μια κατάλληλα ορισμένη συνάρτηση .Οι ρυθμοί μάθησης μεταξύ των ηττημένων μπορούνε να είναι διαφορετικοί. Και πάλι για διαφορετικές παραμέτρους(τιμές παραμέτρων) προκύπτουν διαφορετικοί αλγόριθμοι .Για παράδειγμα το πλήθος των ομάδων θα μπορούσε να είναι σταθερό και να μην υπάρχουν οι -υπό συνθήκη- κινήσεις .
Η εγκυρότητα συσταδοποίησης είναι η διαδικασία εκείνη κατά την οποία εκτιμάται ότι η έξοδος του αλγόριθμου είναι ουσιαστικά ένα σύνολο από ομάδες διανυσμάτων, οι οποίες πληρούν τον ορισμό της συσταδοποίησης καθώς και ορισμένα επιπλέον κριτήρια. Γενικά ο έλεγχος μπορεί να επιτευχθεί με τρεις διαφορετικούς τρόπους ανάλογα με τα κριτήρια που χρησιμοποιούμε:
Η συσταδοποίηση ως έννοια είναι σημαντική όχι μόνο σε πολλές επιστήμες όπως η κοινωνιολογία, η βιολογία και η στατιστική, αλλά και σε πολλούς τομείς της πληροφορικής όπως η αναγνώριση προτύπων, η εξόρυξη γνώσης, η ανάκτηση δεδομένων, η τεχνητή νοημοσύνη και η μηχανική μάθηση. Επίσης όσον αφορά την επεξεργασία δεδομένων η συσταδοποίηση μπορεί να συμβάλει στην μείωση των δεδομένων, στην παραγωγή και έλεγχο μίας υπόθεσης και στην πραγματοποίηση μίας πρόβλεψης βασισμένη στις συστάδες. Όλα αυτά ουσιαστικά αναφέρονται και ορίζουν το ίδιο πρόβλημα με διαφορετική γλώσσα ορισμού. Τα τελευταία χρόνια οι τομείς αυτοί αποκτούν όλο και περισσότερο ενδιαφέρον καθιστώντας έτσι την συσταδοποίηση αντικείμενο εντατικής έρευνας.
Για παράδειγμα στην ανάκτηση δεδομένων πέρα από το αποθηκευτικό κέρδος που μπορεί να αποφέρει η συσταδοποίηση η έννοια εφαρμόζεται ξεκάθαρα από μηχανές αναζήτησης yippy.com. Εδώ ζητάτε να ομαδοποιηθούν τα έγγραφα απάντησης D ενός ερωτήματος q του χρήστη. Οι μηχανές αναζήτησης δίνουν και μία οπτικοποίηση της συσταδοποίησης, με την έννοια ότι τα έγγραφα απάντησης D μπορεί να αναπαρασταθούν γραφικά.
Σε ένα σύστημα αναγνώρισης προτύπων η συσταδοποίηση μαζί με την κατηγοριοποίηση αποτελούν της δύο βασικές διαδικασίες που πρέπει να ενσωματώνει ένα τέτοιο σύστημα. Το σύστημα αυτό μπορεί να είναι ένα σύστημα αυθεντικοποίησης-ταυτοποίησης μέσω ομιλίας (αναγνώριση ομιλητή), ένα σύστημα αναγνώρισης εικόνων.
[1] Στην μείωση των δεδομένων η συσταδοποίηση μπορεί να χρησιμοποιηθεί με σκοπό την συμπίεση των δεδομένων. Στην περίπτωση δηλαδή ενός μεγάλου συνόλου δεδομένων, η συσταδοποίηση δύναται αρχικά να το τμηματοποιείσει σε συστάδες, και ύστερα να επεξεργαστεί τους αντιπροσώπους των συστάδων, αντί τα δεδομένα ξεχωριστά.
[1] Στην παραγωγή υπόθεσης η συσταδοποίηση εφαρμόζεται, με σκοπό την διαπίστωση τυχόν υποθέσεων που μπορεί να προκύψουν μετά από την επεξεργασία ενός συνόλου δεδομένων. Για παράδειγμα, είναι δυνατό να βρεθούν δύο μεγάλες συστάδες πελατών, με βάση την ηλικία τους και την χρονική στιγμή που κάνουν τις αγορές τους. Έτσι, μπορούμε να διαπιστώσουμε ότι λ.χ. «οι νέοι προτιμούν να κάνουν τα ψώνια τους τις βραδυνές ώρες», ενώ «οι μεγαλύτεροι σε ηλικία κάνουν τα ψώνια τους κυρίως τις πρωινές ώρες».
[1] Στον έλεγχο υπόθεσης μπορεί να χρησιμοποιηθεί η ανάλυση συστάδων για την εξακρίβωση και την αξιολόγηση μίας υπόθεσης. Για παράδειγμα, εάν θέλουμε να εξετάσουμε την υπόθεση «οι μεγαλύτεροι σε ηλικία κάνουν τα ψώνια τους κυρίως τις πρωινές ώρες», πρέπει να συλλέξουμε ένα αντιπροσωπευτικό σύνολο καταστημάτων, τα οποία διθέτουν στοιχεία των πελατών τους. Άν το αποτέλεσμα της συσταδοποίησης είναι η υπόθεση «οι μεγαλύτεροι σε ηλικία κάνουν τα ψώνια τους κυρίως τις πρωινές ώρες», τότε η υπόθεση επαληθεύεται και από την ανάλυση συστάδων.
Και τέλος, μία πρόβλεψη βασισμένη σε συστάδες υλοποιείται με την εφαρμογή της συσταδοποίησης , όπου οι συστάδες που προκύπτουν, χαρακτηρίζονται από τα χαρακτηριστικά των προτύπων που ανήκουν σε αυτές τις συστάδες. Αυτά τα πρότυπα μπορούν αργότερα να ταξινομηθούν στις προσδιοριζόμενες συστάδες με βάση την ομοιότητά τους στα χαρακτηριστικά των συστάδων.Κατά συνέπεια, προκύπτει χρήσιμη γνώση από τα δεδομένα. Παραδείγματος χάριν, εφαρμόζουμε την διαδικασία της συσταδοποίησης σε ένα σύνολο δεδομένων που αφορά ασθενείς μιας συγκεκριμένης νόσου. Το επιθυμητό αποτέλεσμα θα είναι συστάδες ασθενών με βάση την αντίδρασή τους στα ίδια φάρμακα. Έτσι, είναι δυνατό για έναν νέο ασθενή να κατηγοριοποιηθεί στην κατάλληλη συστάδα και να πάρει την σωστή φαρμακευτική αγωγή.
Το πλήθος των δεδομένων που κυκλοφορούν στο διαδίκτυο είναι τεράστιο. Η γνώση που μπορεί να αντλήσουμε από αυτή την ψηφιακή πληροφορία προσφέρει ικανότητα για παροχή διάφορων υπηρεσιών που διαφορετικά δεν θα μπορούσαμε. Βέβαια η ικανότητα αυτή κατακτάται μέσω της εξόρυξης γνώσης, ενός τομέα που προσπαθεί να δημιουργήσει διαδικασίες έτσι ώστε η άντληση της γνώσης αυτής να γίνει αυτόματα.
Επίσης η συσταδοποίηση μπορεί να συμβάλει στην μείωση των δεδομένων, στην παραγωγή και έλεγχο μίας υπόθεσης και στην πραγματοποίηση μίας πρόβλεψης βασισμένη στις συστάδες.