Στη στατιστική, η εκτίμηση μέγιστης πιθανοφάνειας (ΕΜΠ) είναι μια μέθοδος για την εκτίμηση των παραμέτρων από ένα στατιστικό μοντέλο δεδομένων.
Η μέθοδος της μέγιστης πιθανοφάνειας αντιστοιχεί σε πολλές γνωστές μεθόδους εκτίμησης της στατιστικής. Για παράδειγμα, μία από αυτές μπορεί να ενδιαφέρεται για τα ύψη των ενήλικων θηλυκών πιγκουίνων, αλλά δεν είναι σε θέση να μετρήσει το ύψος του κάθε πιγκουίνου σε ένα πληθυσμό λόγω των περιορισμών του κόστους ή του χρόνου. Αν υποτεθεί ότι τα ύψη ανήκουν στην Κανονική κατανομή με κάποιο άγνωστο, μέση τιμή και Διακύμανση, η μέση τιμή και η διακύμανση μπορούν να εκτιμηθούν με ΕΜΠ γνωρίζοντας μόνο τα ύψη από κάποιο δείγμα του συνολικού πληθυσμού. Η ΕΜΠ θα το πετύχει αυτό, λαμβάνοντας την μέση τιμή και η διακύμανση ως παραμέτρους και βρίσκοντας ειδικότερες παραμετρικές τιμές που κάνουν τα παρατηρούμενα αποτελέσματα πιο πιθανά δεδομένου του μοντέλου.
Σε γενικές γραμμές, για ένα σταθερό σύνολο των δεδομένων και των υποκείμενων στατιστικών μοντέλων, η μέθοδος της μέγιστης πιθανοφάνειας επιλέγει το σύνολο των τιμών των παραμέτρων του μοντέλου που μεγιστοποιεί την συνάρτηση πιθανότητας. Διαισθητικά, αυτό μεγιστοποιεί την "συμφωνία" από το επιλεγμένο μοντέλο με τα παρατηρούμενα δεδομένα, και για διακριτές τυχαίες μεταβλητές πραγματικά μεγιστοποιεί την πιθανότητα των παρατηρούμενων δεδομένων σύμφωνα με την τελική κατανομή. Η εκτίμηση μέγιστης πιθανοφάνειας δίνει μια ενιαία προσέγγιση για την εκτίμηση, η οποία είναι καλά ορισμένη στην περίπτωση της κανονικής κατανομής και πολλά άλλα προβλήματα.
Η εκτίμηση μέγιστης πιθανοφάνειας είχε προταθεί, αναλυθεί (με άκαρπες προσπάθειες αποδείξεις) και ευρέως διαδωθεί από τον Ρόναλντ Φίσερ μεταξύ 1912 και 1922[1] (αν και είχε χρησιμοποιηθεί νωρίτερα από τους Καρλ Φρίντριχ Γκάους, Πιερ Σιμόν Λαπλάς, Thorvald N Εσένα,Φράνσις Ισίντρο Έτζγουορθ).[2] Περιλήψεις για την ανάπτυξη της μέγιστης πιθανοφάνειας έχουν παρασχεθεί από έναν αριθμό συγγραφέων.[3]
Μερικά τμήματα από τη θεωρία εκτίμηση μέγιστης πιθανοφάνειας αναπτύχθηκαν για Μπεϋζιανή στατιστική.[1]
Ας υποθέσουμε ότι υπάρχει ένα δείγμα x1, x2, ..., xn από n ανεξάρτητες και ταυτόσημα κατανεμημένες παρατηρήσεις, που προέρχονται από μια κατανομή με άγνωστη συνάρτηση πυκνότητας πιθανότητας f0(·). Ωστόσο εικάζεται ότι η συνάρτηση f0 ανήκει σε μια συγκεκριμένη οικογένεια κατανομών { f(·| θ), θ ∈ Θ } (όπου θ είναι φορέας των παραμέτρων για αυτή την οικογένεια), που ονομάζεται παραμετρικό μοντέλο, έτσι ώστε f0 = f(·| θ0). Η τιμή θ0 είναι άγνωστη και αναφέρεται ως η πραγματική τιμή του φορέα της παραμέτρου. Είναι επιθυμητό να βρεθεί ένας εκτιμητής που θα είναι όσο πιο κοντά γίνεται στην πραγματική τιμή θ0. Είτε μία από αυτές είτε και οι δύο οι παρατηρούμενες μεταβλητές xi και η παράμετρος θ μπορεί να είναι φορείς.
Για να χρησιμοποιήσετε τη μέθοδο της μεγίστης πιθανοφάνειας, πρώτα καθορίζεται η από κοινού συνάρτηση πυκνότητας για όλες τις παρατηρήσεις. Για ένα ανεξάρτητο και ισόνομα κατανεμημένο δείγμα, αυτή η κοινή συνάρτηση πυκνότητας είναι
Τώρα κοιτάμε αυτή τη λειτουργία από μια διαφορετική προοπτική, λαμβάνοντας υπόψη τις παρατηρηθείσες τιμές x1, x2, ..., xn να είναι σταθερές "παράμετροι" της λειτουργίας αυτής, όπου θ θα είναι η μεταβλητή της συνάρτησης και μπορεί να κυμαίνεται ελεύθερα· αυτή η λειτουργία θα ονομάζεται η πιθανοφάνεια:
Σημειώστε ότι το " " υποδηλώνει ένα διαχωρισμό μεταξύ των δύο ορισμάτων: και των παρατηρήσεων .
Στην πράξη, είναι συχνά πιο βολικό να συνεργαστεί με το λογάριθμο της συνάρτησης της πιθανοφάνειας, που ονομάζεται λογαριθμική-πιθανοφάνεια:
ή μέση λογαριθμική-πιθανοφάνεια:
Το καπέλο πάνω από το ℓ δείχνει ότι είναι παρόμοιο με κάποιο εκτιμητή. Πράγματι,το αντιπροσωπεύει την αναμενόμενη λογαριθμική-πιθανοφάνεια σε μία μόνο παρατήρηση στο μοντέλο.
Η μέθοδος της μέγιστης πιθανοφάνειας θ0 , εκτιμάται βρίσκοντας μια τιμή του θ που μεγιστοποιεί το . Αυτή η μέθοδος εκτίμησης ορίζει τον εκτιμητή μέγιστης πιθανοφάνειας (ΕΜΠ) του θ0:
αν υπάρχει η μέγιστη. Μια ΕΜΠ εκτίμηση είναι η ίδια, ανεξάρτητα από το αν θα μεγιστοποιήσει την πιθανοφάνεια ή την συνάρτηση της λογαριθμικής πιθανοφάνειας, μιας και ο λογάριθμος είναι μονοτονικά αυξανόμενη συνάρτηση.
Για πολλά μοντέλα, ο εκτιμητής της μέγιστης πιθανοφάνειας μπορεί να βρεθεί ως μια ρητή συνάρτηση με τα δεδομένα παρατηρήσεων x1, ..., xn. Για πολλά άλλα μοντέλα, ωστόσο, καμία κλειστή μορφή λύσης για τη μεγιστοποίηση του προβλήματος είναι γνωστή ή διαθέσιμη, και μια ΕΜΠ πρέπει να βρεθεί αριθμητικά χρησιμοποιώντας βελτιστοποίηση μεθόδων. Για κάποια προβλήματα, μπορεί να υπάρχουν πολλές εκτιμήσεις που μεγιστοποιούν την πιθανοφάνεια. Για άλλα προβλήματα, δεν υπάρχει καμία εκτίμηση μέγιστης πιθανοφάνειας (με την έννοια ότι η συνάρτηση της λογαριθμικής πιθανοφάνειας αυξάνεται χωρίς την χρήση του supremum ).
Στην παραπάνω έκθεση , θεωρείται ότι τα δεδομένα είναι ανεξάρτητα και ισόνομα κατανεμημένα. Η μέθοδος μπορεί να εφαρμοστεί, ωστόσο, σε ένα ευρύτερο πλαίσιο, όσο είναι δυνατόν να γράψετε την από κοινού συνάρτηση πυκνότητας f(x1, ..., xn | θ), και οι παράμετροι θ έχουν πεπερασμένη διάσταση, η οποία δεν εξαρτάται από το μέγεθος του δείγματος n. Σε μια πιο απλή επέκταση, ένα επίδομα μπορεί να γίνει για τα δεδομένα ετερογένεια, ώστε η κοινή πυκνότητα να είναι ίση με f1(x1 | θ) · f2(x2|θ) · ··· · fn(xn | θ). Με άλλα λόγια, υποθέτουμε τώρα ότι κάθε παρατήρηση xi προέρχεται από μια τυχαία μεταβλητή που έχει τη δική της συνάρτηση κατανομής f i . Στην πιο περίπλοκη περίπτωση των μοντέλων χρονοσειρών , η υπόθεση της ανεξαρτησίας μπορεί επίσης να πέσει.
Ένας εκτιμητής μέγιστης πιθανοφάνειας συμπίπτει με τον πιο πιθανό εκτιμητή Bayes έχοντας δοθεί μια συνεχής διανομή των παραμέτρων. Πράγματι, η μέγιστη εκ των υστέρων εκτίμηση της παραμέτρου θ που μεγιστοποιεί την πιθανότητα της θ δοσμένα στοιχεία, που δίνονται από Bayes θεώρημα:
οπού είναι η προηγούμενη διανομή της παραμέτρου θ και είναι η πιθανότητα των δεδομένων κατά μέσο όρο πάνω από όλες τις παραμέτρους. Αφού ο παρονομαστής είναι ανεξάρτητο του θ, ο εκτιμητής Bayes προκύπτει από τη μεγιστοποίηση της όσον αφορά το θ. Αν υποθέσουμε ότι η προηγούμενη είναι μια ομοιόμορφη κατανομή, ο εκτιμητής Bayes προκύπτει από τη μεγιστοποίηση της συνάρτησης πιθανότητας . Έτσι, ο εκτιμητής Bayes συμπίπτει με τον εκτιμητή μέγιστης πιθανοφάνειας για μία προηγούμενη ομοιόμορφη διανομή .
Ένας εκτιμητής μέγιστης πιθανοφάνειας είναι ένα extremum εκτιμητής (minimum ή maximum) που λαμβάνεται με την μεγιστοποίηση, ως συνάρτηση του θ, της αντικειμενικής συνάρτησης (c.f., η συνάρτηση απώλειας)
αυτό είναι το δείγμα ανάλογο της αναμενόμενης λογαριθμικής-πιθανοφάνειας , όπου αυτή η αναμενόμενη τιμή έχει ληφθεί ως προς την πραγματική πυκνότητα .
Οι εκτιμητές μέγιστης πιθανοφάνειας δεν έχουν βέλτιστες ιδιότητες για πεπερασμένα δείγματα, με την έννοια ότι (όταν αξιολογούνται σε πεπερασμένα δείγματα) άλλοι εκτιμητές μπορεί να έχουν μεγαλύτερη συγκέντρωση γύρω από την πραγματική παραμετρική τιμή.[4] Ωστόσο, όπως και σε άλλες μεθόδους εκτίμησης, η εκτίμηση μέγιστης πιθανοφάνειας διαθέτει μια σειρά από ελκυστικές οριακές ιδιότητες: Καθώς το μέγεθος του δείγματος αυξάνεται στο άπειρο, οι ακολουθίες των εκτιμητών μέγιστης πιθανοφάνειας έχουν αυτές τις ιδιότητες:
Υπό τις συνθήκες που περιγράφονται παρακάτω, ο εκτιμητής μέγιστης πιθανοφάνειας είναι συνεπής. Η συνέπεια σημαίνει ότι έχοντας ένα αρκετά μεγάλο αριθμό παρατηρήσεων n, είναι δυνατόν να βρεθεί η τιμή του θ0 με αυθαίρετη ακρίβεια. Σε μαθηματικούς όρους, αυτό σημαίνει ότι καθώς το n τείνει στο άπειρο ο εκτιμητής συγκλίνει κατά πιθανότητα στην πραγματική του τιμή:
Υπό ελαφρώς ισχυρότερες συνθήκες, ο εκτιμητής συγκλίνει σχεδόν βέβαια (ή ισχυρά):
Σε πρακτικές εφαρμογές, τα δεδομένα δεν παράγονται ποτέ από την . Περισσότερο, η είναι ένα μοντέλο, συχνά σε μια ιδεατή μορφή, της διαδικασίας που παράγει τα δεδομένα. Είναι μια κοινή αφοριστική θεώρηση στη στατική σύμφωνα με την οποία όλα τα μοντέλα είναι εσφαλμένα. Έτσι, η πραγματική συνέπεια δεν επιτυγχάνεται στις πρακτικές εφαρμογές. Εντούτοις, η συνέπεια θεωρείται συχνά μια επιθυμητή ιδιότητα για έναν εκτιμητή.
Για να επιτευχθεί συνέπεια, οι ακόλουθες συνθήκες είναι επαρκείς:[5]
Με άλλα λογια, διαφορετικές τιμές της παραμέτρου θ αντιστοιχούν σε διαφορετικές κατανομές στα πλαίσια του μοντέλου. Εάν αυτή η συνθήκη δεν ίσχυε, θα υπήρχε μια τιμή θ1 τέτοια ώστε η θ0 και η θ1 θα παρήγαγαν την ίδια κατανομή από τα παρατηρήσιμα δεδομένα. Τότε, δεν θα ήμαστε σε θέση να ξεχωρίσουμε αυτές τις δυο παραμέτρους ακόμα και με άπειρο πλήθος δεδομένων- αυτές οι παράμετροι θα ήταν "ισοδύναμες" ως προς τις παρατηρήσεις (observationally equivalent.)
Η συνθήκη ταυτοποίησης θεμελιώνει ότι ο λογάριθμος της πιθανοφάνειας έχει μοναδικό ολικό μέγιστο. Η συμπάγεια συνεπάγεται ότι η πιθανοφάνεια δεν μπορεί να προσεγγίσει τη μέγιστη τιμή αυθαίρετα κοντά σε ένα άλλο σημείο (όπως φαίνεται στο παράδειγμα της εικόνας στα δεξιά.
Η συμπάγεια είναι μόνο επαρκής συνθήκη και όχι αναγκαία. Η συμπάγεια δύναται να αντικατασταθεί από άλλες συνθήκες, όπως:
Η συνθήκη της κυριαρχίας μπορεί να χρησιμοποιηθεί στην περίπτωση των Ανεξάρτητων και ισόνομων παρατηρήσεων. Στην περίπτωση των μη-ισόνομων και ανεξάρτητων τυχαίων μεταβλητών, η ομοιόμορφη σύγκλιση κατά πιθανότητα μπορεί να ελεγχθεί δείχνοντας ότι η ακολουθία είναι is στοχαστικά equicontinuous. Αν κάποιος θέλει να αποδείξει ότι ο ΕΜΠ συγκλίνει στο θ0 σχεδόν βέβαια, τότε μια ισχυρότερη συνθήκη της ομοιόμορφης σχεδόν βέβαιης σύγκλισης πρέπει να επιβληθεί:
Επιπροσθέτως, εαν (όπως έχει υποτεθεί ανωτέρω) τα δεδομένα παραγόντουσαν από την , τότε κάτω από ορισμένες συνθήκες μπορεί να δειχθεί ότι ο ΕΜΠ συγκλίνει κατά νόμο στην κανονική κατανομή. Ειδικότερα,[6]
όπου I είναι ο πίνακας πληροφορίας του Fisher.
Ο EMΠ επιλέγει την τιμή της παραμέτρου η οποία δίνει τα παρατηρούμενα δεδομένα όσο το δυνατόν μεγαλύτερη πιθανότητα (ή πυκνότητα πιθανότητας, στη συνεχή περίπτωση). Αν η παράμετρος αποτελείται από έναν αριθμό στοιχείων, τότε ορίζουμε τους ξεχωριστούς εκτιμητές μέγιστης πιθανοφάνειας, όπως και την αντίστοιχη συνιστώσα του ΕΜΠ της πλήρους παραμέτρου. Σύμφωνα με αυτό, αν είναι ο ΕΜΠ για το θ, και αν g(θ) είναι οποιοσδήποτε μετασχηματισμός της θ, τότε ο ΕΜΠ για α = g(θ) είναι εξ ορισμού
Μεγιστοποιεί το λεγόμενο προφίλ πιθανότητας (profile likelihood):
Οι ΕΜΠ είναι επίσης ισομεταβλητές (equivariant) σε σχέση με ορισμένους μετασχηματισμούς των δεδομένων. Αν Y = g(X), όπου g είναι ένα προς ένα και δεν εξαρτάται από τις παραμέτρους που θα πρέπει να εκτιμηθούν, τότε οι συναρτήσεις πυκνότητας ικανοποιούν την :
και ως εκ τούτου οι συναρτήσεις πιθανοφάνειας για τις X και Y διαφέρουν μόνο κατά ένα συντελεστή που δεν εξαρτάται από τις παραμέτρους του μοντέλου.
Για παράδειγμα, οι ΕΜΠ-παράμετροι της λογαριθμικής-κανονικής κατανομής είναι οι ίδιες με αυτές της κανονικής κατανομής που προσαρμόζεται τον λογάριθμο των δεδομένων.
Όπως υποτίθεται παραπάνω, εάν τα δεδομένα παραγόντουσαν από την https://wikimedia.org/api/rest_v1/media/math/render/svg/e8c6dbb6ff21ff22012fca066c1115ef63f4a590 τότε υπό ορισμένες προϋποθέσεις, μπορεί ακόμη να δειχθεί ότι ο ΕΜΠ συγκλίνει κατά νόμο στην κανονική κατανομή. Είναι √n-συνεπής και ασυμπτωτικά αποδοτικός, πράγμα που σημαίνει ότι πλησιάζει το όριο Cramér–Rao. Συγκεκριμένα:
όπού I είναι ο πίνακας πληροφορίας του Fisher :
Ειδικότερα, αυτό σημαίνει ότι η μεροληψία του ΕΜΠ είναι ίση με το μηδέν μέχρι και την τάξη n-1/2.
Ωστόσο, όταν εξετάζουμε υψηλής-τάξης όρους στην επέκταση της κατανοής του εκτιμητή, προκύπτει ότι ο θmle έχει μεροληψία τάξης n−1. Αυτή η μεροληψία ισούται (κατά συνιστώσα) με:[7]
όπου το https://wikimedia.org/api/rest_v1/media/math/render/svg/95ea54922b0b2f15bb16fc33b9545388081c71f7(με άνω δείκτες) δηλώνει την (j,k)-στή συνιστώσα του αντιστρόφου πίνακας πληροφορίας του Fisher, και
Χρησιμοποιώντας αυτούς τους τύπους είναι δυνατόν να εκτιμηθεί η δεύτερης τάξης μεροληψία του ΕΜΠ, και να επιτευχθεί διόρθωση με την αφαίρεση:
Αυτός ο εκτιμητής είναι αμερόληπτος μέχρι τους όρους τάξης n−1, και ονομάζεται ο bias-corrected (ελεύθερος-μεροληψίας;) ΕΜΠ.
Αυτός ο bias-corrected εκτιμητής είναι δεύτερης τάξης αποδοτικός (τουλάχιστον στα πλαίσια της κυρτής εκθετικής οικογένειας), με την έννοια ότι έχει ελάχιστο μέσο τετραγωνικό σφάλμα μεταξύ όλων των δεύτερης τάξης bias-corrected εκτιμητών, μέχρι τους όρους της σειράς n−2. Είναι δυνατόν να συνεχιστεί αυτή η διαδικασία, δηλαδή η εξαγωγή τρίτης τάξης όρων διόρθωσης της μεροληψίας, και ούτω καθεξής. Ωστόσο, όπως φαίνεται από τον Kano (1996), ο εκτιμητής μέγιστης πιθανοφάνειας δεν είναι τρίτης τάξης αποδοτικός.
Ένας ΕΜΠ συμπίπτει με το πιο πιθανό εκτιμητή Bayes δοθείσης ομοιόμορφης εκ των προτέρων κατανομής για τις παραμέτρους. Πράγματι, ο maximum a posteriori estimate είναι η παράμετρος θ που μεγιστοποιεί την πιθανότητα του θ δεσμευμένη στα δεδομένα, βάσει του θεωρήματος Bayes:
όπου είναι η εκ των προτέρων κατανοή για την παράμετρο θ και είναι η πιθανόητητα των δεδομένων κανονικοποιημένη για όλες τις παραμέτρους (averaged over all parameters). Αφού ο παρονομαστής εξαρτάται από το θ, ο εκτιμητής Bayes αποκτάται με τη μεγιστοποίησης της ποσότητας ως προς θ. Εάν υποθέσουμε περαιτέρω ότι η εκ των προτέρων κατανομη είναι η ομοιόμορφη, ο εκτιμητής Bayes αποκτάται με τη μεγιστοποίηση της συνάρτησης πιθανοφάνειας . Έτσι, ο εκτιμητής Bayes συμπίπτει με τον ΕΜΠ για ομοιόμορφη εκ των προτέρων κατανομή .
Σε πολλές πρακτικές εφαρμογές στη Μηχανική μάθηση (machine learning), η εκτίμηση μέγιστης πιθανοφάνειας αξιοποιείται για την εκτίμηση παραμέτρων του μοντέλου.
Η θεωρία αποφάσεων Bayes αφορά το σχεδιασμό μιας ταξινόμησης (classifier) που ελαχιστοποιεί τον αναμενόμενο κίνδυνο. Ειδικά, όταν τα κόστη (συνάρτηση απώλειας) που σχετίζονταιι με διαφορετικές αποφάσεις είναι ίσα, η ταξινόμηση είναι η ελαχιστοποίηση του σφάλματος για ολόκληρη την κατανομή.[8]
Έτσι, ο κανόνας απόφασης Bayes διατυπώνεται ως
όπου είναι προβλέψεις για διαφορετικές κλάσεις. Από μια προοπτική ελαχιστοποίησης σφαλμάτων, μπορεί ακόμη να εφραστεί ως
όπου
αν αποφασίσουμε και αν αποφασίσουμε
Εφαρμόζοντας το Θεώρημα Bayes (Bayes' theorem)
και εάν επιπλέον υποθέσουμε τη συνάρτηση απωλείας zero-or-one, η οποία είναι μια όμοια απώλεια για όλα τα σφάλματα, ο κανόνας απόφασης Bayes Decision δύναται να αναδιατυπωθεί ως
όπου είναι η πρόβλεψη και είναι η εκ των προτέρων πιθανότητα.
Η εύρεση ΕΜΠ είναι ασυμπτωτικά ισοδύναμη με την εύρεση του που ορίζει την κατανομή πιθανότητας () που έχει την ελάχιστη απόσταση, στα πλαίσια της απόκλισης Kullback–Leibler (Kullback–Leibler divergence), στην πραγματική κατανομή από την οποία παράγονται τα δεδομένα μας (π.χ., παράγονται από την ).[9] IΣε έναν ιδανικό κόσμο, P και Q είναι ίδιες (και το μόνο άγνωστο είναι το που καθορίζει την P). Ωστόσο, ακόμα και αν δεν είναι ίσες και το μοντέλο που χρησιμοποιούμε είναι εσφαλμένο, ακόμη οι ΕΜΠ θα μας δώσουν την "εγγύτερη" κατανομή (στα πλαίσια των περιορισμών ενός μοντέλου Q που εξαρτάται από το ) στην πραγματική κατανομή .[10]
Απόδειξη. |
Για απλοποίηση των συμβολισμών, ας υποθέσουμε ότι P=Q. Έστω n i.i.d δείγματα δεδομένων από κάποια πιθανότητα , που εμείς προσπαθούμε να εκτιμήσουμε βρίσκοντας το που θα μεγιστοποιήσει την πιθανοφάνεια με τη χρήση της , τότε:
όπου . Η χρηση της h μας βοηθά να δούμε πως χρησιμοποιουμε το νόμο των μεγάλων αριθμών (law of large numbers) για να προχωρήσουμε από το μέσου της h(x) στην αναμενόμενη τιμή (expectancy ) του χρησιμοποιώντας τον law of the unconscious statistician. Οι πρώτες (αρκετές- several) μεταβάσεις έχουν να κάνουν με νόμους λογαρίθμων (laws of logarithm) και ότι η εύρεση του που μεγιστοποιεί κάποια συνάρτηση θα είναι επίσης μια που μεγιστοποιεί κάποιο μονότονο μετασχηματισμό εκείνης της συνάρτησης (iπ.χ. προσθέτοντας/πολλάπλασιάζοντας κατά σταθερά). |
Αφού η cross entropy είναι απλά μια Shannon's Entropy συν μια απόκλιση KL και αφού η εντροπία της είναι σταθερή, τότε ο ΕΜΠ ελαχιστοποιεί επίσης την cross entropy ασυμπτωτικά.[11]
Σε ένα ευρύ φάσμα συνθηκών, η παράμετρος του εκτιμητή της μέγιστης πιθανοφάνειας παρουσιάζει ασυμπτωτική κανονικότητα, δηλαδή είναι ίση με την πραγματική παράμετρο συν ένα τυχαίο σφάλμα, το οποίο είναι περίπου κανονικό (δίνονται επαρκή στοιχεία), και η απόκλιση του σφάλματος διασπάται ως 1/n. Για το σκοπό αυτό εξετάζονται τα ακόλουθα ζητήματα:
Μερικές φορές ο εκτιμητής μέγιστης πιθανοφάνειας βρίσκεται στο όριο από το σύνολο των πιθανών παραμέτρων, ή (αν το όριο δεν, για να κυριολεκτήσουμε, επιτρέπεται) η πιθανότητα γίνεται όλο και μεγαλύτερη καθώς η παράμετρος πλησιάζει το όριο. Η κλασσική ασυμπτωτική θεωρία χρειάζεται την υπόθεση ότι η πραγματική τιμή της παραμέτρου βρίσκεται μακριά από το όριο. Αν έχουμε αρκετά δεδομένα, ο εκτιμητής μέγιστης πιθανοφάνειας θα αποκλίνει από το όριο. Αλλά με μικρότερα δείγματα, η εκτίμηση μπορεί να βρίσκεται στο όριο. Σε τέτοιες περιπτώσεις, η ασυμπτωτική θεωρία σαφώς δεν δίνει μια πρακτικά χρήσιμη προσέγγιση.
Για να εφαρμοστεί η θεωρία με απλό τρόπο, το σύνολο των δεδομένων τιμών, το οποίο έχει θετική πιθανότητα (ή θετική πυκνότητα πιθανότητας ) δεν θα πρέπει να εξαρτάται από την άγνωστη παράμετρο. Ένα απλό παράδειγμα όπου μια τέτοια εξάρτηση είναι η περίπτωση από την εκτίμηση του θ από ένα σύνολο από ανεξάρτητες και ισόνομα κατανεμημένες όταν η κοινή κατανομή είναι ομοιόμορφη για το εύρος (0,θ). Για εκτιμητικούς σκοπούς, η θ είναι τέτοια πουδεν μπορεί να είναι μικρότερη από τη μεγαλύτερη παρατήρηση. Επειδή το διάστημα (0,θ) δεν είναι συμπαγές, υπάρχει ανώτατο όριο για την συνάρτηση πιθανοφάνειας: Για κάθε εκτίμηση του θ, υπάρχει μια μεγαλύτερη εκτίμηση που, επίσης, έχει μεγαλύτερη πιθανότητα. Σε αντίθεση, το διάστημα [0,θ], περιλαμβάνει το τελικό σημείο θ και είναι συμπαγής, στην οποία περίπτωση ο εκτιμητής μέγιστης πιθανοφάνειας υπάρχει. Ωστόσο, στην περίπτωση αυτή, ο εκτιμητής μέγιστης πιθανοφάνειας είναι μεροληπτικός. Ασυμπτωτικά, αυτός ο εκτιμητής μέγιστης πιθανοφάνειας δεν είναι κανονικά κατανεμημένος.[12]
Για τον εκτιμητή μέγιστης πιθανοφάνειας, ένα μοντέλο μπορεί να έχει μια σειρά από παραμέτρους ενόχλησης. Για την ασυμπτωτική συμπεριφορά που περιγράφεται σε αναμονή, ο αριθμός των ενοχλητικών παραμέτρων δεν θα πρέπει να αυξηθεί με τον αριθμό των παρατηρήσεων (το μέγεθος του δείγματος). Ένα πολύ γνωστό παράδειγμα αυτής της περίπτωσης είναι εκεί όπου οι παρατηρήσεις εμφανίζονται ως ζεύγη, όπου οι παρατηρήσεις σε κάθε ζευγάρι έχουν διαφορετικά (άγνωστα) μέσα, αλλά κατά τα άλλα οι παρατηρήσεις είναι ανεξάρτητες και κανονικά κατανεμημένες με κοινή διακύμανση. Εδώ για 2N παρατηρήσεις, υπάρχουν N + 1 παράμετροι. Είναι γνωστό ότι οι εκτιμητές μέγιστης πιθανοφάνειας της διακύμανσης δεν συγκλίνουν προς την πραγματική τιμή της διακύμανσης.
Για τις ασύμπτωτες που κατέχουν σε περιπτώσεις όπου η υπόθεση των ανεξάρτητων και ισόνομα κατανεμημένων παρατηρήσεων δεν ισχύει, βασική προϋπόθεση είναι ότι η ποσότητα των πληροφοριών των δεδομένων αυξάνει επ ' αόριστον, καθώς το μέγεθος του δείγματος αυξάνει. Μια τέτοια απαίτηση δεν μπορεί να ικανοποιηθεί αν, είτε υπάρχει υπερβολική εξάρτηση των δεδομένων (για παράδειγμα, εάν οι νέες παρατηρήσεις είναι πανομοιότυπες με τις υπάρχουσες παρατηρήσεις), είτε εάν οι νέες ανεξάρτητες παρατηρήσεις υπόκεινται σε αύξηση των σφαλμάτων της παρατήρησης.
Κάποιες συνθήκες κανονικότητας που να διασφαλίζουν αυτή η συμπεριφορά είναι:
Σκεφτείτε την περίπτωση όπου n εισιτήρια αριθμημένα από το 1 έως το n , τοποθετούνται σε ένα κουτί και επιλέγεται ένα τυχαία (βλ ομοιόμορφη κατανομή)· έτσι, το μέγεθος του δείγματος είναι 1. Αν n είναι άγνωστο, τότε ο εκτιμητής μέγιστης πιθανοφάνειας του n είναι ο αριθμός m για το επιλεχθέν εισιτήριο. (Η πιθανοφάνεια είναι 0 για n < m, 1/n για n ≥ m, και αυτή είναι μεγαλύτερη όταν n = m. Σημειώστε ότι ο εκτιμητής μέγιστης πιθανοφάνειας του n παρουσιάζεται στα κάτω άκρα των πιθανών τιμών {m, m + 1, ...}, και όχι κάπου στη "μέση" του εύρους των πιθανών τιμών, η οποία θα οδηγήσει σε λιγότερο σφάλμα.) Η αναμενόμενη τιμή του αριθμού m για το επιλεχθέν εισιτήριο, και ως εκ τούτου, η αναμενόμενη τιμή του , είναι (n + 1)/2. Ως αποτέλεσμα, με ένα δείγμα μεγέθους 1, η μέγιστη πιθανότητα εκτιμητής για το n συστηματικά υποτιμούν n (n − 1)/2.
Ας υποθέσουμε ότι κάποιος επιθυμεί να καθορίσει το σφάλμα ενός άδικου νομίσματος . Ονομάζουμε την πιθανότητα να τύχει ΚΟΡΌΝΑ p. Ο στόχος, στη συνέχεια, γίνεται για να προσδιορίσετε το p.
Ας υποθέσουμε ότι ρίξαμε το νόμισμα 80 φορές: δηλαδή, το δείγμα μπορεί να είναι κάτι σαν x1 = H, x2 = T, ..., x80 = T, και η καταμέτρηση του αριθμού των ΚΟΡΟΝΏΝ "H" που παρατηρείται.
Η πιθανότητα να ρίξει ΓΡΆΜΜΑΤΑ είναι 1 − p (εδώ, λοιπόν, p είναι θ ανωτέρω). Ας υποθέσουμε ότι το αποτέλεσμα είναι 49 ΚΟΡΌΝΕΣ και τις 31 ΓΡΆΜΜΑΤΑ, και ας υποθέσουμε ότι το νόμισμα επιλέχτηκε από ένα κουτί που περιέχει τρία νομίσματα: ένα που δίνει ΚΟΡΌΝΑ με πιθανότητα p = 1/3, το οποίο δίνει ΚΟΡΌΝΑ με πιθανότητα p = 1/2 και ένα άλλο που δίνει ΚΟΡΌΝΑ με πιθανότητα p = 2/3. Τα νομίσματα έχουν χάσει τις ετικέτες τους, οπότε δεν γνωρίζουμε ποιο είναι ποιο. Χρησιμοποιώντας τον εκτιμητή μέγιστης πιθανοφάνειας το νόμισμα που έχει τη μεγαλύτερη πιθανοφάνεια μπορεί να βρεθεί, με τα δεδομένα που παρατηρήθηκαν. Χρησιμοποιώντας την συνάρτηση μάζας πιθανότητας της διωνυμικής κατανομής με μέγεθος δείγματος ίσο με το 80,ο αριθμός των επιτυχιών είναι ίσος με 49 αλλά για διαφορετικές τιμές του p (η "πιθανότητα επιτυχίας"), η συνάρτηση πιθανοφάνειας (που ορίζεται παρακάτω), λαμβάνει μία από τις τρεις τιμές:
Η πιθανοφάνεια μεγιστοποιείται όταν p = 2/3, οπότε αυτός είναι ο εκτιμητής μέγιστης πιθανοφάνειας για το.
Τώρα, ας υποθέσουμε ότι υπήρχε μόνο ένα νόμισμα, αλλά η p θα μπορούσε να έχει οποιαδήποτε τιμή 0 ≤ p ≤ 1. Η συνάρτηση πιθανοφάνειας για να μεγιστοποιηθεί είναι
και η μεγιστοποίηση είναι πάνω από όλες τις δυνατές τιμές 0 ≤ p ≤ 1.
Ένας τρόπος για να μεγιστοποιηθεί η συνάρτηση αυτή είναι με διαφοροποίηση όσον αφορά το p και ρύθμιση στο μηδέν:
η οποία έχει λύσεις, p = 0, p = 1 και p = 49/80. Η λύση που μεγιστοποιεί την πιθανότητα να είναι σαφώς p = 49/80 (αφού p = 0 και p = 1 το αποτέλεσμα στην πιθανοφάνεια του μηδέν). Έτσι, ο εκτιμητής μέγιστης πιθανοφάνειας για το p είναι 49/80.
Το αποτέλεσμα αυτό είναι εύκολα γενικευμένη αντικαθιστώντας ένα γράμμα όπως το t στη θέση 49 για να αντιπροσωπεύει τον παρατηρούμενο αριθμό των "επιτυχιών" της δοκιμής Bernoulli μας, και ένα γράμμα όπως n στη θέση 80, για να αντιπροσωπεύει τον αριθμό των δοκιμών Bernoulli. Ακριβώς το ίδιο για τον υπολογισμό των αποδόσεων, ο εκτιμητής μέγιστης πιθανοφάνειας t / n για κάθε ακολουθία n δοκιμών Bernoulli με αποτέλεσμα t 'επιτυχίες'.
Για την κανονική κατανομή που έχει συνάρτηση πυκνότητας πιθανότητας
η αντίστοιχη συνάρτηση πυκνότητας πιθανότητας για ένα δείγμα από n ανεξάρτητες και ισόνομα κατανεμημένες κανονικές τυχαίες μεταβλητές (η πιθανότητα) είναι
ή πιο σωστά:
όπου είναι η μέση τιμή του δείγματος.
Αυτή η οικογένεια των κατανομών έχει δύο παραμέτρους: θ = (μ, σ), οπότε μπορούμε να μεγιστοποιήσουμε την πιθανοφάνεια, , πάνω από δύο παραμέτρους ταυτόχρονα, ή, αν είναι δυνατόν, ξεχωριστά.
Δεδομένου ότι ο λογάριθμος είναι μια συνεχής αυστηρά αυξανόμενη λειτουργία πάνω από το φάσμα της πιθανοφάνειας, οι τιμές που μεγιστοποιούν την πιθανοφάνεια, θα μεγιστοποιήσουν επίσης και τον λογάριθμό του. Αυτή η λογαριθμική πιθανοφάνεια μπορεί να γραφτεί ως εξής:
(Σημείωση: η λογαριθμική-πιθανοφάνεια είναι στενά συνδεδεμένη με τις πληροφορίες εντροπία και τις πληροφορίες Φίσερ.)
Μπορούμε τώρα να υπολογίσουμε τις παραγώγους αυτής της λογαριθμικής-πιθανοφάνειας ως εξής.
Αυτό λύνεται με
Αυτό είναι πράγματι το μέγιστο της συνάρτησης, δεδομένου ότι είναι το μόνο σημείο καμπής στο μ και η δεύτερη παράγωγος είναι αυστηρά μικρότερη από το μηδέν. Η αναμενόμενη τιμή είναι ίση με την παράμετρο μ της συγκεκριμένης διανομής,
που σημαίνει ότι ο εκτιμητής μέγιστης πιθανοφάνειας είναι αμερόληπτος.
Ομοίως μπορούμε να διαφορίσουμε την λογαριθμική πιθανοφάνεια ως προς το σ και είναι ίσο με το μηδέν:
το οποίο λύνεται με
Εισαγωγή της εκτίμησης θα αποκτηθεί από
Για να υπολογίσουμε την αναμενόμενη τιμή της, είναι βολικό να ξαναγράψουμε την έκφραση σε σχέση με μηδέν-μέσες τυχαίες μεταβλητές (στατιστικό σφάλμα) . Εκφράζοντας την εκτίμηση σε αυτές τις μεταβλητές αποδόσεις
Απλοποιόντας την έκφραση παραπάνω, αξιοποιώντας τα γεγονότα ότι και μας επιτρέπει να αποκτήσουμε
Αυτό σημαίνει ότι ο εκτιμητής είναι εσφαλμένος. Ωστόσο, είναι σταθερή.
Επίσημα μπορούμε να πούμε ότι ο εκτιμητής μέγιστης πιθανοφάνειας για το είναι:
Στην περίπτωση αυτή, οι ΕΜΠ θα μπορούσε να επιτευχθεί ξεχωριστά. Σε γενικές γραμμές, αυτό μπορεί να μην είναι η περίπτωση, και οι ΕΜΠ θα πρέπει να λαμβάνονται ταυτόχρονα.
Η κανονική λογαριθμική πιθανοφάνεια στο μέγιστο παίρνει μια ιδιαίτερα απλή μορφή:
Αυτή η μέγιστη λογαριθμική πιθανοφάνεια μπορεί να αποδειχθεί ότι είναι το ίδιο για πιο γενικότερων ελαχίστων τετραγώνων, ακόμα και για μη-γραμμικά ελάχιστα τετράγωνα. Αυτό συχνά χρησιμοποιείται για τον προσδιορισμό της πιθανοφάνειας με βάση την προσέγγιση του διαστήματος εμπιστοσύνης και τις περιοχές εμπιστοσύνης, οι οποίες είναι γενικά πιο ακριβή από ότι εκείνες που χρησιμοποιούν την ασυμπτωτική κανονικότητα που συζητήθηκε παραπάνω.
Μπορεί να είναι η υπόθεση ότι οι μεταβλητές συσχετίζονται, δηλαδή, δεν είναι ανεξάρτητες. Δύο τυχαίες μεταβλητές X και Y είναι ανεξάρτητες μόνο αν η από κοινού συνάρτηση πυκνότητας πιθανότητας είναι το γινόμενο των επιμέρους συναρτήσεων πυκνότητας πιθανότητας, δηλ.
Ας υποθέσουμε ότι κάποιος κατασκευάζει μια σειρά-n Gauss διανυσμάτων από τυχαίες μεταβλητές , όπου κάθε μεταβλητή έχει μέσο που δίνεται από . Επιπλέον, ας έχουμε τον πίνακα συνδιακύμανσης ότι θα συμβολίζεται με .
Η κοινή συνάρτηση πυκνότητας πιθανότητας αυτών των n τυχαίων μεταβλητών, στη συνέχεια, δίνεται από:
Σε αυτό και σε άλλες περιπτώσεις όπου η κοινή συνάρτηση πυκνότητας υπάρχει η συνάρτηση πιθανοφάνειας ορίζεται όπως παραπάνω, στην ενότητα Αρχές, χρησιμοποιώντας αυτή την πυκνότητα.
Σκεφτείτε τα προβλήματα που και τα δύο μέλη και οι παράμετροι όπως το απαιτούν να εκτιμηθούν. Επαναληπτικές διαδικασίες όπως αλγόριθμοι Προσδοκίας-μεγιστοποίησης μπορούν να χρησιμοποιηθούν για την επίλυση κοινού κατάσταση-εκτίμηση παραμέτρων προβλημάτων.
Για παράδειγμα, ας υποθέσουμε ότι n δείγματα μιας κατάστασης εκτιμούν , μαζί με μια μέση τιμή δείγματος έχουν υπολογιστεί είτε από μια ελάχιστη διακύμανση Kalman φίλτρο ή μια ελάχιστη διακύμανση ομαλότερη χρησιμοποιώντας μια προηγούμενη εκτίμηση διακύμανσης . Στη συνέχεια η ημερήσια διακύμανση επαναλαμβάνω μπορεί να ληφθεί από τον υπολογισμό του εκτιμητή μέγιστης πιθανοφάνειας
Η σύγκλιση των ΕΜΠ εντός φιλτραρίσματος και η εξομάλυνση των αλγόριθμοι Προσδοκίας (ΑΠ) έχει μελετηθεί στην βιβλιογραφία.[13][14][15]
Η εκτίμηση μέγιστης πιθανοφάνειας χρησιμοποιείται για ένα ευρύ φάσμα των στατιστικών μοντέλων, συμπεριλαμβανομένων:
Οι χρήσεις αυτές προκύπτουν σε εφαρμογές σε ευρύ σύνολο από τομείς, συμπεριλαμβανομένων: