Στη στατιστική, η μέθοδος ελαχίστων τετραγώνων (OLS) είναι ένας τύπος γραμμικής μεθόδου ελαχίστων τετραγώνων για την επιλογή των άγνωστων παραμέτρων σε ένα μοντέλο γραμμικής παλινδρόμησης (με σταθερές επιδράσεις επιπέδου ένα μιας γραμμικής συνάρτησης ενός συνόλου επεξηγηματικών μεταβλητών) με βάση την αρχή των ελαχίστων τετραγώνων: ελαχιστοποίηση του αθροίσματος των τετραγώνων των διαφορών μεταξύ της παρατηρούμενης εξαρτημένης μεταβλητής (τιμές της παρατηρούμενης μεταβλητής) στο σύνολο δεδομένων εισόδου και της εξόδου της (γραμμικής) συνάρτησης της ανεξάρτητης μεταβλητής[2]. Ορισμένες πηγές θεωρούν ότι η OLS είναι γραμμική παλινδρόμηση[3].
Γεωμετρικά, αυτό θεωρείται ως το άθροισμα των τετραγώνων των αποστάσεων, παράλληλων προς τον άξονα της εξαρτημένης μεταβλητής, μεταξύ κάθε σημείου δεδομένων στο σύνολο και του αντίστοιχου σημείου στην επιφάνεια παλινδρόμησης - όσο μικρότερες είναι οι διαφορές, τόσο καλύτερα προσαρμόζεται το μοντέλο στα δεδομένα. Ο εκτιμητής που προκύπτει μπορεί να εκφραστεί με έναν απλό τύπο, ιδίως στην περίπτωση μιας απλής γραμμικής παλινδρόμησης, στην οποία υπάρχει ένας μια παλινδρομούσα μεταβλητή[4] στη δεξιά πλευρά της εξίσωσης παλινδρόμησης.
Ο εκτιμητής OLS είναι συνεπής για τις σταθερές επιδράσεις επιπέδου ένα όταν οι παλινδρομούσες μεταβλητές είναι εξωγενείς και σχηματίζουν τέλεια συνδιακύμανση (συνθήκη κατάταξης), συνεπής για την εκτίμηση της διακύμανσης των καταλοίπων όταν οι παλινδρομούσες μεταβλητές έχουν πεπερασμένες τέταρτες ροπές[5] και -σύμφωνα με το θεώρημα Γκάους-Μάρκοφ- βέλτιστος στην κατηγορία των γραμμικών αμερόληπτων εκτιμητών όταν τα σφάλματα είναι ομοσκεδαστικά και σειριακά ασυσχέτιστα. Υπό αυτές τις συνθήκες, η μέθοδος OLS παρέχει εκτίμηση ελάχιστης διακύμανσης με μέση αμερόληπτη εκτίμηση όταν τα σφάλματα έχουν πεπερασμένες διακυμάνσεις. Υπό την πρόσθετη υπόθεση ότι τα σφάλματα κατανέμονται κανονικά με μηδενική μέση τιμή, η OLS είναι ο εκτιμητής μέγιστης πιθανοφάνειας που υπερτερεί έναντι οποιουδήποτε μη γραμμικού αμερόληπτου εκτιμητή.
Κύριο άρθρο: γραμμική παλινδρόμηση
Ας υποθέσουμε ότι τα δεδομένα αποτελούνται από παρατηρήσεις . Κάθε παρατήρηση περιλαμβάνει μια κλιμακωτή απόκριση και ένα διάνυσμα στήλης από παραμέτρους (παλινδρομούσες μεταβλητές[4]), δηλ, . Σε ένα μοντέλο γραμμικής παλινδρόμησης, η μεταβλητή απόκρισης, , είναι μια γραμμική συνάρτηση από παλινδρομούσες μεταβλητές[4]:
ή σε διανυσματική μορφή,: όπου , όπως εισήχθη προηγουμένως, είναι ένα διάνυσμα στήλης του -th διάνυσμα άγνωστων παραμέτρων- και το βαθμωτό αντιπροσωπεύει μη παρατηρούμενες τυχαίες μεταβλητές (σφάλματα) της -th παρατήρησης. υπολογίζει τις επιδράσεις στις αποκρίσεις από πηγές άλλες από τις επεξηγηματικές μεταβλητές . Αυτό το μοντέλο μπορεί επίσης να γραφεί σε συμβολισμό πινάκων ως εξής
όπου και είναι διανύσματα των μεταβλητών απόκρισης και των σφαλμάτων των παρατηρήσεων, και είναι ένας πίνακας από παλινδρομούσες μεταβλητές (regressors), που μερικές φορές ονομάζεται επίσης πίνακας σχεδιασμού, του οποίου η γραμμή είναι και περιέχει την -th παρατήρηση για όλες τις επεξηγηματικές μεταβλητές.
Συνήθως, ένας σταθερός όρος περιλαμβάνεται στο σύνολο των παλινδρομητών , π.χ., λαμβάνοντας για όλα τα . Ο συντελεστής που αντιστοιχεί σε αυτόν τον παλινδρομητή ονομάζεται intercept. Χωρίς την τομή, η προσαρμοσμένη γραμμή αναγκάζεται να διασχίσει την αρχή όταν .
Οι παλινδρομούσες μεταβλητές δεν είναι απαραίτητο να είναι ανεξάρτητες για να είναι συνεπής η εκτίμηση, π.χ. μπορεί να είναι μη γραμμικά εξαρτημένες. Ωστόσο, καθώς η πολυσυγγραμμικότητα αυξάνεται, το τυπικό σφάλμα γύρω από τις εκτιμήσεις αυτές αυξάνεται και μειώνει την ακρίβεια των εκτιμήσεων αυτών. Όταν υπάρχει τέλεια πολυσυγγραμμικότητα, δεν είναι πλέον δυνατόν να ληφθούν μοναδικές εκτιμήσεις για τους συντελεστές από τις σχετικές παλινδρομούσες μεταβλητές - η εκτίμηση για αυτές τις παραμέτρους δεν μπορεί να συγκλίνει (επομένως, δεν μπορεί να είναι συνεπής).
Ως ένα συγκεκριμένο παράδειγμα όπου οι παλινδρομούσες μεταβλητές δεν εξαρτώνται γραμμικά, αλλά η εκτίμηση μπορεί να εξακολουθεί να είναι συνεπής, θα μπορούσαμε να υποπτευθούμε ότι η απόκριση εξαρτάται γραμμικά τόσο από μια τιμή όσο και από το τετράγωνό της- στην περίπτωση αυτή θα συμπεριλάβαμε μια παλινδρομούσα μεταβλητή της οποίας η τιμή είναι απλώς το τετράγωνο μιας άλλης παλινδρομικής μεταβλητής. Σε αυτή την περίπτωση, το μοντέλο θα ήταν τετραγωνικό στη δεύτερη παλινδρομούσα , αλλά παρ' όλα αυτά εξακολουθεί να θεωρείται γραμμικό μοντέλο, επειδή το μοντέλο είναι ακόμα γραμμικό στις παραμέτρους ().
των γραμμικών εξισώσεων με άγνωστους συντελεστές, , με . Αυτό μπορεί να γραφεί σε μορφή πίνακα ως εξής
όπου
(Σημείωση: για ένα γραμμικό μοντέλο όπως το παραπάνω, δεν περιέχουν όλα τα στοιχεία του πληροφορίες σχετικά με τα σημεία δεδομένων. Η πρώτη στήλη συμπληρώνεται με μονάδες, . Μόνο οι άλλες στήλες περιέχουν πραγματικά δεδομένα. Έτσι εδώ το είναι ίσο με τον αριθμό από τις παλινδρομούσες συν ένα).
Ένα τέτοιο σύστημα συνήθως δεν έχει ακριβή λύση, οπότε ο στόχος είναι να βρεθούν οι συντελεστές που ταιριάζουν στις εξισώσεις «καλύτερα», με την έννοια της επίλυσης του προβλήματος τετραγωνικής ελαχιστοποίησης.
όπου η αντικειμενική συνάρτηση δίνεται από τη σχέση
Μια αιτιολόγηση για την επιλογή αυτού του κριτηρίου δίνεται στις Ιδιότητες παρακάτω. Αυτό το πρόβλημα ελαχιστοποίησης έχει μοναδική λύση, υπό την προϋπόθεση ότι οι στήλες του πίνακα είναι γραμμικά ανεξάρτητες, που δίνεται από την επίλυση των λεγόμενων κανονικών εξισώσεων:
Ο πίνακας είναι γνωστός ως κανονικός πίνακας ή πίνακας Gram και ο πίνακας είναι γνωστός ως πίνακας ροπής της παλινδρόμησης από τις παλινδρομούσες μεταβλητές.[6] Τέλος, είναι το διάνυσμα του συντελεστή του υπερεπιπέδου ελαχίστων τετραγώνων, που εκφράζεται ως εξής
ή
Ας υποθέσουμε ότι το bείναι μια «υποψήφια» τιμή για το διάνυσμα παραμέτρων β. Η ποσότητα yi − xiTb η οποία καλείται υπόλειμμα για την i-th παρατήρηση, μετρά την κάθετη απόσταση μεταξύ του σημείου δεδομένων (xi, yi) και του υπερεπιπέδου y = xTb και συνεπώς αξιολογεί το βαθμό προσαρμογής μεταξύ των πραγματικών δεδομένων και του μοντέλου. Το άθροισμα των τετραγωνικών καταλοίπων (SSR) (που ονομάζεται επίσης άθροισμα τετραγώνων σφάλματος (ESS) ή άθροισμα τετραγώνων καταλοίπων (RSS))[7] είναι ένα μέτρο της συνολικής προσαρμογής του μοντέλου:
όπου Τ δηλώνει τον ανάστροφο πίνακα και οι γραμμές του Χ, που δηλώνουν τις τιμές όλων των ανεξάρτητων μεταβλητών που συνδέονται με μια συγκεκριμένη τιμή της εξαρτημένης μεταβλητής, είναι Xi = xiT. Η τιμή του β που ελαχιστοποιεί αυτό το άθροισμα ονομάζεται εκτιμητής OLS για το β. Η συνάρτηση S(b) είναι τετραγωνική ως προς το β με θετικά πεπερασμένη Εσσιανή, και επομένως η συνάρτηση αυτή διαθέτει ένα μοναδικό παγκόσμιο ελάχιστο στο το οποίο μπορεί να δοθεί από τον ρητό τύπο[8]
Το γινόμενο N = XT X είναι ένας πίνακας Gram και ο αντίστροφός του, Q = N−1 είναι ο πίνακας των συμπαραγόντων του β,[9][10][11]που σχετίζεται στενά με τον πίνακα συνδιακύμανσης, Cβ. Ο πίνακας (XT X)−1 XT = Q XT ονομάζεται ψευδοαντίστροφος πίνακας Moore-Penrose του X. Αυτή η διατύπωση υπογραμμίζει το σημείο ότι η εκτίμηση μπορεί να πραγματοποιηθεί εάν, και μόνο εάν, δεν υπάρχει τέλεια πολυσυγγραμμικότητα μεταξύ των επεξηγηματικών μεταβλητών (η οποία θα προκαλούσε ο πίνακας Γκραμ να μην έχει αντίστροφο).
Αφού έχουμε εκτιμήσει το β, οι προσαρμοσμένες τιμές (ή προβλεπόμενες τιμές) από την παλινδρόμηση θα είναι
όπου P = X(XTX)−1XT είναι ο πίνακας προβολής στον χώρο V που καλύπτεται από τις στήλες του X. Αυτός ο πίνακας P ονομάζεται επίσης μερικές φορές πίνακας καπέλου επειδή «βάζει ένα καπέλο» στη μεταβλητή y. Ένας άλλος πίνακας, στενά συνδεδεμένος με τον P είναι ο πίνακας annihilator M = In − P αυτός είναι ένας πίνακας προβολής στον χώρο που είναι ορθογώνιος στον V. Και οι δύο πίνακες P και M είναι συμμετρικοί και ιδιοσυστατικοί (δηλαδή P2 = P και M2 = M) και σχετίζονται με τον πίνακα δεδομένων X μέσω των ταυτοτήτων PX = X και MX = 0.[12] πίνακας M δημιουργεί τα κατάλοιπα της παλινδρόμησης:
Οι αποκλίσεις των προβλεπόμενων τιμών βρίσκονται στην κύρια διαγώνιο της μήτρας διακύμανσης-συνδιακύμανσης των προβλεπόμενων τιμών:
όπου P είναι ο πίνακας προβολής και s2 είναι η δειγματική διακύμανση.[13] Ο πλήρης πίνακας είναι πολύ μεγάλος- τα διαγώνια στοιχεία του μπορούν να υπολογιστούν μεμονωμένα ως εξής:
όπου Xi είναι η i-th γραμμή του πίνακα X.
Χρησιμοποιώντας αυτά τα κατάλοιπα μπορούμε να εκτιμήσουμε τη δειγματική διακύμανση s2 χρησιμοποιώντας το στατιστικό μειωμένο χι-τετράγωνο:
Ο παρονομαστής, n−p είναι οι στατιστικοί βαθμοί ελευθερίας. Η πρώτη ποσότητα, s2 είναι η εκτίμηση OLS για το σ2, ενώ η δεύτερη, είναι η εκτίμηση MLE για το σ2. Οι δύο εκτιμητές είναι αρκετά παρόμοιοι σε μεγάλα δείγματα- ο πρώτος εκτιμητής είναι πάντα αμερόληπτος, ενώ ο δεύτερος εκτιμητής είναι μεροληπτικός αλλά έχει μικρότερο μέσο τετραγωνικό σφάλμα. Στην πράξη ο s2 χρησιμοποιείται συχνότερα, καθώς είναι πιο βολικός για τον έλεγχο υποθέσεων. Η τετραγωνική ρίζα του s2 ονομάζεται τυπικό σφάλμα παλινδρόμησης,[14] τυπικό σφάλμα της παλινδρόμησης,[15][16] ή τυπικό σφάλμα της εξίσωσης[12].
Είναι σύνηθες να αξιολογείται η καλή προσαρμογή της παλινδρόμησης OLS συγκρίνοντας πόσο μπορεί να μειωθεί η αρχική διακύμανση του δείγματος με την παλινδρόμηση στο Χ. Ο συντελεστής προσδιορισμού R2 ορίζεται ως ο λόγος της «εξηγούμενης» διακύμανσης προς τη «συνολική» διακύμανση της εξαρτημένης μεταβλητής y, στις περιπτώσεις όπου το άθροισμα των τετραγώνων της παλινδρόμησης ισούται με το άθροισμα των τετραγώνων των υπολοίπων:[17]
όπου TSS είναι το συνολικό άθροισμα τετραγώνων για την εξαρτημένη μεταβλητή, και είναι ένας n×n πίνακας μονάδων. ( είναι ένας πίνακας κεντραρίσματος που ισοδυναμεί με παλινδρόμηση σε μια σταθερά- απλά αφαιρεί τον μέσο όρο από μια μεταβλητή). Προκειμένου το R2 να έχει νόημα, ο πίνακας X των δεδομένων για τις παλινδρομούσες μεταβλητές πρέπει να περιέχει ένα διάνυσμα στήλης από μονάδες για την αναπαράσταση της σταθεράς της οποίας ο συντελεστής είναι η τομή παλινδρόμησης. Σε αυτή την περίπτωση, το R2 θα είναι πάντα ένας αριθμός μεταξύ 0 και 1, με τιμές κοντά στο 1 που υποδηλώνουν καλό βαθμό προσαρμογής.
Κύριο άρθρο: Απλή γραμμική παλινδρόμηση
Εάν ο πίνακας δεδομένων X περιέχει μόνο δύο μεταβλητές, μια σταθερά και έναν κλιμακωτό παλινδρομητή xi τότε αυτό ονομάζεται «απλό μοντέλο παλινδρόμησης». Αυτή η περίπτωση εξετάζεται συχνά στα μαθήματα στατιστικής για αρχάριους, καθώς παρέχει πολύ απλούστερους τύπους, κατάλληλους ακόμη και για χειροκίνητο υπολογισμό. Οι παράμετροι συμβολίζονται συνήθως ως (α, β):
Οι εκτιμήσεις των ελαχίστων τετραγώνων στην περίπτωση αυτή δίνονται από απλούς τύπους
Για τους μαθηματικούς, η OLS είναι μια προσεγγιστική λύση σε ένα υπερκαθορισμένο σύστημα γραμμικών εξισώσεων Xβ ≈ y, όπου β είναι ο άγνωστος. Υποθέτοντας ότι το σύστημα δεν μπορεί να επιλυθεί ακριβώς (ο αριθμός των εξισώσεων n είναι πολύ μεγαλύτερος από τον αριθμό των αγνώστων p), αναζητούμε μια λύση που θα μπορούσε να παρέχει τη μικρότερη δυνατή απόκλιση μεταξύ της δεξιάς και της αριστερής πλευράς. Με άλλα λόγια, αναζητάμε τη λύση που ικανοποιεί
όπου ‖·‖ είναι η τυπική νόρμα L2 στον n-διάστατο ευκλείδειο χώρο Rn. Η προβλεπόμενη ποσότητα y − Xβ είναι απλώς ένας ορισμένος γραμμικός συνδυασμός διανυσμάτων από παλινδρομούσες μεταβλητές. Έτσι, το υπολειμματικό διάνυσμα y − Xβ θα έχει το μικρότερο μήκος όταν το y προβάλλεται ορθογώνια στον γραμμικό υποχώρο που καλύπτεται από τις στήλες του X. Ο εκτιμητής OLS σε αυτή την περίπτωση μπορεί να ερμηνευτεί ως οι συντελεστές της διανυσματικής αποσύνθεσης του ^y = Py κατά μήκος της βάσης του X.
Με άλλα λόγια, οι εξισώσεις κλίσης στο ελάχιστο μπορούν να γραφούν ως εξής:
Μια γεωμετρική ερμηνεία αυτών των εξισώσεων είναι ότι το διάνυσμα των υπολοίπων, είναι ορθογώνιο στο χώρο των στηλών του X, αφού το εσωτερικό γινόμενο είναι ίσο με μηδέν για κάθε σύμμορφο διάνυσμα, v. Αυτό σημαίνει ότι είναι το συντομότερο από όλα τα πιθανά διανύσματα δηλαδή η διακύμανση των υπολοίπων είναι η ελάχιστη δυνατή. Αυτό απεικονίζεται στα δεξιά.
Εισάγοντας και έναν πίνακα K με την παραδοχή ότι ένας πίνακας είναι μη ιδιάζων και KT X = 0 (βλ. Ορθογώνιες προβολές), το διάνυσμα υπολοίπου θα πρέπει να ικανοποιεί την ακόλουθη εξίσωση:
Η εξίσωση και η λύση των γραμμικών ελαχίστων τετραγώνων περιγράφονται ως εξής:
Ένας άλλος τρόπος να το δούμε είναι να θεωρήσουμε ότι η γραμμή παλινδρόμησης είναι ένας σταθμισμένος μέσος όρος των γραμμών που διέρχονται από το συνδυασμό δύο οποιωνδήποτε σημείων στο σύνολο δεδομένων.[18] Αν και αυτός ο τρόπος υπολογισμού είναι πιο δαπανηρός υπολογιστικά, παρέχει μια καλύτερη διαίσθηση για την OLS.
Ο εκτιμητής OLS είναι πανομοιότυπος με τον εκτιμητή μέγιστης πιθανοφάνειας (MLE) υπό την υπόθεση της κανονικότητας για τους όρους σφάλματος.[19] Αυτή η υπόθεση κανονικότητας έχει ιστορική σημασία, καθώς αποτέλεσε τη βάση για τις πρώτες εργασίες στην ανάλυση γραμμικής παλινδρόμησης από τους Γιουλ και Πίρσον. Από τις ιδιότητες της MLE, μπορούμε να συμπεράνουμε ότι ο εκτιμητής OLS είναι ασυμπτωτικά αποτελεσματικός (με την έννοια της επίτευξης του ορίου Κραμέρ-Ράο για τη διακύμανση) εάν ικανοποιείται η υπόθεση κανονικότητας[20].
Στην περίπτωση iid ο εκτιμητής OLS μπορεί επίσης να θεωρηθεί ως εκτιμητής GMM που προκύπτει από τις συνθήκες ροπής
Αυτές οι συνθήκες στιγμής δηλώνουν ότι οι παλινδρομούσες μεταβλητές[4] πρέπει να είναι ασυσχέτιστες με τα σφάλματα. Δεδομένου ότι το xi είναι ένα p-διάνυσμα, ο αριθμός των συνθηκών στιγμής είναι ίσος με τη διάσταση του διανύσματος παραμέτρων β, και έτσι το σύστημα ταυτοποιείται επακριβώς. Αυτή είναι η λεγόμενη κλασική περίπτωση GMM, όταν ο εκτιμητής δεν εξαρτάται από την επιλογή του πίνακα στάθμισης.
Ας σημειωθεί ότι η αρχική υπόθεση αυστηρής εξωγένειας E[εi | xi] = 0 συνεπάγεται ένα πολύ πιο πλούσιο σύνολο συνθηκών στιγμής από ό,τι αναφέρεται παραπάνω. Ειδικότερα, η υπόθεση αυτή συνεπάγεται ότι για οποιαδήποτε διανυσματική συνάρτηση ƒ, θα ισχύει η συνθήκη στιγμής E[ƒ(xi)·εi] = 0. Ωστόσο, μπορεί να αποδειχθεί χρησιμοποιώντας το θεώρημα Γκάους-Μάρκοφ ότι η βέλτιστη επιλογή της συνάρτησης ƒ είναι να ληφθεί ƒ is to take ƒ(x) = x, γεγονός που οδηγεί στην εξίσωση ροπής που αναρτήθηκε παραπάνω.
Δείτε επίσης: Παραδοχές
Υπάρχουν πολλά διαφορετικά πλαίσια στα οποία μπορεί να ενταχθεί το μοντέλο γραμμικής παλινδρόμησης, ώστε να είναι εφαρμόσιμη η τεχνική OLS. Κάθε ένα από αυτά τα πλαίσια παράγει τους ίδιους τύπους και τα ίδια αποτελέσματα. Η μόνη διαφορά είναι η ερμηνεία και οι υποθέσεις που πρέπει να επιβληθούν προκειμένου η μέθοδος να δώσει ουσιαστικά αποτελέσματα. Η επιλογή του εφαρμοστέου πλαισίου εξαρτάται κυρίως από τη φύση των δεδομένων που έχουμε στη διάθεσή μας και από την εργασία εξαγωγής συμπερασμάτων που πρέπει να εκτελεστεί.
Μία από τις γραμμές διαφοράς στην ερμηνεία είναι αν οι παλινδρομούσες μεταβλητές αντιμετωπίζονται ως τυχαίες μεταβλητές ή ως προκαθορισμένες σταθερές. Στην πρώτη περίπτωση (τυχαίος σχεδιασμός) οι παλινδρομούσες μεταβλητές xi είναι τυχαίες και λαμβάνονται μαζί με τις yi's από κάποιο πληθυσμό, όπως σε μια μελέτη παρατήρησης. Αυτή η προσέγγιση επιτρέπει την πιο φυσική μελέτη των ασυμπτωτικών ιδιοτήτων των εκτιμητών. Στην άλλη ερμηνεία (σταθερός σχεδιασμός), οι παλινδρομούσες μεταβλητές X αντιμετωπίζονται ως γνωστές σταθερές που καθορίζονται από έναν σχεδιασμό, και το y δειγματοληπτείται υπό προϋποθέσεις από τις τιμές του X, όπως σε ένα πείραμα. Για πρακτικούς σκοπούς, η διάκριση αυτή είναι συχνά ασήμαντη, δεδομένου ότι η εκτίμηση και η εξαγωγή συμπερασμάτων πραγματοποιείται ενώ εξαρτώνται από το X. Όλα τα αποτελέσματα που αναφέρονται στο παρόν άρθρο εντάσσονται στο πλαίσιο του τυχαίου σχεδιασμού.
Το κλασικό μοντέλο επικεντρώνεται στην εκτίμηση και την εξαγωγή συμπερασμάτων με «πεπερασμένο δείγμα», δηλαδή ο αριθμός των παρατηρήσεων n είναι σταθερός. Αυτό έρχεται σε αντίθεση με τις άλλες προσεγγίσεις, οι οποίες μελετούν την ασυμπτωτική συμπεριφορά της OLS και στις οποίες μελετάται η συμπεριφορά σε μεγάλο αριθμό δειγμάτων.
Η άμεση συνέπεια της παραδοχής της εξωγένειας είναι ότι τα σφάλματα έχουν μέσο όρο μηδέν: E[ε] = 0 (για το νόμο της ολικής προσδοκίας), και ότι οι παλινδρομούσες μεταβλητές είναι ασυσχέτιστες με τα σφάλματα: E[XTε] = 0.
Η υπόθεση της εξωγένειας είναι κρίσιμη για τη θεωρία OLS. Εάν ισχύει, τότε οι παλινδρομούσες μεταβλητές ονομάζονται εξωγενείς. Εάν δεν ισχύει, τότε οι παλινδρομικές μεταβλητές που συσχετίζονται με τον όρο σφάλματος ονομάζονται ενδογενείς [22] και ο εκτιμητής OLS γίνεται μεροληπτικός. Στην περίπτωση αυτή μπορεί να χρησιμοποιηθεί η μέθοδος των εργαλειακών μεταβλητών για τη διεξαγωγή συμπερασμάτων.
Συνήθως, υποτίθεται επίσης ότι οι παλινδρομούσες μεταβλητές έχουν πεπερασμένες ροπές μέχρι τουλάχιστον τη δεύτερη στιγμή. Τότε ο πίνακας Qxx = E[XTX / n] είναι πεπερασμένος και θετικά ημικαθορισμένος.
Όταν η υπόθεση αυτή παραβιάζεται, οι παλινδρομούσες μεταβλητές[4] ονομάζονται γραμμικά εξαρτημένες ή απόλυτα πολυγραμμικές. Σε μια τέτοια περίπτωση η τιμή του συντελεστή παλινδρόμησης β δεν μπορεί να μαθευτεί, αν και η πρόβλεψη των τιμών y εξακολουθεί να είναι δυνατή για νέες τιμές απο παλινδρομούσες μεταβλητές που βρίσκονται στον ίδιο γραμμικά εξαρτημένο υποχώρο.
όπου In όπου In είναι ο πίνακας ταυτότητας στη διάσταση n και σ2 είναι μια παράμετρος που καθορίζει τη διακύμανση κάθε παρατήρησης. Αυτό το σ2 θεωρείται παράμετρος ενόχλησης στο μοντέλο, αν και συνήθως εκτιμάται επίσης. Εάν παραβιαστεί αυτή η υπόθεση, τότε οι εκτιμήσεις OLS εξακολουθούν να είναι έγκυρες, αλλά δεν είναι πλέον αποτελεσματικές. Συνηθίζεται να χωρίζεται αυτή η υπόθεση σε δύο μέρη:
που σημαίνει ότι ο όρος σφάλματος έχει την ίδια διακύμανση σ2 σε κάθε παρατήρηση. Όταν αυτή η απαίτηση παραβιάζεται αυτό ονομάζεται ετεροσκεδαστικότητα, σε μια τέτοια περίπτωση ένας πιο αποτελεσματικός εκτιμητής θα ήταν τα σταθμισμένα ελάχιστα τετράγωνα. Αν τα σφάλματα έχουν άπειρη διακύμανση τότε και οι εκτιμήσεις OLS θα έχουν άπειρη διακύμανση (αν και σύμφωνα με το νόμο των μεγάλων αριθμών θα τείνουν ωστόσο προς τις πραγματικές τιμές εφόσον τα σφάλματα έχουν μηδενική μέση τιμή). Σε αυτή την περίπτωση, συνιστώνται ισχυρές τεχνικές εκτίμησης.
Η υπόθεση αυτή δεν είναι απαραίτητη για την εγκυρότητα της μεθόδου OLS, αν και μπορούν να διαπιστωθούν ορισμένες πρόσθετες ιδιότητες πεπερασμένου δείγματος στην περίπτωση που είναι απαραίτητη (ιδίως στον τομέα του ελέγχου υποθέσεων). Επίσης, όταν τα σφάλματα είναι κανονικά, ο εκτιμητής OLS είναι ισοδύναμος με τον εκτιμητή μέγιστης πιθανοφάνειας (MLE), και επομένως είναι ασυμπτωτικά αποτελεσματικός στην κατηγορία όλων των κανονικών εκτιμητών. Είναι σημαντικό ότι η υπόθεση κανονικότητας ισχύει μόνο για τους όρους σφάλματος- αντίθετα με μια δημοφιλή παρανόηση, η μεταβλητή απόκρισης (εξαρτημένη μεταβλητή) δεν απαιτείται να είναι κανονικά κατανεμημένη.[25]
Σε ορισμένες εφαρμογές, ιδίως με διατομεακά δεδομένα, επιβάλλεται μια πρόσθετη υπόθεση - ότι όλες οι παρατηρήσεις είναι ανεξάρτητες και πανομοιότυπα κατανεμημένες. Αυτό σημαίνει ότι όλες οι παρατηρήσεις λαμβάνονται από ένα τυχαίο δείγμα, γεγονός που καθιστά όλες τις παραδοχές που αναφέρθηκαν προηγουμένως απλούστερες και ευκολότερες στην ερμηνεία. Επίσης, αυτό το πλαίσιο επιτρέπει τη δήλωση ασυμπτωτικών αποτελεσμάτων (καθώς το μέγεθος του δείγματος n → ∞), τα οποία νοούνται ως θεωρητική δυνατότητα άντλησης νέων ανεξάρτητων παρατηρήσεων από τη διαδικασία παραγωγής δεδομένων. Ο κατάλογος των υποθέσεων σε αυτή την περίπτωση είναι ο εξής:
Πρώτα απ' όλα, υπό την αυστηρή υπόθεση της εξωγένειας οι εκτιμητές OLS και s2 είναι αμερόληπτοι, που σημαίνει ότι οι αναμενόμενες τιμές τους συμπίπτουν με τις πραγματικές τιμές των παραμέτρων:[27]
Εάν η αυστηρή εξωγένεια δεν ισχύει (όπως συμβαίνει με πολλά μοντέλα χρονολογικών σειρών, όπου η εξωγένεια υποτίθεται μόνο ως προς τις παρελθοντικές διαταραχές αλλά όχι ως προς τις μελλοντικές), τότε οι εκτιμητές αυτοί θα είναι μεροληπτικοί σε πεπερασμένα δείγματα.
Ο πίνακας διακύμανσης-συνδιακύμανσης (ή απλώς ο πίνακας συνδιακύμανσης) του είναι ίσος με[28]
Ειδικότερα, το τυπικό σφάλμα κάθε συντελεστή είναι ίσο με την τετραγωνική ρίζα του j-th διαγώνιου στοιχείου αυτού του πίνακα. Η εκτίμηση αυτού του τυπικού σφάλματος προκύπτει αντικαθιστώντας την άγνωστη ποσότητα σ2 με την εκτίμησή της s2. Έτσι,
Μπορεί επίσης εύκολα να αποδειχθεί ότι ο εκτιμητής είναι ασυσχέτιστος με τα κατάλοιπα του μοντέλου :[28]
Το θεώρημα Γκάους-Μάρκοφ δηλώνει ότι υπό την υπόθεση των σφαιρικών σφαλμάτων (δηλαδή τα σφάλματα πρέπει να είναι ασυσχέτιστα και ομοσκεδαστικά) ο εκτιμητής είναι αποτελεσματικός στην κατηγορία των γραμμικών αμερόληπτων εκτιμητών. Αυτός ονομάζεται καλύτερος γραμμικός αμερόληπτος εκτιμητής (BLUE). Η αποδοτικότητα πρέπει να γίνει κατανοητή ως εξής: αν βρούμε κάποιον άλλο εκτιμητή ο οποίος θα είναι γραμμικός στο y και αμερόληπτος, τότε [28]
με την έννοια ότι πρόκειται για μη αρνητικό-οριστικό πίνακα. Αυτό το θεώρημα τεκμηριώνει τη βέλτιστη λειτουργία μόνο στην κατηγορία των γραμμικών αμερόληπτων εκτιμητών, η οποία είναι αρκετά περιοριστική. Ανάλογα με την κατανομή των όρων σφάλματος ε, άλλοι, μη γραμμικοί εκτιμητές μπορεί να παρέχουν καλύτερα αποτελέσματα από την OLS.
Οι ιδιότητες που αναφέρθηκαν μέχρι στιγμής ισχύουν όλες ανεξάρτητα από την υποκείμενη κατανομή των όρων σφάλματος. Ωστόσο, εάν θέλουµε να υποθέσουµε ότι ισχύει η «υπόθεση κανονικότητας» (δηλαδή, ότι ε ~ N(0, σ2In)), τότε μπορούν να δηλωθούν πρόσθετες ιδιότητες των εκτιμητών OLS.
Ο εκτιμητής είναι κανονικά κατανεμημένος, με μέση τιμή και διακύμανση όπως δόθηκε προηγουμένως:[29]
Αυτός ο εκτιμητής επιτυγχάνει το όριο Κραμέρ-Ράο για το μοντέλο και συνεπώς είναι βέλτιστος στην κατηγορία όλων των αμερόληπτων εκτιμητών.[20] Σημειώστε ότι σε αντίθεση με το θεώρημα Γκάους-Μάρκοφ, αυτό το αποτέλεσμα καθορίζει τη βελτιστότητα τόσο μεταξύ των γραμμικών όσο και των μη γραμμικών εκτιμητών, αλλά μόνο στην περίπτωση κανονικά κατανεμημένων όρων σφάλματος.
Ο εκτιμητής s2 θα είναι ανάλογος με την κατανομή χι-τετράγωνο:[30]
Η διακύμανση αυτού του εκτιμητή είναι ίση με 2σ4/(n − p), η οποία δεν επιτυγχάνει το όριο Κραμέρ-Ράο 2σ4/n. Ωστόσο, αποδείχθηκε ότι δεν υπάρχουν αμερόληπτοι εκτιμητές του σ2 με διακύμανση μικρότερη από εκείνη του εκτιμητή s2.[31] Αν είμαστε πρόθυμοι να επιτρέψουμε προκατειλημμένους εκτιμητές και θεωρήσουμε την κλάση των εκτιμητών που είναι ανάλογοι με το άθροισμα των τετραγωνικών καταλοίπων (SSR) του μοντέλου, τότε ο καλύτερος (με την έννοια του μέσου τετραγωνικού σφάλματος) εκτιμητής σε αυτή την κλάση θα είναι ~σ2 = SSR / (n − p + 2) ο οποίος μάλιστα ξεπερνά το όριο Κραμέρ-Ράο στην περίπτωση που υπάρχει μόνο ένας παλινδρομητής (p = 1).[32].
Επιπλέον, οι εκτιμητές β και s2 είναι ανεξάρτητοι,[33] γεγονός που είναι χρήσιμο κατά την κατασκευή των t- και F-tests για την παλινδρόμηση.
Όπως αναφέρθηκε προηγουμένως, ο εκτιμητής είναι γραμμικός ως προς το y, που σημαίνει ότι αντιπροσωπεύει έναν γραμμικό συνδυασμό των εξαρτημένων μεταβλητών yi. Τα βάρη σε αυτόν τον γραμμικό συνδυασμό είναι συναρτήσεις των παλινδρομητών X και γενικά είναι άνισα. Οι παρατηρήσεις με υψηλά βάρη ονομάζονται επιδραστικές επειδή έχουν πιο έντονη επίδραση στην τιμή του εκτιμητή.
Για να αναλύσουμε ποιες παρατηρήσεις έχουν επιρροή αφαιρούμε μια συγκεκριμένη j-th παρατήρηση και εξετάζουμε πόσο θα μεταβληθούν οι εκτιμώμενες ποσότητες (παρόμοια με τη μέθοδο jackknife). Μπορεί να αποδειχθεί ότι η αλλαγή στον εκτιμητή OLS για το β θα είναι ίση με [34]
όπου hj = xjT (XTX)−1xj είναι το j-th διαγώνιο στοιχείο του πίνακα καπέλου P, και xj είναι το διάνυσμα των παλινδρομητών που αντιστοιχεί στην j-th παρατήρηση. Παρομοίως, η αλλαγή στην προβλεπόμενη τιμή για την 'j-th παρατήρηση που προκύπτει από την παράλειψη της εν λόγω παρατήρησης από το σύνολο δεδομένων θα είναι ίση με [34]
Από τις ιδιότητες του πίνακα hat, 0 ≤ hj ≤ 1, και αθροίζουν σε p, έτσι ώστε κατά μέσο όρο hj ≈ p/n. Αυτές οι ποσότητες hj ονομάζονται μοχλοί, και οι παρατηρήσεις με υψηλό hj ονομάζονται σημεία μόχλευσης.[35] Συνήθως οι παρατηρήσεις με υψηλή μόχλευση πρέπει να εξετάζονται πιο προσεκτικά, σε περίπτωση που είναι λανθασμένες, ακραίες ή με κάποιον άλλο τρόπο άτυπες σε σχέση με το υπόλοιπο σύνολο δεδομένων.
Κύριο άρθρο: Έλεγχος υποθέσεων
Συγκεκριμένα, χρησιμοποιούνται δύο έλεγχοι υποθέσεων. Πρώτον, θέλουμε να μάθουμε αν η εκτιμώμενη εξίσωση παλινδρόμησης είναι καλύτερη από την απλή πρόβλεψη ότι όλες οι τιμές της μεταβλητής απόκρισης είναι ίσες με τον δειγματικό μέσο όρο (αν αυτό δεν συμβαίνει, λέμε ότι δεν έχει ερμηνευτική ισχύ). Η μηδενική υπόθεση ότι η εκτιμώμενη παλινδρόμηση δεν έχει επεξηγηματική ισχύ ελέγχεται με τη χρήση ενός F-test. Εάν η υπολογιζόμενη τιμή F είναι αρκετά μεγάλη ώστε να υπερβαίνει την κρίσιμη τιμή της για το επιλεγμένο επίπεδο σημαντικότητας, η μηδενική υπόθεση απορρίπτεται και η εναλλακτική υπόθεση ότι η παλινδρόμηση έχει επεξηγηματική ισχύ γίνεται αποδεκτή. Διαφορετικά, γίνεται δεκτή η μηδενική υπόθεση ότι δεν υπάρχει ερμηνευτική ισχύς.
Δεύτερον, για κάθε επεξηγηματική μεταβλητή που μας ενδιαφέρει, επιθυμούμε να μάθουμε αν ο εκτιμώμενος συντελεστής της διαφέρει σημαντικά από το μηδέν - δηλαδή αν η συγκεκριμένη επεξηγηματική μεταβλητή έχει πράγματι επεξηγηματική δύναμη στην πρόβλεψη της μεταβλητής απόκρισης. Εδώ, η μηδενική υπόθεση είναι ότι ο πραγματικός συντελεστής είναι μηδέν. Η υπόθεση αυτή ελέγχεται με τον υπολογισμό του t-statistic για τον συντελεστή, δηλαδή του λόγου μεταξύ της εκτίμησης του συντελεστή και του τυπικού σφάλματός του. Εάν το t-statistic είναι μεγαλύτερο από μια προκαθορισμένη τιμή, η μηδενική υπόθεση απορρίπτεται και η μεταβλητή θεωρείται ότι έχει ερμηνευτική ισχύ, καθώς ο συντελεστής της διαφέρει σημαντικά από το μηδέν. Διαφορετικά, γίνεται δεκτή η μηδενική υπόθεση μηδενικής τιμής για τον πραγματικό συντελεστή.
Επιπλέον, ο έλεγχος Τσόου χρησιμοποιείται για να ελεγχθεί αν δύο υποδείγματα έχουν τις ίδιες υποκείμενες πραγματικές τιμές συντελεστών. Το άθροισμα των τετραγωνικών καταλοίπων των παλινδρομήσεων σε κάθε ένα από τα υποσύνολα και στο συνδυασμένο σύνολο δεδομένων συγκρίνεται με τον υπολογισμό μιας στατιστικής F- αν αυτή υπερβαίνει μια κρίσιμη τιμή, η μηδενική υπόθεση της μη ύπαρξης διαφοράς μεταξύ των δύο υποσυνόλων απορρίπτεται- διαφορετικά, γίνεται δεκτή.
Δείτε επίσης: Απλή γραμμική παλινδρόμηση
Το ακόλουθο σύνολο δεδομένων δίνει το μέσο ύψος και βάρος για Αμερικανίδες ηλικίας 30-39 ετών (πηγή: The World Almanac and Book of Facts, 1975).
Όταν μοντελοποιείται μια ενιαία εξαρτημένη μεταβλητή, ένα διάγραμμα διασποράς υποδηλώνει τη μορφή και την ισχύ της σχέσης μεταξύ της εξαρτημένης μεταβλητής και των παλινδρομητών. Μπορεί επίσης να αποκαλύψει ακραίες τιμές, ετεροσκεδαστικότητα και άλλες πτυχές των δεδομένων που μπορεί να περιπλέξουν την ερμηνεία ενός προσαρμοσμένου μοντέλου παλινδρόμησης. Το διάγραμμα διασποράς υποδηλώνει ότι η σχέση είναι ισχυρή και μπορεί να προσεγγιστεί ως τετραγωνική συνάρτηση. Η OLS μπορεί να αντιμετωπίσει μη γραμμικές σχέσεις εισάγοντας τον παλινδρομητή HEIGHT2. Το μοντέλο παλινδρόμησης γίνεται τότε ένα πολλαπλό γραμμικό μοντέλο:
Η έξοδος από τα περισσότερα δημοφιλή στατιστικά πακέτα θα μοιάζει με αυτό:
Μέθοδος | Least squares | |||
Εξαρτημένη μεταβλητή | WEIGHT | |||
Παρατηρήσεις | 15 | |||
Παράμετρος | Τιμή | Σφάλμα Std | t-στατιστική | p-τιμή |
---|---|---|---|---|
128.8128 | 16.3083 | 7.8986 | 0.0000 | |
–143.1620 | 19.8332 | –7.2183 | 0.0000 | |
61.9603 | 6.0084 | 10.3122 | 0.0000 | |
R2 | 0.9989 | S.E. of regression | 0.2516 | |
Adjusted R2 | 0.9987 | Model sum-of-sq. | 692.61 | |
Log-likelihood | 1.0890 | Residual sum-of-sq. | 0.7595 | |
Durbin–Watson stat. | 2.1013 | Total sum-of-sq. | 693.37 | |
Akaike criterion | 0.2548 | F-statistic | 5471.2 | |
Schwarz criterion | 0.3964 | p-value (F-stat) | 0.0000 |
Σε αυτόν τον πίνακα:
Η συνήθης ανάλυση ελαχίστων τετραγώνων περιλαμβάνει συχνά τη χρήση διαγνωστικών διαγραμμάτων που αποσκοπούν στην ανίχνευση αποκλίσεων των δεδομένων από την υποτιθέμενη μορφή του μοντέλου. Αυτά είναι μερικά από τα συνήθη διαγνωστικά διαγράμματα:
Ένα σημαντικό στοιχείο κατά τη διεξαγωγή στατιστικών συμπερασμάτων με τη χρήση μοντέλων παλινδρόμησης είναι ο τρόπος δειγματοληψίας των δεδομένων. Σε αυτό το παράδειγμα, τα δεδομένα είναι μέσοι όροι και όχι μετρήσεις σε μεμονωμένες γυναίκες. Η προσαρμογή του μοντέλου είναι πολύ καλή, αλλά αυτό δεν σημαίνει ότι το βάρος μιας μεμονωμένης γυναίκας μπορεί να προβλεφθεί με μεγάλη ακρίβεια με βάση μόνο το ύψος της.
Το παράδειγμα αυτό δείχνει επίσης ότι οι συντελεστές που προσδιορίζονται από αυτούς τους υπολογισμούς είναι ευαίσθητοι στον τρόπο προετοιμασίας των δεδομένων. Τα ύψη δόθηκαν αρχικά στρογγυλοποιημένα στην πλησιέστερη ίντσα και έχουν μετατραπεί και στρογγυλοποιηθεί στο πλησιέστερο εκατοστό. Δεδομένου ότι ο συντελεστής μετατροπής είναι μία ίντσα σε 2,54 cm, αυτή δεν είναι όχι ακριβής μετατροπή. Οι αρχικές ίντσες μπορούν να ανακτηθούν με το Round(x/0,0254) και στη συνέχεια να μετατραπούν εκ νέου σε μετρικές χωρίς στρογγυλοποίηση. Αν γίνει αυτό, τα αποτελέσματα γίνονται:
Const | Height | Height2 | |
---|---|---|---|
Converted to metric with rounding. | 128.8128 | −143.162 | 61.96033 |
Converted to metric without rounding. | 119.0205 | −131.5076 | 58.5046 |
Η χρήση οποιασδήποτε από αυτές τις εξισώσεις για την πρόβλεψη του βάρους μιας γυναίκας ύψους 1,6764 μ. δίνει παρόμοιες τιμές: 62,94 kg με στρογγυλοποίηση έναντι 62,98 kg χωρίς στρογγυλοποίηση. Έτσι, μια φαινομενικά μικρή διαφοροποίηση στα δεδομένα έχει πραγματική επίδραση στους συντελεστές αλλά μικρή επίδραση στα αποτελέσματα της εξίσωσης.
Ενώ αυτό μπορεί να φαίνεται αβλαβές στη μέση του εύρους των δεδομένων, μπορεί να γίνει σημαντικό στα άκρα ή στην περίπτωση που το προσαρμοσμένο μοντέλο χρησιμοποιείται για προβολή εκτός του εύρους των δεδομένων (παρέκταση).
Αυτό αναδεικνύει ένα συνηθισμένο σφάλμα: το παράδειγμα αυτό αποτελεί κατάχρηση της OLS, η οποία απαιτεί εγγενώς ότι τα σφάλματα στην ανεξάρτητη μεταβλητή (σε αυτή την περίπτωση το ύψος) είναι μηδενικά ή τουλάχιστον αμελητέα. Η αρχική στρογγυλοποίηση στην πλησιέστερη ίντσα συν τυχόν πραγματικά σφάλματα μέτρησης συνιστούν ένα πεπερασμένο και μη αμελητέο σφάλμα. Ως αποτέλεσμα, οι προσαρμοσμένες παράμετροι δεν είναι οι καλύτερες εκτιμήσεις που υποτίθεται ότι είναι. Αν και δεν είναι εντελώς ψευδές, το σφάλμα στην εκτίμηση εξαρτάται από το σχετικό μέγεθος των σφαλμάτων «x» και «y».