En estadística, la regressió del nucli és una tècnica no paramètrica per estimar l'expectativa condicional d'una variable aleatòria. L'objectiu és trobar una relació no lineal entre un parell de variables aleatòries X i Y.
En qualsevol regressió no paramètrica, l'expectativa condicional d'una variable relatiu a una variable es pot escriure:
on és una funció desconeguda.
Nadaraya i Watson, tots dos en 1964, van proposar estimar com a mitjana ponderada localment, utilitzant un nucli com a funció de ponderació.[1][2][3] L'estimador de Nadaraya-Watson és:
on és un nucli amb una amplada de banda de tal manera que és d'ordre almenys 1, és a dir .
Aquest exemple es basa en dades de salaris transversals canadencs que consisteixen en una mostra aleatòria presa de les cintes d'ús públic del cens canadenc de 1971 per a individus masculins amb educació comuna (grau 13). Hi ha 205 observacions en total.
La figura de la dreta mostra la funció de regressió estimada utilitzant un nucli gaussià de segon ordre juntament amb límits de variabilitat asimptòtica.
KernelReg
per a tipus de dades mixtes al subpaquet statsmodels.nonparametric
(inclou altres classes relacionades amb la densitat del nucli), el paquet kernel_regression com a extensió de scikit-learn (ineficient quant a la memòria, útil només per a conjunts de dades petits)npreg
del paquet np pot realitzar una regressió del nucli.[5]