Regolarizzazione (matematica)

Sia la linea verde sia quella blu hanno errore nullo sui dati rossi. Tuttavia, un modello addestrato può essere indotto a preferire la linea verde, in quanto più stabile, tramite una modifica del peso del termine regolarizzatore.

In matematica e statistica, particolarmente nei campi dell'apprendimento automatico e dei problemi inversi, la regolarizzazione implica l'introduzione di ulteriore informazione allo scopo di risolvere un problema mal condizionato o per prevenire l'eccessivo adattamento. Tale informazione è solitamente nella forma di una penalità per complessità, tale come una restrizione su una funzione liscia o una limitazione sulla norma di uno spazio vettoriale.

Una giustificazione teorica per la regolarizzazione è quella per cui essa costituisce un tentativo di imporre il rasoio di Occam alla soluzione. Da un punto di vista bayesiano, molte tecniche di regolarizzazione corrispondono a imporre certe distribuzioni di probabilità a priori dei parametri del modello.

La medesima idea sorge in molti campi della scienza. Per esempio, il metodo dei minimi quadrati può essere visto come una forma veramente semplice di regolarizzazione. Una semplice forma di regolarizzazione applicata alle equazioni integrali, generalmente detta regolarizzazione di Tichonov dal nome di Andrey Nikolayevich Tikhonov, è costituita essenzialmente da un bilanciamento tra la regressione dei dati e una norma dipendente dalla soluzione. Più recentemente, sono divenuti diffusi metodi di regolarizzazione non lineare, inclusa la regolarizzazione a variazione totale (total variation regularization).

Regolarizzazione in statistica

In statistica e in apprendimento automatico, la regolarizzazione è utilizzata per prevenire l'eccessivo adattamento. Tra i tipici esempi di regolarizzazione nell'apprendimento automatico statistico, vi sono la regolarizzazione di Tichonov, il cosiddetto metodo dei minimi quadrati LASSO (Least Absolute Shrinkage and Selection Operator), e la norma L² nelle macchine a vettori di supporto.

I metodi di regolarizzazione sono impiegati anche per la selezione di modelli, dove il loro funzionamento è basato sull'implicita o esplicita penalizzazione del numero di parametri del modello. Per esempio, i metodi di apprendimento bayesiano fanno uso di una probabilità a priori che (solitamente) attribuisce un valore di probabilità inferiore ai modelli più complessi. Tra le tecniche ben note di selezione vi sono il criterio informativo di Akaike (Akaike information criterion, AIC), la lunghezza di descrizione minimale (minimum description length, MDL), e il criterio informativo bayesiano (bayesian information criterion, BIC). Tra i metodi alternativi per controllare l'eccessivo adattamento, che coinvolgono la regolarizzazione, vi sono la Cross-validazione.

Esempi di metodi differenti di regolarizzazione applicati al modello lineare sono:

Modello	Misura del fit	Misura dell'entropia
AIC/BIC	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{0}$
Regressione di Ridge	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{2}$
Metodo LASSO^[1]	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{1}$
Basis pursuit denoising	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\beta \\|_{1}$
RLAD^[2]	$\\|Y-X\beta \\|_{1}$	$\\|\beta \\|_{1}$
Selettore di Dantzig^[3]	$\\|X^{\top }(Y-X\beta )\\|_{\infty }$	$\\|\beta \\|_{1}$

Note

^ Robert Tibshirani, Regression Shrinkage and Selection via the Lasso (ps), in Journal of the Royal Statistical Society, Series B (Methodology), vol. 58, n. 1, 1996, pp. 267–288, MR 1379242. URL consultato il 19 marzo 2009 (archiviato dall'url originale il 31 ottobre 2008).
^ Li Wang, Michael D. Gordon & Ji Zhu, Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning, in Sixth International Conference on Data Mining, dicembre 2006, pp. 690–700, DOI:10.1109/ICDM.2006.134.
^ Emmanuel Candes, Tao, Terence, The Dantzig selector: Statistical estimation when p is much larger than n, in Annals of Statistics, vol. 35, n. 6, 2007, pp. 2313–2351, DOI:10.1214/009053606000001523, MR 2382644, arXiv:math/0506081.

Bibliografia

(EN) Arnold Neumaier, Solving ill-conditioned and singular linear systems: A tutorial on regularization Archiviato il 4 febbraio 2012 in Internet Archive., SIAM Review 40 (1998), 636-666, dal sito web dell'autore.

Collegamenti esterni

(EN) regularization, su Enciclopedia Britannica, Encyclopædia Britannica, Inc.

Portale Informatica

Portale Matematica

Portale Statistica

[1] Robert Tibshirani, Regression Shrinkage and Selection via the Lasso (ps), in Journal of the Royal Statistical Society, Series B (Methodology), vol. 58, n. 1, 1996, pp. 267–288, MR 1379242. URL consultato il 19 marzo 2009 (archiviato dall'url originale il 31 ottobre 2008).

[2] Li Wang, Michael D. Gordon & Ji Zhu, Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning, in Sixth International Conference on Data Mining, dicembre 2006, pp. 690–700, DOI:10.1109/ICDM.2006.134.

[3] Emmanuel Candes, Tao, Terence, The Dantzig selector: Statistical estimation when p is much larger than n, in Annals of Statistics, vol. 35, n. 6, 2007, pp. 2313–2351, DOI:10.1214/009053606000001523, MR 2382644, arXiv:math/0506081.

[1]

[2]

[3]

Modello	Misura del fit	Misura dell'entropia
AIC/BIC	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{0}$
Regressione di Ridge	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{2}$
Metodo LASSO^[1]	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{1}$
Basis pursuit denoising	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\beta \\|_{1}$
RLAD^[2]	$\\|Y-X\beta \\|_{1}$	$\\|\beta \\|_{1}$
Selettore di Dantzig^[3]	$\\|X^{\top }(Y-X\beta )\\|_{\infty }$	$\\|\beta \\|_{1}$

V · D · M Apprendimento automatico
Problemi	Teoria dell'apprendimento statistico · Classificazione · Regressione · Regole di associazione · Apprendimento non supervisionato · Apprendimento supervisionato · Apprendimento per rinforzo · Apprendimento profondo
Apprendimento non supervisionato	Clustering · Clustering gerarchico · K-means · Algoritmo EM · DBSCAN · Mean shift · Rete generativa avversaria (cGAN · VAE-GAN · cycleGAN)
Apprendimento supervisionato	Albero di decisione · Foresta casuale · Conditional random fields CRF · Modello di Markov nascosto · K-nearest neighbors · Classificatore bayesiano · Rete neurale artificiale · Regressione lineare · Regressione logistica · Modelli grafici · Macchine a vettori di supporto
Apprendimento per rinforzo	Q-learning · SARSA · TD
Riduzione della dimensionalità	Analisi fattoriale · Analisi della correlazione canonica (CCA) · Analisi delle componenti indipendenti (ICA) · Analisi discriminante lineare (LDA) · Analisi delle componenti principali (PCA) · Selezione delle caratteristiche · Estrazione di caratteristiche · t-distributed stochastic neighbor embedding (t-SNE)
Reti neurali artificiali	Percettrone · Rete neurale a base radiale · Rete bayesiana · Rete neurale feed-forward · Rete di Hopfield · Percettrone multistrato · Rete neurale ricorrente (LSTM) · Macchina di Boltzmann ristretta · Mappa auto-organizzata · Rete neurale convoluzionale · Rete neurale a ritardo · Rete neurale spiking · Trasformatore
Software	Keras · Microsoft Cognitive Toolkit · Scikit-learn · TensorFlow · Theano · Torch · Weka
Altro	Algoritmo genetico · Particle Swarm Optimization · Caratteristica · Compromesso bias-varianza · Minimizzazione del rischio empirico