La statistica computazionale è una disciplina a cavallo tra statistica e informatica che studia metodi statistici applicati tramite metodi computazionali. È la branca delle scienze computazionali specifica della statistica. Quest'area si sta sviluppando rapidamente, tanto che si discute di farla diventare parte integrante dell'insegnamento della statistica.[1]
Come nella statistica tradizionale, l'obiettivo della statistica computazionale è trasformare i dati grezzi in conoscenza,[2] incentrandosi però su quei metodi statistici che necessitano l'uso di computer, come nei casi in cui la dimensione del campione è molto grande e i dataset non sono omogenei.[2]
I termini "statistica computazionale" e "computazione statistica" sono spesso usati in modo intercambiabile, anche se Carlo Lauro (ex presidente dell'International Association for Statistical Computing) ha proposto di fare una distinzione, definendo "computazione statistica" come "l'applicazione dell'informatica alla statistica", e "statistica computazionale" come la disciplina "finalizzata alla progettazione di algoritmi per implementare metodi statistici su computer, compresi quelli impensabili prima dell'era dei computer (es. bootstrap, simulazioni), nonché per far fronte a problemi analiticamente intrattabili" [sic].[3]
Il termine "statistica computazionale" può essere utilizzato anche per riferirsi a metodi statistici con una impronta computazionale (computationally intensive), tra cui metodi di ricampionamento, metodi Catena di Markov Monte Carlo, regressione locale, stima dei kernel di densità, reti neurali artificiali e modelli additivi generalizzati.
Per la maggior parte, i fondatori del campo della statistica si sono affidati alla matematica e alle approssimazioni asintotiche nello sviluppo della metodologia statistica computazionale.[4]
In campo statistico, il primo utilizzo del termine "computer" arriva in un articolo negli archivi del Journal of the American Statistical Association di Robert P. Porter nel 1891. L'articolo discuteva dell'utilizzo, per l'11º censimento degli Stati Uniti, della macchina tabulatrice inventata da Hermann Hollerith.[5] La cosiddetta "macchina tabulatrice" (tabulating machine), era una macchina elettromeccanica progettata per aiutare a riassumere le informazioni memorizzate su schede perforate. L'invenzione di Hollerith fu brevettata nel 1884 e successivamente fu utilizzata nel censimento degli Stati Uniti del 1890. I vantaggi della tecnologia sono stati immediatamente evidenti: in occasione del censimento del 1880, con circa 50 milioni di persone, ci vollero oltre 7 anni per tabulare; invece, nel censimento del 1890, con oltre 62 milioni di persone, ci volle meno di un anno. Questo segnò l'inizio dell'era della statistica computazionale meccanizzata e dei sistemi semiautomatici di elaborazione dati.
Nel 1908, William Sealy Gosset eseguì la sua ormai nota simulazione del metodo Monte Carlo che portò alla scoperta della distribuzione t di Student.[6] Con l'aiuto di metodi computazionali, ha anche i grafici delle distribuzioni empiriche sovrapposte alle corrispondenti distribuzioni teoriche. L'avanzamento tecnologico portato dal computer ha rivoluzionato il mondo delle simulazioni, tanto da rendere la replica dell'esperimento di Gosset poco più di un esercizio.[7][8]
La stima di massima verosimiglianza viene utilizzata per stimare, dati alcuni campioni, i parametri di una certa distribuzione di probabilità. Il metodo prevede di massimizzare una funzione di verosimiglianza in modo che i dati osservati siano più probabili secondo il modello statistico assunto.
I metodi Monte Carlo sono dei metodi statistici basati su un campionamento casuale ripetuto al fine di ottenere risultati numerici. Il concetto è usare la casualità per risolvere problemi che potrebbero essere in linea di principio deterministici. Sono spesso utilizzati in problemi fisici e matematici e sono particolarmente utili quando è difficile utilizzare altri approcci. I metodi Monte Carlo sono utilizzati principalmente in tre classi di problemi: ottimizzazione, integrazione numerica e per estrarre campioni da una distribuzione di probabilità.
Il metodo Monte Carlo basato sulla catena di Markov crea campioni da una variabile casuale continua, con densità di probabilità proporzionale a una funzione nota. Questi campioni possono essere utilizzati per valutare un integrale su quella variabile, come il suo valore atteso o la suavarianza. Più passaggi sono inclusi, più la distribuzione del campione corrisponde alla distribuzione effettiva desiderata.
La statistica computazionale si declina in numerose branche della scienza, tra cui la biologia computazionale, la scienza dei materiali computazionale, la fisica computazionale, la matematica computazionale, nonché la linguistica computazionale.