Statistica computazionale

La statistica computazionale è una disciplina a cavallo tra statistica e informatica che studia metodi statistici applicati tramite metodi computazionali. È la branca delle scienze computazionali specifica della statistica. Quest'area si sta sviluppando rapidamente, tanto che si discute di farla diventare parte integrante dell'insegnamento della statistica.^[1]

Come nella statistica tradizionale, l'obiettivo della statistica computazionale è trasformare i dati grezzi in conoscenza,^[2] incentrandosi però su quei metodi statistici che necessitano l'uso di computer, come nei casi in cui la dimensione del campione è molto grande e i dataset non sono omogenei.^[2]

I termini "statistica computazionale" e "computazione statistica" sono spesso usati in modo intercambiabile, anche se Carlo Lauro (ex presidente dell'International Association for Statistical Computing) ha proposto di fare una distinzione, definendo "computazione statistica" come "l'applicazione dell'informatica alla statistica", e "statistica computazionale" come la disciplina "finalizzata alla progettazione di algoritmi per implementare metodi statistici su computer, compresi quelli impensabili prima dell'era dei computer (es. bootstrap, simulazioni), nonché per far fronte a problemi analiticamente intrattabili" [sic].^[3]

Il termine "statistica computazionale" può essere utilizzato anche per riferirsi a metodi statistici con una impronta computazionale (computationally intensive), tra cui metodi di ricampionamento, metodi Catena di Markov Monte Carlo, regressione locale, stima dei kernel di densità, reti neurali artificiali e modelli additivi generalizzati.

Storia

Per la maggior parte, i fondatori del campo della statistica si sono affidati alla matematica e alle approssimazioni asintotiche nello sviluppo della metodologia statistica computazionale.^[4]

In campo statistico, il primo utilizzo del termine "computer" arriva in un articolo negli archivi del Journal of the American Statistical Association di Robert P. Porter nel 1891. L'articolo discuteva dell'utilizzo, per l'11º censimento degli Stati Uniti, della macchina tabulatrice inventata da Hermann Hollerith.^[5] La cosiddetta "macchina tabulatrice" (tabulating machine), era una macchina elettromeccanica progettata per aiutare a riassumere le informazioni memorizzate su schede perforate. L'invenzione di Hollerith fu brevettata nel 1884 e successivamente fu utilizzata nel censimento degli Stati Uniti del 1890. I vantaggi della tecnologia sono stati immediatamente evidenti: in occasione del censimento del 1880, con circa 50 milioni di persone, ci vollero oltre 7 anni per tabulare; invece, nel censimento del 1890, con oltre 62 milioni di persone, ci volle meno di un anno. Questo segnò l'inizio dell'era della statistica computazionale meccanizzata e dei sistemi semiautomatici di elaborazione dati.

Nel 1908, William Sealy Gosset eseguì la sua ormai nota simulazione del metodo Monte Carlo che portò alla scoperta della distribuzione t di Student.^[6] Con l'aiuto di metodi computazionali, ha anche i grafici delle distribuzioni empiriche sovrapposte alle corrispondenti distribuzioni teoriche. L'avanzamento tecnologico portato dal computer ha rivoluzionato il mondo delle simulazioni, tanto da rendere la replica dell'esperimento di Gosset poco più di un esercizio.^[7]^[8]

Metodi

Stima di massima verosimiglianza

La stima di massima verosimiglianza viene utilizzata per stimare, dati alcuni campioni, i parametri di una certa distribuzione di probabilità. Il metodo prevede di massimizzare una funzione di verosimiglianza in modo che i dati osservati siano più probabili secondo il modello statistico assunto.

Metodo Montecarlo

I metodi Monte Carlo sono dei metodi statistici basati su un campionamento casuale ripetuto al fine di ottenere risultati numerici. Il concetto è usare la casualità per risolvere problemi che potrebbero essere in linea di principio deterministici. Sono spesso utilizzati in problemi fisici e matematici e sono particolarmente utili quando è difficile utilizzare altri approcci. I metodi Monte Carlo sono utilizzati principalmente in tre classi di problemi: ottimizzazione, integrazione numerica e per estrarre campioni da una distribuzione di probabilità.

Catena di Markov Monte Carlo

Il metodo Monte Carlo basato sulla catena di Markov crea campioni da una variabile casuale continua, con densità di probabilità proporzionale a una funzione nota. Questi campioni possono essere utilizzati per valutare un integrale su quella variabile, come il suo valore atteso o la suavarianza. Più passaggi sono inclusi, più la distribuzione del campione corrisponde alla distribuzione effettiva desiderata.

Applicazioni

La statistica computazionale si declina in numerose branche della scienza, tra cui la biologia computazionale, la scienza dei materiali computazionale, la fisica computazionale, la matematica computazionale, nonché la linguistica computazionale.

Note

^ Nolan, D. & Temple Lang, D. (2010). "Computing in the Statistics Curricula", The American Statistician 64 (2), pp.97-107.
^ ^a ^b Wegman, Edward J. “Computational Statistics: A New Agenda for Statistical Theory and Practice.” Journal of the Washington Academy of Sciences, vol. 78, no. 4, 1988, pp. 310–322. JSTOR
^ vol. 23, 1996, DOI:10.1016/0167-9473(96)88920-1.
^ (EN) Mitchell Watnik, Early Computational Statistics, in Journal of Computational and Graphical Statistics, vol. 20, n. 4, 2011, pp. 811–817, DOI:10.1198/jcgs.2011.204b, ISSN 1061-8600 (WC · ACNP).
^ W. A. Hendrickson, Atomic models for the polypeptide backbones of myohemerythrin and hemerythrin, in Biochemical and Biophysical Research Communications, vol. 66, n. 4, 27 ottobre 1975, pp. 1349–1356, DOI:10.1016/0006-291x(75)90508-2, ISSN 1090-2104 (WC · ACNP), PMID 5.
^ Los Alamos science, Number 14, 1º gennaio 1986.
^ Recent Advances in Monte Carlo Methods at Los Alamos National Laboratory, 3 ottobre 2019.
^ The Monte Carlo Method, vol. 44, 1949, DOI:10.1080/01621459.1949.10483310, ISSN 0162-1459 (WC · ACNP).

Voci correlate

Collegamenti esterni

Associazioni

Riviste

Portale Informatica

Portale Statistica

[1] Nolan, D. & Temple Lang, D. (2010). "Computing in the Statistics Curricula", The American Statistician 64 (2), pp.97-107.

[:0-2] Wegman, Edward J. “Computational Statistics: A New Agenda for Statistical Theory and Practice.” Journal of the Washington Academy of Sciences, vol. 78, no. 4, 1988, pp. 310–322. JSTOR

[3] vol. 23, 1996, DOI:10.1016/0167-9473(96)88920-1.

[4] (EN) Mitchell Watnik, Early Computational Statistics, in Journal of Computational and Graphical Statistics, vol. 20, n. 4, 2011, pp. 811–817, DOI:10.1198/jcgs.2011.204b, ISSN 1061-8600 (WC · ACNP).

[5] W. A. Hendrickson, Atomic models for the polypeptide backbones of myohemerythrin and hemerythrin, in Biochemical and Biophysical Research Communications, vol. 66, n. 4, 27 ottobre 1975, pp. 1349–1356, DOI:10.1016/0006-291x(75)90508-2, ISSN 1090-2104 (WC · ACNP), PMID 5.

[6] Los Alamos science, Number 14, 1º gennaio 1986.

[7] Recent Advances in Monte Carlo Methods at Los Alamos National Laboratory, 3 ottobre 2019.

[8] The Monte Carlo Method, vol. 44, 1949, DOI:10.1080/01621459.1949.10483310, ISSN 0162-1459 (WC · ACNP).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]