On attribue à l'histoire de la statistique ou des statistiques la date de commencement de 1749, bien que l'interprétation du terme « statistique » ait changé au cours du temps. Aux temps plus anciens, cette science ne consistait qu'en la collection d'informations des États[1], d'où l'étymologie du nom, de l'allemand Statistik, dérivé de l'italien statista (« Homme d'État »)[2]. Plus tard, cette définition est étendue à tout type d'information collectée et, encore plus tard, les sciences statistiques incluent l'analyse et l'interprétation de ces données. En termes modernes, les statistiques incluent les ensembles de données, telles celles de la comptabilité nationale et les registres de températures (en), ainsi que le travail d'analyse, lequel requiert les méthodes de l'inférence statistique.
La science statistique semble exister dès la naissance des premières structures sociales. D'ailleurs, les premiers textes écrits retrouvés étaient des recensements du bétail, des informations sur son cours et des contrats divers. On a ainsi trace de recensements en Chine au XXIIIe siècle av. J.-C. ou en Égypte au XVIIIe siècle av. J.-C. Ce système de recueil de données se poursuit jusqu'au XVIIe siècle. En Europe, le rôle de collecteur est souvent tenu par des guildes marchandes, puis par les intendants de l'État.
La civilisation Inca (1400-1530) a développé un système de numération positionnel en base 10 (donc similaire à celui utilisé aujourd'hui). Ne connaissant pas l'écriture[3], ils utilisaient des quipus pour « écrire » les statistiques de l'État. Un quipu est un encordage dont les cordes présentent trois types de nœuds symbolisant respectivement l'unité, la dizaine et la centaine[4]. Un agencement des nœuds sur une corde donne un nombre entre 1 et 999 ; les ajouts de cordes permettant de passer au millier, au million, etc.
Le jésuite et chroniqueur espagnol Bernabé Cobo (1983 [1653]: 253–254)[5], venu au Pérou après la conquête (1532), rapporte un témoignage indiquant que les quipucamayocs (maîtres du Quipu) étaient chargés de recenser toutes les données relatives aux récoltes. Dans une étude approfondie du quipu VA 42527 (Museum für Völkerkunde, Berlin), Sáez-Rodríguez (2013)[6] démontre que les écritures comptables de clôture des comptes se rapportant aux greniers (à grains) permettaient au quipucamayoc (chargé de la comptabilité) de les faire correspondre au calendrier lunaire[7].
Ce n'est qu'au XVIIIe siècle que l'on voit apparaître le rôle prévisionnel des statistiques avec la construction des premières tables de mortalité. Antoine Deparcieux écrit en 1746 l'Essai sur les probabilités de la durée de vie humaine. Elle va d'abord servir aux compagnies d'assurances sur la vie qui se créent alors[8].
La statistique est aussi un appui pour l'histoire prospective ou rétrospective de la démographie notamment. Ainsi en 1842, le Baron de Reiffenberg présentait-il[9] à l'Académie ses calculs rétrospectifs de population chez des peuples gaulois, d'après des chiffres donnés par Jules César dans sa conquête des gaules (De bello Gallico, v.).
Florence Nightingale est une pionnière de la présentation visuelle de l'information. Elle utilise entre autres les diagrammes circulaires, les "Pie Chart", développés par William Playfair en 1801. Après la guerre de Crimée, elle se met à utiliser une version améliorée de ces diagrammes (équivalant aux histogrammes circulaires d'aujourd'hui), afin d'illustrer les causes saisonnières de mortalité des patients de l'hôpital militaire qu'elle gère. Par la suite, Nightingale réalise une étude statistique complète du système sanitaire dans les campagnes indiennes. Elle devient la figure majeure de l'amélioration des soins médicaux et des services publics de santé, en Inde et en Angleterre.
Les statistiques mathématiques s'appuyaient sur les premiers travaux concernant les probabilités développés par Fermat et Pascal. C'est probablement chez Thomas Bayes que l'on vit apparaître un embryon de statistique inférentielle. Condorcet et Laplace parlaient encore de probabilité là où l'on parlerait aujourd'hui de fréquence. Mais c'est à Adolphe Quetelet que l'on doit l'idée que la statistique est une science s'appuyant sur les probabilités.
Pierre-Simon de Laplace fait entrer l'analyse dans la théorie des probabilités dans sa théorie analytique des probabilités de 1812 qui restera longtemps un monument. Son livre donne une première version du théorème central limite qui ne s'applique alors que pour une variable à deux états, par exemple pile ou face mais pas un dé à 6 faces. Il faudra attendre 1901 pour en voir apparaître la première version générale par Liapounov. C'est aussi dans ce traité qu'apparaît la méthode de Laplace pour l'évaluation asymptotique de certaines intégrales.
Sous l'impulsion de Quetelet, qui ouvre en 1841 le premier bureau statistique le Conseil Supérieur de Statistique, les statistiques se développent et deviennent un domaine à part entière des mathématiques qui s'appuie sur les probabilités mais n'en font plus partie.
La théorie moderne des probabilités ne prend réellement son essor qu'avec la notion de mesure et d'ensembles mesurables qu'Émile Borel introduit en 1897.
Le XIXe siècle voit cette activité prendre son plein essor. Des règles précises sur la collecte et l'interprétation des données furent édictées. La première application industrielle des statistiques eut lieu lors du recensement américain de 1890, qui mit en œuvre la carte perforée inventée par le statisticien Herman Hollerith. Celui-ci avait déposé un brevet au bureau américain des brevets.
Legendre en 1805[10] 1811[11] puis Gauss en 1809[12] introduisent, sur des problèmes d'astronomie, la méthode des moindres carrés, ensemble de méthodes qui deviendront fondamentales en statistiques.
Ludwig Boltzmann formalise mathématiquement en 1872 l'évolution d'un gaz peu dense hors équilibre. L'« équation de Boltzmann » est l'équation intégro-différentielle de la théorie cinétique permettant d'évaluer la répartition des énergies cinétiques, à une température donnée, des molécules d'un gaz[13].
Boltzmann considère que le système étudié est composé d'un grand nombre de « petits » systèmes isolés de même nature se distinguant les uns des autres par leur phase — à savoir leur configuration et leur vitesse. Ne pouvant suivre l'évolution de l'un de ces systèmes, il « détermine la distribution de l'ensemble des systèmes parmi toutes les phases qu'ils peuvent prendre à un instant quelconque ». Ces considérations statistiques sont les prémices de l'établissement de la physique statistique[14].
Au XXe siècle, ces applications industrielles se développèrent d'abord aux États-Unis, qui étaient en avance sur les sciences de gestion, puis seulement après la Première Guerre mondiale en Europe. Le régime nazi employa des méthodes statistiques à partir de 1934 pour le réarmement. En France, on était moins au fait de ces applications.
L'application industrielle des statistiques en France se développe avec la création de l'Insee, qui remplaça le Service National des Statistiques créé par René Carmille.
L'avènement de l'informatique dans les années 1940 (aux États-Unis), puis en Europe (dans les années 1960) permit de traiter un plus grand nombre de données, mais surtout de croiser entre elles des séries de données de types différents. C'est le développement de ce qu'on appelle l'analyse multidimensionnelle. Au cours du siècle, plusieurs courants de pensée vont s'affronter :