En probabilités, le processus empirique est un processus stochastique qui s'exprime en fonction de la proportion d'objets appartenant à un certain ensemble. Ce processus fait intervenir les déviations d'une statistique autour de sa moyenne et sera donc utile dans l'étude de la plupart d'entre elles.
Si sont des variables aléatoires réelles indépendantes et identiquement distribuées (i.i.d.) ayant pour fonction de répartition alors on définit le processus empirique réel par
où est la fonction de répartition empirique associée à l'échantillon . Il est possible de généraliser cette définition au cas où le processus empirique serait indexé par une classe de fonctions mesurables définies sur un espace et à valeurs réelles. Si les sont i.i.d à valeurs dans un espace et est une fonction mesurable, alors on définit par :
On retombe en particulier sur la première définition quand on prend la classe des fonctions indicatrices . Il est également possible de définir le processus empirique indexé par des classes de fonctions via la mesure empirique et la mesure des , :
Quand le contexte est clair, on peut noter le processus empirique par .
D'après le théorème de Donsker, le processus empirique converge vers un pont brownien dans l'espace de Skorokhod, c'est-à-dire un processus gaussien centré dont la fonction de covariance est donnée par
Pour généraliser ce résultat dans le cas où l'on travaille avec le processus indexé par une classe de fonctions, on appelle classe de Donsker toute classe de fonctions de fonctions mesurables à valeurs réelles vérifiant
où est un processus de -pont brownien, c'est-à-dire un processus gaussien centré dont la covariance vérifie ici
Le théorème de Donsker revient à dire que la classe des fonctions indicatrices est une classe de Donsker.
L'approximation forte consiste à créer un espace convenable sur lequel des objets théorique comme la somme partielle de variables aléatoires i.i.d. ou le processus empirique sera proche de sa limite. Il existe plusieurs résultats concernant le processus empirique. Brillinger montre en 1969[1] qu'on peut créer un espace sur lequel le processus empirique sera proche presque-sûrement du pont brownien avec une borne de .
Il existe d'autres résultats où on approche le processus empirique par un processus de Kiefer avec une borne en qui fut amélioré par le théorème d'approximation KMT avec une borne en . Berthet et Mason montrèrent en 2006 qu'il est également possible d'approcher le processus empirique indexé par une classe de fonctions par le pont brownien indexé par cette même classe si cette dernière vérifie certaines conditions d'entropie[4].
↑(en) D. L. Brillinger, « An asymptotic representation of the sample distribution function », Bulletin of the American Mathematical Society, vol. 75, , p. 545-547 (lire en ligne)
↑(en) J. Komlos, P. Major et G. Tusnady, « An approximation of partial sums of independent RV’-s, and the sample DF. I », Z. Wahrscheinlichkeitstheorie verw, no Gebiete 32, , p. 211-226 (lire en ligne)
↑(en) J. Komlos, P. Major et G. Tusnady, « An approximation of partial sums of independent RV'-s and the sample DF. II », Z. Wahrscheinlichkeitstheorie verw, no Gebiete 34, , p. 33-58 (lire en ligne)
↑(en) Philippe Berthet et David Mason, « Revisiting two strong approximation results of Dudley and Philipp », IMS Lecture Notes–Monograph Series High Dimensional Probability, vol. 51, , p. 155-172 (lire en ligne)