Loi de Gumbel

Gumbel
Image illustrative de l’article Loi de Gumbel
Densité de probabilité

Image illustrative de l’article Loi de Gumbel
Fonction de répartition

Paramètres position (réel)
échelle (réel)
Support
Densité de probabilité
avec
Fonction de répartition
Espérance

est la Constante d'Euler-Mascheroni.

Médiane
Mode
Variance
Asymétrie
Kurtosis normalisé
Entropie
pour
Fonction génératrice des moments
Fonction caractéristique

En théorie des probabilités, la loi de Gumbel (ou distribution de Gumbel), du nom d'Émil Julius Gumbel, est une loi de probabilité continue. La loi de Gumbel est un cas particulier de la loi d'extremum généralisée au même titre que la loi de Weibull ou la loi de Fréchet. La loi de Gumbel est une approximation satisfaisante de la loi du maximum d'un échantillon de variables aléatoires indépendantes toutes de même loi, dès que cette loi appartient, précisément, au domaine d'attraction de la loi de Gumbel. Parmi les lois appartenant au domaine d'attraction de la loi de Gumbel, on compte la loi exponentielle[1].

La loi de Gumbel peut par exemple servir à prévoir le niveau des crues d'un fleuve, à condition de disposer des mesures des débits maximaux sur une période d'au moins dix ans. Elle peut également servir à prédire la probabilité d'un événement critique, comme un tremblement de terre.

Définitions

[modifier | modifier le code]

Fonction de répartition

[modifier | modifier le code]

Etant donné deux paramètres et , la fonction de répartition de la loi de Gumbel est donné par :

Distribution standard de Gumbel

[modifier | modifier le code]

La distribution standard de Gumbel correspond au cas où et , avec une fonction de répartition cumulative donnée par :

La fonction densité de probabilité associée est la suivante :

Dans ce cas, le mode est 0, la médiane est , la moyenne est (la Constante d'Euler-Mascheroni), et l'écart-type est

Les cumulants, pour n > 1, sont donnés par :

Propriétés

[modifier | modifier le code]

Le mode est , tandis que la médiane est et l'espérance est donnée par :

,

est la Constante d'Euler-Mascheroni.

L'écart-type est , d'où [2]

Au mode, où , la valeur de devient , quelle que soit la valeur de .

Si sont des variables aléatoires de Gumbel, indépendantes et identiquement distribuées, avec pour paramètres , alors suit également une loi de Gumbel avec le jeu de paramètres

Si sont des variables aléatoires de Gumbel, indépendantes et identiquement distribuées, telles que a la même distribution que pour tout entier naturel , alors suit nécessairement une loi de Gumbel avec un paramètre d'échelle (Il suffit en fait de considérer seulement deux valeurs distinctes de qui sont premières entre elles).

Distributions associées

[modifier | modifier le code]
  • Si X suit une loi de Gumbel, alors la distribution conditionnelle de Y = -X dans le cas où Y est strictement positif, ou de façon équivalente, dans le cas où X est strictement négatif, suit une loi de Gompertz. La fonction de répartition G de Y est reliée à F la fonction de répartition de X, par la formule suivante : pour y > 0. Les densités sont donc reliées par  : la densité de Gompertz (en) est proportionnelle à la densité de Gumbel réfléchie et restreinte aux valeurs strictement positives[3].
  • Si X suit une exponentielle de moyenne égale à 1, alors –log(X) suit une distribution standard de Gumbel.
  • Si alors .

La théorie associée aux lois log-gamma multivariées généralisées (en) fournit une version multivariée de la loi de Gumbel.

Occurrence et applications

[modifier | modifier le code]
Ajustement d'une loi de Gumbel à partir de données observées (maximums journaliers des cumuls de précipitations)

Gumbel a montré que la valeur maximale (ou dernier statistique d'ordre) dans un échantillon de variable aléatoires suivant une distribution exponentielle, moins le logarithme naturel de la taille de l’échantillon[4], tend vers la distribution de Gumbel à mesure que la taille de l’échantillon augmente[5].

Concrètement, soit la distribution de probabilité de et sa fonction de répartition. Alors, la valeur maximale parmi réalisations de est inférieure à si et seulement si toutes les réalisations sont inférieures à . Ainsi, la fonction de répartition de la valeur maximale satisfait :

et, pour une valeur importante de , le membre de droite converge vers

En hydrologie, la distribution de Gumbel est donc utilisée pour analyser des variables telles que les valeurs maximales mensuelles et annuelles des précipitations journalières et des débits fluviaux[2], ainsi que pour décrire les périodes de sécheresse[6].

Gumbel a également montré que l'estimateur r(n+1) pour la probabilité d’un événement — où r est le rang de la valeur observée dans la série de données et n est le nombre total d'observations — est un estimateur non biaisé de la probabilité cumulative autour du mode de la distribution. Par conséquent, cet estimateur est souvent utilisé pour tracer les courbes.

En théorie des nombres, la distribution de Gumbel approxime le nombre de termes dans une partition d'un entier aléatoire[7] ainsi que la taille ajustée des tendances des écarts entre nombres premiers et des écarts maximaux entre les constellations de nombres premiers[8].

Elle apparaît également dans le problème du collectionneur de coupons.

Astuces de reparamétrisation de Gumbel

[modifier | modifier le code]

En apprentissage automatique, la distribution de Gumbel est parfois utilisée pour générer des échantillons à partir de la distribution catégorielle. Cette technique est appelée "astuce de Gumbel-max" et est un exemple particulier des "astuces de reparamétrisation"[9].

En détail, soit des valeurs non négatives, non nulles, et soit des échantillons indépendants de Gumbel(0, 1). Alors, par une intégration de routine, on a : C'est-à-dire, .

De manière équivalente, étant donné , on peut échantillonner à partir de sa distribution de Boltzmann via : Des équations connexes incluent[10] :

  • Si , alors .
  • .

Génération de variables aléatoires

[modifier | modifier le code]

Puisque la fonction quantile (fonction inverse de la fonction de répartition), , d'une distribution de Gumbel est donnée par :

la variable aléatoire suit une distribution de Gumbel avec les paramètres et lorsque la variable aléatoire est tirée de la loi uniforme sur l'intervalle .

Ajustement graphique de la loi de Gumbel

[modifier | modifier le code]
Exemple d’un ajustement graphique de la loi de Gumbel (Cours L.Neppel)

Avant l’ère des logiciels, le papier probabiliste était utilisé pour représenter la distribution de Gumbel (voir illustration). Le graphique est basé sur la linéarisation de la fonction de répartition  :

Sur le graphique, l'axe horizontal est construit avec une échelle logarithmique double. L'axe vertical est linéaire. En reportant sur l'axe horizontal du papier et la variable sur l'axe vertical, la distribution est représentée par une droite de pente 1. Lorsque des logiciels d’ajustement de distribution comme CumFreq sont devenus disponibles, la tâche de représentation graphique de la distribution a été facilitée.

  1. Regular variation, Bingham, Goldie et Teugels.
  2. a et b R.J. Oosterbaan, Drainage Principles and Applications, Publication 16, Wageningen, The Netherlands, International Institute for Land Reclamation and Improvement (ILRI), , 175–224 (ISBN 90-70754-33-9, lire en ligne), « Chapter 6 Frequency and Regression Analysis »
  3. W.J. Willemse et R. Kaas, « Rational reconstruction of frailty-based mortality models by a generalisation of Gompertz' law of mortality », Insurance: Mathematics and Economics, vol. 40, no 3,‎ , p. 468 (DOI 10.1016/j.insmatheco.2006.07.003)
  4. « Distribution de Gumbel et distribution exponentielle », sur Mathematics Stack Exchange
  5. E.J. Gumbel, Statistical theory of extreme values and some practical applications, vol. 33, U.S. Department of Commerce, National Bureau of Standards, coll. « Applied Mathematics Series », , 1re éd. (ASIN B0007DSHG4, lire en ligne)
  6. Eleanor J. Burke, Richard H.J. Perry et Simon J. Brown, « Analyse des valeurs extrêmes des sécheresses au Royaume-Uni et projections futures », Journal of Hydrology, vol. 388, nos 1–2,‎ , p. 131–143 (DOI 10.1016/j.jhydrol.2010.04.035, Bibcode 2010JHyd..388..131B)
  7. Paul Erdös et Joseph Lehner, « La distribution du nombre de termes dans les partitions d'un entier positif », Duke Mathematical Journal, vol. 8, no 2,‎ , p. 335 (DOI 10.1215/S0012-7094-41-00826-8)
  8. A. Kourbatov, « Écarts maximaux entre les k-uplets de nombres premiers : une approche statistique », Journal of Integer Sequences, vol. 16,‎ (Bibcode 2013arXiv1301.2242K, arXiv 1301.2242) Article 13.5.2.
  9. Eric Jang, Shixiang Gu et Ben Poole « Reparamétrisation catégorielle avec Gumbel-Softmax » () (lire en ligne)
    International Conference on Learning Representations (ICLR) 2017
  10. (en) Matej Balog, Nilesh Tripuraneni, Zoubin Ghahramani et Adrian Weller, « Les parents oubliés de l'astuce de Gumbel », PMLR,‎ , p. 371–379 (arXiv 1706.04161, lire en ligne)

Bibliographie

[modifier | modifier le code]