Le krigeage est, en géostatistique, une famille de méthodes d’estimation linéaires garantissant le minimum de variance sous certaines hypothèses. Le krigeage réalise l'interpolation spatiale d'une variable régionalisée par calcul de l'espérance mathématique d'une variable aléatoire, utilisant l'interprétation et la modélisation du variogramme expérimental. Il tient compte non seulement de la distance entre les données et le point d'estimation, mais également des distances entre les données deux à deux.
Le terme « krigeage » provient du nom de famille de l'ingénieur minier sud-africain Danie G. Krige[1]. Il a été formalisé pour la prospection minière par Georges Matheron[2] (1930-2000) au BRGM puis à l'École des mines de Paris. Depuis, le domaine de ses applications a largement été étendu, touchant notamment la météorologie, les sciences de l’environnement et l’électromagnétisme.
Selon les hypothèses sous-jacentes, le krigeage se décline sous plusieurs variantes (simple, ordinaire…) qui toutes utilisent les mêmes principes.
Un krigeage habituel fait se succéder plusieurs actions :
recueil et prétraitement de la donnée : il s'agit de nettoyer la variable régionalisée z de ses valeurs aberrantes, valeurs mal codées… Il peut être utile de transformer la donnée (par bijection) en un paramètre qui sera estimé à sa place, avant transformation réciproque.
décision de l'estimation attendue : généralement, il est cherché une estimation en chaque point d'une grille, parfois en chaque volume élémentaire.
choix d'un modèle : un modèle de fonction aléatoire Z associée à z est proposé, selon les hypothèses faites sur sa stationnarité, sa valeur moyenne, les éventuels paramètres auxiliaires.
calage d'un variogramme : sur la considération du variogramme expérimental, un modèle de variogramme γ est choisi, respectant les conditions découlant du choix du modèle.
krigeage proprement dit : le type de krigeage dépend du choix du modèle, et du type de résultat attendu. Il varie selon le choix du voisinage.
post-traitement : une éventuelle transformation réciproque est appliquée ; le résultat est commenté.
Le calcul fournit également une variance de krigeageσ2 K, qui dépend du variogramme et de la position des points de données, mais pas des valeurs de celles-ci.
Le fait que le krigeage est l'estimateur linéaire de variance minimale se traduit par quatre contraintes successives, qui permettent d'écrire le système de krigeage pour toutes les variantes de la méthode.
La suite détaille les quatre étapes de construction d'un estimateur Q* pour une quantité à estimer Q.
Dans un souci de réalisme, on pose que la quantité à estimer est une fonctionnelle linéaire de la fonction aléatoire étudiée (dans le cas général: ); le cas plus large (problèmes de coupure et de sélection…) relève de la géostatistique non linéaire.
L'estimateur est posé comme combinaison linéaire des données, de poids inconnus pour l'instant :
On exige de l'estimateur qu'il ne présente pas de biais statistique par rapport à la quantité à estimer. Cette contrainte peut être nommée contrainte de non-biais ou d'espérance nulle :
On demande à l'erreur d'estimation d'être de variance minimale, sous les contraintes précédentes. Sauf cas particuliers, il y existe une solution unique à ce problème d'estimation.
Le résultat de ces quatre contraintes est, dans le cas général, un système de Cramer, qui admet une solution et une seule.
On peut étendre cette démarche dans le cas continu en considérant non des pondérations λi mais des mesures λ(dx).
Par linéarité, le problème devient la recherche des poids λi, dépendants du point d'estimation, tels que ;
L'autorisation est assurée dans le cas stationnaire;
L'universalité est assurée par hypothèse : ;
L'optimalité suppose :
Le système de krigeage simple s'écrit matriciellement :
où :
K est la matrice de covariance aux sites d'échantillonnage :
λ est la matrice des poids de krigeage :
K0 est la matrice de covariance du point krigé avec les sites d'échantillonnage
La matrice de covariance étant symétrique définie positive, elle est inversible et on résout le système de krigeage en l'inversant :
Le résultat de l'interpolation au point x0 est :
Dans le cas général, l'espérance m de Z n'est pas toujours nulle. On calcule alors les poids λi du krigeage de la variable Z - m au point x0, dont l'espérance est nulle. On obtient le krigeage simple de Z en x0 :
Le krigeage simple ne peut s'écrire directement en termes de variogramme, puisque la somme des poids n'est pas égale à 1. Le krigeage simple exige que la covariance soit définie, c'est-à-dire que le variogramme présente un palier.
Si la fonction aléatoire Z est gaussienne, le résultat de krigeage Z0* est l'espérance conditionnelle, et l'estimation et l'erreur sont gaussiennes :
Krigeage stationnaire à moyenne inconnue (krigeage ordinaire, 1)
Le krigeage ordinaire ponctuel se décompose en deux étapes : estimation de la moyenne du processus par krigeage ordinaire, puis krigeage simple en tenant compte de cette moyenne. Posant respectivement λm,i, μm et σO,m2 les poids, multiplicateurs de Lagrange et variance de krigeage ordinaire pour l'estimation de la moyenne, λO,i et μ les poids et multiplicateur de Lagrange pour le krigeage ordinaire, λS,i les poids de krigeage simple, et S=(1−∑iλS,i) le poids de la moyenne en krigeage simple, on a :
La variance de krigeage simple est inférieure à celle du krigeage ordinaire associé. Si les données sont nombreuses et bien structurées, les deux krigeages sont proches. Sinon, le krigeage simple attribue un poids important à la moyenne globale connue, et le krigeage ordinaire attribue le même poids à une estimation locale de la moyenne, ainsi ce dernier est plus robuste quant aux défauts de stationnarité. D'une manière générale, le krigeage ordinaire est à préférer au krigeage simple, sauf cas particuliers (krigeage d'indicatrices, simulations).
Le modèle supposé est Z(x)=Y(x)+m(x), comportant une dérivem(x) déterministe et un résiduY(x) voulu stationnaire (résidu vrai), et d'espérance nulle. La difficulté est de séparer les deux composantes m et y dans la variable régionaliséez. Cette dichotomie peut représenter une opposition explicative entre basses et hautes fréquences, entre tendance régionale et anomalies.
La dérive est supposée décomposable selon un nombre connu de fonctions de base , généralement des monômes des coordonnées, avec f0=1 la fonction constante unité. Les coefficients al sont inconnus. Le modèle de dérive calculé par les algorithmes ci-après ne décrit pas forcément la tendance du phénomène, mais une approximation à l'échelle de travail.
Les hypothèses sur le résidu Y sont appelés sous-jacents sur Z.
Krigeage universel à modèle sous-jacent stationnaire d'ordre 2
On suppose Y intrinsèque stricte sans dérive (la dérive étant intégrée à m).
Hypothèses d'écriture du krigeage universel sur fonction aléatoire intrinsèque stricte
La linéarité pose
L'autorisation impose
L'universalité impose
L'optimalité introduit un multiplicateur de Lagrange μ0 pour la contrainte d'autorisation, et d'autres μl,l≠0 pour les contraintes d'universalité.
Le système de krigeage s'écrit :
Soit matriciellement :
La variance d'estimation est :
Le résultat est identique au cas précédent, cependant la situation physique n'est pas la même : ici, le phénomène peut admettre un variogramme sans palier, c'est-à-dire sans force de rappel.
Les calculs précédents ont supposé une dérive m déterministe, connue et régulière.
En modèle sous-jacent stationnaire, on pose un estimateur linéaire de la dérive . Les λi sont solutions du système :
Et la variance d'estimation en est :
En modèle sous-jacent intrinsèque strict, les contraintes d'autorisation et d'universalité sont incompatibles ; l'estimation optimale de la dérive est impossible.
Démonstration
La combinaison linéaire doit être autorisée, donc .
L'universalité donne , d'où après simplification et avec f0i=1, , ce qui est une condition en λi impossible.
On suppose ici que Z est une FAI-k, k étant une valeur donnée.
Hypothèses d'écriture du krigeage sur FAI-k
La linéarité pose
L'autorisation à l'ordre k demande . En utilisant la mesure de Diracδi(dt), on peut écrire :
L'universalité est assurée puisque toutes les combinaisons linéaires autorisées sont d'espérance nulle.
L'optimalité demande à minimiser conditionnellement : . Soit les conditions d'optimalité .
Le système de krigeage intrinsèque s'écrit :
La variance d'estimation en krigeage intrinsèque est :
On dispose des propriétés suivantes :
superposition des figures de krigeage : soit un opérateur linéaireΦ, alors Φ*(Z)=Φ(Z*). On peut écrire avec
orthogonalité : soit ν une combinaison linéaire autorisée (), soit Φ une forme linéaire, alors
lissage : la variance de Z* n'est pas définie. Soit Φ une forme linéaire telle que , alors la variance de l'estimateur est inférieure à celle de la forme linéaire () ; de plus elle n'est pas stationnaire (pas invariante pour une translation de Φ).
Supposons le système de krigeage intrinsèque régulier. Le système dual est défini par:
Sa résolution selon bi et cl fournit une approche non-probabiliste du krigeage, à travers l'égalité suivante, où les coefficients sont indépendants du lieu d'évaluation x0:
Le krigeage peut donc se caractériser comme l'interpolateur z* :
linéaire :
exact :
défini-compatible avec les dérives : si les données zi valent fsi, alors
Un théorème établi par Georges Matheron montre l'équivalence entre spline et krigeage, même si la conversion n'est en pratique pas aisée.
C'est un interpolateur exact : si le point d'estimation est un point de donnée, le krigeage renvoie la donnée en ce point ; par contre, si le variogramme comporte un effet pépite, la continuité n'est pas garantie au voisinage des points de données, et l'estimation donne l'impression de ne pas passer par la donnée.
C'est une opération linéaire : le krigeage d'une combinaison linéaire est la combinaison linéaire des krigeages, à condition d'utiliser le même jeu de données (théorème de superposition des figures de krigeage).
Le krigeage sur deux domaines disjoints est la somme des krigeages sur ces domaines.
La moyenne estimée sur un domaine est la moyenne des krigeages ponctuels sur ce domaine.
Le krigeage d'une convoluée est la convoluée des krigeages ponctuels .
le krigeage d'une dérivée est la dérivée du krigeage.
effet d'écran : les points les plus près reçoivent les poids les plus importants (cas d'un variogramme croissant).
lissage : les estimations sont moins variables que les données.
Démonstration
Démonstration pour un krigeage simple:
, d'où il vient, l'erreur de krigeage simple est orthogonale à chacune des données, car l'estimateur du krigeage est une combinaison linéaire des données
La variance de la valeur estimée est inférieure à la variance a priori, et strictement hors des points de données. Incidemment, l'estimateur de krigeage simple n'est pas stationnaire d'ordre 2, puisque sa variance dépend de x.
transitivité : on peut ajouter, comme donnée, une estimation ponctuelle par krigeage sans changer le résultat pour les autres points d'estimations. Par contre, les variances de krigeage sont diminuées.
presque sans biais conditionnel : si l'on applique une coupure aux estimations, le résultat est proche des valeurs prévues
Indépendance linéaire des fonctions de base sur les données : une condition nécessaire de régularité du système de krigeage universel est que les fli n'admettent pas de combinaison linéaire nulle non triviale ().
Les pondérateurs sont invariants par multiplication de la fonction structurale : si l'on multiplie la covariance ou le variogramme par ω, les λi restent constants (mais les μl en krigeage universel sont divisés par ω). La variance de krigeage est multipliée par ω.
Orthogonalité: rappelons que deux variables aléatoires sont dites orthogonales si leur covariance est nulle
L'erreur de krigeage simple ponctuel est orthogonale à toute combinaison linéaire des données.
L'erreur de krigeage ordinaire ponctuel est orthogonale à toute combinaison linéaire des données de poids total nul.
L'erreur de krigeage universel ponctuel est orthogonale à toute combinaison linéaire des données qui filtre la famille des fonctions de base, c'est-à-dire telle que .
Démonstration
Pour un krigeage universel:
d'après le système de krigeage après réordonnement et combinaison
Or :
Donc :
Supposons une variable aléatoire Z = m + ∑iYi avec m sa moyenne et Yi des variables aléatoires intrinsèques indépendantes deux à deux, de moyenne nulle et de variogrammes respectifs γi. On peut poser un estimateur d'une composante Yk sous la forme :
Soit un jeu de variables Zn, n∈⟦1;N⟧, dont les variogrammes sont supposées combinaisons linéaires de structures γp, p∈⟦1;P⟧. Étudions une structure numéroté p. Posons un jeu de variables Yp, n, orthogonales (moyenne nulle et variance unitaire), indépendantes deux à deux et de même variogramme. Posons :
Cette décomposition n'est néanmoins pas unique ; le sens physique des Yp,k n'est pas garanti.
On a rapidement les variogrammes croisés :
où
On obtient des matrices (bp,i,j)i,j symétriques et définies positives. Par renumérotation selon p, les Yp,n sont ordonnés de manière décroissante selon leur valeur propre (la part de variance de la composante d'échelle)[pas clair].
Le krigeage factoriel consiste à tenir compte des structures les plus explicatives (dont la valeur propre est significative), soit les p premières composantes (p≤p) :
Le but est d'estimer ∂Z⁄∂u dans une direction u (vecteur unitaire). On posera la définition :
Si la covariance K(h) est stationnaire et isotrope, Z est différentiable ssik est deux fois différentiable en 0 ; alors la covariance de Z′ est −K″, qui est définie en tout point. Alors (∂Z⁄∂u)*=∂Z*⁄∂u. Dans des cas courants, la condition n'est pas forcément remplie et ∂Z⁄∂u n'est pas défini ; on étend alors la relation précédente.
Si Z a un effet pépite, c'est la dérivée de la partie continue du phénomène qui est estimée.
Le système de krigeage de gradient s'écrit :
La variance d'estimation en krigeage de gradient est
Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?
En théorie, le krigeage ne permet pas de traiter des contraintes d'inégalité. Néanmoins, des algorithmes à base d'échantillonnage de Gibbs ont été développés pour fournir une solution approchée dans le cas d'une variable gaussienne.
Soit le cas multivariable d'une fonction aléatoire stationnaire d'ordre 2 d'espérance nulle, sur
ℝn✕D. Le cas se ramène aisément au cas simple ; de cela découlent les propriétés générales, comme l'interpolation exacte, la superposition des figures de krigeage…
Le résultat d'un cokrigeage multivariable donne un rôle symétrique aux différentes composantes, tant sur leur hiérarchie que sur leur échantillonnage. Par rapport au cas monovariable, le cokrigeage multivariable exige plus de doigté, de données et de contrôles avant et après l'évaluation.
Si les composantes de Z sont indépendantes, la matrice de cokrigeage devient diagonale de composantes Ki , i, i ∈ ⟦1 , d⟧. Cette séparation des variables conduit à des krigeages simples sur chacune des composantes.
Dans le cas général, on pose la FASt-2 multivariable Z comme somme d'une FASt-2 multivariable d'espérance nulle Y et d'une dérive m déterministe décomposée selon une base de fonctions fl:
Les fonctions de base peuvent être choisies de manière à refléter des liaisons entre les dérives. Par exemple, dans le cas ℝ✕{1,2}, bivariable sur un espace à une dimension, on peut supposer :
Les dérives m(x,1) et m(x,2) algébriquement indépendantes de degrés respectifs k1 et k2. On posera les k1+k2+2 fonctions de base, écrites comme couples de fonctions monovariables : {1, 0}, {x, 0}, …, {xk1, 0}, {0, 1}, {0, x}, …, {0, xk2}.
Les dérives sont égales et de degré k. On posera la famille de k+1 fonctions de base {xi, xi}, i ∈ ⟦ 0 , k⟧.
La dérive m(x,2) est la dérivée de m(x,1), celle-ci étant de degré k. On posera la famille de k+1 fonctions de base {1, 0}, {xi, i×xi−1}, i ∈ ⟦1 , k⟧.
Cependant, la conditionnalité n'est pas une condition d'autorisation comme dans le cas monovariable, mais de filtrage, et signifie que toute mesure ν satisfaisant aux contraintes , on a :
Coestimation optimale des coefficients de la dérive
Le krigeage avec dérive part d'une situation où on suppose que la connaissance de la variable régionalisée étudiée z, qu'on supposera ici FASt-2, peut être améliorée par celle d'une autre variable régionalisée bien mieux échantillonnée (par exemple, la pluviométrie et le relief); cette seconde variable est nommée fonction de formes ; elle doit être connue (ou estimée) aux points de données de z et aux points d'estimation. On posera entre l'espérance de Z et s, par exemple polynomiale (et souvent affine, avec k = 1):
Le krigeage s'effectue de manière similaire au krigeage universel.
↑Yves Gratton, « Le krigeage : la méthode optimale d'interpolation spatiale », Les articles de l’Institut d’Analyse Géographique, (lire en ligne)
↑G. Matheron, Traité de géostatistique appliquée, t. I, Paris, E. Technip, coll. « Mémoires du Bureau de recherches géologiques et minières », , chap. 14.
Pierre Chauvet, Aide-mémoire de géostatistique linéaire, Paris, Les Presses de l'École des Mines, (réimpr. 1993, 1994, 1998, 1999, 2008) (1re éd. 1989), 367 p., 16 × 24 cm (ISBN2-911762-16-9, BNF37051458)
Cressie N. 1993. Statistics for Spatial Data. Wiley Series in Probability and Mathematical Statistics: Applied Probability and Statistics. John Wiley & Sons Inc., New York. Revised reprint of the 1991 edition, A Wiley-Interscience Publication.