En théorie des probabilités et en statistique , la loi de Wishart est la généralisation multidimensionnelle de la loi du χ² , ou, dans le cas où le nombre de degré de libertés n'est pas entier, de la loi gamma . La loi est dénommée en l'honneur de John Wishart qui la formula pour la première fois en 1928[ 1] .
C'est une famille de lois de probabilité sur les matrices définies positives , symétriques. Une variable aléatoire de loi de Wishart est donc une matrice aléatoire . Trois lois sont d'une grande importance dans l'estimation des matrices de variance-covariance .
Si une variable aléatoire X suit une loi de Wishart, on notera
X
∼
W
p
(
V
,
n
)
{\displaystyle X\sim W_{p}(V,n)}
ou
W
(
V
,
p
,
n
)
{\displaystyle W(V,p,n)}
Supposons que Y est une matrice n ×p , les lignes sont des vecteurs aléatoires indépendants et suivent une loi normale p-dimensionnelle centrée :
Y
(
i
)
=
(
y
i
1
,
…
,
y
i
p
)
∼
N
p
(
0
,
V
)
.
{\displaystyle Y_{(i)}{=}(y_{i}^{1},\dots ,y_{i}^{p})\sim {\mathcal {N}}_{p}(0,V).}
Alors la loi de Wishart est la loi de probabilité de la matrice p ×p
X
=
Y
T
Y
{\displaystyle X=Y^{T}Y\,\!}
connue sous le nom matrice de dispersion . L'entier naturel n est le nombre de degrés de liberté . Pour n >p , la matrice X est inversible avec probabilité 1 si V est inversible. Si p =1 et V =1 , alors la loi de Wishart est la loi du χ² à n degrés de liberté.
La loi de Wishart apparait comme la loi d'une matrice de covariance d'un échantillon de valeurs suivant une loi normale multidimensionnelle [citation nécessaire] . Elle apparait fréquemment dans les tests de maximum de vraisemblance en analyse statistique multivariée . Elle apparait également en théorie spectrale des matrices aléatoires [citation nécessaire] et en analyse bayésienne multidimensionnelle[citation nécessaire] .
La loi de Wishart peut être caractérisée par sa densité de probabilité de la manière suivante. On fixe V une matrice p × p symétrique définie positive (paramètre d'échelle). Si n ≥ p , alors la densité de probabilité de la loi de Wishart est donnée par :
f
(
X
)
=
1
2
n
p
2
|
V
|
n
2
Γ
p
(
n
2
)
|
X
|
n
−
p
−
1
2
e
−
1
2
t
r
(
V
−
1
X
)
{\displaystyle f(\mathbf {X} )={\frac {1}{2^{\frac {np}{2}}\left|{\mathbf {V} }\right|^{\frac {n}{2}}\Gamma _{p}({\frac {n}{2}})}}{\left|\mathbf {X} \right|}^{\frac {n-p-1}{2}}\mathrm {e} ^{-{\frac {1}{2}}{\rm {tr}}({\mathbf {V} }^{-1}\mathbf {X} )}}
pour toute matrice p × p X symétrique définie positive, et où Γp est la fonction gamma multidimensionnelle définie par :
Γ
p
(
n
/
2
)
=
π
p
(
p
−
1
)
4
∏
j
=
1
p
Γ
[
n
−
j
+
1
2
]
.
{\displaystyle \Gamma _{p}(n/2)=\pi ^{\frac {p(p-1)}{4}}\prod _{j=1}^{p}\Gamma \left[{\frac {n-j+1}{2}}\right].}
En fait la définition précédente peut être étendue à tout réel n ≥ p . Si n < p , alors la loi de Wishart n'a plus de densité, mais devient une loi singulière[ 2] .
Une matrice
X
{\displaystyle X}
aléatoire tirée selon la construction de la définition ci-dessus est toujours une matrice symétrique définie positive . Cela signifie que toutes ses valeurs propres sont strictement positives.
L'espérance du logarithme est donnée par[ 3] :
E
[
ln
|
X
|
]
=
∑
i
=
1
p
ψ
(
n
+
1
−
i
2
)
+
p
ln
2
+
ln
|
V
|
{\displaystyle \operatorname {E} [\ln |\mathbf {X} |]=\sum _{i=1}^{p}\psi \left({\frac {n+1-i}{2}}\right)+p\ln 2+\ln |\mathbf {V} |}
où ψ est la fonction digamma , c'est-à-dire la dérivée logarithmique de la fonction gamma .
Son calcul est développé ici .
L'entropie de la loi de Wishart est donnée par la formule suivante[ 3] :
H
[
X
]
=
−
ln
B
(
V
,
n
)
−
(
n
−
p
−
1
)
2
E
[
ln
|
X
|
]
+
n
p
2
{\displaystyle \operatorname {H} [\mathbf {X} ]=-\ln B(\mathbf {V} ,n)-{\frac {(n-p-1)}{2}}\operatorname {E} [\ln |\mathbf {X} |]+{\frac {np}{2}}}
où
B
(
V
,
n
)
{\displaystyle B(\mathbf {V} ,n)}
est la constante de renormalisation de la loi :
B
(
V
,
n
)
=
1
|
V
|
n
2
2
n
p
2
Γ
p
(
n
2
)
{\displaystyle B(\mathbf {V} ,n)={\frac {1}{\left|\mathbf {V} \right|^{\frac {n}{2}}2^{\frac {np}{2}}\Gamma _{p}({\frac {n}{2}})}}}
L'entropie peut être écrite sous la forme :
H
[
X
]
=
n
2
ln
|
V
|
+
n
p
2
ln
2
+
ln
Γ
p
(
n
2
)
−
(
n
−
p
−
1
)
2
E
[
ln
|
X
|
]
+
n
p
2
=
n
2
ln
|
V
|
+
n
p
2
ln
2
+
p
(
p
−
1
)
4
ln
π
+
∑
i
=
1
p
ln
Γ
[
n
/
2
+
(
1
−
j
)
/
2
]
−
(
n
−
p
−
1
)
2
(
∑
i
=
1
p
ψ
(
n
+
1
−
i
2
)
+
p
ln
2
+
ln
|
V
|
)
+
n
p
2
=
n
2
ln
|
V
|
−
(
n
−
p
−
1
)
2
ln
|
V
|
+
n
p
2
ln
2
−
(
n
−
p
−
1
)
2
p
ln
2
+
p
(
p
−
1
)
4
ln
π
+
∑
i
=
1
p
ln
Γ
[
n
/
2
+
(
1
−
j
)
/
2
]
−
(
n
−
p
−
1
)
2
∑
i
=
1
p
ψ
(
n
+
1
−
i
2
)
+
n
p
2
=
p
+
1
2
ln
|
V
|
+
p
(
p
+
1
)
2
ln
2
+
p
(
p
−
1
)
4
ln
π
+
∑
i
=
1
p
ln
Γ
[
n
/
2
+
(
1
−
j
)
/
2
]
−
(
n
−
p
−
1
)
2
∑
i
=
1
p
ψ
(
n
+
1
−
i
2
)
+
n
p
2
.
{\displaystyle {\begin{aligned}\operatorname {H} [\mathbf {X} ]&={\frac {n}{2}}\ln |\mathbf {V} |+{\frac {np}{2}}\ln 2+\ln \Gamma _{p}({\frac {n}{2}})-{\frac {(n-p-1)}{2}}\operatorname {E} [\ln |\mathbf {X} |]+{\frac {np}{2}}\\&={\frac {n}{2}}\ln |\mathbf {V} |+{\frac {np}{2}}\ln 2+{\frac {p(p-1)}{4}}\ln \pi +\sum _{i=1}^{p}\ln \Gamma \left[n/2+(1-j)/2\right]\\&\quad -{\frac {(n-p-1)}{2}}\left(\sum _{i=1}^{p}\psi \left({\frac {n+1-i}{2}}\right)+p\ln 2+\ln |\mathbf {V} |\right)+{\frac {np}{2}}\\&={\frac {n}{2}}\ln |\mathbf {V} |-{\frac {(n-p-1)}{2}}\ln |\mathbf {V} |+{\frac {np}{2}}\ln 2-{\frac {(n-p-1)}{2}}p\ln 2+{\frac {p(p-1)}{4}}\ln \pi \\&\quad +\sum _{i=1}^{p}\ln \Gamma \left[n/2+(1-j)/2\right]-{\frac {(n-p-1)}{2}}\sum _{i=1}^{p}\psi \left({\frac {n+1-i}{2}}\right)+{\frac {np}{2}}\\&={\frac {p+1}{2}}\ln |\mathbf {V} |+{\frac {p(p+1)}{2}}\ln 2+{\frac {p(p-1)}{4}}\ln \pi \\&\quad +\sum _{i=1}^{p}\ln \Gamma \left[n/2+(1-j)/2\right]-{\frac {(n-p-1)}{2}}\sum _{i=1}^{p}\psi \left({\frac {n+1-i}{2}}\right)+{\frac {np}{2}}.\\\end{aligned}}}
La fonction caractéristique de la loi de Wishart est donnée par[citation nécessaire] :
Θ
↦
|
I
−
2
i
Θ
V
|
−
n
/
2
.
{\displaystyle \Theta \mapsto \left|{\mathbf {I} }-2\mathrm {i} \,{\mathbf {\Theta } }{\mathbf {V} }\right|^{-n/2}.}
En d'autres termes,
Θ
↦
E
{
e
x
p
[
i
⋅
t
r
(
X
Θ
)
]
}
=
|
I
−
2
i
Θ
V
|
−
n
/
2
{\displaystyle \Theta \mapsto \operatorname {E} \left\{\mathrm {exp} \left[\mathrm {i} \cdot \mathrm {tr} (\mathbf {X} {\mathbf {\Theta } })\right]\right\}=\left|{\mathbf {I} }-2\mathrm {i} {\mathbf {\Theta } }{\mathbf {V} }\right|^{-n/2}}
où Θ et I sont des matrices de même taille que V et I est la matrice unité .
Si X suit la loi de Wishart à m degrés de liberté et de matrice de covariance V , et si C est une q × p -matrice de rang q , alors[citation nécessaire] :
C
X
C
T
∼
W
q
(
C
V
C
T
,
m
)
.
{\displaystyle {\mathbf {C} }\mathbf {X} {\mathbf {C} }^{T}\sim {\mathcal {W}}_{q}\left({\mathbf {C} }{\mathbf {V} }{\mathbf {C} }^{T},m\right).}
Si z est un p -vecteur non nul, alors[citation nécessaire]
z
T
X
z
∼
σ
z
2
χ
m
2
.
{\displaystyle {\mathbf {z} }^{T}\mathbf {X} {\mathbf {z} }\sim \sigma _{z}^{2}\chi _{m}^{2}.}
où χm 2 est la loi du χ² à m degrés de liberté et
σ
z
2
=
z
T
V
z
{\displaystyle \sigma _{z}^{2}={\mathbf {z} }^{T}{\mathbf {V} }{\mathbf {z} }}
est une constante positive.
Considérons le cas où
z
T
=
(
0
,
…
,
0
,
1
,
0
,
…
,
0
)
{\displaystyle {\mathbf {z} }^{T}=(0,\ldots ,0,1,0,\ldots ,0)}
(c'est-à-dire le j -ième élément est 1 et les autres 0). Alors le corollaire 1 montre que :
w
j
j
∼
σ
j
j
χ
m
2
{\displaystyle w_{jj}\sim \sigma _{jj}\chi _{m}^{2}}
donne la loi marginale de chacun des éléments de la diagonale de la matrice.
Il est à remarquer que la loi de Wishart n'est pas appelée loi du χ2 multidimensionnelle car les lois marginales hors diagonale ne sont pas des lois du χ2 .
La décomposition de Bartlett d'une matrice X suivant une loi de Wishart p -dimensionnelle de matrice d'échelle V et à n degrés de liberté est la factorisation[citation nécessaire] :
X
=
L
A
A
T
L
T
{\displaystyle \mathbf {X} ={\textbf {L}}{\textbf {A}}{\textbf {A}}^{T}{\textbf {L}}^{T}}
où L est la factorisation de Cholesky de V et :
A
=
(
c
1
0
0
⋯
0
n
21
c
2
0
⋯
0
n
31
n
32
c
3
⋯
0
⋮
⋮
⋮
⋱
⋮
n
p
1
n
p
2
n
p
3
⋯
c
p
)
{\displaystyle \mathbf {A} ={\begin{pmatrix}{\sqrt {c_{1}}}&0&0&\cdots &0\\n_{21}&{\sqrt {c_{2}}}&0&\cdots &0\\n_{31}&n_{32}&{\sqrt {c_{3}}}&\cdots &0\\\vdots &\vdots &\vdots &\ddots &\vdots \\n_{p1}&n_{p2}&n_{p3}&\cdots &{\sqrt {c_{p}}}\end{pmatrix}}}
où
c
i
∼
χ
n
−
i
+
1
2
{\displaystyle c_{i}\sim \chi _{n-i+1}^{2}}
et
n
i
j
∼
N
(
0
,
1
)
{\displaystyle n_{ij}\sim {\mathcal {N}}(0,1)\,}
sont indépendants. Ceci donne une méthode utile pour obtenir des échantillons de valeurs de loi de Wishart[ 4] .
En notant
P
{\displaystyle \mathbb {P} }
la mesure de probabilité par rapport à la matrice aléatoire
X
{\displaystyle X}
d'ordre
n
×
p
{\displaystyle n\times p}
(cela correspond à la définition ci-dessus pour
V
=
I
p
{\displaystyle V=I_{p}}
la matrice identité d'ordre
p
{\displaystyle p}
), ainsi qu'en notant
λ
max
(
A
)
{\displaystyle \lambda _{\max }(A)}
(resp.
λ
min
(
A
)
{\displaystyle \lambda _{\min }(A)}
) la plus grande (resp. la plus petite) des valeurs propres d'une matrice
A
{\displaystyle A}
symétrique définie positive, alors on peut énoncer la propriété suivante : les valeurs propres de la matrice aléatoire
X
=
Y
T
Y
{\displaystyle X{=}Y^{T}Y}
vérifient[ 5]
d'une part,
∀
x
>
0
,
P
(
λ
max
(
X
)
≥
n
(
1
+
p
/
n
+
2
x
/
n
)
2
)
≤
e
−
x
{\displaystyle \forall x>0,\,\mathbb {P} \left(\lambda _{\max }(X)\geq n\left(1+{\sqrt {p/n}}+{\sqrt {2x/n}}\right)^{2}\right)\leq {\rm {e}}^{-x}}
,
et d'autre part,
∀
x
>
0
,
P
(
λ
min
(
X
)
≤
n
(
1
−
p
/
n
−
2
x
/
n
)
2
)
≤
e
−
x
{\displaystyle \forall x>0,\,\mathbb {P} \left(\lambda _{\min }(X)\leq n\left(1-{\sqrt {p/n}}-{\sqrt {2x/n}}\right)^{2}\right)\leq {\rm {e}}^{-x}}
Ce qui signifie qu'avec une probabilité au moins égale à
1
−
2
e
−
x
{\displaystyle 1-2{\rm {e}}^{-x}}
les valeurs propres d'une telle matrice sont comprises entre
n
(
1
−
d
/
n
−
2
x
/
n
)
2
{\textstyle n\left(1-{\sqrt {d/n}}-{\sqrt {2x/n}}\right)^{2}}
et
n
(
1
+
d
/
n
+
2
x
/
n
)
2
{\textstyle n\left(1+{\sqrt {d/n}}+{\sqrt {2x/n}}\right)^{2}}
.
La loi de Wishart est liée à la loi de Wishart inverse , notée W p −1 , comme suit : si
X
∼
W
p
(
V
,
n
)
{\displaystyle \mathbf {X} \sim W_{p}(\mathbf {V} ,n)}
et si on effectue le changement de variables
C
=
X
−
1
{\displaystyle \mathbf {C} =\mathbf {X} ^{-1}}
, alors
C
∼
W
p
−
1
(
V
−
1
,
n
)
{\displaystyle \mathbf {C} \sim W_{p}^{-1}(\mathbf {V} ^{-1},n)}
. Cette relation peut-être obtenue en remarquant que la valeur absolue du jacobien de ce changement de variable est
|
C
|
p
+
1
{\displaystyle |\mathbf {C} |^{p+1}}
[ 6] .
La loi de Wishart est un cas particulier de loi gamma multidimensionnelle .
↑ (en) J. Wishart , « The generalised product moment distribution in samples from a normal multivariate population », Biometrika , vol. 20A, nos 1-2, 1928 , p. 32-52 (DOI 10.1093/biomet/20A.1-2.32 , JFM 54.0565.02 )
↑ (en) Harald Uhlig, « On singular Wishart and singular multivariate beta distributions », Annals of Statistics , 1994 , p. 395-405 (lire en ligne )
↑ a et b (en) Christopher M. Bishop, Pattern Recognition and Machine Learning , Springer, 2006 , 693 p. (ISBN 978-0387310732 ) .
↑ (en) W. B. Smith et R. R. Hocking , « Algorithm AS 53: Wishart Variate Generator », Journal of the Royal Statistical Society. Series C (Applied Statistics) , vol. 21, no 3, 1972 , p. 341-345 (JSTOR 2346290 )
↑ (en) Verzelen et Gassiat, « Adaptative estimation of high-dimensional signal to noise ratios », arXiv , 16 mars 2017 , p. 41 (lire en ligne )
↑ (en) Paul S. Dwyer, « Some Applications of Matrix Derivatives in Multivariate Analysis », Journal of the American Statistical Association , vol. 62, no 318, juin 1967 , p. 607-625 (JSTOR 2283988 ) .