Mehrdimensionale Normalverteilung

Die mehrdimensionale oder multivariate Normalverteilung ist eine multivariate Verteilung in der multivariaten Statistik. Sie stellt eine Verallgemeinerung der (eindimensionalen) Normalverteilung auf mehrere Dimensionen dar.^[1] Eine zweidimensionale Normalverteilung wird auch bivariate Normalverteilung genannt.

Bestimmt wird eine mehrdimensionale Normalverteilung durch zwei Verteilungsparameter – den Erwartungswertvektor ${\boldsymbol {\mu }}$ und durch die Kovarianzmatrix $\mathbf {\Sigma }$ , welche den Parametern $\mu$ (Erwartungswert) und $\sigma ^{2}$ (Varianz) der eindimensionalen Normalverteilungen entsprechen.

Mehrdimensional normalverteilte Zufallsvariablen treten als Grenzwerte bestimmter Summen unabhängiger mehrdimensionaler Zufallsvariablen auf. Dies ist die Verallgemeinerung des zentralen Grenzwertsatz zum mehrdimensionalen zentralen Grenzwertsatz.

Weil sie entsprechend dort auftreten, wo mehrdimensionale zufällige Größen als Überlagerung vieler voneinander unabhängiger Einzeleffekte angesehen werden können, haben sie für die Praxis eine große Bedeutung.

Aufgrund der sogenannten Reproduktivitätseigenschaft der mehrdimensionalen Normalverteilung lässt sich die Verteilung von Summen (und Linearkombinationen) mehrdimensional normalverteilter Zufallsvariablen konkret angeben.

Die mehrdimensionale Normalverteilung

Die mehrdimensionale Normalverteilung kann auf verschiedene Arten definiert werden. Zu unterscheiden sind die Fälle, wenn es sich bei der Kovarianz-Matrix um eine reguläre oder singuläre Matrix handelt.

Allgemeiner Fall

Ein $p$ -dimensionaler reeller Zufallsvektor $\mathbf {X}$ folgt einer mehrdimensionalen Normalverteilung, geschrieben $\mathbf {X} \sim {\mathcal {N}}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})$ , wenn ein $d$ -dimensionaler standardnormalverteilter Zufallsvektor $\mathbf {Z}$ , ein $p$ -dimensionaler Vektor ${\boldsymbol {\mu }}$ sowie eine $p\times d$ -Matrix ${\boldsymbol {A}}$ existiert, so dass

\mathbf {X} \;{\stackrel {(d)}{=}}\;{\boldsymbol {\mu }}+{\boldsymbol {A}}\mathbf {Z}

.

Dabei bezeichnet das Symbol ${\stackrel {(d)}{=}}$ die Gleichheit in Verteilung, d. h., dass die Zufallsvektoren auf der rechten und linken Seite des Symbols dieselbe Wahrscheinlichkeitsverteilung besitzen. Es gilt dann ${\boldsymbol {\Sigma }}={\boldsymbol {A}}{\boldsymbol {A}}^{\mathrm {T} }$ , wobei Index $^{\mathrm {T} }$ die Transponierung bezeichnet.

Oder in Formeln:

\mathbf {X} \sim {\mathcal {N}}(\mathbf {\mu } ,{\boldsymbol {\Sigma }})\iff \exists {\boldsymbol {\mu }}\in \mathbb {R} ^{p},{\boldsymbol {A}}\in \mathbb {R} ^{p\times d}\colon \;\mathbf {X} {\stackrel {(d)}{=}}\;{\boldsymbol {\mu }}+{\boldsymbol {A}}\mathbf {Z} {\text{ und }}\forall n=1,\ldots ,p:Z_{n}\sim \ {\mathcal {N}}(0,1),{\text{i.i.d.}}

Regulärer Fall

10000 Stichproben einer zweidimensionalen Normalverteilung mit $\sigma _{1}=1$ , $\sigma _{2}=2$ und ρ = 0.7

Eine $p$ -dimensionale reelle Zufallsvariable $\mathbf {X}$ ist mehrdimensional normalverteilt mit Erwartungswertvektor ${\boldsymbol {\mu }}$ und symmetrischer, positiv definiter (also regulärer) Kovarianzmatrix $\mathbf {\Sigma }$ , wenn sie eine Dichtefunktion der Form^[2]

f_{X}(\mathbf {x} )={\frac {1}{\sqrt {(2\pi )^{p}\det(\mathbf {\Sigma } )}}}\exp \left(-{\frac {1}{2}}({\mathbf {x} }-{\boldsymbol {\mu }})^{\top }{\mathbf {\Sigma } }^{-1}({\mathbf {x} }-{\boldsymbol {\mu }})\right)

besitzt. Dabei bezeichnen $\det(\mathbf {\Sigma } )$ die Determinante der Matrix $\mathbf {\Sigma }$ , der Index $^{\top }$ die Transponierung und $\mathbf {\Sigma } ^{-1}$ die Inverse der Matrix $\mathbf {\Sigma }$ .

Man schreibt

\mathbf {X} \sim {\mathcal {N}}_{p}({\boldsymbol {\mu }},\mathbf {\Sigma } )

.

Das Subskript $p$ ist die Dimension der $p$ -dimensionalen Normalverteilung und zeigt die Anzahl der Variablen an, d. h., $\mathbf {X}$ ist $p\times 1$ , ${\boldsymbol {\mu }}$ ist $p\times 1$ und $\mathbf {\Sigma }$ ist $p\times p$ .^[3] Für die zugehörige Verteilungsfunktion $F$ gibt es keine geschlossene Form. Die entsprechenden Integrale müssen numerisch berechnet werden.

Der Wert im Exponentialteil der Dichtefunktion $({\mathbf {x} }-{\boldsymbol {\mu }})^{\mathrm {T} }{\mathbf {\Sigma } }^{-1}({\mathbf {x} }-{\boldsymbol {\mu }})$ entspricht dem Mahalanobis-Abstand, welcher den Abstand vom Testpunkt ${\mathbf {x} }$ zum Mittelwert ${\boldsymbol {\mu }}$ darstellt. Im Vergleich mit der Dichtefunktion der eindimensionalen Normalverteilung spielt bei der mehrdimensionalen Normalverteilung die Kovarianzmatrix $\mathbf {\Sigma }$ die Rolle der skalaren Varianz $\sigma ^{2}$ .

Singulärer Fall

Wenn die Kovarianzmatrix $\mathbf {\Sigma }$ singulär ist, kann man $\mathbf {\Sigma }$ nicht invertieren, dann gibt es keine Dichte in der oben angegebenen Form. Gleichwohl kann man auch dann die mehrdimensionale Normalverteilung definieren, jetzt allerdings über die charakteristische Funktion.

Eine $p$ -dimensionale reelle Zufallsvariable $\mathbf {X}$ heißt normalverteilt mit Erwartungswertvektor ${\boldsymbol {\mu }}$ und symmetrischer, positiv semidefiniter (also nicht notwendig regulärer) Kovarianzmatrix $\mathbf {\Sigma }$ , wenn sie eine charakteristische Funktion der folgenden Form hat:

\phi (\mathbf {t} )=\exp \left(i\mathbf {t} ^{\top }{\boldsymbol {\mu }}-{\frac {1}{2}}\mathbf {t} ^{\top }\mathbf {\Sigma } \mathbf {t} \right),\quad \mathbf {t} \in \mathbb {R} ^{p}

.

Wenn $\mathbf {\Sigma }$ regulär ist, existiert eine Wahrscheinlichkeitsdichte in obiger Form, wenn $\mathbf {\Sigma }$ singulär ist, dann existiert im $p$ -dimensionalen Raum $\mathbb {R} ^{p}$ keine Dichte bzgl. des Lebesgue-Maßes. Sei $\operatorname {Rang} \mathbf {\Sigma } =q<p$ , dann gibt es allerdings eine $q$ -dimensionale Linearform $\mathbf {Y} =\mathbf {A} \mathbf {X}$ , wobei $\mathbf {A}$ eine $(q\times p)$ -Matrix ist, die einer $q$ -dimensionalen Normalverteilung mit existierender Dichte im $\mathbb {R} ^{q}$ genügt.

Eigenschaften

Die mehrdimensionale Normalverteilung hat die folgenden Eigenschaften:

Sind die Komponenten von $\mathbf {X}$ paarweise unkorreliert, so sind sie auch stochastisch unabhängig.

Die affine Transformation $\mathbf {Y} =\mathbf {a} +\mathbf {B} \,\mathbf {X}$ mit einer Matrix $\mathbf {B} \in \mathbb {R} ^{q\times p}$ und $\mathbf {a} \in \mathbb {R} ^{q}$ ist $q$ -dimensional normalverteilt: $\mathbf {Y} \sim {\mathcal {N}}_{q}(\mathbf {a} +\mathbf {B} {\boldsymbol {\mu }},\mathbf {B} \mathbf {\Sigma } \mathbf {B} ^{\top })$ . Für die Definition des regulären Falles muss aber zusätzlich $q\leq p$ und $\mathbf {B} \mathbf {\Sigma } \mathbf {B} ^{\top }\,$ nichtsingulär sein.

Die affine Transformation

\mathbf {Y} =\mathbf {\Sigma } ^{-{\frac {1}{2}}}(\mathbf {X} -{\boldsymbol {\mu }})

standardisiert den Zufallsvektor

\mathbf {X} \,

: es ist

\mathbf {Y} \sim {\mathcal {N}}_{p}({\boldsymbol {0}},\mathbf {I} )\,

(mit Einheitsmatrix

\mathbf {I}

).

Bedingte Verteilung bei partieller Kenntnis des Zufallsvektors: Bedingt man einen mehrdimensional normalverteilten Zufallsvektor auf einen Teilvektor, so ist das Ergebnis selbst wieder mehrdimensional normalverteilt, für

\mathbf {X} ={\binom {\mathbf {X} _{1}}{\mathbf {X} _{2}}}\sim {\mathcal {N}}\left({\binom {{\boldsymbol {\mu }}_{1}}{{\boldsymbol {\mu }}_{2}}},{\begin{pmatrix}{\mathbf {\Sigma } }_{11}&{\mathbf {\Sigma } }_{12}\\{\mathbf {\Sigma } }_{21}&{\mathbf {\Sigma } }_{22}\end{pmatrix}}\right)

gilt

\mathbf {X} _{1}\mid \mathbf {X} _{2}\sim {\mathcal {N}}\left({\boldsymbol {\mu }}_{1}+\mathbf {\Sigma } _{12}\mathbf {\Sigma } _{22}^{-1}(\mathbf {X} _{2}-{\boldsymbol {\mu }}_{2}),\mathbf {\Sigma } _{11}-\mathbf {\Sigma } _{12}\mathbf {\Sigma } _{22}^{-1}\mathbf {\Sigma } _{21}\right)

.

Insbesondere hängt der bedingte Erwartungswert linear vom Wert

\mathbf {x} _{2}

des Zufallsvektors

\mathbf {X} _{2}

ab, denn es gilt

\mathbb {E} [\mathbf {X} _{1}\mid \mathbf {X} _{2}=\mathbf {x} _{2}]={\boldsymbol {\mu }}_{1}+\mathbf {\Sigma } _{12}\mathbf {\Sigma } _{22}^{-1}(\mathbf {x} _{2}-{\boldsymbol {\mu }}_{2})

.

und die bedingte Kovarianzmatrix ist unabhängig vom Wert von

\mathbf {X} _{2}

, denn es gilt

\mathbb {V} [\mathbf {X} _{1}\mid \mathbf {X} _{2}=\mathbf {x} _{2}]=\mathbf {\Sigma } _{11}-\mathbf {\Sigma } _{12}\mathbf {\Sigma } _{22}^{-1}\mathbf {\Sigma } _{21}

.

Charakteristische Funktion

Die charakteristische Funktion von $X\sim {\mathcal {N}}_{p}({\boldsymbol {\mu }},\mathbf {\Sigma } )$ ist gegeben durch

\phi _{X}(\mathbf {t} )=\exp \left(i\mathbf {t} ^{\top }{\boldsymbol {\mu }}-{\frac {1}{2}}\mathbf {t} ^{\top }\mathbf {\Sigma } \mathbf {t} \right)

für $\mathbf {t} =(t_{1},\dots ,t_{p})^{\top }\in \mathbb {R} ^{p}$ .

Momenterzeugende Funktion

Die momenterzeugende Funktion von $X\sim {\mathcal {N}}_{p}({\boldsymbol {\mu }},\mathbf {\Sigma } )$ ist gegeben durch

M_{X}(\mathbf {t} )=\exp \left(\mathbf {t} ^{\top }{\boldsymbol {\mu }}+{\frac {1}{2}}\mathbf {t} ^{\top }\mathbf {\Sigma } \mathbf {t} \right)

für $\mathbf {t} =(t_{1},\dots ,t_{p})^{\top }\in \mathbb {R} ^{p}$ .

Die Randverteilung der mehrdimensionalen Normalverteilung

Sei $\mathbf {X} \sim {\mathcal {N}}_{p}({\boldsymbol {\mu }},\mathbf {\Sigma } )$ mehrdimensional normalverteilt. Für eine beliebige Partition $\mathbf {X} =:(\mathbf {X} _{1},\mathbf {X} _{2})$ mit $\mathbf {X} _{1}\in \mathbb {R} ^{k}$ und $\mathbf {X} _{2}\in \mathbb {R} ^{p-k}$ , $k<p$ , gilt, dass die Randverteilungen $\mathrm {P} _{\mathbf {X} _{1}}$ und $\mathrm {P} _{\mathbf {X} _{2}}$ (mehrdimensionale) Normalverteilungen sind.

Die Umkehrung gilt allerdings nicht, wie folgendes Beispiel zeigt:

Sei $\mathbf {X} _{1}\sim {\mathcal {N}}_{k}(\mathbf {0} ,\mathbf {I} _{k})$ und sei $\mathbf {X} _{2}$ definiert durch

\mathbf {X} _{2}:=\left\{{\begin{array}{rl}\mathbf {X} _{1}&{\text{ mit Wahrscheinlichkeit }}p_{1}\\-\mathbf {X} _{1}&{\text{ mit Wahrscheinlichkeit }}p_{2},\end{array}}\right.

wobei $p_{1}+p_{2}=1$ . Dann ist ebenso $\mathbf {X} _{2}\sim {\mathcal {N}}_{k}(\mathbf {0} ,\mathbf {I} _{k})$ und

\operatorname {Cov} \left(\mathbf {X} _{1},\mathbf {X} _{2}\right)=\left({\begin{array}{cc}\mathbf {I} _{k}&\left(p_{1}-p_{2}\right)\mathbf {I} _{k}\\\left(p_{1}-p_{2}\right)\mathbf {I} _{k}&\mathbf {I} _{k}\end{array}}\right)

.

Demnach ist die Kovarianz (und damit der Korrelationskoeffizient) von $\mathbf {X} _{1}$ und $\mathbf {X} _{2}$ gleich null genau dann, wenn $p_{1}=p_{2}={\tfrac {1}{2}}$ . Aus der Unkorreliertheit zweier Zufallsvariablen $\mathbf {X} _{1}$ und $\mathbf {X} _{2}$ würde im mehrdimensional normalverteilten Fall sofort die Unabhängigkeit folgen (Besonderheit der mehrdimensionalen Normalverteilung), da aber $\mathbf {X} _{1}$ und $\mathbf {X} _{2}$ nach Definition nicht unabhängig sind ( $\mathbf {X} _{2}$ immer gleich $\pm \mathbf {X} _{1}$ ), kann insbesondere $\mathbf {X} :=(\mathbf {X} _{1},\mathbf {X} _{2})$ nicht mehrdimensional normalverteilt sein.

Die p-dimensionale Standardnormalverteilung

Das Wahrscheinlichkeitsmaß auf $\mathbb {R} ^{p}$ , das durch die Dichtefunktion

f_{X}:\mathbb {R} ^{p}\to \mathbb {R} ,\,(x_{1},\ldots ,x_{p})\mapsto {\frac {1}{\sqrt {(2\pi )^{p}}}}\exp \left(-{\frac {1}{2}}\sum _{i=1}^{p}x_{i}^{2}\right)

definiert wird, heißt Standardnormalverteilung der Dimension $p$ . Die $p$ -dimensionale Standardnormalverteilung ist abgesehen von Translationen (d. h. Erwartungswert $\mu \neq 0$ ) und uniformer Skalierung (d. h. Kovarianzmatrix $\Sigma =\sigma ^{2}E$ ) die einzige mehrdimensionale Verteilung, deren Komponenten stochastisch unabhängig sind und deren Dichte zugleich rotationssymmetrisch ist.

Momente und Kumulanten

Wie im eindimensionalen Fall, sind alle Momente der mehrdimensionalen Normalverteilung durch die ersten beiden Momente definiert. Alle Kumulanten außer den ersten beiden sind null. Die ersten beiden Kumulanten sind dabei der Erwartungswertvektor ${\boldsymbol {\mu }}$ und die Kovarianzmatrix $\mathbf {\Sigma }$ . In Bezug auf das mehrdimensionale Momentenproblem hat die Normalverteilung die Eigenschaft, dass sie durch ihre Momente eindeutig definiert ist. Das heißt, wenn alle Momente einer mehrdimensionalen Wahrscheinlichkeitsverteilung existieren und den Momenten einer mehrdimensionalen Normalverteilung entsprechen, ist die Verteilung die eindeutige mehrdimensionale Normalverteilung mit diesen Momenten.^[4]

Verallgemeinerungen

Es gibt unterschiedliche Wege die mehrdimensionale Normalverteilung zu verallgemeinern.

Eine Zufallsmatrix, deren Einträge der Normalverteilung folgen, folgt der matrixwertigen Normalverteilung.
Es existiert eine komplexe mehrdimansionale Normalverteilung.
Es existiert eine mehrdimensionale Verteilung der verallgemeinerten Normalverteilung.
Die multivariate Normalverteilung gehört zu den elliptischen Verteilung, welche eine Dichte der Form

f_{X}(\mathbf {x} )=ch((\mathbf {x} -{\boldsymbol {\mu }})^{\top }{\boldsymbol {\Sigma ^{-1}}}(\mathbf {x} -{\boldsymbol {\mu }}))

besitzen.

Dichte der zweidimensionalen Normalverteilung

Die Dichtefunktion der zweidimensionalen oder bivariaten Normalverteilung mit Mittelwerten $\mu _{1}=\mu _{2}=0$ und $\sigma _{1}^{2}=\sigma _{2}^{2}=1$ und Korrelationskoeffizient $\varrho$ ist

f_{X}(x_{1},x_{2})={\frac {1}{2\pi {\sqrt {1-\varrho ^{2}}}}}\exp \left(-{\frac {1}{2(1-\varrho ^{2})}}(x_{1}^{2}-2\varrho \,x_{1}x_{2}+x_{2}^{2})\right).

Jeweils 10.000 Stichproben zweidimensionaler Normalverteilungen mit ρ = −0.8, 0, 0.8 (alle Varianzen sind 1).

Im zweidimensionalen Fall mit Mittelwerten $\mu _{1}=\mu _{2}=0$ und beliebigen Varianzen ist die Dichtefunktion

f_{X}(x_{1},x_{2})={\frac {1}{2\pi \sigma _{1}\sigma _{2}{\sqrt {1-\varrho ^{2}}}}}\,\exp \left(-{\frac {1}{2(1-\varrho ^{2})}}\left[{\frac {x_{1}^{2}}{\sigma _{1}^{2}}}+{\frac {x_{2}^{2}}{\sigma _{2}^{2}}}-{\frac {2\varrho x_{1}x_{2}}{\sigma _{1}\sigma _{2}}}\right]\right).

Den allgemeinen Fall mit beliebigen Mittelwerten und Varianzen bekommt man durch Translation (ersetze $x_{1}$ durch $x_{1}-\mu _{1}$ und $x_{2}$ durch $x_{2}-\mu _{2}$ )

f_{X}(x_{1},x_{2})={\frac {1}{2\pi \sigma _{1}\sigma _{2}{\sqrt {1-\varrho ^{2}}}}}\,\exp \left(-{\frac {1}{2(1-\varrho ^{2})}}\left[{\frac {\left(x_{1}-\mu _{1}\right)^{2}}{\sigma _{1}^{2}}}+{\frac {\left(x_{2}-\mu _{2}\right)^{2}}{\sigma _{2}^{2}}}-{\frac {2\varrho \left(x_{1}-\mu _{1}\right)\left(x_{2}-\mu _{2}\right)}{\sigma _{1}\sigma _{2}}}\right]\right).

Beispiel für eine mehrdimensionale Normalverteilung

Betrachtet wird eine Apfelbaumplantage mit sehr vielen gleich alten, also vergleichbaren Apfelbäumen. Man interessiert sich für die Merkmale Größe der Apfelbäume, die Zahl der Blätter und die Erträge. Es werden also die Zufallsvariablen definiert:

X_{1}

: Höhe eines Baumes [m];

X_{2}

: Ertrag [100 kg];

X_{3}

: Zahl der Blätter [1000 Stück].

Die Variablen sind jeweils normalverteilt wie

X_{1}\sim {\mathcal {N}}(4;1);\quad X_{2}\sim {\mathcal {N}}(20;100);\quad X_{3}\sim {\mathcal {N}}(20;225)

.

Die meisten Bäume sind also um $4\pm 1\,\operatorname {m}$ groß, sehr kleine oder sehr große Bäume sind eher selten. Bei einem großen Baum ist der Ertrag tendenziell größer als bei einem kleinen Baum, aber es gibt natürlich hin und wieder einen großen Baum mit wenig Ertrag. Ertrag und Größe sind korreliert, die Kovarianz beträgt $\operatorname {Cov} (X_{1},X_{2})=9$ und der Korrelationskoeffizient $\varrho _{12}=0{,}9$ .

Ebenso ist $\operatorname {Cov} (X_{1},X_{3})=12{,}75$ mit dem Korrelationskoeffizienten $\varrho _{13}=0{,}85$ , und $\operatorname {Cov} (X_{2},X_{3})=120$ mit dem Korrelationskoeffizienten $\varrho _{23}=0{,}8$ .

Fasst man die drei Zufallsvariablen im Zufallsvektor $\mathbf {X} :=(X_{1},X_{2},X_{3})$ zusammen, ist $\mathbf {X}$ mehrdimensional normalverteilt. Dies gilt allerdings nicht im Allgemeinen (vgl. Die Randverteilung der mehrdimensionalen Normalverteilung). Im vorliegenden Fall gilt dann für die gemeinsame Verteilung von $\mathbf {X}$

{\boldsymbol {\mu }}={\begin{pmatrix}4\\20\\20\end{pmatrix}}

und

\mathbf {\Sigma } ={\begin{pmatrix}1&9&12{,}75\\9&100&120\\12{,}75&120&225\end{pmatrix}}.

Die entsprechende Stichproben-Korrelationsmatrix lautet

\mathbf {R} ={\begin{pmatrix}1&0{,}9&0{,}85\\0{,}9&1&0{,}8\\0{,}85&0{,}8&1\end{pmatrix}}.

Schätzung der Parameter der mehrdimensionalen Normalverteilung

Bei Anwendungen in der Statistik sind in der Regel die Verteilungsparameter einer $p$ -dimensionalen Normalverteilung nicht bekannt. Diese Parameter müssen also geschätzt werden.

Man zieht eine Stichprobe vom Umfang $T$ . Jede Realisierung $t\in \{1,\ldots ,T\}$ des Zufallsvektors $\mathbf {x}$ könnte man als Punkt in einem $K$ -dimensionalen Hyperraum auffassen. Man erhält so die $\mathbf {X}$ eine $T\times p$ -Matrix (Versuchsplan- oder Datenmatrix):

\mathbf {X} ={\begin{pmatrix}x_{11}&x_{12}&\cdots &x_{1k}&\cdots &x_{1p}\\x_{21}&x_{22}&\cdots &x_{2k}&\cdots &x_{2p}\\\vdots &\vdots &\ddots &\vdots &\ddots &\vdots \\x_{t1}&x_{t2}&\cdots &x_{tk}&\cdots &x_{tp}\\\vdots &\vdots &\ddots &\vdots &\ddots &\vdots \\x_{T1}&x_{T2}&\cdots &x_{Tk}&\cdots &x_{Tp}\end{pmatrix}}_{(T\times p)}={\begin{pmatrix}\ \mathbf {x} _{1}^{\top }\\\ \mathbf {x} _{2}^{\top }\\\vdots \\\ \mathbf {x} _{t}^{\top }\\\vdots \\\\\mathbf {x} _{T}^{\top }\end{pmatrix}}_{(T\times p)}={\begin{pmatrix}\mathbf {x} _{(1)}\mathbf {x} _{(2)}&\cdots &\mathbf {x} _{(k)}&\cdots &\mathbf {x} _{(K)}\end{pmatrix}}_{(T\times p)}\quad

, wobei

\quad \mathbf {x} _{(1)}\equiv 1\!\!1_{T}={\begin{pmatrix}1\\1\\\vdots \\1\\\vdots \\1\end{pmatrix}}_{(T\times 1)}

die in jeder Zeile die Koordinaten eines Punktes enthält (siehe multiplen linearen Modell in Matrixschreibweise).

Der Erwartungswertvektor wird geschätzt durch den Mittelwertvektor der $K$ arithmetischen Mittelwerte der Spalten von $\mathbf {X}$

{\widehat {\operatorname {E} (\mathbf {x} )}}={\overline {\mathbf {x} }}={\begin{pmatrix}{\overline {x}}_{1}\\{\overline {x}}_{2}\\\vdots \\{\overline {x}}_{k}\\\vdots \\{\overline {x}}_{p}\end{pmatrix}}

mit den Komponenten

{\overline {x}}_{k}={\frac {1}{T}}\sum _{t=1}^{T}x_{tk}

.

Dieser Schätzer ist bzgl. der mittleren quadratischen Abweichung der beste erwartungstreue Schätzer für den Erwartungswertvektor. Allerdings ist er für $K>2$ nicht zulässig im Sinne der Entscheidungstheorie. Es gibt dann bessere Schätzer, z. B. den James-Stein-Schätzer.

Für die Schätzung der Kovarianzmatrix erweist sich die bezüglich der arithmetischen Mittelwerte zentrierte Datenmatrix $\mathbf {X} ^{*}$ als nützlich. Sie berechnet sich als

\mathbf {X} ^{*}=\mathbf {X} -\mathbf {X} _{(1)}=1\!\!1_{T}\cdot {\overline {\mathbf {x} }}^{\top }

,

mit den Elementen $x_{tk}^{*}$ , wobei $\mathbf {x} _{(1)}=1\!\!1_{T}$ den Einsvektor, einen Spaltenvektor der Länge $T$ mit lauter Einsen, darstellt. Es wird also bei allen Einträgen das arithmetische Mittel der zugehörigen Spalte subtrahiert.

Die geschätzte $(p\times p)$ -Kovarianzmatrix ergibt sich als

{\hat {\mathbf {\Sigma } }}=\mathbf {S} ={\frac {1}{T-1}}\mathbf {X} ^{*\top }\mathbf {X} ^{*}

mit den Komponenten

s_{jk}={\frac {1}{T-1}}\sum _{t=1}^{\top }x_{tj}^{*}x_{tk}^{*}\quad {\text{für}}j,k=1,\ldots ,p

.

Die Korrelationsmatrix in der Grundgesamtheit $\mathbf {P}$ wird geschätzt durch die paarweisen Korrelationskoeffizienten

r_{jk}={\frac {\sum \limits _{t=1}^{\top }x_{tj}^{*}x_{tk}^{*}}{{\sqrt {\sum \limits _{t=1}^{\top }{x_{tj}^{*}}^{2}}}{\sqrt {\sum \limits _{t=1}^{\top }{x_{tk}^{*}}^{2}}}}}

,

auf ihrer Hauptdiagonalen stehen Einsen.

Beispiel zu Stichproben

Es wurden 10 Apfelbäume zufällig ausgewählt und jeweils 3 Eigenschaften gemessen: $X_{1}$ : Höhe eines Baumes [m]; $X_{2}$ : Ertrag [100 kg]; $X_{3}$ : Zahl der Blätter [1000 Stück]. Diese $10$ Beobachtungen werden in der Datenmatrix $\mathbf {X}$ zusammengefasst:

\mathbf {X} ={\begin{pmatrix}3{,}3&24&27\\4{,}9&41&55\\5{,}9&46&52\\5{,}2&49&54\\3{,}6&29&34\\4{,}2&33&51\\5{,}0&42&43\\5{,}1&35&54\\6{,}8&60&70\\5{,}0&41&50\end{pmatrix}}

.

Die Mittelwerte berechnen sich, wie beispielhaft an ${\overline {x}}_{1}$ gezeigt, als

{\overline {x}}_{1}={\frac {1}{10}}(3{,}3+4{,}9+\ldots +5{,}0)=4{,}9

.

Sie ergeben den Mittelwertvektor

{\overline {\mathbf {x} }}={\begin{pmatrix}4{,}9\\40\\49\end{pmatrix}}

.

Für die zentrierte Datenmatrix $\mathbf {X} ^{*}$ erhält man die zentrierten Beobachtungen, indem von den Spalten der entsprechende Mittelwert abzogen wird:

{\begin{array}{lll}3{,}3-4{,}9=-1{,}6&24-40=-16&27-49=-22\\4{,}9-4{,}9=0&41-40=1&55-49=6\\\vdots \end{array}}

,

also

\mathbf {X} ^{*}={\begin{pmatrix}-1{,}6&-16&-22\\0{,}0&1&6\\1{,}0&6&3\\0{,}3&9&5\\-1{,}3&-11&-15\\-0{,}7&-7&2\\0{,}1&2&-6\\0{,}2&-5&5\\1{,}9&20&21\\0{,}1&1&1\end{pmatrix}}

.

Man berechnet für die Stichprobenkovarianzmatrix die Kovarianzen, wie im Beispiel,

s_{12}={\widehat {\operatorname {Cov} }}(X_{1},X_{2})={\frac {1}{9}}(-1{,}6\cdot (-16)+0\cdot 1+\ldots +0{,}1\cdot 1)={\frac {90{,}80}{9}}\approx 10{,}09

und entsprechend die Varianzen

s_{22}={\widehat {\operatorname {Var} }}(X_{2})={\frac {1}{9}}((-16)^{2}+1^{2}+\ldots +1^{2})={\frac {974}{9}}\approx 108{,}22

,

so dass sich die Stichproben-Kovarianzmatrix

\mathbf {S} ={\begin{pmatrix}1{,}06&10{,}09&10{,}91\\10{,}09&108{,}22&106{,}22\\10{,}91&106{,}22&142{,}89\end{pmatrix}}

ergibt.

Entsprechend erhält man für die Stichproben-Korrelationsmatrix zum Beispiel

r_{12}={\frac {10{,}09}{\sqrt {1{,}06\cdot 108{,}22}}}\approx 0{,}9439

bzw. insgesamt

\mathbf {R} ={\begin{pmatrix}1&0{,}9439&0{,}8884\\0{,}9439&1&0{,}8542\\0{,}8884&0{,}8542&1\end{pmatrix}}

.

Erzeugung mehrdimensionaler, normalverteilter Zufallszahlen

Eine oft verwendete Methode zur Erzeugung eines Zufallsvektors $\mathbf {X}$ einer $p$ -dimensionalen Normalverteilung mit gegebenem Erwartungswertvektor ${\boldsymbol {\mu }}\in \mathbb {R} ^{p}$ und gegebener (symmetrischer und positiv definiter) Kovarianzmatrix $\mathbf {\Sigma } \in \mathbb {R} ^{p\times p}$ kann wie folgt angegeben werden:

Bestimme eine Matrix $\mathbf {A}$ , so dass $\mathbf {A} \mathbf {A} ^{\top }=\mathbf {\Sigma }$ . Dazu kann die Cholesky-Zerlegung von $\mathbf {\Sigma }$ oder die Quadratwurzel von $\mathbf {\Sigma }$ verwendet werden.
Sei $\mathbf {Z} =(Z_{1},\ldots ,Z_{p})^{\top }$ ein Vektor, dessen $p$ Komponenten stochastisch unabhängige, standardnormalverteilte Zufallsvariablen sind. Standardnormalverteilte Zufallszahlen können beispielsweise mit Hilfe der Box-Muller-Methode generiert werden.
Mit der affinen Transformation $\mathbf {X} ={\boldsymbol {\mu }}+\mathbf {A} \mathbf {Z}$ ergibt sich die gewünschte $p$ -dimensionale Normalverteilung.

Streuregionen der mehrdimensionalen Normalverteilung

Für eindimensionale normalverteilte Zufallsvariablen liegen ungefähr 68,27 % der Realisierungen im Intervall $\mu \pm \sigma$ , für mehrdimensionale normalverteilte Zufallsvariablen sind die Regionen konstanter Wahrscheinlichkeit durch Ellipsen (die Standardabweichungsellipsen) gegeben, welche um den Mittelwert zentriert sind. Die Hauptachsen der Ellipse sind durch die Eigenvektoren der Kovarianzmatrix $\Sigma$ gegeben, die Länge der Halbachsen ist die Quadratwurzel des zur jeweiligen Hauptachse gehörenden Eigenwertes $\sigma _{i}$ . Eine Realisierung der Zufallsvariablen in der Region anzutreffen, welche durch die (mehrdimensionale) Standardabweichungsellipse begrenzt wird, ist für eine mehrdimensional normalverteilte Zufallsvariable weniger wahrscheinlich.^[5]

Nach einer Hauptachsentransformation können die Achsen mit ihren jeweiligen $\sigma _{i}$ normiert werden. Dann lässt sich die Wahrscheinlichkeit mit der ein Messwert innerhalb eines Radius $r$ liegt berechnen. Mit

r'^{2}=\sum _{i=1}^{p}(x_{i}-\mu _{i})^{2}/\sigma _{i}^{2}

ist der Anteil

\pi (r)={\frac {\int _{0}^{r}f_{X}(r')r'^{p-1}dr'}{\int _{0}^{\infty }f_{X}(r')r'^{p-1}dr'}}=P\left({\frac {p}{2}},{\frac {r^{2}}{2}}\right)

der Messwerte höchstens im Abstand $r$ vom Mittelwert einer p-dimensionalen Normalverteilung. Dabei ist $P$ die regularisierte unvollständige Gammafunktion der oberen Grenze.

$\pi$ in %	$r=\sigma$ ^[6]	$r=2\sigma$	$r=3\sigma$
$p=1$	68,27	95,45	99,73
$p=2$	39,35	86,47	98,89
$p=3$	19,87	73,85	97,07

Entsprechend kann mit der Umkehrfunktion der Streuradius r angegeben werden, in der ein vorgegebener Anteil an Messwerten liegt:

r={\sqrt {2P^{-1}\left({\frac {p}{2}},\pi \right)}}

$r$ in $\sigma$	$\pi =50\%$	$\pi =90\%$	$\pi =99\%$
$p=1$	0,675	1,645	2,576
$p=2$	1,177	2,146	3,035
$p=3$	1,538	2,500	3,368

Literatur

K. V. Mardia, J. T. Kent, J. M. Bibby: Multivariate Analysis. New York 1979.
Ludwig Fahrmeir, Alfred Hamerle, Gerhard Tutz (Hrsg.): Multivariate statistische Verfahren. New York 1996.
Joachim Hartung, Bärbel Elpelt: Multivariate Statistik. München/ Wien 1999.
Bernhard Flury: A first course in multivariate statistics. New York 1997.

Anmerkungen

↑ Mehrdimensionale und multivariate Normalverteilung werden in diesem Artikel synonym verwendet. Bei Hartung/Elpelt: Multivariate Statistik haben sie aber (in Kapitel 1, Abschnitt 5) unterschiedliche Bedeutungen: hier ist die multivariate Normalverteilung eine Matrix-Verteilung.
↑ Alvin C. Rencher, G. Bruce Schaalje: Linear models in statistics. John Wiley & Sons, 2008, S. 89. (utstat.toronto.edu)
↑ Alvin C. Rencher, G. Bruce Schaalje: Linear models in statistics. John Wiley & Sons, 2008, S. 90. (utstat.toronto.edu)
↑ Christian Kleiber, Jordan Stoyanov: Multivariate distributions and the moment problem. In: Journal of Multivariate Analysis. Vol. 113, Januar 2013, S. 7–18, doi:10.1016/j.jmva.2011.06.001.
↑ Bin Wang, Wenzhong Shi, Zelang Miao: Confidence Analysis of Standard Deviational Ellipse and Its Extension into Higher Dimensional Euclidean Space. In: PLOS ONE. Band 10, Nr. 3, 13. März 2015, ISSN 1932-6203, S. 11, doi:10.1371/journal.pone.0118537.
↑ In der beschriebenen Normierung wäre $\sigma =1$ .

[1] Mehrdimensionale und multivariate Normalverteilung werden in diesem Artikel synonym verwendet. Bei Hartung/Elpelt: Multivariate Statistik haben sie aber (in Kapitel 1, Abschnitt 5) unterschiedliche Bedeutungen: hier ist die multivariate Normalverteilung eine Matrix-Verteilung.

[2] Alvin C. Rencher, G. Bruce Schaalje: Linear models in statistics. John Wiley & Sons, 2008, S. 89. (utstat.toronto.edu)

[3] Alvin C. Rencher, G. Bruce Schaalje: Linear models in statistics. John Wiley & Sons, 2008, S. 90. (utstat.toronto.edu)

[4] Christian Kleiber, Jordan Stoyanov: Multivariate distributions and the moment problem. In: Journal of Multivariate Analysis. Vol. 113, Januar 2013, S. 7–18, doi:10.1016/j.jmva.2011.06.001.

[5] Bin Wang, Wenzhong Shi, Zelang Miao: Confidence Analysis of Standard Deviational Ellipse and Its Extension into Higher Dimensional Euclidean Space. In: PLOS ONE. Band 10, Nr. 3, 13. März 2015, ISSN 1932-6203, S. 11, doi:10.1371/journal.pone.0118537.

[6] In der beschriebenen Normierung wäre $\sigma =1$ .

[1]

[2]

[3]

[4]

[5]

[6]