Der Box-Plot (auch Boxplot, Box-Whisker-Plot oder Kastengrafik) ist ein Diagramm, das zur grafischen Darstellung der Verteilung eines mindestens ordinalskalierten Merkmals verwendet wird.[1][2] Es fasst dabei verschiedene robuste Streuungs- und Lagemaße in einer Darstellung zusammen. Ein Box-Plot soll schnell einen Eindruck davon vermitteln, in welchem Bereich die Daten liegen und wie sie sich über diesen Bereich verteilen. Deshalb werden alle Werte der sogenannten Fünf-Punkte-Zusammenfassung, also der Median, die zwei Quartile und die beiden Extremwerte, dargestellt.
Ein Box-Plot besteht immer aus einem Rechteck, genannt „Box“, und zwei Linien, die dieses Rechteck verlängern. Diese Linien werden als „Antenne“ oder seltener als „Fühler“ oder „Whisker“ bezeichnet und werden durch einen Strich abgeschlossen. In der Regel repräsentiert der Strich in der Box den Median der Verteilung.
Die Box entspricht dem Bereich, in dem die mittleren 50 % der Daten liegen. Sie wird also durch das obere und das untere Quartil begrenzt, und die Länge der Box entspricht dem Interquartilsabstand (englisch interquartile range, IQR). Dieser ist ein Maß der Streuung der Daten, welches durch die Differenz des oberen und unteren Quartils bestimmt wird. Des Weiteren wird der Median als durchgehender Strich in der Box eingezeichnet. Dieser Strich teilt das gesamte Diagramm in zwei Bereiche, in denen jeweils 50 % der Daten liegen. Durch seine Lage innerhalb der Box bekommt man also einen Eindruck von der Schiefe der den Daten zugrunde liegenden Verteilung vermittelt. Ist der Median im linken Teil der Box (bei waagerechter Darstellung), so ist die Verteilung rechtsschief, und umgekehrt.
Durch die Antennen werden die außerhalb der Box liegenden Werte dargestellt. Im Gegensatz zur Definition der Box ist die Definition der Antennen nicht einheitlich.
Eine mögliche Definition, die von John W. Tukey stammt, besteht darin, die Länge der Whisker auf maximal das 1,5-Fache des Interquartilsabstands (1,5×IQR) zu beschränken. Dabei endet der Whisker jedoch nicht genau nach dieser Länge, sondern bei dem Wert aus den Daten, der noch innerhalb dieser Grenze liegt. Die Länge der Whisker wird also durch die Datenwerte und nicht allein durch den Interquartilsabstand bestimmt. Dies ist auch der Grund, warum die Whisker nicht auf beiden Seiten gleich lang sein müssen. Gibt es keine Werte außerhalb der Grenze von 1,5×IQR, wird die Länge des Whiskers durch den maximalen und minimalen Wert festgelegt. Andernfalls werden die Werte außerhalb der Whisker separat in das Diagramm eingetragen. Diese Werte können dann als ausreißerverdächtig behandelt werden oder werden direkt als Ausreißer bezeichnet.
Häufig werden Ausreißer, die zwischen 1,5×IQR und 3×IQR liegen, als „milde“ Ausreißer bezeichnet und Werte, die über 3×IQR liegen, als „extreme“ Ausreißer. Diese werden dann auch meist unterschiedlich im Diagramm gekennzeichnet.
Eine weitere mögliche Definition ist diese, dass die Whisker bis zum größten bzw. kleinsten Wert aus den Daten reichen. In dieser Darstellung sind dann keine Ausreißer mehr erkennbar, da die Box inklusive Whisker die gesamte Spannweite der Daten abdeckt.
In einer anderen Variante erfolgt die Berechnung des unteren Whisker als 2,5-%-Quantil und die Berechnung des oberen als 97,5-%-Quantil. Innerhalb der Whiskergrenzen liegen somit 95 % aller beobachteten Werte. In dieser Darstellung gibt es also (je nach Quantilsdefinition) ab einem bestimmten Stichprobenumfang immer einzeln dargestellte Punkte (die man dann nicht automatisch als Ausreißer interpretieren sollte).
Eine Abwandlung besteht darin, das arithmetische Mittel in einen Box-Plot mit einzutragen. Es wird dabei meist als Stern eingetragen. Da der Box-Plot ansonsten nur robuste Streuungs- und Lagemaße enthält, sollte das arithmetische Mittel als nicht-robustes Lagemaß eigentlich nicht in einen Box-Plot aufgenommen werden.
Im gekerbten (engl. notched) Box-Plot werden auch Konfidenzintervalle für den Median aufgenommen.
Der Vorteil eines Box-Plots besteht darin, dass gewisse Kennwerte einer Verteilung direkt aus der graphischen Darstellung abgelesen werden können.
Kennwert | Beschreibung | Lage im Box-Plot |
---|---|---|
Minimum | Kleinster Datenwert des Datensatzes | Ende eines Whiskers oder entferntester Ausreißer |
Unteres Quartil | Die kleinsten 25 % der Datenwerte sind kleiner als dieser oder gleich diesem Kennwert | Beginn der Box |
Median | Die kleinsten 50 % der Datenwerte sind kleiner als dieser oder gleich diesem Kennwert | Strich innerhalb der Box |
Oberes Quartil | Die kleinsten 75 % der Datenwerte sind kleiner als dieser oder gleich diesem Kennwert | Ende der Box |
Maximum | Größter Datenwert des Datensatzes | Ende eines Whiskers oder entferntester Ausreißer |
Spannweite | Differenz zwischen Maximum und Minimum, also Größe des Wertebereiches | Länge des gesamten Box-Plots (inklusive Ausreißer) |
Interquartilsabstand | Wertebereich, in dem sich die mittleren 50 % der Daten befinden. (Liegt zwischen dem 0,25- und dem 0,75-Quartil.) | Ausdehnung der Box |
Aufgrund des einfachen Aufbaus von Box-Plots werden diese hauptsächlich verwendet, wenn man sich schnell einen Überblick über bestehende Daten verschaffen will. Dabei muss nicht bekannt sein, welcher Verteilung diese Daten unterliegen. Die Box gibt an, in welchem Bereich 50 % der Daten liegen, und die Box inklusive Whisker gibt an, in welchem Bereich der Großteil der Daten liegt. An der Lage des Medians innerhalb dieser Box kann man erkennen, ob eine Verteilung symmetrisch oder schief ist. Weniger geeignet ist der Box-Plot für bi- oder multimodale Verteilungen. Um solche Eigenschaften aufzudecken, empfiehlt sich die Verwendung von Histogrammen oder die grafische Umsetzung von Kerndichteschätzungen.
Box-Plots mit Whiskern von maximal dem eineinhalbfachen Interquartilsabstand eignen sich auch, um eventuelle Ausreißer zu identifizieren, oder liefern Hinweise darauf, ob die Daten einer bestimmten Verteilung unterliegen. Wenn der Box-Plot stark asymmetrisch ist, eine ungewöhnlich hohe Ausreißerzahl oder weit von der Box entfernte Ausreißer enthält, deutet das beispielsweise darauf hin, dass die Daten nicht normalverteilt sind.
Der wesentliche Vorteil des Box-Plot besteht im raschen Vergleich der Verteilung in verschiedenen Untergruppen. Während ein Histogramm eine zweidimensionale Ausdehnung hat, ist ein Box-Plot im Wesentlichen eindimensional, so dass sich leicht mehrere Datensätze nebeneinander (oder untereinander bei waagerechter Darstellung) auf derselben Skala darstellen und vergleichen lassen.
Dieses Beispiel beruht auf einer Messreihe mit den folgenden 20 Datenpunkten:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | |
(unsortiert) | 9 | 6 | 7 | 7 | 3 | 9 | 10 | 1 | 8 | 7 | 9 | 9 | 8 | 10 | 5 | 10 | 10 | 9 | 10 | 8 |
(sortiert) | 1 | 3 | 5 | 6 | 7 | 7 | 7 | 8 | 8 | 8 | 9 | 9 | 9 | 9 | 9 | 10 | 10 | 10 | 10 | 10 |
Ein Box-Plot hilft dabei sehr schnell einen Überblick über diese Daten zu erhalten. So erkennt man direkt, dass der Median (durchgezogene Linie) genau bei 8,5 liegt und dass je 25 % der Daten unter 7 und über 9,5 liegen, denn dies sind genau die Abmessungen der Box, in der 50 % der Messwerte enthalten sind. Folglich ist auch der Interquartilsabstand, der der Länge der Box entspricht, genau 2,5.
Dieser Box-Plot wurde mit Whiskern bis zu einer Länge des 1,5-fachen Interquartilsabstands erstellt. Diese sind also maximal 3,75 Maßeinheiten lang. Allerdings reichen Whisker stets nur bis zu einem Wert aus den Daten, der sich noch innerhalb dieser 3,75 Einheiten befindet. Der obere Whisker verläuft also nur bis zu 10, da es keinen größeren Wert in den Daten gibt, und der untere Whisker nur bis 5, da der nächstkleinere Wert weiter als 3,75 vom Anfang der Box entfernt ist.
Die Werte von 1 und 3 werden im Box-Plot als Ausreißer markiert, da sie sich nicht innerhalb der Box oder der Whisker befinden. Bei diesen Werten sollte untersucht werden, ob es sich tatsächlich um Ausreißer oder um Tippfehler oder anderweitig auffällige Werte handelt.
Da sich der Median innerhalb der Box leicht rechts befindet, kann außerdem auf eine Linksschiefe der zugrundeliegenden Verteilung der Messdaten geschlossen werden. Diese Verteilung wird außerdem vermutlich keine Normalverteilung sein, da der Box-Plot unsymmetrisch ist und vergleichsweise viele Ausreißer enthält.