Unlängst haben wir uns gefragt: »Wie weit können Messwerte vom Mittelwert abweichen?« Dieses Mal diskutieren wir den Median und seine Eigenschaften. Wir werden zeigen, dass der Abstand des Medians m zum Mittelwert immer kleiner oder gleich der Standardabweichung
ist:
.
(Im Rahmen dieses Beitrags nehmen wir an, dass die Messwerte zumindest intervallskaliert sind.)
Unterwegs werden wir dabei zwei wichtige Ungleichungen besprechen.
»Der« Median
Wir haben wieder einmal n Messwerte ,
, …,
, die wir durch einen »typischen« Wert ersetzen wollen. Dieser typische Werte wird oft in der »Mitte« der Messwerte vermutet – obwohl es keine Garantie gibt, dass er dort ist, oder überhaupt existiert.
Nehmen wir an, dass wir diese n Messwerte schon aufsteigend sortiert haben:
(Wir müssen statt
schreiben, weil mehrere Messwerte gleich sein könnten.)
Ein Median m ist dann eine Zahl, die genau in der Mitte dieser Liste steht. Wenn wir eine ungerade Anzahl an Messwerten haben, ist der Median eindeutig. Wenn die Anzahl der Messwerte gerade ist, ist die Mitte eine Lücke zwischen zwei Messwerten. Jede Zahl in dieser Lücke kann ein Median sein. Üblicherweise nimmt man dann den Mittwelwert der zwei Messwerte links und rechts davon.
Nehmen wir z.B. die fünf Messwerte
Der Median ist dann , weil links und rechts davon jeweils zwei Werte stehen.
Wenn wir z.B. die sechs Messwerte
haben, kann der Median jede Zahl zwischen 2 und 3 sein. Man wählt in diesem Fall dann meistens .
Allgemein haben wir
Der Median setzt nur voraus, dass wir die Messwerte irgendwie sortieren können. Daher funktioniert er im Gegensatz zum Mittelwert auch für ordinalskalierte Merkmale.
Minimumeigenschaft des Medians
Abb. 1 zeigt die fünf Messwerte aus unserem 1. Beispiel. Wenn wir irgendeine Zahl x wählen, können wie alle Abstände zu diesem x berechnen und addieren. Das ergibt die Summe
die von x abhängt und daher eine Funktion von x ist. Weil die Betragsfunktion stetig ist, ist auch unser f eine stetige Funktion auf ganz . Falls x viel kleiner als unsere Messwerte ist, sind die Abstände und daher die Summe sehr groß. Das gilt auch, falls x viel größer als die Messwerte ist. Aber für ein x irgendwo »mitten drin« in den Messwerten werden die Abstände und deren Summe eher klein sein. Für welches x wird diese Summe der Abstände also minimal?

Wenn ist, sind alle Terme in den Beträgen positiv und wir können die Betragsstriche durch Klammern ersetzen:
Weil die Messwerte alle bekannt – also konstant – sind, ergibt das eine lineare Funktion in x mit Steigung
.
Wenn umgekehrt ist, sind die Terme in den Beträgen negativ und wir können die Betragsstriche durch Klammern mit einem Minus davor ersetzen:
Das ist dann eine lineare Funktion in x mit Steigung .
Für eine ungerade bzw. gerade Anzahl an Messwerten ist die Summe der Abstände in Abb. 2 bzw. Abb. 3 gezeigt. Weil f zwar stetig, aber leider nicht überall differenzierbar ist, können wir das Minimum nicht einfach dadurch finden, dass wir die Steigung (Ableitung) gleich Null setzen. Aber die Idee ist so ähnlich.

Sobald wir mit dem x zwischen dem 1. und dem 2. Messwert sind, , ändert der Betrag nur das Vorzeichen des 1. Summanden:
Das ist jetzt eine lineare Funktion mit Steigung . Jedesmal, wenn wir von links kommend mit dem x über einen Messwert wandern, nimmt die Steigung um 2 zu. Falls einmal k Messwerte gleich sein sollten, ändert sich die Steigung an dieser Stelle um
.
Für den Fall einer ungeraden Anzahl n der Messwerte (Abb. 2), ist nach Messwerten die Steigung noch negativ, weil
ist. Nach dem Überschreiten des nächsten Wertes,
ist sie aber positiv, weil
ist. Daher muss an der Stelle
das Minimum gewesen sein. Das ist aber genau der Median m.

Falls wir eine gerade Anzahl n an Messwerten haben (Abb. 3), wird die Steigung nach Werten 0, weil
ist. Überschreiten wir den nächsten Wert
, wird die Steigung
. Also ist unsere Summe für alle Werte zwischen
und
minimal. Und der Median m liegt genau in diesem Bereich. (Falls
sein sollte, haben wir eine Spitze wie für ein ungerades n.)
Falls schließlich alle Messwerte gleich sein sollten – ist unabhängig von n gerade oder ungerade – der Median m einfach gleich dieser Werte. Die Summe der Abstände ist dann V-förmig und das Minimum ist weder bei .
Daher minimiert der Median die Summe der Abstände zu den einzelnen Messwerten:
Der Mittelwert minimiert im Übrigen die Summe der Abstandsquadrate:
Weil die Summe hier eine quadratische Funktion in x ist, lässt sich das leicht durch »Ableiten und Nullsetzen« überprüfen.
Zwei nützliche Ungleichungen
Zum Beweis unserer Behauptung über die Abweichung des Medians vom Mittelwert werden wir zwei Ungleichungen verwenden. Wer die Cauchy-Schwarz-Ungleichung und die Dreiecksungleichung schon kennt, kann diesen Abschnitt überspringen. (Die Beweise finden sich im Anhang.)
Cauchy-Schwarz-Ungleichung
Wenn wir zwei Vektoren und
in der Ebene haben, können wir ihr Skalarprodukt
berechnen. Dabei sind und
die Beträge (also Längen) der Vektoren, und
ist der Cosinus des Winkels zwischen a und b. Quadrieren wir das Skalarprodukt, folgt
weil das Quadrat des Cosinus zwischen 0 und 1 liegt. Setzen wir noch für die Beträge der Vektoren ein, bekommen wir die Ungleichung
Interessanterweise gilt diese Ungleichung nicht nur in der Ebene (im ), sondern auch in n Dimensionen (im
):
Dreiecksungleichung
Nehmen wir wieder zwei Vektoren und
in der Ebene wie in Abb. 4. Diese zwei Vektoren bilden zusammen mit der Summe
das schattierte Dreieck.

Damit so ein Dreieck entsteht, muss die Länge einer Seite immer kleiner oder gleich der Summe der Längen der beiden anderen Seiten sein. Es gilt dann jedenfalls die Dreiecksungleichung
Diese Ungleichung gilt nicht nur für Vektoren, sondern auch für eine beliebige Anzahl reeller Zahlen:
Der Betrag der Summe ist also immer kleiner oder gleich der Summe der Beträge. Das kann man sich leicht vorstellen, denn die Addition von positiven und negativen Zahlen kann einen Wert in der Nähe von 0 liefern, während die Addition von lauter positiven Zahlen sicher von 0 wegführt.
Abweichung des Medians vom Mittelwert
Mit unserer Definition der Varianz als mittlere quadratische Abweichung vom Mittelwert gilt
weil der Betrag beim Quadrieren egal ist. Multiplizieren wir auf beiden Seiten mit
erhalten wir
Dieses Produkt zweier Summen von Quadraten können wir mithilfe von Cauchy-Schwarz nach unten abschätzen
und bekommen
Wie wir oben gesehen haben, wird die Summe für einen Median
am kleinsten. Daher ist
Diese Ungleichung positiver Seiten bleibt richtig, wenn wir beide Seiten quadrieren, d.h.
Von der Dreiecksungleichung wissen wir, dass wir die Summe der Beträge durch den Betrag der Summe nach unten abschätzen können:
Auch hier sind wieder beide Seiten , wodurch die Ungleichung beim Quadrieren erhalten bleibt. Damit folgt
wobei wir die Definition des Mittelwertes verwendet haben.
Division durch die positive Zahl liefert
Weil auf beiden Seiten positive Zahlen quadriert werden, ändert das Wurzelziehen die Ungleichung nicht. Schlussendlich erhalten wir so unsere ursprüngliche Behauptung
dass der Median nie mehr als eine Standardabweichung vom Mittelwert weg sein kann.
Diskussion
Median und Mittelwert sind unterschiedliche Wege, einen typischen Wert zu finden. Weil sie unterschiedlich definiert sind, sind sie im Allgemeinen ungleich. Für schmale () und symmetrische Verteilungen werden sie fast gleich sein; für breite (
groß) und asymmetrische Verteilungen können sie weit voneinander abweichen – allerdings nicht weiter als die Standardabweichung
.
Wie wir letztens gezeigt haben, wird als typischer Bereich oft das Intervall angegeben. Da liegt der Median m jedenfalls drinnen. Daher liegt er auch im größeren Intervall
, in dem mindestens die Hälfte aller Messwerte liegt.
Nehmen wir als Beispiel die Werte ,
und
. Der Median ist dann
und der Mittelwert
. Weil die Standardabweichung
beträgt, gilt
.
Nehmen wir jetzt die Werte ,
und
, ist der Median immer noch
. Der Mittelwert wird aber auf
vergrößert, und unterscheidet sich deutlich vom Median. Allerdings erhöht sich auch die Standardabweichung auf
. Daher gilt immer noch
.
Man sagt deshalb auch, dass der Median unempfindlicher gegen »Ausreißer« ist. Ob das gut oder schlecht ist, kann man aber nicht allgemein sagen. Es kommt darauf an, ob die Ausreißer zu meiner Messgröße gehören, oder durch eine zusätzliche Störung verursacht werden.
Anhang
Beweis der Cauchy-Schwarz-Ungleichung
Nehmen wir jeweils n reelle Zahlen ,
, …,
und
,
, …,
. Dann gilt für ein beliebiges reelles x
weil die Summe von Quadraten reeller Zahlen nicht negativ werden kann. Quadrieren wir einen Summanden aus, erhalten wir mit einer binomischen Formel
Weil das x in allen Summanden dasselbe ist, können wir es herausheben und haben
Die quadratische Funktion von x auf der linken Seite beschreibt eine Parabel, die nicht unterhalb der x-Achse liegen kann (wegen dem ).
Weil A, B und C einfach nur irgendwelche reellen Zahlen sind, können wir mit der »großen« Lösungsformel die Nullstellen dieser Parabel ausrechnen:
Der Ausdruck unter der Wurzel ist die Diskriminante und legt fest, ob es keine (
), eine (
) oder zwei (
) reelle Nullstellen gibt. Weil unsere Parabel aber nicht unter die x-Achse kommt, kann es maximal eine reelle Nullstelle geben. Die Diskriminante muss daher
sein. Bringen wir die
auf die andere Seite, und setzen wir die Summen ein, ergibt sich
und nach Division durch 4 folgt die ursprüngliche Behauptung.
Die Cauchy-Schwarz-Ungleichung gilt viel allgemeiner als wir sie hier bewiesen haben.
Beweis der Dreiecksungleichung
Für jede beliebige reelle Zahl x gilt und
.
Für nur eine Zahl ist die Dreiecksungleichung offensichtlich richtig:
Nehmen wir zwei beliebige reelle Zahlen und
. Dann haben wir
Auch hier werden auf beiden Seiten der Ungleichung positive Zahlen quadriert, also können wir die Wurzel ziehen:
Wenn wir für Zahlen schon wissen, dass die Dreiecksungleichung gilt, können wir die obige Idee sofort verwenden zu zeigen, dass sie auch für
Zahlen gelten muss.
Setzen wir , dann gilt
Und weil nach Voraussetzung
ist, folgt unsere Behauptung.
Wir haben also zuerst gezeigt, dass die Behauptung für eine kleine Anzahl an Werten gilt. Anschließend haben wir gezeigt, dass sie auch noch dann gilt, wenn wir jeweils einen Wert dazu geben. Insgesamt gilt die Behauptung also für eine beliebige Menge an Werten. Das ist die Idee der vollständigen Induktion.