Wie weit kann der Median vom Mittelwert abweichen?

Unlängst haben wir uns gefragt: »Wie weit können Messwerte vom Mittelwert abweichen?« Dieses Mal diskutieren wir den Median und seine Eigenschaften. Wir werden zeigen, dass der Abstand des Medians m zum Mittelwert \bar{x} immer kleiner oder gleich der Standardabweichung s_n ist:

\boxed{\lvert m-\bar{x}\rvert\leq s_n} .

(Im Rahmen dieses Beitrags nehmen wir an, dass die Messwerte zumindest intervallskaliert sind.)

Unterwegs werden wir dabei zwei wichtige Ungleichungen besprechen.

»Der« Median

Wir haben wieder einmal n Messwerte x_1, x_2, …, x_n, die wir durch einen »typischen« Wert ersetzen wollen. Dieser typische Werte wird oft in der »Mitte« der Messwerte vermutet – obwohl es keine Garantie gibt, dass er dort ist, oder überhaupt existiert.

Nehmen wir an, dass wir diese n Messwerte schon aufsteigend sortiert haben:

x_1\leq x_2\leq\dotsb\leq x_n\,.

(Wir müssen \leq statt < schreiben, weil mehrere Messwerte gleich sein könnten.)

Ein Median m ist dann eine Zahl, die genau in der Mitte dieser Liste steht. Wenn wir eine ungerade Anzahl an Messwerten haben, ist der Median eindeutig. Wenn die Anzahl der Messwerte gerade ist, ist die Mitte eine Lücke zwischen zwei Messwerten. Jede Zahl in dieser Lücke kann ein Median sein. Üblicherweise nimmt man dann den Mittwelwert der zwei Messwerte links und rechts davon.

Nehmen wir z.B. die fünf Messwerte

\displaystyle1,2,\underset{m}{\boxed{2}},3,4\,.

Der Median ist dann m = 2, weil links und rechts davon jeweils zwei Werte stehen.

Wenn wir z.B. die sechs Messwerte

\displaystyle1,1,2\,\underset{m}{\boxed{\phantom{0}}}\,3,3,4

haben, kann der Median jede Zahl zwischen 2 und 3 sein. Man wählt in diesem Fall dann meistens m=(2+3)/2=2.5.

Allgemein haben wir

\displaystyle m=\begin{cases}x_{\frac{n+1}{2}}&\text{wenn }n\text{ ungerade ist},\\[1ex]\bigl(x_{\frac{n}{2}}+x_{\frac{n+2}{2}}\bigr)/2&\text{wenn }n\text{ gerade ist}.\end{cases}

Der Median setzt nur voraus, dass wir die Messwerte irgendwie sortieren können. Daher funktioniert er im Gegensatz zum Mittelwert auch für ordinalskalierte Merkmale.

Minimumeigenschaft des Medians

Abb. 1 zeigt die fünf Messwerte aus unserem 1. Beispiel. Wenn wir irgendeine Zahl x wählen, können wie alle Abstände \lvert x_i-x\rvert zu diesem x berechnen und addieren. Das ergibt die Summe

\displaystyle f(x)=\sum_{i=1}^n\lvert x_i-x\rvert\,,

die von x abhängt und daher eine Funktion von x ist. Weil die Betragsfunktion stetig ist, ist auch unser f eine stetige Funktion auf ganz \mathbb{R}. Falls x viel kleiner als unsere Messwerte ist, sind die Abstände und daher die Summe sehr groß. Das gilt auch, falls x viel größer als die Messwerte ist. Aber für ein x irgendwo »mitten drin« in den Messwerten werden die Abstände und deren Summe eher klein sein. Für welches x wird diese Summe der Abstände also minimal?

Abb. 1: Die Abstände der Messwerte zu einer beliebigen Zahl x.

Wenn x<x_1 ist, sind alle Terme in den Beträgen positiv und wir können die Betragsstriche durch Klammern ersetzen:

\displaystyle\sum_{i=1}^n\lvert x_i-x\rvert=\sum_{i=1}^n(x_i-x)=\left(\sum_{i=1}^nx_i\right)-n\cdot x\,.

Weil die Messwerte x_i alle bekannt – also konstant – sind, ergibt das eine lineare Funktion in x mit Steigung -n.

Wenn umgekehrt x>x_n ist, sind die Terme in den Beträgen negativ und wir können die Betragsstriche durch Klammern mit einem Minus davor ersetzen:

\displaystyle\sum_{i=1}^n\lvert x_i-x\rvert=\sum_{i=1}^n-(x_i-x)=-\left(\sum_{i=1}^nx_i\right)+n\cdot x\,.

Das ist dann eine lineare Funktion in x mit Steigung +n.

Für eine ungerade bzw. gerade Anzahl an Messwerten ist die Summe der Abstände in Abb. 2 bzw. Abb. 3 gezeigt. Weil f zwar stetig, aber leider nicht überall differenzierbar ist, können wir das Minimum nicht einfach dadurch finden, dass wir die Steigung (Ableitung) gleich Null setzen. Aber die Idee ist so ähnlich.

Abb. 2: Die Summe der Abstände zu den fünf Messwerten 1, 2, 2, 3 und 4 als Funktion von x. Die blauen Zahlen geben die Steigungen der linearen Funktionen an.

Sobald wir mit dem x zwischen dem 1. und dem 2. Messwert sind, x_1<x<x_2, ändert der Betrag nur das Vorzeichen des 1. Summanden:

\displaystyle\begin{aligned}\sum_{i=1}^n\lvert x_i-x\rvert&=-(x_1-x)+\sum_{i=2}^n(x_i-x)\\&=-x_1+x+\left(\sum_{i=2}^nx_i\right)-(n-1)\cdot x\\&=-x_1+\left(\sum_{i=2}^nx_i\right)+(-n+2)\cdot x\,.\end{aligned}

Das ist jetzt eine lineare Funktion mit Steigung -n+2. Jedesmal, wenn wir von links kommend mit dem x über einen Messwert wandern, nimmt die Steigung um 2 zu. Falls einmal k Messwerte gleich sein sollten, ändert sich die Steigung an dieser Stelle um +2\cdot k.

Für den Fall einer ungeraden Anzahl n der Messwerte (Abb. 2), ist nach (n-1)/2 Messwerten die Steigung noch negativ, weil -n+2\cdot(n-1)/2<0 ist. Nach dem Überschreiten des nächsten Wertes, \displaystyle x_{\frac{n+1}{2}} ist sie aber positiv, weil -n+2\cdot(n+1)/2>0 ist. Daher muss an der Stelle \displaystyle x=x_{\frac{n+1}{2}} das Minimum gewesen sein. Das ist aber genau der Median m.

Abb. 3: Die Summe der Abstände zu den sechs Messwerten 1, 1, 2, 3, 3 und 4 als Funktion von x. Die blauen Zahlen geben die Steigungen der linearen Funktionen an.

Falls wir eine gerade Anzahl n an Messwerten haben (Abb. 3), wird die Steigung nach n/2 Werten 0, weil -n+2\cdot n/2=0 ist. Überschreiten wir den nächsten Wert \displaystyle x_{\frac{n}{2}+1}=x_{\frac{n+2}{2}}, wird die Steigung -n+2\cdot(n+2)/2>0. Also ist unsere Summe für alle Werte zwischen \displaystyle x_{\frac{n}{2}} und \displaystyle x_{\frac{n+2}{2}} minimal. Und der Median m liegt genau in diesem Bereich. (Falls \displaystyle x_{\frac{n}{2}}=x_{\frac{n+2}{2}} sein sollte, haben wir eine Spitze wie für ein ungerades n.)

Falls schließlich alle Messwerte gleich sein sollten – ist unabhängig von n gerade oder ungerade – der Median m einfach gleich dieser Werte. Die Summe der Abstände ist dann V-förmig und das Minimum ist weder bei x=m.

Daher minimiert der Median die Summe der Abstände zu den einzelnen Messwerten:

\displaystyle\sum_{i=1}^n\lvert x_i-x\rvert\to\text{min}, \text{wenn }x=m\text{ ist}\,.

Der Mittelwert minimiert im Übrigen die Summe der Abstandsquadrate:

\displaystyle\sum_{i=1}^n(x_i-x)^2\to\text{min}, \text{wenn }x=\bar{x}\text{ ist}\,.

Weil die Summe hier eine quadratische Funktion in x ist, lässt sich das leicht durch »Ableiten und Nullsetzen« überprüfen.

Zwei nützliche Ungleichungen

Zum Beweis unserer Behauptung über die Abweichung des Medians vom Mittelwert werden wir zwei Ungleichungen verwenden. Wer die Cauchy-Schwarz-Ungleichung und die Dreiecksungleichung schon kennt, kann diesen Abschnitt überspringen. (Die Beweise finden sich im Anhang.)

Cauchy-Schwarz-Ungleichung

Wenn wir zwei Vektoren \boldsymbol{a}=\begin{pmatrix}a_1\\a_2\end{pmatrix} und \boldsymbol{b}=\begin{pmatrix}b_1\\b_2\end{pmatrix} in der Ebene haben, können wir ihr Skalarprodukt

\boldsymbol{a\cdot b}=a_1\cdot b_1+a_2\cdot b_2=\lvert\boldsymbol{a}\rvert\cdot\lvert\boldsymbol{b}\rvert\cdot\cos(\boldsymbol{a},\boldsymbol{b})

berechnen. Dabei sind \lvert\boldsymbol{a}\rvert und \lvert\boldsymbol{b}\rvert die Beträge (also Längen) der Vektoren, und \cos(\boldsymbol{a},\boldsymbol{b}) ist der Cosinus des Winkels zwischen a und b. Quadrieren wir das Skalarprodukt, folgt

(a_1\cdot b_1+a_2\cdot b_2)^2=\left(\lvert\boldsymbol{a}\rvert\cdot\lvert\boldsymbol{b}\rvert\cdot\cos(\boldsymbol{a},\boldsymbol{b})\right)^2\leq\lvert\boldsymbol{a}\rvert^2\cdot\lvert\boldsymbol{b}\rvert^2\,,

weil das Quadrat des Cosinus zwischen 0 und 1 liegt. Setzen wir noch für die Beträge der Vektoren ein, bekommen wir die Ungleichung

(a_1\cdot b_1+a_2\cdot b_2)^2\leq(a_1^2+a_2^2)\cdot(b_1^2+b_2^2)\,.

Interessanterweise gilt diese Ungleichung nicht nur in der Ebene (im \mathbb{R}^2), sondern auch in n Dimensionen (im \mathbb{R}^n):

\displaystyle\boxed{\left(\sum_{i=1}^na_i\cdot b_i\right)^2\leq\left(\sum_{i=1}^na_i^2\right)\cdot\left(\sum_{i=1}^nb_i^2\right)}\,.

Dreiecksungleichung

Nehmen wir wieder zwei Vektoren \boldsymbol{a} und \boldsymbol{b} in der Ebene wie in Abb. 4. Diese zwei Vektoren bilden zusammen mit der Summe \boldsymbol{c}=\boldsymbol{a}+\boldsymbol{b} das schattierte Dreieck.

Abb. 4: Für ein Dreieck muss die Länge einer Seite immer kleiner oder gleich der Summe der Längen der beiden anderen Seiten sein.

Damit so ein Dreieck entsteht, muss die Länge einer Seite immer kleiner oder gleich der Summe der Längen der beiden anderen Seiten sein. Es gilt dann jedenfalls die Dreiecksungleichung

\displaystyle\lvert\boldsymbol{c}\rvert=\lvert\boldsymbol{a}+\boldsymbol{b}\rvert\leq\lvert\boldsymbol{a}\rvert+\lvert\boldsymbol{b}\rvert\,.

Diese Ungleichung gilt nicht nur für Vektoren, sondern auch für eine beliebige Anzahl reeller Zahlen:

\displaystyle\boxed{\left\lvert\sum_{i=1}^na_i\right\rvert\leq\sum_{i=1}^n\lvert a_i\rvert}\,.

Der Betrag der Summe ist also immer kleiner oder gleich der Summe der Beträge. Das kann man sich leicht vorstellen, denn die Addition von positiven und negativen Zahlen kann einen Wert in der Nähe von 0 liefern, während die Addition von lauter positiven Zahlen sicher von 0 wegführt.

Abweichung des Medians vom Mittelwert

Mit unserer Definition der Varianz s_n^2 als mittlere quadratische Abweichung vom Mittelwert gilt

\displaystyle n\cdot s_n^2=\sum_{i=1}^n(x_i-\bar{x})^2=\sum_{i=1}^n\lvert x_i-\bar{x}\rvert^2\,,

weil der Betrag beim Quadrieren egal ist. Multiplizieren wir auf beiden Seiten mit

\displaystyle n=\underbrace{1^2+1^2+\dotsb+1^2}_{n\text{-mal}}=\sum_{i=1}^n1^2\,,

erhalten wir

\displaystyle n^2\cdot s_n^2=\left(\sum_{i=1}^n1^2\right)\cdot\left(\sum_{i=1}^n\lvert x_i-\bar{x}\rvert^2\right)\,.

Dieses Produkt zweier Summen von Quadraten können wir mithilfe von Cauchy-Schwarz nach unten abschätzen

\displaystyle\left(\sum_{i=1}^n1^2\right)\cdot\left(\sum_{i=1}^n\lvert x_i-\bar{x}\rvert^2\right)\geq\left(\sum_{i=1}^n1\cdot\lvert x_i-\bar{x}\rvert\right)^2\,,

und bekommen

\displaystyle n^2\cdot s_n^2\geq\left(\sum_{i=1}^n\lvert x_i-\bar{x}\rvert\right)^2\,.

Wie wir oben gesehen haben, wird die Summe \sum_{i=1}^n\lvert x_i-x\rvert für einen Median x = m am kleinsten. Daher ist

\displaystyle \sum_{i=1}^n\lvert x_i-\bar{x}\rvert\geq\sum_{i=1}^n\lvert x_i-m\rvert\,.

Diese Ungleichung positiver Seiten bleibt richtig, wenn wir beide Seiten quadrieren, d.h.

\displaystyle n^2\cdot s_n^2\geq\left(\sum_{i=1}^n\lvert x_i-\bar{x}\rvert\right)^2\geq\left(\sum_{i=1}^n\lvert x_i-m\rvert\right)^2\,.

Von der Dreiecksungleichung wissen wir, dass wir die Summe der Beträge durch den Betrag der Summe nach unten abschätzen können:

\displaystyle\sum_{i=1}^n\lvert x_i-m\rvert\geq\left\lvert\sum_{i=1}^n(x_i-m)\right\rvert\,.

Auch hier sind wieder beide Seiten \geq0, wodurch die Ungleichung beim Quadrieren erhalten bleibt. Damit folgt

\displaystyle\begin{aligned}n^2\cdot s_n^2&\geq\left(\sum_{i=1}^n\lvert x_i-m\rvert\right)^2\geq\left\lvert\sum_{i=1}^n(x_i-m)\right\rvert^2\\&=\left\lvert\left(\sum_{i=1}^nx_i\right)-n\cdot m\right\rvert^2=\lvert n\cdot\bar{x}-n\cdot m\rvert^2\\&=\vphantom{\sum_{i=1}^n}n^2\cdot\lvert\bar{x}-m\rvert^2\,,\end{aligned}

wobei wir die Definition des Mittelwertes n\cdot\bar{x}=\sum_{i=1}^nx_i verwendet haben.

Division durch die positive Zahl n^2 liefert

\displaystyle s_n^2\geq\lvert\bar{x}-m\rvert^2\,.

Weil auf beiden Seiten positive Zahlen quadriert werden, ändert das Wurzelziehen die Ungleichung nicht. Schlussendlich erhalten wir so unsere ursprüngliche Behauptung

\displaystyle\lvert m-\bar{x}\rvert=\lvert\bar{x}-m\rvert\leq s_n\,,

dass der Median nie mehr als eine Standardabweichung vom Mittelwert weg sein kann.

Diskussion

Median und Mittelwert sind unterschiedliche Wege, einen typischen Wert zu finden. Weil sie unterschiedlich definiert sind, sind sie im Allgemeinen ungleich. Für schmale (s_n\approx0) und symmetrische Verteilungen werden sie fast gleich sein; für breite (s_n groß) und asymmetrische Verteilungen können sie weit voneinander abweichen – allerdings nicht weiter als die Standardabweichung s_n.

Wie wir letztens gezeigt haben, wird als typischer Bereich oft das Intervall [\bar{x}-s_n;\bar{x}+s_n] angegeben. Da liegt der Median m jedenfalls drinnen. Daher liegt er auch im größeren Intervall [\bar{x}-\sqrt{2}\cdot s_n;\bar{x}+\sqrt{2}\cdot s_n], in dem mindestens die Hälfte aller Messwerte liegt.

Nehmen wir als Beispiel die Werte -1, 0 und 4. Der Median ist dann m = 0 und der Mittelwert \bar{x}=1. Weil die Standardabweichung s_n\approx2.16 beträgt, gilt \lvert m-\bar{x}\rvert=1\leq s_n.

Nehmen wir jetzt die Werte -1, 0 und 1000, ist der Median immer noch m=0. Der Mittelwert wird aber auf \bar{x}=333 vergrößert, und unterscheidet sich deutlich vom Median. Allerdings erhöht sich auch die Standardabweichung auf s_n\approx471.6. Daher gilt immer noch \lvert m-\bar{x}\rvert=333\leq s_n.

Man sagt deshalb auch, dass der Median unempfindlicher gegen »Ausreißer« ist. Ob das gut oder schlecht ist, kann man aber nicht allgemein sagen. Es kommt darauf an, ob die Ausreißer zu meiner Messgröße gehören, oder durch eine zusätzliche Störung verursacht werden.

Anhang

Beweis der Cauchy-Schwarz-Ungleichung

Nehmen wir jeweils n reelle Zahlen a_1, a_2, …, a_n und b_1, b_2, …, b_n. Dann gilt für ein beliebiges reelles x

(a_1\cdot x+b_1)^2+(a_2\cdot x+b_2)^2+\dotsb+(a_n\cdot x+b_n)^2\geq0\,,

weil die Summe von Quadraten reeller Zahlen nicht negativ werden kann. Quadrieren wir einen Summanden aus, erhalten wir mit einer binomischen Formel

(a_i\cdot x+b_i)^2=a_i^2\cdot x^2+2\cdot a_i\cdot b_i\cdot x+b_i^2\,.

Weil das x in allen Summanden dasselbe ist, können wir es herausheben und haben

\displaystyle{\underbrace{\left(\sum_{i=1}^na_i^2\right)}_A}\cdot x^2+{\underbrace{2\cdot\left(\sum_{i=1}^na_i\cdot b_i\right)}_B}\cdot x+{\underbrace{\sum_{i=1}^nb_i^2}_C}\geq0\,.

Die quadratische Funktion von x auf der linken Seite beschreibt eine Parabel, die nicht unterhalb der x-Achse liegen kann (wegen dem \geq0).

Weil A, B und C einfach nur irgendwelche reellen Zahlen sind, können wir mit der »großen« Lösungsformel die Nullstellen dieser Parabel ausrechnen:

\displaystyle x_{1,2}=\frac{-B\pm\sqrt{B^2-4\cdot A\cdot C}}{2\cdot A}\,.

Der Ausdruck D=B^2-4\cdot A\cdot C unter der Wurzel ist die Diskriminante und legt fest, ob es keine (D<0), eine (D=0) oder zwei (D>0) reelle Nullstellen gibt. Weil unsere Parabel aber nicht unter die x-Achse kommt, kann es maximal eine reelle Nullstelle geben. Die Diskriminante muss daher D=B^2-4\cdot A\cdot C\leq0 sein. Bringen wir die 4\cdot A\cdot C auf die andere Seite, und setzen wir die Summen ein, ergibt sich

\displaystyle\begin{aligned}B^2&\leq4\cdot A\cdot C\,,\\[1ex]2^2\cdot\left(\sum_{i=1}^na_i\cdot b_i\right)^2&\leq4\cdot\left(\sum_{i=1}^na_i^2\right)\cdot\left(\sum_{i=1}^nb_i^2\right)\,,\end{aligned}

und nach Division durch 4 folgt die ursprüngliche Behauptung.

Die Cauchy-Schwarz-Ungleichung gilt viel allgemeiner als wir sie hier bewiesen haben.

Beweis der Dreiecksungleichung

Für jede beliebige reelle Zahl x gilt x\leq\lvert x\rvert und x^2=\lvert x\rvert^2.

Für nur eine Zahl ist die Dreiecksungleichung offensichtlich richtig:

\lvert a_1\rvert\leq\lvert a_1\rvert\,.

Nehmen wir zwei beliebige reelle Zahlen a_1 und a_2. Dann haben wir

\displaystyle\begin{aligned}\lvert a_1+a_2\rvert^2&=(a_1+a_2)^2\\&=a_1^2+2\cdot a_1\cdot a_2+a_2^2\\&\leq a_1^2+2\cdot\lvert a_1\cdot a_2\rvert+a_2^2\\&=\lvert a_1\rvert^2+2\cdot\lvert a_1\rvert\cdot\lvert a_2\rvert+\lvert a_2\rvert^2\\&=(\lvert a_1\rvert+\lvert a_2\rvert)^2\,.\end{aligned}

Auch hier werden auf beiden Seiten der Ungleichung positive Zahlen quadriert, also können wir die Wurzel ziehen:

\displaystyle\lvert a_1+a_2\rvert\leq\lvert a_1\rvert+\lvert a_2\rvert\,.

Wenn wir für n-1 Zahlen schon wissen, dass die Dreiecksungleichung gilt, können wir die obige Idee sofort verwenden zu zeigen, dass sie auch für n Zahlen gelten muss.

Setzen wir \displaystyle S_{n-1}=\sum_{i=1}^{n-1}a_i=a_1+a_2+\dotsb+a_{n-1}, dann gilt

\displaystyle\left\lvert\sum_{i=1}^{n}a_i\right\rvert=\lvert S_{n-1}+a_n\rvert\leq\lvert S_{n-1}\rvert+\lvert a_n\rvert\,.

Und weil nach Voraussetzung

\displaystyle\lvert S_{n-1}\rvert\leq\sum_{i=1}^{n-1}\lvert a_i\rvert

ist, folgt unsere Behauptung.

Wir haben also zuerst gezeigt, dass die Behauptung für eine kleine Anzahl an Werten gilt. Anschließend haben wir gezeigt, dass sie auch noch dann gilt, wenn wir jeweils einen Wert dazu geben. Insgesamt gilt die Behauptung also für eine beliebige Menge an Werten. Das ist die Idee der vollständigen Induktion.

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google Foto

Du kommentierst mit Deinem Google-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.