Wie und warum kommt man zu Median und Mittelwert?

Wenn wir viele Messwerte haben, würden wir sie gerne durch einen »typischen« Wert ersetzen, der meistens in der Mitte vermutet wird. Aber wo genau ist diese Mitte? Das wird in folgendem Video diskutiert (nicht eingebettet):

Es gibt auch eine englische Version:

Wahrscheinlichkeit und radioaktiver Zerfall

Der radioaktive Zerfall eines Atomkerns ist ein völlig zufälliger Prozess. Wir können nicht vorhersagen, wann ein bestimmter Kern zerfallen wird. Daher wissen wir auch nicht genau, wann noch wie viele Kerne nicht zerfallen sind.

Andererseits hat fast jeder in der Oberstufe das radioaktive Zerfallsgesetz

N(t)=N_0\cdot e^{-\lambda\cdot t}

kennengelernt. Dabei ist N_0 die Zahl der zu Beginn vorhandenen Kerne, N(t) die Anzahl der zur Zeit t noch nicht zerfallenen Kerne und \lambda>0 ist die Zerfallskonstante des Materials. Das ist ein exakter funktionaler Zusammenhang.

Wie kann ein völlig zufälliger Vorgang zu einem exakten Gesetz führen?

Weiterlesen „Wahrscheinlichkeit und radioaktiver Zerfall“

Wie weit kann der Median vom Mittelwert abweichen?

Unlängst haben wir uns gefragt: »Wie weit können Messwerte vom Mittelwert abweichen?« Dieses Mal diskutieren wir den Median und seine Eigenschaften. Wir werden zeigen, dass der Abstand des Medians m zum Mittelwert \bar{x} immer kleiner oder gleich der Standardabweichung s_n ist:

\boxed{\lvert m-\bar{x}\rvert\leq s_n} .

(Im Rahmen dieses Beitrags nehmen wir an, dass die Messwerte zumindest intervallskaliert sind.)

Unterwegs werden wir dabei zwei wichtige Ungleichungen besprechen.

Weiterlesen „Wie weit kann der Median vom Mittelwert abweichen?“

Wie weit können Messwerte vom Mittelwert abweichen?

Wenn wir eine Größe oft gemessen haben, möchten wir statt allen Messwerten einfach einen typischen Wert angeben. Wie groß ist z.B. das typische Einkommen aller Österreicher? Oft wird dafür das arithmetische Mittel \bar{x} verwendet, das eigentlich der Schwerpunkt der Messwerte ist. (Wie weit Mittelwert und Median voneinander abweichen können, wird hier diskutiert.)

Die einzelnen Messwerte streuen mehr oder weniger weit um diesen Mittelwert. Ein Maß für die Streuung ist die Standardabweichung s_n. Als typischer Bereich der Werte wird oft das Intervall [\bar{x}-s_n;\bar{x}+s_n] verwendet.

Aber wie viele Werte sind wirklich in diesem Bereich bzw. wie weit können die Messwerte überhaupt vom Mittelwert abweichen? Wie wir sehen werden, ist [\bar{x}-\sqrt{2}\,s_n;\bar{x}+\sqrt{2}\,s_n] der Bereich, in dem garantiert mindestens die Hälfte der Messwerte liegt. Und typisch kann ja nur etwas sein, was zumindest für die Hälfte zutrifft. Darüber hinaus liegen sicher alle n Messwerte im Intervall [\bar{x}-\sqrt{n-1}\cdot s_n;\bar{x}+\sqrt{n-1}\cdot s_n].

Weiterlesen „Wie weit können Messwerte vom Mittelwert abweichen?“

Konfidenzintervalle für den Mittelwert der Grundgesamtheit

Wenn man sich für eine bestimmte Eigenschaft X einer (großen) Grundgesamtheit interessiert, könnte man natürlich hergehen, und sie tatsächlich für alle Angehörigen der Grundgesamtheit messen. Man könnte also z.B. bei jeder Schweißnaht prüfen, bei welcher Kraft sie wirklich reißt, oder jede Woche alle Wähler befragen, wen sie denn wählen möchten, oder …

Wie die obigen Beispiele zeigen, kann man das, was man von Allen wissen will, praktisch eben nicht immer an Allen messen.

Vielleicht ist das Messverfahren zerstörend, oder es ist zu teuer, oder man ist einfach zu faul. In solchen Fällen zieht man eine (kleine) Stichprobe aus der Grundgesamtheit und macht die Messungen nur in dieser Probe. Die Preisfrage lautet jetzt natürlich: Was können wir aus unseren Ergebnissen in der Stichprobe über die Grundgesamtheit aussagen?

Weiterlesen „Konfidenzintervalle für den Mittelwert der Grundgesamtheit“

Wozu Mittelwerte?

Angenommen, man hat eine Messgröße, die man durch eine Zufallsvariable X modellieren kann. Der Erwartungswert von X sei \mu und die Standardabweichung sei \sigma.

Misst man diese Messgröße mehrfach, wird man voraussichtlich verschiedene Werte erhalten, deren Streuung durch die Verteilung von X modelliert wird.

Berechnet man den Mittelwert \bar{x} dieser n Messungen, kann man ihn durch die Zufallsvariable \overline{X} modellieren. Wenn die Messungen alle voneinander unabhängig waren, gilt für den Erwartungswert des Mittelwertes

\mathscr{E}(\overline{X}) = \mathscr{E}(X) = \mu

und für die Standardabweichung (»Standardfehler«) des Mittelwertes

\displaystyle\mathscr{S}(\overline{X}) = \frac{\mathscr{S}(X)}{\sqrt{n}} = \frac{\sigma}{\sqrt{n}}\,.

Diese Formeln gelten unabhängig von der konkreten Verteilung von X; die zweite wird oft auch als »Wurzel-n-Gesetz« bezeichnet.

Weiterlesen „Wozu Mittelwerte?“

Das empirische »Gesetz« der großen Zahlen

Im letzten Beitrag haben wir gesehen, wie in einem längeren Münzwurfexperiment die relative Häufigkeit für Kopf immer näher an 1/2 herangekommen ist. Obwohl es keine Garantie dafür gibt, dass es so sein muss, ist so eine Stabilisierung von relativen Häufigkeiten und anderen Messgrößen oft zu beobachten. Diese Erfahrungstatsache nennt man das empirische »Gesetz« der großen Zahlen.

Wie kann man sich das erklären?

Weiterlesen „Das empirische »Gesetz« der großen Zahlen“

Wahrscheinlichkeiten

Wahrscheinlichkeiten sind Erwartungen – um nicht zu sagen Hoffnungen – darüber, wie oft ein bestimmtes Ereignis bei oftmaliger Wiederholung eines Zufallsexperiments (unter gleichen Bedingungen) eintreten wird. Genauer gesagt, geht es um die relative Häufigkeit eines Ereignisses.

Diese Erwartungen hängen von unserem Informationsstand ab. Wie man zu sinnvollen Erwartungen kommt, ist ein Kapitel für sich. Erwartungen können falsch sein; selbst »richtige« Erwartungen können enttäuscht werden.

Darüber hinaus ist unklar, was mit oftmaliger Wiederholung genau gemeint ist. 100-mal, 1000-mal, 1 Milliarde Mal?

Für viele Münzwurfexperimente ist es sinnvoll, eine Wahrscheinlichkeit für Kopf von 1/2 anzunehmen. Die rote Linie in der folgenden Abbildung zeigt, wie sich die relative Häufigkeit für Kopf im Lauf einer längeren Münzwurfserie geändert hat.

relHK_200dpi
Die laufende relative Häufigkeit für Kopf als Funktion der Anzahl der Münzwürfe (rote Linie). Die grün gefüllten Bereiche stellen die 1\sigma-, 2\sigma– bzw. 3\sigma-Umgebungen unserer Erwartung dar. Die horizontale Achse ist logarithmisch skaliert, um den Beginn deutlicher zeigen zu können.

Weiterlesen „Wahrscheinlichkeiten“