Wenn man sich für eine bestimmte Eigenschaft einer (großen) Grundgesamtheit interessiert, könnte man natürlich hergehen, und sie tatsächlich für alle Angehörigen der Grundgesamtheit messen. Man könnte also z.B. bei jeder Schweißnaht prüfen, bei welcher Kraft sie wirklich reißt, oder jede Woche alle Wähler befragen, wen sie denn wählen möchten, oder …
Wie die obigen Beispiele zeigen, kann man das, was man von Allen wissen will, praktisch eben nicht immer an Allen messen.
Vielleicht ist das Messverfahren zerstörend, oder es ist zu teuer, oder man ist einfach zu faul. In solchen Fällen zieht man eine (kleine) Stichprobe aus der Grundgesamtheit und macht die Messungen nur in dieser Probe. Die Preisfrage lautet jetzt natürlich: Was können wir aus unseren Ergebnissen in der Stichprobe über die Grundgesamtheit aussagen?
Die Stichprobe
Wie wählen wir die Mitglieder der Stichprobe aus? Testen wir nur alle Schweißnähte, die uns verdächtig erscheinen, oder nur die vom Kollegen S., dem Pfuscher? Befragen wir einfach die ersten 100 Leute im Telefonbuch?
Die wichtigste Voraussetzung für alles Weitere ist, dass unsere Stichprobe für die Grundgesamtheit repräsentativ ist. D.h., dass alle Elemente der Grundgesamtheit die gleiche Wahrscheinlichkeit haben sollen, in die Stichprobe zu kommen. Leider ist das ist in der Praxis nicht immer sicherzustellen. Auf jeden Fall sollten wir Auswahlmethoden vermeiden, die garantiert zu keinen repräsentativen Stichproben führen.
Die Messgröße
Die Details im Folgenden hängen von der Art der Größe ab, die man bestimmen möchte. Wenn man die Größe tatsächlich für alle Mitglieder der Grundgesamtheit misst, werden die Messwerte eine bestimmte Verteilung haben. Wir interessieren uns hier für ihren Mittelwert
.
Wenn wir z.B. von zehn Flaschen die Füllmenge bestimmt haben, was können wir dann über die mittlere Füllmenge aller Flaschen (derselben Produktion) sagen?
Das Modell
Um überhaupt sinnvolle Rückschlüsse von der Stichprobe auf die Grundgesamtheit durchführen zu können, müssen wir eine Ahnung haben, wie die möglichen Werte unserer Messgröße verteilt sind. Diese Ahnung könnte daher kommen, dass man ähnliche Größen schon oft gemessen hat, oder daher, dass man z.B. die Prozesse versteht, die zu verschiedenen Werten von
führen.
Anschließend modellieren wir unsere Messgröße durch eine Zufallsvariable
, deren Verteilung so gut wie möglich der Verteilung von
entsprechen soll.
Falls wir annehmen können, dass unsere Messgröße näherungsweise normalverteilt ist, können wir jede Messung in der Stichprobe durch eine Ziehung aus der Zufallsvariablen
modellieren. In diesem Fall wird der Mittelwert durch die Zufallsvariable
modelliert, wobei der Stichprobenumfang ist. Wir haben ja schon gesehen, dass die Mittelwertbildung eine Schlankheitskur für die Verteilung ist.
Falls wir die Verteilung von nicht oder nur sehr ungenau kennen, können wir aufgrund des zentralen Grenzwertsatzes immer noch annehmen, dass der Mittelwert einer (ausreichend großen) Stichprobe annähernd normalverteilt ist. Das ist der wesentliche Vorteil der Mittelwertbildung!
In jedem Fall gelten für den Erwartungswert und die Standardabweichung
von
und
.
Die Punktschätzung
Wie nicht weiter überraschend, schätzen wir den Erwartungswert durch den Stichprobenmittelwert
.
Weil man nur einen Wert als Schätzung hat, spricht man von einer Punktschätzung.
Bsp.: Wir haben von Flaschen die Füllmengen in mL gemessen und folgende Werte erhalten: 500.1, 500.5, 501.5, 502.7, 499.6, 501.2, 498.2, 501.9, 503.8, 497.8. Dann ist der Mittelwert (in mL)
.
In der Statistiksoftware R hätten wir das z.B. so berechnen können:
x <- c(500.1, 500.5, 501.5, 502.7, 499.6, 501.2, 498.2, 501.9, 503.8, 497.8) mean(x)
Wo dieser Schätzwert relativ zu unserem unbekannten liegt wissen wir nicht. Was wir wissen ist: Wenn
ein gutes Modell für
ist, sollten die Mittelwerte mehrerer Stichproben desselben Umfangs gemäß der Wahrscheinlichkeitsdichte von
um unser unbekanntes
streuen (s. Abb. 1).

Um mehr über unser gesuchtes aussagen zu können, werden wir jetzt Intervalle ermitteln, die den Wert von
mit einer bestimmten Wahrscheinlichkeit enthalten.
Das z-Konfidenzintervall
Wir setzen fürs Erste voraus, dass wir die Standardabweichung kennen. Das ist zwar praktisch selten der Fall, aber zunächst einfacher.
Der gemessene Mittelwert einer zufälligen Stichprobe ist ebenfalls zufällig. Wie wir oben gesehen haben, kann er viele beliebige Werte annehmen, aber wahrscheinlich wird er in der »Nähe« des gesuchten landen. Wenn wir
kennen würden, könnten wir uns jetzt ein um
symmetrisches Intervall ausrechnen, in dem der gemessene Mittelwert
mit der Wahrscheinlichkeit
liegen wird (s. Abb. 2). Man nennt dieses
das Konfidenzniveau. Typische Werte dafür sind
oder
. Es liegt an uns, festzulegen, wie sicher wir sein wollen. Wenn
die Gesamtbreite des Intervalls ist, muss also
gelten. Leider können wir das Intervall
nicht berechnen, weil wir – wie schon erwähnt – nicht kennen.

Was wir aber kennen ist unser gemessenes . Wenn wir die Wahrscheinlichkeitsdichte gedanklich von
nach
verschieben, ändert sich an der Breite der Verteilung und damit an der Breite des schraffierten Bereichs nichts (s. Abb. 3). Wenn also das obige Intervall mit Wahrscheinlichkeit
den Messwert
enthalten hat, dann muss das verschobene Konfidenzintervall
mit derselben Wahrscheinlichkeit den unbekannten Wert überdecken.

Wir können also statt der Zufallsvariable die Zufallsvariable
betrachten. Mittels
können wir unser gesuchtes Konfidenzintervall tatsächlich ausrechnen. Für die Unter- bzw. Obergrenzen gilt:
bzw.
.
Durch Umkehrung der kummulativen Verteilungsfunktion von
erhalten wir die beiden Grenzen
bzw.
.
Die Umkehrfunktion für eine Normalverteilung heißt in R
qnorm
. In unserem Beispiel hätten wir das Konfidenzintervall also folgendermaßen berechnen können:
n <- 10 x_quer <- 500.73 sigma <- 2.0 gamma <- 0.95 mu_unten <- qnorm((1.0 - gamma) / 2.0, x_quer, sigma / sqrt(n)) mu_oben <- qnorm(1.0 - (1.0 - gamma) / 2.0, x_quer, sigma / sqrt(n))
Damit erhalten wir das -Konfidenzintervall
für
. Wir sind uns also zu
sicher, dass die mittlere Füllmenge aller Flaschen (in mL) im Bereich
liegt. Tatsächlich wurden die »Messwerte« des Beispiels vom Computer aus einer Normalverteilung mit
und
»gewürfelt« und auf eine Nachkommastelle gerundet.
Obige Berechnung verdeckt ein bisschen, wovon die Breite des Konfidenzintervalls abhängt. Wir werden die Berechnung jetzt also etwas expliziter machen. Zunächst standardisieren wir die Zufallsvariable mittels
und erhalten die ebenfalls normalverteilte Zufallsvariable (Standardnormalverteilung).
Wie Abb. 4 zeigt, ist unser standardisiertes Intervall jetzt symmetrisch um den Ursprung. Die kummulative Verteilungsfunktion der Standardnormalverteilung
gibt den Flächeninhalt von
bis
an. Wir müssen also z.B. die Gleichung
mittels der inversen kummulativen Verteilungsfunktion lösen:
.

Im zweiten Schritt kehren wir die Standardisierung mittels
um, und erhalten das -Konfidenzintervall für
.
Die Breite des Intervalls ist also
.
Wenn wir unsere Konfidenz erhöhen wollen, wandern
nach außen, und unser Intervall wird breiter. Mit
-iger Sicherheit überdeckt das Intervall
den gesuchten Wert
.
Weiters hängt die Breite von dem Faktor ab. Wenn wir also genauer sein wollen, und unsere Intervallbreite z.B. halbieren wollen, dann müssen wir den Stichprobenumfang
vervierfachen!
Um bei unserem Beispiel zu bleiben:
n <- 10 x_quer <- 500.73 sigma <- 2.0 gamma <- 0.95 z <- -qnorm((1.0 - gamma) / 2.0) mu_unten <- x_quer - z * sigma / sqrt(n) mu_oben <- x_quer + z * sigma / sqrt(n)
Dabei ist , und wir erhalten das Konfidenzintervall von oben.
Wenn wir statt dem Mittelwert die einzelnen Werte gegeben haben, könnten wir
x <- c(500.1, 500.5, 501.5, 502.7, 499.6, 501.2, 498.2, 501.9, 503.8, 497.8) n <- length(x) x_quer <- mean(x) sigma <- 2.0 …
verwenden.
Das t-Konfidenzintervall
Wenn wir – was der übliche Fall ist – die Standardabweichung nicht kennen, sind zwar
und
immer noch normalverteilt, aber wir können auch mit Hilfe von
nichts mehr berechnen.
Eine Idee ist es, die Standardabweichung durch die empirische Standardabweichung
der Stichprobe zu schätzen. Für unser Beispiel erhalten wir (in mL). In R machen wir das mit dem Befehl
sd
:
x <- c(500.1, 500.5, 501.5, 502.7, 499.6, 501.2, 498.2, 501.9, 503.8, 497.8) s <- sd(x)
Wir könnten also statt zumindest näherungsweise
verwenden. Wenn
groß genug, ist ist diese Näherung auch brauchbar.
Für kleine Stichproben kann man zeigen, dass die »Standardisierung«
zu einer Zufallsvariablen führt, die Student-t-verteilt mit
Freiheitsgraden ist:
.
Abb. 5 vergleicht zwei t-Verteilungen mit 1 bzw. 5 Freiheitsgraden mit einer Standardnormalverteilung. Man sieht, dass mit der Größe der Stichprobe die t-Verteilung der Normalverteilung immer ähnlicher wird; der zentrale Grenzwertsatz gilt ja weiterhin. Für kleinere hat die t-Verteilung breitere Ausläufer als die Normalverteilung. Für kleine Stichproben werden unsere Konfidenzintervalle breiter.

Abgesehen von der Verwendung der t-Verteilung (t <- -qt((1.0 - gamma) / 2.0, n - 1)
) statt der Standardnormalverteilung (z <- -qnorm((1.0 - gamma) / 2.0)
), verläuft die Berechnung identisch zu der obigen detaillierten Variante. Für unser Beispiel erhalten wir mit
x <- c(500.1, 500.5, 501.5, 502.7, 499.6, 501.2, 498.2, 501.9, 503.8, 497.8) n <- length(x) x_quer <- mean(x) s <- sd(x) gamma <- 0.95 t <- -qt((1.0 - gamma) / 2.0, n - 1) mu_unten <- x_quer - t * s / sqrt(n) mu_oben <- x_quer + t * s / sqrt(n)
als Konfidenzintervall für
(in mL):
. Das ist in beide Richtungen um 0.1 mL größer als bei bekanntem
. Der Grund für diese kleine Änderung ist, dass unser gemessenes
das
etwas unterschätzt. Das
ist etwas größer als das
von oben.
Um noch einmal auf die Frage zurückzukommen, was denn eine kleine Stichprobe ist: Die folgende Tabelle zeigt, um welchen Faktor das -Intervall breiter als das
-Intervall ist (bei sonst gleichen Bedingungen; die Breite hängt ja auch von der empirischen Standardabweichung
ab).
Üblicherweise hört man, dass Stichproben unter klein sind. Ich persönlich würde den Wert eher auf
setzen.
Messgenauigkeit
Bisher haben wir angenommen, dass alle Zahlen exakt wären; es also keine Messunsicherheit gibt. Wenn wir Füllmengen auf sub-mL genau messen können, bekommen wir ein bestimmtes Konfidenzintervall. Wenn wir die Flascheninhalte in ein Gefäß mit einer 1L-Marke schütten, können wir bestenfalls sagen, dass jede Flasche etwa 0.5L Inhalt hatte, und bekommen wieder dasselbe Konfidenzintervall. Das ist offensichtlich absurd! Je ungenauer wir messen, desto breiter müsste unser Konfidenzintervall werden.
Wenn wir auf genau messen können (
ist also unsere Messungenauigkeit), dann können wir den Messfehler im Allgemeinen durch die Zufallsvariable
modellieren.
In unserem Beispiel beschreibt die Ungenauigkeit der Abfüllanlage, der Parameter
beschreibt die Ungenauigkeit der Füllstandsmessung einer Flasche. Diese beiden Dinge sind ganz offensichtlich unabhängig voneinander. Wenn wir also den Füllstand einer Flasche messen, ziehen wir nicht nur aus der Verteilung
, sondern aus der Verteilung
,
weil die Summe zweier unabhängiger, normalverteilter Zufallsvariable wieder normalverteilt ist, allerdings mit einer größeren Breite (die unserer größeren Unsicherheit entspricht).
Für den Mittelwert aus Proben gilt dann:
.
Analog zu oben erhalten wir dann das -Konfidenzintervall für
.
Der R-Code für unser Beispiel wird daher:
x <- c(500.1, 500.5, 501.5, 502.7, 499.6, 501.2, 498.2, 501.9, 503.8, 497.8) n <- length(x) x_quer <- mean(x) sigma <- 2.0 sigma_u <- 0.05 sigma_ges <- sqrt(sigma^2 + sigma_u^2) gamma <- 0.95 z <- -qnorm((1.0 - gamma) / 2.0) mu_unten <- x_quer - z * sigma_ges / sqrt(n) mu_oben <- x_quer + z * sigma_ges / sqrt(n)
Die folgende Tabelle zeigt, wie sich die -Konfidenzintervalle für abnehmende Messgenauigkeit verändern (alle Werte in mL):
Wenn die Messunsicherheit kleiner ist als die (empirische) Streuung
(bzw.
) unserer Messgröße, tut sich praktisch gar nichts. Sobald
aber in derselben Größenordnung oder noch größer als
ist, wird das Konfidenzintervall deutlich breiter.
Diskussion
Nach der Berechnung des Konfidenzintervalls kennen wir den Mittelwert unserer Messgröße immer noch nicht. Aber wir können seinen Wertebereich sinnvoll eingrenzen. Allerdings überdeckt unser Konfidenzintervall den Wert von
nur mit einer gewissen Wahrscheinlichkeit. Es kann also durchaus sein, dass der Wert außerhalb unseres Intervalls liegt.
Nachdem wir oben doch einige Annahmen treffen mussten, die in der Praxis nicht wirklich überprüft werden können, ist die Konfidenzwahrscheinlichkeit für unser Intervall eher eine Obergrenze.