Konfidenzintervalle für den Mittelwert der Grundgesamtheit

Wenn man sich für eine bestimmte Eigenschaft X einer (großen) Grundgesamtheit interessiert, könnte man natürlich hergehen, und sie tatsächlich für alle Angehörigen der Grundgesamtheit messen. Man könnte also z.B. bei jeder Schweißnaht prüfen, bei welcher Kraft sie wirklich reißt, oder jede Woche alle Wähler befragen, wen sie denn wählen möchten, oder …

Wie die obigen Beispiele zeigen, kann man das, was man von Allen wissen will, praktisch eben nicht immer an Allen messen.

Vielleicht ist das Messverfahren zerstörend, oder es ist zu teuer, oder man ist einfach zu faul. In solchen Fällen zieht man eine (kleine) Stichprobe aus der Grundgesamtheit und macht die Messungen nur in dieser Probe. Die Preisfrage lautet jetzt natürlich: Was können wir aus unseren Ergebnissen in der Stichprobe über die Grundgesamtheit aussagen?

Die Stichprobe

Wie wählen wir die Mitglieder der Stichprobe aus? Testen wir nur alle Schweißnähte, die uns verdächtig erscheinen, oder nur die vom Kollegen S., dem Pfuscher? Befragen wir einfach die ersten 100 Leute im Telefonbuch?

Die wichtigste Voraussetzung für alles Weitere ist, dass unsere Stichprobe für die Grundgesamtheit repräsentativ ist. D.h., dass alle Elemente der Grundgesamtheit die gleiche Wahrscheinlichkeit haben sollen, in die Stichprobe zu kommen. Leider ist das ist in der Praxis nicht immer sicherzustellen. Auf jeden Fall sollten wir Auswahlmethoden vermeiden, die garantiert zu keinen repräsentativen Stichproben führen.

Die Messgröße

Die Details im Folgenden hängen von der Art der Größe ab, die man bestimmen möchte. Wenn man die Größe X tatsächlich für alle Mitglieder der Grundgesamtheit misst, werden die Messwerte eine bestimmte Verteilung haben. Wir interessieren uns hier für ihren Mittelwert \overline{X}.

Wenn wir z.B. von zehn Flaschen die Füllmenge bestimmt haben, was können wir dann über die mittlere Füllmenge aller Flaschen (derselben Produktion) sagen?

Das Modell

Um überhaupt sinnvolle Rückschlüsse von der Stichprobe auf die Grundgesamtheit durchführen zu können, müssen wir eine Ahnung haben, wie die möglichen Werte unserer Messgröße X verteilt sind. Diese Ahnung könnte daher kommen, dass man ähnliche Größen schon oft gemessen hat, oder daher, dass man z.B. die Prozesse versteht, die zu verschiedenen Werten von X führen.

Anschließend modellieren wir unsere Messgröße X durch eine Zufallsvariable \mathcal{X}, deren Verteilung so gut wie möglich der Verteilung von X entsprechen soll.

Falls wir annehmen können, dass unsere Messgröße näherungsweise normalverteilt ist, können wir jede Messung in der Stichprobe durch eine Ziehung aus der Zufallsvariablen

\mathcal{X} \sim \text{NV}(\mu,\sigma)

modellieren. In diesem Fall wird der Mittelwert \overline{X} durch die Zufallsvariable

\displaystyle\overline{\mathcal{X}} \sim \text{NV}\left(\mu,\frac{\sigma}{\sqrt{n}}\right)

modelliert, wobei n der Stichprobenumfang ist. Wir haben ja schon gesehen, dass die Mittelwertbildung eine Schlankheitskur für die Verteilung ist.

Falls wir die Verteilung von X nicht oder nur sehr ungenau kennen, können wir aufgrund des zentralen Grenzwertsatzes immer noch annehmen, dass der Mittelwert einer (ausreichend großen) Stichprobe annähernd normalverteilt ist. Das ist der wesentliche Vorteil der Mittelwertbildung!

In jedem Fall gelten für den Erwartungswert \mathcal{E} und die Standardabweichung \mathcal{S} von \overline{\mathcal{X}}

\mathcal{E}(\overline{\mathcal{X}}) = \mathcal{E}(\mathcal{X}) = \mu    und   \displaystyle\mathcal{S}(\overline{\mathcal{X}}) = \frac{\mathcal{S}(\mathcal{X})}{\sqrt{n}} = \frac{\sigma}{\sqrt{n}} .

Die Punktschätzung

Wie nicht weiter überraschend, schätzen wir den Erwartungswert \mathcal{E}(\overline{\mathcal{X}}) = \mu durch den Stichprobenmittelwert

\displaystyle\overline{x} = \frac{x_1 + x_2 + \dotsb + x_n}{n} .

Weil man nur einen Wert als Schätzung hat, spricht man von einer Punktschätzung.

Bsp.: Wir haben von n = 10 Flaschen die Füllmengen in mL gemessen und folgende Werte erhalten: 500.1, 500.5, 501.5, 502.7, 499.6, 501.2, 498.2, 501.9, 503.8, 497.8. Dann ist der Mittelwert (in mL)

\displaystyle\overline{x} = \frac{500.1 + 500.5 + \dotsb + 497.8}{10} = 500.73 .

In der Statistiksoftware R hätten wir das z.B. so berechnen können:

x <- c(500.1, 500.5, 501.5, 502.7, 499.6,
501.2, 498.2, 501.9, 503.8, 497.8)
mean(x)

Wo dieser Schätzwert relativ zu unserem unbekannten \mu liegt wissen wir nicht. Was wir wissen ist: Wenn \overline{\mathcal{X}} ein gutes Modell für \overline{X} ist, sollten die Mittelwerte mehrerer Stichproben desselben Umfangs gemäß der Wahrscheinlichkeitsdichte von \overline{\mathcal{X}} um unser unbekanntes \mu streuen (s. Abb. 1).

KI_EX_Punkt
Abb. 1: 20 Stichprobenmittelwerte (grüne Striche) aus jeweils 10 Messungen. Manche liegen näher bei dem unbekannten \mu als andere, wir wissen aber nicht welche.

Um mehr über unser gesuchtes \mu aussagen zu können, werden wir jetzt Intervalle ermitteln, die den Wert von \mu mit einer bestimmten Wahrscheinlichkeit enthalten.

Das z-Konfidenzintervall

Wir setzen fürs Erste voraus, dass wir die Standardabweichung \mathcal{S}(\mathcal{X}) = \sigma kennen. Das ist zwar praktisch selten der Fall, aber zunächst einfacher.

Der gemessene Mittelwert einer zufälligen Stichprobe ist ebenfalls zufällig. Wie wir oben gesehen haben, kann er viele beliebige Werte annehmen, aber wahrscheinlich wird er in der »Nähe« des gesuchten \mu landen. Wenn wir \mu kennen würden, könnten wir uns jetzt ein um \mu symmetrisches Intervall ausrechnen, in dem der gemessene Mittelwert \overline{x} mit der Wahrscheinlichkeit \gamma liegen wird (s. Abb. 2). Man nennt dieses \gamma das Konfidenzniveau. Typische Werte dafür sind 0.95 oder 0.99. Es liegt an uns, festzulegen, wie sicher wir sein wollen. Wenn b die Gesamtbreite des Intervalls ist, muss also

\mathcal{P}\left(\mu - \frac{b}{2} \leq \overline{\mathcal{X}} \leq \mu + \frac{b}{2}\right) = \mathcal{P}\left(\left\lvert \overline{\mathcal{X}} - \mu \right\rvert \leq \frac{b}{2}\right) = \gamma

gelten. Leider können wir das Intervall

\displaystyle\left[\mu - \frac{b}{2}; \mu + \frac{b}{2}\right]

nicht berechnen, weil wir – wie schon erwähnt – \mu nicht kennen.

KI_mu
Abb. 2: Der Mittelwert \overline{x} einer Stichprobe liegt mit Wahrscheinlichkeit \gamma in dem braun schraffierten Bereich symmetrisch um das unbekannte \mu. Die beiden orangenen Zwickel repräsentieren jeweils eine Wahrscheinlichkeit von \frac{1 - \gamma}{2}.

Was wir aber kennen ist unser gemessenes \overline{x}. Wenn wir die Wahrscheinlichkeitsdichte gedanklich von \mu nach \overline{x} verschieben, ändert sich an der Breite der Verteilung und damit an der Breite des schraffierten Bereichs nichts (s. Abb. 3). Wenn also das obige Intervall mit Wahrscheinlichkeit \gamma den Messwert \overline{x} enthalten hat, dann muss das verschobene Konfidenzintervall

\displaystyle\left[\overline{x} - \frac{b}{2}; \overline{x} + \frac{b}{2}\right] = \left[\mu_\text{unten}; \mu_\text{oben}\right]

mit derselben Wahrscheinlichkeit den unbekannten Wert \mu überdecken.

KI_xq
Abb. 3: Das verschobene Intervall \left[\overline{x} - \frac{b}{2}; \overline{x} + \frac{b}{2}\right] überdeckt den unbekannten Wert \mu mit Wahrscheinlichkeit \gamma.

Wir können also statt der Zufallsvariable \overline{\mathcal{X}} \sim \text{NV}\left(\mu,\frac{\sigma}{\sqrt{n}}\right) die Zufallsvariable \mathcal{Y} \sim \text{NV}\left(\overline{x},\frac{\sigma}{\sqrt{n}}\right) betrachten. Mittels \mathcal{Y} können wir unser gesuchtes Konfidenzintervall tatsächlich ausrechnen. Für die Unter- bzw. Obergrenzen gilt:

\displaystyle\mathcal{P}\left(\mathcal{Y} \leq \mu_\text{unten}\right) = F(\mu_\text{unten}) = \frac{1 - \gamma}{2}

bzw.

\displaystyle\mathcal{P}\left(\mathcal{Y} \leq \mu_\text{oben}\right) = F(\mu_\text{oben}) = 1 - \frac{1 - \gamma}{2} .

Durch Umkehrung der kummulativen Verteilungsfunktion F von \mathcal{Y} erhalten wir die beiden Grenzen

\displaystyle\mu_\text{unten} = F^{-1}\left(\frac{1 - \gamma}{2}\right)    bzw.    \displaystyle\mu_\text{oben} = F^{-1}\left(1 - \frac{1 - \gamma}{2}\right) .

Die Umkehrfunktion F^{-1} für eine Normalverteilung heißt in R qnorm. In unserem Beispiel hätten wir das Konfidenzintervall also folgendermaßen berechnen können:

n <- 10
x_quer <- 500.73
sigma <- 2.0
gamma <- 0.95
mu_unten <- qnorm((1.0 - gamma) / 2.0,
x_quer, sigma / sqrt(n))
mu_oben <- qnorm(1.0 - (1.0 - gamma) / 2.0,
x_quer, sigma / sqrt(n))

Damit erhalten wir das 95\,\%-Konfidenzintervall [499.5, 502.0] für \mu. Wir sind uns also zu 95\,\% sicher, dass die mittlere Füllmenge aller Flaschen (in mL) im Bereich [499.5, 502.0] liegt. Tatsächlich wurden die »Messwerte« des Beispiels vom Computer aus einer Normalverteilung mit \mu = 500 und \sigma = 2 »gewürfelt« und auf eine Nachkommastelle gerundet.

Obige Berechnung verdeckt ein bisschen, wovon die Breite des Konfidenzintervalls abhängt. Wir werden die Berechnung jetzt also etwas expliziter machen. Zunächst standardisieren wir die Zufallsvariable \mathcal{Y} mittels

\displaystyle\mathcal{Z} = \frac{\mathcal{Y} - \overline{x}}{\sigma/\sqrt{n}}

und erhalten die ebenfalls normalverteilte Zufallsvariable \mathcal{Z}\sim\text{NV}(0,1) (Standardnormalverteilung).

Wie Abb. 4 zeigt, ist unser standardisiertes Intervall [-z,+z] jetzt symmetrisch um den Ursprung. Die kummulative Verteilungsfunktion der Standardnormalverteilung \Phi(z) gibt den Flächeninhalt von -\infty bis z an. Wir müssen also z.B. die Gleichung

\displaystyle\Phi(-z) = \frac{1-\gamma}{2}

mittels der inversen kummulativen Verteilungsfunktion \Phi^{-1} lösen:

\displaystyle z = -\Phi^{-1}\left(\frac{1-\gamma}{2}\right) .

KI_StdNV
Abb. 4: Der \gamma-Streubereich einer standard-normalverteilten Zufallsvariable \mathcal{Z}. Die beiden orangenen Flachen haben jeweils den Flächeninhalt \frac{1 - \gamma}{2}.

Im zweiten Schritt kehren wir die Standardisierung mittels

\displaystyle\mathcal{Y} = \overline{x} + \mathcal{Z} \cdot \frac{\sigma}{\sqrt{n}}

um, und erhalten das \gamma-Konfidenzintervall für \mu

\displaystyle\left[\overline{x} - z \cdot \frac{\sigma}{\sqrt{n}},\overline{x} + z \cdot \frac{\sigma}{\sqrt{n}}\right] .

Die Breite des Intervalls ist also

\displaystyle b = 2 \cdot z \cdot \frac{\sigma}{\sqrt{n}} .

Wenn wir unsere Konfidenz \gamma erhöhen wollen, wandern \pm z nach außen, und unser Intervall wird breiter. Mit 100\,\%-iger Sicherheit überdeckt das Intervall (-\infty; +\infty) den gesuchten Wert \mu.

Weiters hängt die Breite von dem Faktor \frac{1}{\sqrt{n}} ab. Wenn wir also genauer sein wollen, und unsere Intervallbreite z.B. halbieren wollen, dann müssen wir den Stichprobenumfang n vervierfachen!

Um bei unserem Beispiel zu bleiben:

n <- 10
x_quer <- 500.73
sigma <- 2.0
gamma <- 0.95
z <- -qnorm((1.0 - gamma) / 2.0)
mu_unten <- x_quer - z * sigma / sqrt(n)
mu_oben <- x_quer + z * sigma / sqrt(n)

Dabei ist z \approx 1.96, und wir erhalten das Konfidenzintervall von oben.

Wenn wir statt dem Mittelwert die einzelnen Werte gegeben haben, könnten wir

x <- c(500.1, 500.5, 501.5, 502.7, 499.6,
501.2, 498.2, 501.9, 503.8, 497.8)
n <- length(x)
x_quer <- mean(x)
sigma <- 2.0
…

verwenden.

Das t-Konfidenzintervall

Wenn wir – was der übliche Fall ist – die Standardabweichung \mathcal{S}(\mathcal{X}) = \sigma nicht kennen, sind zwar \overline{\mathcal{X}} und \mathcal{Y} immer noch normalverteilt, aber wir können auch mit Hilfe von \mathcal{Y} nichts mehr berechnen.

Eine Idee ist es, die Standardabweichung \mathcal{S}(\mathcal{X}) = \sigma durch die empirische Standardabweichung

\displaystyle s = \sqrt{\frac{1}{n - 1} \sum_{i = 1}^n (x_i - \overline{x})^2}

der Stichprobe zu schätzen. Für unser Beispiel erhalten wir s \approx 1.9 (in mL). In R machen wir das mit dem Befehl sd:

x <- c(500.1, 500.5, 501.5, 502.7, 499.6,
501.2, 498.2, 501.9, 503.8, 497.8)
s <- sd(x)

Wir könnten also statt \mathcal{Y} \sim \text{NV}\left(\overline{x}, \frac{\sigma}{\sqrt{n}}\right) zumindest näherungsweise \mathcal{Y}_s \sim \text{NV}\left(\overline{x}, \frac{s}{\sqrt{n}}\right) verwenden. Wenn n groß genug, ist ist diese Näherung auch brauchbar.

Für kleine Stichproben kann man zeigen, dass die »Standardisierung«

\displaystyle\mathcal{T} = \frac{\mathcal{Y} - \overline{x}}{s/\sqrt{n}}

zu einer Zufallsvariablen \mathcal{T} führt, die Student-t-verteilt mit n - 1 Freiheitsgraden ist:

\mathcal{T} \sim t(n - 1) .

Abb. 5 vergleicht zwei t-Verteilungen mit 1 bzw. 5 Freiheitsgraden mit einer Standardnormalverteilung. Man sieht, dass mit der Größe der Stichprobe die t-Verteilung der Normalverteilung immer ähnlicher wird; der zentrale Grenzwertsatz gilt ja weiterhin. Für kleinere n hat die t-Verteilung breitere Ausläufer als die Normalverteilung. Für kleine Stichproben werden unsere Konfidenzintervalle breiter.

KI_TV
Abb. 5: Vergleich der Wahrscheinlichkeitsdichten einer t-Verteilung mit n - 1 = 1 Freiheitsgraden (Mittelwert aus 2 Messungen; rot), einer t-Verteilung mit n - 1 = 5 Freiheitsgraden (Mittelwert aus 6 Messungen; grün) und einer Standardnormalverteilung (blau).

Abgesehen von der Verwendung der t-Verteilung (t <- -qt((1.0 - gamma) / 2.0, n - 1)) statt der Standardnormalverteilung (z <- -qnorm((1.0 - gamma) / 2.0)), verläuft die Berechnung identisch zu der obigen detaillierten Variante. Für unser Beispiel erhalten wir mit

x <- c(500.1, 500.5, 501.5, 502.7, 499.6,
501.2, 498.2, 501.9, 503.8, 497.8)
n <- length(x)
x_quer <- mean(x)
s <- sd(x)
gamma <- 0.95
t <- -qt((1.0 - gamma) / 2.0, n - 1)
mu_unten <- x_quer - t * s / sqrt(n)
mu_oben <- x_quer + t * s / sqrt(n)

als 95\,\% Konfidenzintervall für \mu (in mL): [499.4; 502.1]. Das ist in beide Richtungen um 0.1 mL größer als bei bekanntem \sigma. Der Grund für diese kleine Änderung ist, dass unser gemessenes s das \sigma etwas unterschätzt. Das t = 2.26 ist etwas größer als das z = 1.96 von oben.

Um noch einmal auf die Frage zurückzukommen, was denn eine kleine Stichprobe ist: Die folgende Tabelle zeigt, um welchen Faktor das t-Intervall breiter als das z-Intervall ist (bei sonst gleichen Bedingungen; die Breite hängt ja auch von der empirischen Standardabweichung s ab).

\displaystyle\begin{array}{ccc} &\gamma = 0.95 & \gamma = 0.99 \\ n & t/z & t/z \\ \hline 2 & 6.48 & 24.7\phantom{0} \\ 10 & 1.15 & \phantom{2}1.26 \\ 30 & 1.04 & \phantom{2}1.07 \\ 50 & 1.03 & \phantom{2}1.04 \\ 100 & 1.01 & \phantom{2}1.02 \end{array}

Üblicherweise hört man, dass Stichproben unter n = 30 klein sind. Ich persönlich würde den Wert eher auf n = 100 setzen.

Messgenauigkeit

Bisher haben wir angenommen, dass alle Zahlen exakt wären; es also keine Messunsicherheit gibt. Wenn wir Füllmengen auf sub-mL genau messen können, bekommen wir ein bestimmtes Konfidenzintervall. Wenn wir die Flascheninhalte in ein Gefäß mit einer 1L-Marke schütten, können wir bestenfalls sagen, dass jede Flasche etwa 0.5L Inhalt hatte, und bekommen wieder dasselbe Konfidenzintervall. Das ist offensichtlich absurd! Je ungenauer wir messen, desto breiter müsste unser Konfidenzintervall werden.

Wenn wir auf \pm\sigma_u genau messen können (\sigma_u ist also unsere Messungenauigkeit), dann können wir den Messfehler im Allgemeinen durch die Zufallsvariable

\Delta\mathcal{X} \sim \text{NV}\left(0,\sigma_u\right)

modellieren.

In unserem Beispiel beschreibt \sigma die Ungenauigkeit der Abfüllanlage, der Parameter \sigma_u beschreibt die Ungenauigkeit der Füllstandsmessung einer Flasche. Diese beiden Dinge sind ganz offensichtlich unabhängig voneinander. Wenn wir also den Füllstand einer Flasche messen, ziehen wir nicht nur aus der Verteilung \mathcal{X} \sim \text{NV}\left(\mu,\sigma\right), sondern aus der Verteilung

\mathcal{X} + \Delta\mathcal{X} \sim \text{NV}\left(\mu + 0,\sqrt{\sigma^2 + \sigma_u^2}\right) ,

weil die Summe zweier unabhängiger, normalverteilter Zufallsvariable wieder normalverteilt ist, allerdings mit einer größeren Breite (die unserer größeren Unsicherheit entspricht).

Für den Mittelwert aus n Proben gilt dann:

\overline{\mathcal{X} + \Delta\mathcal{X}} \sim \text{NV}\left(\mu,\frac{\sqrt{\sigma^2 + \sigma_u^2}}{\sqrt{n}}\right) .

Analog zu oben erhalten wir dann das \gamma-Konfidenzintervall für \mu

\displaystyle\left[\overline{x} - z \cdot \frac{\sqrt{\sigma^2 + \sigma_u^2}}{\sqrt{n}},\overline{x} + z \cdot \frac{\sqrt{\sigma^2 + \sigma_u^2}}{\sqrt{n}}\right] .

Der R-Code für unser Beispiel wird daher:

x <- c(500.1, 500.5, 501.5, 502.7, 499.6,
501.2, 498.2, 501.9, 503.8, 497.8)
n <- length(x)
x_quer <- mean(x)
sigma <- 2.0
sigma_u <- 0.05
sigma_ges <- sqrt(sigma^2 + sigma_u^2)
gamma <- 0.95
z <- -qnorm((1.0 - gamma) / 2.0)
mu_unten <- x_quer - z * sigma_ges / sqrt(n)
mu_oben <- x_quer + z * sigma_ges / sqrt(n)

Die folgende Tabelle zeigt, wie sich die z-Konfidenzintervalle für abnehmende Messgenauigkeit verändern (alle Werte in mL):

\begin{array}{cc} \sigma_u & 95\,\%\text{ Konfidenzintervall} \\ \hline 0 & [499.49; 501.97] \\ 0.05 & [499.49; 501.97] \\ 0.5 & [499.45; 502.01] \\ 1 & [499.34; 502.12] \\ 5 & [497.39; 504.07] \\ 10 & [494.41; 507.05] \end{array}

Wenn die Messunsicherheit \sigma_u kleiner ist als die (empirische) Streuung \sigma (bzw. s) unserer Messgröße, tut sich praktisch gar nichts. Sobald \sigma_u aber in derselben Größenordnung oder noch größer als \sigma ist, wird das Konfidenzintervall deutlich breiter.

Diskussion

Nach der Berechnung des Konfidenzintervalls kennen wir den Mittelwert unserer Messgröße X immer noch nicht. Aber wir können seinen Wertebereich sinnvoll eingrenzen. Allerdings überdeckt unser Konfidenzintervall den Wert von \mu nur mit einer gewissen Wahrscheinlichkeit. Es kann also durchaus sein, dass der Wert außerhalb unseres Intervalls liegt.

Nachdem wir oben doch einige Annahmen treffen mussten, die in der Praxis nicht wirklich überprüft werden können, ist die Konfidenzwahrscheinlichkeit \gamma für unser Intervall eher eine Obergrenze.

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit deinem WordPress.com-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s

Diese Seite verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden..