Improved indices
This commit is contained in:
@@ -5,7 +5,7 @@
|
||||
\lstset{inputpath=../code}
|
||||
\graphicspath{{figures/}}
|
||||
|
||||
\setcounter{page}{77}
|
||||
\setcounter{page}{81}
|
||||
\setcounter{chapter}{4}
|
||||
|
||||
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
|
||||
|
||||
@@ -2,7 +2,7 @@
|
||||
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
|
||||
\chapter{\tr{Bootstrap Methods}{Bootstrap Methoden}}
|
||||
|
||||
Beim Bootstrap erzeugt man sich die Verteilung von Statistiken durch Resampling
|
||||
Beim \determ{Bootstrap} erzeugt man sich die Verteilung von Statistiken durch Resampling
|
||||
aus der Stichprobe. Das hat mehrere Vorteile:
|
||||
\begin{itemize}
|
||||
\item Weniger Annahmen (z.B. muss eine Stichprobe nicht normalverteilt sein).
|
||||
@@ -21,21 +21,22 @@ aus der Stichprobe. Das hat mehrere Vorteile:
|
||||
\end{figure}
|
||||
|
||||
Zur Erinnerung: In der Statistik interessieren wir uns f\"ur
|
||||
Eigenschaften einer Grundgesamtheit. z.B. die mittlere L\"ange von
|
||||
sauren Gurken (\figref{statisticalpopulationfig}). Aus der
|
||||
Grundgesamtheit wird eine Stichprobe (simple random sample, SRS)
|
||||
gezogen, da niemals die gesamte Grundgesamtheit gemessen werden kann.
|
||||
Dann wird aus dieser einzigen Stichprobe die gew\"unschte Gr\"o{\ss}e
|
||||
berechnet (die mittlere Gr\"o{\ss}e der sauren Gurken) und man hofft,
|
||||
dass die erhaltene Zahl an der entsprechenden unbekannten Gr\"o{\ss}e
|
||||
der Grundgesamtheit (der Populationsparameter) m\"oglichst nah dran
|
||||
Eigenschaften einer \determ{Grundgesamtheit}. z.B. die mittlere
|
||||
L\"ange von sauren Gurken (\figref{statisticalpopulationfig}). Aus der
|
||||
Grundgesamtheit wird eine \determ{Stichprobe} (\enterm{simple random
|
||||
sample}, \enterm[SRS|see{simple random sample}]{SRS}) gezogen, da
|
||||
niemals die gesamte Grundgesamtheit gemessen werden kann. Dann wird
|
||||
aus dieser einzigen Stichprobe die gew\"unschte Gr\"o{\ss}e berechnet
|
||||
(die mittlere Gr\"o{\ss}e der sauren Gurken) und man hofft, dass die
|
||||
erhaltene Zahl an der entsprechenden unbekannten Gr\"o{\ss}e der
|
||||
Grundgesamtheit (der \determ{Populationsparameter}) m\"oglichst nah dran
|
||||
ist. Eine Aufgabe der Statistik ist es, herauszubekommen wie gut der
|
||||
Populationsparameter abgesch\"atzt worden ist.
|
||||
|
||||
Wenn wir viele Stichproben ziehen w\"urden, dann k\"onnte man f\"ur
|
||||
jede Stichprobe den gew\"unschten Parameter berechnen, und von diesen
|
||||
die Wahrscheinlichkeitsverteilung \"uber ein Histogramm bestimmen ---
|
||||
die ``Stichprobenverteilung'' (sampling distribution,
|
||||
die \determ{Stichprobenverteilung} (\enterm{sampling distribution},
|
||||
\subfigref{bootstrapsamplingdistributionfig}{a}).
|
||||
|
||||
\begin{figure}[tp]
|
||||
@@ -68,9 +69,9 @@ Mittelwerte der Stichproben um den Populationsmittelwert streuen
|
||||
\subfigref{bootstrapsamplingdistributionfig}{b}).
|
||||
|
||||
Wir k\"onnen aber auch aus der einen Stichprobe die wir haben durch
|
||||
Resampling viele neue Stichproben generieren (Bootstrap). Von diesen
|
||||
\determ{Resampling} viele neue Stichproben generieren (Bootstrap). Von diesen
|
||||
k\"onnen wir jeweils die gew\"unschte Gr\"o{\ss}e berechnen und ihre
|
||||
Verteilung bestimmen (Bootstrap Verteilung,
|
||||
Verteilung bestimmen (\determ{Bootstrapverteilung},
|
||||
\subfigref{bootstrapsamplingdistributionfig}{c}). Diese Verteilung ist
|
||||
interessanterweise in ihrer Breite und Form der Stichprobenverteilung
|
||||
sehr \"ahnlich. Nur streut sie nicht um den Populationswert sonder um
|
||||
@@ -92,7 +93,7 @@ Stichprobe vorkommen.
|
||||
|
||||
Am besten l\"asst sich die Bootstrap Methode am Beispiel des
|
||||
Standardfehlers des Mittelwertes veranschaulichen. Aus der Stichprobe
|
||||
k\"onnen wir den Mittelwert berechnen. Der Standardfehler des
|
||||
k\"onnen wir den Mittelwert berechnen. Der \determ{Standardfehler} des
|
||||
Mittelwerts gibt die Standardabweichung an, mit der wir erwarten, dass
|
||||
der gemessene Mittelwert um den Populationsmittelwert streut.
|
||||
|
||||
@@ -147,7 +148,7 @@ Nullhypothese aus den Daten selbst gewonnen werden. Dabei m\"ussen die
|
||||
Daten entsprechend der Nullhypothese neu aus der Stichprobe gezogen
|
||||
werden.
|
||||
|
||||
Diese ``Permutationstests'' haben den Vorteil, dass nur die
|
||||
Diese \determ{Permutationstests} haben den Vorteil, dass nur die
|
||||
Eigenschaft von Interesse zerst\"ort wird, um die Nullhypothese zu
|
||||
generieren. Alle anderen Eigenschaften der Daten bleiben erhalten.
|
||||
|
||||
@@ -166,16 +167,18 @@ generieren. Alle anderen Eigenschaften der Daten bleiben erhalten.
|
||||
|
||||
Sehr sch\"on lassen sich Permutationstest am Beispiel von
|
||||
Korrelationen veranschaulichen. Gegeben sind Datenpaare $(x_i, y_i)$.
|
||||
Daraus k\"onnen wir den Korrelationskoeffizienten berechnen. Wir
|
||||
wissen dann aber noch nicht, ob der berechnete Wert tats\"achlich eine
|
||||
Korrelation anzeigt. Die Nullhypothese ist, dass die Daten nicht
|
||||
miteinander korreliert sind. Indem wir die $x$-Werte und die $y$-Werte
|
||||
unabh\"angig voneinander permutieren (ihre Reihenfolge zuf\"allig neu
|
||||
anordnen), werden die Korrelationen der Datenpaare zerst\"ort. Wenn
|
||||
wir das viele Male wiederholen, bekommen wir die Verteilung der
|
||||
Korrelationskoeffizienten f\"ur nichtkorrelierte Daten. Aus dieser
|
||||
Verteilung der Nullhypothese k\"onnen wir dann dann die Signifikanz
|
||||
der tats\"achlich gemessenen Korrelation bestimmen.
|
||||
Daraus k\"onnen wir den
|
||||
\determ[Korrelationskoeffizient]{Korrelationskoeffizienten}
|
||||
berechnen. Wir wissen dann aber noch nicht, ob der berechnete Wert
|
||||
tats\"achlich eine Korrelation anzeigt. Die Nullhypothese ist, dass
|
||||
die Daten nicht miteinander korreliert sind. Indem wir die $x$-Werte
|
||||
und die $y$-Werte unabh\"angig voneinander permutieren (ihre
|
||||
Reihenfolge zuf\"allig neu anordnen), werden die Korrelationen der
|
||||
Datenpaare zerst\"ort. Wenn wir das viele Male wiederholen, bekommen
|
||||
wir die Verteilung der Korrelationskoeffizienten f\"ur
|
||||
nichtkorrelierte Daten. Aus dieser Verteilung der Nullhypothese
|
||||
k\"onnen wir dann dann die Signifikanz der tats\"achlich gemessenen
|
||||
Korrelation bestimmen.
|
||||
|
||||
\begin{exercise}{correlationsignificance.m}{correlationsignificance.out}
|
||||
Bestimme die Signifikanz eines Korrelationskoeffizienten.
|
||||
|
||||
Reference in New Issue
Block a user