Improved indices

This commit is contained in:
2015-11-23 11:00:19 +01:00
parent 993ab5d8e7
commit 3225b28be4
12 changed files with 203 additions and 176 deletions

View File

@@ -5,7 +5,7 @@
\lstset{inputpath=../code}
\graphicspath{{figures/}}
\setcounter{page}{77}
\setcounter{page}{81}
\setcounter{chapter}{4}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

View File

@@ -2,7 +2,7 @@
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\chapter{\tr{Bootstrap Methods}{Bootstrap Methoden}}
Beim Bootstrap erzeugt man sich die Verteilung von Statistiken durch Resampling
Beim \determ{Bootstrap} erzeugt man sich die Verteilung von Statistiken durch Resampling
aus der Stichprobe. Das hat mehrere Vorteile:
\begin{itemize}
\item Weniger Annahmen (z.B. muss eine Stichprobe nicht normalverteilt sein).
@@ -21,21 +21,22 @@ aus der Stichprobe. Das hat mehrere Vorteile:
\end{figure}
Zur Erinnerung: In der Statistik interessieren wir uns f\"ur
Eigenschaften einer Grundgesamtheit. z.B. die mittlere L\"ange von
sauren Gurken (\figref{statisticalpopulationfig}). Aus der
Grundgesamtheit wird eine Stichprobe (simple random sample, SRS)
gezogen, da niemals die gesamte Grundgesamtheit gemessen werden kann.
Dann wird aus dieser einzigen Stichprobe die gew\"unschte Gr\"o{\ss}e
berechnet (die mittlere Gr\"o{\ss}e der sauren Gurken) und man hofft,
dass die erhaltene Zahl an der entsprechenden unbekannten Gr\"o{\ss}e
der Grundgesamtheit (der Populationsparameter) m\"oglichst nah dran
Eigenschaften einer \determ{Grundgesamtheit}. z.B. die mittlere
L\"ange von sauren Gurken (\figref{statisticalpopulationfig}). Aus der
Grundgesamtheit wird eine \determ{Stichprobe} (\enterm{simple random
sample}, \enterm[SRS|see{simple random sample}]{SRS}) gezogen, da
niemals die gesamte Grundgesamtheit gemessen werden kann. Dann wird
aus dieser einzigen Stichprobe die gew\"unschte Gr\"o{\ss}e berechnet
(die mittlere Gr\"o{\ss}e der sauren Gurken) und man hofft, dass die
erhaltene Zahl an der entsprechenden unbekannten Gr\"o{\ss}e der
Grundgesamtheit (der \determ{Populationsparameter}) m\"oglichst nah dran
ist. Eine Aufgabe der Statistik ist es, herauszubekommen wie gut der
Populationsparameter abgesch\"atzt worden ist.
Wenn wir viele Stichproben ziehen w\"urden, dann k\"onnte man f\"ur
jede Stichprobe den gew\"unschten Parameter berechnen, und von diesen
die Wahrscheinlichkeitsverteilung \"uber ein Histogramm bestimmen ---
die ``Stichprobenverteilung'' (sampling distribution,
die \determ{Stichprobenverteilung} (\enterm{sampling distribution},
\subfigref{bootstrapsamplingdistributionfig}{a}).
\begin{figure}[tp]
@@ -68,9 +69,9 @@ Mittelwerte der Stichproben um den Populationsmittelwert streuen
\subfigref{bootstrapsamplingdistributionfig}{b}).
Wir k\"onnen aber auch aus der einen Stichprobe die wir haben durch
Resampling viele neue Stichproben generieren (Bootstrap). Von diesen
\determ{Resampling} viele neue Stichproben generieren (Bootstrap). Von diesen
k\"onnen wir jeweils die gew\"unschte Gr\"o{\ss}e berechnen und ihre
Verteilung bestimmen (Bootstrap Verteilung,
Verteilung bestimmen (\determ{Bootstrapverteilung},
\subfigref{bootstrapsamplingdistributionfig}{c}). Diese Verteilung ist
interessanterweise in ihrer Breite und Form der Stichprobenverteilung
sehr \"ahnlich. Nur streut sie nicht um den Populationswert sonder um
@@ -92,7 +93,7 @@ Stichprobe vorkommen.
Am besten l\"asst sich die Bootstrap Methode am Beispiel des
Standardfehlers des Mittelwertes veranschaulichen. Aus der Stichprobe
k\"onnen wir den Mittelwert berechnen. Der Standardfehler des
k\"onnen wir den Mittelwert berechnen. Der \determ{Standardfehler} des
Mittelwerts gibt die Standardabweichung an, mit der wir erwarten, dass
der gemessene Mittelwert um den Populationsmittelwert streut.
@@ -147,7 +148,7 @@ Nullhypothese aus den Daten selbst gewonnen werden. Dabei m\"ussen die
Daten entsprechend der Nullhypothese neu aus der Stichprobe gezogen
werden.
Diese ``Permutationstests'' haben den Vorteil, dass nur die
Diese \determ{Permutationstests} haben den Vorteil, dass nur die
Eigenschaft von Interesse zerst\"ort wird, um die Nullhypothese zu
generieren. Alle anderen Eigenschaften der Daten bleiben erhalten.
@@ -166,16 +167,18 @@ generieren. Alle anderen Eigenschaften der Daten bleiben erhalten.
Sehr sch\"on lassen sich Permutationstest am Beispiel von
Korrelationen veranschaulichen. Gegeben sind Datenpaare $(x_i, y_i)$.
Daraus k\"onnen wir den Korrelationskoeffizienten berechnen. Wir
wissen dann aber noch nicht, ob der berechnete Wert tats\"achlich eine
Korrelation anzeigt. Die Nullhypothese ist, dass die Daten nicht
miteinander korreliert sind. Indem wir die $x$-Werte und die $y$-Werte
unabh\"angig voneinander permutieren (ihre Reihenfolge zuf\"allig neu
anordnen), werden die Korrelationen der Datenpaare zerst\"ort. Wenn
wir das viele Male wiederholen, bekommen wir die Verteilung der
Korrelationskoeffizienten f\"ur nichtkorrelierte Daten. Aus dieser
Verteilung der Nullhypothese k\"onnen wir dann dann die Signifikanz
der tats\"achlich gemessenen Korrelation bestimmen.
Daraus k\"onnen wir den
\determ[Korrelationskoeffizient]{Korrelationskoeffizienten}
berechnen. Wir wissen dann aber noch nicht, ob der berechnete Wert
tats\"achlich eine Korrelation anzeigt. Die Nullhypothese ist, dass
die Daten nicht miteinander korreliert sind. Indem wir die $x$-Werte
und die $y$-Werte unabh\"angig voneinander permutieren (ihre
Reihenfolge zuf\"allig neu anordnen), werden die Korrelationen der
Datenpaare zerst\"ort. Wenn wir das viele Male wiederholen, bekommen
wir die Verteilung der Korrelationskoeffizienten f\"ur
nichtkorrelierte Daten. Aus dieser Verteilung der Nullhypothese
k\"onnen wir dann dann die Signifikanz der tats\"achlich gemessenen
Korrelation bestimmen.
\begin{exercise}{correlationsignificance.m}{correlationsignificance.out}
Bestimme die Signifikanz eines Korrelationskoeffizienten.