[bootstrap] translation to english

This commit is contained in:
Jan Grewe 2019-10-11 21:18:40 +02:00
parent 23a391c2ae
commit 39ed3c716a
2 changed files with 351 additions and 153 deletions

View File

@ -3,200 +3,195 @@
\chapter{\tr{Bootstrap methods}{Bootstrap Methoden}} \chapter{\tr{Bootstrap methods}{Bootstrap Methoden}}
\label{bootstrapchapter} \label{bootstrapchapter}
\selectlanguage{ngerman} \selectlanguage{english}
Beim \determ{Bootstrap} erzeugt man sich die Verteilung von Statistiken durch Resampling Bootstrapping methods are applied to create distributions of
aus der Stichprobe. Das hat mehrere Vorteile: statistical measures via resampling of a sample. Bootstrapping offers several
advantages:
\begin{itemize} \begin{itemize}
\item Weniger Annahmen (z.B. muss eine Stichprobe nicht normalverteilt sein). \item Fewer assumptions (e.g. a measured sample does not need to be
\item H\"ohere Genauigkeit als klassische Methoden. normally distributed).
\item Allgemeing\"ultigkeit: Bootstrap Methoden sind sich sehr \item Increased precision as compared to classical methods. %such as?
\"ahnlich f\"ur viele verschiedene Statistiken und ben\"otigen nicht \item General applicability: The bootstrapping methods are very
f\"ur jede Statistik eine andere Formel. similar for different statistics and there is no need to specialize
the method depending on the investigated statistic measure.
\end{itemize} \end{itemize}
\begin{figure}[tp] \begin{figure}[tp]
\includegraphics[width=0.8\textwidth]{2012-10-29_16-26-05_771}\\[2ex] \includegraphics[width=0.8\textwidth]{2012-10-29_16-26-05_771}\\[2ex]
\includegraphics[width=0.8\textwidth]{2012-10-29_16-41-39_523}\\[2ex] \includegraphics[width=0.8\textwidth]{2012-10-29_16-41-39_523}\\[2ex]
\includegraphics[width=0.8\textwidth]{2012-10-29_16-29-35_312} \includegraphics[width=0.8\textwidth]{2012-10-29_16-29-35_312}
\titlecaption{\label{statisticalpopulationfig} Warum k\"onnen wir \titlecaption{\label{statisticalpopulationfig} Why can't we measure
nur eine Stichprobe der Grundgesamtheit messen?}{} the statistical population but only draw samples?}{}
\end{figure} \end{figure}
Zur Erinnerung: In der Statistik interessieren wir uns f\"ur Reminder: in statistics we are interested in properties of the
Eigenschaften einer \determ{Grundgesamtheit}. z.B. die mittlere ``statistical population'' (in German: \determ{Grundgesamtheit}), e.g. the
L\"ange von sauren Gurken (\figref{statisticalpopulationfig}). Aus der average length of all pickles (\figref{statisticalpopulationfig}). But
Grundgesamtheit wird eine \determ{Stichprobe} (\enterm{simple random we cannot measure the lengths of all pickles in the statistical
sample}, \enterm[SRS|see{simple random sample}]{SRS}) gezogen, da population. Rather, we draw samples (simple random sample
niemals die gesamte Grundgesamtheit gemessen werden kann. Dann wird \enterm[SRS|see{simple random sample}]{SRS}, in German:
aus dieser einzigen Stichprobe die gew\"unschte Gr\"o{\ss}e berechnet \determ{Stichprobe}). We then estimate a statistical measures
(die mittlere Gr\"o{\ss}e der sauren Gurken) und man hofft, dass die (e.g. the average length of the pickles) within in this sample and
erhaltene Zahl an der entsprechenden unbekannten Gr\"o{\ss}e der hope that it is a good approximation of the unknown and immeasurable
Grundgesamtheit (der \determ{Populationsparameter}) m\"oglichst nah dran real average length of the statistical population (in German aka
ist. Eine Aufgabe der Statistik ist es, herauszubekommen wie gut der \determ{Populationsparameter}). We apply statistical methods to find
Populationsparameter abgesch\"atzt worden ist. out how good this approximation is.
Wenn wir viele Stichproben ziehen w\"urden, dann k\"onnte man f\"ur If we could draw a large number of \textit{simple random samples} we could
jede Stichprobe den gew\"unschten Parameter berechnen, und von diesen estimate the statistical measure of interest for each sample and
die Wahrscheinlichkeitsverteilung \"uber ein Histogramm bestimmen --- estimate the probability distribution using a histogram. This
die \determ{Stichprobenverteilung} (\enterm{sampling distribution}, distribution is called the \enterm{sampling distribution} (German:
\determ{Stichprobenverteilung},
\subfigref{bootstrapsamplingdistributionfig}{a}). \subfigref{bootstrapsamplingdistributionfig}{a}).
\begin{figure}[tp] \begin{figure}[tp]
\includegraphics[height=0.2\textheight]{srs1}\\[2ex] \includegraphics[height=0.2\textheight]{srs1}\\[2ex]
\includegraphics[height=0.2\textheight]{srs2}\\[2ex] \includegraphics[height=0.2\textheight]{srs2}\\[2ex]
\includegraphics[height=0.2\textheight]{srs3} \includegraphics[height=0.2\textheight]{srs3}
\titlecaption{\label{bootstrapsamplingdistributionfig}Bootstrap der \titlecaption{\label{bootstrapsamplingdistributionfig}Bootstrapping
Stichprobenverteilung.}{(a) Von der Grundgesamtheit (population) mit the sampling distribution.}{(a) Simple random samples (SRS) are
unbekanntem Parameter (z.B. Mittelwert $\mu$) zieht man drawn from a statistical population with an unknown population
Stichproben (SRS: simple random samples). Die Statistik (hier parameter (e.g. the average $\mu$). The statistical measure (the
Bestimmung von $\bar x$) kann f\"ur jede Stichprobe berechnet estimation of $\bar x$) is calculated for each sample. The
werden. Die erhaltenen Werte entstammen der measured values originate from the sampling distribution. Often
Stichprobenverteilung. Meisten wird aber nur eine Stichprobe only a single random sample is drawn! (b) By applying assumption
gezogen! (b) Mit bestimmten Annahmen und Theorien kann man auf and theories one can guess the sampling distribution without
die Stichprobenverteilung schlie{\ss}en ohne sie gemessen zu actually measuring it. (c) Alternatively, one can generate many
haben. (c) Alternativ k\"onnen aus der einen Stichprobe viele bootstrap-samples from the same SRS (resampling) and use these to
Bootstrap-Stichproben generiert werden (resampling) und so estimate the sampling distribution empirically. From Hesterberg et
Eigenschaften der Stichprobenverteilung empirisch bestimmt al. 2003, Bootstrap Methods and Permutation Tests}
werden. Aus Hesterberg et al. 2003, Bootstrap Methods and
Permuation Tests}
\end{figure} \end{figure}
In Wirklichkeit haben wir aber nur eine Stichprobe. Wir behelfen uns Commonly, there will be only a single SRS. In such cases we make use
dann mit Theorien, die meistens bestimmte Annahmen \"uber die Daten of certain assumptions (e.g. we assume a normal distribution) that
machen (z.B. Normalverteilung), und uns erlauben etwas \"uber die allow us to infer the precision of our estimation based on the
Genaugigkeit unserer Sch\"atzung aus der Stichprobe auszusagen SRS. For example the formula $\sigma/\sqrt{n}$ gives the standard
(z.B. die Formel $\sigma/\sqrt{n}$ f\"ur den Standardfehler des error of the mean which is the standard deviation of the distribution
Mittelwerts, die uns die Standardabweichung angibt, mit dem die of average values around the mean of the statistical population
Mittelwerte der Stichproben um den Populationsmittelwert streuen estimated in many SRS
\subfigref{bootstrapsamplingdistributionfig}{b}). (\subfigref{bootstrapsamplingdistributionfig}{b}).
%explicitely state that this is based on the assumption of a normal distribution?
Wir k\"onnen aber auch aus der einen Stichprobe die wir haben durch
\determ{Resampling} viele neue Stichproben generieren (Bootstrap). Von diesen Alternatively, we can use ``bootstrapping'' to generate new samples
k\"onnen wir jeweils die gew\"unschte Gr\"o{\ss}e berechnen und ihre from the one set of measurements (resampling). From these bootstrapped
Verteilung bestimmen (\determ{Bootstrapverteilung}, samples we calculate the desired statistical measure and estimate
\subfigref{bootstrapsamplingdistributionfig}{c}). Diese Verteilung ist their distribution (\enterm{bootstrap distribution},
interessanterweise in ihrer Breite und Form der Stichprobenverteilung \subfigref{bootstrapsamplingdistributionfig}{c}). Interestingly, this
sehr \"ahnlich. Nur streut sie nicht um den Populationswert sonder um distribution is very similar to the sampling distribution regarding
die Sch\"atzung aus der Stichprobe. Wir k\"onnen die its width. The only difference is that the bootstrapped values are
Bootstrapverteilung aber benutzen um Aussagen \"uber die Genauigkeit distributed around the measure of the original sample and not the one
unserer Sch\"atzung zu treffen (z.B. Standardfehler, of the statistical population. We can use the bootstrap distribution
Konfidenzintervalle). to draw conclusion regarding the precision of our estimation (e.g.
standard errors and confidence intervals).
Beim Bootstrap erzeugen wir durch Resampling neue Stichproben und
benutzen diese, um die Stichprobenverteilung einer Statistik zu Bootstrapping method create new SRS by resampling to estimate the
berechnen. Die Bootstrap Stichproben haben jeweils den gleichen Umfang sampling distribution of a statistical measure. The bootstrapped
wie die urspr\"unglich gemessene Stichprobe und werden durch Ziehen samples have the same size as the original sample and are created by
mit Zur\"ucklegen gewonnen. Jeder Wert der urspr\"unglichen Stichprobe sampling with replacement, that is, each value of the original sample
kann also einmal, mehrmals oder gar nicht in einer Bootstrap can occur once, multiple time, or not at all in a bootstrapped sample.
Stichprobe vorkommen.
\section{Bootstrap of the standard error}
\section{Bootstrap des Standardfehlers}
Bootstrapping can be nicely illustrated at the example the standard
Am besten l\"asst sich die Bootstrap Methode am Beispiel des error of the mean. The arithmetic mean is calculated for a simple
Standardfehlers des Mittelwertes veranschaulichen. Aus der Stichprobe random sample. The standard error of the mean is the standard
k\"onnen wir den Mittelwert berechnen. Der \determ{Standardfehler} des deviation of the expected distribution of mean values around the mean
Mittelwerts gibt die Standardabweichung an, mit der wir erwarten, dass of the statistical population.
der gemessene Mittelwert um den Populationsmittelwert streut.
\begin{figure}[tp] \begin{figure}[tp]
\includegraphics[width=1\textwidth]{bootstrapsem} \includegraphics[width=1\textwidth]{bootstrapsem}
\titlecaption{\label{bootstrapsemfig}Bootstrap des Standardfehlers des \titlecaption{\label{bootstrapsemfig}Bootstrapping the standard
Mittelwertes.}{Die --- normalerweise unbekannte --- error of the mean.}{The --- usually unknown --- sampling
Stichprobenverteilung des Mittelwerts (rot) ist um den distribution of the mean is distributed around the true mean of
Populationsmittelwert bei $\mu=0$ zentriert. Die the statistical population ($\mu=0$, red). The bootstrap
Bootstrap-Verteilung (blau), die durch Resampling aus einer distribution of the means calculated for many bootstrapped samples
Stichprobe gewonnen worden ist, hat die gleiche Form und Breite has the same shape as the sampling distribution but is centered
wie die Stichprobenverteilung, ist aber um den Mittelwert der around the mean of the SRS used for resampling. The standard
Stichprobe zentriert. Die Standardabweichung der deviation of the bootstrap distribution (blue) is thus an estimator for
Bootstrapverteilung kann also als Sch\"atzer f\"ur den the standard error of the mean.}
Standardfehler des Mittelwertes verwendet werden.}
\end{figure} \end{figure}
Durch Bootstrap k\"onnen wir unsere Stichprobe resamplen und dadurch Via bootstrapping we create a distribution of the mean values
eine ganze Verteilung von Mittelwerten generieren (\figref{bootstrapsemfig}) and the standard deviation of this
(\figref{bootstrapsemfig}). Die Standardabweichung dieser Verteilung distribution is the standard error of the mean.
ist dann der gesuchte Standardfehler des Mittelwerts.
\pagebreak[4] \pagebreak[4]
\begin{exercise}{bootstrapsem.m}{bootstrapsem.out} \begin{exercise}{bootstrapsem.m}{bootstrapsem.out}
Erzeuge die Verteilung der Mittelwerte einer Stichprobe durch Bottstrapping, Create the distribution of mean values from bootstrapped samples
um daraus den Standardfehler des Mittelwerts zu bestimmen. resampled form a single SRS. Use this distribution to estimate the
standard error of the mean.
\begin{enumerate} \begin{enumerate}
\item Ziehe 1000 normalverteilte Zufallszahlen und berechne deren \item Draw 1000 normally distributed random number and calculate the
Mittelwert, Standardabweichung und Standardfehler mean, the standard deviation and the standard error
($\sigma/\sqrt{n}$). ($\sigma/\sqrt{n}$).
\item Resample die Daten 1000 mal (Ziehen mit Zur\"ucklegen) und \item Resample the data 1000 times (draw and replace) and calculate
berechne jeweils den Mittelwert. the mean of each bootstrapped sample.
\item Plotte ein Histogramm dieser Mittelwerte, berechne deren \item Plot a histogram of the respective distribution and calculate its mean and
Mittelwert und Standardabweichung und vergleiche mit den Werten standard deviation. Compare with the
der Grundgesamtheit und der Stichprobe. original values based on the statistical population.
\end{enumerate} \end{enumerate}
\end{exercise} \end{exercise}
\section{Permutationstests} \section{Permutationtests}
Bei statistischen Tests wird nach der Wahrscheinlichkeit, ob die Statistical tests ask for the probability that a measured value
beobachtete Me{\ss}gr\"o{\ss}e einer Stichprobe aus der Nullhypothese originates from the null hypothesis. Is this probability smaller than
kommt, gefragt. Ist diese Wahrscheinlichkeit kleiner als das the desired significance level, the null hypothesis may be rejected.
Signifikanzniveau, kann die Nullhypothese verworfen werden.
Traditionell werden diese Wahrscheinlichkeiten \"uber theoretisch
hergeleitete Wahrscheinlichkeitsverteilungen berechnet. Dabei gehen
immer gewisse Annahmen \"uber die Daten ein und es mu{\ss} der zu den
Daten passende Test ausgew\"ahlt werden.
Alternativ kann die Wahrscheinlichkeits(dichte)verteilung der Traditionally, such probabilities are taken from theoretical
Nullhypothese aus den Daten selbst gewonnen werden. Dabei m\"ussen die distributions which are based on assumptions about the data. Thus the
Daten entsprechend der Nullhypothese neu aus der Stichprobe gezogen applied statistical test has to be appropriate for the type of
werden. data. An alternative approach is to calculate the probability density
of the null hypothesis directly from the data itself. To do this, we
Diese \determ{Permutationstests} haben den Vorteil, dass nur die need to resample the data according to the null hypothesis from the
Eigenschaft von Interesse zerst\"ort wird, um die Nullhypothese zu SRS. By such permutation operations we destroy the feature of interest
generieren. Alle anderen Eigenschaften der Daten bleiben erhalten. while we conserve all other features of the data.
\begin{figure}[tp] \begin{figure}[tp]
\includegraphics[width=1\textwidth]{permutecorrelation} \includegraphics[width=1\textwidth]{permutecorrelation}
\titlecaption{\label{permutecorrelationfig}Permutationstest f\"ur \titlecaption{\label{permutecorrelationfig}Permutation test for
Korrelationen.}{Der Korrelationskoeffizient eines Datensatzes mit correlations.}{Let the correlation coefficient of a dataset with
200 Datenpaaren ist $\rho=0.21$. Die Nullhypothesenverteilung der 200 samples be $\rho=0.21$. The distribution of the null
aus den permutierten, unkorrelierten Datens\"atzen berechneten hypothesis, yielded from the correlation coefficients of
Korrelationskoeffizienten ergibt die gelbe Verteilung, die um Null permuted and uncorrelated datasets is centered around zero
streut. Der gemessene Korrelationskoeffizient ist deutlich (yellow). The measured correlation coefficient is larger than the
gr\"o{\ss}er als das 95\,\%-Perzentil der 95\,\% percentile of the null hypothesis. The null hypothesis may
Nullhypoothesenverteilung und darum eine signifikante thus be rejected and the measured correlation is statistically
Korrelation.} significant.}
\end{figure} \end{figure}
Sehr sch\"on lassen sich Permutationstest am Beispiel von A good example for the application of a permutaion test is the
Korrelationen veranschaulichen. Gegeben sind Datenpaare $(x_i, y_i)$. statistical assessment of correlations. Given are measured pairs of
Daraus k\"onnen wir den data points $(x_i, y_i)$. By calculating the correlation coefficient
\determ[Korrelationskoeffizient]{Korrelationskoeffizienten} we can quantify how strongly $y$ depends on $x$. The correlation
berechnen. Wir wissen dann aber noch nicht, ob der berechnete Wert coefficient alone, however, does not tell whether it is statistically
tats\"achlich eine Korrelation anzeigt. Die Nullhypothese ist, dass significantly different from a random correlation. The null hypothesis
die Daten nicht miteinander korreliert sind. Indem wir die $x$-Werte for such a situation would be that $y$ does not depend on $x$. In
und die $y$-Werte unabh\"angig voneinander permutieren (ihre order to perform a permutation test, we now destroy the correlation by
Reihenfolge zuf\"allig neu anordnen), werden die Korrelationen der permuting the $(x_i, y_i)$ pairs, i.e. we rearrange the $x_i$ and
Datenpaare zerst\"ort. Wenn wir das viele Male wiederholen, bekommen $y_i$ values in a random fashion. By creating many sets of random
wir die Verteilung der Korrelationskoeffizienten f\"ur pairs and calculating the resulting correlation coefficients, we yield
nichtkorrelierte Daten. Aus dieser Verteilung der Nullhypothese a distribution of correlation coefficients that are a result of
k\"onnen wir dann dann die Signifikanz der tats\"achlich gemessenen randomness. From this distribution we can directly measure the
Korrelation bestimmen. statistical significance (figure\,\ref{permutecorrelationfig}).
\begin{exercise}{correlationsignificance.m}{correlationsignificance.out} \begin{exercise}{correlationsignificance.m}{correlationsignificance.out}
Bestimme die Signifikanz eines Korrelationskoeffizienten. Estimate the statistical significance of a correlation coefficient.
\begin{enumerate} \begin{enumerate}
\item Erzeuge korrelierte Daten indem zu zuf\"allig gezogenen \item Create pairs of $(x_i, y_i)$ values. Randomly choose $x$-values
$x$-Werten $y$-Werte gem\"a{\ss} $y=0.2 \cdot x$ berechnet werden, and calculate the respective $y$-values according to $y=0.2 \cdot x$
zu denen weitere normalverteilte Zufallszahlen addiert werden. to which you add a random value drawn from a normal distribution.
\item Berechne den Korrelationskoeffizient dieser Datenpaare. \item Calculate the correlation coefficient.
\item Generiere die Verteilung der Nullhypothese ``unkorrelierte \item Generate the distribution according to the null hypothesis by
Daten'' indem die $x$- und $y$-Daten 1000-mal unabh\"angig generating uncorrelated pairs. For this permute $x$- and $y$-values
permutiert werden \matlabfun{randperm()} und jeweils der (\matlabfun{randperm()}) 1000 times and calculate for each
Korrelationskoeffizient berechnet wird. permutation the correlation coefficient.
\item Bestimme aus den Nullhypothesendaten das 95\,\%-Perzentil und \item From the resulting null hypothesis distribution the 95\,\%
vergleiche es mit dem tats\"achlichen Korrelationskoeffizienten. percentile and compare it with the correlation coefficient
calculated for the original data.
\end{enumerate} \end{enumerate}
\end{exercise} \end{exercise}

View File

@ -0,0 +1,203 @@
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\chapter{\tr{Bootstrap methods}{Bootstrap Methoden}}
\label{bootstrapchapter}
\selectlanguage{ngerman}
Beim \determ{Bootstrap} erzeugt man sich die Verteilung von Statistiken durch Resampling
aus der Stichprobe. Das hat mehrere Vorteile:
\begin{itemize}
\item Weniger Annahmen (z.B. muss eine Stichprobe nicht normalverteilt sein).
\item H\"ohere Genauigkeit als klassische Methoden.
\item Allgemeing\"ultigkeit: Bootstrap Methoden sind sich sehr
\"ahnlich f\"ur viele verschiedene Statistiken und ben\"otigen nicht
f\"ur jede Statistik eine andere Formel.
\end{itemize}
\begin{figure}[tp]
\includegraphics[width=0.8\textwidth]{2012-10-29_16-26-05_771}\\[2ex]
\includegraphics[width=0.8\textwidth]{2012-10-29_16-41-39_523}\\[2ex]
\includegraphics[width=0.8\textwidth]{2012-10-29_16-29-35_312}
\titlecaption{\label{statisticalpopulationfig} Warum k\"onnen wir
nur eine Stichprobe der Grundgesamtheit messen?}{}
\end{figure}
Zur Erinnerung: In der Statistik interessieren wir uns f\"ur
Eigenschaften einer \determ{Grundgesamtheit}. z.B. die mittlere
L\"ange von sauren Gurken (\figref{statisticalpopulationfig}). Aus der
Grundgesamtheit wird eine \determ{Stichprobe} (\enterm{simple random
sample}, \enterm[SRS|see{simple random sample}]{SRS}) gezogen, da
niemals die gesamte Grundgesamtheit gemessen werden kann. Dann wird
aus dieser einzigen Stichprobe die gew\"unschte Gr\"o{\ss}e berechnet
(die mittlere Gr\"o{\ss}e der sauren Gurken) und man hofft, dass die
erhaltene Zahl an der entsprechenden unbekannten Gr\"o{\ss}e der
Grundgesamtheit (der \determ{Populationsparameter}) m\"oglichst nah dran
ist. Eine Aufgabe der Statistik ist es, herauszubekommen wie gut der
Populationsparameter abgesch\"atzt worden ist.
Wenn wir viele Stichproben ziehen w\"urden, dann k\"onnte man f\"ur
jede Stichprobe den gew\"unschten Parameter berechnen, und von diesen
die Wahrscheinlichkeitsverteilung \"uber ein Histogramm bestimmen ---
die \determ{Stichprobenverteilung} (\enterm{sampling distribution},
\subfigref{bootstrapsamplingdistributionfig}{a}).
\begin{figure}[tp]
\includegraphics[height=0.2\textheight]{srs1}\\[2ex]
\includegraphics[height=0.2\textheight]{srs2}\\[2ex]
\includegraphics[height=0.2\textheight]{srs3}
\titlecaption{\label{bootstrapsamplingdistributionfig}Bootstrap der
Stichprobenverteilung.}{(a) Von der Grundgesamtheit (population) mit
unbekanntem Parameter (z.B. Mittelwert $\mu$) zieht man
Stichproben (SRS: simple random samples). Die Statistik (hier
Bestimmung von $\bar x$) kann f\"ur jede Stichprobe berechnet
werden. Die erhaltenen Werte entstammen der
Stichprobenverteilung. Meisten wird aber nur eine Stichprobe
gezogen! (b) Mit bestimmten Annahmen und Theorien kann man auf
die Stichprobenverteilung schlie{\ss}en ohne sie gemessen zu
haben. (c) Alternativ k\"onnen aus der einen Stichprobe viele
Bootstrap-Stichproben generiert werden (resampling) und so
Eigenschaften der Stichprobenverteilung empirisch bestimmt
werden. Aus Hesterberg et al. 2003, Bootstrap Methods and
Permuation Tests}
\end{figure}
In Wirklichkeit haben wir aber nur eine Stichprobe. Wir behelfen uns
dann mit Theorien, die meistens bestimmte Annahmen \"uber die Daten
machen (z.B. Normalverteilung), und uns erlauben etwas \"uber die
Genaugigkeit unserer Sch\"atzung aus der Stichprobe auszusagen
(z.B. die Formel $\sigma/\sqrt{n}$ f\"ur den Standardfehler des
Mittelwerts, die uns die Standardabweichung angibt, mit dem die
Mittelwerte der Stichproben um den Populationsmittelwert streuen
\subfigref{bootstrapsamplingdistributionfig}{b}).
Wir k\"onnen aber auch aus der einen Stichprobe die wir haben durch
\determ{Resampling} viele neue Stichproben generieren (Bootstrap). Von diesen
k\"onnen wir jeweils die gew\"unschte Gr\"o{\ss}e berechnen und ihre
Verteilung bestimmen (\determ{Bootstrapverteilung},
\subfigref{bootstrapsamplingdistributionfig}{c}). Diese Verteilung ist
interessanterweise in ihrer Breite und Form der Stichprobenverteilung
sehr \"ahnlich. Nur streut sie nicht um den Populationswert sonder um
die Sch\"atzung aus der Stichprobe. Wir k\"onnen die
Bootstrapverteilung aber benutzen um Aussagen \"uber die Genauigkeit
unserer Sch\"atzung zu treffen (z.B. Standardfehler,
Konfidenzintervalle).
Beim Bootstrap erzeugen wir durch Resampling neue Stichproben und
benutzen diese, um die Stichprobenverteilung einer Statistik zu
berechnen. Die Bootstrap Stichproben haben jeweils den gleichen Umfang
wie die urspr\"unglich gemessene Stichprobe und werden durch Ziehen
mit Zur\"ucklegen gewonnen. Jeder Wert der urspr\"unglichen Stichprobe
kann also einmal, mehrmals oder gar nicht in einer Bootstrap
Stichprobe vorkommen.
\section{Bootstrap des Standardfehlers}
Am besten l\"asst sich die Bootstrap Methode am Beispiel des
Standardfehlers des Mittelwertes veranschaulichen. Aus der Stichprobe
k\"onnen wir den Mittelwert berechnen. Der \determ{Standardfehler} des
Mittelwerts gibt die Standardabweichung an, mit der wir erwarten, dass
der gemessene Mittelwert um den Populationsmittelwert streut.
\begin{figure}[tp]
\includegraphics[width=1\textwidth]{bootstrapsem}
\titlecaption{\label{bootstrapsemfig}Bootstrap des Standardfehlers des
Mittelwertes.}{Die --- normalerweise unbekannte ---
Stichprobenverteilung des Mittelwerts (rot) ist um den
Populationsmittelwert bei $\mu=0$ zentriert. Die
Bootstrap-Verteilung (blau), die durch Resampling aus einer
Stichprobe gewonnen worden ist, hat die gleiche Form und Breite
wie die Stichprobenverteilung, ist aber um den Mittelwert der
Stichprobe zentriert. Die Standardabweichung der
Bootstrapverteilung kann also als Sch\"atzer f\"ur den
Standardfehler des Mittelwertes verwendet werden.}
\end{figure}
Durch Bootstrap k\"onnen wir unsere Stichprobe resamplen und dadurch
eine ganze Verteilung von Mittelwerten generieren
(\figref{bootstrapsemfig}). Die Standardabweichung dieser Verteilung
ist dann der gesuchte Standardfehler des Mittelwerts.
\pagebreak[4]
\begin{exercise}{bootstrapsem.m}{bootstrapsem.out}
Erzeuge die Verteilung der Mittelwerte einer Stichprobe durch Bottstrapping,
um daraus den Standardfehler des Mittelwerts zu bestimmen.
\begin{enumerate}
\item Ziehe 1000 normalverteilte Zufallszahlen und berechne deren
Mittelwert, Standardabweichung und Standardfehler
($\sigma/\sqrt{n}$).
\item Resample die Daten 1000 mal (Ziehen mit Zur\"ucklegen) und
berechne jeweils den Mittelwert.
\item Plotte ein Histogramm dieser Mittelwerte, berechne deren
Mittelwert und Standardabweichung und vergleiche mit den Werten
der Grundgesamtheit und der Stichprobe.
\end{enumerate}
\end{exercise}
\section{Permutationstests}
Bei statistischen Tests wird nach der Wahrscheinlichkeit, ob die
beobachtete Me{\ss}gr\"o{\ss}e einer Stichprobe aus der Nullhypothese
kommt, gefragt. Ist diese Wahrscheinlichkeit kleiner als das
Signifikanzniveau, kann die Nullhypothese verworfen werden.
Traditionell werden diese Wahrscheinlichkeiten \"uber theoretisch
hergeleitete Wahrscheinlichkeitsverteilungen berechnet. Dabei gehen
immer gewisse Annahmen \"uber die Daten ein und es mu{\ss} der zu den
Daten passende Test ausgew\"ahlt werden.
Alternativ kann die Wahrscheinlichkeits(dichte)verteilung der
Nullhypothese aus den Daten selbst gewonnen werden. Dabei m\"ussen die
Daten entsprechend der Nullhypothese neu aus der Stichprobe gezogen
werden.
Diese \determ{Permutationstests} haben den Vorteil, dass nur die
Eigenschaft von Interesse zerst\"ort wird, um die Nullhypothese zu
generieren. Alle anderen Eigenschaften der Daten bleiben erhalten.
\begin{figure}[tp]
\includegraphics[width=1\textwidth]{permutecorrelation}
\titlecaption{\label{permutecorrelationfig}Permutationstest f\"ur
Korrelationen.}{Der Korrelationskoeffizient eines Datensatzes mit
200 Datenpaaren ist $\rho=0.21$. Die Nullhypothesenverteilung der
aus den permutierten, unkorrelierten Datens\"atzen berechneten
Korrelationskoeffizienten ergibt die gelbe Verteilung, die um Null
streut. Der gemessene Korrelationskoeffizient ist deutlich
gr\"o{\ss}er als das 95\,\%-Perzentil der
Nullhypoothesenverteilung und darum eine signifikante
Korrelation.}
\end{figure}
Sehr sch\"on lassen sich Permutationstest am Beispiel von
Korrelationen veranschaulichen. Gegeben sind Datenpaare $(x_i, y_i)$.
Daraus k\"onnen wir den
\determ[Korrelationskoeffizient]{Korrelationskoeffizienten}
berechnen. Wir wissen dann aber noch nicht, ob der berechnete Wert
tats\"achlich eine Korrelation anzeigt. Die Nullhypothese ist, dass
die Daten nicht miteinander korreliert sind. Indem wir die $x$-Werte
und die $y$-Werte unabh\"angig voneinander permutieren (ihre
Reihenfolge zuf\"allig neu anordnen), werden die Korrelationen der
Datenpaare zerst\"ort. Wenn wir das viele Male wiederholen, bekommen
wir die Verteilung der Korrelationskoeffizienten f\"ur
nichtkorrelierte Daten. Aus dieser Verteilung der Nullhypothese
k\"onnen wir dann dann die Signifikanz der tats\"achlich gemessenen
Korrelation bestimmen.
\begin{exercise}{correlationsignificance.m}{correlationsignificance.out}
Bestimme die Signifikanz eines Korrelationskoeffizienten.
\begin{enumerate}
\item Erzeuge korrelierte Daten indem zu zuf\"allig gezogenen
$x$-Werten $y$-Werte gem\"a{\ss} $y=0.2 \cdot x$ berechnet werden,
zu denen weitere normalverteilte Zufallszahlen addiert werden.
\item Berechne den Korrelationskoeffizient dieser Datenpaare.
\item Generiere die Verteilung der Nullhypothese ``unkorrelierte
Daten'' indem die $x$- und $y$-Daten 1000-mal unabh\"angig
permutiert werden \matlabfun{randperm()} und jeweils der
Korrelationskoeffizient berechnet wird.
\item Bestimme aus den Nullhypothesendaten das 95\,\%-Perzentil und
vergleiche es mit dem tats\"achlichen Korrelationskoeffizienten.
\end{enumerate}
\end{exercise}
\selectlanguage{english}