Added matlab code to mle chapter

2015-10-25 11:25:56 +01:00 · 2015-10-25 11:25:56 +01:00 · effc38f96f
commit effc38f96f
parent 93089b4be2
5 changed files with 462 additions and 286 deletions
--- a/statistics/code/mlemeanstd.m
+++ b/statistics/code/mlemeanstd.m
@ -0,0 +1,51 @@
 % draw random numbers:
 n = 500;
 mu = 3.0;
 sigma =2.0;
 x = randn(n,1)*sigma+mu;
 fprintf('              mean of the data is %.2f\n', mean(x))
 fprintf('standard deviation of the data is %.2f\n', std(x))
 % mean as parameter:
 pmus = 2.0:0.01:4.0;
 % matrix with the probabilities for each x and pmus:
 lms = zeros(length(x), length(pmus));
 for i=1:length(pmus)
    pmu = pmus(i);
    p = exp(-0.5*((x-pmu)/sigma).^2.0)/sqrt(2.0*pi)/sigma;
    lms(:,i) = p;
 end
 lm = prod(lms, 1);          % likelihood
 loglm = sum(log(lms), 1);   % log likelihood
 % plot likelihood of mean:
 subplot(2, 2, 1);
 plot(pmus, lm );
 xlabel('mean')
 ylabel('likelihood')
 subplot(2, 2, 2);
 plot(pmus, loglm );
 xlabel('mean')
 ylabel('log likelihood')
 % standard deviation as parameter:
 psigs = 1.0:0.01:3.0;
 % matrix with the probabilities for each x and psigs:
 lms = zeros(length(x), length(psigs));
 for i=1:length(psigs)
    psig = psigs(i);
    p = exp(-0.5*((x-mu)/psig).^2.0)/sqrt(2.0*pi)/psig;
    lms(:,i) = p;
 end
 lm = prod(lms, 1);          % likelihood
 loglm = sum(log(lms), 1);   % log likelihood
 % plot likelihood of standard deviation:
 subplot(2, 2, 3);
 plot(psigs, lm );
 xlabel('standard deviation')
 ylabel('likelihood')
 subplot(2, 2, 4);
 plot(psigs, loglm);
 xlabel('standard deviation')
 ylabel('log likelihood')
--- a/statistics/code/mlepdffit.m
+++ b/statistics/code/mlepdffit.m
@ -0,0 +1,27 @@
 % plot gamma pdfs:
 xx = 0.0:0.1:10.0;
 shapes = [ 1.0, 2.0, 3.0, 5.0];
 cc = jet(length(shapes) );
 for i=1:length(shapes)
    yy = gampdf(xx, shapes(i), 1.0);
    plot(xx, yy, '-', 'linewidth', 3, 'color', cc(i,:), ...
        'DisplayName', sprintf('s=%.0f', shapes(i)) );
    hold on;
 end
 % generate gamma distributed random numbers:
 n = 50;
 x = gamrnd(3.0, 1.0, n, 1);
 % histogram:
 [h,b] = hist(x, 15);
 h = h/sum(h)/(b(2)-b(1));
 bar(b, h, 1.0, 'DisplayName', 'data');
 % maximum likelihood estimate:
 p = mle(x, 'distribution', 'gamma');
 yy = gampdf(xx, p(1), p(2));
 plot(xx, yy, '-k', 'linewidth', 5, 'DisplayName', 'mle' );
 hold off;
 legend('show');
--- a/statistics/code/mlepropfit.m
+++ b/statistics/code/mlepropfit.m
@ -0,0 +1,29 @@
 m = 2.0;      % slope
 sigma = 1.0;  % standard deviation
 n = 100;      % number of data pairs
 % data pairs:
 x = 5.0*rand(n, 1);
 y = m*x + sigma*randn(n, 1);
 % fit:
 slope = mleslope(x, y);
 fprintf('slopes:\n');
 fprintf('original = %.2f\n', m);
 fprintf('     fit = %.2f\n', slope);
 % lines:
 xx = 0.0:0.1:5.0;     % x-axis values
 yorg = m*xx;
 yfit = slope*xx;
 % plot:
 plot(xx, yorg, '-r', 'linewidth', 5);
 hold on;
 plot(xx, yfit, '-g', 'linewidth', 2);
 plot(x, y, 'ob');
 hold off;
 legend('data', 'original', 'fit', 'Location', 'NorthWest');
 legend('boxoff')
 xlabel('x');
 ylabel('y');
--- a/statistics/code/mleslope.m
+++ b/statistics/code/mleslope.m
@ -0,0 +1,6 @@
 function slope = mleslope(x, y )
 % Compute the maximum likelihood estimate of the slope
 % of a line through the origin 
 % given the data pairs in the vectors x and y.
    slope = sum(x.*y)/sum(x.*x);
 end
--- a/statistics/lecture/descriptivestatistics.tex
+++ b/statistics/lecture/descriptivestatistics.tex
@ -145,10 +145,10 @@
 %%%%% equation references %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 %\newcommand{\eqref}[1]{(\ref{#1})}
-\newcommand{\eqn}{Eq.}
+\newcommand{\eqn}{\tr{Eq}{Gl}.}
-\newcommand{\Eqn}{Eq.}
+\newcommand{\Eqn}{\tr{Eq}{Gl}.}
-\newcommand{\eqns}{Eqs.}
+\newcommand{\eqns}{\tr{Eqs}{Gln}.}
-\newcommand{\Eqns}{Eqs.}
+\newcommand{\Eqns}{\tr{Eqs}{Gln}.}
 \newcommand{\eqnref}[1]{\eqn~\eqref{#1}}
 \newcommand{\Eqnref}[1]{\Eqn~\eqref{#1}}
 \newcommand{\eqnsref}[1]{\eqns~\eqref{#1}}
@ -205,13 +205,13 @@
 \newenvironment{definition}[1][]{\medskip\noindent\textbf{Definition}\ifthenelse{\equal{#1}{}}{}{ #1}:\newline}%
  {\medskip}
-\newcommand{\showlisting}{yes}
+\newcounter{maxexercise} 
-%\newcommand{\showlisting}{no}
+\setcounter{maxexercise}{9}  % show listings up to exercise maxexercise
 \newcounter{theexercise} 
 \setcounter{theexercise}{1}
 \newenvironment{exercise}[1][]{\medskip\noindent\textbf{\tr{Exercise}{\"Ubung}
-  \arabic{theexercise}:} \stepcounter{theexercise}\newline \newcommand{\exercisesource}{#1}}%
+  \arabic{theexercise}:}\newline \newcommand{\exercisesource}{#1}}%
-  {\ifthenelse{\equal{\exercisesource}{}}{}{\ifthenelse{\equal{\showlisting}{yes}}{\medskip\lstinputlisting{\exercisesource}}{}}\medskip}
+  {\ifthenelse{\equal{\exercisesource}{}}{}{\ifthenelse{\value{theexercise}>\value{maxexercise}}{}{\medskip\lstinputlisting{\exercisesource}}}\medskip\stepcounter{theexercise}}
 \graphicspath{{figures/}}
@ -455,6 +455,347 @@ Korrelationskoeffizienten nahe 0 (\figrefb{correlationfig}).
 \end{figure}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \chapter{\tr{Bootstrap Methods}{Bootstrap Methoden}}
 Beim Bootstrap erzeugt man sich die Verteilung von Statistiken durch Resampling
 aus der Stichprobe. Das hat mehrere Vorteile:
 \begin{itemize}
 \item Weniger Annahmen (z.B. muss eine Stichprobe nicht Normalverteilt sein).
 \item H\"ohere Genauigkeit als klassische Methoden.
 \item Allgemeing\"ultigkeit: Bootstrap Methoden sind sich sehr
  \"ahnlich f\"ur viele verschiedene Statistiken und ben\"otigen nicht
  f\"ur jede Statistik eine andere Formel.
 \end{itemize}
 \begin{figure}[t]
  \includegraphics[width=0.8\textwidth]{2012-10-29_16-26-05_771}\\[2ex]
  \includegraphics[width=0.8\textwidth]{2012-10-29_16-41-39_523}\\[2ex]
  \includegraphics[width=0.8\textwidth]{2012-10-29_16-29-35_312}
  \caption{\tr{Why can we only measure a sample of the
      population?}{Warum k\"onnen wir nur eine Stichprobe der
      Grundgesamtheit messen?}}
 \end{figure}
 \begin{figure}[t]
  \includegraphics[height=0.2\textheight]{srs1}\\[2ex]
  \includegraphics[height=0.2\textheight]{srs2}\\[2ex]
  \includegraphics[height=0.2\textheight]{srs3}
  \caption{Bootstrap der Stichprobenvertielung (a) Von der
    Grundgesamtheit (population) mit unbekanntem Parameter
    (z.B. Mittelwert $\mu$) zieht man Stichproben (SRS: simple random
    samples).  Die Statistik (hier Bestimmung von $\bar x$) kann f\"ur
    jede Stichprobe berechnet werden. Die erhaltenen Werte entstammen
    der Stichprobenverteilung. Meisten wird aber nur eine Stichprobe
    gezogen!  (b) Mit bestimmten Annahmen und Theorien kann man auf
    die Stichprobenverteilung schlie{\ss}en ohne sie gemessen zu
    haben.  (c) Alternativ k\"onnen aus der einen Stichprobe viele
    Bootstrap-Stichproben generiert werden (resampling) und so
    Eigenschaften der Stichprobenverteilung empirisch bestimmt
    werden. Aus Hesterberg et al. 2003, Bootstrap Methods and
    Permuation Tests}
 \end{figure}
 \section{Bootstrap des Standardfehlers}
 Beim Bootstrap erzeugen wir durch Resampling neue Stichproben und
 benutzen diese um die Stichprobenverteilung einer Statistik zu
 berechnen. Die Bootstrap Stichproben haben jeweils den gleichen Umfang
 wie die urspr\"unglich gemessene Stichprobe und werden durch Ziehen
 mit Zur\"ucklegen gewonnen. Jeder Wert der urspr\"unglichen Stichprobe
 kann also einmal, mehrmals oder gar nicht in einer Bootstrap
 Stichprobe vorkommen.
 \begin{exercise}[bootstrapsem.m]
  Ziehe 1000 normalverteilte Zufallszahlen und berechne deren Mittelwert,
  Standardabweichung und Standardfehler ($\sigma/\sqrt{n}$).
  Resample die Daten 1000 mal (Ziehen mit Zur\"ucklegen) und berechne jeweils
  den Mittelwert.
  Plotte ein Histogramm dieser Mittelwerte, sowie deren Mittelwert und
  die Standardabweichung.
  Was hat das mit dem Standardfehler zu tun?
 \end{exercise}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \chapter{\tr{Maximum likelihood estimation}{Maximum-Likelihood Methode}}
 In vielen Situationen wollen wir einen oder mehrere Parameter $\theta$
 einer Wahrscheinlichkeitsverteilung sch\"atzen, so dass die Verteilung
 die Daten $x_1, x_2, \ldots x_n$ am besten beschreibt. Bei der
 Maximum-Likelihood-Methode w\"ahlen wir die Parameter so, dass die
 Wahrscheinlichkeit, dass die Daten aus der Verteilung stammen, am
 gr\"o{\ss}ten ist.
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \section{Maximum Likelihood}
 Sei $p(x|\theta)$ (lies ``Wahrscheinlichkeit(sdichte) von $x$ gegeben
 $\theta$'') die Wahrscheinlichkeits(dichte)verteilung von $x$ mit dem
 Parameter(n) $\theta$. Das k\"onnte die Normalverteilung 
 \begin{equation}
  \label{normpdfmean}
  p(x|\theta) = \frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{(x-\theta)^2}{2\sigma^2}}
 \end{equation}
 sein mit
 fester Standardverteilung $\sigma$ und dem Mittelwert $\mu$ als
 Parameter $\theta$.
 Wenn nun den $n$ unabh\"angigen Beobachtungen $x_1, x_2, \ldots x_n$
 die Wahrscheinlichkeitsverteilung $p(x|\theta)$ zugrundeliegt, dann
 ist die Verbundwahrscheinlichkeit $p(x_1,x_2, \ldots x_n|\theta)$ des
 Auftretens der Werte $x_1, x_2, \ldots x_n$ gegeben ein bestimmtes $\theta$
 \begin{equation}
  p(x_1,x_2, \ldots x_n|\theta) = p(x_1|\theta) \cdot p(x_2|\theta)
  \ldots p(x_n|\theta) = \prod_{i=1}^n p(x_i|\theta) \; .
 \end{equation}
 Andersherum gesehen ist das die Likelihood (deutsch immer noch ``Wahrscheinlichleit'')
 den Parameter $\theta$ zu haben, gegeben die Me{\ss}werte $x_1, x_2, \ldots x_n$,
 \begin{equation}
  {\cal L}(\theta|x_1,x_2, \ldots x_n) = p(x_1,x_2, \ldots x_n|\theta)
 \end{equation}
 Wir sind nun an dem Wert des Parameters $\theta_{mle}$ interessiert, der die
 Likelihood maximiert (``mle'': Maximum-Likelihood Estimate):
 \begin{equation}
  \theta_{mle} = \text{argmax}_{\theta} {\cal L}(\theta|x_1,x_2, \ldots x_n)
 \end{equation}
 $\text{argmax}_xf(x)$ bezeichnet den Wert des Arguments $x$ der Funktion $f(x)$, bei
 dem $f(x)$ ihr globales Maximum annimmt. Wir suchen also den Wert von $\theta$
 bei dem die Likelihood ${\cal L}(\theta)$ ihr Maximum hat.
 An der Stelle eines Maximums einer Funktion \"andert sich nichts, wenn
 man die Funktionswerte mit einer streng monoton steigenden Funktion
 transformiert. Aus gleich ersichtlichen mathematischen Gr\"unden wird meistens
 das Maximum der logarithmierten Likelihood (``Log-Likelihood'') gesucht:
 \begin{eqnarray}
  \theta_{mle} & = & \text{argmax}_{\theta}\; {\cal L}(\theta|x_1,x_2, \ldots x_n) \nonumber \\
              & = & \text{argmax}_{\theta}\; \log {\cal L}(\theta|x_1,x_2, \ldots x_n) \nonumber \\
              & = & \text{argmax}_{\theta}\; \log \prod_{i=1}^n p(x_i|\theta) \nonumber \\
              & = & \text{argmax}_{\theta}\; \sum_{i=1}^n \log p(x_i|\theta) \label{loglikelihood}
 \end{eqnarray}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \subsection{Beispiel: Das arithmetische Mittel}
 Wenn die Me{\ss}daten $x_1, x_2, \ldots x_n$ der Normalverteilung \eqnref{normpdfmean}
 entstammen, und wir den Mittelwert $\mu$ als einzigen Parameter der Verteilung betrachten,
 welcher Wert von $\theta$ maximiert dessen Likelhood?
 \begin{figure}[t]
  \includegraphics[width=1\textwidth]{mlemean}
  \caption{\label{mlemeanfig} Maximum Likelihood Estimation des
    Mittelwerts.  Oben: Die Daten zusammen mit drei m\"oglichen
    Normalverteilungen mit unterschiedlichen Mittelwerten (Pfeile) aus
    denen die Daten stammen k\"onnten.  Unteln links: Die Likelihood
    in Abh\"angigkeit des Mittelwerts als Parameter der
    Normalverteilungen. Unten rechts: die entsprechende
    Log-Likelihood. An der Position des Maximums bei $\theta=2$
    \"andert sich nichts (Pfeil).}
 \end{figure}
 Die Log-Likelihood \eqnref{loglikelihood} ist
 \begin{eqnarray*}
  \log {\cal L}(\theta|x_1,x_2, \ldots x_n)
  & = & \sum_{i=1}^n \log \frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{(x_i-\theta)^2}{2\sigma^2}} \\
  & = & \sum_{i=1}^n - \log \sqrt{2\pi \sigma^2} -\frac{(x_i-\theta)^2}{2\sigma^2}
 \end{eqnarray*}
 Zur Bestimmung des Maximums der Log-Likelihood berechnen wir deren Ableitung
 nach dem Parameter $\theta$ und setzen diese gleich Null: 
 \begin{eqnarray*}
  \frac{\text{d}}{\text{d}\theta} \log {\cal L}(\theta|x_1,x_2, \ldots x_n) & = & \sum_{i=1}^n \frac{2(x_i-\theta)}{2\sigma^2} \;\; = \;\; 0 \\
  \Leftrightarrow \quad \sum_{i=1}^n x_i - \sum_{i=1}^n x_i \theta & = & 0 \\
  \Leftrightarrow \quad n \theta & = & \sum_{i=1}^n x_i \\
  \Leftrightarrow \quad \theta & = & \frac{1}{n} \sum_{i=1}^n x_i
 \end{eqnarray*}
 Der Maximum-Likelihood-Estimator ist das arithmetische Mittel der Daten. D.h.
 das arithmetische Mittel maximiert die Wahrscheinlichkeit, dass die Daten aus einer
 Normalverteilung mit diesem Mittelwert gezogen worden sind.
 \begin{exercise}[mlemeanstd.m]
  Ziehe $n=50$ normalverteilte Zufallsvariablen mit einem Mittelwert $\ne 0$
  und einer Standardabweichung $\ne 1$.
  Plotte die Likelihood (aus dem Produkt der Wahrscheinlichkeiten) und
  die Log-Likelihood (aus der Summe der logarithmierten
  Wahrscheinlichkeiten) f\"ur (1) den Mittelwert und (2) die
  Standardabweichung. Vergleiche die Position der Maxima mit den
  aus den Daten berechneten Mittelwerten und Standardabweichungen.
  Erh\"ohe $n$ auf 1000. Was passiert mit der Likelihood, was mit der Log-Likelihood?
 \end{exercise}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \section{Kurvenfit als Maximum Likelihood Estimation}
 Beim Kurvenfit soll eine Funktion $f(x;\theta)$ mit den Parametern
 $\theta$ an die Datenpaare $(x_i|y_i)$ durch Anpassung der Parameter
 $\theta$ gefittet werden. Wenn wir annehmen, dass die $y_i$ um die
 entsprechenden Funktionswerte $f(x_i;\theta)$ mit einer
 Standardabweichung $\sigma_i$ normalverteilt streuen, dann lautet die
 Log-Likelihood
 \begin{eqnarray*}
  \log {\cal L}(\theta|x_1,x_2, \ldots x_n)
  & = & \sum_{i=1}^n \log \frac{1}{\sqrt{2\pi \sigma_i^2}}e^{-\frac{(y_i-f(x_i;\theta))^2}{2\sigma_i^2}} \\
  & = & \sum_{i=1}^n - \log \sqrt{2\pi \sigma_i^2} -\frac{(x_i-f(y_i;\theta))^2}{2\sigma_i^2} \\
 \end{eqnarray*}
 Der einzige Unterschied zum vorherigen Beispiel ist, dass die
 Mittelwerte der Normalverteilungen nun durch die Funktionswerte
 gegeben sind.
 Der Parameter $\theta$ soll so gew\"ahlt werden, dass die
 Log-Likelihood maximal wird.  Der erste Term der Summe ist
 unabh\"angig von $\theta$ und kann deshalb bei der Suche nach dem
 Maximum weggelassen werden.
 \begin{eqnarray*}
  & = & - \frac{1}{2} \sum_{i=1}^n \left( \frac{y_i-f(x_i;\theta)}{\sigma_i} \right)^2
 \end{eqnarray*}
 Anstatt nach dem Maximum zu suchen, k\"onnen wir auch das Vorzeichen der Log-Likelihood
 umdrehen und nach dem Minimum suchen. Dabei k\"onnen wir auch den Faktor $1/2$ vor der Summe vernachl\"assigen --- auch das \"andert nichts an der Position des Minimums.
 \begin{equation}
  \theta_{mle} = \text{argmin}_{\theta} \; \sum_{i=1}^n \left( \frac{y_i-f(x_i;\theta)}{\sigma_i} \right)^2 \;\; = \;\; \text{argmin}_{\theta} \; \chi^2
 \end{equation}
 Die Summer der quadratischen Abst\"ande normiert auf die jeweiligen
 Standardabweichungen wird auch mit $\chi^2$ bezeichnet. Der Wert des
 Parameters $\theta$ welcher den quadratischen Abstand minimiert ist
 also identisch mit der Maximierung der Wahrscheinlichkeit, dass die
 Daten tats\"achlich aus der Funktion stammen k\"onnen. Minimierung des
 $\chi^2$ ist also ein Maximum-Likelihood Estimate.
 \begin{figure}[t]
  \includegraphics[width=1\textwidth]{mlepropline}
  \caption{\label{mleproplinefig} Maximum Likelihood Estimation der
    Steigung einer Ursprungsgeraden.}
 \end{figure}
 \subsection{Beispiel: einfache Proportionalit\"at}
 Als Funktion nehmen wir die Ursprungsgerade
 \[ f(x) = \theta x  \]
 mit Steigung $\theta$. Die $\chi^2$-Summe lautet damit
 \[ \chi^2 = \sum_{i=1}^n \left( \frac{y_i-\theta x_i}{\sigma_i} \right)^2 \; . \]
 Zur Bestimmung des Minimums berechnen wir wieder die erste Ableitung nach $\theta$
 und setzen diese gleich Null:
 \begin{eqnarray}
  \frac{\text{d}}{\text{d}\theta}\chi^2 & = & \frac{\text{d}}{\text{d}\theta} \sum_{i=1}^n \left( \frac{y_i-\theta x_i}{\sigma_i} \right)^2 \nonumber \\
  & = & \sum_{i=1}^n \frac{\text{d}}{\text{d}\theta} \left( \frac{y_i-\theta x_i}{\sigma_i} \right)^2 \nonumber \\
  & = & -2 \sum_{i=1}^n  \frac{x_i}{\sigma_i} \left( \frac{y_i-\theta x_i}{\sigma_i} \right) \nonumber \\
  & = & -2 \sum_{i=1}^n \left( \frac{x_iy_i}{\sigma_i^2} - \theta \frac{x_i^2}{\sigma_i^2} \right) \;\; = \;\; 0 \nonumber \\
 \Leftrightarrow \quad  \theta \sum_{i=1}^n \frac{x_i^2}{\sigma_i^2} & = & \sum_{i=1}^n \frac{x_iy_i}{\sigma_i^2} \nonumber \\
 \Leftrightarrow \quad  \theta & = & \frac{\sum_{i=1}^n \frac{x_iy_i}{\sigma_i^2}}{ \sum_{i=1}^n \frac{x_i^2}{\sigma_i^2}} \label{mleslope}
 \end{eqnarray}
 Damit haben wir nun einen anlytischen Ausdruck f\"ur die Bestimmung
 der Steigung $\theta$ des Regressionsgeraden gewonnen. Ein
 Gradientenabstieg ist f\"ur das Fitten der Geradensteigung also gar nicht
 n\"otig. Das gilt allgemein f\"ur das Fitten von Koeffizienten von
 linear kombinierten Basisfunktionen. Parameter die nichtlinear in
 einer Funktion enthalten sind k\"onnen aber nicht analytisch aus den
 Daten berechnet werden. Da bleibt dann nur auf numerische Verfahren
 zur Optimierung der Kostenfunktion, wie z.B. der Gradientenabstieg,
 zur\"uckzugreifen.
 \begin{exercise}[mleslope.m]
  Schreibe eine Funktion, die in einem $x$ und einem $y$ Vektor die
  Datenpaare \"uberreicht bekommt und die Steigung der
  Ursprungsgeraden \eqnref{mleslope}, die die Likelihood maximiert,
  zur\"uckgibt ($\sigma=1$).
 \end{exercise}
 \begin{exercise}[mlepropfit.m]
  Schreibe ein Skript, das Datenpaare erzeugt, die um eine
  Ursprungsgerade mit vorgegebener Steigung streuen. Berechne mit der
  Funktion die Steigung aus den Daten, vergleiche mit der wahren
  Steigung, und plotte die urspr\"ungliche sowie die gefittete Gerade
  zusammen mit den Daten.
  Ver\"andere die Anzahl der Datenpunkte, die Steigung, sowie die
  Streuung der Daten um die Gerade.
 \end{exercise}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \section{Fits von Wahrscheinlichkeitsverteilungen}
 Zum Abschluss betrachten wir noch den Fall, bei dem wir die Parameter
 einer Wahrscheinlichkeitsdichtefunktion (z.B. Mittelwert und
 Standardabweichung der Normalverteilung) an ein Datenset fitten wolle.
 Ein erster Gedanke k\"onnte sein, die
 Wahrscheinlichkeitsdichtefunktion durch Minimierung des quadratischen
 Abstands an ein Histogram der Daten zu fitten. Das ist aber aus
 folgenden Gr\"unden nicht die Methode der Wahl: (i)
 Wahrscheinlichkeitsdichten k\"onnen nur positiv sein. Darum k\"onnen
 insbesondere bei kleinen Werten die Daten nicht symmetrisch streuen,
 wie es normalverteilte Daten machen sollten. (ii) Die Datenwerte sind
 nicht unabh\"angig, da das normierte Histogram sich zu Eins
 aufintegriert. Die beiden Annahmen normalverteilte und unabh\"angige Daten
 die die Minimierung des quadratischen Abstands zu einem Maximum
 Likelihood Estimator machen sind also verletzt. (iii) Das Histgramm
 h\"angt von der Wahl der Klassenbreite ab.
 Den direkten Weg, eine Wahrscheinlichkeitsdichtefunktion an ein
 Datenset zu fitten, haben wir oben schon bei dem Beispiel zur
 Absch\"atzung des Mittelwertes einer Normalverteilung gesehen ---
 Maximum Likelihood! Wir suchen einfach die Parameter $\theta$ der
 gesuchten Wahrscheinlichkeitsdichtefunktion bei der die Log-Likelihood
 \eqnref{loglikelihood} maximal wird. Das ist im allgemeinen ein
 nichtlinieares Optimierungsproblem, das mit numerischen Verfahren, wie
 z.B. dem Gradientenabstieg, gel\"ost wird.
 \begin{figure}[t]
  \includegraphics[width=1\textwidth]{mlepdf}
  \caption{\label{mlepdffig} Maximum Likelihood Estimation einer
    Wahrscheinlichkeitsdichtefunktion. Links: die 100 Datenpunkte, die aus der Gammaverteilung
    2. Ordnung (rot) gezogen worden sind. Der Maximum-Likelihood-Fit ist orange dargestellt.
    Rechts: das normierte Histogramm der Daten zusammen mit der \"uber Minimierung
    des quadratischen Abstands zum Histogramm berechneten Fits ist potentiell schlechter.}
 \end{figure}
 \begin{exercise}[mlepdffit.m]
  Zur Abwechslung ziehen wir uns diesmal Zufallszahlen, die nicht
  einer Normalverteilung entstammen, sonder aus der Gamma-Verteilung.
  Finde heraus welche Funktion die Wahrscheinlichkeitsdichtefunktion
  (probability density function) der Gamma-Verteilung in \code{matlab}
  berechnet.
  Plotte mit Hilfe dieser Funktion die  Wahrscheinlichkeitsdichtefunktion
  der Gamma-Verteilung f\"ur verschiedene Werte des (positiven) ``shape'' Parameters.
  Den ``scale'' Parameter setzen wir auf Eins.
  Finde heraus mit welcher Funktion Gamma-verteilte Zufallszahlen in
  \code{matlab} gezogen werden k\"onnen. Erzeuge mit dieser Funktion
  50 Zufallszahlen mit einem der oben geplotteten ``shape'' Parameter.
  Berechne und plotte ein normiertes Histogramm dieser Zufallszahlen.
  Finde heraus mit welcher \code{matlab}-Funktion die Gammaverteilung
  an die Zufallszahlen nach der Maximum-Likelihood Methode gefittet
  werden kann.  Bestimme mit dieser Funktion die Parameter der
  Gammaverteilung aus den Zufallszahlen. Plotte anschlie{\ss}end
  die Gammaverteilung mit den gefitteten Parametern.
 \end{exercise}
 \end{document}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \section{Statistics}
 What is "a statistic"? % dt. Sch\"atzfunktion
 \begin{definition}[statistic]
  A statistic (singular) is a single measure of some attribute of a
  sample (e.g., its arithmetic mean value). It is calculated by
  applying a function (statistical algorithm) to the values of the
  items of the sample, which are known together as a set of data.
  \source{http://en.wikipedia.org/wiki/Statistic}
 \end{definition}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \section{Data types}
@ -574,281 +915,3 @@ Korrelationskoeffizienten nahe 0 (\figrefb{correlationfig}).
 \end{itemize}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \chapter{\tr{Bootstrap Methods}{Bootstrap Methoden}}
 Beim Bootstrap erzeugt man sich die Verteilung von Statistiken durch Resampling
 aus der Stichprobe. Das hat mehrere Vorteile:
 \begin{itemize}
 \item Weniger Annahmen (z.B. muss eine Stichprobe nicht Normalverteilt sein).
 \item H\"ohere Genauigkeit als klassische Methoden.
 \item Allgemeing\"ultigkeit: Bootstrap Methoden sind sich sehr
  \"ahnlich f\"ur viele verschiedene Statistiken und ben\"otigen nicht
  f\"ur jede Statistik eine andere Formel.
 \end{itemize}
 \begin{figure}[t]
  \includegraphics[width=0.8\textwidth]{2012-10-29_16-26-05_771}\\[2ex]
  \includegraphics[width=0.8\textwidth]{2012-10-29_16-41-39_523}\\[2ex]
  \includegraphics[width=0.8\textwidth]{2012-10-29_16-29-35_312}
  \caption{\tr{Why can we only measure a sample of the
      population?}{Warum k\"onnen wir nur eine Stichprobe der
      Grundgesamtheit messen?}}
 \end{figure}
 \begin{figure}[t]
  \includegraphics[height=0.2\textheight]{srs1}\\[2ex]
  \includegraphics[height=0.2\textheight]{srs2}\\[2ex]
  \includegraphics[height=0.2\textheight]{srs3}
  \caption{Bootstrap der Stichprobenvertielung (a) Von der
    Grundgesamtheit (population) mit unbekanntem Parameter
    (z.B. Mittelwert $\mu$) zieht man Stichproben (SRS: simple random
    samples).  Die Statistik (hier Bestimmung von $\bar x$) kann f\"ur
    jede Stichprobe berechnet werden. Die erhaltenen Werte entstammen
    der Stichprobenverteilung. Meisten wird aber nur eine Stichprobe
    gezogen!  (b) Mit bestimmten Annahmen und Theorien kann man auf
    die Stichprobenverteilung schlie{\ss}en ohne sie gemessen zu
    haben.  (c) Alternativ k\"onnen aus der einen Stichprobe viele
    Bootstrap-Stichproben generiert werden (resampling) und so
    Eigenschaften der Stichprobenverteilung empirisch bestimmt
    werden. Aus Hesterberg et al. 2003, Bootstrap Methods and
    Permuation Tests}
 \end{figure}
 \section{Bootstrap des Standardfehlers}
 Beim Bootstrap erzeugen wir durch Resampling neue Stichproben und
 benutzen diese um die Stichprobenverteilung einer Statistik zu
 berechnen. Die Bootstrap Stichproben haben jeweils den gleichen Umfang
 wie die urspr\"unglich gemessene Stichprobe und werden durch Ziehen
 mit Zur\"ucklegen gewonnen. Jeder Wert der urspr\"unglichen Stichprobe
 kann also einmal, mehrmals oder gar nicht in einer Bootstrap
 Stichprobe vorkommen.
 \begin{exercise}[bootstrapsem.m]
  Ziehe 1000 normalverteilte Zufallszahlen und berechne deren Mittelwert,
  Standardabweichung und Standardfehler ($\sigma/\sqrt{n}$).
  Resample die Daten 1000 mal (Ziehen mit Zur\"ucklegen) und berechne jeweils
  den Mittelwert.
  Plotte ein Histogramm dieser Mittelwerte, sowie deren Mittelwert und
  die Standardabweichung.
  Was hat das mit dem Standardfehler zu tun?
 \end{exercise}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \chapter{\tr{Maximum likelihood estimation}{Maximum-Likelihood Methode}}
 In vielen Situationen wollen wir einen oder mehrere Parameter $\theta$
 einer Wahrscheinlichkeitsverteilung sch\"atzen, so dass die Verteilung
 die Daten $x_1, x_2, \ldots x_n$ am besten beschreibt. Bei der
 Maximum-Likelihood-Methode w\"ahlen wir die Parameter so, dass die
 Wahrscheinlichkeit, dass die Daten aus der Verteilung stammen, am
 gr\"o{\ss}ten ist.
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \section{Maximum Likelihood}
 Sei $p(x|\theta)$ (lies ``Wahrscheinlichkeit(sdichte) von $x$ gegeben
 $\theta$'') die Wahrscheinlichkeits(dichte)verteilung von $x$ mit dem
 Parameter(n) $\theta$. Das k\"onnte die Normalverteilung 
 \begin{equation}
  \label{normpdfmean}
  p(x|\theta) = \frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{(x-\theta)^2}{2\sigma^2}}
 \end{equation}
 sein mit
 fester Standardverteilung $\sigma$ und dem Mittelwert $\mu$ als
 Parameter $\theta$.
 Wenn nun den $n$ unabh\"angigen Beobachtungen $x_1, x_2, \ldots x_n$
 die Wahrscheinlichkeitsverteilung $p(x|\theta)$ zugrundeliegt, dann
 ist die Verbundwahrscheinlichkeit $p(x_1,x_2, \ldots x_n|\theta)$ des
 Auftretens der Werte $x_1, x_2, \ldots x_n$ gegeben ein bestimmtes $\theta$
 \[ p(x_1,x_2, \ldots x_n|\theta) = p(x_1|\theta) \cdot p(x_2|\theta)
 \ldots p(x_n|\theta) = \prod_{i=1}^n p(x_i|\theta) \; .\]
 Andersherum gesehen ist das die Likelihood (deutsch immer noch ``Wahrscheinlichleit'')
 den Parameter $\theta$ zu haben, gegeben die Me{\ss}werte $x_1, x_2, \ldots x_n$,
 \[ {\cal L}(\theta|x_1,x_2, \ldots x_n) = p(x_1,x_2, \ldots x_n|\theta) \]
 Wir sind nun an dem Wert des Parameters $\theta_{mle}$ interessiert, der die
 Likelihood maximiert (``mle'': Maximum-Likelihood Estimate):
 \[ \theta_{mle} = \text{argmax}_{\theta} {\cal L}(\theta|x_1,x_2,
 \ldots x_n) \] 
 $\text{argmax}_xf(x)$ bezeichnet den Wert des Arguments $x$ der Funktion $f(x)$, bei
 dem $f(x)$ ihr globales Maximum annimmt. Wir suchen also den Wert von $\theta$
 bei dem die Likelihood ${\cal L}(\theta)$ ihr Maximum hat.
 An der Stelle eines Maximums einer Funktion \"andert sich nichts, wenn
 man die Funktionswerte mit einer streng monoton steigenden Funktion
 transformiert. Aus gleich ersichtlichen mathematischen Gr\"unden wird meistens
 das Maximum der logarithmierten Likelihood (``Log-Likelihood'') gesucht:
 \begin{eqnarray}
  \theta_{mle} & = & \text{argmax}_{\theta}\; {\cal L}(\theta|x_1,x_2, \ldots x_n) \nonumber \\
              & = & \text{argmax}_{\theta}\; \log {\cal L}(\theta|x_1,x_2, \ldots x_n) \nonumber \\
              & = & \text{argmax}_{\theta}\; \log \prod_{i=1}^n p(x_i|\theta) \nonumber \\
              & = & \text{argmax}_{\theta}\; \sum_{i=1}^n \log p(x_i|\theta) \label{loglikelihood}
 \end{eqnarray}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \subsection{Beispiel: Das arithmetische Mittel}
 Wenn die Me{\ss}daten $x_1, x_2, \ldots x_n$ der Normalverteilung \eqnref{normpdfmean}
 entstammen, und wir den Mittelwert $\mu$ als einzigen Parameter der Verteilung betrachten,
 welcher Wert von $\theta$ maximiert dessen Likelhood?
 \begin{figure}[t]
  \includegraphics[width=1\textwidth]{mlemean}
  \caption{\label{mlemeanfig} Maximum Likelihood Estimation des
    Mittelwerts.  Oben: Die Daten zusammen mit drei m\"oglichen
    Normalverteilungen mit unterschiedlichen Mittelwerten (Pfeile) aus
    denen die Daten stammen k\"onnten.  Unteln links: Die Likelihood
    in Abh\"angigkeit des Mittelwerts als Parameter der
    Normalverteilungen. Unten rechts: die entsprechende
    Log-Likelihood. An der Position des Maximums bei $\theta=2$
    \"andert sich nichts (Pfeil).}
 \end{figure}
 Die Log-Likelihood \eqnref{loglikelihood} ist
 \begin{eqnarray*}
  \log {\cal L}(\theta|x_1,x_2, \ldots x_n)
  & = & \sum_{i=1}^n \log \frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{(x_i-\theta)^2}{2\sigma^2}} \\
  & = & \sum_{i=1}^n - \log \sqrt{2\pi \sigma^2} -\frac{(x_i-\theta)^2}{2\sigma^2}
 \end{eqnarray*}
 Zur Bestimmung des Maximums der Log-Likelihood berechnen wir deren Ableitung
 nach dem Parameter $\theta$ und setzen diese gleich Null: 
 \begin{eqnarray*}
  \frac{\text{d}}{\text{d}\theta} \log {\cal L}(\theta|x_1,x_2, \ldots x_n) & = & \sum_{i=1}^n \frac{2(x_i-\theta)}{2\sigma^2} \;\; = \;\; 0 \\
  \Leftrightarrow \quad \sum_{i=1}^n x_i - \sum_{i=1}^n x_i \theta & = & 0 \\
  \Leftrightarrow \quad n \theta & = & \sum_{i=1}^n x_i \\
  \Leftrightarrow \quad \theta & = & \frac{1}{n} \sum_{i=1}^n x_i
 \end{eqnarray*}
 Der Maximum-Likelihood-Estimator ist das arithmetische Mittel der Daten. D.h.
 das arithmetische Mittel maximiert die Wahrscheinlichkeit, dass die Daten aus einer
 Normalverteilung mit diesem Mittelwert gezogen worden sind.
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \section{Kurvenfit als Maximum Likelihood Estimation}
 Beim Kurvenfit soll eine Funktion $f(x;\theta)$ mit den Parametern
 $\theta$ an die Datenpaare $(x_i|y_i)$ durch Anpassung der Parameter
 $\theta$ gefittet werden. Wenn wir annehmen, dass die $y_i$ um die
 entsprechenden Funktionswerte $f(x_i;\theta)$ mit einer
 Standardabweichung $\sigma_i$ normalverteilt streuen, dann lautet die
 Log-Likelihood
 \begin{eqnarray*}
  \log {\cal L}(\theta|x_1,x_2, \ldots x_n)
  & = & \sum_{i=1}^n \log \frac{1}{\sqrt{2\pi \sigma_i^2}}e^{-\frac{(y_i-f(x_i;\theta))^2}{2\sigma_i^2}} \\
  & = & \sum_{i=1}^n - \log \sqrt{2\pi \sigma_i^2} -\frac{(x_i-f(y_i;\theta))^2}{2\sigma_i^2} \\
 \end{eqnarray*}
 Der einzige Unterschied zum vorherigen Beispiel ist, dass die
 Mittelwerte der Normalverteilungen nun durch die Funktionswerte
 gegeben sind.
 Der Parameter $\theta$ soll so gew\"ahlt werden, dass die
 Log-Likelihood maximal wird.  Der erste Term der Summe ist
 unabh\"angig von $\theta$ und kann deshalb bei der Suche nach dem
 Maximum weggelassen werden.
 \begin{eqnarray*}
  & = & - \frac{1}{2} \sum_{i=1}^n \left( \frac{y_i-f(x_i;\theta)}{\sigma_i} \right)^2
 \end{eqnarray*}
 Anstatt nach dem Maximum zu suchen, k\"onnen wir auch das Vorzeichen der Log-Likelihood
 umdrehen und nach dem Minimum suchen. Dabei k\"onnen wir auch den Faktor $1/2$ vor der Summe vernachl\"assigen --- auch das \"andert nichts an der Position des Minimums.
 \begin{eqnarray*}
  \theta_{mle} & = & \text{argmin}_{\theta} \; \sum_{i=1}^n \left( \frac{y_i-f(x_i;\theta)}{\sigma_i} \right)^2 \;\; = \;\; \text{argmin}_{\theta} \; \chi^2
 \end{eqnarray*}
 Die Summer der quadratischen Abst\"ande normiert auf die jeweiligen
 Standardabweichungen wird auch mit $\chi^2$ bezeichnet. Der Wert des
 Parameters $\theta$ welcher den quadratischen Abstand minimiert ist
 also identisch mit der Maximierung der Wahrscheinlichkeit, dass die
 Daten tats\"achlich aus der Funktion stammen k\"onnen. Minimierung des
 $\chi^2$ ist also ein Maximum-Likelihood Estimate.
 \begin{figure}[t]
  \includegraphics[width=1\textwidth]{mlepropline}
  \caption{\label{mleproplinefig} Maximum Likelihood Estimation der
    Steigung einer Ursprungsgeraden.}
 \end{figure}
 \subsection{Beispiel: einfache Proportionalit\"at}
 Als Funktion nehmen wir die Ursprungsgerade
 \[ f(x) = \theta x  \]
 mit Steigung $\theta$. Die $\chi^2$-Summe lautet damit
 \[ \chi^2 = \sum_{i=1}^n \left( \frac{y_i-\theta x_i}{\sigma_i} \right)^2 \; . \]
 Zur Bestimmung des Minimums berechnen wir wieder die erste Ableitung nach $\theta$
 und setzen diese gleich Null:
 \begin{eqnarray*}
  \frac{\text{d}}{\text{d}\theta}\chi^2 & = & \frac{\text{d}}{\text{d}\theta} \sum_{i=1}^n \left( \frac{y_i-\theta x_i}{\sigma_i} \right)^2 \\
  & = & \sum_{i=1}^n \frac{\text{d}}{\text{d}\theta} \left( \frac{y_i-\theta x_i}{\sigma_i} \right)^2 \\
  & = & -2 \sum_{i=1}^n  \frac{x_i}{\sigma_i} \left( \frac{y_i-\theta x_i}{\sigma_i} \right) \\
  & = & -2 \sum_{i=1}^n \left( \frac{x_iy_i}{\sigma_i^2} - \theta \frac{x_i^2}{\sigma_i^2} \right) \;\; = \;\; 0 \\
 \Leftrightarrow \quad  \theta \sum_{i=1}^n \frac{x_i^2}{\sigma_i^2} & = & \sum_{i=1}^n \frac{x_iy_i}{\sigma_i^2} \\
 \Leftrightarrow \quad  \theta & = & \frac{\sum_{i=1}^n \frac{x_iy_i}{\sigma_i^2}}{ \sum_{i=1}^n \frac{x_i^2}{\sigma_i^2}}
 \end{eqnarray*}
 Damit haben wir nun einen anlytischen Ausdruck f\"ur die Bestimmung
 der Steigung $\theta$ des Regressionsgeraden gewonnen. Ein
 Gradientenabstieg ist f\"ur das Fitten der Geradensteigung also gar nicht
 n\"otig. Das gilt allgemein f\"ur das fitten von Koeffizienten von
 linear kombinierten Basisfunktionen. Parameter die nichtlinear in
 einer Funktion enthalten sind k\"onnen aber nicht analytisch aus den
 Daten berechnet werden. Da bleibt dann nur auf numerische Verfahren
 zur Optimierung der Kostenfunktion, wie z.B. der Gradientenabstieg,
 zur\"uckzugreifen.
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \section{Fits von Wahrscheinlichkeitsverteilungen}
 Zum Abschluss betrachten wir noch den Fall, bei dem wir die Parameter
 einer Wahrscheinlichkeitsdichtefunktion (z.B. Mittelwert und
 Standardabweichung der Normalverteilung) an ein Datenset fitten wolle.
 Ein erster Gedanke k\"onnte sein, die
 Wahrscheinlichkeitsdichtefunktion durch Minimierung des quadratischen
 Abstands an ein Histogram der Daten zu fitten. Das ist aber aus
 folgenden Gr\"unden nicht die Methode der Wahl: (i)
 Wahrscheinlichkeitsdichten k\"onnen nur positiv sein. Darum k\"onnen
 insbesondere bei kleinen Werten die Daten nicht symmetrisch streuen,
 wie es normalverteilte Daten machen sollten. (ii) Die Datenwerte sind
 nicht unabh\"angig, da das normierte Histogram sich zu Eins
 aufintegriert. Die beiden Annahmen normalverteilte und unabh\"angige Daten
 die die Minimierung des quadratischen Abstands zu einem Maximum
 Likelihood Estimator machen sind also verletzt.
 Den direkten Weg, eine Wahrscheinlichkeitsdichtefunktion an ein
 Datenset zu fitten, haben wir oben schon bei dem Beispiel zur
 Absch\"atzung des Mittelwertes einer Normalverteilung gesehen ---
 Maximum Likelihood! Wir suchen einfach die Parameter $\theta$ der
 gesuchten Wahrscheinlichkeitsdichtefunktion bei der die Log-Likelihood
 \eqnref{loglikelihood} maximal wird. Das ist im allgemeinen ein
 nichtlinieares Optimierungsproblem, das mit numerischen Verfahren, wie
 z.B. dem Gradientenabstieg, gel\"ost wird.
 \begin{figure}[t]
  \includegraphics[width=1\textwidth]{mlepdf}
  \caption{\label{mlepdffig} Maximum Likelihood Estimation einer
    Wahrscheinlichkeitsdichtefunktion. Links: die 100 Datenpunkte, die aus der Gammaverteilung
    2. Ordnung (rot) gezogen worden sind. Der Maximum-Likelihood-Fit ist orange dargestellt.
    Rechts: das normierte Histogramm der Daten zusammen mit der \"uber Minimierung
    des quadratischen Abstands zum Histogramm berechneten Fits.}
 \end{figure}
 \end{document}
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \section{Statistics}
 What is "a statistic"? % dt. Sch\"atzfunktion
 \begin{definition}[statistic]
  A statistic (singular) is a single measure of some attribute of a
  sample (e.g., its arithmetic mean value). It is calculated by
  applying a function (statistical algorithm) to the values of the
  items of the sample, which are known together as a set of data.
  \source{http://en.wikipedia.org/wiki/Statistic}
 \end{definition}