Update on likelihood exercises

2015-10-26 10:09:14 +01:00
parent d01ae0da1f
commit 573c4ceb07
10 changed files with 57 additions and 46 deletions
--- a/likelihood/lecture/likelihood.tex
+++ b/likelihood/lecture/likelihood.tex
@@ -1,11 +1,11 @@
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
-\chapter{\tr{Maximum likelihood estimation}{Maximum-Likelihood Methode}}
+\chapter{\tr{Maximum likelihood estimation}{Maximum-Likelihood-Sch\"atzer}}

 In vielen Situationen wollen wir einen oder mehrere Parameter $\theta$
 einer Wahrscheinlichkeitsverteilung sch\"atzen, so dass die Verteilung
-die Daten $x_1, x_2, \ldots x_n$ am besten beschreibt. Bei der
-Maximum-Likelihood-Methode w\"ahlen wir die Parameter so, dass die
+die Daten $x_1, x_2, \ldots x_n$ am besten beschreibt. 
+Maximum-Likelihood-Sch\"atzer w\"ahlen wir die Parameter so, dass die
 Wahrscheinlichkeit, dass die Daten aus der Verteilung stammen, am
 gr\"o{\ss}ten ist.

@@ -89,7 +89,7 @@ nach dem Parameter $\theta$ und setzen diese gleich Null:
  \Leftrightarrow \quad n \theta & = & \sum_{i=1}^n x_i \\
  \Leftrightarrow \quad \theta & = & \frac{1}{n} \sum_{i=1}^n x_i
 \end{eqnarray*}
-Der Maximum-Likelihood-Estimator ist das arithmetische Mittel der Daten. D.h.
+Der Maximum-Likelihood-Sch\"atzer ist das arithmetische Mittel der Daten. D.h.
 das arithmetische Mittel maximiert die Wahrscheinlichkeit, dass die Daten aus einer
 Normalverteilung mit diesem Mittelwert gezogen worden sind.

@@ -106,7 +106,7 @@ Normalverteilung mit diesem Mittelwert gezogen worden sind.


 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
-\section{Kurvenfit als Maximum Likelihood Estimation}
+\section{Kurvenfit als Maximum-Likelihood Sch\"atzung}
 Beim Kurvenfit soll eine Funktion $f(x;\theta)$ mit den Parametern
 $\theta$ an die Datenpaare $(x_i|y_i)$ durch Anpassung der Parameter
 $\theta$ gefittet werden. Wenn wir annehmen, dass die $y_i$ um die
@@ -132,18 +132,22 @@ Maximum weggelassen werden.
 Anstatt nach dem Maximum zu suchen, k\"onnen wir auch das Vorzeichen der Log-Likelihood
 umdrehen und nach dem Minimum suchen. Dabei k\"onnen wir auch den Faktor $1/2$ vor der Summe vernachl\"assigen --- auch das \"andert nichts an der Position des Minimums.
 \begin{equation}
+  \label{chisqmin}
  \theta_{mle} = \text{argmin}_{\theta} \; \sum_{i=1}^n \left( \frac{y_i-f(x_i;\theta)}{\sigma_i} \right)^2 \;\; = \;\; \text{argmin}_{\theta} \; \chi^2
 \end{equation}
-Die Summer der quadratischen Abst\"ande normiert auf die jeweiligen
+Die Summe der quadratischen Abst\"ande normiert auf die jeweiligen
 Standardabweichungen wird auch mit $\chi^2$ bezeichnet. Der Wert des
 Parameters $\theta$ welcher den quadratischen Abstand minimiert ist
 also identisch mit der Maximierung der Wahrscheinlichkeit, dass die
 Daten tats\"achlich aus der Funktion stammen k\"onnen. Minimierung des
-$\chi^2$ ist also ein Maximum-Likelihood Estimate.
+$\chi^2$ ist also eine Maximum-Likelihood Sch\"atzung. Aber nur, wenn
+die Daten normalverteilt um die Funktion streuen! Bei anderen
+Verteilungen m\"usste man die Log-Likelihood entsprechend
+\eqnref{loglikelihood} ausrechnen und maximieren.

 \begin{figure}[t]
  \includegraphics[width=1\textwidth]{mlepropline}
-  \caption{\label{mleproplinefig} Maximum Likelihood Estimation der
+  \caption{\label{mleproplinefig} Maximum-Likelihood Sch\"atzung der
    Steigung einer Ursprungsgeraden.}
 \end{figure}

@@ -186,12 +190,13 @@ Abstands an ein Histogram der Daten zu fitten. Das ist aber aus
 folgenden Gr\"unden nicht die Methode der Wahl: (i)
 Wahrscheinlichkeitsdichten k\"onnen nur positiv sein. Darum k\"onnen
 insbesondere bei kleinen Werten die Daten nicht symmetrisch streuen,
-wie es normalverteilte Daten machen sollten. (ii) Die Datenwerte sind
-nicht unabh\"angig, da das normierte Histogram sich zu Eins
-aufintegriert. Die beiden Annahmen normalverteilte und unabh\"angige Daten
-die die Minimierung des quadratischen Abstands zu einem Maximum
-Likelihood Estimator machen sind also verletzt. (iii) Das Histgramm
-h\"angt von der Wahl der Klassenbreite ab.
+wie es bei normalverteilte Daten der Fall ist. (ii) Die Datenwerte
+sind nicht unabh\"angig, da das normierte Histogram sich zu Eins
+aufintegriert. Die beiden Annahmen normalverteilte und unabh\"angige
+Daten, die die Minimierung des quadratischen Abstands
+\eqnref{chisqmin} zu einem Maximum-Likelihood Sch\"atzer machen, sind
+also verletzt. (iii) Das Histgramm h\"angt von der Wahl der
+Klassenbreite ab.

 Den direkten Weg, eine Wahrscheinlichkeitsdichtefunktion an ein
 Datenset zu fitten, haben wir oben schon bei dem Beispiel zur
@@ -204,9 +209,11 @@ z.B. dem Gradientenabstieg, gel\"ost wird.

 \begin{figure}[t]
  \includegraphics[width=1\textwidth]{mlepdf}
-  \caption{\label{mlepdffig} Maximum Likelihood Estimation einer
-    Wahrscheinlichkeitsdichtefunktion. Links: die 100 Datenpunkte, die aus der Gammaverteilung
-    2. Ordnung (rot) gezogen worden sind. Der Maximum-Likelihood-Fit ist orange dargestellt.
-    Rechts: das normierte Histogramm der Daten zusammen mit der \"uber Minimierung
-    des quadratischen Abstands zum Histogramm berechneten Fits ist potentiell schlechter.}
+  \caption{\label{mlepdffig} Maximum-Likelihood Sch\"atzung einer
+    Wahrscheinlichkeitsdichtefunktion. Links: die 100 Datenpunkte, die
+    aus der Gammaverteilung 2. Ordnung (rot) gezogen worden sind. Der
+    Maximum-Likelihood-Fit ist orange dargestellt.  Rechts: das
+    normierte Histogramm der Daten zusammen mit der \"uber Minimierung
+    des quadratischen Abstands zum Histogramm berechneten Fits ist
+    potentiell schlechter.}
 \end{figure}