Worked on point process script

2015-10-26 19:24:16 +01:00
parent 573c4ceb07
commit 0d2c5e91f9
8 changed files with 520 additions and 129 deletions
--- a/likelihood/lecture/likelihood.tex
+++ b/likelihood/lecture/likelihood.tex
@@ -5,7 +5,7 @@
 In vielen Situationen wollen wir einen oder mehrere Parameter $\theta$
 einer Wahrscheinlichkeitsverteilung sch\"atzen, so dass die Verteilung
 die Daten $x_1, x_2, \ldots x_n$ am besten beschreibt. 
-Maximum-Likelihood-Sch\"atzer w\"ahlen wir die Parameter so, dass die
+Maximum-Likelihood-Sch\"atzer w\"ahlen die Parameter so, dass die
 Wahrscheinlichkeit, dass die Daten aus der Verteilung stammen, am
 gr\"o{\ss}ten ist.

@@ -16,10 +16,9 @@ $\theta$'') die Wahrscheinlichkeits(dichte)verteilung von $x$ mit dem
 Parameter(n) $\theta$. Das k\"onnte die Normalverteilung 
 \begin{equation}
  \label{normpdfmean}
-  p(x|\theta) = \frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{(x-\theta)^2}{2\sigma^2}}
+  p(x|\theta) = \frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
 \end{equation}
-sein mit
-fester Standardverteilung $\sigma$ und dem Mittelwert $\mu$ als
+sein mit dem Mittelwert $\mu$ und der Standardabweichung $\sigma$ als
 Parameter $\theta$.

 Wenn nun den $n$ unabh\"angigen Beobachtungen $x_1, x_2, \ldots x_n$
@@ -59,9 +58,10 @@ das Maximum der logarithmierten Likelihood (``Log-Likelihood'') gesucht:
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \subsection{Beispiel: Das arithmetische Mittel}

-Wenn die Me{\ss}daten $x_1, x_2, \ldots x_n$ der Normalverteilung \eqnref{normpdfmean}
-entstammen, und wir den Mittelwert $\mu$ als einzigen Parameter der Verteilung betrachten,
-welcher Wert von $\theta$ maximiert dessen Likelhood?
+Wenn die Me{\ss}daten $x_1, x_2, \ldots x_n$ der Normalverteilung
+\eqnref{normpdfmean} entstammen, und wir den Mittelwert $\mu=\theta$ als
+einzigen Parameter der Verteilung betrachten, welcher Wert von
+$\theta$ maximiert dessen Likelhood?

 \begin{figure}[t]
  \includegraphics[width=1\textwidth]{mlemean}
@@ -101,7 +101,7 @@ Normalverteilung mit diesem Mittelwert gezogen worden sind.
  die Log-Likelihood (aus der Summe der logarithmierten
  Wahrscheinlichkeiten) f\"ur den Mittelwert als Parameter. Vergleiche
  die Position der Maxima mit den aus den Daten berechneten
-  Mittelwerte.
+  Mittelwert.
 \end{exercise}


@@ -125,19 +125,19 @@ gegeben sind.
 Der Parameter $\theta$ soll so gew\"ahlt werden, dass die
 Log-Likelihood maximal wird.  Der erste Term der Summe ist
 unabh\"angig von $\theta$ und kann deshalb bei der Suche nach dem
-Maximum weggelassen werden.
+Maximum weggelassen werden:
 \begin{eqnarray*}
  & = & - \frac{1}{2} \sum_{i=1}^n \left( \frac{y_i-f(x_i;\theta)}{\sigma_i} \right)^2
 \end{eqnarray*}
 Anstatt nach dem Maximum zu suchen, k\"onnen wir auch das Vorzeichen der Log-Likelihood
-umdrehen und nach dem Minimum suchen. Dabei k\"onnen wir auch den Faktor $1/2$ vor der Summe vernachl\"assigen --- auch das \"andert nichts an der Position des Minimums.
+umdrehen und nach dem Minimum suchen. Dabei k\"onnen wir auch den Faktor $1/2$ vor der Summe vernachl\"assigen --- auch das \"andert nichts an der Position des Minimums:
 \begin{equation}
  \label{chisqmin}
  \theta_{mle} = \text{argmin}_{\theta} \; \sum_{i=1}^n \left( \frac{y_i-f(x_i;\theta)}{\sigma_i} \right)^2 \;\; = \;\; \text{argmin}_{\theta} \; \chi^2
 \end{equation}
 Die Summe der quadratischen Abst\"ande normiert auf die jeweiligen
 Standardabweichungen wird auch mit $\chi^2$ bezeichnet. Der Wert des
-Parameters $\theta$ welcher den quadratischen Abstand minimiert ist
+Parameters $\theta$, welcher den quadratischen Abstand minimiert, ist
 also identisch mit der Maximierung der Wahrscheinlichkeit, dass die
 Daten tats\"achlich aus der Funktion stammen k\"onnen. Minimierung des
 $\chi^2$ ist also eine Maximum-Likelihood Sch\"atzung. Aber nur, wenn
@@ -169,33 +169,33 @@ und setzen diese gleich Null:
 \end{eqnarray}
 Damit haben wir nun einen anlytischen Ausdruck f\"ur die Bestimmung
 der Steigung $\theta$ des Regressionsgeraden gewonnen. Ein
-Gradientenabstieg ist f\"ur das Fitten der Geradensteigung also gar nicht
-n\"otig. Das gilt allgemein f\"ur das Fitten von Koeffizienten von
-linear kombinierten Basisfunktionen. Parameter die nichtlinear in
-einer Funktion enthalten sind k\"onnen aber nicht analytisch aus den
-Daten berechnet werden. Da bleibt dann nur auf numerische Verfahren
-zur Optimierung der Kostenfunktion, wie z.B. der Gradientenabstieg,
-zur\"uckzugreifen.
+Gradientenabstieg ist f\"ur das Fitten der Geradensteigung also gar
+nicht n\"otig. Das gilt allgemein f\"ur das Fitten von Koeffizienten
+von linear kombinierten Basisfunktionen. Parameter, die nichtlinear in
+einer Funktion enthalten sind, k\"onnen im Gegensatz dazu nicht
+analytisch aus den Daten berechnet werden. F\"ur diesen Fall bleibt
+dann nur auf numerische Verfahren zur Optimierung der Kostenfunktion,
+wie z.B. der Gradientenabstieg, zur\"uckzugreifen.


 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \section{Fits von Wahrscheinlichkeitsverteilungen}
 Zum Abschluss betrachten wir noch den Fall, bei dem wir die Parameter
 einer Wahrscheinlichkeitsdichtefunktion (z.B. Mittelwert und
-Standardabweichung der Normalverteilung) an ein Datenset fitten wolle.
+Standardabweichung der Normalverteilung) an ein Datenset fitten wollen.

 Ein erster Gedanke k\"onnte sein, die
 Wahrscheinlichkeitsdichtefunktion durch Minimierung des quadratischen
-Abstands an ein Histogram der Daten zu fitten. Das ist aber aus
+Abstands an ein Histogramm der Daten zu fitten. Das ist aber aus
 folgenden Gr\"unden nicht die Methode der Wahl: (i)
 Wahrscheinlichkeitsdichten k\"onnen nur positiv sein. Darum k\"onnen
 insbesondere bei kleinen Werten die Daten nicht symmetrisch streuen,
-wie es bei normalverteilte Daten der Fall ist. (ii) Die Datenwerte
+wie es bei normalverteilten Daten der Fall ist. (ii) Die Datenwerte
 sind nicht unabh\"angig, da das normierte Histogram sich zu Eins
 aufintegriert. Die beiden Annahmen normalverteilte und unabh\"angige
 Daten, die die Minimierung des quadratischen Abstands
 \eqnref{chisqmin} zu einem Maximum-Likelihood Sch\"atzer machen, sind
-also verletzt. (iii) Das Histgramm h\"angt von der Wahl der
+also verletzt. (iii) Das Histogramm h\"angt von der Wahl der
 Klassenbreite ab.

 Den direkten Weg, eine Wahrscheinlichkeitsdichtefunktion an ein
@@ -213,7 +213,6 @@ z.B. dem Gradientenabstieg, gel\"ost wird.
    Wahrscheinlichkeitsdichtefunktion. Links: die 100 Datenpunkte, die
    aus der Gammaverteilung 2. Ordnung (rot) gezogen worden sind. Der
    Maximum-Likelihood-Fit ist orange dargestellt.  Rechts: das
-    normierte Histogramm der Daten zusammen mit der \"uber Minimierung
-    des quadratischen Abstands zum Histogramm berechneten Fits ist
-    potentiell schlechter.}
+    normierte Histogramm der Daten zusammen mit dem \"uber Minimierung
+    des quadratischen Abstands zum Histogramm berechneten Fit.}
 \end{figure}