Worked on point process script
This commit is contained in:
@@ -5,7 +5,7 @@
|
||||
In vielen Situationen wollen wir einen oder mehrere Parameter $\theta$
|
||||
einer Wahrscheinlichkeitsverteilung sch\"atzen, so dass die Verteilung
|
||||
die Daten $x_1, x_2, \ldots x_n$ am besten beschreibt.
|
||||
Maximum-Likelihood-Sch\"atzer w\"ahlen wir die Parameter so, dass die
|
||||
Maximum-Likelihood-Sch\"atzer w\"ahlen die Parameter so, dass die
|
||||
Wahrscheinlichkeit, dass die Daten aus der Verteilung stammen, am
|
||||
gr\"o{\ss}ten ist.
|
||||
|
||||
@@ -16,10 +16,9 @@ $\theta$'') die Wahrscheinlichkeits(dichte)verteilung von $x$ mit dem
|
||||
Parameter(n) $\theta$. Das k\"onnte die Normalverteilung
|
||||
\begin{equation}
|
||||
\label{normpdfmean}
|
||||
p(x|\theta) = \frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{(x-\theta)^2}{2\sigma^2}}
|
||||
p(x|\theta) = \frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
|
||||
\end{equation}
|
||||
sein mit
|
||||
fester Standardverteilung $\sigma$ und dem Mittelwert $\mu$ als
|
||||
sein mit dem Mittelwert $\mu$ und der Standardabweichung $\sigma$ als
|
||||
Parameter $\theta$.
|
||||
|
||||
Wenn nun den $n$ unabh\"angigen Beobachtungen $x_1, x_2, \ldots x_n$
|
||||
@@ -59,9 +58,10 @@ das Maximum der logarithmierten Likelihood (``Log-Likelihood'') gesucht:
|
||||
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
|
||||
\subsection{Beispiel: Das arithmetische Mittel}
|
||||
|
||||
Wenn die Me{\ss}daten $x_1, x_2, \ldots x_n$ der Normalverteilung \eqnref{normpdfmean}
|
||||
entstammen, und wir den Mittelwert $\mu$ als einzigen Parameter der Verteilung betrachten,
|
||||
welcher Wert von $\theta$ maximiert dessen Likelhood?
|
||||
Wenn die Me{\ss}daten $x_1, x_2, \ldots x_n$ der Normalverteilung
|
||||
\eqnref{normpdfmean} entstammen, und wir den Mittelwert $\mu=\theta$ als
|
||||
einzigen Parameter der Verteilung betrachten, welcher Wert von
|
||||
$\theta$ maximiert dessen Likelhood?
|
||||
|
||||
\begin{figure}[t]
|
||||
\includegraphics[width=1\textwidth]{mlemean}
|
||||
@@ -101,7 +101,7 @@ Normalverteilung mit diesem Mittelwert gezogen worden sind.
|
||||
die Log-Likelihood (aus der Summe der logarithmierten
|
||||
Wahrscheinlichkeiten) f\"ur den Mittelwert als Parameter. Vergleiche
|
||||
die Position der Maxima mit den aus den Daten berechneten
|
||||
Mittelwerte.
|
||||
Mittelwert.
|
||||
\end{exercise}
|
||||
|
||||
|
||||
@@ -125,19 +125,19 @@ gegeben sind.
|
||||
Der Parameter $\theta$ soll so gew\"ahlt werden, dass die
|
||||
Log-Likelihood maximal wird. Der erste Term der Summe ist
|
||||
unabh\"angig von $\theta$ und kann deshalb bei der Suche nach dem
|
||||
Maximum weggelassen werden.
|
||||
Maximum weggelassen werden:
|
||||
\begin{eqnarray*}
|
||||
& = & - \frac{1}{2} \sum_{i=1}^n \left( \frac{y_i-f(x_i;\theta)}{\sigma_i} \right)^2
|
||||
\end{eqnarray*}
|
||||
Anstatt nach dem Maximum zu suchen, k\"onnen wir auch das Vorzeichen der Log-Likelihood
|
||||
umdrehen und nach dem Minimum suchen. Dabei k\"onnen wir auch den Faktor $1/2$ vor der Summe vernachl\"assigen --- auch das \"andert nichts an der Position des Minimums.
|
||||
umdrehen und nach dem Minimum suchen. Dabei k\"onnen wir auch den Faktor $1/2$ vor der Summe vernachl\"assigen --- auch das \"andert nichts an der Position des Minimums:
|
||||
\begin{equation}
|
||||
\label{chisqmin}
|
||||
\theta_{mle} = \text{argmin}_{\theta} \; \sum_{i=1}^n \left( \frac{y_i-f(x_i;\theta)}{\sigma_i} \right)^2 \;\; = \;\; \text{argmin}_{\theta} \; \chi^2
|
||||
\end{equation}
|
||||
Die Summe der quadratischen Abst\"ande normiert auf die jeweiligen
|
||||
Standardabweichungen wird auch mit $\chi^2$ bezeichnet. Der Wert des
|
||||
Parameters $\theta$ welcher den quadratischen Abstand minimiert ist
|
||||
Parameters $\theta$, welcher den quadratischen Abstand minimiert, ist
|
||||
also identisch mit der Maximierung der Wahrscheinlichkeit, dass die
|
||||
Daten tats\"achlich aus der Funktion stammen k\"onnen. Minimierung des
|
||||
$\chi^2$ ist also eine Maximum-Likelihood Sch\"atzung. Aber nur, wenn
|
||||
@@ -169,33 +169,33 @@ und setzen diese gleich Null:
|
||||
\end{eqnarray}
|
||||
Damit haben wir nun einen anlytischen Ausdruck f\"ur die Bestimmung
|
||||
der Steigung $\theta$ des Regressionsgeraden gewonnen. Ein
|
||||
Gradientenabstieg ist f\"ur das Fitten der Geradensteigung also gar nicht
|
||||
n\"otig. Das gilt allgemein f\"ur das Fitten von Koeffizienten von
|
||||
linear kombinierten Basisfunktionen. Parameter die nichtlinear in
|
||||
einer Funktion enthalten sind k\"onnen aber nicht analytisch aus den
|
||||
Daten berechnet werden. Da bleibt dann nur auf numerische Verfahren
|
||||
zur Optimierung der Kostenfunktion, wie z.B. der Gradientenabstieg,
|
||||
zur\"uckzugreifen.
|
||||
Gradientenabstieg ist f\"ur das Fitten der Geradensteigung also gar
|
||||
nicht n\"otig. Das gilt allgemein f\"ur das Fitten von Koeffizienten
|
||||
von linear kombinierten Basisfunktionen. Parameter, die nichtlinear in
|
||||
einer Funktion enthalten sind, k\"onnen im Gegensatz dazu nicht
|
||||
analytisch aus den Daten berechnet werden. F\"ur diesen Fall bleibt
|
||||
dann nur auf numerische Verfahren zur Optimierung der Kostenfunktion,
|
||||
wie z.B. der Gradientenabstieg, zur\"uckzugreifen.
|
||||
|
||||
|
||||
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
|
||||
\section{Fits von Wahrscheinlichkeitsverteilungen}
|
||||
Zum Abschluss betrachten wir noch den Fall, bei dem wir die Parameter
|
||||
einer Wahrscheinlichkeitsdichtefunktion (z.B. Mittelwert und
|
||||
Standardabweichung der Normalverteilung) an ein Datenset fitten wolle.
|
||||
Standardabweichung der Normalverteilung) an ein Datenset fitten wollen.
|
||||
|
||||
Ein erster Gedanke k\"onnte sein, die
|
||||
Wahrscheinlichkeitsdichtefunktion durch Minimierung des quadratischen
|
||||
Abstands an ein Histogram der Daten zu fitten. Das ist aber aus
|
||||
Abstands an ein Histogramm der Daten zu fitten. Das ist aber aus
|
||||
folgenden Gr\"unden nicht die Methode der Wahl: (i)
|
||||
Wahrscheinlichkeitsdichten k\"onnen nur positiv sein. Darum k\"onnen
|
||||
insbesondere bei kleinen Werten die Daten nicht symmetrisch streuen,
|
||||
wie es bei normalverteilte Daten der Fall ist. (ii) Die Datenwerte
|
||||
wie es bei normalverteilten Daten der Fall ist. (ii) Die Datenwerte
|
||||
sind nicht unabh\"angig, da das normierte Histogram sich zu Eins
|
||||
aufintegriert. Die beiden Annahmen normalverteilte und unabh\"angige
|
||||
Daten, die die Minimierung des quadratischen Abstands
|
||||
\eqnref{chisqmin} zu einem Maximum-Likelihood Sch\"atzer machen, sind
|
||||
also verletzt. (iii) Das Histgramm h\"angt von der Wahl der
|
||||
also verletzt. (iii) Das Histogramm h\"angt von der Wahl der
|
||||
Klassenbreite ab.
|
||||
|
||||
Den direkten Weg, eine Wahrscheinlichkeitsdichtefunktion an ein
|
||||
@@ -213,7 +213,6 @@ z.B. dem Gradientenabstieg, gel\"ost wird.
|
||||
Wahrscheinlichkeitsdichtefunktion. Links: die 100 Datenpunkte, die
|
||||
aus der Gammaverteilung 2. Ordnung (rot) gezogen worden sind. Der
|
||||
Maximum-Likelihood-Fit ist orange dargestellt. Rechts: das
|
||||
normierte Histogramm der Daten zusammen mit der \"uber Minimierung
|
||||
des quadratischen Abstands zum Histogramm berechneten Fits ist
|
||||
potentiell schlechter.}
|
||||
normierte Histogramm der Daten zusammen mit dem \"uber Minimierung
|
||||
des quadratischen Abstands zum Histogramm berechneten Fit.}
|
||||
\end{figure}
|
||||
|
||||
Reference in New Issue
Block a user