diff --git a/likelihood/lecture/likelihood.tex b/likelihood/lecture/likelihood.tex index 752d659..3166153 100644 --- a/likelihood/lecture/likelihood.tex +++ b/likelihood/lecture/likelihood.tex @@ -1,11 +1,11 @@ %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -\chapter{\tr{Maximum likelihood estimation}{Maximum-Likelihood Methode}} +\chapter{\tr{Maximum likelihood estimation}{Maximum-Likelihood-Sch\"atzer}} In vielen Situationen wollen wir einen oder mehrere Parameter $\theta$ einer Wahrscheinlichkeitsverteilung sch\"atzen, so dass die Verteilung -die Daten $x_1, x_2, \ldots x_n$ am besten beschreibt. Bei der -Maximum-Likelihood-Methode w\"ahlen wir die Parameter so, dass die +die Daten $x_1, x_2, \ldots x_n$ am besten beschreibt. +Maximum-Likelihood-Sch\"atzer w\"ahlen wir die Parameter so, dass die Wahrscheinlichkeit, dass die Daten aus der Verteilung stammen, am gr\"o{\ss}ten ist. @@ -89,7 +89,7 @@ nach dem Parameter $\theta$ und setzen diese gleich Null: \Leftrightarrow \quad n \theta & = & \sum_{i=1}^n x_i \\ \Leftrightarrow \quad \theta & = & \frac{1}{n} \sum_{i=1}^n x_i \end{eqnarray*} -Der Maximum-Likelihood-Estimator ist das arithmetische Mittel der Daten. D.h. +Der Maximum-Likelihood-Sch\"atzer ist das arithmetische Mittel der Daten. D.h. das arithmetische Mittel maximiert die Wahrscheinlichkeit, dass die Daten aus einer Normalverteilung mit diesem Mittelwert gezogen worden sind. @@ -106,7 +106,7 @@ Normalverteilung mit diesem Mittelwert gezogen worden sind. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% -\section{Kurvenfit als Maximum Likelihood Estimation} +\section{Kurvenfit als Maximum-Likelihood Sch\"atzung} Beim Kurvenfit soll eine Funktion $f(x;\theta)$ mit den Parametern $\theta$ an die Datenpaare $(x_i|y_i)$ durch Anpassung der Parameter $\theta$ gefittet werden. Wenn wir annehmen, dass die $y_i$ um die @@ -132,18 +132,22 @@ Maximum weggelassen werden. Anstatt nach dem Maximum zu suchen, k\"onnen wir auch das Vorzeichen der Log-Likelihood umdrehen und nach dem Minimum suchen. Dabei k\"onnen wir auch den Faktor $1/2$ vor der Summe vernachl\"assigen --- auch das \"andert nichts an der Position des Minimums. \begin{equation} + \label{chisqmin} \theta_{mle} = \text{argmin}_{\theta} \; \sum_{i=1}^n \left( \frac{y_i-f(x_i;\theta)}{\sigma_i} \right)^2 \;\; = \;\; \text{argmin}_{\theta} \; \chi^2 \end{equation} -Die Summer der quadratischen Abst\"ande normiert auf die jeweiligen +Die Summe der quadratischen Abst\"ande normiert auf die jeweiligen Standardabweichungen wird auch mit $\chi^2$ bezeichnet. Der Wert des Parameters $\theta$ welcher den quadratischen Abstand minimiert ist also identisch mit der Maximierung der Wahrscheinlichkeit, dass die Daten tats\"achlich aus der Funktion stammen k\"onnen. Minimierung des -$\chi^2$ ist also ein Maximum-Likelihood Estimate. +$\chi^2$ ist also eine Maximum-Likelihood Sch\"atzung. Aber nur, wenn +die Daten normalverteilt um die Funktion streuen! Bei anderen +Verteilungen m\"usste man die Log-Likelihood entsprechend +\eqnref{loglikelihood} ausrechnen und maximieren. \begin{figure}[t] \includegraphics[width=1\textwidth]{mlepropline} - \caption{\label{mleproplinefig} Maximum Likelihood Estimation der + \caption{\label{mleproplinefig} Maximum-Likelihood Sch\"atzung der Steigung einer Ursprungsgeraden.} \end{figure} @@ -186,12 +190,13 @@ Abstands an ein Histogram der Daten zu fitten. Das ist aber aus folgenden Gr\"unden nicht die Methode der Wahl: (i) Wahrscheinlichkeitsdichten k\"onnen nur positiv sein. Darum k\"onnen insbesondere bei kleinen Werten die Daten nicht symmetrisch streuen, -wie es normalverteilte Daten machen sollten. (ii) Die Datenwerte sind -nicht unabh\"angig, da das normierte Histogram sich zu Eins -aufintegriert. Die beiden Annahmen normalverteilte und unabh\"angige Daten -die die Minimierung des quadratischen Abstands zu einem Maximum -Likelihood Estimator machen sind also verletzt. (iii) Das Histgramm -h\"angt von der Wahl der Klassenbreite ab. +wie es bei normalverteilte Daten der Fall ist. (ii) Die Datenwerte +sind nicht unabh\"angig, da das normierte Histogram sich zu Eins +aufintegriert. Die beiden Annahmen normalverteilte und unabh\"angige +Daten, die die Minimierung des quadratischen Abstands +\eqnref{chisqmin} zu einem Maximum-Likelihood Sch\"atzer machen, sind +also verletzt. (iii) Das Histgramm h\"angt von der Wahl der +Klassenbreite ab. Den direkten Weg, eine Wahrscheinlichkeitsdichtefunktion an ein Datenset zu fitten, haben wir oben schon bei dem Beispiel zur @@ -204,9 +209,11 @@ z.B. dem Gradientenabstieg, gel\"ost wird. \begin{figure}[t] \includegraphics[width=1\textwidth]{mlepdf} - \caption{\label{mlepdffig} Maximum Likelihood Estimation einer - Wahrscheinlichkeitsdichtefunktion. Links: die 100 Datenpunkte, die aus der Gammaverteilung - 2. Ordnung (rot) gezogen worden sind. Der Maximum-Likelihood-Fit ist orange dargestellt. - Rechts: das normierte Histogramm der Daten zusammen mit der \"uber Minimierung - des quadratischen Abstands zum Histogramm berechneten Fits ist potentiell schlechter.} + \caption{\label{mlepdffig} Maximum-Likelihood Sch\"atzung einer + Wahrscheinlichkeitsdichtefunktion. Links: die 100 Datenpunkte, die + aus der Gammaverteilung 2. Ordnung (rot) gezogen worden sind. Der + Maximum-Likelihood-Fit ist orange dargestellt. Rechts: das + normierte Histogramm der Daten zusammen mit der \"uber Minimierung + des quadratischen Abstands zum Histogramm berechneten Fits ist + potentiell schlechter.} \end{figure} diff --git a/pointprocesses/lecture/pointprocesses.tex b/pointprocesses/lecture/pointprocesses.tex index 58f3cd1..94eea66 100644 --- a/pointprocesses/lecture/pointprocesses.tex +++ b/pointprocesses/lecture/pointprocesses.tex @@ -10,11 +10,14 @@ werden kann. } \end{figure} -Ein zeitlicher Punktprozess ist ein stochastischer Prozess der eine Abfolge von Ereignissen zu den Zeiten $\{t_i\}$, $t_i \in \reZ$ generiert. - -Jeder Punktprozess wird durch einen sich in der Zeit kontinuierlichen -entwickelnden Prozess generiert. Wann immer dieser Prozess eine Schwelle \"uberschreitet -wird ein Ereigniss des Punktprozesses erzeugt. Zum Beispiel: +Ein zeitlicher Punktprozess ist ein stochastischer Prozess, der eine +Abfolge von Ereignissen zu den Zeiten $\{t_i\}$, $t_i \in \reZ$, +generiert. + +Jeder Punktprozess wird durch einen sich in der Zeit kontinuierlich +entwickelnden Prozess generiert. Wann immer dieser Prozess eine +Schwelle \"uberschreitet wird ein Ereigniss des Punktprozesses +erzeugt. Zum Beispiel: \begin{itemize} \item Aktionspotentiale/Herzschlag: wird durch die Dynamik des Membranpotentials eines Neurons/Herzzelle erzeugt. @@ -22,7 +25,7 @@ wird ein Ereigniss des Punktprozesses erzeugt. Zum Beispiel: tektonischen Platten auf beiden Seiten einer geologischen Verwerfung erzeugt. \item Zeitpunkt eines Grillen/Frosch/Vogelgesangs: wird durch die - Dynamic des Nervensystems und des Muskelapparates erzeugt. + Dynamik des Nervensystems und des Muskelapparates erzeugt. \end{itemize} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% diff --git a/pointprocesses/lecture/pointprocessscetchA.eps b/pointprocesses/lecture/pointprocessscetchA.eps index 83dc344..e799c6c 100644 --- a/pointprocesses/lecture/pointprocessscetchA.eps +++ b/pointprocesses/lecture/pointprocessscetchA.eps @@ -1,7 +1,7 @@ %!PS-Adobe-2.0 EPSF-2.0 %%Title: pointprocessscetchA.tex %%Creator: gnuplot 4.6 patchlevel 4 -%%CreationDate: Sun Oct 25 21:47:09 2015 +%%CreationDate: Mon Oct 26 09:31:15 2015 %%DocumentFonts: %%BoundingBox: 50 50 373 135 %%EndComments @@ -430,10 +430,10 @@ SDict begin [ /Title (pointprocessscetchA.tex) /Subject (gnuplot plot) /Creator (gnuplot 4.6 patchlevel 4) - /Author (jan) + /Author (benda) % /Producer (gnuplot) % /Keywords () - /CreationDate (Sun Oct 25 21:47:09 2015) + /CreationDate (Mon Oct 26 09:31:15 2015) /DOCINFO pdfmark end } ifelse diff --git a/pointprocesses/lecture/pointprocessscetchA.pdf b/pointprocesses/lecture/pointprocessscetchA.pdf index 145657e..83c76bc 100644 Binary files a/pointprocesses/lecture/pointprocessscetchA.pdf and b/pointprocesses/lecture/pointprocessscetchA.pdf differ diff --git a/pointprocesses/lecture/pointprocessscetchB.eps b/pointprocesses/lecture/pointprocessscetchB.eps index a1e7442..0e1a2c1 100644 --- a/pointprocesses/lecture/pointprocessscetchB.eps +++ b/pointprocesses/lecture/pointprocessscetchB.eps @@ -1,7 +1,7 @@ %!PS-Adobe-2.0 EPSF-2.0 %%Title: pointprocessscetchB.tex %%Creator: gnuplot 4.6 patchlevel 4 -%%CreationDate: Sun Oct 25 21:47:09 2015 +%%CreationDate: Mon Oct 26 09:31:16 2015 %%DocumentFonts: %%BoundingBox: 50 50 373 237 %%EndComments @@ -430,10 +430,10 @@ SDict begin [ /Title (pointprocessscetchB.tex) /Subject (gnuplot plot) /Creator (gnuplot 4.6 patchlevel 4) - /Author (jan) + /Author (benda) % /Producer (gnuplot) % /Keywords () - /CreationDate (Sun Oct 25 21:47:09 2015) + /CreationDate (Mon Oct 26 09:31:16 2015) /DOCINFO pdfmark end } ifelse diff --git a/pointprocesses/lecture/pointprocessscetchB.pdf b/pointprocesses/lecture/pointprocessscetchB.pdf index ce8a1f1..09d11f8 100644 Binary files a/pointprocesses/lecture/pointprocessscetchB.pdf and b/pointprocesses/lecture/pointprocessscetchB.pdf differ diff --git a/scientificcomputing-script.tex b/scientificcomputing-script.tex index 8cbde10..ad9487d 100644 --- a/scientificcomputing-script.tex +++ b/scientificcomputing-script.tex @@ -236,6 +236,6 @@ \renewcommand{\codepath}{pointprocesses/code/} \renewcommand{\texinputpath}{pointprocesses/lecture/} -\include{pointprocesses/lecture/pointprocesses} +%\include{pointprocesses/lecture/pointprocesses} \end{document} diff --git a/statistics/exercises/mlestd.m b/statistics/exercises/mlestd.m index 61f4b22..de37a56 100644 --- a/statistics/exercises/mlestd.m +++ b/statistics/exercises/mlestd.m @@ -27,4 +27,4 @@ subplot(1, 2, 2); plot(psigs, loglm); xlabel('standard deviation') ylabel('log likelihood') -savefigpdf(gcf, 'mlestd.pdf', 12, 5); +savefigpdf(gcf, 'mlestd.pdf', 15, 5); diff --git a/statistics/exercises/mlestd.pdf b/statistics/exercises/mlestd.pdf index dad420c..f01f927 100644 Binary files a/statistics/exercises/mlestd.pdf and b/statistics/exercises/mlestd.pdf differ diff --git a/statistics/exercises/statistics04.tex b/statistics/exercises/statistics04.tex index 276f7ea..1c3dcdf 100644 --- a/statistics/exercises/statistics04.tex +++ b/statistics/exercises/statistics04.tex @@ -113,8 +113,10 @@ Absch\"atzung der Standardabweichung verdeutlichen. \continue %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \question \qt{Maximum-Likelihood-Sch\"atzer einer Ursprungsgeraden} -In der Vorlesung haben wir eine Gleichung f\"ur die Maximum-Likelihood -Absch\"atzung der Steigung einer Ursprungsgeraden hergeleitet. +In der Vorlesung haben wir folgende Formel f\"ur die Maximum-Likelihood +Absch\"atzung der Steigung $\theta$ einer Ursprungsgeraden durch $n$ Datenpunkte $(x_i|y_i)$ mit Standardabweichung $\sigma_i$ hergeleitet: +\[\theta = \frac{\sum_{i=1}^n \frac{x_iy_i}{\sigma_i^2}}{ \sum_{i=1}^n + \frac{x_i^2}{\sigma_i^2}} \] \begin{parts} \part \label{mleslopefunc} Schreibe eine Funktion, die in einem $x$ und einem $y$ Vektor die Datenpaare \"uberreicht bekommt und die Steigung der @@ -146,13 +148,12 @@ nicht so einfach wie der Mittelwert und die Standardabweichung einer Normalverteilung direkt aus den Daten berechnet werden k\"onnen. Solche Parameter m\"ussen dann aus den Daten mit der Maximum-Likelihood-Methode gefittet werden. -Um dies zu veranschaulichen ziehen wir uns diesmal Zufallszahlen, die nicht einer -Normalverteilung entstammen, sonder aus der Gamma-Verteilung. +Um dies zu veranschaulichen ziehen wir uns diesmal nicht normalverteilte Zufallszahlen, sondern Zufallszahlen aus der Gamma-Verteilung. \begin{parts} \part - Finde heraus welche Funktion die Wahrscheinlichkeitsdichtefunktion - (probability density function) der Gamma-Verteilung in \code{matlab} - berechnet. + Finde heraus welche \code{matlab} Funktion die + Wahrscheinlichkeitsdichtefunktion (probability density function) der + Gamma-Verteilung berechnet. \part Plotte mit Hilfe dieser Funktion die Wahrscheinlichkeitsdichtefunktion @@ -169,17 +170,17 @@ Normalverteilung entstammen, sonder aus der Gamma-Verteilung. \part Finde heraus mit welcher \code{matlab}-Funktion eine beliebige - Verteilung (``distribution'') und die Gammaverteilung an die - Zufallszahlen nach der Maximum-Likelihood Methode gefittet werden - kann. + Verteilung (``distribution'') an die Zufallszahlen nach der + Maximum-Likelihood Methode gefittet werden kann. Wie wird diese + Funktion benutzt, um die Gammaverteilung an die Daten zu fitten? \part - Bestimme mit dieser Funktion die Parameter der - Gammaverteilung aus den Zufallszahlen. + Bestimme mit dieser Funktion die Parameter der Gammaverteilung aus + den Zufallszahlen. \part - Plotte anschlie{\ss}end - die Gammaverteilung mit den gefitteten Parametern. + Plotte anschlie{\ss}end die Gammaverteilung mit den gefitteten + Parametern. \end{parts} \begin{solution} \lstinputlisting{mlepdffit.m}