reorganized statistics exercises

2016-11-15 15:53:12 +01:00
parent bd62a15593
commit 778fde35fa
34 changed files with 214 additions and 3 deletions
--- a/likelihood/exercises/Makefile
+++ b/likelihood/exercises/Makefile
@@ -0,0 +1,34 @@
+TEXFILES=$(wildcard exercises??.tex)
+EXERCISES=$(TEXFILES:.tex=.pdf)
+SOLUTIONS=$(EXERCISES:exercises%=solutions%)
+
+.PHONY: pdf exercises solutions watch watchexercises watchsolutions clean
+
+pdf : $(SOLUTIONS) $(EXERCISES)
+
+exercises : $(EXERCISES)
+
+solutions : $(SOLUTIONS)
+
+$(SOLUTIONS) : solutions%.pdf : exercises%.tex instructions.tex
+	{ echo "\\documentclass[answers,12pt,a4paper,pdftex]{exam}"; sed -e '1d' $<; } > $(patsubst %.pdf,%.tex,$@)
+	pdflatex -interaction=scrollmode $(patsubst %.pdf,%.tex,$@) | tee /dev/stderr | fgrep -q "Rerun to get cross-references right" && pdflatex -interaction=scrollmode $(patsubst %.pdf,%.tex,$@) || true
+	rm $(patsubst %.pdf,%,$@).[!p]*
+
+$(EXERCISES) : %.pdf : %.tex instructions.tex
+	pdflatex -interaction=scrollmode $< | tee /dev/stderr | fgrep -q "Rerun to get cross-references right" && pdflatex -interaction=scrollmode $< || true
+
+watch :
+	while true; do ! make -q pdf && make pdf; sleep 0.5; done
+
+watchexercises :
+	while true; do ! make -q exercises && make exercises; sleep 0.5; done
+
+watchsolutions :
+	while true; do ! make -q solutions && make solutions; sleep 0.5; done
+
+clean :
+	rm -f *~ *.aux *.log *.out
+
+cleanup : clean
+	rm -f $(SOLUTIONS) $(EXERCISES)
--- a/likelihood/exercises/UT_WBMW_Black_RGB.pdf
+++ b/likelihood/exercises/UT_WBMW_Black_RGB.pdf
--- a/likelihood/exercises/exercises01.tex
+++ b/likelihood/exercises/exercises01.tex
@@ -0,0 +1,192 @@
+\documentclass[12pt,a4paper,pdftex]{exam}
+
+\usepackage[german]{babel}
+\usepackage{pslatex}
+\usepackage[mediumspace,mediumqspace,Gray]{SIunits}      % \ohm, \micro
+\usepackage{xcolor}
+\usepackage{graphicx}
+\usepackage[breaklinks=true,bookmarks=true,bookmarksopen=true,pdfpagemode=UseNone,pdfstartview=FitH,colorlinks=true,citecolor=blue]{hyperref}
+
+%%%%% layout %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\usepackage[left=20mm,right=20mm,top=25mm,bottom=25mm]{geometry}
+\pagestyle{headandfoot}
+\ifprintanswers
+\newcommand{\stitle}{: L\"osungen}
+\else
+\newcommand{\stitle}{}
+\fi
+\header{{\bfseries\large \"Ubung 4\stitle}}{{\bfseries\large Statistik}}{{\bfseries\large 26. Oktober, 2015}}
+\firstpagefooter{Prof. Dr. Jan Benda}{Phone: 29 74573}{Email:
+jan.benda@uni-tuebingen.de}
+\runningfooter{}{\thepage}{}
+
+\setlength{\baselineskip}{15pt}
+\setlength{\parindent}{0.0cm}
+\setlength{\parskip}{0.3cm}
+\renewcommand{\baselinestretch}{1.15}
+
+%%%%% listings %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\usepackage{listings}
+\lstset{
+  language=Matlab,
+  basicstyle=\ttfamily\footnotesize,
+  numbers=left,
+  numberstyle=\tiny,
+  title=\lstname,
+  showstringspaces=false,
+  commentstyle=\itshape\color{darkgray},
+  breaklines=true,
+  breakautoindent=true,
+  columns=flexible,
+  frame=single,
+  xleftmargin=1em,
+  xrightmargin=1em,
+  aboveskip=10pt
+}
+
+%%%%% math stuff: %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\usepackage{amsmath}
+\usepackage{amssymb}
+\usepackage{bm} 
+\usepackage{dsfont}
+\newcommand{\naZ}{\mathds{N}}
+\newcommand{\gaZ}{\mathds{Z}}
+\newcommand{\raZ}{\mathds{Q}}
+\newcommand{\reZ}{\mathds{R}}
+\newcommand{\reZp}{\mathds{R^+}}
+\newcommand{\reZpN}{\mathds{R^+_0}}
+\newcommand{\koZ}{\mathds{C}}
+
+%%%%% page breaks %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\newcommand{\continue}{\ifprintanswers%
+\else
+\vfill\hspace*{\fill}$\rightarrow$\newpage%
+\fi}
+\newcommand{\continuepage}{\ifprintanswers%
+\newpage
+\else
+\vfill\hspace*{\fill}$\rightarrow$\newpage%
+\fi}
+\newcommand{\newsolutionpage}{\ifprintanswers%
+\newpage%
+\else
+\fi}
+
+%%%%% new commands %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\newcommand{\qt}[1]{\textbf{#1}\\}
+\newcommand{\pref}[1]{(\ref{#1})}
+\newcommand{\extra}{--- Zusatzaufgabe ---\ \mbox{}}
+\newcommand{\code}[1]{\texttt{#1}}
+
+
+%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\begin{document}
+
+\input{instructions}
+
+
+\begin{questions}
+
+%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\question \qt{Maximum Likelihood der Standardabweichung} 
+Wir wollen uns die Likelihood und die Log-Likelihood am Beispiel der
+Absch\"atzung der Standardabweichung verdeutlichen.
+\begin{parts}
+  \part Ziehe $n=50$ normalverteilte Zufallsvariablen mit Mittelwert $\mu=3$
+  und einer Standardabweichung $\sigma=2$.
+
+  \part
+  Plotte die Likelihood (aus dem Produkt der Wahrscheinlichkeiten) und
+  die Log-Likelihood (aus der Summe der logarithmierten
+  Wahrscheinlichkeiten) f\"ur die Standardabweichung als Parameter. Vergleiche die
+  Position der Maxima mit der aus den Daten berechneten Standardabweichung.
+
+  \part
+  Erh\"ohe $n$ auf 1000. Was passiert mit der Likelihood, was mit der Log-Likelihood? Warum?
+\end{parts}
+\begin{solution}
+  \lstinputlisting{mlestd.m}
+  \includegraphics[width=1\textwidth]{mlestd}
+\end{solution}
+
+\continue
+%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\question \qt{Maximum-Likelihood-Sch\"atzer einer Ursprungsgeraden} 
+In der Vorlesung haben wir folgende Formel f\"ur die Maximum-Likelihood
+Absch\"atzung der Steigung $\theta$ einer Ursprungsgeraden durch $n$ Datenpunkte $(x_i|y_i)$ mit Standardabweichung $\sigma_i$ hergeleitet:
+\[\theta = \frac{\sum_{i=1}^n \frac{x_iy_i}{\sigma_i^2}}{ \sum_{i=1}^n
+  \frac{x_i^2}{\sigma_i^2}} \]
+\begin{parts}
+  \part \label{mleslopefunc} Schreibe eine Funktion, die in einem $x$ und einem
+  $y$ Vektor die Datenpaare \"uberreicht bekommt und die Steigung der
+  Ursprungsgeraden, die die Likelihood maximiert, zur\"uckgibt
+  ($\sigma=\text{const}$).
+
+  \part
+  Schreibe ein Skript, das Datenpaare erzeugt, die um eine
+  Ursprungsgerade mit vorgegebener Steigung streuen. Berechne mit der
+  Funktion aus \pref{mleslopefunc} die Steigung aus den Daten,
+  vergleiche mit der wahren Steigung, und plotte die urspr\"ungliche
+  sowie die gefittete Gerade zusammen mit den Daten.
+
+  \part
+  Ver\"andere die Anzahl der Datenpunkte, die Steigung, sowie die
+  Streuung der Daten um die Gerade.
+\end{parts}
+\begin{solution}
+  \lstinputlisting{mleslope.m}
+  \lstinputlisting{mlepropfit.m}
+  \includegraphics[width=1\textwidth]{mlepropfit}
+\end{solution}
+
+
+%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
+\question \qt{Maximum-Likelihood-Sch\"atzer einer Wahrscheinlichkeitsdichtefunktion} 
+Verschiedene Wahrscheinlichkeitsdichtefunktionen haben Parameter, die
+nicht so einfach wie der Mittelwert und die Standardabweichung einer
+Normalverteilung direkt aus den Daten berechnet werden k\"onnen. Solche Parameter
+m\"ussen dann aus den Daten mit der Maximum-Likelihood-Methode gefittet werden.
+
+Um dies zu veranschaulichen ziehen wir uns diesmal nicht normalverteilte Zufallszahlen, sondern Zufallszahlen aus der Gamma-Verteilung.
+\begin{parts}
+  \part
+  Finde heraus welche \code{matlab} Funktion die
+  Wahrscheinlichkeitsdichtefunktion (probability density function) der
+  Gamma-Verteilung berechnet.
+
+  \part
+  Plotte mit Hilfe dieser Funktion die  Wahrscheinlichkeitsdichtefunktion
+  der Gamma-Verteilung f\"ur verschiedene Werte des (positiven) ``shape'' Parameters.
+  Den ``scale'' Parameter setzen wir auf Eins.
+
+  \part
+  Finde heraus mit welcher Funktion Gammaverteilte Zufallszahlen in
+  \code{matlab} gezogen werden k\"onnen. Erzeuge mit dieser Funktion
+  50 Zufallszahlen mit einem der oben geplotteten ``shape'' Parameter.
+
+  \part
+  Berechne und plotte ein normiertes Histogramm dieser Zufallszahlen.
+
+  \part
+  Finde heraus mit welcher \code{matlab}-Funktion eine beliebige
+  Verteilung (``distribution'') an die Zufallszahlen nach der
+  Maximum-Likelihood Methode gefittet werden kann. Wie wird diese
+  Funktion benutzt, um die Gammaverteilung an die Daten zu fitten?
+
+  \part
+  Bestimme mit dieser Funktion die Parameter der Gammaverteilung aus
+  den Zufallszahlen.
+
+  \part
+  Plotte anschlie{\ss}end die Gammaverteilung mit den gefitteten
+  Parametern.
+\end{parts}
+\begin{solution}
+  \lstinputlisting{mlepdffit.m}
+  \includegraphics[width=1\textwidth]{mlepdffit}
+\end{solution}
+
+\end{questions}
+
+\end{document}
--- a/likelihood/exercises/instructions.tex
+++ b/likelihood/exercises/instructions.tex
@@ -0,0 +1,41 @@
+\vspace*{-6.5ex}
+\begin{center}
+\textbf{\Large Einf\"uhrung in die wissenschaftliche Datenverarbeitung}\\[1ex]
+{\large Jan Grewe, Jan Benda}\\[-3ex]
+Abteilung Neuroethologie \hfill --- \hfill Institut f\"ur Neurobiologie \hfill --- \hfill \includegraphics[width=0.28\textwidth]{UT_WBMW_Black_RGB} \\
+\end{center}
+
+\ifprintanswers%
+\else
+
+% Die folgenden Aufgaben dienen der Wiederholung, \"Ubung und
+% Selbstkontrolle und sollten eigenst\"andig bearbeitet und gel\"ost
+% werden. Die L\"osung soll in Form eines einzelnen Skriptes (m-files)
+% im ILIAS hochgeladen werden. Jede Aufgabe sollte in einer eigenen
+% ``Zelle'' gel\"ost sein. Die Zellen \textbf{m\"ussen} unabh\"angig
+% voneinander ausf\"uhrbar sein. Das Skript sollte nach dem Muster:
+% ``variablen\_datentypen\_\{nachname\}.m'' benannt werden
+% (z.B. variablen\_datentypen\_mueller.m).
+
+\begin{itemize}
+\item \"Uberzeuge dich von jeder einzelnen Zeile deines Codes, dass
+  sie auch wirklich das macht, was sie machen soll! Teste dies mit
+  kleinen Beispielen direkt in der Kommandozeile.
+\item Versuche die L\"osungen der Aufgaben m\"oglichst in
+  sinnvolle kleine Funktionen herunterzubrechen.
+  Sobald etwas \"ahnliches mehr als einmal berechnet werden soll,
+  lohnt es sich eine Funktion daraus zu schreiben!
+\item Teste rechenintensive \code{for} Schleifen, Vektoren, Matrizen
+  zuerst mit einer kleinen Anzahl von Wiederholungen oder kleiner
+  Gr\"o{\ss}e, und benutze erst am Ende, wenn alles \"uberpr\"uft
+  ist, eine gro{\ss}e Anzahl von Wiederholungen oder Elementen, um eine gute
+  Statistik zu bekommen.
+\item Benutze die Hilfsfunktion von \code{matlab} (\code{help
+    commando} oder \code{doc commando}) und das Internet, um
+  herauszufinden, wie bestimmte \code{matlab} Funktionen zu verwenden
+  sind und was f\"ur M\"oglichkeiten sie bieten.
+  Auch zu inhaltlichen Konzepten bietet das Internet oft viele
+  Antworten!
+\end{itemize}
+
+\fi
--- a/likelihood/exercises/mlepdffit.m
+++ b/likelihood/exercises/mlepdffit.m
@@ -0,0 +1,30 @@
+% plot gamma pdfs:
+xx = 0.0:0.1:10.0;
+shapes = [ 1.0, 2.0, 3.0, 5.0];
+cc = jet(length(shapes) );
+for i=1:length(shapes)
+    yy = gampdf(xx, shapes(i), 1.0);
+    plot(xx, yy, '-', 'linewidth', 3, 'color', cc(i,:), ...
+        'DisplayName', sprintf('s=%.0f', shapes(i)) );
+    hold on;
+end
+
+% generate gamma distributed random numbers:
+n = 50;
+x = gamrnd(3.0, 1.0, n, 1);
+
+% histogram:
+[h,b] = hist(x, 15);
+h = h/sum(h)/(b(2)-b(1));
+bar(b, h, 1.0, 'DisplayName', 'data');
+
+% maximum likelihood estimate:
+p = mle(x, 'distribution', 'gamma');
+yy = gampdf(xx, p(1), p(2));
+plot(xx, yy, '-k', 'linewidth', 5, 'DisplayName', 'mle' );
+
+hold off;
+xlabel('x');
+ylabel('pdf');
+legend('show');
+savefigpdf(gcf, 'mlepdffit.pdf', 12, 8)
--- a/likelihood/exercises/mlepdffit.pdf
+++ b/likelihood/exercises/mlepdffit.pdf
--- a/likelihood/exercises/mlepropfit.m
+++ b/likelihood/exercises/mlepropfit.m
@@ -0,0 +1,31 @@
+m = 2.0;      % slope
+sigma = 1.0;  % standard deviation
+n = 100;      % number of data pairs
+
+% data pairs:
+x = 5.0*rand(n, 1);
+y = m*x + sigma*randn(n, 1);
+
+% fit:
+slope = mleslope(x, y);
+fprintf('slopes:\n');
+fprintf('original = %.2f\n', m);
+fprintf('     fit = %.2f\n', slope);
+
+% lines:
+xx = 0.0:0.1:5.0;     % x-axis values
+yorg = m*xx;
+yfit = slope*xx;
+
+% plot:
+plot(xx, yorg, '-r', 'linewidth', 5);
+hold on;
+plot(xx, yfit, '-g', 'linewidth', 2);
+plot(x, y, 'ob');
+hold off;
+legend('data', 'original', 'fit', 'Location', 'NorthWest');
+legend('boxoff')
+xlabel('x');
+ylabel('y');
+
+savefigpdf(gcf, 'mlepropfit.pdf', 12, 7);
--- a/likelihood/exercises/mlepropfit.pdf
+++ b/likelihood/exercises/mlepropfit.pdf
--- a/likelihood/exercises/mleslope.m
+++ b/likelihood/exercises/mleslope.m
@@ -0,0 +1,6 @@
+function slope = mleslope(x, y )
+% Compute the maximum likelihood estimate of the slope
+% of a line through the origin 
+% given the data pairs in the vectors x and y.
+    slope = sum(x.*y)/sum(x.*x);
+end
--- a/likelihood/exercises/mlestd.m
+++ b/likelihood/exercises/mlestd.m
@@ -0,0 +1,30 @@
+% draw random numbers:
+n = 50;
+mu = 3.0;
+sigma =2.0;
+x = randn(n,1)*sigma+mu;
+fprintf('              mean of the data is %.2f\n', mean(x))
+fprintf('standard deviation of the data is %.2f\n', std(x))
+
+% standard deviation as parameter:
+psigs = 1.0:0.01:3.0;
+% matrix with the probabilities for each x and psigs:
+lms = zeros(length(x), length(psigs));
+for i=1:length(psigs)
+    psig = psigs(i);
+    p = exp(-0.5*((x-mu)/psig).^2.0)/sqrt(2.0*pi)/psig;
+    lms(:,i) = p;
+end
+lm = prod(lms, 1);          % likelihood
+loglm = sum(log(lms), 1);   % log likelihood
+
+% plot likelihood of standard deviation:
+subplot(1, 2, 1);
+plot(psigs, lm );
+xlabel('standard deviation')
+ylabel('likelihood')
+subplot(1, 2, 2);
+plot(psigs, loglm);
+xlabel('standard deviation')
+ylabel('log likelihood')
+savefigpdf(gcf, 'mlestd.pdf', 15, 5);
--- a/likelihood/exercises/mlestd.pdf
+++ b/likelihood/exercises/mlestd.pdf
--- a/likelihood/exercises/savefigpdf.m
+++ b/likelihood/exercises/savefigpdf.m
@@ -0,0 +1,28 @@
+function savefigpdf( fig, name, width, height )
+% Saves figure fig in pdf file name.pdf with appropriately set page size
+% and fonts
+
+% default width:
+if nargin < 3
+    width = 11.7;
+end
+% default height:
+if nargin < 4
+    height = 9.0;
+end
+
+% paper:
+set( fig, 'PaperUnits', 'centimeters' );
+set( fig, 'PaperSize', [width height] );
+set( fig, 'PaperPosition', [0.0 0.0 width height] );
+set( fig, 'Color', 'white')
+
+% font:
+set( findall( fig, 'type', 'axes' ), 'FontSize', 12 )
+set( findall( fig, 'type', 'text' ), 'FontSize', 12 )
+
+% save:
+saveas( fig, name, 'pdf' )
+
+end
+
--- a/likelihood/lecture/likelihood-chapter.tex
+++ b/likelihood/lecture/likelihood-chapter.tex
@@ -18,6 +18,11 @@

 \section{TODO}
 \begin{itemize}
+\item Fitting psychometric functions:
+  Variable $x_i$, responses $r_i$ either 0 or 1.
+  $p(x_i, \theta)$ is Weibull or Boltzmann function.
+  Likelihood is $L = \prod p(x_i, \theta)^{r_i} (1-p(x_i, \theta))^{1-r_i}$.
+  Use fminsearch for fitting.
 \item GLM model fitting?
 \end{itemize}