diff --git a/statistics-fabian/assignments/day1_001.pdf b/statistics-fabian/assignments/day1_001.pdf deleted file mode 100644 index 752a33b..0000000 Binary files a/statistics-fabian/assignments/day1_001.pdf and /dev/null differ diff --git a/statistics-fabian/assignments/day1_002.pdf b/statistics-fabian/assignments/day1_002.pdf deleted file mode 100644 index f923151..0000000 Binary files a/statistics-fabian/assignments/day1_002.pdf and /dev/null differ diff --git a/statistics-fabian/assignments/example001.csv b/statistics-fabian/assignments/example001.csv deleted file mode 100755 index 3f3d985..0000000 --- a/statistics-fabian/assignments/example001.csv +++ /dev/null @@ -1,43 +0,0 @@ -MAO,Diagnosis -6.8,I -4.1,I -7.3,I -14.2,I -18.8,I -9.9,I -7.4,I -11.9,I -5.2,I -7.8,I -7.8,I -8.7,I -12.7,I -14.5,I -10.7,I -8.4,I -9.7,I -10.6,I -7.8,II -4.4,II -11.4,II -3.1,II -4.3,II -10.1,II -1.5,II -7.4,II -5.2,II -10,II -3.7,II -5.5,II -8.5,II -7.7,II -6.8,II -3.1,II -6.4,III -10.8,III -1.1,III -2.9,III -4.5,III -5.8,III -9.4,III -6.8,III diff --git a/statistics-fabian/assignments/example002.csv b/statistics-fabian/assignments/example002.csv deleted file mode 100755 index dd1ba9c..0000000 --- a/statistics-fabian/assignments/example002.csv +++ /dev/null @@ -1,186 +0,0 @@ -Weight,Sex -1607,m -1157,m -1248,m -1310,m -1398,m -1237,m -1232,m -1343,m -1380,m -1274,m -1245,m -1286,m -1508,m -1105,m -1123,m -1198,m -1300,m -1249,m -1185,m -915,m -1345,m -1107,m -1357,m -1227,m -1205,m -1435,m -1289,m -1093,m -1211,m -1260,m -1193,m -1330,m -1130,m -1357,m -1193,m -1232,m -1321,m -1260,m -1380,m -1230,m -1136,m -1029,m -1223,m -1240,m -1264,m -1020,m -1415,m -1410,m -1275,m -1230,m -1085,m -1048,m -1181,m -1103,m -1165,m -1547,m -1173,m -1660,m -1307,m -1535,m -1315,m -1257,m -1424,m -1309,m -1170,m -1412,m -1270,m -1230,m -1233,m -1561,m -1193,m -1272,m -1355,m -1137,m -1354,m -1110,m -1265,m -1407,m -1227,m -1330,m -1222,m -1305,m -1475,m -1177,m -1337,m -1145,m -1070,m -1305,m -1085,m -1303,m -1390,m -1532,m -1238,m -1233,m -1280,m -1245,m -1459,m -1157,m -1302,m -1385,m -1310,m -1342,m -1303,m -1248,m -1115,m -1365,m -1227,m -1353,m -1125,f -1027,f -1112,f -983,f -1090,f -1247,f -1045,f -983,f -972,f -1045,f -937,f -1245,f -1200,f -1270,f -1200,f -1145,f -1090,f -1040,f -1343,f -1010,f -1095,f -1180,f -1168,f -1095,f -1040,f -1235,f -1050,f -1038,f -1046,f -1255,f -1228,f -1000,f -1225,f -1220,f -1085,f -1067,f -1006,f -1138,f -1175,f -1252,f -1037,f -958,f -1020,f -1068,f -1107,f -1317,f -952,f -1056,f -1203,f -1183,f -1392,f -1130,f -1284,f -996,f -1228,f -1087,f -1035,f -1170,f -1064,f -1250,f -1129,f -1088,f -1037,f -1117,f -1095,f -1027,f -1027,f -1190,f -1153,f -1037,f -1120,f -1212,f -1024,f -1135,f -1177,f -1096,f -1114,f diff --git a/statistics/exercises/UT_WBMW_Black_RGB.pdf b/statistics/exercises/UT_WBMW_Black_RGB.pdf new file mode 100644 index 0000000..9aed921 Binary files /dev/null and b/statistics/exercises/UT_WBMW_Black_RGB.pdf differ diff --git a/statistics/exercises/descriptivestatistics-01.tex b/statistics/exercises/descriptivestatistics-01.tex new file mode 100644 index 0000000..9800e54 --- /dev/null +++ b/statistics/exercises/descriptivestatistics-01.tex @@ -0,0 +1,162 @@ +\documentclass[12pt,a4paper,pdftex]{exam} + +\usepackage[german]{babel} +\usepackage{natbib} +\usepackage{graphicx} +\usepackage[small]{caption} +\usepackage{sidecap} +\usepackage{pslatex} +\usepackage{amsmath} +\usepackage{amssymb} +\setlength{\marginparwidth}{2cm} +\usepackage[breaklinks=true,bookmarks=true,bookmarksopen=true,pdfpagemode=UseNone,pdfstartview=FitH,colorlinks=true,citecolor=blue]{hyperref} + +%%%%% text size %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +\usepackage[left=20mm,right=20mm,top=25mm,bottom=25mm]{geometry} +\pagestyle{headandfoot} +\header{{\bfseries\large \"Ubung 1}}{{\bfseries\large Deskriptive Statistik}}{{\bfseries\large 19. Oktober, 2015}} +\firstpagefooter{Prof. Dr. Jan Benda}{Phone: 29 74573}{Email: +jan.grewe@uni-tuebingen.de} +\runningfooter{}{\thepage}{} + +\setlength{\baselineskip}{15pt} +\setlength{\parindent}{0.0cm} +\setlength{\parskip}{0.3cm} +\renewcommand{\baselinestretch}{1.15} + +\newcommand{\qt}[1]{\textbf{#1}\\} +\newcommand{\pref}[1]{(\ref{#1})} +\newcommand{\extra}{--- Zusatzaufgabe ---\ \mbox{}} +\newcommand{\code}[1]{\texttt{#1}} + +\newcommand{\continue}{\ifprintanswers% +\else +\vfill\hspace*{\fill}$\rightarrow$\newpage% +\fi} +\newcommand{\continuepage}{\ifprintanswers% +\newpage +\else +\vfill\hspace*{\fill}$\rightarrow$\newpage% +\fi} +\newcommand{\newsolutionpage}{\ifprintanswers% +\newpage% +\else +\fi} + + +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +\begin{document} + +\vspace*{-6.5ex} +\begin{center} +\textbf{\Large Einf\"uhrung in die wissenschaftliche Datenverarbeitung}\\[1ex] +{\large Jan Grewe, Jan Benda}\\[-3ex] +Abteilung Neuroethologie \hfill --- \hfill Institut f\"ur Neurobiologie \hfill --- \hfill \includegraphics[width=0.28\textwidth]{UT_WBMW_Black_RGB} \\ +\end{center} + +% Die folgenden Aufgaben dienen der Wiederholung, \"Ubung und +% Selbstkontrolle und sollten eigenst\"andig bearbeitet und gel\"ost +% werden. Die L\"osung soll in Form eines einzelnen Skriptes (m-files) +% im ILIAS hochgeladen werden. Jede Aufgabe sollte in einer eigenen +% ``Zelle'' gel\"ost sein. Die Zellen \textbf{m\"ussen} unabh\"angig +% voneinander ausf\"uhrbar sein. Das Skript sollte nach dem Muster: +% ``variablen\_datentypen\_\{nachname\}.m'' benannt werden +% (z.B. variablen\_datentypen\_mueller.m). + +\begin{itemize} +\item \"Uberzeuge dich von jeder einzelnen Zeile deines Codes, dass sie +auch wirklich das macht, was sie machen soll! Teste dies mit kleinen +Beispielen direkt in der Kommandozeile. +\item Versuche die L\"osungen der folgenden Aufgaben m\"oglichst in +sinnvolle kleine Funktionen herunterzubrechen. +\item Sobald etwas \"ahnliches mehr als einmal berechnet werden soll, +lohnt es sich eine Funktion daraus zu schreiben! +\item Teste rechenintensive \code{for} Schleifen zuerst mit einer kleinen +Anzahl von Wiederholungen, und benutze erst am Ende, wenn alles +stimmt, eine gro{\ss}e Anzahl von Wiederholungen, um eine gute +Statistik zu bekommen. +\item Benutze die Hilfsfunktion von matlab und das Internet, um +herauszufinden wie bestimmte \code{matlab} Funktionen zu verwenden +sind und was f\"ur M\"oglichkeiten sie bieten. +\item Auch zu inhaltlichen Konzepten bietet das Internet oft viele Antworten! +\end{itemize} + + +\begin{questions} + +\question \qt{Wahrscheinlichkeiten eines W\"urfels I} +Der Computer kann auch als W\"urfel verwendet werden! +\begin{parts} + \part Simuliere 10000 W\"urfe mit dem W\"urfel durch Erzeugung von + ganzzahligen Zufallszahlen mit den Augenzahlen $x_i = 1, 2, \ldots 6$ . + \part Berechne die Wahrscheinlichkeit $P(3)$ + des Auftretens der Augenzahl drei durch Bestimmung der Anzahl der Dreien im Datensatz.\\ + Entspricht das Ergebnis deiner Erwartung?\\ + \"Uberpr\"ufe auch die Wahrscheinlichkeit $P(x_i)$ der anderen Zahlen.\\ + Ist das ein fairer W\"urfel? + \part Speicher die berechneten Wahrscheinlichkeiten $P(x_i)$ f\"ur das Auftreten der + gew\"urfelten Zahlen in einem Vektor und benutze die \code{bar} Funktion, + um diese Wahrscheinlichkeiten als Funktion der Augenzahl zu plotten. + \part Erstelle in einem weiterem Plot ein entsprechendes normiertes Histogramm + mit der \code{hist} Funktion. + \part \extra Wie k\"onnte man einen gezinkten W\"urfel simulieren, bei dem die sechs + dreimal so h\"aufig wie die anderen Zahlen gew\"urfelt wird?\\ + Fertige von diesem W\"urfel ein Histogram aus 10000 W\"urfen an. +\end{parts} + + +\continue +\question \qt{Wahrscheinlichkeiten eines W\"urfels II} +Wir werten nun das Verhalten mehrerer W\"urfel aus. +\begin{parts} + \part Simuliere 20 W\"urfel, von denen jeder 100 mal geworfen wird + (jeder W\"urfel wird mit dem gleichen Zufallsgenerator simuliert). + \part Berechne aus diesem Datensatz f\"ur jeden W\"urfel ein normiertes Histogramm. + \part Bestimme den Mittelwert und die Standardabweichung f\"ur jede + Augenzahl gemittelt \"uber die W\"urfel. + \part Stelle das Ergebnis mit einem S\"aulenplot mit Fehlerbalken dar + (\code{bar} mit \code{errorbar} Funktionen). +\end{parts} + + +\question \qt{Wahrscheinlichkeiten der Normalverteilung} +Mit den folgenden Aufgaben wollen wir bestimmen, welcher Anteil eines +normalverteilten Datensatzes in bestimmten Grenzen symmetrisch um den +Mittelwert enthalten ist. +\begin{parts} + \part Erzeuge einen Datensatz $X = (x_1, x_2, ... x_n)$ aus + $n=10000$ normalverteilten Zufallszahlen mit Mittelwert $\mu=0$ und + Standardabweichung $\sigma=1$. + \part \label{onesigma} Wieviele dieser Daten sind maximal eine Standardabweichung vom Mittelwert entfernt?\\ + D.h. wieviele Datenwerte $x_i$ haben den Wert $-\sigma < x_i < +\sigma$?\\ + Wie gro{\ss} ist also die Wahrscheinlichkeit $P_{\pm\sigma}$ einen + Wert in diesem Interval zu erhalten? + \part \label{probintegral} Berechne numerisch diese + Wahrscheinlichkeit aus dem entsprechenden Integral + \[ P_{\pm\sigma}=\int_{x=\mu-\sigma}^{x=\mu+\sigma} p_g(x) \, dx \] + \"uber die Normalverteilung + \[ p_g(x) = + \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2} \; . \] + \"Uberpr\"ufe zuerst, ob tats\"achlich + \[ \int_{-\infty}^{+\infty} p_g(x) \, dx = 1 \; . \] + Warum muss das so sein? + \part Welcher Anteil der Daten ist in den Intervallen $\pm2\sigma$ sowie $\pm3\sigma$ + enthalten? + \part \label{givenfraction} Finde heraus in welchem Interval symmetrisch um den Mittelwert + 50\,\%, 90\,\%, 95\,\% bzw. 99\,\% der Daten enhalten sind. + \part Was passiert mit der Wahrscheinlichkeit eine Zahl in einem bestimmten Interval + zu ziehen, wenn dieses Intervall immer kleiner wird?\\ + Schreibe ein Programm, das dies illustriert.\\ + Wie gro{\ss} ist die Wahrscheinlichkeit $P(x_i=0.1234)$? + \part \extra Modifiziere den Code der Teilaufgaben \pref{onesigma} + -- \pref{givenfraction} so, dass er f\"ur Datens\"atze mit + beliebigen Mittelwerten und Standardabweichungen funktioniert.\\ + Teste den Code mit entsprechenden Zufallszahlen.\\ + Wie bekommt man mit \code{randn} Zufallszahlen mit beliebiger + Standardabweichung und Mittelwerten? +\end{parts} + + +\end{questions} + +\end{document} \ No newline at end of file diff --git a/statistics/exercises/descriptivestatistics-02.tex b/statistics/exercises/descriptivestatistics-02.tex new file mode 100644 index 0000000..3f92aa5 --- /dev/null +++ b/statistics/exercises/descriptivestatistics-02.tex @@ -0,0 +1,164 @@ +\documentclass[12pt,a4paper,pdftex]{exam} + +\usepackage[german]{babel} +\usepackage{natbib} +\usepackage{graphicx} +\usepackage[small]{caption} +\usepackage{sidecap} +\usepackage{pslatex} +\usepackage{amsmath} +\usepackage{amssymb} +\setlength{\marginparwidth}{2cm} +\usepackage[breaklinks=true,bookmarks=true,bookmarksopen=true,pdfpagemode=UseNone,pdfstartview=FitH,colorlinks=true,citecolor=blue]{hyperref} + +%%%%% text size %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +\usepackage[left=20mm,right=20mm,top=25mm,bottom=25mm]{geometry} +\pagestyle{headandfoot} +\header{{\bfseries\large \"Ubung 2}}{{\bfseries\large Deskriptive Statistik}}{{\bfseries\large 19. Oktober, 2015}} +\firstpagefooter{Prof. Dr. Jan Benda}{Phone: 29 74573}{Email: +jan.grewe@uni-tuebingen.de} +\runningfooter{}{\thepage}{} + +\setlength{\baselineskip}{15pt} +\setlength{\parindent}{0.0cm} +\setlength{\parskip}{0.3cm} +\renewcommand{\baselinestretch}{1.15} + +\newcommand{\qt}[1]{\textbf{#1}\\} +\newcommand{\pref}[1]{(\ref{#1})} +\newcommand{\extra}{--- Zusatzaufgabe ---\ \mbox{}} +\newcommand{\code}[1]{\texttt{#1}} + +\newcommand{\continue}{\ifprintanswers% +\else +\vfill\hspace*{\fill}$\rightarrow$\newpage% +\fi} +\newcommand{\continuepage}{\ifprintanswers% +\newpage +\else +\vfill\hspace*{\fill}$\rightarrow$\newpage% +\fi} +\newcommand{\newsolutionpage}{\ifprintanswers% +\newpage% +\else +\fi} + + +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +\begin{document} + +\vspace*{-6.5ex} +\begin{center} +\textbf{\Large Einf\"uhrung in die wissenschaftliche Datenverarbeitung}\\[1ex] +{\large Jan Grewe, Jan Benda}\\[-3ex] +Abteilung Neuroethologie \hfill --- \hfill Institut f\"ur Neurobiologie \hfill --- \hfill \includegraphics[width=0.28\textwidth]{UT_WBMW_Black_RGB} \\ +\end{center} + +% Die folgenden Aufgaben dienen der Wiederholung, \"Ubung und +% Selbstkontrolle und sollten eigenst\"andig bearbeitet und gel\"ost +% werden. Die L\"osung soll in Form eines einzelnen Skriptes (m-files) +% im ILIAS hochgeladen werden. Jede Aufgabe sollte in einer eigenen +% ``Zelle'' gel\"ost sein. Die Zellen \textbf{m\"ussen} unabh\"angig +% voneinander ausf\"uhrbar sein. Das Skript sollte nach dem Muster: +% ``variablen\_datentypen\_\{nachname\}.m'' benannt werden +% (z.B. variablen\_datentypen\_mueller.m). + + +\begin{itemize} +\item \"Uberzeuge dich von jeder einzelnen Zeile deines Codes, dass sie +auch wirklich das macht, was sie machen soll! Teste dies mit kleinen +Beispielen direkt in der Kommandozeile. +\item Versuche die L\"osungen der folgenden Aufgaben m\"oglichst in +sinnvolle kleine Funktionen herunterzubrechen. +\item Sobald etwas \"ahnliches mehr als einmal berechnet werden soll, +lohnt es sich eine Funktion daraus zu schreiben! +\item Teste rechenintensive \code{for} Schleifen zuerst mit einer kleinen +Anzahl von Wiederholungen, und benutze erst am Ende, wenn alles +stimmt, eine gro{\ss}e Anzahl von Wiederholungen, um eine gute +Statistik zu bekommen. +\item Benutze die Hilfsfunktion von matlab und das Internet, um +herauszufinden wie bestimmte \code{matlab} Funktionen zu verwenden +sind und was f\"ur M\"oglichkeiten sie bieten. +\item Auch zu inhaltlichen Konzepten bietet das Internet oft viele Antworten! +\end{itemize} + +\begin{questions} + +\question \qt{Zentraler Grenzwertsatz} +Der Zentrale Grenzwertsatz besagt, dass die Summe von unabh\"angigen +und identisch verteilten (i.i.d. = independent and identically +distributed) Zufallsvariablen gegen die Normalverteilung konvergiert. + +Den Zentralen Grenzwertsatz wollen wir uns im Folgenden veranschaulichen. +\begin{parts} + \part Versuche dir klar zu machen, was der Zentrale Grenzwertsatz + bedeutet, und wie du vorgehen k\"onntest ein Programm zu + schreiben, das den Grenzwertsatz illustriert. + \part Erzeuge 10000 zwischen 0 und 1 gleichverteilte Zufallszahlen + (Funktion \code{rand}). + \part Plotte deren Wahrscheinlichkeitsdichte (normiertes Histogram). + \part Erzeuge weitere 10000 gleichverteilte Zufallszahlen und + addiere diese zu den bereits vorhandenen auf. + \part Plotte die Wahrscheinlichkeitsdichte der aufsummierten + Zufallszahlen. + \part Wiederhole Schritt (d) und (e) viele Male. + \part Vergleiche in einer Grafik die Wahrscheinlichkeitsdichte der + aufsummierten Zufallszahlen mit der Gaussfunktion + \[ p_g(x) = + \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\] + mit dem Mittelwert $\mu$ und der Standardabweichung $\sigma$ der + aufsummierten Zufallszahlen. + \part Wie \"andert sich der Mittelwert und die + Standardabweichung/Varianz + der aufsummierten Zufallszahlen?\\ + Wie h\"angen diese mit den Werten der urspr\"unglichen Verteilung + zusammen? + \part \extra \"Uberpr\"ufe den Grenzwertsatz in gleicher Weise mit exponentiell + verteilten Zufallszahlen (Funktion \code{rande}). +\end{parts} + + +\question \qt{Random Walk} +Im folgenden wollen wir einige Eigenschaften des Random Walks bestimmen. +\begin{parts} + \part Schreibe eine Funktion, die einen einzelnen Random Walk mit + Startwert 0 f\"ur $n$ Schritte und Wahrscheinlichkeit $p$ f\"ur + einen positiven Schritt als Vektor zur\"uckgibt. + \part Visualisiere jeweils 10 Random Walks mit $p=0.5$ zusammen in einem Plot + f\"ur $n=100$, $n=1000$ und $n=10000$ (drei Plots).\\ + Sch\"atze aus den Abbildungen ab, wie sich der Mittelwert und die Standardabweichung + des Random Walks mit der Zeit (Schritte) sich entwickelt. + \part \"Uberpr\"uefe deine Hypothese zum Mittelwert und zur + Standardabweichung, indem du von $m$ Random Walks ($m \ge 10$) f\"ur + jeden z.B. zehnten Schritt den Mittelwert und die Standardabweichung + \"uber die Positionen der $m$ Random Walks berechnest.\\ + Wie h\"angt also die Standardabweichung von der Anzahl der Schritte + ab? Wie entwickelt sich die Standardabweichung f\"ur eine sehr + gro{\ss}e Anzahl von Schritten? + \part \extra Erstelle eine Grafik, die die Verteilung der Position eines Random Walkers + zu drei verschiedenen Zeitpunkten zeigt. +\end{parts} + + +\question \qt{\extra 2D Random Walk} +Bisher hat sich unser Random Walker nur in einer Dimension bewegt +(nur vorw\"arts oder r\"uckw\"arts). Er kann aber auch in mehreren Dimensionen laufen!\\ +In zwei Dimensionen wird dazu in jedem Schritt eine weitere +Zufallszahl gezogen, die bestimmt ob er einen Schritt nach links oder +rechts gemacht hat. Die Bewegung nach vorne/hinten bzw. links/rechts +sind unabh\"angig voneinander. +\begin{parts} + \part Wie kann unter Verwendung unserer Funktion f\"ur den + eindimensionalen Random Walk ein zweidimensionaler Random Walk + simuliert werden? + \part Erstelle h\"ubsche Bilder, die zweidimensionalen Random + Walks verschiedener L\"ange (bis zu mindestens $n=1000000$) illustrieren. + \part Animationen sind auch sch\"on! z.B. mit dem \code{pause} Befehl. + \part Anstatt einfach den Weg des Random Walks zu zeichnen, kann man + sich auch merken, wie oft er an jeder Stelle vorbeigekommen ist und + mit einem Farbcode plotten. +\end{parts} + +\end{questions} + +\end{document} \ No newline at end of file diff --git a/statistics/lecture/descriptivestatistics.tex b/statistics/lecture/descriptivestatistics.tex index 3ae32ac..989dc0f 100644 --- a/statistics/lecture/descriptivestatistics.tex +++ b/statistics/lecture/descriptivestatistics.tex @@ -74,8 +74,8 @@ \newenvironment{definition}[1][]{\medskip\noindent\textbf{Definition}\ifthenelse{\equal{#1}{}}{}{ #1}:\newline}% {\medskip} -%\newcommand{\showlisting}{yes} -\newcommand{\showlisting}{no} +\newcommand{\showlisting}{yes} +%\newcommand{\showlisting}{no} \newcounter{theexercise} \setcounter{theexercise}{1} \newenvironment{exercise}[1][]{\medskip\noindent\textbf{\tr{Exercise}{\"Ubung}