From a507333cfbee1eed725742c6b2d06b2194d86f71 Mon Sep 17 00:00:00 2001 From: Jan Benda Date: Mon, 13 Nov 2017 22:52:00 +0100 Subject: [PATCH] started translating statistics chapter --- statistics/lecture/statistics-de.tex | 296 +++++++++++++++++++++++++++ statistics/lecture/statistics.tex | 175 +++++++--------- 2 files changed, 374 insertions(+), 97 deletions(-) create mode 100644 statistics/lecture/statistics-de.tex diff --git a/statistics/lecture/statistics-de.tex b/statistics/lecture/statistics-de.tex new file mode 100644 index 0000000..0d82212 --- /dev/null +++ b/statistics/lecture/statistics-de.tex @@ -0,0 +1,296 @@ +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +\chapter{\tr{Descriptive statistics}{Deskriptive Statistik}} + +Bei der deskriptiven Statistik werden Datens\"atze durch wenige Kenngr\"o{\ss}en +\"ubersichtlich dargestellt. + +Neben dem Histogramm, das die Wahrscheinlichkeitsverteilung der Daten +im Detail darstellt, werden u.a. folgende Kenngr\"o{\ss}en zur Beschreibung +der Daten eingesetzt: +\begin{description} +\item[Lagema{\ss}e] (``location'', ``central tendency''): + arithmetisches Mittel, Median, Modus (``Mode'') +\item[Streuungsma{\ss}e] (``spread'', ``dispersion''): Varianz, + Standardabweichung, Interquartilabstand,\linebreak Variations\-koeffizient + (``Coefficient of variation'') +\item[Shape]: Schiefe (``skewness''), W\"olbung (``kurtosis'') +\item[Zusammenhangsma{\ss}e]: Pearson Korrelationskoeffizient, + Spearman Rang\-korrelations\-koeffizient. +\end{description} + +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +\section{\tr{Mode, median, quartile, etc.}{Modus, Median, Quartil, etc.}} + +\begin{figure}[t] + \includegraphics[width=1\textwidth]{median} + \titlecaption{\label{medianfig} Median, Mittelwert und Modus einer + Wahrscheinlichkeitsverteilung.}{Links: Bei der symmetrischen, + unimodalen Normalverteilung sind Median, Mittelwert und Modus + identisch. Rechts: bei unsymmetrischen Verteilungen sind die drei + Gr\"o{\ss}en nicht mehr identisch. Der Mittelwert wird am + st\"arksten von einem starken Schwanz der Verteilung + herausgezogen. Der Median ist dagegen robuster, aber trotzdem + nicht unbedingt identsich mit dem Modus.} +\end{figure} + +Der \determ{Modus} ist der h\"aufigste Wert, d.h. die Position des Maximums +einer Wahrscheinlichkeitsverteilung. + +Der \determ{Median} teilt eine Liste von Messwerten so in zwei H\"alften, dass +die eine H\"alfte der Daten nicht gr\"o{\ss}er und die andere H\"alfte +nicht kleiner als der Median ist (\figref{medianfig}). + +\newpage +\begin{exercise}{mymedian.m}{} + \tr{Write a function \code{mymedian()} that computes the median of a vector.} + {Schreibe eine Funktion \code{mymedian()}, die den Median eines Vektors zur\"uckgibt.} +\end{exercise} + +\matlab{} stellt die Funktion \code{median()} zur Berechnung des Medians bereit. + +\newpage +\begin{exercise}{checkmymedian.m}{} + \tr{Write a script that tests whether your median function really + returns a median above which are the same number of data than + below. In particular the script should test data vectors of + different length.} {Schreibe ein Skript, das testet ob die + \code{mymedian()} Funktion wirklich die Zahl zur\"uckgibt, \"uber + der genauso viele Datenwerte liegen wie darunter. Das Skript sollte + insbesondere verschieden lange Datenvektoren testen.} +\end{exercise} + +\begin{figure}[t] + \includegraphics[width=1\textwidth]{quartile} + \titlecaption{\label{quartilefig} Median und Quartile einer Normalverteilung.}{} +\end{figure} + +Eine Wahrscheinlichkeitsverteilung kann weiter durch die Position +ihrer \determ[Quartil]{Quartile} charakterisiert werden. Zwischen den +Quartilen liegen jeweils 25\,\% der Daten +(\figref{quartilefig}). Perzentile erlauben eine feinere +Einteilung. Das 3. Quartil ist das 75. Perzentil, da 75\,\% der Daten +unterhalb des 3. Quartils liegen. + +% \begin{definition}[\tr{quartile}{Quartile}] +% Die Quartile Q1, Q2 und Q3 unterteilen die Daten in vier gleich +% gro{\ss}e Gruppen, die jeweils ein Viertel der Daten enthalten. +% Das mittlere Quartil entspricht dem Median. +% \end{definition} + +% \begin{exercise}{quartiles.m}{} +% \tr{Write a function that computes the first, second, and third quartile of a vector.} +% {Schreibe eine Funktion, die das erste, zweite und dritte Quartil als Vektor zur\"uckgibt.} +% \end{exercise} + +\begin{figure}[t] + \includegraphics[width=1\textwidth]{boxwhisker} + \titlecaption{\label{boxwhiskerfig} Box-Whisker Plot.}{Box-Whisker + Plots sind gut geeignet um mehrere unimodale Verteilungen + miteinander zu vergleichen. Hier sind es jeweils 40 + Zufallszahlen, die aus eine Normalverteilung gezogen worden sind.} +\end{figure} + +\determ{Box-Whisker Plots} sind eine h\"aufig verwendete Darstellung, +um die Verteilung unimodaler Daten zu visualisieren und vergleichbar +zu machen mit anderen Daten. Dabei wird um den Median eine Box vom +1. zum 3. Quartil gezeichnet. Die Whiskers deuten den minimalen und +den maximalen Datenwert an (\figref{boxwhiskerfig}). + +\begin{exercise}{boxwhisker.m}{} + \tr{Generate eine $40 \times 10$ matrix of random numbers and + illustrate their distribution in a box-whicker plot + (\code{boxplot()} function). How to interpret the plot?} + {Erzeuge ein $40 \times 10$ Matrix + von Zufallszahlen und illustriere ihre Verteilungen in einem + Box-Whisker Plot (\code{boxplot()} Funktion, lies die Hilfe!). Wie ist der + Box-Whisker Plot zu interpretieren? Was hat es mit den Ausreissern auf sich? + Wie kann man erreichen, dass die Whisker den kleinsten und den gr\"o{\ss}ten + Datenwert anzeigen? Warum sind die unterschiedlichen Box-Whiskers nicht alle gleich, + obwohl sie aus der selben Verteilung gezogen worden sind?} +\end{exercise} + +\section{\tr{Histogram}{Histogramm}} + +\determ[Histogramm]{Histogramme} z\"ahlen die H\"aufigkeit $n_i$ des +Auftretens von $N=\sum_{i=1}^M n_i$ Messwerten in $M$ +Messbereichsklassen $i$ (Bins). Die Klassen unterteilen den +Wertebereich meist in angrenzende und gleich gro{\ss}e Intervalle. +Histogramme k\"onnen verwendet werden, um die +\determ{Wahrscheinlichkeitsverteilung} der Messwerte abzusch\"atzen. + +\begin{figure}[t] + \includegraphics[width=1\textwidth]{diehistograms} + \titlecaption{\label{diehistogramsfig} Histogramme des Ergebnisses + von 100 oder 500 mal W\"urfeln.}{Links: das absolute Histogramm + z\"ahlt die Anzahl des Auftretens jeder Augenzahl. Rechts: + Normiert auf die Summe des Histogramms werden die beiden Messungen + untereinander als auch mit der theoretischen Verteilung $P=1/6$ + vergleichbar.} +\end{figure} + +Bei ganzzahligen Messdaten (z.B. die Augenzahl eines W\"urfels oder +die Anzahl von Aktionspotentialen in einem bestimmten Zeitfenster) +kann f\"ur jede auftretende Zahl eine Klasse definiert werden. Damit +die H\"ohe der Histogrammbalken unabh\"angig von der Anzahl der +Messwerte wird, wird das Histogram auf die Anzahl der +Messwerte normiert (\figref{diehistogramsfig}). Die H\"ohe der +Histogrammbalken gibt dann die Wahrscheinlichkeit $P(x_i)$ des +Auftretens der Gr\"o{\ss}e $x_i$ in der $i$-ten Klasse an +\[ P_i = \frac{n_i}{N} = \frac{n_i}{\sum_{i=1}^M n_i} \; . \] + +\begin{exercise}{rollthedie.m}{} + \tr{Write a function that simulates rolling a die $n$ times.} + {Schreibe eine Funktion, die das $n$-malige W\"urfeln mit einem W\"urfel simuliert.} +\end{exercise} + +\begin{exercise}{diehistograms.m}{} + Plotte Histogramme von 20, 100, und 1000-mal W\"urfeln. Benutze + \code[hist()]{hist(x)}, erzwinge sechs Bins mit + \code[hist()]{hist(x,6)}, oder setze selbst sinnvolle Bins. Normiere + anschliessend das Histogram. +\end{exercise} + + +\section{\tr{Probability density function}{Wahrscheinlichkeitsdichte}} + +Meistens haben wir es jedoch mit reellen Messgr\"o{\ss}en zu tun +(z.B. Gewicht von Tigern, L\"ange von Interspikeintervallen). Es +macht keinen Sinn dem Auftreten jeder einzelnen reelen Zahl eine +Wahrscheinlichkeit zuzuordnen, denn die Wahrscheinlichkeit genau den +Wert einer bestimmten reelen Zahl, z.B. 1.23456789, zu messen ist +gleich Null, da es unabz\"ahlbar viele reelle Zahlen gibt. + +Sinnvoller ist es dagegen, nach der Wahrscheinlichkeit zu fragen, eine +Zahl aus einem bestimmten Bereich zu erhalten, z.B. die +Wahrscheinlichkeit $P(1.2