%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \chapter{\tr{Descriptive statistics}{Deskriptive Statistik}} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %\section{Statistics of real-valued data} \begin{itemize} \item Location, central tendency \begin{itemize} \item arithmetic mean \item median \item mode \end{itemize} \item Spread, dispersion \begin{itemize} \item variance \item standard deviation \item interquartile range \item coefficient of variation \item minimum, maximum \end{itemize} \item Shape \begin{itemize} \item skewnees \item kurtosis \end{itemize} \item Dependence \begin{itemize} \item Pearson correlation coefficient \item Spearman's rank correlation coefficient \end{itemize} \end{itemize} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \section{\tr{Median, quartile, etc.}{Median, Quartil, etc.}} \begin{figure}[t] \includegraphics[width=1\textwidth]{median} \caption{\label{medianfig} Median.} \end{figure} \begin{definition}[\tr{median}{Median}] \tr{Half of the observations $X=(x_1, x_2, \ldots, x_n)$ are larger than the median and half of them are smaller than the median.} {Der Median teilt eine Liste von Messwerten so in zwei H\"alften, dass die eine H\"alfte der Daten nicht gr\"o{\ss}er und die andere H\"alfte nicht kleiner als der Median ist.} \end{definition} \begin{exercise}{mymedian.m}{} \tr{Write a function that computes the median of a vector.} {Schreibe eine Funktion, die den Median eines Vektors zur\"uckgibt.} \end{exercise} \matlab{} stellt die Funktion \code{median()} zur Berechnung des Medians bereit. \begin{exercise}{checkmymedian.m}{} \tr{Write a script that tests whether your median function really returns a median above which are the same number of data than below. In particular the script should test data vectors of different length.} {Schreibe ein Skript, das testet ob die \code{mymedian} Funktion wirklich die Zahl zur\"uckgibt, \"uber der genauso viele Datenwerte liegen wie darunter. Das Skript sollte insbesondere verschieden lange Datenvektoren testen.} \end{exercise} \begin{figure}[t] \includegraphics[width=1\textwidth]{quartile} \caption{\label{quartilefig} Median und Quartile einer Normalverteilung.} \end{figure} % \begin{definition}[\tr{quartile}{Quartile}] % Die Quartile Q1, Q2 und Q3 unterteilen die Daten in vier gleich % gro{\ss}e Gruppen, die jeweils ein Viertel der Daten enthalten. % Das mittlere Quartil entspricht dem Median. % \end{definition} % \begin{exercise}{quartiles.m}{} % \tr{Write a function that computes the first, second, and third quartile of a vector.} % {Schreibe eine Funktion, die das erste, zweite und dritte Quartil als Vektor zur\"uckgibt.} % \end{exercise} \section{\tr{Histogram}{Histogramm}} Histogramme z\"ahlen die H\"aufigkeit $n_i$ des Auftretens von $N=\sum_{i=1}^M n_i$ Messwerten in $M$ Messbereichsklassen $i$ (Bins). Die Klassen unterteilen den Wertebereich meist in angrenzende und gleich gro{\ss}e Intervalle. Histogramme k\"onnen verwendet werden, um die Wahrscheinlichkeitsverteilung der Messwerte abzusch\"atzen. \begin{exercise}{rollthedie.m}{} \tr{Write a function that simulates rolling a die $n$ times.} {Schreibe eine Funktion, die das $n$-malige W\"urfeln mit einem W\"urfel simuliert.} \end{exercise} \begin{exercise}{diehistograms.m}{} \tr{Plot histograms from rolling the die 20, 100, 1000 times. Use the plain hist(x) function, force 6 bins via hist( x, 6 ), and set meaningfull bins positions.} {Plotte Histogramme von 20, 100, und 1000-mal w\"urfeln. Benutze \code{hist(x)}, erzwinge sechs Bins mit \code{hist(x,6)}, oder setze selbst sinnvolle Bins. Normiere anschliessend das Histogram auf geeignete Weise.} \end{exercise} \begin{figure}[t] \includegraphics[width=1\textwidth]{diehistograms} \caption{\label{diehistogramsfig} \tr{Histograms of rolling a die 100 or 500 times. Left: plain histograms counting the frequency of the six possible outcomes. Right: the same data normalized to their sum.}{Histogramme des Ergebnisses von 100 oder 500 mal W\"urfeln. Links: das absolute Histogramm z\"ahlt die Anzahl des Auftretens jeder Augenzahl. Rechts: Normiert auf die Summe des Histogramms werden die beiden Messungen untereinander als auch mit der theoretischen Verteilung $P=1/6$ vergleichbar.}} \end{figure} Bei ganzzahligen Messdaten (z.B. die Augenzahl eines W\"urfels) kann f\"ur jede auftretende Zahl eine Klasse definiert werden. Damit die H\"ohe der Histogrammbalken unabh\"angig von der Anzahl der Messwerte wird, normiert man das Histogram auf die Anzahl der Messwerte. Die H\"ohe der Histogrammbalken gibt dann die Wahrscheinlichkeit $P(x_i)$ des Auftretens der Gr\"o{\ss}e $x_i$ in der $i$-ten Klasse an \[ P_i = \frac{n_i}{N} = \frac{n_i}{\sum_{i=1}^M n_i} \; . \] \section{\tr{Probability density function}{Wahrscheinlichkeitsdichte}} Meistens haben wir es jedoch mit reellen Messgr\"o{\ss}en zu tun. \begin{exercise}{gaussianbins.m}{} \tr{Draw 100 random data from a Gaussian distribution and plot histograms with different bin sizes of the data.} {Ziehe 100 normalverteilte Zufallszahlen und erzeuge Histogramme mit unterschiedlichen Klassenbreiten. Was f\"allt auf?} \end{exercise} \begin{figure}[t] \includegraphics[width=1\textwidth]{pdfhistogram} \caption{\label{pdfhistogramfig} \tr{Histograms of normally distributed data with different bin sizes.}{Histogramme mit verschiednenen Klassenbreiten eines Datensatzes von normalverteilten Messwerten. Links: Die H\"ohe des absoluten Histogramms h\"angt von der Klassenbreite ab. Rechts: Bei auf das Integral normierten Histogrammen werden auch unterschiedliche Klassenbreiten untereinander vergleichbar und auch mit der theoretischen Wahrschinlichkeitsdichtefunktion (blau).}} \end{figure} Histogramme von reellen Messwerten m\"ussen auf das Integral 1 normiert werden, so dass das Integral (nicht die Summe) \"uber das Histogramm eins ergibt --- denn die Wahrscheinlichkeit, dass irgendeiner der Messwerte auftritt mu{\ss} Eins sein. Das Integral ist die Fl\"ache des Histogramms. Diese setzt sich zusammen aus der Fl\"ache der einzelnen Histogrammbalken. Diese haben die H\"ohe $n_i$ und die Breite $\Delta x$. Die Gesamtfl\"ache $A$ des Histogramms ist also \[ A = \sum_{i=1}^N ( n_i \cdot \Delta x ) = \Delta x \sum_{i=1}^N n_i \] und das normierte Histogramm hat die H\"ohe \[ p(x_i) = \frac{n_i}{\Delta x \sum_{i=1}^N n_i} \] Es muss also nicht nur durch die Summe, sondern auch durch die Breite $\Delta x$ der Klassen geteilt werden. $p(x_i)$ kann keine Wahrscheinlichkeit sein, da $p(x_i)$ nun eine Einheit hat --- das Inverse der Einheit der Messgr\"osse $x$. Man spricht von einer Wahrscheinlichkeitsdichte. \begin{figure}[t] \includegraphics[width=1\textwidth]{pdfprobabilities} \caption{\label{pdfprobabilitiesfig} Wahrscheinlichkeiten bei einer Wahrscheinlichkeitsdichtefunktion.} \end{figure} \begin{exercise}{gaussianpdf.m}{gaussianpdf.out} \tr{Plot the Gaussian probability density}{Plotte die Gauss'sche Wahrscheinlichkeitsdichte } \[ p_g(x) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\] \tr{What does it mean?}{Was bedeutet die folgende Wahrscheinlichkeit?} \[ P(x_1 < x < x2) = \int\limits_{x_1}^{x_2} p(x) \, dx \] \tr{How large is}{Wie gro{\ss} ist} \[ \int\limits_{-\infty}^{+\infty} p(x) \, dx \; ?\] \tr{Why?}{Warum?} \end{exercise} \begin{exercise}{boxwhisker.m}{} \tr{Generate eine $40 \times 10$ matrix of random numbers and illustrate their distribution in a box-whicker plot (\code{boxplot()} function). How to interpret the plot?} {Erzeuge ein $40 \times 10$ Matrix von Zufallszahlen und illustriere ihre Verteilungen in einem Box-Whisker Plot (\code{boxplot()} Funktion, lies die Hilfe!). Wie ist der Box-Whisker Plot zu interpretieren? Was hat es mit den Ausreissern auf sich? Wie kann man erreichen, dass die Whisker den kleinsten und den gr\"o{\ss}ten Datenwert anzeigen? Warum sind die unterschiedlichen Box-Whiskers nicht alle gleich, obwohl sie aus der selben Verteilung gezogen worden sind?} \end{exercise} \begin{figure}[t] \includegraphics[width=1\textwidth]{boxwhisker} \caption{\label{boxwhiskerfig} Box-whisker plots illustrate distributions.} \end{figure} \section{\tr{Correlations}{Korrelationen}} \begin{figure}[t] \includegraphics[width=1\textwidth]{correlation} \caption{\label{correlationfig} Korrelationen zwischen zwei Datens\"atzen $x$ und $y$.} \end{figure} Bisher haben wir Eigenschaften einer einzelnen Me{\ss}gr\"o{\ss}e angeschaut. Bei mehreren Me{\ss}gr\"o{\ss}en, kann nach Abh\"angigkeiten zwischen den beiden Gr\"o{\ss}en gefragt werden. Der Korrelationskoeffizient \[ r_{x,y} = \frac{Cov(x,y)}{\sigma_x \sigma_y} = \frac{\langle (x-\langle x \rangle)(y-\langle y \rangle) \rangle}{\sqrt{\langle (x-\langle x \rangle)^2} \rangle \sqrt{\langle (y-\langle y \rangle)^2} \rangle} \] quantifiziert einfache lineare Zusammenh\"ange \matlabfun{corr}. Perfekt korrelierte Variablen ergeben einen Korrelationskoeffizienten von $+1$, antikorrelierte Daten einen Korrelationskoeffizienten von $-1$ und nicht korrelierte Daten einen Korrelationskoeffizienten nahe 0 (\figrefb{correlationfig}). \begin{figure}[t] \includegraphics[width=1\textwidth]{nonlincorrelation} \caption{\label{nonlincorrelationfig} Nichtlineare Zusammenh\"ange werden durch den Korrelationskoeffizienten nicht erfasst! Sowohl die quadratische Abh\"angigkeit (links) als auch eine Rauschkorrelation (rechts), bei der die Streuung der $y$-Werte von $x$ abh\"angen, ergeben Korrelationskeffizienten nahe Null. $\xi$ sind normalverteilte Zufallszahlen.} \end{figure}