%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \chapter{\tr{Descriptive statistics}{Deskriptive Statistik}} Bei der deskriptiven Statistik werden Datens\"atze durch wenige Kenngr\"o{\ss}en \"ubersichtlich dargestellt. Neben dem Histogramm, das die Wahrscheinlichkeitsverteilung der Daten im Detail darstellt, werden u.a. folgende Kenngr\"o{\ss}en zur Beschreibung der Daten eingesetzt: \begin{description} \item[Lagema{\ss}e] (``location'', ``central tendency''): arithmetisches Mittel, Median, Modus (``Mode'') \item[Streuungsma{\ss}e] (``spread'', ``dispersion''): Varianz, Standardabweichung, Interquartilabstand,\linebreak Variations\-koeffizient (``Coefficient of variation'') \item[Shape]: Schiefe (``skewnees''), W\"olbung (``kurtosis'') \item[Zusammenhangsma{\ss}e]: Pearson Korrelationskoeffizient, Spearmans Rang\-korrelations\-koeffizient. \end{description} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \section{\tr{Mode, median, quartile, etc.}{Modus, Median, Quartil, etc.}} \begin{figure}[t] \includegraphics[width=1\textwidth]{median} \titlecaption{\label{medianfig} Median, Mittelwert und Modus einer Wahrscheinlichkeitsverteilung.}{Links: Bei der symmetrischen, unimodalen Normalverteilung sind Median, Mittelwert und Modus identisch. Rechts: bei unsymmetrischen Verteilungen sind die drei Gr\"o{\ss}en nicht mehr identisch. Der Mittelwert wird am st\"arksten von einem starken Schwanz der Verteilung herausgezogen. Der Median ist dagegen robuster, aber trotzdem nicht unbedingt identsich mit dem Modus.} \end{figure} Der \determ{Modus} ist der h\"aufigste Wert, d.h. die Position des Maximums einer Wahrscheinlichkeitsverteilung. Der \determ{Median} teilt eine Liste von Messwerten so in zwei H\"alften, dass die eine H\"alfte der Daten nicht gr\"o{\ss}er und die andere H\"alfte nicht kleiner als der Median ist (\figref{medianfig}). \newpage \begin{exercise}{mymedian.m}{} \tr{Write a function \code{mymedian()} that computes the median of a vector.} {Schreibe eine Funktion \code{mymedian()}, die den Median eines Vektors zur\"uckgibt.} \end{exercise} \matlab{} stellt die Funktion \code{median()} zur Berechnung des Medians bereit. \newpage \begin{exercise}{checkmymedian.m}{} \tr{Write a script that tests whether your median function really returns a median above which are the same number of data than below. In particular the script should test data vectors of different length.} {Schreibe ein Skript, das testet ob die \code{mymedian()} Funktion wirklich die Zahl zur\"uckgibt, \"uber der genauso viele Datenwerte liegen wie darunter. Das Skript sollte insbesondere verschieden lange Datenvektoren testen.} \end{exercise} \begin{figure}[t] \includegraphics[width=1\textwidth]{quartile} \titlecaption{\label{quartilefig} Median und Quartile einer Normalverteilung.}{} \end{figure} Eine Wahrscheinlichkeitsverteilung kann weiter durch die Position ihrere \determ[Quartil]{Quartile} charakterisiert werden. Zwischen den Quartilen liegen jeweils 25\,\% der Daten (\figref{quartilefig}). Perzentile erlauben eine feinere Einteilung. Das 3. Quartil ist das 75. Perzentil, da 75\,\% der Daten unterhalb des 3. Quartils liegen. % \begin{definition}[\tr{quartile}{Quartile}] % Die Quartile Q1, Q2 und Q3 unterteilen die Daten in vier gleich % gro{\ss}e Gruppen, die jeweils ein Viertel der Daten enthalten. % Das mittlere Quartil entspricht dem Median. % \end{definition} % \begin{exercise}{quartiles.m}{} % \tr{Write a function that computes the first, second, and third quartile of a vector.} % {Schreibe eine Funktion, die das erste, zweite und dritte Quartil als Vektor zur\"uckgibt.} % \end{exercise} \begin{figure}[t] \includegraphics[width=1\textwidth]{boxwhisker} \titlecaption{\label{boxwhiskerfig} Box-Whisker Plot.}{Box-Whisker Plots sind gut geeignet um mehrere unimodale Verteilungen miteinander zu vergleichen. Hier sind es jeweils 40 normalverteilte Zufallszahlen.} \end{figure} \determ{Box-Whisker Plots} sind eine h\"aufig verwendete Darstellung um die Verteilung unimodaler Daten zu visualisieren und vergleichbar zu machen mit anderen Daten. Dabei wird um den Median eine Box vom 1. zum 3. Quartil gezeichnet. Die Whiskers deuten den minimalen und den maximalen Datenwert an (\figref{boxwhiskerfig}). \begin{exercise}{boxwhisker.m}{} \tr{Generate eine $40 \times 10$ matrix of random numbers and illustrate their distribution in a box-whicker plot (\code{boxplot()} function). How to interpret the plot?} {Erzeuge ein $40 \times 10$ Matrix von Zufallszahlen und illustriere ihre Verteilungen in einem Box-Whisker Plot (\code{boxplot()} Funktion, lies die Hilfe!). Wie ist der Box-Whisker Plot zu interpretieren? Was hat es mit den Ausreissern auf sich? Wie kann man erreichen, dass die Whisker den kleinsten und den gr\"o{\ss}ten Datenwert anzeigen? Warum sind die unterschiedlichen Box-Whiskers nicht alle gleich, obwohl sie aus der selben Verteilung gezogen worden sind?} \end{exercise} \section{\tr{Histogram}{Histogramm}} \determ[Histogramm]{Histogramme} z\"ahlen die H\"aufigkeit $n_i$ des Auftretens von $N=\sum_{i=1}^M n_i$ Messwerten in $M$ Messbereichsklassen $i$ (Bins). Die Klassen unterteilen den Wertebereich meist in angrenzende und gleich gro{\ss}e Intervalle. Histogramme k\"onnen verwendet werden, um die \determ{Wahrscheinlichkeitsverteilung} der Messwerte abzusch\"atzen. \begin{figure}[t] \includegraphics[width=1\textwidth]{diehistograms} \titlecaption{\label{diehistogramsfig} Histogramme des Ergebnisses von 100 oder 500 mal W\"urfeln.}{Links: das absolute Histogramm z\"ahlt die Anzahl des Auftretens jeder Augenzahl. Rechts: Normiert auf die Summe des Histogramms werden die beiden Messungen untereinander als auch mit der theoretischen Verteilung $P=1/6$ vergleichbar.} \end{figure} Bei ganzzahligen Messdaten (z.B. die Augenzahl eines W\"urfels oder die Anzahl von Aktionspotentialen in einem bestimmten Zeitfenster) kann f\"ur jede auftretende Zahl eine Klasse definiert werden. Damit die H\"ohe der Histogrammbalken unabh\"angig von der Anzahl der Messwerte wird, wird das Histogram auf die Anzahl der Messwerte normiert (\figref{diehistogramsfig}). Die H\"ohe der Histogrammbalken gibt dann die Wahrscheinlichkeit $P(x_i)$ des Auftretens der Gr\"o{\ss}e $x_i$ in der $i$-ten Klasse an \[ P_i = \frac{n_i}{N} = \frac{n_i}{\sum_{i=1}^M n_i} \; . \] \begin{exercise}{rollthedie.m}{} \tr{Write a function that simulates rolling a die $n$ times.} {Schreibe eine Funktion, die das $n$-malige W\"urfeln mit einem W\"urfel simuliert.} \end{exercise} \begin{exercise}{diehistograms.m}{} Plotte Histogramme von 20, 100, und 1000-mal W\"urfeln. Benutze \code[hist()]{hist(x)}, erzwinge sechs Bins mit \code[hist()]{hist(x,6)}, oder setze selbst sinnvolle Bins. Normiere anschliessend das Histogram. \end{exercise} \section{\tr{Probability density function}{Wahrscheinlichkeitsdichte}} Meistens haben wir es jedoch mit reellen Messgr\"o{\ss}en zu tun (z.B. Gewicht von Tigern, L\"ange von Interspikeintervallen). Es macht keinen Sinn dem Auftreten jeder einzelnen reelen Zahl eine Wahrscheinlichkeit zuzuordnen, denn die Wahrscheinlichkeit genau den Wert einer bestimmten reelen Zahl, z.B. 1.23456789, zu messen ist gleich Null, da es unabz\"ahlbar viele reelle Zahlen gibt. Sinnvoller ist es dagegen, nach der Wahrscheinlichkeit zu fragen, eine Zahl aus einem bestimmten Bereich zu erhalten, z.B. die Wahrscheinlichkeit $P(1.2<x<1.3)$, dass die Zahl $x$ einen Wert zwischen 1.2 und 1.3 hat. Im Grenzwert zu sehr kleinen Bereichen $\Delta x$ ist die Wahrscheinlichkeit eines Wertes $x$ zwischen $x_0$ und $x_0+\Delta x$ \[ P(x_0<x<x_0+\Delta x) \approx p(x) \cdot \Delta x \; . \] Die Gr\"o{\ss}e $p(x)$ ist eine sogenannte \determ{Wahrscheinlichkeitsdichte}. Sie ist keine einheitenlose Wahrscheinlichkeit mit Werten zwischen Null und Eins, sondern kann jeden positiven Wert annehmen und hat als Einheit den Kehrwert der Einheit von $x$. \begin{figure}[t] \includegraphics[width=1\textwidth]{pdfprobabilities} \titlecaption{\label{pdfprobabilitiesfig} Wahrscheinlichkeiten bei einer Wahrscheinlichkeitsdichtefunktion.}{} \end{figure} F\"ur beliebige Bereiche ist die Wahrscheinlichkeit f\"ur den Wert $x$ zwischen $x_1$ und $x_2$ gegeben durch \[ P(x_1 < x < x2) = \int\limits_{x_1}^{x_2} p(x) \, dx \; . \] Da die Wahrscheinlichkeit irgendeines Wertes $x$ Eins ergeben muss gilt die Normierung \begin{equation} \label{pdfnorm} P(-\infty < x < \infty) = \int\limits_{-\infty}^{+\infty} p(x) \, dx = 1 \; . \end{equation} \pagebreak[2] Die gesamte Funktion $p(x)$, die jedem Wert $x$ einen Wahrscheinlichkeitsdichte zuordnet wir auch \determ{Wahrscheinlichkeitsdichtefunktion} (\enterm{probability density function}, \enterm[pdf|see{probability density function}]{pdf}, oder kurz \enterm[density|see{probability density function}]{density}) genannt. Die bekannteste Wahrscheinlichkeitsdichtefunktion ist die der \determ{Normalverteilung} \[ p_g(x) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \] --- die \determ{Gau{\ss}sche-Glockenkurve} mit Mittelwert $\mu$ und Standardabweichung $\sigma$. \begin{exercise}{gaussianpdf.m}{gaussianpdf.out} \begin{enumerate} \item Plotte die Wahrscheinlichkeitsdichte der Normalverteilung $p_g(x)$. \item Berechne f\"ur die Normalverteilung mit Mittelwert Null und Standardabweichung Eins die Wahrscheinlichkeit, eine Zahl zwischen 0 und 1 zu erhalten. \item Ziehe 1000 normalverteilte Zufallszahlen und bestimme von diesen Zufallzahlen die Wahrscheinlichkeit der Zahlen zwischen Null und Eins. \item Berechne aus der Normalverteilung $\int_{-\infty}^{+\infty} p(x) \, dx$. \end{enumerate} \end{exercise} \begin{figure}[t] \includegraphics[width=1\textwidth]{pdfhistogram} \titlecaption{\label{pdfhistogramfig} Histogramme mit verschiedenen Klassenbreiten von normalverteilten Messwerten.}{Links: Die H\"ohe des absoluten Histogramms h\"angt von der Klassenbreite ab. Rechts: Bei auf das Integral normierten Histogrammen werden auch unterschiedliche Klassenbreiten untereinander vergleichbar und auch mit der theoretischen Wahrschinlichkeitsdichtefunktion (blau).} \end{figure} \begin{exercise}{gaussianbins.m}{} \tr{Draw 100 random data from a Gaussian distribution and plot histograms with different bin sizes of the data.} {Ziehe 100 normalverteilte Zufallszahlen und erzeuge Histogramme mit unterschiedlichen Klassenbreiten. Was f\"allt auf?} \end{exercise} \pagebreak[2] Damit Histogramme von reellen Messwerten trotz unterschiedlicher Anzahl von Messungen und unterschiedlicher Klassenbreiten untereinander vergleichbar werden und mit bekannten Wahrscheinlichkeitsdichtefunktionen verglichen werden k\"onnen, m\"ussen sie auf das Integral Eins normiert werden \eqnref{pdfnorm}. Das Integral (nicht die Summe) \"uber das Histogramm soll Eins ergeben --- denn die Wahrscheinlichkeit, dass irgendeiner der Messwerte auftritt mu{\ss} Eins sein. Das Integral ist die Fl\"ache des Histogramms, die sich aus der Fl\"ache der einzelnen Histogrammbalken zusammen setzt. Die Balken des Histogramms haben die H\"ohe $n_i$ und die Breite $\Delta x$. Die Gesamtfl\"ache $A$ des Histogramms ist also \[ A = \sum_{i=1}^N ( n_i \cdot \Delta x ) = \Delta x \sum_{i=1}^N n_i \] und das normierte Histogramm hat die H\"ohe \[ p(x_i) = \frac{n_i}{\Delta x \sum_{i=1}^N n_i} \] Es muss also nicht nur durch die Summe, sondern auch durch die Breite $\Delta x$ der Klassen geteilt werden (\figref{pdfhistogramfig}). \pagebreak[4] \begin{exercise}{gaussianbinsnorm.m}{} Normiere das Histogramm der vorherigen \"Ubung zu einer Wahrscheinlichkeitsdichte. \end{exercise} \section{\tr{Correlations}{Korrelationen}} \begin{figure}[tp] \includegraphics[width=1\textwidth]{correlation} \titlecaption{\label{correlationfig} Korrelationen zwischen Datenpaaren.}{} \end{figure} Bisher haben wir Eigenschaften einer einzelnen Me{\ss}gr\"o{\ss}e angeschaut. Bei mehreren Me{\ss}gr\"o{\ss}en, kann nach Abh\"angigkeiten zwischen den beiden Gr\"o{\ss}en gefragt werden. Der \determ[Korrelationskoeffizient]{Korrelations\-koeffizient} \[ r_{x,y} = \frac{Cov(x,y)}{\sigma_x \sigma_y} = \frac{\langle (x-\langle x \rangle)(y-\langle y \rangle) \rangle}{\sqrt{\langle (x-\langle x \rangle)^2} \rangle \sqrt{\langle (y-\langle y \rangle)^2} \rangle} \] quantifiziert einfache lineare Zusammenh\"ange \matlabfun{corr()}. Der Korrelationskoeffizient ist die \determ{Kovarianz} normiert durch die Standardabweichungen. Perfekt korrelierte Variablen ergeben einen Korrelationskoeffizienten von $+1$, antikorrelierte Daten einen Korrelationskoeffizienten von $-1$ und nicht korrelierte Daten einen Korrelationskoeffizienten nahe Null (\figrefb{correlationfig}). Nichtlineare Abh\"angigkeiten werden von dem Korrelationskoeffizienten nur unzureichend oder \"uberhaupt nicht erfasst (\figref{nonlincorrelationfig}). \begin{figure}[tp] \includegraphics[width=1\textwidth]{nonlincorrelation} \titlecaption{\label{nonlincorrelationfig} Korrelationen bei nichtlineare Zusammenh\"angen.}{Der Korrelationskoeffizienten erfasst nur lineare Zusammenh\"ange. Sowohl die quadratische Abh\"angigkeit (links) als auch eine Rauschkorrelation (rechts), bei der die Streuung der $y$-Werte von $x$ abh\"angen, ergeben Korrelationskeffizienten nahe Null. $\xi$ sind normalverteilte Zufallszahlen.} \end{figure}