scientificComputing/statistics/lecture/statistics.tex

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\chapter{\tr{Descriptive statistics}{Deskriptive Statistik}}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%\section{Statistics of real-valued data}

  \begin{itemize}
  \item Location, central tendency
    \begin{itemize}
    \item arithmetic mean
    \item median
    \item mode
    \end{itemize}
  \item Spread, dispersion
    \begin{itemize}
    \item variance
    \item standard deviation
    \item interquartile range
    \item coefficient of variation
    \item minimum, maximum
    \end{itemize}
  \item Shape
    \begin{itemize}
    \item skewnees
    \item kurtosis
    \end{itemize}
  \item Dependence
    \begin{itemize}
    \item Pearson correlation coefficient
    \item Spearman's rank correlation coefficient
    \end{itemize}
  \end{itemize}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section{\tr{Mode, median, quartile, etc.}{Modus, Median, Quartil, etc.}}

\begin{figure}[t]
  \includegraphics[width=1\textwidth]{median}
  \caption{\label{medianfig} Median, Mittelwert und Modus einer
    Wahrscheinlichkeitsverteilung.  Links: Bei der symmetrischen,
    unimodalen Normalverteilung sind Median, Mittelwert und Modus
    identisch.  Rechts: bei unsymmetrischen Verteilungen sind die drei
    Gr\"o{\ss}en nicht mehr identisch. Der Mittelwert wird am
    st\"arksten von einem starken Schw\"anz der Verteilung
    herausgezogen. Der Median ist dagegen robuster, aber trotzdem
    nicht unbedingt identsich mit dem Modus.}
\end{figure}

Der Modus ist der h\"aufigste Wert, d.h. die Position des Maximums
einer Wahrscheinlichkeitsverteilung.

Der Median teilt eine Liste von Messwerten so in zwei H\"alften, dass
die eine H\"alfte der Daten nicht gr\"o{\ss}er und die andere H\"alfte
nicht kleiner als der Median ist (\figref{medianfig}).

\begin{exercise}{mymedian.m}{}
  \tr{Write a function \code{mymedian} that computes the median of a vector.}
  {Schreibe eine Funktion \code{mymedian}, die den Median eines Vektors zur\"uckgibt.}
\end{exercise}

\matlab{} stellt die Funktion \code{median()} zur Berechnung des Medians bereit.

\begin{exercise}{checkmymedian.m}{}
  \tr{Write a script that tests whether your median function really
    returns a median above which are the same number of data than
    below. In particular the script should test data vectors of
    different length.}  {Schreibe ein Skript, das testet ob die
    \code{mymedian} Funktion wirklich die Zahl zur\"uckgibt, \"uber
    der genauso viele Datenwerte liegen wie darunter. Das Skript sollte
    insbesondere verschieden lange Datenvektoren testen.}
\end{exercise}

Eine Wahrscheinlichkeitsverteilung kann weiter durch die Position
ihrere Quartile charakterisiert werden. Zwischen den Quartilen liegen
jeweils 25\,\% der Daten (\figref{quartilefig}). Perzentile erlauben
eine feinere Einteilung. Das 3. Quartil ist das 75. Perzentil, da
75\,\% der Daten unterhalb des 3. Quartils liegen.

\begin{figure}[t]
  \includegraphics[width=1\textwidth]{quartile}
  \caption{\label{quartilefig} Median und Quartile einer Normalverteilung.}
\end{figure}

% \begin{definition}[\tr{quartile}{Quartile}]
%   Die Quartile Q1, Q2 und Q3 unterteilen die Daten in vier gleich
%   gro{\ss}e Gruppen, die jeweils ein Viertel der Daten enthalten.
%   Das mittlere Quartil entspricht dem Median.
% \end{definition}

% \begin{exercise}{quartiles.m}{}
%   \tr{Write a function that computes the first, second, and third quartile of a vector.}
%   {Schreibe eine Funktion, die das erste, zweite und dritte Quartil als Vektor zur\"uckgibt.}
% \end{exercise}

\begin{figure}[t]
  \includegraphics[width=1\textwidth]{boxwhisker}
  \caption{\label{boxwhiskerfig} Box-whisker plots illustrate distributions.}
\end{figure}

Box-Whisker Plots sind eine h\"aufig verwendete Darstellung um die
Verteilung unimodaler Daten zu visualisieren und vergleichbar zu
machen mit anderen Daten. Dabei wird um den Median eine Box vom 1. zum
3. Quartil gezeichnet. Die Whiskers deuten den minimalen und den
maximalen Datenwert an (\figref{boxwhiskerfig}).

\begin{exercise}{boxwhisker.m}{}
  \tr{Generate eine $40 \times 10$ matrix of random numbers and
    illustrate their distribution in a box-whicker plot
    (\code{boxplot()} function). How to interpret the plot?}
  {Erzeuge ein $40 \times 10$ Matrix
    von Zufallszahlen und illustriere ihre Verteilungen in einem
    Box-Whisker Plot (\code{boxplot()} Funktion, lies die Hilfe!). Wie ist der
    Box-Whisker Plot zu interpretieren? Was hat es mit den Ausreissern auf sich?
    Wie kann man erreichen, dass die Whisker den kleinsten und den gr\"o{\ss}ten
    Datenwert anzeigen? Warum sind die unterschiedlichen Box-Whiskers nicht alle gleich,
    obwohl sie aus der selben Verteilung gezogen worden sind?}
\end{exercise}

\section{\tr{Histogram}{Histogramm}}

Histogramme z\"ahlen die H\"aufigkeit $n_i$ des Auftretens von
$N=\sum_{i=1}^M n_i$ Messwerten in $M$ Messbereichsklassen $i$ (Bins).
Die Klassen unterteilen den Wertebereich meist in angrenzende und
gleich gro{\ss}e Intervalle.  Histogramme k\"onnen verwendet werden, um die
Wahrscheinlichkeitsverteilung der Messwerte abzusch\"atzen.

\begin{exercise}{rollthedie.m}{}
  \tr{Write a function that simulates rolling a die $n$ times.}
  {Schreibe eine Funktion, die das $n$-malige W\"urfeln mit einem W\"urfel simuliert.}
\end{exercise}

\begin{exercise}{diehistograms.m}{}
  \tr{Plot histograms from rolling the die 20, 100, 1000 times.  Use
    the plain hist(x) function, force 6 bins via hist( x, 6 ), and set
    meaningfull bins positions.}  {Plotte Histogramme von 20, 100, und
    1000-mal w\"urfeln.  Benutze \code{hist(x)}, erzwinge sechs Bins
    mit \code{hist(x,6)}, oder setze selbst sinnvolle Bins. Normiere
    anschliessend das Histogram auf geeignete Weise.}
\end{exercise}

\begin{figure}[t]
  \includegraphics[width=1\textwidth]{diehistograms}
  \caption{\label{diehistogramsfig} \tr{Histograms of rolling a die
      100 or 500 times.  Left: plain histograms counting the frequency
      of the six possible outcomes.  Right: the same data normalized
      to their sum.}{Histogramme des Ergebnisses von 100 oder 500 mal
      W\"urfeln. Links: das absolute Histogramm z\"ahlt die Anzahl des
      Auftretens jeder Augenzahl. Rechts: Normiert auf die Summe des
      Histogramms werden die beiden Messungen untereinander als auch
      mit der theoretischen Verteilung $P=1/6$ vergleichbar.}}
\end{figure}

Bei ganzzahligen Messdaten (z.B. die Augenzahl eines W\"urfels oder
die Anzahl von Aktionspotentialen in einem bestimmten Zeitfenster)
kann f\"ur jede auftretende Zahl eine Klasse definiert werden.  Damit
die H\"ohe der Histogrammbalken unabh\"angig von der Anzahl der
Messwerte wird, normiert man das Histogram auf die Anzahl der
Messwerte (\figref{diehistogramsfig}).  Die H\"ohe der
Histogrammbalken gibt dann die Wahrscheinlichkeit $P(x_i)$ des
Auftretens der Gr\"o{\ss}e $x_i$ in der $i$-ten Klasse an
\[ P_i = \frac{n_i}{N} = \frac{n_i}{\sum_{i=1}^M n_i} \; . \]


\section{\tr{Probability density function}{Wahrscheinlichkeitsdichte}}

Meistens haben wir es jedoch mit reellen Messgr\"o{\ss}en zu tun
(z.B. Gewicht von Tigern, L\"ange von Interspikeintervallen).  Es
macht keinen Sinn dem Auftreten jeder einzelnen reelen Zahl eine
Wahrscheinlichkeit zuzuordnen, denn die Wahrscheinlichkeit genau den
Wert einer bestimmten reelen Zahl, z.B. 1.23456789, zu messen ist
gleich Null, da es unabz\"ahlbar viele reelle Zahlen gibt.

Sinnvoller ist es dagegen, nach der Wahrscheinlichkeit zu fragen, eine
Zahl aus einem bestimmten Bereich zu erhalten, z.B. die
Wahrscheinlichkeit $P(1.2<x<1.3)$, dass die Zahl $x$ einen Wert
zwischen 1.2 und 1.3 hat.

%Der Grenzwert zu einem immer kleineren
%Bereich f\"uhrt uns dann zum Begriff der Wahrscheinlichkeitsdichte
%\[ p(x) = \lim_{\Delta x \to 0}P(x_0<x<x_0+\Delta x) = P(x_0) + dP/dx \cdot \Delta x \]

\begin{exercise}{gaussianbins.m}{}
  \tr{Draw 100 random data from a Gaussian distribution and plot
    histograms with different bin sizes of the data.}  {Ziehe 100
    normalverteilte Zufallszahlen und erzeuge Histogramme mit
    unterschiedlichen Klassenbreiten. Was f\"allt auf?}
\end{exercise}

\begin{figure}[t]
  \includegraphics[width=1\textwidth]{pdfhistogram}
  \caption{\label{pdfhistogramfig} \tr{Histograms of normally
      distributed data with different bin sizes.}{Histogramme mit
      verschiednenen Klassenbreiten eines Datensatzes von
      normalverteilten Messwerten. Links: Die H\"ohe des absoluten
      Histogramms h\"angt von der Klassenbreite ab. Rechts: Bei auf
      das Integral normierten Histogrammen werden auch
      unterschiedliche Klassenbreiten untereinander vergleichbar und
      auch mit der theoretischen Wahrschinlichkeitsdichtefunktion
      (blau).}}
\end{figure}

Histogramme von reellen Messwerten m\"ussen auf das Integral 1
normiert werden, so dass das Integral (nicht die Summe) \"uber das
Histogramm eins ergibt --- denn die Wahrscheinlichkeit, dass
irgendeiner der Messwerte auftritt mu{\ss} Eins sein. Das Integral ist
die Fl\"ache des Histogramms. Diese setzt sich zusammen aus der
Fl\"ache der einzelnen Histogrammbalken. Diese haben die H\"ohe $n_i$
und die Breite $\Delta x$. Die Gesamtfl\"ache $A$ des Histogramms ist
also
\[ A = \sum_{i=1}^N ( n_i \cdot \Delta x ) = \Delta x \sum_{i=1}^N n_i \]
und das normierte Histogramm hat die H\"ohe
\[ p(x_i) = \frac{n_i}{\Delta x \sum_{i=1}^N n_i} \]
Es muss also nicht nur durch die Summe, sondern auch durch die Breite $\Delta x$ der Klassen
geteilt werden.

$p(x_i)$ kann keine Wahrscheinlichkeit sein, da $p(x_i)$ nun eine
Einheit hat --- das Inverse der Einheit der Messgr\"osse $x$. Man
spricht von einer Wahrscheinlichkeitsdichte.

\begin{figure}[t]
  \includegraphics[width=1\textwidth]{pdfprobabilities}
  \caption{\label{pdfprobabilitiesfig} Wahrscheinlichkeiten bei
  einer Wahrscheinlichkeitsdichtefunktion.}
\end{figure}

\begin{exercise}{gaussianpdf.m}{gaussianpdf.out}
  \tr{Plot the Gaussian probability density}{Plotte die Gauss'sche Wahrscheinlichkeitsdichte }
  \[ p_g(x) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\]
  \tr{What does it mean?}{Was bedeutet die folgende Wahrscheinlichkeit?}
  \[ P(x_1 < x < x2) = \int\limits_{x_1}^{x_2} p(x) \, dx \]
  \tr{How large is}{Wie gro{\ss} ist}
  \[ \int\limits_{-\infty}^{+\infty} p(x) \, dx \; ?\]
  \tr{Why?}{Warum?}
\end{exercise}


\section{\tr{Correlations}{Korrelationen}}

\begin{figure}[t]
  \includegraphics[width=1\textwidth]{correlation}
  \caption{\label{correlationfig} Korrelationen zwischen zwei Datens\"atzen $x$ und $y$.}
\end{figure}

Bisher haben wir Eigenschaften einer einzelnen Me{\ss}gr\"o{\ss}e
angeschaut.  Bei mehreren Me{\ss}gr\"o{\ss}en, kann nach
Abh\"angigkeiten zwischen den beiden Gr\"o{\ss}en gefragt werden.  Der
Korrelationskoeffizient
\[ r_{x,y} = \frac{Cov(x,y)}{\sigma_x \sigma_y} = \frac{\langle
  (x-\langle x \rangle)(y-\langle y \rangle) \rangle}{\sqrt{\langle
    (x-\langle x \rangle)^2} \rangle \sqrt{\langle (y-\langle y
    \rangle)^2} \rangle} \] quantifiziert einfache lineare
Zusammenh\"ange \matlabfun{corr}. Perfekt korrelierte Variablen ergeben einen
Korrelationskoeffizienten von $+1$, antikorrelierte Daten einen
Korrelationskoeffizienten von $-1$ und nicht korrelierte Daten einen
Korrelationskoeffizienten nahe 0 (\figrefb{correlationfig}).

\begin{figure}[t]
  \includegraphics[width=1\textwidth]{nonlincorrelation}
  \caption{\label{nonlincorrelationfig} Nichtlineare Zusammenh\"ange
    werden durch den Korrelationskoeffizienten nicht erfasst! Sowohl
    die quadratische Abh\"angigkeit (links) als auch eine
    Rauschkorrelation (rechts), bei der die Streuung der $y$-Werte von
    $x$ abh\"angen, ergeben Korrelationskeffizienten nahe Null.
    $\xi$ sind normalverteilte Zufallszahlen.}
\end{figure}