297 lines
14 KiB
TeX
297 lines
14 KiB
TeX
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
|
|
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
|
|
\chapter{\tr{Descriptive statistics}{Deskriptive Statistik}}
|
|
|
|
Bei der deskriptiven Statistik werden Datens\"atze durch wenige Kenngr\"o{\ss}en
|
|
\"ubersichtlich dargestellt.
|
|
|
|
Neben dem Histogramm, das die Wahrscheinlichkeitsverteilung der Daten
|
|
im Detail darstellt, werden u.a. folgende Kenngr\"o{\ss}en zur Beschreibung
|
|
der Daten eingesetzt:
|
|
\begin{description}
|
|
\item[Lagema{\ss}e] (``location'', ``central tendency''):
|
|
arithmetisches Mittel, Median, Modus (``Mode'')
|
|
\item[Streuungsma{\ss}e] (``spread'', ``dispersion''): Varianz,
|
|
Standardabweichung, Interquartilabstand,\linebreak Variations\-koeffizient
|
|
(``Coefficient of variation'')
|
|
\item[Shape]: Schiefe (``skewnees''), W\"olbung (``kurtosis'')
|
|
\item[Zusammenhangsma{\ss}e]: Pearson Korrelationskoeffizient,
|
|
Spearmans Rang\-korrelations\-koeffizient.
|
|
\end{description}
|
|
|
|
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
|
|
\section{\tr{Mode, median, quartile, etc.}{Modus, Median, Quartil, etc.}}
|
|
|
|
\begin{figure}[t]
|
|
\includegraphics[width=1\textwidth]{median}
|
|
\caption{\label{medianfig} Median, Mittelwert und Modus einer
|
|
Wahrscheinlichkeitsverteilung. Links: Bei der symmetrischen,
|
|
unimodalen Normalverteilung sind Median, Mittelwert und Modus
|
|
identisch. Rechts: bei unsymmetrischen Verteilungen sind die drei
|
|
Gr\"o{\ss}en nicht mehr identisch. Der Mittelwert wird am
|
|
st\"arksten von einem starken Schw\"anz der Verteilung
|
|
herausgezogen. Der Median ist dagegen robuster, aber trotzdem
|
|
nicht unbedingt identsich mit dem Modus.}
|
|
\end{figure}
|
|
|
|
Der Modus ist der h\"aufigste Wert, d.h. die Position des Maximums
|
|
einer Wahrscheinlichkeitsverteilung.
|
|
|
|
Der Median teilt eine Liste von Messwerten so in zwei H\"alften, dass
|
|
die eine H\"alfte der Daten nicht gr\"o{\ss}er und die andere H\"alfte
|
|
nicht kleiner als der Median ist (\figref{medianfig}).
|
|
|
|
\newpage
|
|
\begin{exercise}{mymedian.m}{}
|
|
\tr{Write a function \code{mymedian} that computes the median of a vector.}
|
|
{Schreibe eine Funktion \code{mymedian}, die den Median eines Vektors zur\"uckgibt.}
|
|
\end{exercise}
|
|
|
|
\matlab{} stellt die Funktion \code{median()} zur Berechnung des Medians bereit.
|
|
|
|
\newpage
|
|
\begin{exercise}{checkmymedian.m}{}
|
|
\tr{Write a script that tests whether your median function really
|
|
returns a median above which are the same number of data than
|
|
below. In particular the script should test data vectors of
|
|
different length.} {Schreibe ein Skript, das testet ob die
|
|
\code{mymedian} Funktion wirklich die Zahl zur\"uckgibt, \"uber
|
|
der genauso viele Datenwerte liegen wie darunter. Das Skript sollte
|
|
insbesondere verschieden lange Datenvektoren testen.}
|
|
\end{exercise}
|
|
|
|
Eine Wahrscheinlichkeitsverteilung kann weiter durch die Position
|
|
ihrere Quartile charakterisiert werden. Zwischen den Quartilen liegen
|
|
jeweils 25\,\% der Daten (\figref{quartilefig}). Perzentile erlauben
|
|
eine feinere Einteilung. Das 3. Quartil ist das 75. Perzentil, da
|
|
75\,\% der Daten unterhalb des 3. Quartils liegen.
|
|
|
|
\begin{figure}[t]
|
|
\includegraphics[width=1\textwidth]{quartile}
|
|
\caption{\label{quartilefig} Median und Quartile einer Normalverteilung.}
|
|
\end{figure}
|
|
|
|
% \begin{definition}[\tr{quartile}{Quartile}]
|
|
% Die Quartile Q1, Q2 und Q3 unterteilen die Daten in vier gleich
|
|
% gro{\ss}e Gruppen, die jeweils ein Viertel der Daten enthalten.
|
|
% Das mittlere Quartil entspricht dem Median.
|
|
% \end{definition}
|
|
|
|
% \begin{exercise}{quartiles.m}{}
|
|
% \tr{Write a function that computes the first, second, and third quartile of a vector.}
|
|
% {Schreibe eine Funktion, die das erste, zweite und dritte Quartil als Vektor zur\"uckgibt.}
|
|
% \end{exercise}
|
|
|
|
\begin{figure}[t]
|
|
\includegraphics[width=1\textwidth]{boxwhisker}
|
|
\caption{\label{boxwhiskerfig} Box-Whisker Plots sind gut geeignet
|
|
um mehrere unimodale Verteilungen miteinander zu vergleichen.
|
|
Hier sind es jeweils 40 normalverteilte Zufallszahlen.}
|
|
\end{figure}
|
|
|
|
Box-Whisker Plots sind eine h\"aufig verwendete Darstellung um die
|
|
Verteilung unimodaler Daten zu visualisieren und vergleichbar zu
|
|
machen mit anderen Daten. Dabei wird um den Median eine Box vom 1. zum
|
|
3. Quartil gezeichnet. Die Whiskers deuten den minimalen und den
|
|
maximalen Datenwert an (\figref{boxwhiskerfig}).
|
|
|
|
\begin{exercise}{boxwhisker.m}{}
|
|
\tr{Generate eine $40 \times 10$ matrix of random numbers and
|
|
illustrate their distribution in a box-whicker plot
|
|
(\code{boxplot()} function). How to interpret the plot?}
|
|
{Erzeuge ein $40 \times 10$ Matrix
|
|
von Zufallszahlen und illustriere ihre Verteilungen in einem
|
|
Box-Whisker Plot (\code{boxplot()} Funktion, lies die Hilfe!). Wie ist der
|
|
Box-Whisker Plot zu interpretieren? Was hat es mit den Ausreissern auf sich?
|
|
Wie kann man erreichen, dass die Whisker den kleinsten und den gr\"o{\ss}ten
|
|
Datenwert anzeigen? Warum sind die unterschiedlichen Box-Whiskers nicht alle gleich,
|
|
obwohl sie aus der selben Verteilung gezogen worden sind?}
|
|
\end{exercise}
|
|
|
|
\section{\tr{Histogram}{Histogramm}}
|
|
|
|
Histogramme z\"ahlen die H\"aufigkeit $n_i$ des Auftretens von
|
|
$N=\sum_{i=1}^M n_i$ Messwerten in $M$ Messbereichsklassen $i$ (Bins).
|
|
Die Klassen unterteilen den Wertebereich meist in angrenzende und
|
|
gleich gro{\ss}e Intervalle. Histogramme k\"onnen verwendet werden, um die
|
|
Wahrscheinlichkeitsverteilung der Messwerte abzusch\"atzen.
|
|
|
|
\begin{exercise}{rollthedie.m}{}
|
|
\tr{Write a function that simulates rolling a die $n$ times.}
|
|
{Schreibe eine Funktion, die das $n$-malige W\"urfeln mit einem W\"urfel simuliert.}
|
|
\end{exercise}
|
|
|
|
\begin{exercise}{diehistograms.m}{}
|
|
\tr{Plot histograms from rolling the die 20, 100, 1000 times. Use
|
|
the plain hist(x) function, force 6 bins via hist( x, 6 ), and set
|
|
meaningfull bins positions.} {Plotte Histogramme von 20, 100, und
|
|
1000-mal w\"urfeln. Benutze \code{hist(x)}, erzwinge sechs Bins
|
|
mit \code{hist(x,6)}, oder setze selbst sinnvolle Bins. Normiere
|
|
anschliessend das Histogram auf geeignete Weise.}
|
|
\end{exercise}
|
|
|
|
\begin{figure}[t]
|
|
\includegraphics[width=1\textwidth]{diehistograms}
|
|
\caption{\label{diehistogramsfig} \tr{Histograms of rolling a die
|
|
100 or 500 times. Left: plain histograms counting the frequency
|
|
of the six possible outcomes. Right: the same data normalized
|
|
to their sum.}{Histogramme des Ergebnisses von 100 oder 500 mal
|
|
W\"urfeln. Links: das absolute Histogramm z\"ahlt die Anzahl des
|
|
Auftretens jeder Augenzahl. Rechts: Normiert auf die Summe des
|
|
Histogramms werden die beiden Messungen untereinander als auch
|
|
mit der theoretischen Verteilung $P=1/6$ vergleichbar.}}
|
|
\end{figure}
|
|
|
|
\newpage
|
|
Bei ganzzahligen Messdaten (z.B. die Augenzahl eines W\"urfels oder
|
|
die Anzahl von Aktionspotentialen in einem bestimmten Zeitfenster)
|
|
kann f\"ur jede auftretende Zahl eine Klasse definiert werden. Damit
|
|
die H\"ohe der Histogrammbalken unabh\"angig von der Anzahl der
|
|
Messwerte wird, wird das Histogram auf die Anzahl der
|
|
Messwerte normiert (\figref{diehistogramsfig}). Die H\"ohe der
|
|
Histogrammbalken gibt dann die Wahrscheinlichkeit $P(x_i)$ des
|
|
Auftretens der Gr\"o{\ss}e $x_i$ in der $i$-ten Klasse an
|
|
\[ P_i = \frac{n_i}{N} = \frac{n_i}{\sum_{i=1}^M n_i} \; . \]
|
|
|
|
|
|
\section{\tr{Probability density function}{Wahrscheinlichkeitsdichte}}
|
|
|
|
Meistens haben wir es jedoch mit reellen Messgr\"o{\ss}en zu tun
|
|
(z.B. Gewicht von Tigern, L\"ange von Interspikeintervallen). Es
|
|
macht keinen Sinn dem Auftreten jeder einzelnen reelen Zahl eine
|
|
Wahrscheinlichkeit zuzuordnen, denn die Wahrscheinlichkeit genau den
|
|
Wert einer bestimmten reelen Zahl, z.B. 1.23456789, zu messen ist
|
|
gleich Null, da es unabz\"ahlbar viele reelle Zahlen gibt.
|
|
|
|
Sinnvoller ist es dagegen, nach der Wahrscheinlichkeit zu fragen, eine
|
|
Zahl aus einem bestimmten Bereich zu erhalten, z.B. die
|
|
Wahrscheinlichkeit $P(1.2<x<1.3)$, dass die Zahl $x$ einen Wert
|
|
zwischen 1.2 und 1.3 hat.
|
|
|
|
Im Grenzwert zu sehr kleinen Bereichen $\Delta x$ ist die Wahrscheinlichkeit
|
|
eines Wertes $x$ zwischen $x_0$ und $x_0+\Delta x$
|
|
\[ P(x_0<x<x_0+\Delta x) \approx p(x) \cdot \Delta x \; . \]
|
|
Die Gr\"o{\ss}e $p(x)$ ist eine sogenannte
|
|
``Wahrscheinlichkeitsdichte''. Sie ist keine einheitenlose
|
|
Wahrscheinlichkeit mit Werten zwischen Null und Eins, sondern kann
|
|
jeden positiven Wert annehmen und hat als Einheit den Kehrwert der
|
|
Einheit von $x$.
|
|
|
|
\begin{figure}[t]
|
|
\includegraphics[width=1\textwidth]{pdfprobabilities}
|
|
\caption{\label{pdfprobabilitiesfig} Wahrscheinlichkeiten bei
|
|
einer Wahrscheinlichkeitsdichtefunktion.}
|
|
\end{figure}
|
|
|
|
F\"ur beliebige Bereiche ist die Wahrscheinlichkeit f\"ur den Wert $x$ zwischen
|
|
$x_1$ und $x_2$ gegeben durch
|
|
\[ P(x_1 < x < x2) = \int\limits_{x_1}^{x_2} p(x) \, dx \; . \]
|
|
Da die Wahrscheinlichkeit irgendeines Wertes $x$ Eins ergeben muss gilt die Normierung
|
|
\begin{equation}
|
|
\label{pdfnorm}
|
|
P(-\infty < x < \infty) = \int\limits_{-\infty}^{+\infty} p(x) \, dx = 1 \; .
|
|
\end{equation}
|
|
Die gesamte Funktion $p(x)$, die jedem Wert $x$ einen
|
|
Wahrscheinlichkeitsdichte zuordnet wir auch
|
|
Wahrscheinlichkeitsdichtefunktion (``probability density function'',
|
|
``pdf'', oder kurz ``density'') genannt. Die bekannteste
|
|
Wahrscheinlichkeitsdichtefunktion ist die der Normalverteilung
|
|
\[ p_g(x) =
|
|
\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]
|
|
--- die Gau{\ss}sche-Glockenkurve mit Mittelwert $\mu$ und
|
|
Standardabweichung $\sigma$.
|
|
|
|
\newpage
|
|
\begin{exercise}{gaussianpdf.m}{gaussianpdf.out}
|
|
\vspace{-3ex}
|
|
\begin{enumerate}
|
|
\item Plotte die Wahrscheinlichkeitsdichte der Normalverteilung $p_g(x)$.
|
|
\item Berechne f\"ur die Normalverteilung mit Mittelwert Null und
|
|
Standardabweichung Eins die Wahrscheinlichkeit, eine Zahl zwischen
|
|
0 und 1 zu erhalten.
|
|
\item Ziehe 1000 normalverteilte Zufallszahlen und bestimme von
|
|
diesen Zufallzahlen die Wahrscheinlichkeit der Zahlen zwischen
|
|
Null und Eins.
|
|
\item Berechne aus der Normalverteilung $\int_{-\infty}^{+\infty} p(x) \, dx$.
|
|
\end{enumerate}
|
|
\end{exercise}
|
|
|
|
\begin{figure}[t]
|
|
\includegraphics[width=1\textwidth]{pdfhistogram}
|
|
\caption{\label{pdfhistogramfig} \tr{Histograms of normally
|
|
distributed data with different bin sizes.}{Histogramme mit
|
|
verschiednenen Klassenbreiten eines Datensatzes von
|
|
normalverteilten Messwerten. Links: Die H\"ohe des absoluten
|
|
Histogramms h\"angt von der Klassenbreite ab. Rechts: Bei auf
|
|
das Integral normierten Histogrammen werden auch
|
|
unterschiedliche Klassenbreiten untereinander vergleichbar und
|
|
auch mit der theoretischen Wahrschinlichkeitsdichtefunktion
|
|
(blau).}}
|
|
\end{figure}
|
|
|
|
\begin{exercise}{gaussianbins.m}{}
|
|
\tr{Draw 100 random data from a Gaussian distribution and plot
|
|
histograms with different bin sizes of the data.} {Ziehe 100
|
|
normalverteilte Zufallszahlen und erzeuge Histogramme mit
|
|
unterschiedlichen Klassenbreiten. Was f\"allt auf?}
|
|
\end{exercise}
|
|
|
|
Damit Histogramme von reellen Messwerten trotz unterschiedlicher
|
|
Anzahl von Messungen und unterschiedlicher Klassenbreiten
|
|
untereinander vergleichbar werden und mit bekannten
|
|
Wahrscheinlichkeitsdichtefunktionen verglichen werden k\"onnen,
|
|
m\"ussen sie auf das Integral Eins normiert werden
|
|
\eqnref{pdfnorm}. Das Integral (nicht die Summe) \"uber das Histogramm
|
|
soll Eins ergeben --- denn die Wahrscheinlichkeit, dass irgendeiner
|
|
der Messwerte auftritt mu{\ss} Eins sein. Das Integral ist die
|
|
Fl\"ache des Histogramms, die sich aus der Fl\"ache der einzelnen
|
|
Histogrammbalken zusammen setzt. Die Balken des Histogramms haben die
|
|
H\"ohe $n_i$ und die Breite $\Delta x$. Die Gesamtfl\"ache $A$ des
|
|
Histogramms ist also
|
|
\[ A = \sum_{i=1}^N ( n_i \cdot \Delta x ) = \Delta x \sum_{i=1}^N n_i \]
|
|
und das normierte Histogramm hat die H\"ohe
|
|
\[ p(x_i) = \frac{n_i}{\Delta x \sum_{i=1}^N n_i} \]
|
|
Es muss also nicht nur durch die Summe, sondern auch durch die Breite
|
|
$\Delta x$ der Klassen geteilt werden (\figref{pdfhistogramfig}).
|
|
|
|
\begin{exercise}{gaussianbinsnorm.m}{}
|
|
Normiere das Histogramm der vorherigen \"Ubung zu einer Wahrscheinlichkeitsdichte.
|
|
\end{exercise}
|
|
|
|
|
|
\section{\tr{Correlations}{Korrelationen}}
|
|
|
|
\begin{figure}[tp]
|
|
\includegraphics[width=1\textwidth]{correlation}
|
|
\caption{\label{correlationfig} Korrelationen zwischen zwei
|
|
Datens\"atzen $x$ und $y$.}
|
|
\end{figure}
|
|
|
|
Bisher haben wir Eigenschaften einer einzelnen Me{\ss}gr\"o{\ss}e
|
|
angeschaut. Bei mehreren Me{\ss}gr\"o{\ss}en, kann nach
|
|
Abh\"angigkeiten zwischen den beiden Gr\"o{\ss}en gefragt werden. Der
|
|
Korrelations\-koeffizient
|
|
\[ r_{x,y} = \frac{Cov(x,y)}{\sigma_x \sigma_y} = \frac{\langle
|
|
(x-\langle x \rangle)(y-\langle y \rangle) \rangle}{\sqrt{\langle
|
|
(x-\langle x \rangle)^2} \rangle \sqrt{\langle (y-\langle y
|
|
\rangle)^2} \rangle} \]
|
|
quantifiziert einfache lineare Zusammenh\"ange \matlabfun{corr}. Der
|
|
Korrelationskoeffizient ist die Covarianz normiert durch die
|
|
Standardabweichungen. Perfekt korrelierte Variablen ergeben einen
|
|
Korrelationskoeffizienten von $+1$, antikorrelierte Daten einen
|
|
Korrelationskoeffizienten von $-1$ und nicht korrelierte Daten einen
|
|
Korrelationskoeffizienten nahe Null (\figrefb{correlationfig}).
|
|
|
|
Nichtlineare Abh\"angigkeiten werden von dem Korrelationskoeffizienten
|
|
nur unzureichend oder \"uberhaupt nicht erfasst (\figref{nonlincorrelationfig}).
|
|
|
|
\begin{figure}[tp]
|
|
\includegraphics[width=1\textwidth]{nonlincorrelation}
|
|
\caption{\label{nonlincorrelationfig} Nichtlineare Zusammenh\"ange
|
|
werden durch den Korrelationskoeffizienten nicht erfasst. Sowohl
|
|
die quadratische Abh\"angigkeit (links) als auch eine
|
|
Rauschkorrelation (rechts), bei der die Streuung der $y$-Werte von
|
|
$x$ abh\"angen, ergeben Korrelationskeffizienten nahe Null.
|
|
$\xi$ sind normalverteilte Zufallszahlen.}
|
|
\end{figure}
|