started translating statistics chapter

This commit is contained in:
Jan Benda 2017-11-13 22:52:00 +01:00
parent 128fa38ab4
commit a507333cfb
2 changed files with 374 additions and 97 deletions

View File

@ -0,0 +1,296 @@
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\chapter{\tr{Descriptive statistics}{Deskriptive Statistik}}
Bei der deskriptiven Statistik werden Datens\"atze durch wenige Kenngr\"o{\ss}en
\"ubersichtlich dargestellt.
Neben dem Histogramm, das die Wahrscheinlichkeitsverteilung der Daten
im Detail darstellt, werden u.a. folgende Kenngr\"o{\ss}en zur Beschreibung
der Daten eingesetzt:
\begin{description}
\item[Lagema{\ss}e] (``location'', ``central tendency''):
arithmetisches Mittel, Median, Modus (``Mode'')
\item[Streuungsma{\ss}e] (``spread'', ``dispersion''): Varianz,
Standardabweichung, Interquartilabstand,\linebreak Variations\-koeffizient
(``Coefficient of variation'')
\item[Shape]: Schiefe (``skewness''), W\"olbung (``kurtosis'')
\item[Zusammenhangsma{\ss}e]: Pearson Korrelationskoeffizient,
Spearman Rang\-korrelations\-koeffizient.
\end{description}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section{\tr{Mode, median, quartile, etc.}{Modus, Median, Quartil, etc.}}
\begin{figure}[t]
\includegraphics[width=1\textwidth]{median}
\titlecaption{\label{medianfig} Median, Mittelwert und Modus einer
Wahrscheinlichkeitsverteilung.}{Links: Bei der symmetrischen,
unimodalen Normalverteilung sind Median, Mittelwert und Modus
identisch. Rechts: bei unsymmetrischen Verteilungen sind die drei
Gr\"o{\ss}en nicht mehr identisch. Der Mittelwert wird am
st\"arksten von einem starken Schwanz der Verteilung
herausgezogen. Der Median ist dagegen robuster, aber trotzdem
nicht unbedingt identsich mit dem Modus.}
\end{figure}
Der \determ{Modus} ist der h\"aufigste Wert, d.h. die Position des Maximums
einer Wahrscheinlichkeitsverteilung.
Der \determ{Median} teilt eine Liste von Messwerten so in zwei H\"alften, dass
die eine H\"alfte der Daten nicht gr\"o{\ss}er und die andere H\"alfte
nicht kleiner als der Median ist (\figref{medianfig}).
\newpage
\begin{exercise}{mymedian.m}{}
\tr{Write a function \code{mymedian()} that computes the median of a vector.}
{Schreibe eine Funktion \code{mymedian()}, die den Median eines Vektors zur\"uckgibt.}
\end{exercise}
\matlab{} stellt die Funktion \code{median()} zur Berechnung des Medians bereit.
\newpage
\begin{exercise}{checkmymedian.m}{}
\tr{Write a script that tests whether your median function really
returns a median above which are the same number of data than
below. In particular the script should test data vectors of
different length.} {Schreibe ein Skript, das testet ob die
\code{mymedian()} Funktion wirklich die Zahl zur\"uckgibt, \"uber
der genauso viele Datenwerte liegen wie darunter. Das Skript sollte
insbesondere verschieden lange Datenvektoren testen.}
\end{exercise}
\begin{figure}[t]
\includegraphics[width=1\textwidth]{quartile}
\titlecaption{\label{quartilefig} Median und Quartile einer Normalverteilung.}{}
\end{figure}
Eine Wahrscheinlichkeitsverteilung kann weiter durch die Position
ihrer \determ[Quartil]{Quartile} charakterisiert werden. Zwischen den
Quartilen liegen jeweils 25\,\% der Daten
(\figref{quartilefig}). Perzentile erlauben eine feinere
Einteilung. Das 3. Quartil ist das 75. Perzentil, da 75\,\% der Daten
unterhalb des 3. Quartils liegen.
% \begin{definition}[\tr{quartile}{Quartile}]
% Die Quartile Q1, Q2 und Q3 unterteilen die Daten in vier gleich
% gro{\ss}e Gruppen, die jeweils ein Viertel der Daten enthalten.
% Das mittlere Quartil entspricht dem Median.
% \end{definition}
% \begin{exercise}{quartiles.m}{}
% \tr{Write a function that computes the first, second, and third quartile of a vector.}
% {Schreibe eine Funktion, die das erste, zweite und dritte Quartil als Vektor zur\"uckgibt.}
% \end{exercise}
\begin{figure}[t]
\includegraphics[width=1\textwidth]{boxwhisker}
\titlecaption{\label{boxwhiskerfig} Box-Whisker Plot.}{Box-Whisker
Plots sind gut geeignet um mehrere unimodale Verteilungen
miteinander zu vergleichen. Hier sind es jeweils 40
Zufallszahlen, die aus eine Normalverteilung gezogen worden sind.}
\end{figure}
\determ{Box-Whisker Plots} sind eine h\"aufig verwendete Darstellung,
um die Verteilung unimodaler Daten zu visualisieren und vergleichbar
zu machen mit anderen Daten. Dabei wird um den Median eine Box vom
1. zum 3. Quartil gezeichnet. Die Whiskers deuten den minimalen und
den maximalen Datenwert an (\figref{boxwhiskerfig}).
\begin{exercise}{boxwhisker.m}{}
\tr{Generate eine $40 \times 10$ matrix of random numbers and
illustrate their distribution in a box-whicker plot
(\code{boxplot()} function). How to interpret the plot?}
{Erzeuge ein $40 \times 10$ Matrix
von Zufallszahlen und illustriere ihre Verteilungen in einem
Box-Whisker Plot (\code{boxplot()} Funktion, lies die Hilfe!). Wie ist der
Box-Whisker Plot zu interpretieren? Was hat es mit den Ausreissern auf sich?
Wie kann man erreichen, dass die Whisker den kleinsten und den gr\"o{\ss}ten
Datenwert anzeigen? Warum sind die unterschiedlichen Box-Whiskers nicht alle gleich,
obwohl sie aus der selben Verteilung gezogen worden sind?}
\end{exercise}
\section{\tr{Histogram}{Histogramm}}
\determ[Histogramm]{Histogramme} z\"ahlen die H\"aufigkeit $n_i$ des
Auftretens von $N=\sum_{i=1}^M n_i$ Messwerten in $M$
Messbereichsklassen $i$ (Bins). Die Klassen unterteilen den
Wertebereich meist in angrenzende und gleich gro{\ss}e Intervalle.
Histogramme k\"onnen verwendet werden, um die
\determ{Wahrscheinlichkeitsverteilung} der Messwerte abzusch\"atzen.
\begin{figure}[t]
\includegraphics[width=1\textwidth]{diehistograms}
\titlecaption{\label{diehistogramsfig} Histogramme des Ergebnisses
von 100 oder 500 mal W\"urfeln.}{Links: das absolute Histogramm
z\"ahlt die Anzahl des Auftretens jeder Augenzahl. Rechts:
Normiert auf die Summe des Histogramms werden die beiden Messungen
untereinander als auch mit der theoretischen Verteilung $P=1/6$
vergleichbar.}
\end{figure}
Bei ganzzahligen Messdaten (z.B. die Augenzahl eines W\"urfels oder
die Anzahl von Aktionspotentialen in einem bestimmten Zeitfenster)
kann f\"ur jede auftretende Zahl eine Klasse definiert werden. Damit
die H\"ohe der Histogrammbalken unabh\"angig von der Anzahl der
Messwerte wird, wird das Histogram auf die Anzahl der
Messwerte normiert (\figref{diehistogramsfig}). Die H\"ohe der
Histogrammbalken gibt dann die Wahrscheinlichkeit $P(x_i)$ des
Auftretens der Gr\"o{\ss}e $x_i$ in der $i$-ten Klasse an
\[ P_i = \frac{n_i}{N} = \frac{n_i}{\sum_{i=1}^M n_i} \; . \]
\begin{exercise}{rollthedie.m}{}
\tr{Write a function that simulates rolling a die $n$ times.}
{Schreibe eine Funktion, die das $n$-malige W\"urfeln mit einem W\"urfel simuliert.}
\end{exercise}
\begin{exercise}{diehistograms.m}{}
Plotte Histogramme von 20, 100, und 1000-mal W\"urfeln. Benutze
\code[hist()]{hist(x)}, erzwinge sechs Bins mit
\code[hist()]{hist(x,6)}, oder setze selbst sinnvolle Bins. Normiere
anschliessend das Histogram.
\end{exercise}
\section{\tr{Probability density function}{Wahrscheinlichkeitsdichte}}
Meistens haben wir es jedoch mit reellen Messgr\"o{\ss}en zu tun
(z.B. Gewicht von Tigern, L\"ange von Interspikeintervallen). Es
macht keinen Sinn dem Auftreten jeder einzelnen reelen Zahl eine
Wahrscheinlichkeit zuzuordnen, denn die Wahrscheinlichkeit genau den
Wert einer bestimmten reelen Zahl, z.B. 1.23456789, zu messen ist
gleich Null, da es unabz\"ahlbar viele reelle Zahlen gibt.
Sinnvoller ist es dagegen, nach der Wahrscheinlichkeit zu fragen, eine
Zahl aus einem bestimmten Bereich zu erhalten, z.B. die
Wahrscheinlichkeit $P(1.2<x<1.3)$, dass die Zahl $x$ einen Wert
zwischen 1.2 und 1.3 hat.
Im Grenzwert zu sehr kleinen Bereichen $\Delta x$ ist die Wahrscheinlichkeit
eines Wertes $x$ zwischen $x_0$ und $x_0+\Delta x$
\[ P(x_0<x<x_0+\Delta x) \approx p(x) \cdot \Delta x \; . \]
Die Gr\"o{\ss}e $p(x)$ ist eine sogenannte
\determ{Wahrscheinlichkeitsdichte}. Sie ist keine einheitenlose
Wahrscheinlichkeit mit Werten zwischen Null und Eins, sondern kann
jeden positiven Wert annehmen und hat als Einheit den Kehrwert der
Einheit von $x$.
\begin{figure}[t]
\includegraphics[width=1\textwidth]{pdfprobabilities}
\titlecaption{\label{pdfprobabilitiesfig} Wahrscheinlichkeiten bei
einer Wahrscheinlichkeitsdichtefunktion.}{}
\end{figure}
F\"ur beliebige Bereiche ist die Wahrscheinlichkeit f\"ur den Wert $x$ zwischen
$x_1$ und $x_2$ gegeben durch
\[ P(x_1 < x < x2) = \int\limits_{x_1}^{x_2} p(x) \, dx \; . \]
Da die Wahrscheinlichkeit irgendeines Wertes $x$ Eins ergeben muss gilt die Normierung
\begin{equation}
\label{pdfnorm}
P(-\infty < x < \infty) = \int\limits_{-\infty}^{+\infty} p(x) \, dx = 1 \; .
\end{equation}
\pagebreak[2]
Die gesamte Funktion $p(x)$, die jedem Wert $x$ einen
Wahrscheinlichkeitsdichte zuordnet wir auch
\determ{Wahrscheinlichkeitsdichtefunktion} (\enterm{probability
density function}, \enterm[pdf|see{probability density
function}]{pdf}, oder kurz \enterm[density|see{probability density
function}]{density}) genannt. Die bekannteste
Wahrscheinlichkeitsdichtefunktion ist die der \determ{Normalverteilung}
\[ p_g(x) =
\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]
--- die \determ{Gau{\ss}sche-Glockenkurve} mit Mittelwert $\mu$ und
Standardabweichung $\sigma$.
\begin{exercise}{gaussianpdf.m}{gaussianpdf.out}
\begin{enumerate}
\item Plotte die Wahrscheinlichkeitsdichte der Normalverteilung $p_g(x)$.
\item Berechne f\"ur die Normalverteilung mit Mittelwert Null und
Standardabweichung Eins die Wahrscheinlichkeit, eine Zahl zwischen
0 und 1 zu erhalten.
\item Ziehe 1000 normalverteilte Zufallszahlen und bestimme von
diesen Zufallzahlen die Wahrscheinlichkeit der Zahlen zwischen
Null und Eins.
\item Berechne aus der Normalverteilung $\int_{-\infty}^{+\infty} p(x) \, dx$.
\end{enumerate}
\end{exercise}
\begin{figure}[t]
\includegraphics[width=1\textwidth]{pdfhistogram}
\titlecaption{\label{pdfhistogramfig} Histogramme mit verschiedenen
Klassenbreiten von normalverteilten Messwerten.}{Links: Die H\"ohe
des absoluten Histogramms h\"angt von der Klassenbreite
ab. Rechts: Bei auf das Integral normierten Histogrammen werden
auch unterschiedliche Klassenbreiten untereinander vergleichbar
und auch mit der theoretischen Wahrschinlichkeitsdichtefunktion
(blau).}
\end{figure}
\begin{exercise}{gaussianbins.m}{}
\tr{Draw 100 random data from a Gaussian distribution and plot
histograms with different bin sizes of the data.} {Ziehe 100
normalverteilte Zufallszahlen und erzeuge Histogramme mit
unterschiedlichen Klassenbreiten. Was f\"allt auf?}
\end{exercise}
\pagebreak[2]
Damit Histogramme von reellen Messwerten trotz unterschiedlicher
Anzahl von Messungen und unterschiedlicher Klassenbreiten
untereinander vergleichbar werden und mit bekannten
Wahrscheinlichkeitsdichtefunktionen verglichen werden k\"onnen,
m\"ussen sie auf das Integral Eins normiert werden
\eqnref{pdfnorm}. Das Integral (nicht die Summe) \"uber das Histogramm
soll Eins ergeben --- denn die Wahrscheinlichkeit, dass irgendeiner
der Messwerte auftritt mu{\ss} Eins sein. Das Integral ist die
Fl\"ache des Histogramms, die sich aus der Fl\"ache der einzelnen
Histogrammbalken zusammen setzt. Die Balken des Histogramms haben die
H\"ohe $n_i$ und die Breite $\Delta x$. Die Gesamtfl\"ache $A$ des
Histogramms ist also
\[ A = \sum_{i=1}^N ( n_i \cdot \Delta x ) = \Delta x \sum_{i=1}^N n_i \]
und das normierte Histogramm hat die H\"ohe
\[ p(x_i) = \frac{n_i}{\Delta x \sum_{i=1}^N n_i} \]
Es muss also nicht nur durch die Summe, sondern auch durch die Breite
$\Delta x$ der Klassen geteilt werden (\figref{pdfhistogramfig}).
\pagebreak[4]
\begin{exercise}{gaussianbinsnorm.m}{}
Normiere das Histogramm der vorherigen \"Ubung zu einer Wahrscheinlichkeitsdichte.
\end{exercise}
\section{\tr{Correlations}{Korrelationen}}
\begin{figure}[tp]
\includegraphics[width=1\textwidth]{correlation}
\titlecaption{\label{correlationfig} Korrelationen zwischen Datenpaaren.}{}
\end{figure}
Bisher haben wir Eigenschaften einer einzelnen Me{\ss}gr\"o{\ss}e
angeschaut. Bei mehreren Me{\ss}gr\"o{\ss}en, kann nach
Abh\"angigkeiten zwischen den beiden Gr\"o{\ss}en gefragt werden. Der
\determ[Korrelationskoeffizient]{Korrelations\-koeffizient}
\[ r_{x,y} = \frac{Cov(x,y)}{\sigma_x \sigma_y} = \frac{\langle
(x-\langle x \rangle)(y-\langle y \rangle) \rangle}{\sqrt{\langle
(x-\langle x \rangle)^2} \rangle \sqrt{\langle (y-\langle y
\rangle)^2} \rangle} \]
quantifiziert einfache lineare Zusammenh\"ange \matlabfun{corr()}. Der
Korrelationskoeffizient ist die \determ{Kovarianz} normiert durch die
Standardabweichungen. Perfekt korrelierte Variablen ergeben einen
Korrelationskoeffizienten von $+1$, antikorrelierte Daten einen
Korrelationskoeffizienten von $-1$ und nicht korrelierte Daten einen
Korrelationskoeffizienten nahe Null (\figrefb{correlationfig}).
Nichtlineare Abh\"angigkeiten werden von dem Korrelationskoeffizienten
nur unzureichend oder \"uberhaupt nicht erfasst (\figref{nonlincorrelationfig}).
\begin{figure}[tp]
\includegraphics[width=1\textwidth]{nonlincorrelation}
\titlecaption{\label{nonlincorrelationfig} Korrelationen bei
nichtlineare Zusammenh\"angen.}{Der Korrelationskoeffizienten
erfasst nur lineare Zusammenh\"ange. Sowohl die quadratische
Abh\"angigkeit (links) als auch eine Rauschkorrelation (rechts),
bei der die Streuung der $y$-Werte von $x$ abh\"angen, ergeben
Korrelationskeffizienten nahe Null. $\xi$ sind normalverteilte
Zufallszahlen.}
\end{figure}

View File

@ -1,147 +1,129 @@
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\chapter{\tr{Descriptive statistics}{Deskriptive Statistik}}
\chapter{Descriptive statistics}
Bei der deskriptiven Statistik werden Datens\"atze durch wenige Kenngr\"o{\ss}en
\"ubersichtlich dargestellt.
Descriptive statistics characterizes data sets by means of a few measures.
Neben dem Histogramm, das die Wahrscheinlichkeitsverteilung der Daten
im Detail darstellt, werden u.a. folgende Kenngr\"o{\ss}en zur Beschreibung
der Daten eingesetzt:
In addition to histograms that visualize the distribution of the data,
the following measures are used for characterizing the data:
\begin{description}
\item[Lagema{\ss}e] (``location'', ``central tendency''):
arithmetisches Mittel, Median, Modus (``Mode'')
\item[Streuungsma{\ss}e] (``spread'', ``dispersion''): Varianz,
Standardabweichung, Interquartilabstand,\linebreak Variations\-koeffizient
(``Coefficient of variation'')
\item[Shape]: Schiefe (``skewnees''), W\"olbung (``kurtosis'')
\item[Zusammenhangsma{\ss}e]: Pearson Korrelationskoeffizient,
Spearmans Rang\-korrelations\-koeffizient.
\item[Location, central tendency] (``Lagema{\ss}e''):
arithmetic mean, median, mode.
\item[Spread, dispersion] (``Streuungsma{\ss}e''): variance,
standard deviation, inter-quartile range,\linebreak coefficient of variation
(``Variationskoeffizient'').
\item[Shape]: skewness (``Schiefe''), kurtosis (``W\"olbung'').
\item[Dependence, association] (``Zusammenhangsma{\ss}e''): Pearson's correlation coefficient,
Spearman's rank correlation coefficient.
\end{description}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section{\tr{Mode, median, quartile, etc.}{Modus, Median, Quartil, etc.}}
\section{Mode, median, quartile, etc.}
\begin{figure}[t]
\includegraphics[width=1\textwidth]{median}
\titlecaption{\label{medianfig} Median, Mittelwert und Modus einer
Wahrscheinlichkeitsverteilung.}{Links: Bei der symmetrischen,
unimodalen Normalverteilung sind Median, Mittelwert und Modus
identisch. Rechts: bei unsymmetrischen Verteilungen sind die drei
Gr\"o{\ss}en nicht mehr identisch. Der Mittelwert wird am
st\"arksten von einem starken Schwanz der Verteilung
herausgezogen. Der Median ist dagegen robuster, aber trotzdem
nicht unbedingt identsich mit dem Modus.}
\titlecaption{\label{medianfig} Median, mean and mode of a
probability distribution.}{Left: Median, mean and mode are
identical for the symmetric and unimodal normal distribution.
Right: for asymmetric distributions these threa measures differ. A
heavy tail of a distribution pulls out the mean most strongly. In
contrast, the median is more robust against heavy tails, but not
necessarily identical with the mode.}
\end{figure}
Der \determ{Modus} ist der h\"aufigste Wert, d.h. die Position des Maximums
einer Wahrscheinlichkeitsverteilung.
The \enterm{mode} is the most frequent value, i.e. the position of the maximum of the probability distribution.
Der \determ{Median} teilt eine Liste von Messwerten so in zwei H\"alften, dass
die eine H\"alfte der Daten nicht gr\"o{\ss}er und die andere H\"alfte
nicht kleiner als der Median ist (\figref{medianfig}).
The \enterm{median} separates a list of data values into two halves
such that one half of the data is not greater and the other half is
not smaller than the median (\figref{medianfig}).
\newpage
\begin{exercise}{mymedian.m}{}
\tr{Write a function \code{mymedian()} that computes the median of a vector.}
{Schreibe eine Funktion \code{mymedian()}, die den Median eines Vektors zur\"uckgibt.}
Write a function \code{mymedian()} that computes the median of a vector.
\end{exercise}
\matlab{} stellt die Funktion \code{median()} zur Berechnung des Medians bereit.
\matlab{} provides the function \code{median()} for computing the median.
\newpage
\begin{exercise}{checkmymedian.m}{}
\tr{Write a script that tests whether your median function really
returns a median above which are the same number of data than
below. In particular the script should test data vectors of
different length.} {Schreibe ein Skript, das testet ob die
\code{mymedian()} Funktion wirklich die Zahl zur\"uckgibt, \"uber
der genauso viele Datenwerte liegen wie darunter. Das Skript sollte
insbesondere verschieden lange Datenvektoren testen.}
Write a script that tests whether your median function really
returns a median above which are the same number of data than
below. In particular the script should test data vectors of
different length.
\end{exercise}
\begin{figure}[t]
\includegraphics[width=1\textwidth]{quartile}
\titlecaption{\label{quartilefig} Median und Quartile einer Normalverteilung.}{}
\titlecaption{\label{quartilefig} Median and quartiles of a normal distribution.}{}
\end{figure}
Eine Wahrscheinlichkeitsverteilung kann weiter durch die Position
ihrere \determ[Quartil]{Quartile} charakterisiert werden. Zwischen den
Quartilen liegen jeweils 25\,\% der Daten
(\figref{quartilefig}). Perzentile erlauben eine feinere
Einteilung. Das 3. Quartil ist das 75. Perzentil, da 75\,\% der Daten
unterhalb des 3. Quartils liegen.
The distribution of data can be further characterized by the position
of its \enterm[quartile]{quartiles}. Neighboring quartiles are
separated by 25\,\% of the data (\figref{quartilefig}).
\enterm[percentile]{Percentiles} allow to characterize the
distribution of the data in more detail. The 3$^{\rm rd}$ quartile
corresponds to the 75$^{\rm th}$ percentile, because 75\,\% of the
data are smaller than the 3$^{\rm rd}$ quartile.
% \begin{definition}[\tr{quartile}{Quartile}]
% \begin{definition}[quartile]
% Die Quartile Q1, Q2 und Q3 unterteilen die Daten in vier gleich
% gro{\ss}e Gruppen, die jeweils ein Viertel der Daten enthalten.
% Das mittlere Quartil entspricht dem Median.
% \end{definition}
% \begin{exercise}{quartiles.m}{}
% \tr{Write a function that computes the first, second, and third quartile of a vector.}
% {Schreibe eine Funktion, die das erste, zweite und dritte Quartil als Vektor zur\"uckgibt.}
% Write a function that computes the first, second, and third quartile of a vector.
% \end{exercise}
\begin{figure}[t]
\includegraphics[width=1\textwidth]{boxwhisker}
\titlecaption{\label{boxwhiskerfig} Box-Whisker Plot.}{Box-Whisker
Plots sind gut geeignet um mehrere unimodale Verteilungen
miteinander zu vergleichen. Hier sind es jeweils 40
normalverteilte Zufallszahlen.}
\titlecaption{\label{boxwhiskerfig} Box-Whisker Plot.}{Box-whisker
plots are well suited for comparing unimodal distributions. Each
box-whisker characterizes 40 random numbers that have been drawn
from a normal distribution.}
\end{figure}
\determ{Box-Whisker Plots} sind eine h\"aufig verwendete Darstellung
um die Verteilung unimodaler Daten zu visualisieren und vergleichbar
zu machen mit anderen Daten. Dabei wird um den Median eine Box vom
1. zum 3. Quartil gezeichnet. Die Whiskers deuten den minimalen und
den maximalen Datenwert an (\figref{boxwhiskerfig}).
\enterm{Box-whisker plots} are commonly used to visualize and compare
the distribution of unimodal data. Aa box is drawn around the median
that extends from the 1$^{\rm st}$ to the 3$^{\rm rd}$ quartile. The
whiskers mark the minimum and maximum value of the data set
(\figref{boxwhiskerfig}).
\begin{exercise}{boxwhisker.m}{}
\tr{Generate eine $40 \times 10$ matrix of random numbers and
illustrate their distribution in a box-whicker plot
(\code{boxplot()} function). How to interpret the plot?}
{Erzeuge ein $40 \times 10$ Matrix
von Zufallszahlen und illustriere ihre Verteilungen in einem
Box-Whisker Plot (\code{boxplot()} Funktion, lies die Hilfe!). Wie ist der
Box-Whisker Plot zu interpretieren? Was hat es mit den Ausreissern auf sich?
Wie kann man erreichen, dass die Whisker den kleinsten und den gr\"o{\ss}ten
Datenwert anzeigen? Warum sind die unterschiedlichen Box-Whiskers nicht alle gleich,
obwohl sie aus der selben Verteilung gezogen worden sind?}
Generate eine $40 \times 10$ matrix of random numbers and
illustrate their distribution in a box-whicker plot
(\code{boxplot()} function). How to interpret the plot?
\end{exercise}
\section{\tr{Histogram}{Histogramm}}
\section{Histograms}
\determ[Histogramm]{Histogramme} z\"ahlen die H\"aufigkeit $n_i$ des
Auftretens von $N=\sum_{i=1}^M n_i$ Messwerten in $M$
Messbereichsklassen $i$ (Bins). Die Klassen unterteilen den
Wertebereich meist in angrenzende und gleich gro{\ss}e Intervalle.
Histogramme k\"onnen verwendet werden, um die
\determ{Wahrscheinlichkeitsverteilung} der Messwerte abzusch\"atzen.
\enterm[Histogram]{Histograms} count the frequency $n_i$ of
$N=\sum_{i=1}^M n_i$ measurements in $M$ bins $i$. The bins tile the
data range usually into intervals of the same size. Histograms are
often used to estimate the \enterm{probability distribution} of the
data values.
\begin{figure}[t]
\includegraphics[width=1\textwidth]{diehistograms}
\titlecaption{\label{diehistogramsfig} Histogramme des Ergebnisses
von 100 oder 500 mal W\"urfeln.}{Links: das absolute Histogramm
z\"ahlt die Anzahl des Auftretens jeder Augenzahl. Rechts:
Normiert auf die Summe des Histogramms werden die beiden Messungen
untereinander als auch mit der theoretischen Verteilung $P=1/6$
vergleichbar.}
\titlecaption{\label{diehistogramsfig} Histograms resulting from 100
or 500 times rolling a die.}{Left: the absolute frequency
histogram counts the frequency of each number the die
shows. Right: When normalized by the sum of the frequency
histogram the two data sets become comparable with each other and
with the expected theoretical distribution of $P=1/6$.}
\end{figure}
Bei ganzzahligen Messdaten (z.B. die Augenzahl eines W\"urfels oder
die Anzahl von Aktionspotentialen in einem bestimmten Zeitfenster)
kann f\"ur jede auftretende Zahl eine Klasse definiert werden. Damit
die H\"ohe der Histogrammbalken unabh\"angig von der Anzahl der
Messwerte wird, wird das Histogram auf die Anzahl der
Messwerte normiert (\figref{diehistogramsfig}). Die H\"ohe der
Histogrammbalken gibt dann die Wahrscheinlichkeit $P(x_i)$ des
Auftretens der Gr\"o{\ss}e $x_i$ in der $i$-ten Klasse an
\[ P_i = \frac{n_i}{N} = \frac{n_i}{\sum_{i=1}^M n_i} \; . \]
For integer data values (e.g. die number of the faces of a die or the
number of action potential occurring within a fixed time window) a bin
can be defined for each data value. The histogram is usually
normalized by the total number of measurements to make it
independent of size of the data set (\figref{diehistogramsfig}). Then
the height of each histogram bar equals the probability $P(x_i)$ of
the data value $x_i$ in the $i$-th bin:
\[ P(x_i) = P_i = \frac{n_i}{N} = \frac{n_i}{\sum_{i=1}^M n_i} \; . \]
\begin{exercise}{rollthedie.m}{}
\tr{Write a function that simulates rolling a die $n$ times.}
{Schreibe eine Funktion, die das $n$-malige W\"urfeln mit einem W\"urfel simuliert.}
Write a function that simulates rolling a die $n$ times.
\end{exercise}
\begin{exercise}{diehistograms.m}{}
@ -152,7 +134,7 @@ Auftretens der Gr\"o{\ss}e $x_i$ in der $i$-ten Klasse an
\end{exercise}
\section{\tr{Probability density function}{Wahrscheinlichkeitsdichte}}
\section{Probability density functions}
Meistens haben wir es jedoch mit reellen Messgr\"o{\ss}en zu tun
(z.B. Gewicht von Tigern, L\"ange von Interspikeintervallen). Es
@ -228,10 +210,9 @@ Standardabweichung $\sigma$.
\end{figure}
\begin{exercise}{gaussianbins.m}{}
\tr{Draw 100 random data from a Gaussian distribution and plot
histograms with different bin sizes of the data.} {Ziehe 100
normalverteilte Zufallszahlen und erzeuge Histogramme mit
unterschiedlichen Klassenbreiten. Was f\"allt auf?}
Draw 100 random data from a Gaussian distribution and plot
histograms with different bin sizes of the data. What do you
observe?
\end{exercise}
\pagebreak[2]
@ -259,7 +240,7 @@ $\Delta x$ der Klassen geteilt werden (\figref{pdfhistogramfig}).
\end{exercise}
\section{\tr{Correlations}{Korrelationen}}
\section{Correlations}
\begin{figure}[tp]
\includegraphics[width=1\textwidth]{correlation}