started translating statistics chapter
This commit is contained in:
parent
128fa38ab4
commit
a507333cfb
296
statistics/lecture/statistics-de.tex
Normal file
296
statistics/lecture/statistics-de.tex
Normal file
@ -0,0 +1,296 @@
|
||||
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
|
||||
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
|
||||
\chapter{\tr{Descriptive statistics}{Deskriptive Statistik}}
|
||||
|
||||
Bei der deskriptiven Statistik werden Datens\"atze durch wenige Kenngr\"o{\ss}en
|
||||
\"ubersichtlich dargestellt.
|
||||
|
||||
Neben dem Histogramm, das die Wahrscheinlichkeitsverteilung der Daten
|
||||
im Detail darstellt, werden u.a. folgende Kenngr\"o{\ss}en zur Beschreibung
|
||||
der Daten eingesetzt:
|
||||
\begin{description}
|
||||
\item[Lagema{\ss}e] (``location'', ``central tendency''):
|
||||
arithmetisches Mittel, Median, Modus (``Mode'')
|
||||
\item[Streuungsma{\ss}e] (``spread'', ``dispersion''): Varianz,
|
||||
Standardabweichung, Interquartilabstand,\linebreak Variations\-koeffizient
|
||||
(``Coefficient of variation'')
|
||||
\item[Shape]: Schiefe (``skewness''), W\"olbung (``kurtosis'')
|
||||
\item[Zusammenhangsma{\ss}e]: Pearson Korrelationskoeffizient,
|
||||
Spearman Rang\-korrelations\-koeffizient.
|
||||
\end{description}
|
||||
|
||||
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
|
||||
\section{\tr{Mode, median, quartile, etc.}{Modus, Median, Quartil, etc.}}
|
||||
|
||||
\begin{figure}[t]
|
||||
\includegraphics[width=1\textwidth]{median}
|
||||
\titlecaption{\label{medianfig} Median, Mittelwert und Modus einer
|
||||
Wahrscheinlichkeitsverteilung.}{Links: Bei der symmetrischen,
|
||||
unimodalen Normalverteilung sind Median, Mittelwert und Modus
|
||||
identisch. Rechts: bei unsymmetrischen Verteilungen sind die drei
|
||||
Gr\"o{\ss}en nicht mehr identisch. Der Mittelwert wird am
|
||||
st\"arksten von einem starken Schwanz der Verteilung
|
||||
herausgezogen. Der Median ist dagegen robuster, aber trotzdem
|
||||
nicht unbedingt identsich mit dem Modus.}
|
||||
\end{figure}
|
||||
|
||||
Der \determ{Modus} ist der h\"aufigste Wert, d.h. die Position des Maximums
|
||||
einer Wahrscheinlichkeitsverteilung.
|
||||
|
||||
Der \determ{Median} teilt eine Liste von Messwerten so in zwei H\"alften, dass
|
||||
die eine H\"alfte der Daten nicht gr\"o{\ss}er und die andere H\"alfte
|
||||
nicht kleiner als der Median ist (\figref{medianfig}).
|
||||
|
||||
\newpage
|
||||
\begin{exercise}{mymedian.m}{}
|
||||
\tr{Write a function \code{mymedian()} that computes the median of a vector.}
|
||||
{Schreibe eine Funktion \code{mymedian()}, die den Median eines Vektors zur\"uckgibt.}
|
||||
\end{exercise}
|
||||
|
||||
\matlab{} stellt die Funktion \code{median()} zur Berechnung des Medians bereit.
|
||||
|
||||
\newpage
|
||||
\begin{exercise}{checkmymedian.m}{}
|
||||
\tr{Write a script that tests whether your median function really
|
||||
returns a median above which are the same number of data than
|
||||
below. In particular the script should test data vectors of
|
||||
different length.} {Schreibe ein Skript, das testet ob die
|
||||
\code{mymedian()} Funktion wirklich die Zahl zur\"uckgibt, \"uber
|
||||
der genauso viele Datenwerte liegen wie darunter. Das Skript sollte
|
||||
insbesondere verschieden lange Datenvektoren testen.}
|
||||
\end{exercise}
|
||||
|
||||
\begin{figure}[t]
|
||||
\includegraphics[width=1\textwidth]{quartile}
|
||||
\titlecaption{\label{quartilefig} Median und Quartile einer Normalverteilung.}{}
|
||||
\end{figure}
|
||||
|
||||
Eine Wahrscheinlichkeitsverteilung kann weiter durch die Position
|
||||
ihrer \determ[Quartil]{Quartile} charakterisiert werden. Zwischen den
|
||||
Quartilen liegen jeweils 25\,\% der Daten
|
||||
(\figref{quartilefig}). Perzentile erlauben eine feinere
|
||||
Einteilung. Das 3. Quartil ist das 75. Perzentil, da 75\,\% der Daten
|
||||
unterhalb des 3. Quartils liegen.
|
||||
|
||||
% \begin{definition}[\tr{quartile}{Quartile}]
|
||||
% Die Quartile Q1, Q2 und Q3 unterteilen die Daten in vier gleich
|
||||
% gro{\ss}e Gruppen, die jeweils ein Viertel der Daten enthalten.
|
||||
% Das mittlere Quartil entspricht dem Median.
|
||||
% \end{definition}
|
||||
|
||||
% \begin{exercise}{quartiles.m}{}
|
||||
% \tr{Write a function that computes the first, second, and third quartile of a vector.}
|
||||
% {Schreibe eine Funktion, die das erste, zweite und dritte Quartil als Vektor zur\"uckgibt.}
|
||||
% \end{exercise}
|
||||
|
||||
\begin{figure}[t]
|
||||
\includegraphics[width=1\textwidth]{boxwhisker}
|
||||
\titlecaption{\label{boxwhiskerfig} Box-Whisker Plot.}{Box-Whisker
|
||||
Plots sind gut geeignet um mehrere unimodale Verteilungen
|
||||
miteinander zu vergleichen. Hier sind es jeweils 40
|
||||
Zufallszahlen, die aus eine Normalverteilung gezogen worden sind.}
|
||||
\end{figure}
|
||||
|
||||
\determ{Box-Whisker Plots} sind eine h\"aufig verwendete Darstellung,
|
||||
um die Verteilung unimodaler Daten zu visualisieren und vergleichbar
|
||||
zu machen mit anderen Daten. Dabei wird um den Median eine Box vom
|
||||
1. zum 3. Quartil gezeichnet. Die Whiskers deuten den minimalen und
|
||||
den maximalen Datenwert an (\figref{boxwhiskerfig}).
|
||||
|
||||
\begin{exercise}{boxwhisker.m}{}
|
||||
\tr{Generate eine $40 \times 10$ matrix of random numbers and
|
||||
illustrate their distribution in a box-whicker plot
|
||||
(\code{boxplot()} function). How to interpret the plot?}
|
||||
{Erzeuge ein $40 \times 10$ Matrix
|
||||
von Zufallszahlen und illustriere ihre Verteilungen in einem
|
||||
Box-Whisker Plot (\code{boxplot()} Funktion, lies die Hilfe!). Wie ist der
|
||||
Box-Whisker Plot zu interpretieren? Was hat es mit den Ausreissern auf sich?
|
||||
Wie kann man erreichen, dass die Whisker den kleinsten und den gr\"o{\ss}ten
|
||||
Datenwert anzeigen? Warum sind die unterschiedlichen Box-Whiskers nicht alle gleich,
|
||||
obwohl sie aus der selben Verteilung gezogen worden sind?}
|
||||
\end{exercise}
|
||||
|
||||
\section{\tr{Histogram}{Histogramm}}
|
||||
|
||||
\determ[Histogramm]{Histogramme} z\"ahlen die H\"aufigkeit $n_i$ des
|
||||
Auftretens von $N=\sum_{i=1}^M n_i$ Messwerten in $M$
|
||||
Messbereichsklassen $i$ (Bins). Die Klassen unterteilen den
|
||||
Wertebereich meist in angrenzende und gleich gro{\ss}e Intervalle.
|
||||
Histogramme k\"onnen verwendet werden, um die
|
||||
\determ{Wahrscheinlichkeitsverteilung} der Messwerte abzusch\"atzen.
|
||||
|
||||
\begin{figure}[t]
|
||||
\includegraphics[width=1\textwidth]{diehistograms}
|
||||
\titlecaption{\label{diehistogramsfig} Histogramme des Ergebnisses
|
||||
von 100 oder 500 mal W\"urfeln.}{Links: das absolute Histogramm
|
||||
z\"ahlt die Anzahl des Auftretens jeder Augenzahl. Rechts:
|
||||
Normiert auf die Summe des Histogramms werden die beiden Messungen
|
||||
untereinander als auch mit der theoretischen Verteilung $P=1/6$
|
||||
vergleichbar.}
|
||||
\end{figure}
|
||||
|
||||
Bei ganzzahligen Messdaten (z.B. die Augenzahl eines W\"urfels oder
|
||||
die Anzahl von Aktionspotentialen in einem bestimmten Zeitfenster)
|
||||
kann f\"ur jede auftretende Zahl eine Klasse definiert werden. Damit
|
||||
die H\"ohe der Histogrammbalken unabh\"angig von der Anzahl der
|
||||
Messwerte wird, wird das Histogram auf die Anzahl der
|
||||
Messwerte normiert (\figref{diehistogramsfig}). Die H\"ohe der
|
||||
Histogrammbalken gibt dann die Wahrscheinlichkeit $P(x_i)$ des
|
||||
Auftretens der Gr\"o{\ss}e $x_i$ in der $i$-ten Klasse an
|
||||
\[ P_i = \frac{n_i}{N} = \frac{n_i}{\sum_{i=1}^M n_i} \; . \]
|
||||
|
||||
\begin{exercise}{rollthedie.m}{}
|
||||
\tr{Write a function that simulates rolling a die $n$ times.}
|
||||
{Schreibe eine Funktion, die das $n$-malige W\"urfeln mit einem W\"urfel simuliert.}
|
||||
\end{exercise}
|
||||
|
||||
\begin{exercise}{diehistograms.m}{}
|
||||
Plotte Histogramme von 20, 100, und 1000-mal W\"urfeln. Benutze
|
||||
\code[hist()]{hist(x)}, erzwinge sechs Bins mit
|
||||
\code[hist()]{hist(x,6)}, oder setze selbst sinnvolle Bins. Normiere
|
||||
anschliessend das Histogram.
|
||||
\end{exercise}
|
||||
|
||||
|
||||
\section{\tr{Probability density function}{Wahrscheinlichkeitsdichte}}
|
||||
|
||||
Meistens haben wir es jedoch mit reellen Messgr\"o{\ss}en zu tun
|
||||
(z.B. Gewicht von Tigern, L\"ange von Interspikeintervallen). Es
|
||||
macht keinen Sinn dem Auftreten jeder einzelnen reelen Zahl eine
|
||||
Wahrscheinlichkeit zuzuordnen, denn die Wahrscheinlichkeit genau den
|
||||
Wert einer bestimmten reelen Zahl, z.B. 1.23456789, zu messen ist
|
||||
gleich Null, da es unabz\"ahlbar viele reelle Zahlen gibt.
|
||||
|
||||
Sinnvoller ist es dagegen, nach der Wahrscheinlichkeit zu fragen, eine
|
||||
Zahl aus einem bestimmten Bereich zu erhalten, z.B. die
|
||||
Wahrscheinlichkeit $P(1.2<x<1.3)$, dass die Zahl $x$ einen Wert
|
||||
zwischen 1.2 und 1.3 hat.
|
||||
|
||||
Im Grenzwert zu sehr kleinen Bereichen $\Delta x$ ist die Wahrscheinlichkeit
|
||||
eines Wertes $x$ zwischen $x_0$ und $x_0+\Delta x$
|
||||
\[ P(x_0<x<x_0+\Delta x) \approx p(x) \cdot \Delta x \; . \]
|
||||
Die Gr\"o{\ss}e $p(x)$ ist eine sogenannte
|
||||
\determ{Wahrscheinlichkeitsdichte}. Sie ist keine einheitenlose
|
||||
Wahrscheinlichkeit mit Werten zwischen Null und Eins, sondern kann
|
||||
jeden positiven Wert annehmen und hat als Einheit den Kehrwert der
|
||||
Einheit von $x$.
|
||||
|
||||
\begin{figure}[t]
|
||||
\includegraphics[width=1\textwidth]{pdfprobabilities}
|
||||
\titlecaption{\label{pdfprobabilitiesfig} Wahrscheinlichkeiten bei
|
||||
einer Wahrscheinlichkeitsdichtefunktion.}{}
|
||||
\end{figure}
|
||||
|
||||
F\"ur beliebige Bereiche ist die Wahrscheinlichkeit f\"ur den Wert $x$ zwischen
|
||||
$x_1$ und $x_2$ gegeben durch
|
||||
\[ P(x_1 < x < x2) = \int\limits_{x_1}^{x_2} p(x) \, dx \; . \]
|
||||
Da die Wahrscheinlichkeit irgendeines Wertes $x$ Eins ergeben muss gilt die Normierung
|
||||
\begin{equation}
|
||||
\label{pdfnorm}
|
||||
P(-\infty < x < \infty) = \int\limits_{-\infty}^{+\infty} p(x) \, dx = 1 \; .
|
||||
\end{equation}
|
||||
|
||||
\pagebreak[2]
|
||||
Die gesamte Funktion $p(x)$, die jedem Wert $x$ einen
|
||||
Wahrscheinlichkeitsdichte zuordnet wir auch
|
||||
\determ{Wahrscheinlichkeitsdichtefunktion} (\enterm{probability
|
||||
density function}, \enterm[pdf|see{probability density
|
||||
function}]{pdf}, oder kurz \enterm[density|see{probability density
|
||||
function}]{density}) genannt. Die bekannteste
|
||||
Wahrscheinlichkeitsdichtefunktion ist die der \determ{Normalverteilung}
|
||||
\[ p_g(x) =
|
||||
\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]
|
||||
--- die \determ{Gau{\ss}sche-Glockenkurve} mit Mittelwert $\mu$ und
|
||||
Standardabweichung $\sigma$.
|
||||
|
||||
\begin{exercise}{gaussianpdf.m}{gaussianpdf.out}
|
||||
\begin{enumerate}
|
||||
\item Plotte die Wahrscheinlichkeitsdichte der Normalverteilung $p_g(x)$.
|
||||
\item Berechne f\"ur die Normalverteilung mit Mittelwert Null und
|
||||
Standardabweichung Eins die Wahrscheinlichkeit, eine Zahl zwischen
|
||||
0 und 1 zu erhalten.
|
||||
\item Ziehe 1000 normalverteilte Zufallszahlen und bestimme von
|
||||
diesen Zufallzahlen die Wahrscheinlichkeit der Zahlen zwischen
|
||||
Null und Eins.
|
||||
\item Berechne aus der Normalverteilung $\int_{-\infty}^{+\infty} p(x) \, dx$.
|
||||
\end{enumerate}
|
||||
\end{exercise}
|
||||
|
||||
\begin{figure}[t]
|
||||
\includegraphics[width=1\textwidth]{pdfhistogram}
|
||||
\titlecaption{\label{pdfhistogramfig} Histogramme mit verschiedenen
|
||||
Klassenbreiten von normalverteilten Messwerten.}{Links: Die H\"ohe
|
||||
des absoluten Histogramms h\"angt von der Klassenbreite
|
||||
ab. Rechts: Bei auf das Integral normierten Histogrammen werden
|
||||
auch unterschiedliche Klassenbreiten untereinander vergleichbar
|
||||
und auch mit der theoretischen Wahrschinlichkeitsdichtefunktion
|
||||
(blau).}
|
||||
\end{figure}
|
||||
|
||||
\begin{exercise}{gaussianbins.m}{}
|
||||
\tr{Draw 100 random data from a Gaussian distribution and plot
|
||||
histograms with different bin sizes of the data.} {Ziehe 100
|
||||
normalverteilte Zufallszahlen und erzeuge Histogramme mit
|
||||
unterschiedlichen Klassenbreiten. Was f\"allt auf?}
|
||||
\end{exercise}
|
||||
|
||||
\pagebreak[2]
|
||||
Damit Histogramme von reellen Messwerten trotz unterschiedlicher
|
||||
Anzahl von Messungen und unterschiedlicher Klassenbreiten
|
||||
untereinander vergleichbar werden und mit bekannten
|
||||
Wahrscheinlichkeitsdichtefunktionen verglichen werden k\"onnen,
|
||||
m\"ussen sie auf das Integral Eins normiert werden
|
||||
\eqnref{pdfnorm}. Das Integral (nicht die Summe) \"uber das Histogramm
|
||||
soll Eins ergeben --- denn die Wahrscheinlichkeit, dass irgendeiner
|
||||
der Messwerte auftritt mu{\ss} Eins sein. Das Integral ist die
|
||||
Fl\"ache des Histogramms, die sich aus der Fl\"ache der einzelnen
|
||||
Histogrammbalken zusammen setzt. Die Balken des Histogramms haben die
|
||||
H\"ohe $n_i$ und die Breite $\Delta x$. Die Gesamtfl\"ache $A$ des
|
||||
Histogramms ist also
|
||||
\[ A = \sum_{i=1}^N ( n_i \cdot \Delta x ) = \Delta x \sum_{i=1}^N n_i \]
|
||||
und das normierte Histogramm hat die H\"ohe
|
||||
\[ p(x_i) = \frac{n_i}{\Delta x \sum_{i=1}^N n_i} \]
|
||||
Es muss also nicht nur durch die Summe, sondern auch durch die Breite
|
||||
$\Delta x$ der Klassen geteilt werden (\figref{pdfhistogramfig}).
|
||||
|
||||
\pagebreak[4]
|
||||
\begin{exercise}{gaussianbinsnorm.m}{}
|
||||
Normiere das Histogramm der vorherigen \"Ubung zu einer Wahrscheinlichkeitsdichte.
|
||||
\end{exercise}
|
||||
|
||||
|
||||
\section{\tr{Correlations}{Korrelationen}}
|
||||
|
||||
\begin{figure}[tp]
|
||||
\includegraphics[width=1\textwidth]{correlation}
|
||||
\titlecaption{\label{correlationfig} Korrelationen zwischen Datenpaaren.}{}
|
||||
\end{figure}
|
||||
|
||||
Bisher haben wir Eigenschaften einer einzelnen Me{\ss}gr\"o{\ss}e
|
||||
angeschaut. Bei mehreren Me{\ss}gr\"o{\ss}en, kann nach
|
||||
Abh\"angigkeiten zwischen den beiden Gr\"o{\ss}en gefragt werden. Der
|
||||
\determ[Korrelationskoeffizient]{Korrelations\-koeffizient}
|
||||
\[ r_{x,y} = \frac{Cov(x,y)}{\sigma_x \sigma_y} = \frac{\langle
|
||||
(x-\langle x \rangle)(y-\langle y \rangle) \rangle}{\sqrt{\langle
|
||||
(x-\langle x \rangle)^2} \rangle \sqrt{\langle (y-\langle y
|
||||
\rangle)^2} \rangle} \]
|
||||
quantifiziert einfache lineare Zusammenh\"ange \matlabfun{corr()}. Der
|
||||
Korrelationskoeffizient ist die \determ{Kovarianz} normiert durch die
|
||||
Standardabweichungen. Perfekt korrelierte Variablen ergeben einen
|
||||
Korrelationskoeffizienten von $+1$, antikorrelierte Daten einen
|
||||
Korrelationskoeffizienten von $-1$ und nicht korrelierte Daten einen
|
||||
Korrelationskoeffizienten nahe Null (\figrefb{correlationfig}).
|
||||
|
||||
Nichtlineare Abh\"angigkeiten werden von dem Korrelationskoeffizienten
|
||||
nur unzureichend oder \"uberhaupt nicht erfasst (\figref{nonlincorrelationfig}).
|
||||
|
||||
\begin{figure}[tp]
|
||||
\includegraphics[width=1\textwidth]{nonlincorrelation}
|
||||
\titlecaption{\label{nonlincorrelationfig} Korrelationen bei
|
||||
nichtlineare Zusammenh\"angen.}{Der Korrelationskoeffizienten
|
||||
erfasst nur lineare Zusammenh\"ange. Sowohl die quadratische
|
||||
Abh\"angigkeit (links) als auch eine Rauschkorrelation (rechts),
|
||||
bei der die Streuung der $y$-Werte von $x$ abh\"angen, ergeben
|
||||
Korrelationskeffizienten nahe Null. $\xi$ sind normalverteilte
|
||||
Zufallszahlen.}
|
||||
\end{figure}
|
@ -1,147 +1,129 @@
|
||||
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
|
||||
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
|
||||
\chapter{\tr{Descriptive statistics}{Deskriptive Statistik}}
|
||||
\chapter{Descriptive statistics}
|
||||
|
||||
Bei der deskriptiven Statistik werden Datens\"atze durch wenige Kenngr\"o{\ss}en
|
||||
\"ubersichtlich dargestellt.
|
||||
Descriptive statistics characterizes data sets by means of a few measures.
|
||||
|
||||
Neben dem Histogramm, das die Wahrscheinlichkeitsverteilung der Daten
|
||||
im Detail darstellt, werden u.a. folgende Kenngr\"o{\ss}en zur Beschreibung
|
||||
der Daten eingesetzt:
|
||||
In addition to histograms that visualize the distribution of the data,
|
||||
the following measures are used for characterizing the data:
|
||||
\begin{description}
|
||||
\item[Lagema{\ss}e] (``location'', ``central tendency''):
|
||||
arithmetisches Mittel, Median, Modus (``Mode'')
|
||||
\item[Streuungsma{\ss}e] (``spread'', ``dispersion''): Varianz,
|
||||
Standardabweichung, Interquartilabstand,\linebreak Variations\-koeffizient
|
||||
(``Coefficient of variation'')
|
||||
\item[Shape]: Schiefe (``skewnees''), W\"olbung (``kurtosis'')
|
||||
\item[Zusammenhangsma{\ss}e]: Pearson Korrelationskoeffizient,
|
||||
Spearmans Rang\-korrelations\-koeffizient.
|
||||
\item[Location, central tendency] (``Lagema{\ss}e''):
|
||||
arithmetic mean, median, mode.
|
||||
\item[Spread, dispersion] (``Streuungsma{\ss}e''): variance,
|
||||
standard deviation, inter-quartile range,\linebreak coefficient of variation
|
||||
(``Variationskoeffizient'').
|
||||
\item[Shape]: skewness (``Schiefe''), kurtosis (``W\"olbung'').
|
||||
\item[Dependence, association] (``Zusammenhangsma{\ss}e''): Pearson's correlation coefficient,
|
||||
Spearman's rank correlation coefficient.
|
||||
\end{description}
|
||||
|
||||
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
|
||||
\section{\tr{Mode, median, quartile, etc.}{Modus, Median, Quartil, etc.}}
|
||||
\section{Mode, median, quartile, etc.}
|
||||
|
||||
\begin{figure}[t]
|
||||
\includegraphics[width=1\textwidth]{median}
|
||||
\titlecaption{\label{medianfig} Median, Mittelwert und Modus einer
|
||||
Wahrscheinlichkeitsverteilung.}{Links: Bei der symmetrischen,
|
||||
unimodalen Normalverteilung sind Median, Mittelwert und Modus
|
||||
identisch. Rechts: bei unsymmetrischen Verteilungen sind die drei
|
||||
Gr\"o{\ss}en nicht mehr identisch. Der Mittelwert wird am
|
||||
st\"arksten von einem starken Schwanz der Verteilung
|
||||
herausgezogen. Der Median ist dagegen robuster, aber trotzdem
|
||||
nicht unbedingt identsich mit dem Modus.}
|
||||
\titlecaption{\label{medianfig} Median, mean and mode of a
|
||||
probability distribution.}{Left: Median, mean and mode are
|
||||
identical for the symmetric and unimodal normal distribution.
|
||||
Right: for asymmetric distributions these threa measures differ. A
|
||||
heavy tail of a distribution pulls out the mean most strongly. In
|
||||
contrast, the median is more robust against heavy tails, but not
|
||||
necessarily identical with the mode.}
|
||||
\end{figure}
|
||||
|
||||
Der \determ{Modus} ist der h\"aufigste Wert, d.h. die Position des Maximums
|
||||
einer Wahrscheinlichkeitsverteilung.
|
||||
The \enterm{mode} is the most frequent value, i.e. the position of the maximum of the probability distribution.
|
||||
|
||||
Der \determ{Median} teilt eine Liste von Messwerten so in zwei H\"alften, dass
|
||||
die eine H\"alfte der Daten nicht gr\"o{\ss}er und die andere H\"alfte
|
||||
nicht kleiner als der Median ist (\figref{medianfig}).
|
||||
The \enterm{median} separates a list of data values into two halves
|
||||
such that one half of the data is not greater and the other half is
|
||||
not smaller than the median (\figref{medianfig}).
|
||||
|
||||
\newpage
|
||||
\begin{exercise}{mymedian.m}{}
|
||||
\tr{Write a function \code{mymedian()} that computes the median of a vector.}
|
||||
{Schreibe eine Funktion \code{mymedian()}, die den Median eines Vektors zur\"uckgibt.}
|
||||
Write a function \code{mymedian()} that computes the median of a vector.
|
||||
\end{exercise}
|
||||
|
||||
\matlab{} stellt die Funktion \code{median()} zur Berechnung des Medians bereit.
|
||||
\matlab{} provides the function \code{median()} for computing the median.
|
||||
|
||||
\newpage
|
||||
\begin{exercise}{checkmymedian.m}{}
|
||||
\tr{Write a script that tests whether your median function really
|
||||
returns a median above which are the same number of data than
|
||||
below. In particular the script should test data vectors of
|
||||
different length.} {Schreibe ein Skript, das testet ob die
|
||||
\code{mymedian()} Funktion wirklich die Zahl zur\"uckgibt, \"uber
|
||||
der genauso viele Datenwerte liegen wie darunter. Das Skript sollte
|
||||
insbesondere verschieden lange Datenvektoren testen.}
|
||||
Write a script that tests whether your median function really
|
||||
returns a median above which are the same number of data than
|
||||
below. In particular the script should test data vectors of
|
||||
different length.
|
||||
\end{exercise}
|
||||
|
||||
\begin{figure}[t]
|
||||
\includegraphics[width=1\textwidth]{quartile}
|
||||
\titlecaption{\label{quartilefig} Median und Quartile einer Normalverteilung.}{}
|
||||
\titlecaption{\label{quartilefig} Median and quartiles of a normal distribution.}{}
|
||||
\end{figure}
|
||||
|
||||
Eine Wahrscheinlichkeitsverteilung kann weiter durch die Position
|
||||
ihrere \determ[Quartil]{Quartile} charakterisiert werden. Zwischen den
|
||||
Quartilen liegen jeweils 25\,\% der Daten
|
||||
(\figref{quartilefig}). Perzentile erlauben eine feinere
|
||||
Einteilung. Das 3. Quartil ist das 75. Perzentil, da 75\,\% der Daten
|
||||
unterhalb des 3. Quartils liegen.
|
||||
The distribution of data can be further characterized by the position
|
||||
of its \enterm[quartile]{quartiles}. Neighboring quartiles are
|
||||
separated by 25\,\% of the data (\figref{quartilefig}).
|
||||
\enterm[percentile]{Percentiles} allow to characterize the
|
||||
distribution of the data in more detail. The 3$^{\rm rd}$ quartile
|
||||
corresponds to the 75$^{\rm th}$ percentile, because 75\,\% of the
|
||||
data are smaller than the 3$^{\rm rd}$ quartile.
|
||||
|
||||
% \begin{definition}[\tr{quartile}{Quartile}]
|
||||
% \begin{definition}[quartile]
|
||||
% Die Quartile Q1, Q2 und Q3 unterteilen die Daten in vier gleich
|
||||
% gro{\ss}e Gruppen, die jeweils ein Viertel der Daten enthalten.
|
||||
% Das mittlere Quartil entspricht dem Median.
|
||||
% \end{definition}
|
||||
|
||||
% \begin{exercise}{quartiles.m}{}
|
||||
% \tr{Write a function that computes the first, second, and third quartile of a vector.}
|
||||
% {Schreibe eine Funktion, die das erste, zweite und dritte Quartil als Vektor zur\"uckgibt.}
|
||||
% Write a function that computes the first, second, and third quartile of a vector.
|
||||
% \end{exercise}
|
||||
|
||||
\begin{figure}[t]
|
||||
\includegraphics[width=1\textwidth]{boxwhisker}
|
||||
\titlecaption{\label{boxwhiskerfig} Box-Whisker Plot.}{Box-Whisker
|
||||
Plots sind gut geeignet um mehrere unimodale Verteilungen
|
||||
miteinander zu vergleichen. Hier sind es jeweils 40
|
||||
normalverteilte Zufallszahlen.}
|
||||
\titlecaption{\label{boxwhiskerfig} Box-Whisker Plot.}{Box-whisker
|
||||
plots are well suited for comparing unimodal distributions. Each
|
||||
box-whisker characterizes 40 random numbers that have been drawn
|
||||
from a normal distribution.}
|
||||
\end{figure}
|
||||
|
||||
\determ{Box-Whisker Plots} sind eine h\"aufig verwendete Darstellung
|
||||
um die Verteilung unimodaler Daten zu visualisieren und vergleichbar
|
||||
zu machen mit anderen Daten. Dabei wird um den Median eine Box vom
|
||||
1. zum 3. Quartil gezeichnet. Die Whiskers deuten den minimalen und
|
||||
den maximalen Datenwert an (\figref{boxwhiskerfig}).
|
||||
\enterm{Box-whisker plots} are commonly used to visualize and compare
|
||||
the distribution of unimodal data. Aa box is drawn around the median
|
||||
that extends from the 1$^{\rm st}$ to the 3$^{\rm rd}$ quartile. The
|
||||
whiskers mark the minimum and maximum value of the data set
|
||||
(\figref{boxwhiskerfig}).
|
||||
|
||||
\begin{exercise}{boxwhisker.m}{}
|
||||
\tr{Generate eine $40 \times 10$ matrix of random numbers and
|
||||
illustrate their distribution in a box-whicker plot
|
||||
(\code{boxplot()} function). How to interpret the plot?}
|
||||
{Erzeuge ein $40 \times 10$ Matrix
|
||||
von Zufallszahlen und illustriere ihre Verteilungen in einem
|
||||
Box-Whisker Plot (\code{boxplot()} Funktion, lies die Hilfe!). Wie ist der
|
||||
Box-Whisker Plot zu interpretieren? Was hat es mit den Ausreissern auf sich?
|
||||
Wie kann man erreichen, dass die Whisker den kleinsten und den gr\"o{\ss}ten
|
||||
Datenwert anzeigen? Warum sind die unterschiedlichen Box-Whiskers nicht alle gleich,
|
||||
obwohl sie aus der selben Verteilung gezogen worden sind?}
|
||||
Generate eine $40 \times 10$ matrix of random numbers and
|
||||
illustrate their distribution in a box-whicker plot
|
||||
(\code{boxplot()} function). How to interpret the plot?
|
||||
\end{exercise}
|
||||
|
||||
\section{\tr{Histogram}{Histogramm}}
|
||||
\section{Histograms}
|
||||
|
||||
\determ[Histogramm]{Histogramme} z\"ahlen die H\"aufigkeit $n_i$ des
|
||||
Auftretens von $N=\sum_{i=1}^M n_i$ Messwerten in $M$
|
||||
Messbereichsklassen $i$ (Bins). Die Klassen unterteilen den
|
||||
Wertebereich meist in angrenzende und gleich gro{\ss}e Intervalle.
|
||||
Histogramme k\"onnen verwendet werden, um die
|
||||
\determ{Wahrscheinlichkeitsverteilung} der Messwerte abzusch\"atzen.
|
||||
\enterm[Histogram]{Histograms} count the frequency $n_i$ of
|
||||
$N=\sum_{i=1}^M n_i$ measurements in $M$ bins $i$. The bins tile the
|
||||
data range usually into intervals of the same size. Histograms are
|
||||
often used to estimate the \enterm{probability distribution} of the
|
||||
data values.
|
||||
|
||||
\begin{figure}[t]
|
||||
\includegraphics[width=1\textwidth]{diehistograms}
|
||||
\titlecaption{\label{diehistogramsfig} Histogramme des Ergebnisses
|
||||
von 100 oder 500 mal W\"urfeln.}{Links: das absolute Histogramm
|
||||
z\"ahlt die Anzahl des Auftretens jeder Augenzahl. Rechts:
|
||||
Normiert auf die Summe des Histogramms werden die beiden Messungen
|
||||
untereinander als auch mit der theoretischen Verteilung $P=1/6$
|
||||
vergleichbar.}
|
||||
\titlecaption{\label{diehistogramsfig} Histograms resulting from 100
|
||||
or 500 times rolling a die.}{Left: the absolute frequency
|
||||
histogram counts the frequency of each number the die
|
||||
shows. Right: When normalized by the sum of the frequency
|
||||
histogram the two data sets become comparable with each other and
|
||||
with the expected theoretical distribution of $P=1/6$.}
|
||||
\end{figure}
|
||||
|
||||
Bei ganzzahligen Messdaten (z.B. die Augenzahl eines W\"urfels oder
|
||||
die Anzahl von Aktionspotentialen in einem bestimmten Zeitfenster)
|
||||
kann f\"ur jede auftretende Zahl eine Klasse definiert werden. Damit
|
||||
die H\"ohe der Histogrammbalken unabh\"angig von der Anzahl der
|
||||
Messwerte wird, wird das Histogram auf die Anzahl der
|
||||
Messwerte normiert (\figref{diehistogramsfig}). Die H\"ohe der
|
||||
Histogrammbalken gibt dann die Wahrscheinlichkeit $P(x_i)$ des
|
||||
Auftretens der Gr\"o{\ss}e $x_i$ in der $i$-ten Klasse an
|
||||
\[ P_i = \frac{n_i}{N} = \frac{n_i}{\sum_{i=1}^M n_i} \; . \]
|
||||
For integer data values (e.g. die number of the faces of a die or the
|
||||
number of action potential occurring within a fixed time window) a bin
|
||||
can be defined for each data value. The histogram is usually
|
||||
normalized by the total number of measurements to make it
|
||||
independent of size of the data set (\figref{diehistogramsfig}). Then
|
||||
the height of each histogram bar equals the probability $P(x_i)$ of
|
||||
the data value $x_i$ in the $i$-th bin:
|
||||
\[ P(x_i) = P_i = \frac{n_i}{N} = \frac{n_i}{\sum_{i=1}^M n_i} \; . \]
|
||||
|
||||
\begin{exercise}{rollthedie.m}{}
|
||||
\tr{Write a function that simulates rolling a die $n$ times.}
|
||||
{Schreibe eine Funktion, die das $n$-malige W\"urfeln mit einem W\"urfel simuliert.}
|
||||
Write a function that simulates rolling a die $n$ times.
|
||||
\end{exercise}
|
||||
|
||||
\begin{exercise}{diehistograms.m}{}
|
||||
@ -152,7 +134,7 @@ Auftretens der Gr\"o{\ss}e $x_i$ in der $i$-ten Klasse an
|
||||
\end{exercise}
|
||||
|
||||
|
||||
\section{\tr{Probability density function}{Wahrscheinlichkeitsdichte}}
|
||||
\section{Probability density functions}
|
||||
|
||||
Meistens haben wir es jedoch mit reellen Messgr\"o{\ss}en zu tun
|
||||
(z.B. Gewicht von Tigern, L\"ange von Interspikeintervallen). Es
|
||||
@ -228,10 +210,9 @@ Standardabweichung $\sigma$.
|
||||
\end{figure}
|
||||
|
||||
\begin{exercise}{gaussianbins.m}{}
|
||||
\tr{Draw 100 random data from a Gaussian distribution and plot
|
||||
histograms with different bin sizes of the data.} {Ziehe 100
|
||||
normalverteilte Zufallszahlen und erzeuge Histogramme mit
|
||||
unterschiedlichen Klassenbreiten. Was f\"allt auf?}
|
||||
Draw 100 random data from a Gaussian distribution and plot
|
||||
histograms with different bin sizes of the data. What do you
|
||||
observe?
|
||||
\end{exercise}
|
||||
|
||||
\pagebreak[2]
|
||||
@ -259,7 +240,7 @@ $\Delta x$ der Klassen geteilt werden (\figref{pdfhistogramfig}).
|
||||
\end{exercise}
|
||||
|
||||
|
||||
\section{\tr{Correlations}{Korrelationen}}
|
||||
\section{Correlations}
|
||||
|
||||
\begin{figure}[tp]
|
||||
\includegraphics[width=1\textwidth]{correlation}
|
||||
|
Reference in New Issue
Block a user