Transcript
Stetige Zufallsgrößen •
Darstellung durch Dichtefunktion f b
P(a X b) f ( x)dx a
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
0.4
Verteilungsfunktion stetiger Zufallsgrößen
0.2 0.1 0.0
Dichte
0.3
:
-4
-2
0 x
b 2
4
P( X b) F (b)
b
f ( x)dx
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Erwartungswert und Varianz stetiger Zufallsgrößen
Ist
X
stetig mit Dichtefunktion
E( X )
f x, so definiert man:
xf ( x)dx
Var ( X ) E (( X E ( X )) ) 2
( x E ( X )) 2 f ( x)dx
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Erwartungswert von linear transformierten Zufallsgrößen
Für eine Zufallsvariable X gilt (mit beliebigen Konstanten a und b):
E (a b X ) a b E ( X ) Var (a b X ) b 2 Var ( X )
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Normalverteilung: Definition Eine stetige Zufallsvariable X heißt normalverteilt mit den 2 Parametern und , kurz X~N , 2 , falls sie die folgende Dichtefunktion besitzt:
2 1 1 (x ) f X ( X ) : exp 2 2 2
Erwartungswert
E( X )
Varianz
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Var ( X ) 2
Normalverteilung X ~ N (; 2 )
Beschreibung: „Glockenkurve“
f ( x)
1 e 2
0 , 5(
x 2 )
dt
Verteilungsfunktion F ( x)
1 2
x
e
0 , 5(
t 2 )
dt
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Anwendung der Normalverteilung Die Normalverteilung dient als Verteilungsmodell in vielen praktischen Fragestellungen, z.B. bei • • • •
Metrische Größen einer Population Summen und Durchschnitte von Zufallsgrößen Natürliche Variabilität Messfehler
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Schwankungsbereiche der Normalverteilung
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Beispiel zur Normalverteilung Bei 250 Katzen wurde der Creatinwert im Blut gemessen:
Studie: Judit Zapirain Gastón et al. Prävalenzen des felinen Herpesvirus-1 felinen Calicivirus und von Chlamydophila felis in Mehrkatzenhaushalten
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Quantile der Normalverteilung: Beispiel Es sei X eine normalverteilte Zufallsvariable mit 2 =10 und =25. Bestimmen Sie die folgenden Wahrscheinlichkeiten: • P (X > 20) • P (5 < X < 20)
• P (-2 < X < 15)
Beispiel: Fehler bei Messung Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
i.i.d. Zufallsgrößen X 1 , X 2 ,..., X n seien unabhängig und identisch verteilt. Man schreibt auch dafür: X 1 , X 2 ,..., X n i.i.d . i.i.d. steht für „independent and identically distributed“. Ist E ( X i ) so gilt:
und Var ( X i ) 2,
E ( X 1 X 2 ... X n ) n Var ( X 1 X 2 ... X n ) n 2 1 E ( ( X 1 X 2 ... X n )) n 1 2 Var ( ( X 1 X 2 ... X n )) n n Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Grenzwertsätze Bei einer Stichprobenziehung werden n Personen gefragt oder n unabhängige Experimente durchgeführt. Man ordnet jedem Versuch eine Zufallsgröße Xn zu. Die n Zufallsgrößen sind dann i.i.d. Von Interesse ist dann u.a. die Verteilung des Stichprobenmittels
1 X : ( X 1 X 2 ... X n ) n •
Gesetz der großen Zahlen: Ist der Erwartungswert einer ZG X, so liegt das der Mittelwert
•
X
Zentraler Grenzwertsatz:
mit wachsendem n nahe bei
X
ist für große n annähernd normalverteilt.
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Diskrete Wahrscheinlichkeitsmodelle • Poisson-Verteilung: Zählen seltener Ereignisse
Wahrscheinlichkeitsfunktion
P( X k )
k k!
exp( )
Beispiele: Zahl der Fischvergiftungen pro Zeiteinheit Zahl der Spontantumoren pro Zeiteinheit historisch: Zahl der Todesfälle durch Hufschlag pro Jahr und Regiment
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Beispiel für Possion-Verteilung Wahrscheinlichkeitsfunktion
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Lebensdauerverteilungen • Exponentialverteilung
Beispiel: Lebensdauern Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Zusammenfassung: Verteilungen • Wahrscheinlichkeitsmodelle dienen dazu, bestimmte (unsichere) Phänomene zu charakterisieren. • Das Wahrscheinlichkeitsmodell ist abhängig von der zu charakterisierenden Größe. In der Literatur gibt es eine Vielzahl solcher Verteilungen.
• Man unterscheidet diskrete und stetige Verteilungen (Wahrscheinlichkeitsmodelle). • Wichtige Kennzahlen von Verteilungen sind Erwartungswert und Varianz. • Verteilungen haben meist Parameter, die durch das Problem gegeben sind, oder aus Daten geschätzt werden.
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Statistische Erhebungen Bei der Erhebung von Daten unterscheidet man: • Befragungen z.B. Befragung der Landwirte über das Verhalten der Tiere im Stall
• Experimente z.B. Versuch, welches Arzneimittel am besten zur Heilung führt • Beobachtungen Auftreten einer Krankheit Erhebungen zu Tieren in einer Tierklinik
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Unterscheidungseinheiten / statistische Einheit / Merkmalsträger Individuen, die einer Erhebung zugrunde liegen
Beispiele:
• Einzelne Tiere • Einzelne Herden • Einzelne Landwirte • Haushalte
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Merkmale (Variablen) Eigenschaften Untersuchungseinheiten z.B. • Krankheitsstatus • Blutparameter
• Geschlecht • Anzahl der Kühe (bei Untersuchungseinheit Landwirt)
Merkmalsausprägungen mögliche Werte des Merkmals • Messergebnisse / positive Zahlen • krank / gesund
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Charakterisierung von Merkmalen
quantitative Merkmale unterscheiden sich durch ihre Größe • Alter, Gewicht, Milchleistung, Temperatur, Anzahl Keime, Schadstoffgehalt, … qualitative Merkmale unterscheiden sich durch ihre Art • Geschlecht, Namen, Rassen, Haltungsform
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Merkmalswerte Die gemessenen, erfragten oder beobachteten Ausprägungen des Untersuchungsmerkmals sind die Merkmalswerte. Sie stellen die Daten der Erhebung dar. • Wiederkauverhalten: z.B. in Stunden pro Tag • Arzneimittel: Dosis 1, Dosis 2, Dosis 0 (Placebo) • Befund: gesund, fraglich, erkrankt • Keimzahlen: Anzahl in 1000
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Skalen Metrische Skala: Die Werte unterliegen einer Rangfolge und die Abstände zwischen den Werten der Skala lassen sich interpretieren. •
Gewicht, Keimzahlen, Schadstoffmessung
Ordinalskala: Die Werte unterliegen einer Rangfolge, aber die Abstände zwischen den Werten der Skala lassen sich nicht interpretieren. •
Bewertung (Noten), Gesundheitszustand
Nominalskala: Die Werte unterliegen keiner Rangfolge und sind nicht Vergleichbar •
Geschlecht, Rasse, Haltungsform
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Deskriptive Statistik Ziel: Beschreibung von Daten mit möglichst geringem Informationsverlust
• • • •
Eigenschaften und Strukturen sichtbar machen Graphisch und durch Kennwerte Eindimensional und mehrdimensional Zunächst keine Schlüsse auf die Grundgesamtheit
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Rohdaten und Datenmatrix Die Daten liegen in der Regel als Datenmatrix vor: • • • •
Zeilen entsprechen Untersuchungseinheiten Spalten entsprechen Merkmalen Elemente der Matrix sind die Merkmalsausprägungen Fragen mit Mehrfachnennungen als Einzelne binäre Merkmale definieren
Hinweise zur Eingabe unter: www.stat.uni-muenchen.de/stablab/Excel.html
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Beispiel: Daten zu Mastenten (Ausschnitt)
- Ändern -
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Eindimensionale Statistische Kennwerte Lagemaßzahlen
• • • •
Wo liegt die Masse der Daten? Wo liegt die Mehrzahl der Daten? Wo liegt die Mitte der Daten? Welche Mehrmalsausprägung ist typisch für die Häufigkeitsverteilung?
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Statistische Kennwerte
• Über welchen Bereich erstrecken sich die Daten? • Wie groß ist die Schwankung der Ausprägungen?
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Eindimensionale Häufigkeitsverteilung
Hämatokrit
Gültig
Fehlend Ges amt
35 36 37 38 39 40 41 42 43 44 Ges amt Sys tem
Häufigkeit 3 7 3 9 16 18 12 5 6 1 80 40 120
Prozent 2,5 5,8 2,5 7,5 13,3 15,0 10,0 4,2 5,0 ,8 66,7 33,3 100,0
Gültige Prozente 3,8 8,8 3,8 11,3 20,0 22,5 15,0 6,3 7,5 1,3 100,0
Kumulierte Prozente 3,8 12,5 16,3 27,5 47,5 70,0 85,0 91,3 98,8 100,0
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Der Modus Definition: Häufigster Wert Eigenschaften: • oft nicht eindeutig • nur bei gruppierten Daten oder bei Merkmalen mit wenigen Ausprägungen sinnvoll • stabil bei allen eindeutigen Transformationen • geeignet für alle Skalenniveaus
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Beispiel Modus Modus = 4
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Der Median Definition: Wert für den gilt 50% der Daten sind kleiner oder gleich med 50% der Daten sind größer oder gleich med
med =
n 1 (k ) x falls k ganze Zahl 2 1 ( x ( k ) x ( h 1) ) falls k n ganze Zahl 2 2
x (1) x ( n )
sind geordnete Werte
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Eigenschaften des Median • • • •
anschaulich stabil gegenüber monotonen Transformationen geeignet für ordinale Daten stabil gegenüber Ausreißern
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Beispiel Median Hämatokrit
Gültig
Fehlend Ges amt
35 36 37 38 39 40 41 42 43 44 Ges amt Sys tem
Häufigkeit 3 7 3 9 16 18 12 5 6 1 80 40 120
Prozent 2,5 5,8 2,5 7,5 13,3 15,0 10,0 4,2 5,0 ,8 66,7 33,3 100,0
Gültige Prozente 3,8 8,8 3,8 11,3 20,0 22,5 15,0 6,3 7,5 1,3 100,0
Kumulierte Prozente 3,8 12,5 16,3 27,5 47,5 70,0 85,0 91,3 98,8 100,0
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Statistiken Hämatokrit N Gültig Fehlend Median Modus
80 40 40,00 40
Das Quantil (Perzentil) Definition: Wert für den gilt Anteil p der Daten sind kleiner oder gleich xp Anteil 1-p der Daten sind größer oder gleich xp (k ) x falls np keine ganze Zahl und k kleinsteZahl np 1 (k ) ( h 1) ( x x ) falls k np ganze Zahl 2
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Fünf-Punkte Zusammenfassung
Minimum, 25%-Quantil, Median,75%-Quantil,Maximum Hämatokrit
Gültig
Fehlend Ges amt
35 36 37 38 39 40 41 42 43 44 Ges amt Sys tem
Häufigkeit 3 7 3 9 16 18 12 5 6 1 80 40 120
Prozent 2,5 5,8 2,5 7,5 13,3 15,0 10,0 4,2 5,0 ,8 66,7 33,3 100,0
Gültige Prozente 3,8 8,8 3,8 11,3 20,0 22,5 15,0 6,3 7,5 1,3 100,0
Kumulierte Prozente 3,8 12,5 16,3 27,5 47,5 70,0 85,0 91,3 98,8 100,0
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Statistiken Hämatokrit N Gültig Fehlend Median Perzentile 10 25 50 75 90 99
80 40 40,00 36,00 38,00 40,00 41,00 42,00 44,00
Der Mittelwert (arithmetisches Mittel) 1 n x xi n i 1 • bekanntestes Lagemaß • instabil gegen extreme Werte • geeignet für Intervallskalierte Daten
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Beispiel Mittelwert Hämatokrit
Gültig
Fehlend Ges amt
Häufigkeit 3 7 3 9 16 18 12 5 6 1 80 40 120
35 36 37 38 39 40 41 42 43 44 Ges amt Sys tem
Prozent 2,5 5,8 2,5 7,5 13,3 15,0 10,0 4,2 5,0 ,8 66,7 33,3 100,0
Gültige Prozente 3,8 8,8 3,8 11,3 20,0 22,5 15,0 6,3 7,5 1,3 100,0
Kumulierte Prozente 3,8 12,5 16,3 27,5 47,5 70,0 85,0 91,3 98,8 100,0
Deskriptive Statistik N Hämatokrit Gültige Werte (Lis tenweise)
80
Minimum 35
Maximum 44
Mittelwert 39,48
80
Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006
Standardab weichung 2,093