Preview only show first 10 pages with watermark. For full document please download

Folien

   EMBED


Share

Transcript

Stetige Zufallsgrößen • Darstellung durch Dichtefunktion f b P(a  X  b)   f ( x)dx a Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 0.4 Verteilungsfunktion stetiger Zufallsgrößen 0.2 0.1 0.0 Dichte 0.3 : -4 -2 0 x b 2 4 P( X  b)  F (b)   b  f ( x)dx Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Erwartungswert und Varianz stetiger Zufallsgrößen Ist X stetig mit Dichtefunktion E( X )     f x, so definiert man: xf ( x)dx Var ( X )  E (( X  E ( X )) )   2   ( x  E ( X )) 2 f ( x)dx Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Erwartungswert von linear transformierten Zufallsgrößen Für eine Zufallsvariable X gilt (mit beliebigen Konstanten a und b): E (a  b  X )  a  b  E ( X ) Var (a  b  X )  b 2  Var ( X ) Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Normalverteilung: Definition Eine stetige Zufallsvariable X heißt normalverteilt mit den 2 Parametern  und  , kurz X~N  ,  2  , falls sie die folgende Dichtefunktion besitzt:   2  1 1 (x  )  f X ( X ) :  exp    2  2    2  Erwartungswert E( X )   Varianz Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Var ( X )   2 Normalverteilung X ~ N (; 2 ) Beschreibung: „Glockenkurve“ f ( x)  1 e  2  0 , 5( x 2 )  dt Verteilungsfunktion F ( x)  1  2  x  e  0 , 5( t  2 )  dt Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Anwendung der Normalverteilung Die Normalverteilung dient als Verteilungsmodell in vielen praktischen Fragestellungen, z.B. bei • • • • Metrische Größen einer Population Summen und Durchschnitte von Zufallsgrößen Natürliche Variabilität Messfehler Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Schwankungsbereiche der Normalverteilung Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Beispiel zur Normalverteilung Bei 250 Katzen wurde der Creatinwert im Blut gemessen: Studie: Judit Zapirain Gastón et al. Prävalenzen des felinen Herpesvirus-1 felinen Calicivirus und von Chlamydophila felis in Mehrkatzenhaushalten Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Quantile der Normalverteilung: Beispiel Es sei X eine normalverteilte Zufallsvariable mit 2 =10 und  =25. Bestimmen Sie die folgenden Wahrscheinlichkeiten: • P (X > 20) • P (5 < X < 20) • P (-2 < X < 15) Beispiel: Fehler bei Messung Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 i.i.d. Zufallsgrößen X 1 , X 2 ,..., X n seien unabhängig und identisch verteilt. Man schreibt auch dafür: X 1 , X 2 ,..., X n i.i.d . i.i.d. steht für „independent and identically distributed“. Ist E ( X i )  so gilt:  und Var ( X i )   2, E ( X 1  X 2  ...  X n )  n Var ( X 1  X 2  ...  X n )  n 2 1 E ( ( X 1  X 2  ... X n ))   n 1 2 Var ( ( X 1  X 2  ...  X n ))  n n Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Grenzwertsätze Bei einer Stichprobenziehung werden n Personen gefragt oder n unabhängige Experimente durchgeführt. Man ordnet jedem Versuch eine Zufallsgröße Xn zu. Die n Zufallsgrößen sind dann i.i.d. Von Interesse ist dann u.a. die Verteilung des Stichprobenmittels 1 X : ( X 1  X 2  ...  X n ) n • Gesetz der großen Zahlen: Ist  der Erwartungswert einer ZG X, so liegt das der Mittelwert • X Zentraler Grenzwertsatz: mit wachsendem n nahe bei  X ist für große n annähernd normalverteilt. Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Diskrete Wahrscheinlichkeitsmodelle • Poisson-Verteilung: Zählen seltener Ereignisse Wahrscheinlichkeitsfunktion P( X  k )  k k! exp(  ) Beispiele: Zahl der Fischvergiftungen pro Zeiteinheit Zahl der Spontantumoren pro Zeiteinheit historisch: Zahl der Todesfälle durch Hufschlag pro Jahr und Regiment Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Beispiel für Possion-Verteilung Wahrscheinlichkeitsfunktion Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Lebensdauerverteilungen • Exponentialverteilung Beispiel: Lebensdauern Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Zusammenfassung: Verteilungen • Wahrscheinlichkeitsmodelle dienen dazu, bestimmte (unsichere) Phänomene zu charakterisieren. • Das Wahrscheinlichkeitsmodell ist abhängig von der zu charakterisierenden Größe. In der Literatur gibt es eine Vielzahl solcher Verteilungen. • Man unterscheidet diskrete und stetige Verteilungen (Wahrscheinlichkeitsmodelle). • Wichtige Kennzahlen von Verteilungen sind Erwartungswert und Varianz. • Verteilungen haben meist Parameter, die durch das Problem gegeben sind, oder aus Daten geschätzt werden. Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Statistische Erhebungen Bei der Erhebung von Daten unterscheidet man: • Befragungen z.B. Befragung der Landwirte über das Verhalten der Tiere im Stall • Experimente z.B. Versuch, welches Arzneimittel am besten zur Heilung führt • Beobachtungen Auftreten einer Krankheit Erhebungen zu Tieren in einer Tierklinik Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Unterscheidungseinheiten / statistische Einheit / Merkmalsträger Individuen, die einer Erhebung zugrunde liegen Beispiele: • Einzelne Tiere • Einzelne Herden • Einzelne Landwirte • Haushalte Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Merkmale (Variablen) Eigenschaften Untersuchungseinheiten z.B. • Krankheitsstatus • Blutparameter • Geschlecht • Anzahl der Kühe (bei Untersuchungseinheit Landwirt) Merkmalsausprägungen mögliche Werte des Merkmals • Messergebnisse / positive Zahlen • krank / gesund Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Charakterisierung von Merkmalen quantitative Merkmale unterscheiden sich durch ihre Größe • Alter, Gewicht, Milchleistung, Temperatur, Anzahl Keime, Schadstoffgehalt, … qualitative Merkmale unterscheiden sich durch ihre Art • Geschlecht, Namen, Rassen, Haltungsform Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Merkmalswerte Die gemessenen, erfragten oder beobachteten Ausprägungen des Untersuchungsmerkmals sind die Merkmalswerte. Sie stellen die Daten der Erhebung dar. • Wiederkauverhalten: z.B. in Stunden pro Tag • Arzneimittel: Dosis 1, Dosis 2, Dosis 0 (Placebo) • Befund: gesund, fraglich, erkrankt • Keimzahlen: Anzahl in 1000 Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Skalen Metrische Skala: Die Werte unterliegen einer Rangfolge und die Abstände zwischen den Werten der Skala lassen sich interpretieren. • Gewicht, Keimzahlen, Schadstoffmessung Ordinalskala: Die Werte unterliegen einer Rangfolge, aber die Abstände zwischen den Werten der Skala lassen sich nicht interpretieren. • Bewertung (Noten), Gesundheitszustand Nominalskala: Die Werte unterliegen keiner Rangfolge und sind nicht Vergleichbar • Geschlecht, Rasse, Haltungsform Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Deskriptive Statistik Ziel: Beschreibung von Daten mit möglichst geringem Informationsverlust • • • • Eigenschaften und Strukturen sichtbar machen Graphisch und durch Kennwerte Eindimensional und mehrdimensional Zunächst keine Schlüsse auf die Grundgesamtheit Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Rohdaten und Datenmatrix Die Daten liegen in der Regel als Datenmatrix vor: • • • • Zeilen entsprechen Untersuchungseinheiten Spalten entsprechen Merkmalen Elemente der Matrix sind die Merkmalsausprägungen Fragen mit Mehrfachnennungen als Einzelne binäre Merkmale definieren Hinweise zur Eingabe unter: www.stat.uni-muenchen.de/stablab/Excel.html Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Beispiel: Daten zu Mastenten (Ausschnitt) - Ändern - Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Eindimensionale Statistische Kennwerte Lagemaßzahlen • • • • Wo liegt die Masse der Daten? Wo liegt die Mehrzahl der Daten? Wo liegt die Mitte der Daten? Welche Mehrmalsausprägung ist typisch für die Häufigkeitsverteilung? Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Statistische Kennwerte • Über welchen Bereich erstrecken sich die Daten? • Wie groß ist die Schwankung der Ausprägungen? Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Eindimensionale Häufigkeitsverteilung Hämatokrit Gültig Fehlend Ges amt 35 36 37 38 39 40 41 42 43 44 Ges amt Sys tem Häufigkeit 3 7 3 9 16 18 12 5 6 1 80 40 120 Prozent 2,5 5,8 2,5 7,5 13,3 15,0 10,0 4,2 5,0 ,8 66,7 33,3 100,0 Gültige Prozente 3,8 8,8 3,8 11,3 20,0 22,5 15,0 6,3 7,5 1,3 100,0 Kumulierte Prozente 3,8 12,5 16,3 27,5 47,5 70,0 85,0 91,3 98,8 100,0 Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Der Modus Definition: Häufigster Wert Eigenschaften: • oft nicht eindeutig • nur bei gruppierten Daten oder bei Merkmalen mit wenigen Ausprägungen sinnvoll • stabil bei allen eindeutigen Transformationen • geeignet für alle Skalenniveaus Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Beispiel Modus Modus = 4 Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Der Median Definition: Wert für den gilt 50% der Daten sind kleiner oder gleich med 50% der Daten sind größer oder gleich med med = n 1  (k ) x falls k  ganze Zahl   2 1  ( x ( k )  x ( h 1) ) falls k  n ganze Zahl  2 2 x (1)  x ( n ) sind geordnete Werte Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Eigenschaften des Median • • • • anschaulich stabil gegenüber monotonen Transformationen geeignet für ordinale Daten stabil gegenüber Ausreißern Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Beispiel Median Hämatokrit Gültig Fehlend Ges amt 35 36 37 38 39 40 41 42 43 44 Ges amt Sys tem Häufigkeit 3 7 3 9 16 18 12 5 6 1 80 40 120 Prozent 2,5 5,8 2,5 7,5 13,3 15,0 10,0 4,2 5,0 ,8 66,7 33,3 100,0 Gültige Prozente 3,8 8,8 3,8 11,3 20,0 22,5 15,0 6,3 7,5 1,3 100,0 Kumulierte Prozente 3,8 12,5 16,3 27,5 47,5 70,0 85,0 91,3 98,8 100,0 Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Statistiken Hämatokrit N Gültig Fehlend Median Modus 80 40 40,00 40 Das Quantil (Perzentil) Definition: Wert für den gilt Anteil p der Daten sind kleiner oder gleich xp Anteil 1-p der Daten sind größer oder gleich xp  (k )   x falls np keine ganze Zahl und k kleinsteZahl  np  1 (k ) ( h 1)  ( x  x ) falls k  np ganze Zahl  2  Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Fünf-Punkte Zusammenfassung Minimum, 25%-Quantil, Median,75%-Quantil,Maximum Hämatokrit Gültig Fehlend Ges amt 35 36 37 38 39 40 41 42 43 44 Ges amt Sys tem Häufigkeit 3 7 3 9 16 18 12 5 6 1 80 40 120 Prozent 2,5 5,8 2,5 7,5 13,3 15,0 10,0 4,2 5,0 ,8 66,7 33,3 100,0 Gültige Prozente 3,8 8,8 3,8 11,3 20,0 22,5 15,0 6,3 7,5 1,3 100,0 Kumulierte Prozente 3,8 12,5 16,3 27,5 47,5 70,0 85,0 91,3 98,8 100,0 Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Statistiken Hämatokrit N Gültig Fehlend Median Perzentile 10 25 50 75 90 99 80 40 40,00 36,00 38,00 40,00 41,00 42,00 44,00 Der Mittelwert (arithmetisches Mittel) 1 n x   xi n i 1 • bekanntestes Lagemaß • instabil gegen extreme Werte • geeignet für Intervallskalierte Daten Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Beispiel Mittelwert Hämatokrit Gültig Fehlend Ges amt Häufigkeit 3 7 3 9 16 18 12 5 6 1 80 40 120 35 36 37 38 39 40 41 42 43 44 Ges amt Sys tem Prozent 2,5 5,8 2,5 7,5 13,3 15,0 10,0 4,2 5,0 ,8 66,7 33,3 100,0 Gültige Prozente 3,8 8,8 3,8 11,3 20,0 22,5 15,0 6,3 7,5 1,3 100,0 Kumulierte Prozente 3,8 12,5 16,3 27,5 47,5 70,0 85,0 91,3 98,8 100,0 Deskriptive Statistik N Hämatokrit Gültige Werte (Lis tenweise) 80 Minimum 35 Maximum 44 Mittelwert 39,48 80 Vorlesung Biometrie für Studierende der Veterinärmedizin 16.11.2006 Standardab weichung 2,093