Transcript
Buch 1, Kap 6.1: Das P Summenzeichen Das Summenzeichen wird als Abk¨ urzung f¨ ur l¨angere Summen benutzt. So wird die Summe 1 + 2 + 3 + 4 + 5 + 6 geschrieben als 6 X
i
i=1
Der Index unter dem Summenzeichen gibt den Startwert der Summanden an (im Beispiel 1). Der Index oberhalb des Summenzeichens gibt den Endwert der Summanden an (im Beispiel 6). Das i ist die Laufvariable, die bei dem Startwert beginnt und bis zum Endwert jeweils um +1 erh¨oht wird. Besonders praktisch ist das Summenzeichen, wenn der Endwert nur symbolisch bekannt ist, wie bei der Anzahl von Beoabachtungen, die wir mit n abk¨ urzen. So kann die Summe aller Beoachtungen der gemessenen Variable Y entweder durch y1 + y2 + ... + yn bezeichnet werden oder auch einfach durch
n X
yi
i=1
Entsprechend ist der Mittelwert y durch n
y=
1X yi n i=1
gegeben. Es gibt einige wichtige Summen, die man als Funktion des Endwerts n angeben kann. So gilt n X n(n + 1) i = 1 + 2 + ... + n = 2 i=1
oder
n X
i2 = 12 + 22 + ... + n2 =
i=1
n(n + 1)(2n + 1) . 6
Wichtige Regeln f¨ ur das Arbeiten mit Summen sind die Folgenden: n X i=1 n X i=1 n X m X i=1 j=1
a = |a + a + {z... + a} = n × a n Summanden
byi = by1 + by2 + ... + byn = b
n X
yi
i=1
xi yj = x1 y1 + x2 y1 + ... + x1 ym + x2 y1 + ...x2 ym + ... + xn y1 + ... + xn ym =
n X i=1
! xi
m X
j=1
yj
Buch 1, Kap 6.1: Optimalit¨ atseigenschaft des arithmetischen Mittelwerts n n P P 2 2 (yi − y) ≤ (yi − c) f¨ ur jede Konstante c i=1
i=1
Beweis Wir betrachten im folgenden lediglich die rechte Seite der Ungleichung und zeigen, dass die rechte Seite niemals kleiner als die linke Seite sein kann und die Gleichheit dann erreicht wird, wenn c = y. Dazu betrachten, die rechte Seite als Funktion von c, y1 , ....yn : f (c, y1 , ....yn ) :=
n X
2
(yi − c) =
i=1
n X
yi2 − 2yi c + c2
i=1
und ermitteln das Minimum f¨ ur c. Dazu leiten wir f nach c ab und setzen die Ableitung gleich 0 : n
X δf = (−2yi + 2c) = 0 δc i=1
Dann folgt: 2nc = 2
n X
yi = 2ny bzw. c = y
i=1
5Das Minimum f¨ ur c entspricht dem arithmetischen Mittel und nur dann sind besitzen die beiden Seiten der obigen Ungleichung einen identischen Wert. Um zu zeigen, dass c ein Minimum ist, muss die zweite Ableitung positiv sein, was im vorliegenden Fall auch zutrifft: n
X δ2f = 2 = 2n > 0 δc i=1
¨ Buch 1, Kap 6.1: Aquivarianz des arithmetischen Mittelwerts Der Mittelwert von Y 0 = a+bY ist a + by. Beweis
n
y0 =
1X (a + byi ) n i=1
=
1 n
na + b
n X i=1
1 = (na + bny) n = a + by
! yi
Buch 1, Kap 6.1: Andere Mittelwerte ¨ Uberlegungen Neben Modalwerte, dem Median und dem arithmetischen Mittel werden einige weitere Mittelwerte diskutiert. Insgesamt lassen sich folgende Definitionen finden Name Geometrisches Mittel
K¨ urzel y geom
Definition √ y geom = n y1 × y2 × ... × yn
Harmonisches Mittel
y harm
y harm =
Monomisches Mittel f¨ ur p > 1
y p−mono
n 1/y1 +1/y2 +...+1/yn p y p−mono = p y1p × y2p + ...
Quadratisches Mittel
y 2−mono
y 2−mono =
Kubisches Mittel
y 3−mono
y 3−mono
+ ynp
p y12 × y22 + ... + yn2 p = 3 y13 × y23 + ... + yn3
Quadratisches und kubisches Mittel sind Spezialf¨alle des monomischen Mittels mit p = 2 (quadratisch) bzw. p = 3 (kubisch). Bei allen Definitionen ist die Grundidee die, dass die gemessene Variable Y nicht intervallskaliert ist, sondern eine nicht-lineare Transformation der Variablen intervallskaliert ist. • Beim geometrischen Mittel ist der Logarithmus ln(Y ) die Variable, die interpretierbare Differenzen aufweist. • Beim harmonischen Mittel ist
1 Y
die Variable, die interpretierbare Differenzen aufweist. p
• Beim monomischen Mittel ist letztlich Y die Variable, die interpretierbare Differenzen aufweist. Die jeweiligen Mittelwerte werden dann als arithmetische Mittelwerte in den transformierten Variablen f (Y ) berechnet und danach wird das berechnete arithmetische Mittel mittels der Umkehrtransformation f −1 nach Y zur¨ uck transformiert. Im Einzelnen: Name
Transformation
Geometrisches Mittel
ln(Y )
Harmonisches Mittel
1/Y
Monomisches Mittel f¨ ur p > 1
Yp
R¨ ucktransformation exp ln(Y ) 1 1/Y
p p Yp
Buch atseigenschaft des Medians Pn 1, Kap 6.1.2: PnOptimalit¨ ur jede Konstante c i=1 |yi − ymed | ≤ i=1 |yi − c| f¨ Beweis Um diese Eigenschaft des Medians zu beweisen m¨ ussen mehrere F¨alle untersucht werden. Ein wenig Arbeit kann eingespart werden, wenn man folgende Beziehung ber¨ ucksichtigt: Gilt die Behauptung f¨ ur Y und einen festen Wert c, dann gilt die Behauptung f¨ ur −c und −Y und dem Median −ymed ebenfalls. Dies gilt, da der −ymed tats¨achlich der Median von −Y ist und n X
|−yi − (−c)| =
i=1
n X
|yi − c|
i=1
unver¨andert bleibt. F¨ ur den Beweis nutzen wir die nach der Gr¨oße sortierten Werte y(i) . Fall 1: c ≤ ymed Wir setzen m = n−1 ur ungerades n und m = n2 f¨ ur gerades n. Es gilt somit 2m ≤ n. 2 f¨ Aus der Definition des Medians l¨ asst sich dann abeliten, dass f¨ ur alle i = 1, ..., m y(i) ≤ ymed und y(i) ≥ ymed f¨ ur i > m gilt. F¨ ur c ≤ ymed gibt es einen maximalen Index j ≤ m mit y(j) ≤ c. F¨ ur alle i > j soll dann y(i) ≥ c gelten. Wir betrachten nun die Differenz der Summe der Absolutbetr¨age n X
j n m n X X X X |y(i) − c| − |y(i) − ymed | = (c − y(i) ) + (y(i) − c) − (ymed − y(i) ) − (y(i) − ymed )
i=1
=
i=1
i=j+1
j X
m X
i=1
i=j+1
(c − ymed ) +
i=1
(y(i) − c − (ymed − y(i) ) +
= (n − m − j)(ymed − c) + ≥ (n − m − j)(ymed − c) + = (n − m − j)(ymed − c) +
i=m+1 n X
(−c + ymed )
i=m+1 m X
(2y(i) − c − ymed )
i=j+1 m X
(2c − c − ymed )
i=j+1 m X
(c − ymed )
i=j+1
= (n − m − j)(ymed − c) + (m − j)(c − ymed ) = (n − 2m)(ymed − c) Oben wurde festgestellt, dass (n − 2m) ≥ 0 gilt. Nach Voraussetzung ist ymed − c ≥ 0. Damit gilt n X
|y(i) − c| − |y(i) − ymed | ≥ 0
i=1
Fall 2: c ≥ ymed Da −c in −Y nicht optimal sein kann (Fall 1), kann dies auch hier nicht gelten.
Buch 1, Kap 6.3.3: Verschiebungssatz fu ¨ r Abweichungsquadrate n X (yi − c)2 = SSY + n(y − c)2 i=1
Beweis
n X
(yi − c)
2
=
i=1
n X
(yi − y + y − c)2
i=1
=
n X
n n X X (yi − y) + 2 (yi − y)(y − c) + (y − c)2 2
i=1
i=1
i=1
n X = SSY + 2(y − c) (yi − y) + n(y − c)2 i=1
= SSY + 2(y − c) × 0 + n(y − c)2 = SSY + n(y − c)2
Buch 1, Kap 6.3.3: Rechentechnisch gu ¨ nstige Formel fu ¨ r die Varianz ! n n X 1 X 1 2 2 2 2 (yi − y) = yi − ny s = n−1 n−1 i=1
i=1
Beweis Nach dem Verschiebungssatz f¨ ur Abweichungsquadrate gilt f¨ ur die Verschiebung c = 0: n X (yi − 0)2 = SSY + n(y − 0)2 i=1 n X
yi2 = SSY + ny 2 und damit
i=1
SSY
=
n X
yi2 − ny 2
i=1
1 SSY s2Y = n−1
=
1 n−1
n X i=1
! yi2 − ny 2
Buch 1, Kap 8.4.1: Rechentechnisch gu ¨ nstige Formel fu ¨ r die Kovarianz ! n n X 1 X 1 (xi − x) (yi − y) = xi yi − nxy sXY = n−1 n−1 i=1
i=1
Beweis Wir k¨ urzen den Faktor n X
1 n−1
aus der Gleichung und zeigen
(xi − x) (yi − y) =
i=1
= = =
n X i=1 n X i=1 n X i=1 n X
(xi yi − xyi − xi y + xy) x i yi −
n X
xyi −
i=1 n X
x i yi − x
i=1
=
i=1
xi y +
i=1 n X
yi − y
xi yi − nxy
n X
xy
i=1
xi + nxy
i=1
xi yi − xny − ynx + nxy
i=1 n X
n X
Buch 1, Kap 8.4.1: Maximale Kovarianz |sX,Y | ≤ sX sY Beweis Es kommt die sog. Cauchy-Schwarz-Ungleichung zur Anwendung, die hier kurz bewiesen werden soll. Es gilt immer (a − b)2 ≥ 0 und damit a2 + b2 ≥ 2ab Weiter gilt (a + b)2 ≥ 0 und damit a2 + b2 ≥ −2ab Zusammengefaßt also: a2 + b2 ≥ 2|ab| F¨ ur beliebige Zahlen ai und bi (i = 1, ..., n) gilt somit n X
a2i +
n X
i=1
b2i ≥ 2
i=1
n X
|ai bi |
i=1 n X
≥ 2
i=1
(1)
ai bi
(2)
Nun normieren wir die Werte so, dass die Summen auf der linken Seite der Ungleichung (2) jeweils 1 ergeben. Hierf¨ ur nutzen wir die Werte ai a0i = qP n 2 i=1 ai b qP i n
b0i =
2 i=1 bi
Wir erhalten 2=
n X
a2 Pn i 2 i=1 ai i=1
+
n X ai bi qP qP ≥ 2 n n 2 2 i=1 i=1 ai i=1 bi
n X
b2 Pn i 2 i=1 bi i=1
damit gilt v v u n u n n X uX uX 2t a2i t b2i ≥ 2 ai bi i=1
i=1
i=1
K¨ urzen durch 2 und Umstellung ergibt die Cauchy-Schwarz-Ungleichung: n X ai bi ≤
v v u n u n uX uX 2 t a t b2 i
i=1
i=1
(3)
i
i=1
F¨ ur unsere Fragestellung setzen wir zun¨achst ai = xi − x und bi = yi − y ein: n X (xi − x)(yi − y) ≤
v v u n u n uX uX t (xi − x)2 t (yi − y)2
i=1
Teilen durch
1 n−1
i=1
i=1
ergibt die Behauptung:
n 1 X (xi − x)(yi − y) ≤ n − 1 i=1
v u u t
v u n n u 1 X 1 X 2 (xi − x) t (yi − y)2 n−1 n−1
|sX,Y | ≤ sX sY
i=1
i=1
Buch 1, Kap 8.4.2: Nullkorrelation bei linearer Unabh¨angigkeit
Buch 1, Kap 8.5.1: Berechnung der Spearman-Rangkorrelation ohne Rangbindungen in den Variablen Liegen in X und Y keine Rangbindungen vor, so gilt: n P
rs =
(rg(xi )−rg(x))(rg(yi )−rg(y))
s i=1 n P
n P
i=1
i=1
(rg(xi )−rg(x))2
=1− (rg(yi )−rg(y))2
P 2 6 n i=1 di 2 (n −1)n
wobei di = rg (xi ) − rg (yi ) Beweis Im dem Fall, dass keine Rangbindungen vorliegen, werden sowohl f¨ ur X als auch f¨ ur Y alle Zahlen von 1, ..., n als R¨ ange vergeben. Damit liegt der mittlere Rang von X und Y identisch bei rg(x) = rg(y) =
n+1 2
Auch die Varianzen von X und Y sind identisch, da in beiden F¨allen die Varianz der Werte 1, ..., n zu berechnen ist. Zu bestimmen ist damit ! n X 1 n+1 2 2 2 sX = sY = i −n n−1 2 i=1
F¨ ur
Pn
i=1 i
2
gibt es die Formel n X
i2 =
i=1
n(n + 1)(2n + 1) 6
Damit gilt s2X
=
s2Y
= = =
1 n−1
n X i=1
2
i −n
n+1 2
2 !
n(n + 1)(2n + 1) n(n + 1)2 1 − n−1 6 2 2 n(n − 1) 12(n − 1)
Die Formel f¨ ur rs hat sich damit bereits wie folgt vereinfacht: (n+1)2 i=1 rg(xi )rg(yi ) − n 4 n(n2 −1) 12 P 12 ni=1 rg(xi )rg(yi ) − 3n(n n(n2 − 1)
Pn rs = =
+ 1)2
Es bleibt noch die Vereinfachung des Z¨ahlers. Wir betrachten daf¨ ur die Differenzen der R¨ange
di := rg(xi ) − rg(yi ). Es gilt n X
d2i =
i=1
−6 2n(n + 1)(2n + 1) − 6
i=1 n X
d2i
Pn
rg(xi )rg(yi ) +
i=1
n(n + 1)(2n + 1) −2 3
n X
rg(yi )2
i=1 n X
rg(xi )rg(yi )
i=1 n X
rg(xi )rg(yi )
i=1
d2i
i=1 rg(xi )rg(yi )
rs =
n X
= −2n(n + 1)(2n + 1) + 12 = 12
i=1
Wir ersetzen nun 12
rg(xi )2 − 2
i=1
= n X
n X
n X
rg(xi )rg(yi )
i=1
und erhalten
P 2n(n + 1)(2n + 1) − 6 ni=1 d2i − 3n(n + 1)2 n(n2 − 1)
Kurze Nebenrechnung ergibt: 2n(n + 1)(2n + 1) − 3n(n + 1)2 = n(n + 1)(2(2n + 1) − 3(n + 1)) = n(n + 1)(n − 1) = n(n2 − 1) Einsetzen ergibt das gew¨ unschte Ergebnis rs =
P Pn 2 n(n2 − 1) − 6 ni=1 d2i i=1 di = 1 − 6 n(n2 − 1) n(n2 − 1)
Buch 1, Kap 8.5.3: Weitere ordinale Korrelationskoeffizienten
Buch 1, Kap 8.6.1: Eigenschaften von λ 1: Bei statistischer Unabh¨ angigkeit ist λ = 0 2: Es kann λ = 0 werden, auch wenn keine statistische Unabh¨angigkeit vorliegt. Beweis Zun¨achst sortieren wir die Kontingenztafel nach den Randsummen und sorgen daf¨ ur, dass jeweils ein maximaler Wert in der Randsumme der ersten Zeile und der ersten Spalte auftritt. Da sich die bei statistischer Unabh¨ angigkeit die Werte auf Zeilen und Spalten proportional aufteilen, ist – spaltenweise – immer der Eintrag in der ersten Zeile maximal, bzw. – zeilenweise – immer der Eintrag in der ersten Spalte maximal. Die Summe ergibt dann jeweils die erste Zeilensumme, bzw. die erste Spaltensumme. Diese sind aber auch das Maximum der Zeilensummen bzw. der Spaltensummen. Der Z¨ahler von λ ist c X
maxj (nij ) +
i=1
r X
maxi (nij ) − maxi (ni• ) − maxj (n•j )
j=1
Pc
P Bei Unabh¨ angigkeit gilt i=1 maxj (nij ) = maxj (n•j ) bzw. rj=1 maxi (nij ) = maxi (ni• ) Damit ist der Z¨ ahler von λ Null und somit ist λ = 0 Die Statistik λ kann aber auch den Wert Null annehmen, ohne dass statistische Unabh¨ angigkeit vorliegt. Ein einfaches Beispiel hierf¨ ur ist folgende Tabelle X Y 0 1
0 c c
1 c 0
Der Wert c steht f¨ ur eine Anzahl von Beobachtungen mit c > 0. In Zeilen und Spalten sind die Summe der Maxima jeweils 2c und genau so groß wie die Maxima der Zeilen- und Spaltenrandsummen. Damit ist der Z¨ahler von λ Null und folglich λ = 0. Die Indifferenztabelle ist X Y 0 1
0 4c/3 2c/3
1 2c/3 c/3
Y 0 1
X 0 1 c/12 c/6 c/6 c/3
Die zugeh¨origen χ2 -Anteile sind somit
Damit ist χ2 = 3c/4 (also z.B. χ2 = 30 f¨ ur c = 40). Der χ2 -Wert kann in Abh¨angigkeit von c beliebig groß werden, w¨ ahrend λ konstant 0 bleibt.
Buch 1, Kap 8.7.1: SST = SSW + SSE Buch 1, Kap 8.8: Pakete f¨ ur Korrelationen in PASW und R
Buch 1, Kap 9.2: Bestimmung der optimalen Regressionsgeraden als Extremwertproblem Die optimalen Regressionsgewichte b0 (Achsenabschnitt) und b1 (Steigung) bzgl. der Summe der Abweichungsquadrate der vorhergesagten Werte von den beobachteten Werten sind
b0 = y − b1 x sXY b1 = s2X Beweis Die Statistiken b0 und b1 in der Regressionsgleichung yˆi = b1 xi + b0 werden so bestimmt, dass die Summe der quadratischen Fehler n X
e2i =
i=1
n X
(yi − yˆi )2
i=1
=
n X
(yi − b1 xi − b0 )2
i=1
=
n X
yi2
−2
i=1
n X
b1 xi yi − 2
i=1
n X
b0 yi + 2
i=1
n X
b0 b1 xi +
i=1
n X i=1
b21 x2i
+
n X
b20
i=1
minimiert wird. Die partiellen Ableitung nach b0 bzw b1 ergeben: δSSe δb0
= −2
n X
yi + 2
n X
i=1
b1 xi + 2
i=1
n X
b0 = −2
i=1
n X
(yi − b1 xi − b0 )
i=1
bzw. δSSe δb1
= −2
n X i=1
x i yi + 2
n X i=1
b0 xi + 2
n X
b1 x2i = −2
i=1
n X
xi (yi − b1 xi − b0 )
i=1
Setzen wir diese partiellen Ableitungen gleich Null und l¨osen sie nach b0 bzw. b1 auf. F¨ ur den Achsenabschnitt b0 resuliert: n X −2 (yi − b1 xi − b0 ) = 0 i=1
ny − b1 nx − nb0 = 0 nb0 = ny − nb1 x b0 = y − b1 x
F¨ ur die Steigung b folgt: −2
n X
xi (yi − b1 xi − b0 ) = 0
i=1
−2
n X
xi (yi − b1 xi − y + b1 x) = 0
i=1
X
xi yi − b1
X
x2i − y
X X
xi + b1 x
X
xi = 0
xi yi − y
X
X X xi = b1 x2i − b1 x xi P P x i yi − y x i P b1 = P 2 xi − x xi sXY = s2X
Wie leicht zu sehen ist, sind die zweiten Ableitungen jeweils positiv, so dass auch tats¨achlich ein Minimum vorliegt.
Buch 1, Kap 9.5: Streuungszerlegung in der linearen Regression Zun¨achst bestimmen wir die Variation der vorhergesagten Werte. SSR
n X = (yˆi − y¯)2 i=1
=
n X
(b0 + b1 xi − y¯)2
i=1
=
n X
(b0 + b1 xi )2 − 2(b0 + b1 xi )¯ y + y¯2
i=1
=
n X
(b0 + b1 xi )2 − 2
i=1
=
n X
n X
(b0 + b1 xi )¯ y + n¯ y2
i=1
(b0 + b1 xi )2 − 2n¯ y y¯ + n¯ y2
i=1 n X = (b0 + b1 xi )2 − n¯ y2
=
i=1 n X
b20 + 2b0 b1 xi + b21 x2i − n¯ y2
i=1
= nb20 + 2b0 b1
n X
xi + b21
i=1
n X
x2i − n¯ y2
i=1
= nb20 + 2b0 b1 n¯ x + b21 (SSX + n¯ x2 ) − n¯ y2 = nb20 + 2nb0 (¯ y − b0 ) + b21 (SSX + n¯ x2 ) − n¯ y2 = nb20 + 2nb0 y¯ − 2nb20 + b21 (SSX + n¯ x2 ) − n¯ y2 = −nb20 + 2nb0 y¯ + b21 SSX + nb21 x ¯2 − n¯ y2 = −nb20 + 2nb0 y¯ + b21 SSX + n(¯ y − b0 )2 − n¯ y2 = −nb20 + 2nb0 y¯ + b21 SSX + n(¯ y 2 − 2b0 y¯ + b20 ) − n¯ y2 = −nb20 + 2nb0 y¯ + b21 SSX + n¯ y 2 − 2nb0 y¯ + nb20 − n¯ y2 = b21 SSX r2 s2Y SSX = s2X r2 s2Y SSX SSX /(n − 1) = (n − 1)(r2 s2Y )
=
= r2 SSY
Als zweite Komponente betrachten wir die Variation des Residuums. SSE =
n X
(yi − yˆi )2
i=1
=
n X
(yi − (b0 + b1 xi ))2
i=1
=
n X
yi2 − 2yi (b0 + b1 xi ) + (b0 + b1 xi )2
i=1
=
n X
yi2
−2
i=1
n X
yi (b0 + b1 xi ) +
i=1
n X
(b0 + b1 xi )2
i=1
2
= SSY + n¯ y − 2b0
n X
yi − 2b1
i=1
n X
n X yi xi + (b0 + b1 xi )2
i=1
i=1
2
= SSY + n¯ y − 2nb0 y¯ − 2b1 ((n − 1)sXY + n¯ xy¯) +
n X
(b0 + b1 xi )2
i=1 2
= SSY + n¯ y − 2nb0 y¯ − 2b1 (n − 1)sXY
n X − 2nb1 x ¯y¯) + (b0 + b1 xi )2 i=1
2
= SSY + n¯ y − 2nb0 y¯ − 2b1 (n − 1)rsX sY − 2n(¯ y − b0 )¯ y) +
n X
(b0 + b1 xi )2
i=1 n
= SSY + n¯ y 2 − 2nb0 y¯ − 2r
X sY (n − 1)rsX sY − 2n¯ y 2 + 2nb0 y¯ + (b0 + b1 xi )2 sX i=1
n X = SSY − n¯ y 2 − 2r2 (n − 1)s2Y + (b0 + b1 xi )2 i=1
= SSY − n¯ y 2 − 2r2 SSY +
n X
(b20 + 2b0 b1 xi + b21 x2i
i=1
= SSY − n¯ y 2 − 2r2 SSY + nb20 + 2b0 b1
n X
xi + b21
i=1
= SSY − = SSY − = SSY − = SSY − = SSY − = SSY − = SSY − = SSY − = SSY −
n X
x2i
i=1 2 n¯ y − 2r SSY + + 2b0 b1 (n¯ x) + b1 (SSX + n¯ x2 ) n¯ y 2 − 2r2 SSY + + 2nb0 b1 x ¯ + b21 SSX + nb21 x ¯2 n¯ y 2 − 2r2 SSY + + 2nb0 (¯ y − b0 ) + b21 SSX + nb21 x ¯2 n¯ y 2 − 2r2 SSY + + 2nb0 y¯ − 2nb20 + b21 SSX + nb21 x ¯2 n¯ y 2 − nb20 + 2nb0 y¯ − 2r2 SSY + b21 SSX + nb21 x ¯2 n(¯ y − b0 )2 − 2r2 SSY + b21 SSX + nb21 x ¯2 r 2 s2 y − b0 )2 n(¯ y − b0 )2 − 2r2 SSY + 2Y SSX + n(¯ sx 2r2 SSY + r2 SSY r2 SSY 2 2
2
nb20 nb20 nb20 nb20
= SSY (1 − r )
Offensichtlich gilt SSY = SSR + SSE = SSY r2 + SSY (1 − r2 ).
Buch 1, Kap 9.6: R = |r| Da Yˆ = b0 + b1 X, gilt f¨ ur b1 > 0:
rX Yˆ
= 1
rY Yˆ
= rXY
rX Yˆ
= 0
rY Yˆ
= rXY
f¨ ur b1 = 0:
und f¨ ur b1 < 0 rX Yˆ
= −1
rY Yˆ
= −rXY
F¨ ur die Korrelation zwischen Y und Yˆ l¨aßt sich damit kurz die Korrelation durch rY Yˆ = |rXY | beschreiben.
Buch 1, Kap 9.8: Mittelwerte, Varianzen und Interkorrelation von X, Y , Yˆ und e ¨ Uberlegungen Mittelwerte: Gegeben sind x und y. yˆ = b0 + b1 x = b0 + b1 x = y − b1 x + b1 x = y F¨ ur das Residuum e gilt dann e = Y − Yˆ = y − y = 0
Varianzen: Die Varianz des Fehlers leitet sich aus SSE ab. Da beim Fehler zwei Parameter bestimmt werden m¨ ussen (y und b1 ) liegen n − 2 Freiheitsgrade vor und s2e =
SSE n−2
Alternativ gilt auch SSE SST − SSR = n−2 n−2 1 − r2 = SST n−2 1 − r2 = (n − 1)s2Y n−2 n−1 2 = sY 1 − r 2 n−2
s2e =
Korrelationen Da Yˆ = b0 + b1 X, gilt f¨ ur b1 > 0: rX Yˆ
= 1
rY Yˆ
= rXY
rX Yˆ
= 0
rY Yˆ
= rXY
f¨ ur b1 = 0:
und f¨ ur b1 < 0 rX Yˆ
= −1
rY Yˆ
= −rXY
F¨ ur die Korrelation zwischen Y und Yˆ l¨aßt sich damit kurz die Korrelation durch rY Yˆ = |rXY | beschreiben. Die Korrelation rXe ist Null, da n
sXe = =
1 X (xi − x)((yi − ybi ) − 0) n−1 1 n−1
i=1 n X i=1
= sXY − = sXY
n
(xi − x)(yi − y) −
1 X (xi − x)(ybi − y) n−1 i=1
1 n−1
n X
(xi − x)(ybi − y)
i=1 n
1 X − (xi − x)(b0 + b1 xi − (b0 + b1 x)) n−1 i=1
= sXY −
1 n−1
n X
b1 (xi − x)(xi − x)
i=1
= sXY − b1 s2X sXY = sXY − 2 s2X sX = 0 Damit ist dann auch die Korrelation rYˆ e = 0, da Yˆ = b0 + b1 X. Es fehlt noch die Korrelation rY e . sY e = sY (Y −Yˆ ) = s2Y − sY Yˆ = s2Y − rY Yˆ sY sYˆ = s2Y − |rXY |sY sYˆ 2 = s2Y − rXY s2Y 2 = s2Y (1 − rXY )
rY e =
sY (Y −Yˆ )
sY se 2 ) s2Y (1 − rXY q = 2 sY sY n−1 n−2 (1 − r ) r n − 1p = (1 − r2 ) n−2
Buch 1, Kap 9.9.4: Beeinflussende Beobachtungen
Buch 1, Kap 10.3.1: Aus Unabh¨ angigkeit folgt r = 0 Sind bei zwei Variablen die H¨ aufigkeiten der Auspr¨agungen statistisch unabh¨angig verteilt, dann sind die Variablen unkorreliert. Beweis Nach Voraussetzung liegen f¨ ur X insgesamt A unterschiedliche Werte x1 , ..., xA vor und f¨ ur Y gibt es B unterschiedliche Werte y1 , ..., yB Werte. Die H¨aufigkeit mit der ein Paar (xa , ya ) in den Daten auftaucht, ist nab . Wegen der statischen Unabh¨angigkeit gilt f¨ ur alle 1 ≤ a ≤ A und 1 ≤ b ≤ B: nab = na × nb /n. Mit diesen Informationen l¨ asst sich nun zeigen, dass die Kovarianz (und damit die Korrelation) zwischen X und Y Null ist. n
sXY
=
=
=
=
=
=
=
=
1 X (xi − x)(yi − y) n−1 1 n−1 1 n−1
i=1 A X B X a=1 b=1 A X B X
na nb (xa − x)(yb − y) n
a=1 b=1 A X B X
1 (n − 1)n 1 (n − 1)n 1 (n − 1)n 1 (n − 1)n 1 (n − 1)n
= 0
nab (xa − x)(yb − y)
na (xa − x)nb (yb − y)
a=1 b=1 A X
B X
!
na (xa − x)
a=1 A X a=1 n X i=1 n X i=1
! nb (yb − y)
b=1 A X
na xa −
! na x
a=1
xi − nx
nb yb −
b=1 n X
!
B X
B X
! nb y
b=1
! yi − ny
i=1
Pn xi − n
i=1 xi
n
!
n X i=1
Pn yi − n
i=1 yi
n
!
Buch 1, Kap 10.3.1: r = 0 trotz fehlender Unabh¨ angigkeit Sind bei zwei Variablen die H¨ aufigkeiten der Auspr¨agungen nicht statistisch unabh¨angig verteilt, dann k¨onnen die Variablen dennoch unkorreliert sein. Beweis Die Behauptung zeigt man am Besten durch ein Beispiel, in dem die H¨aufigkeiten offensichtlich nicht statistisch unabh¨ angig verteilt sind (also einen positiven χ2 -Wert aufweisen) und die Korrelation der Variablen dennoch Null ist. F¨ ur das Beispiel nutzen folgende Daten: −2 0 c
Y 0 4
X 0 c 0
2 0 c
Der Wert c steht f¨ ur eine Anzahl von Beobachtungen mit c > 0. Die Indifferenztabelle ist X Y −2 0 2 0 c/3 c/3 c/3 4 2c/3 2c/3 2c/3 Zu berechnen sind jetzt die χ2 -Anteile pro Zelle in der H¨aufigkeitstabelle. Wir finden Y 0 4
−2 c/3 c/6
X 0 4c/3 2c/3
2 c/3 c/6
Wir erhalten χ2 = 3c bei 2 Freiheitsgraden (also z.B. χ2 = 30 f¨ ur c = 10). Dies zeigt, dass die H¨ aufig2 keiten weit von der statistischen Unabh¨angigkeit entfernt sind und dass der χ bei gr¨oßer werdenden c unbegrenzt w¨ achst. Wir zeigen jetzt, dass die Korrelation Null ist, unabh¨angig von der Wahl der Zellenbesetzung c. Der Mittelwert von X ist unabh¨ angig von c: x = 0. Der Mittelwert von Y ist unabh¨ angig von c: y = 8/3. Die Kovarianz berechnet sich somit: n
sXY
=
1 X (xi − x)(yi − y) n−1 i=1
= = = =
1 (c(−2 − x)(4 − y) + c(0 − x)(0 − y) + c(2 − x)(4 − y)) 3c − 1 1 (c(−2 − 0)(4 − 8/3) + c(0 − 0)(0 − 8/3) + c(2 − 0)(4 − 8/3)) 3c − 1 1 (−2c(4 − 8/3) + 0 + 2c(4 − 8/3)) 3c − 1 0
Die Kovarianz ist somit – unabh¨ angig von der Zellenbesetzung c – immer Null und damit ist auch rXY = 0. Der Grund ist, dass die χ2 -Berechnung auf beliebige Zusammenh¨ange reagiert, w¨ahrend eine Korrelation nur lineare Zusammenh¨ ange anzeigt. Da im Beispiel ein quadratischer Zusammenhang genutzt wird, ist es verst¨ andlich, dass der χ2 -Wert sehr groß werden kann, ohne dass die Korrelation von Null verschieden wird.
Behauptung (Buch 1, S. XXX): Fordert man, dass eine Funktion in zwei Variablen bei mehr als 2 Auspr¨agungen jeweils (nicht konstant) linear in X1 (bei festem X2 ) und in X2 (bei festem X1 ) ist, dann ist die Funktionsgleichung notwendigerweise Y = f (X1 , X2 ) = b0 + b1 X1 + b2 X2 + b12 X1 X2
Beweis Die Voraussetzung besagt, dass folgende Gleichungen gelten 1) F¨ ur alle x2 ∈ X2 gilt f (X1 , x2 ) = A2 (x2 ) + B2 (x2 )X1 Hierbei sind A2 und B2 beliebige Funktionen, die x2 transformieren 2) F¨ ur alle x1 ∈ X1 gilt f (x1 , X2 ) = A1 (x1 ) + B1 (x1 )X2 Hierbei sind A1 und B1 beliebige Funktionen, die x1 transformieren F¨ ur alle x1 ∈ X1 und x2 ∈ X2 m¨ ussen die beide Funktionen den Wert f (x1 , x2 ) annehmen, dh. f (x1 , x2 ) = A1 (x1 ) + B1 (x1 )x2 = A2 (x2 ) + B2 (x2 )x1 F¨ ur den Funktionswert f (x1 + a, x2 ) gilt damit f (x1 + a, x2 ) = A1 (x1 + a) + B1 (x1 + a)X2 = A2 (x2 ) + B2 (x2 )(x1 + a) Wegen der Linearit¨ at der Funktion in X1 ist f (x1 + a, x2 ) − f (x1 , X2 ) = aB2 (x2 ) A1 (x1 + a) + B1 (x1 + a)x2 − A1 (x1 ) + B1 (x1 )x2 = aB2 (x2 ) A1 (x1 + a) − A1 (x1 ) + x2 (B1 (x1 + a) − B1 (x1 )) = aB2 (x2 ) Auf der linken Seite der Gleichung erhalten wir eine lineare Funktion in X2 , die proportional zu aB2 (X2 ) ist. Wenn mehr als 2 Auspr¨ agungen vorliegen, gilt somit B2 (X2 ) = α2 + β2 X2 (bei weniger als 3 Auspr¨ agungen ist jede Funktion B2 proportional zu einer linearen Funktion!). Analog gilt somit B1 (X1 ) = α1 + β1 X1 . Wir erhalten A1 (x1 + a) − A1 (x1 ) + x2 (α1 + β1 × (x1 + a) − α1 − β1 × x1 ) = a(α2 + β2 x2 ) A1 (x1 + a) − A1 (x1 ) + x2 β1 a = aα2 + aβ2 x2 A1 (x1 + a) − A1 (x1 ) = aα2 + a(β2 − β1 )x2 Die Werte auf der linken Seite der Gleichung h¨angen von a und x1 ab, w¨ahrend die Werte auf der rechten Seite der Gleichung von a und x2 abh¨angen. Da A1 (x1 + a) − A1 (x1 ) f¨ ur beliebige x2 konstant bleiben muss, ist β2 = β1 und A1 (x1 + a) − A1 (x1 ) = aα2 oder A1 (x1 + a) − A1 (x1 ) = α2 oder a A1 (X1 ) = α2 X1 + γ2
Analog kann man zeigen, dass A2 (X2 ) = α1 X2 + γ1 gelten muss. F¨ ur f (0, 0) erhalten wir f (0, 0) = A1 (0) = A2 (0) α2 × 0 + γ2 = α1 × 0 + γ1 γ2 = γ1
Insgesamt ergibt sich somit folgende Funktionsgleichung f (X1 , X2 ) = A2 (X2 ) + B2 (X2 )X1 = α1 X2 + γ1 + (α2 + β2 X2 )X1 = γ1 + α2 X1 + α1 X2 + β2 X1 X2 = b0 + b1 X1 + b2 X2 + b12 X1 X2 oder auch f (X1 , X2 ) = A1 (X1 ) + B1 (X1 )X2 = α2 X1 + γ2 + (α1 + β1 X1 )X2 = γ1 + α2 X1 + α1 X2 + β2 X1 X2 = b0 + b1 X1 + b2 X2 + b12 X1 X2
n P
Behauptung (Buch 1, S. XXX):
xi yi −nxy
i=1
s
n P
x2i −nx2
i=1
n P
yi2 −ny 2
=
y −y p n1 n0 q1 0 n2 n−1 sy n
i=1
mit: n P xi n1 = i=1
n0 = n − n1 n P y 1 = n1 yi y0 =
1 n
i:xi =1 n P
yi
i:xi =0
Hier wird behauptet, dass der Produkt-Moment Korrelationskoeffizient mit dem punktbiserialen Korrelationskoeffizienten u ¨bereinstimmt. Beweis Mit: Berechnen wir zun¨ achst Mittelwerte, Kreuzprodukte der zentrierten Variablen und Abweichungsquadratsummen als Bestandteile der Formel f¨ ur die Produkt-Moment Korrelation. n0 y = nn1 yP + y 1 n 0 n n1 xi yi − nxy x= i=1 Pn = i:xi =1 yi − n nn1 y = n1 y 1 − n1 y = n1 y 1 − n1 ( nn1 y 1 + nn0 y 0 ) = n1 y 1 − n1 nn1 y 1 − n1 nn0 y 0 = n1 (1 − nn1 )y 1 − n1nn0 y 0 = n1 ( nn0 )y 1 − n1nn0 y 0 = n1nn0 (y 1 − y 0 ) n P
x2i − nx2
i=1
n2
= n1 − n n21 n2
= n1 − n1 = n1 − n1 nn1 = n1 (1 − nn1 ) = n1nn0 n P
yi2 − ny 2
i=1
2 = n n−1 n sy Setzen wir nun diese Terme in die Produkt-Moment Korrelation ein, resultiert: n1 n0 (y
−y )
0 r = √ n1nn0 q1 n−1 n s2y p n1 nn0 y1 −y0n q = n n−1 n
sy
Behauptung (Buch 1, S. XXX):
ni I P P
(yij − y)2 =
I P
ni (y i − y)2 +
i=1
i=1 j=1
ni I P P
(yij − y i )2
i=1 j=1
Beweis ni I P P
(yij − y)2 =
i=1 j=1
=
ni I P P
((yij − y i ) + (y i − y))2
i=1 j=1
ni I P P
(yij − y i )2 + 2(yij − y i )(y i − y) + (y i − y)2
i=1 j=1
=
ni I P P
(yij − y i )2 +
ni I P P
2(yij − y i )(y i − y) +
i=1 j=1
i=1 j=1
=
ni I P P
(yij − y i )2 + 2
i=1 j=1
ni I P P
ni I P P
(y i − y)2
i=1 j=1
(yij − y i )(y i − y) +
i=1 j=1
I P
ni (y i − y)2
i=1
Jetzt m¨ ussen wir nur noch zeigen dass 2
ni I P P
(yij − y i )(y i − y) = 0.
i=1 j=1
2
ni I P P
(yij − y i )(y i − y) = 2
i=1 j=1 ni P
Aber
i=1
(y i − y)
ni P
! (yij − y i )
j=1
(yij −y i ) ist die Summe der Abweichungen vom Mittelwert innerhalb jeder Gruppe und damit
j=1
0.
I P
Buch 1, Kap 10.4.3: Simpsons Paradox und multiple Regression Buch 1, Kap 10.4.4: Konstanz der unstandardisierten Koeffizienten
Buch 1, Kap 10.4.5: Mittelwerte der Effektkodierung Nutzt man die Effektkodierung f¨ ur die Berechnung von Gruppenmittelwerten in der multiplen Regression, dann gilt f¨ ur die Regressionsgewichte der k effektkodierten Variablen b0 , b1 , ..., bk : Pk b0 = b1
bk
i=0 yi
k+1 Pk yi = y1 − i=0 k+1 ... Pk yi = yk − i=0 k+1
Außerdem gilt y0 = b0 −
k X
bi
i=1
Beweis F¨ ur den Nachweis bestimmen wir f¨ ur alle m¨oglichen Kombination der Effektkodierung den jeweils optimalen Wert bzgl. des kleinsten-Quadrate-Kriteriums. Sei yi in einer Gruppe g > 0, dann ist yˆi = b0 +bg . Die Wert mit den kleinsten Summe der quadratischen Abweichungen die yi der Gruppe g ist der Mittelwert der Gruppe g. Wir erhalten damit f¨ ur die Gruppen g = 1, ..., k den vorhergesagten Wert yg = b0 + bg P Sei nun yi in der Gruppe g = 0, dann ist yˆi = b0 − kg=1 bg Auch ist der Gruppenmittelwert y0 der optimale Wert nach dem kleinsten-Quadrate-Kriterium und wir erhalten (wie behauptet) y0 = b0 −
k X
bg
g=1
Summiert man u ¨ber alle k + 1 Mittelwerte ergibt sich k X
yg = b0 −
g=0
k X g=1
b0
bg +
k X
(b0 + bg )
g=1
= (k + 1)b0 und damit Pk g=1 yg = k+1
F¨ ur b1 , ..., bg , ... ,bk ergibt sich damit bg = yg − b0 Pk yi = yg − i=1 k+1
Buch 1, Kap 10.4.7: Lineares Modell und nichtlineare Regression
Buch 2, Erwartungstreuue des Varianzsch¨ atzers Wir berechnen den Erwartungswert der Summe der Abweichungsquadrate vom Mittelwert f¨ ur unabh¨angige i.i.d. Zufallsvariablen
E
n X
! (Yi − Y¯ )2
= E
i=1
= E
n X i=1 n X
! ((Yi − µ) − (Y¯ − µ))2 ! 2
(Yi − µ)
− 2E
i=1
=
n X
E (Yi − µ)
2
! n X (Yi − µ)(Y¯ − µ) + E
n X
i=1
i=1
− 2E (nY¯ − nµ)(Y¯ − µ) +
i=1
n X i=1
= nE (Y − µ)
2
− 2nCOV (Y¯ , Y¯ ) + nE (Y¯ − µ)2
= nσY2 − 2nσY2¯ + nσY2¯ = nσY2 − σY2 = (n − 1)σY2 Folglich ist
Pn E
− Y¯ )2 = σY2 n−1
i=1 (Yi
! (Y¯ − µ)
E (Y¯ − µ)2
2