Transcript
Glossar und Formelsammlung
Hazard Rate Die Hazard Rate steht für das Risiko, genau zum Zeitpunkt t ein Ereignis – bei Überlebenszeitanalysen den Tod – zu erleiden. Es handelt sich demnach um eine vom Zeitpunkt t abhängige Funktion, die auch als momentane Sterberate bezeichnet wird.
Hazard Ratio Gemäß eines häufig zur Analyse von Überlebensdaten angewandten Verfahrens, der sog. Cox‐ Regression, lässt sich aus zwei Hazard Rates der Quotient bilden und damit ein fester Wert errechnen: Die Hazard Ratio (abgekürzt: HR). Eine HR ist jedoch nur dann als über die Zeit konstanter Wert zu betrachten, wenn man annehmen kann, dass das Verhältnis der beiden Hazard Rates zueinander über die Zeit gleich bleibt. Diese Proportionalität ist eine zentrale Annahme der Cox‐ Regression (synonym: proportionales Hazard Modell). Die Hazard Rates, also die jeweiligen Sterberisiko‐Funktionen h(t) zweier zu vergleichender Studienpopulationen, bilden die HR wie folgt: Die Hazard Rate der Studien‐ bzw. Verumgruppe hVerum(t) steht im Zähler, die Hazard Rate der Vergleichsgruppe hVergleich(t) im Nenner: hVerum(t)
Hazard Ratio = hVergleich(t) Daraus ergibt sich folgendes: Hazard Ratio = 1 Es besteht kein Unterschied zwischen den beiden Studienpopulationen bezüglich ihrer Sterberisiken. Hazard Ratio > 1 Das Risiko für Patienten der Studienpopulation ist größer. Hazard Ratio < 1 Das Risiko für die Vergleichsgruppe ist größer.
Kaplan‐Meier‐Analyse Die Kaplan‐Meier‐Analyse ist ein Verfahren, das häufig bei Überlebenszeitanalysen angewendet wird, um die Zeit zwischen einem definierten Anfangs‐ und einem bestimmten Endereignis wie den Tod zu untersuchen. Die Kaplan‐Meier‐Analyse berücksichtigt dabei auch sog. zensierte Daten. Eine Überlebenszeitstudie startet mit n Patienten. Diese Anzahl nimmt im Laufe der Zeit ab, da Patienten versterben oder aus anderen Gründen aus der Studie ausscheiden. Die Zeiten, zu denen Todesfälle auftreten, werden ermittelt und mit t1 < t2 < ... < tk bezeichnet. Die Anzahl der Patienten, die zu diesen Zeitpunkten sterben bzw. das Merkmal zeigen, sei dabei d1, d2 usw. Die Anzahl der Patienten, die unmittelbar vor einem Zeitpunkt ti noch in der Studie geführt werden, sei ni . Die Überlebensfunktion S(ti ) = P(t > ti ) wird für jeden Zeitpunkt ti ( i = 1,..., k ) geschätzt nach:
Wenn keine zensierten Daten vorliegen, ist ni+1 = ni – di. Dann lässt sich der oben gezeigte Bruch kürzen und man erhält: (mit n = n1 ). Daraus ergibt sich also die Zahl derer, die den Zeitpunkt ti überlebt haben, im Verhältnis zu der Gesamtzahl der Patienten, die zu Beginn an der Studie teilnehmen. Sind einige Patientendaten zensiert, kann die Überlebensfunktion nur bis zum Zeitpunkt der letzten zensierten Beobachtung geschätzt werden. Die graphische Darstellung der Wahrscheinlichkeiten S(t i) in Abhängigkeit der Zeitpunkte ti ergibt die Überlebenskurve (auch: Kaplan‐Meier‐Kurve).
Konfidenzintervall Ein Konfidenzintervall – auch Vertrauchensbereich genannt – wird konstruiert, um Anhaltspunkte bezüglich der Genauigkeit einer Schätzung zu gewinnen. Ziel ist es, bei diesem Verfahren ein Intervall zu erhalten, das den wahren Wert einer unbekannten Größe überdeckt. Mit gewisser Wahrscheinlichkeit, der sogenannten Irrtumswahrscheinlichkeit α, ergibt sich anhand der Stichprobendaten ein Konfidenzintervall, das den gesuchten Parameter gar nicht enthält. Die Irrtumswahrscheinlichkeit α wird vor der Bestimmung des Konfidenzintervalls festgelegt, üblicherweise auf 5%. Folglich erhält man mit der Wahrscheinlichkeit 1− α ein Intervall, das den unbekannten Parameter enthält. Der Wert 1− α wird als Konfidenzwahrscheinlichkeit oder Konfidenzniveau bezeichnet. Wurde die Irrtumswahrscheinlichkeit α auf 5% festgelegt, beträgt das Konfidenzniveau demnach 1− α = 95%. Das entsprechend konstruierte Intervall heißt 95%‐ Konfidenzintervall.
Logrank‐Test Der Logrank‐Test erlaubt es, zwei oder mehrere Gruppen, die sich bezüglich einer Einflussgröße unterscheiden, miteinander zu vergleichen. So wird beispielsweise überprüft, ob sich eine Therapie oder ein prognostischer Faktor auf die Überlebenszeit oder allgemein auf die Zeit bis zum Eintreten eines bestimmten Endereignisses auswirkt. Das Besondere am Logrank‐Test ist, dass auch zensierte Daten angemessen berücksichtigt werden. Mathematisch basiert der Test auf die χ2‐Verteilung mit einem Freiheitsgrad:
Um zwei Kurven mittels Logrank‐Test zu verlgeichen, müssen die Anzahl der aufgetretenen Endereignisse b1 und b2 in den Stichproben ermittelt werden. Zusätzlich berechnet man die Anzahl der Endereignisse e1 und e2, die man erwarten würde, wenn die beiden Kurven identisch verliefen. Die Häufigkeiten b1 und b2 werden durch einfaches Zählen ermittelt. Die Berechnung der Erwartungshäufigkeiten e1 und e2 ist komplizierter. Dazu betrachtet man beide Stichproben gemeinsam und notiert die Zeitpunkte ti( i = 1,..., k ), zu denen in einer der beiden Stichproben ein Endereignis stattfindet und die Anzahl der dazugehörenden Ereignisse di. Dann ist:
n1i und n2i sind die Beobachtungseinheiten der 1. bzw. der 2. Stichprobe, die zum Zeitpunkt ti noch leben. Die Quotienten n1i/(n1i +n2i) und n2i/(n1i +n2i) entsprechen den Anteilen in der jeweiligen Stichprobe.
Median Der Median – auch Zentralwert genannt – gehört zu den Lagemaßen (synonym: Lokalisationsmaße), die angeben, in welchem Bereich sich die Stichprobenwerte konzentrieren. Der Median teilt Stichprobenwerte in zwei Hälften: Die eine Hälfte der Daten ist kleiner bzw. höchstens so groß wie der Median selber. Die andere Hälfte ist mindestens so groß oder größer. Der Median wird mit (sprich: x Schlange) bezeichnet. Um ihn zu ermitteln, sind die Stichprobenwerte der Größe nach zu sortieren. Die geordneten Werte werden mit tief gestellten, in Klammern gesetzten Indizes versehen:
ist dabei der kleinste Wert der Stichprobe (Minimum), ist der größte Wert (Maximum). Die sortierten Stichprobenwerte nennt man Rangliste. Der Median wird in Abhängigkeit vom Stichprobenumfang n ermittelt. Formel:
für n ungerade
für n gerade
Daraus folgt, dass der Median entweder einer der Stichprobenwerte ist (falls n ungerade) oder der Durchschnittswert der beiden mittleren Werte (falls n gerade).
Mittelwert Der Mittelwert wird auch arithmetisches Mittel oder Durschnitt genannt. Es gehört zu den Lagemaßen (synonym: Lokalisationsmaße), die angeben, in welchem Bereich sich die Stichprobenwerte konzentrieren. Der Mittelwert wird mit (sprich: x quer) bezeichnet. Zur Berechnung des Mittelwerts werden alle Stichprobenwerte addiert und deren Summe durch den Stichprobenumfang n dividiert. Formel:
p‐Wert Der p‐Wert quantifiziert die Wahrscheinlichkeit (engl.: probability), dass ein gefundenes oder extremeres Testergebnis zustande kommt, wenn in Wirklichkeit die Nullhypothese zutrifft. Wenn der p‐Wert dabei einen kleineren Wert annimmt als das zuvor festgelegte Signifikanzniveau α, wird die Alternativhypothese (auch: Studienhypothese) angenommen. Vereinfacht gesagt entspricht der p‐ Wert der Wahrscheinlichkeit dafür, dass ein Testergebnis ein Zufallsbefund ist.
Signifikanzniveau α Das Signifikanzniveau α ist die willkürlich und vor der Durchführung eines statistischen Tests festgelegte maximale Größe des α‐Fehlers (Fehler der 1. Art). Der α‐Fehler ist das fälschlicherweise Ablehnen einer Nullhypothese, obwohl diese zutrifft. Legt man zum Beispiel für α den Wert 0,05 fest, bedeutet dies, dass in maximal 5 % der Fälle eine korrekte Nullhypothese abgelehnt wird. In Biowissenschaften hat sich dieser Wert für das Signifikanzniveau α eingebürgert.
Zensierte Daten Überlebenszeitanalysen untersuchen die Zeit, die bis zum Eintreten eines bestimmten Ereignisses – wie Tod oder Progression – vergeht. In manchen Fällen können keine exakten Überlebenszeiten erhoben werden, zum Beispiel wenn ein Patient aus einer Studie vorzeitig ausscheidet oder am Ende der Studie noch kein Ereignis erlitten hat. Die zu diesen Patienten während der Studiendauer erhobenen Daten nennt man zensiert. Werden zensierte Daten bei der Überlebenszeitanalyse nicht berücksichtigt, birgt dies die Gefahr der Ergebnisverzerrung. Verfahren wie die Kaplan‐Meier‐ Analyse oder der Logrank‐Test beziehen zensierte Daten mit ein und sind deshalb für Überlebenszeitanalysen geeignet. Quellen: Weiß, C.: Basiswissen Medizinische Statistik. Springer, Heidelberg 2008 Zwiener, I., Blettner, M., Hommel, G.: Survival analysis – part 15 of a series on evaluation of scientific publications. Dtsch Arztebl Int 2011; 108(10): 163‐9. Ziegler, A., Lange, S., Bender, R.: Überlebenszeitanalyse: Die Cox‐Regression. Dtsch Med Wochenschr 2007; 132: e42‐e44