Vorwort

Aktuell ist die sechste Auflage von "Basiswissen Medizinische Statistik" verfügbar. Ich habe mich bemüht, wie bereits in den früheren Auflagen den Stoff nicht allzu trocken und verständlich darzulegen.

Ist Biomathematik unattraktiv? Keineswegs! Klinische und epidemiologische Forschung ist ohne statistische Methoden nicht möglich. Sie ermöglichen es, Daten zu strukturieren, deren wesentlichen Eigenschaften darzulegen, Zusammenhänge zu entdecken und abzusichern. Dennoch betrachten viele Studierende und Ärzte dieses Fach als ein notwendiges Übel. Andere dagegen sind fasziniert von den Möglichkeiten, die sich ergeben, wenn man eine immense Datenreihe mit effizienten statistischen Methoden analysiert und Ergebnisse erhält, die die Klinik oder medizinische Wissenschaft voranbringt.
Ich habe mich bemüht, all diesen potentiellen Lesern gerecht zu werden. Dabei erachte ich es als wenig hilfreich, statistische Lehrbücher "ohne Formeln" oder "mit Spaß" zu präsentieren. Statistische Parameter (z. B. Mittelwert oder Varianz) werden mittels einer Formel berechnet - deren Anwendungsmöglichkeiten werden sich kaum erschließen, wenn man die Formel weglässt und stattdessen wortreich und umständlich versucht zu erklären, was eine Formel prägnant auszudrücken vermag. Seichte Witzchen sind wenig hilfreich beim Bemühen, eine statistische Methode zu verstehen. Deshalb wurde auf derlei stilistischen Mittel verzichtet.

Das bedeutet keineswegs, dass das Buch trocken ist. Alle statistischen Methoden werden verständlich dargestellt und anhand einfacher Beispiele erläutert. Die mathematischen Herleitungen findet man im Anhang. So können mathematisch interessierte Leser die Formeln und Methoden nachvollziehen; für das grundsätzliche Verstehen der Materie ist dies jedoch nicht erforderlich.

Naturgemäß ist ein Lehrbuch von etwa 300 Seiten limitiert. Dies betrifft die Auswahl der Themen ebenso wie Multiple-Choice-Aufgaben, die aus Platzgründen nicht im Buch zu finden sind. Dies und vieles mehr finden Sie auf unserer Internetseite: MC-Aufgaben mit Lösungen, ein Lexikon mit Begriffen aus den Gebieten der Statistik und der Epidemiologie sowie Empfehlungen für weiterführende Literatur.

Wenn Sie Fragen oder Anregungen haben, schreiben Sie bitte eine Mail an christel.weiss@medma.uni-heidelberg.de.

Deskriptive Statistik

Einleitung
In früheren Zeiten kamen Medizinstudenten und Ärzte ganz gut ohne Statistik aus. Dies hat sich mittlerweile grundlegend geändert. Die medizinische Statistik ist zu einer unentbehrlichen Hilfswissenschaft für die medizinische Forschung und die klinische Praxis avanciert. Welche historischen Entwicklungen haben diesen Prozess begünstigt? Worin liegt die Bedeutung der medizinischen Statistik? Wie ist sie einzuordnen als interdisziplinäre Wissenschaft zwischen Medizin und Mathematik? Auf all diese Fragen wird in Kapitel 1 eingegangen.

Grundlagen
Es gibt einige grundlegende Begriffe, die quasi bei jeder statistischen Analyse verwendet werden und in jedem Paper erwähnt werden: Stichproben, Grundgesamtheit, Beobachtungseinheiten, Merkmale. Eine adäquate Datenanalyse ist nur dann möglich, wenn man sich über die Eigenschaften der relevanten Merkmale im Klaren ist: Welche primäre Zielgröße soll analysiert werden? Gibt es darüber hinaus sekundäre Zielgrößen? Welche Einflussgrößen wurden erhoben? Gibt es möglicherweise Confounder, die das Ergebnis verzerren? Welche Skalenniveaus lassen sich all diesen Merkmalen zuordnen? In Kapitel 2 werden diese Begriffe anhand von einfachen Beispielen erklärt. Außerdem wird über einige spezielle Problematiken nachgedacht, die insbesondere bei klinischen oder epidemiologischen Fragestellungen auftreten können.
Aufgaben: Grundlagen

Häufigkeiten
Nichts scheint einfacher zu sein als Häufigkeiten eines Merkmals zu ermitteln: Schließlich muss man dazu nur abzählen, wie häufig die einzelnen Ausprägungen in einer Stichprobe zu finden sind. Etwa: Wie viele Männer und wie viele Frauen sind vertreten? Wie viele Patienten sind Raucher? Wie viele Frauen der Stichprobe haben keine, eine, zwei oder mehr Schwangerschaften hinter sich?
Etwas schwieriger gestaltet sich die Ermittlung von Häufigkeiten jedoch bei quantitativ stetigen Merkmalen wie zum Beispiel dem BMI: Es ist wenig informativ, Patienten zu zählen, die einen BMI von beispielsweise 24,3 kg/m2 haben. Wenn BMI-Werte mit einer Dezimalstelle erfasst werden, ist zu erwarten, dass sich für theoretisch denkbaren BMI-Wert sehr geringe Häufigkeiten ergeben. Hier sollte man die Merkmalswerte in sinnvoller Weise zu Klassen zusammenfassen. Bei quantitativen Merkmalen lassen sich ferner Summenhäufigkeiten berechnen und eine Verteilungsfunktion konstruieren.
Tipps zur Berechnung von Häufigkeiten finden Sie in Kapitel 3. Außerdem werden Ihnen geeignete graphische Darstellungen präsentiert, mit denen sich die wesentlichen Eigenschaften eines Merkmals anschaulich aufzeigen lassen. Schließlich wird darauf eingegangen, wie sich der Zusammenhang zwischen zwei einfachen Merkmalen (z. B. Rauchen und Geschlecht) beschreiben lässt.

Beschreibung eines Merkmals
Einen Mittelwert kennt doch jeder! Deshalb ist dieses Lagemaß so überaus beliebt - aber leider nicht immer aussagekräftig und oftmals vollkommen unangebracht. Deshalb lernen Sie in diesem Kapitel weitere Lagemaße kennen - etwa den Median, die Quartile, das geometrische sowie das harmonische Mittel und den Modus. Sie erfahren anhand einfacher Beispiele, in welcher Situation welches Lagemaß geeignet ist, was es offenbart und wodurch es verzerrt werden kann. Sie werden auch erkennen, dass ein Lagemaß alleine wenig über eine Verteilung aussagt; ebenso wichtig ist ein adäquates Streuungsmaß. Darüber hinaus gibt es Formmaße, anhand derer Sie die Form einer Verteilung beurteilen können (etwa ob Sie symmetrisch oder schief ist).
Nach der Lektüre dieses Kapitels wissen Sie, worauf Sie bei der deskriptiven Analyse von Merkmalen achten müssen und wie die Kenngrößen zu interpretieren sind - damit Ihnen niemand vorwerfen kann: Mit Statistik kann man alles beweisen!

Beschreibung eines Zusammenhangs
Es ist freilich nicht damit getan, einzelne Merkmale deskriptiv auszuwerten, wie dies in den Kapiteln 3 und 4 beschrieben wurde. Bei einer Studie geht es ja darum, den Zusammenhang zwischen einzelnen Merkmalen zu untersuchen.
Einfaches Beispiel: Es besteht ein Zusammenhang zwischen dem systolischen Blutdruck eines Menschen und dessen Alter. Dies ist allgemein bekannt. Andererseits ist auch bekannt, dass der Blutdruck durch weitere Faktoren bestimmt wird, etwa durch genetische Einflüsse, Lebensgewohnheiten u.v.m. Deshalb ist zu vermuten, dass der Zusammenhang zwischen Blutdruck und Alter zwar nachweisbar, aber nicht besonders stark ist. Wie quantifiziert man eine solche Stärke? Ganz einfach: Durch einen Koeffizienten, dessen Betrag sich zwischen 0 (kein Zusammenhang) und 1 (funktionaler Zusammenhang) erstreckt. Sie lernen in Kapitel 5, wie man einen solchen Korrelationskoeffizienten berechnet. Außerdem erfahren Sie, wie sich eine lineare Gleichung aufstellen lässt, die diesen Zusammenhang mathematisch beschreibt. So sind Sie dann in der Lage, anhand des Alters eines Menschen dessen Blutdruck zu schätzen. Das ist spannend!

Wahrscheinlichkeitsrechnung

Grundlagen
In den vorangegangenen Kapiteln 3 bis 5 wurden Methoden der deskriptiven Statistik vorgestellt. In Kapitel 6 wird es nun etwas theoretischer, wobei viele Parallelen zur deskriptiven Statistik zu erkennen sind: Während sich die deskriptive Statistik mit den Eigenschaften von Stichproben befasst, geht es in der Wahrscheinlichkeitsrechnung um Grundgesamtheiten. Sie lernen, wie man mit Wahrscheinlichkeiten rechnen kann (das macht Spaß!), was man unter dem Begriff der "Zufallsvariablen" zu verstehen hat (eigentlich ist dies nichts anderes als ein Merkmal) und wie man deren Lage- und Streuungsparameter berechnet. Vielleicht haben Sie schon einmal etwas gehört vom "Satz der großen Zahlen"? Auch darauf wird in diesem Kapitel eingegangen.

Verteilungen
Eine Therapie ist mit einer Wahrscheinlichkeit von 80 % erfolgreich. Wenn Sie 50 Patienten behandeln, können Sie 40 Erfolge erwarten. So weit, so einfach. In der Realität werden Sie aber kaum exakt 40 Erfolge zu verzeichnen haben. Falls die Anzahl Ihrer Erfolge ein wenig über oder unter 40 liegt, ist dies kein Grund zur Euphorie oder zur Panik. Jedoch stellt sich die Frage: Innerhalb welcher Grenzen ist die Anzahl von Erfolgen oder Misserfolgen als "zufällig bedingt" einzustufen? Ab wann dürfen Sie stolz auf Ihre Erfolge sein bzw. sollten Sie darüber nachdenken, ob etwas schief gelaufen ist? Die Kenntnis der Binomialverteilung oder der Poissonverteilung erlaubt es Ihnen, bei binären Zielgrößen Wahrscheinlichkeiten zu berechnen und so objektive Entscheidungen zu fällen.
Anders sieht die Sache aus bei quantitativen Zielgrößen wie etwa der Senkung des Blutdrucks nach einer Therapie. Schön, wenn diese Werte normalverteilt sind! Carl Friedrich Gauß hat dankenswerterweise die Eigenschaften der Normalverteilung beschrieben. Deshalb ist diese Verteilung so bekannt und beliebt.
Auch Prüfverteilungen und weniger bekannte Verteilungen (z. B. für die Darstellung von Überlebenszeiten) werden in Kapitel 7 vorgestellt. Es soll ja immer wieder Medizinstudenten oder Ärzte geben, die sich für deren mathematischen Besonderheiten interessieren.

Induktive Statistik

Schätzverfahren
Aus den Daten einer Stichprobe lassen sich der Mittelwert und die Standardabweichung eines quantitativen Merkmals (etwa des Blutdrucks) berechnen. Diese Kenngrößen werden als Schätzwerte für die unbekannten Parameter der Grundgesamtheit angesehen. In anderen Umgebungen ermittelt man den Anteil der Patienten, bei denen eine bestimmte Nebenwirkung auftritt und betrachtet diese relative Häufigkeit als Schätzwert für die Wahrscheinlichkeit des Auftretens dieser Nebenwirkung. Man vertraut nun darauf, dass die Schätzwerte einigermaßen gut sind - wohl wissend, dass sie "nur" auf einer Stichprobe basieren und dass die "wahren" Parameter der Grundgesamtheit nicht bekannt sind und durchaus etwas niedriger oder höher sein könnten. Insbesondere bei einem kleinen Stichprobenumfang hat man ein mulmiges Gefühl, weil einem der gesunde Menschenverstand sagt, dass man den Schätzwerten nicht allzu viel Vertrauen entgegen bringen kann.
In Kapitel 8 lernen Sie, wie sich dieses Vertrauen quantifizieren lässt. Man berechnet "um den Schätzwert herum" ein sogenanntes Konfidenzintervall, bei dessen Konstruktion man mit einer Wahrscheinlichkeit von 95% annehmen darf, dass es den unbekannten Parameter enthält. Große Stichproben zahlen sich dabei aus; bei sehr kleinen Stichproben offenbart das Konfidenzintervall, dass die Schätzung nicht optimal ist. So lässt sich der Zufall zwar nicht aus der Welt schaffen, aber unter Kontrolle bringen!

Prinzip eines statistischen Tests
Die medizinische Forschung lebt von Vergleichen, wie folgende Beispiele zeigen: In einer Therapiestudie werden zwei Patientengruppen, die unterschiedlich behandelt wurden, bezüglich der gemessenen Wirkung miteinander verglichen. In einer Fall-Kontroll-Studie werden erkrankte Patienten mit gesunden Kontrollen verglichen, um herauszufinden, ob eine Krankheit mit bestimmten ätiologischen Faktoren assoziiert ist. Bei erkrankten Neugeborenen wird deren mittleres Geburtsgewicht ermittelt und mit dem aus der Literatur bekannten Erwartungswert verglichen, um Hinweise zu erhalten, ob diese Neugeborenen eventuell untergewichtig sind.
Bei derlei Vergleichen wird man immer einen numerischen Unterschied ausfindig machen. Dann stellt sich die Frage: Kann dieser Unterschied als "zufällig bedingt" eingestuft werden? Oder hat er eine Größenordnung, die kaum noch durch den Zufall zu erklären ist? Eine objektive Entscheidung ermöglicht hier das Ergebnis eines statistischen Tests. Dessen p-Wert zeigt an, ob es sinnvoll ist, die Alternativhypothese ("Es gibt einen Unterschied") anzunehmen oder ob man besser die Nullhypothese beibehalten sollte. Selbstverständlich ist eine Entscheidung zugunsten einer dieser Hypothesen kein Beweis für deren Richtigkeit. In jedem Fall kann man einen Fehler begehen: Wenn man einen Unterschied annimmt, obwohl in Wirklichkeit gar keiner vorhanden ist, begeht man einen α-Fehler (oder Fehler 1. Art) - freilich ohne dies zunächst zu bemerken. Das könnte peinlich werden! Wenn man dagegen einen vorhandenen Unterschied oder Zusammenhang anhand der Stichprobendaten nicht entdeckt, begeht man einen β-Fehler (oder Fehler 2. Art). Das ist ärgerlich für einen Forscher, dem es ja in der Regel darum geht, Unterschiede oder Zusammenhänge aufzudecken.
Damit Ihnen dies nicht passiert, müssen Sie dieses Kapitel aufmerksam lesen. Sie lernen dabei, wie sich die beiden Fehlerarten kontrollieren lassen.

Lagetests
Sealy Gosset, der im Jahre 1906 die t-Verteilung unter dem Pseudonym "Student" publizierte, hätte es sich nicht träumen lassen, dass der von ihm entwickelte t-Test für den Vergleich von Mittelwerten zweier unverbundener Stichproben einst einer der bekanntesten und am häufigsten angewandten Tests in der medizinischen Forschung sein würde. Derlei Fragestellungen liegen beispielsweise vor, wenn physiologische Messwerte oder Laborwerte zweier Patientengruppen zu vergleichen sind. Bei speziellen Studiendesigns werden die Messwerte bei derselben Patientengruppe vor und nach einer Therapie erhoben; dann handelt es sich um zwei verbundene Stichproben. Auch dafür existiert ein t-Test, ebenso wie für den Vergleich eines Mittelwerts mit einem vorgegebenen Sollwert. Insofern sind t-Lagetests vielseitig anwendbar; außerdem zeichnen sie sich durch eine hohe Power aus, weil sie die in den Daten enthaltenen Informationen effizient ausnutzen. Allerdings setzen sie normalverteilte Daten voraus - eine Annahme, die hin und wieder problematisch ist.
Was tut man, wenn Daten offensichtlich nicht normalverteilt sind oder wenn über die Verteilungsform nichts ausgesagt werden kann oder wenn die Daten nur ordinal skaliert sind? Dann bieten sich Rangsummentests oder Vorzeichentests an. Diese haben den Vorteil, dass sie an weniger Voraussetzungen gebunden sind; dafür haben sie eine geringere Power als t-Tests. Es ist nicht immer einfach, den für die vorliegenden Daten passenden Test zu finden. Dieses Kapitel hilft Ihnen bei der Auswahl!

Tests zum Vergleich von Häufigkeiten
Wenn Sie zwei Therapiegruppen bezüglich eines Alternativmerkmals vergleichen (z. B. das Auftreten eines Therapieerfolgs oder einer Nebenwirkung mit den Ausprägungen "ja" und "nein"), wenden Sie am besten einen Chi²-Vierfeldertest an. Bei zwei verbundenen Stichproben eignet sich der McNemar-Test, eine spezielle Form des Chi²-Tests. Weitere Varianten sind der Chi²-Test für eine Stichprobe oder der Logrank-Test, mit dem Überlebenszeitkurven verglichen werden.
Bei nicht erfüllten Voraussetzungen bietet sich Fishers exakter Test als Alternative an. Nach Lektüre der Kapitel 10 und 11 sind Sie bezüglich der gängigen Tests bestens informiert und haben das Basiswissen erworben, mit dem Sie sich an komplexere Methoden (etwa an multiple Regressionsanalysen) heranwagen können.

Epidemiologie

Epidemiologische Studien
Die Kapitel 12 bis 15 befassen sich mit epidemiologischen Studien. Dieser Begriff ist in diesem Buch sehr allgemein gehalten. Zu derlei Studien zählen kleine, deskriptive Betrachtungen (die schnell und einfach durchführbar sind) bis hin zu aufwendigen Studien, die viel Ausdauer und Geduld erfordern, ehe nach Jahren erste Ergebnisse vorliegen. In Kapitel 12 werden die unterschiedlichen Studiendesigns erläutert, es werden epidemiologische Maßzahlen vorgestellt; außerdem werden Fehler benannt, auf die man bei der Planung einer Studie und der Interpretation der Ergebnisse zu achten hat. Diese Kapitel werden jedem Doktoranden oder Habilitanden der Medizin ans Herz gelegt. Jeder Studierende der Medizin sollte daran denken, dass er oder sie sich in seinem (ihrem) späteren Berufsleben weiterbilden muss. Dazu muss man Papers lesen oder Kongresse besuchen, in denen die Ergebnisse klinischer oder epidemiologischer Studien vorgestellt werden. Es ist wichtig, die Eigenschaften und Grenzen bestimmter Studientypen und die verwendeten statistischen Methoden zu kennen, um beurteilen zu können, inwieweit die Ergebnisse klinisch relevant oder wissenschaftlich brisant sind.

Risikostudien
Risiko! Risikostudien wurde bereits um 1850 durchgeführt. Kein Wunder - damals gab es kaum Therapien, und daher war es besonders wichtig, Risiken zu erkennen, um Krankheiten a priori zu verhindern. Der Pionier auf diesem Gebiet war John Snow, der den Zusammenhang zwischen Cholera und der Qualität des Trinkwassers aufdeckte. Auch heute noch sind Risikostudien eminent wichtig: Selbstverständlich ist es auch bei modernen Krankheitsbildern wichtig und sinnvoll, Krankheitsrisiken zu kennen: Es liegt in der Hand der Patienten, des medizinischen Fachpersonals und der Politik, das Entstehen von bestimmten Krankheiten im Vorfeld zu verhindern bzw. die Auswirkungen einer Krankheit nach deren Entstehen zu kontrollieren.
Es gibt eine breite Palette von Risikostudien: angefangen von einfachen Fallberichten (deskriptive Darstellungen, bei denen lediglich einzelne Krankheitsfälle beschrieben werden) bis hin zu groß angelegten Kohortenstudien, die unter Umständen Jahrzehnte dauern und Tausende von Teilnehmern erfordern, um valide Ergebnisse zu erhalten. Jedes Studiendesign hat Vorteile, Limitationen und Fallstricke. Diese sollte man kennen, um Kausalitäten zu erkennen und der Gefahr zu entgehen, durch Confounder auf eine falsche Fährte geführt zu werden.

Studien zu Diagnostik und Prävention
Beispiel Mammographie: Sie wird zu diagnostischen Zwecken durchgeführt, um unklare Befunde zu klären. Es handelt sich dabei um ein etabliertes diagnostisches Verfahren, das eingesetzt wird, wenn bei einer Frau der Verdacht auf ein Mammakarzinom besteht oder wenn man diese Krankheit ausschließen will. Der Befund eines diagnostischen Tests ist positiv (damit würde der Anfangsverdacht bestätigt werden) oder negativ (dann nimmt man an, dass die Frau kein Karzinom hat). An einen diagnostischen Test werden hohe Ansprüche gestellt: Er soll einerseits eine Krankheit erkennen; andererseits soll er in der Lage sein, eine Krankheit auszuschließen. Diagnostische Studien werden durchgeführt, um diese beiden Gütekriterien (Sensitivität und Spezifität) zu quantifizieren.
Eine Mammographie wird auch bei Screening-Untersuchungen eingesetzt - und zwar bei Frauen, die keinerlei Beschwerden haben. In dieser Umgebung dient die Mammographie zur Prävention. Hier gibt es widersprüchliche Meinungen: Während die einen derlei Screenings als lebensrettende Maßnahmen preisen, weisen andere darauf hin, dass der Nutzen nicht belegt ist oder geringer ist als weithin angenommen. Um diese Fragen zu klären, müssen präventive Studien durchgeführt werden.
Beim Durcharbeiten dieses Kapitels werden Sie möglicherweise mit Verwunderung feststellen, dass man sich auf das Ergebnis eines diagnostischen Tests in den seltensten Fällen verlassen kann und dass insbesondere bei Screenings ein positiver Befund mit Vorsicht zu handhaben ist!

Studien zu Therapie und Prognose
Neue Therapien sind heikel. Ehe sie routinemäßig in der Praxis eingesetzt werden, müssen sie bei einzelnen Patienten getestet werden - obwohl ihr Wirkmechanismus und potentielle Nebenwirkungen noch nicht vollständig erforscht sind. Andererseits sind solche Untersuchungen notwendig, damit Patienten am Fortschritt der Medizin partizipieren können. Deshalb gibt es für die Durchführung von Therapiestudien strenge Vorgaben und Qualitätsanforderungen, die gewährleisten sollen, dass eine solche Studie zum bestmöglichen Nutzen der Patienten mit effizienten Analysemethoden durchgeführt wird. Im Idealfall wird eine Therapiestudie randomisiert (die Teilnehmer werden zufällig einem Therapiearm zugeordnet) und doppelblind (weder der behandelnde Arzt noch der Patient kennt die Therapie im Einzelfall) durchgeführt.
Noch heikler sind Prognosen. Dabei geht es meist um Krankheitsbilder, die das Leben der Betroffenen massiv beeinträchtigen. Aus ethischen Gründen erscheint es hier nicht möglich, randomisierte Studien durchzuführen. Also hat man sich auf Beobachtungsstudien zu beschränken. Die statistische Analyse stellt den Anwender vor gewisse Herausforderungen - zum einen wegen des für Bias anfälligen Studiendesigns und zum anderen wegen Drop Outs, die vor Studienende ausscheiden. Dazu sind spezielle Auswertestrategien (z.B. Kaplan-Meier-Kurven) vonnöten.

"Evidenzbasierte Medizin" (EBM) ist der letzte Abschnitt dieses Kapitels und des ganzen Buches überschrieben. Das Ziel der EBM besteht darin, ärztliche Entscheidungen auf wissenschaftliche und objektive Belege zu gründen, um den Patienten in jedem Fall nach dem neuesten Stand der Forschung versorgen zu können. Lesen Sie dieses Kapitel um beurteilen zu können, ob und ggf. wie gut dies gelingen kann.
Nach der Lektüre dieses Buches haben Sie hoffentlich erkannt: Die ärztliche Entscheidungsfindung beruht auf drei Säulen (die in gleicher Weise wichtig sind). Eine davon ist das erworbene Fachwissen und die individuelle Erfahrung des behandelnden Arztes. Die zweite Säule stellen die Bedürfnisse des Patienten dar. Drittens ist der aktuelle Stand der Forschung zu beachten. Jeder Arzt sollte sich dessen bewusst sein - auch wenn es im Einzelfall eine Herausforderung darstellen mag, diese drei Säulen unter ein Dach zu bringen.