Statistik
für Studienanfänger
1207
2011
978-3-8385-3574-6
978-3-8252-3574-1
UTB
Veith Tiemann
Wer sich für ein Studium der Wirtschaftswissenschaften entscheidet, findet sich früher oder später in einer Statistik-Vorlesung wieder. Wie spannend und vielfältig dieses Fach ist, zeigt Ihnen dieses Buch.
Der Autor stellt darin unter anderem die deskriptive und induktive Statistik sowie die Wahrscheinlichkeitsrechnung leicht verständlich vor. Zahlreiche Beispiele illustrieren den Stoff und machen die Statistik greifbar. Lernziele und Zusammenfassungen helfen Ihnen dabei, sich schnell im Buch zurechtzufinden. Durch zahlreiche Aufgaben können Sie zudem das Gelernte vertiefen.
Tauchen Sie einfach in die Statistik ein, Vorkenntnisse benötigen Sie dafür nicht.
Das Buch richtet sich an Bachelorstudierende der Wirtschaftswissenschaften an Fach- und Dualen Hochschulen.
<?page no="1"?> Eine Arbeitsgemeinschaft der Verlage Böhlau Verlag · Wien · Köln · Weimar Verlag Barbara Budrich · Opladen · Farmington Hills facultas.wuv · Wien Wilhelm Fink Verlag · München A. Francke Verlag · Tübingen und Basel Haupt Verlag Bern · Stuttgart · Wien Julius Klinkhardt Verlagsbuchhandlung · Bad Heilbrunn Mohr Siebeck · Tübingen Nomos Verlagsgesellschaft · Baden-Baden Orell Füssli Verlag · Zürich Ernst Reinhardt Verlag · München · Basel Ferdinand Schöningh Verlag · Paderborn · München · Wien · Zürich Eugen Ulmer Verlag · Stuttgart UVK Verlagsgesellschaft · Konstanz, mit UVK/ Lucius · München Vandenhoeck & Ruprecht · Göttingen · Oakville vdf Hochschulverlag AG an der ETH · Zürich <?page no="2"?> Veith Tiemann Statistik für Studienanfänger UVK Verlagsgesellschaft mbH · Konstanz mit UVK/ Lucius · München <?page no="3"?> Prof. Dr. Veith Tiemann lehrt an der EBC-Hochschule Hamburg. Online-Angebote oder elektronische Ausgaben sind erhältlich unter www.utb-shop.de. Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über <http: / / dnb.ddb.de> abrufbar. Das Werk einschließlich aller seiner Teile ist urhberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. © UVK Verlagsgesellschaft mbH, Konstanz und München 2012 Einbandgestaltung: Atelier Reichert, Stuttgart Einbandmotiv: istockphoto.com, Zentilia Druck und Bindung: fgb · freiburger graphische betriebe, Freiburg UVK Verlagsgesellschaft mbH Schützenstr. 24 · 78462 Konstanz Tel. 07531-9053-0 · Fax 07531-9053-98 www.uvk.de UTB-Band Nr. 3574 ISBN 978-3-8252-3574-1 <?page no="4"?> Vorwort Das vorliegende Buch richtet sich an Studierende, die ohne große Vorkenntnisse eine erste Statistikvorlesung im Rahmen eines Bachelor Studiums besuchen. Selbstverst¨andlich eignet sich diese Einf¨ uhrung auch zum Selbststudium. Ich m¨ochte Ihnen noch einige S¨atze zum Aufbau, zur Gestaltung und zu einigen Besonderheiten dieses Buches mit auf den Weg geben: Die Kapitel werden neben dem eigentlichen zu vermittelnden Stoffmit den Elementen Aufgaben, Motivation und Zusammenfassungen ausgestattet sein. Am Anfang eines Kapitels werden kurz die Inhalte und Lernziele aufgelistet. Kurzzusammenfassungen eines Kapitels bzw. Unterkapitels finden Sie immer unter dem Titel Kurz gefasst! Das umfangreiche Quellenverzeichnis liefert Ihnen weiteren Lesestoff. Dort sind vertiefende Literatur, interessante Artikel oder Web-Links verzeichnet (vgl. Kapitel 6.4.2). Literaturverweise geschehen in der ¨ ublichen Kurzweise zum Beispiel so [Polya90]. Sie sollten dann im Kapitel 6.4.2 nachschauen, um die Quellen ausfindig zu machen. In diesem Fall ist es das Buch von Polya aus dem Jahr 1990. Auf der Webseite http: / / www.uvk-lucius.de/ tiemann finden Sie erg¨anzende Materialien wie zum Beispiel L¨osungen zu den Aufgaben, eine Abhandlung zu statistischer Software oder auch statistische Open Source Programme zur eigenen Verwendung. Beim Lesen des Buches w¨ unsche ich Ihnen viel Freude und auch den ein oder anderen interessanten Erkenntnisgewinn. Hamburg, November 2011, Veith Tiemann Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="6"?> Inhaltsverzeichnis 1 Einf¨ uhrung und Motivation 9 1.1 Warum Statistik - Begegnungen . . . . . . . . . . . . . . . . . . . . 9 1.2 Arbeitsweise in der Statistik . . . . . . . . . . . . . . . . . . . . . . . 13 1.3 Wer ist Statistiker/ in? . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.4 Zwei Wetten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.4.1 Drei T¨ uren, zwei Ziegen und ein Auto . . . . . . . . . . . . . 17 1.4.2 Die Ziffern 1 , . . . , 9 . . . . . . . . . . . . . . . . . . . . . . . 18 2 Deskriptive Statistik 19 2.1 Eine kleine Datenkunde . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2 Das Einstichprobenproblem . . . . . . . . . . . . . . . . . . . . . . . 24 2.2.1 H¨aufigkeitsanalyse diskreter Daten . . . . . . . . . . . . . . . 24 2.2.2 H¨aufigkeitsanalyse stetiger Daten . . . . . . . . . . . . . . . . 30 2.2.3 Analyse der Urliste . . . . . . . . . . . . . . . . . . . . . . . 38 Lagemaßzahlen . . . . . . . . . . . . . . . . . . . . . . . . . 40 Graphiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Streuungsmaße . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.2.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 2.3 Das Zweistichprobenproblem . . . . . . . . . . . . . . . . . . . . . . 69 2.3.1 Kontingenz . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 2.3.2 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 2.3.3 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 2.3.4 Konzentrationsmessung . . . . . . . . . . . . . . . . . . . . . 103 2.3.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 2.4 Beschreibung von Zeitreihen . . . . . . . . . . . . . . . . . . . . . . 120 2.5 Wirtschaftskennzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . 123 3 Wahrscheinlichkeiten 133 3.1 Zufallsvorg¨ange und Ereignisse . . . . . . . . . . . . . . . . . . . . . 135 3.2 Die Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . 137 3.3 Rechnen mit Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . 141 3.4 Totale Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . 149 3.5 Satz von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 3.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="7"?> 8 Inhaltsverzeichnis 4 Verteilungen 159 4.1 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 4.2 Die (Daten-)Welt als Modell? . . . . . . . . . . . . . . . . . . . . . . 164 4.3 Spezielle diskrete Modelle . . . . . . . . . . . . . . . . . . . . . . . . 165 4.3.1 Bernoulliexperiment . . . . . . . . . . . . . . . . . . . . . . . 165 4.3.2 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . 166 4.3.3 Weitere M¨oglichkeiten . . . . . . . . . . . . . . . . . . . . . . 172 4.4 Spezielle stetige Modelle . . . . . . . . . . . . . . . . . . . . . . . . 173 4.4.1 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . 174 4.4.2 Weitere stetige Modelle . . . . . . . . . . . . . . . . . . . . . 186 4.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 5 Induktive Statistik 195 5.1 Grenzwerts¨atze - Empirie vs. Theorie . . . . . . . . . . . . . . . . . . 195 5.1.1 Das Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . 196 5.1.2 Der Hauptsatz der mathematischen Statistik . . . . . . . . . . 202 5.1.3 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . 203 5.1.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 5.2 Testtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 5.2.1 Der statistische Test . . . . . . . . . . . . . . . . . . . . . . 207 5.2.2 Der t-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 5.2.3 Der χ 2 -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 5.2.4 Weitere statistische Tests . . . . . . . . . . . . . . . . . . . . 224 5.2.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 6 Anh¨ange 231 6.1 Tabelle zur t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 231 6.2 Tabelle zur χ 2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . 232 6.3 Tabelle zur Normalverteilung . . . . . . . . . . . . . . . . . . . . . . 233 6.4 Zwei Frageb¨ogen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 6.4.1 Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 6.4.2 Merkw¨ urdiges . . . . . . . . . . . . . . . . . . . . . . . . . . 234 Variante 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 Variante 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 Hinweise/ Aufkl¨arung . . . . . . . . . . . . . . . . . . . . . . 236 Literatur 239 I B¨ ucher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 II Zeitschriftenartikel/ Aufs¨atze . . . . . . . . . . . . . . . . . . . . 240 III Internetquellen . . . . . . . . . . . . . . . . . . . . . . . . . . . 240 Tabellenverzeichnis 240 Abbildungsverzeichnis 242 Stichwortverzeichnis 245 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="8"?> Kapitel 1 Einf¨ uhrung und Motivation 1.1 Warum Statistik - Begegnungen Interessanterweise kommt man ja (leider) nicht umhin, am Anfang eines Statistiklehrbuches zu erkl¨aren, was die Statistik ist und warum es diese ¨ uberhaupt gibt. Es ist gewissermaßen zwingend notwendig, jedesmal aufs Neue die Daseinsberechtigung der Disziplin zu argumentieren. Das verr¨at Ihnen bereits eine Menge ¨ uber den Status quo der Disziplin — ohne dies gepr¨ uft zu haben, muss man vermutlich eine Weile suchen, um eine Art Schwesterdisziplin zu finden, was das Ausmaß an st¨andigen Rechtfertigungsbem¨ uhungen betrifft. Das hat seine Gr¨ unde. Die Statistik wird immer noch als ein mehr oder weniger notwendiges ¨ Ubel wahrgenommen, das man nicht verstehen muss und schon gar nicht durchdringen sollte. Es ist lediglich notwendig, den aufgeb¨ urdeten Schein zu erwerben. Davon abgesehen wird einem die Statistik nicht mehr begegnen. Sie scheint irgendwie um ihrer selbst willen zu existieren, und dabei sollte man nicht zu sehr st¨oren. Das ist nat¨ urlich ¨ uberspitzt formuliert. Aber, liebe Leserin, lieber Leser, ¨ uberpr¨ ufen Sie doch einmal bitte Ihre pers¨onliche Motivation f¨ ur die Lekt¨ ure dieses Buches bzw. den Besuch Ihrer Lehrveranstaltung. Ich m¨ochte Sie davon ¨ uberzeugen, dass diese eben genannten Vorurteile einer heftigen Korrektur bed¨ urfen. Schaut man einmal genauer hin, dann stellt man fest, dass Statistik tats¨achlich und im Gegenteil eine ¨außerst prominente Rolle einnimmt. Statistik findet da draußen statt! Die wichtigste Aufgabe, die man als Statistikdozent hat, ist diese Prominenz nicht gemeinplatzartig qua Hoheitswissens stehen zu lassen, sondern aufzuzeigen, dass diese Disziplin in unser aller t¨aglichem Leben eine nicht zu untersch¨atzende Rolle spielt. Sie pers¨onlich haben t¨aglich mehrfache Begegnungen mit ihr. <?page no="9"?> 10 Kapitel 1. Einf¨ uhrung und Motivation Anders formuliert: Sollte es mir gelingen, Sie davon zu ¨ uberzeugen, dass die Statistik Sie ganz pers¨onlich betrifft und dass das Wissen dar¨ uber Ihnen einen ganz pers¨onlichen Mehrwert liefert, dann bin ich sicher, sind Sie gewillt, sich dem Thema zu widmen. Dar¨ uber hinaus werde ich Ihnen zeigen, dass f¨ ur das von Ihnen ausgew¨ahlte wirtschaftswissenschaftliche Studium und damit f¨ ur die anvisierte Berufswahl statistisches Wissen und Denken eine große Arbeitserleichterung bedeuten. Die Statistik hat aber auch ihre T¨ ucken. Besonders wenn sie in Form der Wahrscheinlichkeitsrechnung daherkommt. Das Problem ist, dass Menschen nicht unbedingt gut darin sind, Entscheidungen unter Unsicherheit intuitiv richtig zu f¨allen. Stellen Sie sich einmal das Folgende vor: Exkurs zur Motivation: Kein Gl¨ uck an der Gl¨ ucksspielbude . . . Sie sind auf dem Jahrmarkt und kommen zu einer Gl¨ ucksspielbude. Folgendes Spiel wird Ihnen angeboten: Drei identisch aussehende Holzkisten enthalten jeweils zwei M¨ unzen. In einer sind zwei Goldm¨ unzen, in der n¨achsten zwei Silberm¨ unzen und in der letzten eine Gold- und eine Silberm¨ unze. Sie w¨ahlen zuf¨allig eine Kiste - die beiden anderen Kisten werden wegger¨aumt -, greifen ohne zu schauen hinein und haben eine Goldm¨ unze in der Hand. Der Budenbesitzer wettet nun: Holen Sie noch die zweite M¨ unze raus. Ich wette, die ist auch aus Gold! Und gehen Sie auf die Wette ein? Wie wahrscheinlich ist es denn, dass die zweite M¨ unze in der von Ihnen gew¨ahlten Kiste auch noch aus Gold ist? Ich vermute, dass Sie die Situation intuitiv falsch eingesch¨atzt haben. Der Budenbesitzer wird mit großer Wahrscheinlichkeit (66 %) gewinnen. Die Wette ist n¨amlich nicht fair. Entscheidung unter Unsicherheit ist die ¨ Ubersetzung eines Buchtitels, des Klassikers Judgment under Uncertainty von Daniel Kahneman und Amos Tversky . 1 2002 hat Kahneman den Nobelpreis f¨ ur Wirtschaftswissenschaften f¨ ur die Entwicklung der Prospect Theory bekommen, einer Alternative zur klassischen Theorie des Homo Oeconomicus, die er zusammen mit Tversky 2 entwickelt hat. Da Menschen eben gerade nicht sehr gut darin sind, jene Entscheidungen unter Unsicherheit zu treffen, ist es eben auch nicht realistisch, ausschließlich eine Entscheidungstheorie zu bem¨ uhen, die von einem vollkommen rational handelnden, 1 Vgl. [KaSlTv82]. In diesem Zusammenhang ist auch das Buch von Plous empfehlenswert [Plous93]. 2 Amos Tversky ist 1996 verstorben. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="10"?> 1.1. Warum Statistik - Begegnungen 11 also nutzenmaximierenden Menschen ausgeht — zugegebenermaßen macht diese das Rechnen und das Generieren von Aussagen leichter. Die beiden Autoren haben als Ausgangspunkt f¨ ur ihre Theorie Heuristiken entwickelt, wie sich Menschen tats¨achlich entscheiden, wenn Wahrscheinlichkeiten eine Rolle spielen. Im Kapitel 6.4.2 Merkw¨ urdiges ist ein Fragebogen abgedruckt, der aufzeigt, wo die T¨ ucken liegen und was die Gr¨ unde sind. Es gilt nunmehr die folgende Gleichung: Statistik ist wichtig + Statistik ist nicht immer leicht = Statistikausbildung ist sehr wichtig! Diese Formel ist Motivation und Antrieb f¨ ur das vor Ihnen liegende Statistikbuch. Lassen Sie uns beginnen, die Unbekannten in der Gleichung kennenzulernen. Im Folgenden finden Sie eine unsortierte und nat¨ urlich unvollst¨andige Liste mit statistischen Begegnungen — zum Zwecke der Referenzierung ist diese aber durchnummeriert. Sie werden vermutlich ¨ uberrascht sein, hinter welchen Fassaden und Labels ¨ uberall Statistik steckt. Sie werden bereits die ersten statistischen Einordnungen und Begrifflichkeiten antreffen: Sie m¨ochten bei einer Bank einen Kredit bekommen. Die Bank verlangt einige Ausk¨ unfte ¨ uber Sie, denn die Bank m¨ochte vor der Kreditvergabe wissen, ob Sie den Kredit zur¨ uckbezahlen werden oder nicht (das sogenannte Scoring). Die Daten, die die Bank vor einer Kreditvergabe erhebt, ist ein multivariater Datensatz, das heißt viele Objekte und viele Merkmale: Multivariate Statistik. Diskriminanzanalyse zur ¨ Uberpr¨ ufung der Kreditw¨ urdigkeit von Neukunden. Die Arbeitslosenquote ist eine Zeitreihe. Ein Merkmal ist ¨ uber viele Zeitpunkte hinweg beobachtet worden: Zeitreihenanalyse. Vgl. Kapitel 2.4 Beschreibung von Zeitreihen Wie l¨asst sich der Trend bei der Arbeitslosenquote fortschreiben? Wie sieht der Saisoneffekt aus? Laut aktuellem Armutsbericht (2009) leben in Mecklenburg-Vorpommern die meisten armen Menschen in Bezug auf die Bev¨olkerung — oder in Hamburg: Datenanalyse, Maßzahlen, Graphische Darstellung von Daten. Wie misst man Armut, und wie wertet man die Daten aus? Herr K. hat bereits 29 ¨ Uberraschungseier gekauft. Er m¨ochte unbedingt die vollst¨andige Starwars-Kollektion besitzen, von der in jedem 7. Ei eine solche Figur zu finden ist: Simulation, Wahrscheinlichkeitsrechnung. Wie viele Eier muss Herr K. wahrscheinlich noch kaufen? Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="11"?> 12 Kapitel 1. Einf¨ uhrung und Motivation Wie unwahrscheinlich ist es eigentlich, den Jackpot im Lotto zu knacken? 1: 140 Millionen, dieses Zahl wird zumindest in der Werbung verk¨ undet. Aber was heißt das? Und was hat das mit einer Autofahrt von Hamburg nach Rom zu tun? Simulation, Wahrscheinlichkeitsrechnung. Wie viele Reihen muss man denn im Schnitt tippen, um mal etwas zu gewinnen? H¨atte man das Challengerungl¨ uck vom 20. Januar 1986 vielleicht doch vorhersehen k¨onnen? Explorative Datenanalyse, Modellierung, Regression. Was wurde dort gemacht? Wie sieht eine angemessene Modellierung aus? Eine Firma produziert Gl¨ uhbirnen. Es sollen Aussagen ¨ uber die gesamte Produktion in Bezug auf die Lebensdauer einer Gl¨ uhbirne gemacht werden: Total Quality Management. Wie lange brennt eine zuf¨allig ausgew¨ahlte Gl¨ uhbirne? Die Deutsche Telekom h¨alt riesige Datenbest¨ande, die sie nutzbar machen m¨ochte: Data Mining. Ist es m¨oglich, bei einer Kundin festzustellen, ob sich Auff¨alligkeiten in ihrem Telefonierverhalten eingestellt haben? Hintergrund: Jemand telefoniert unberechtigterweise auf ihre Kosten. Warum gibt es eigentlich Pay-back-Karten? Data Mining. Es k¨onnen individuell zugeschnittene Angebote erstellt werden und Adressen- Broker verdienen damit viel Geld. Eine Lebensmittelkette m¨ochte wissen, ob beim Kauf gewisser Produkte Abh¨angigkeiten bestehen: Inferenzstatistik. Werden Bier und Windeln oft zusammengekauft und sollte man diese Produkte deswegen zusammen platzieren? Jemand erbt einen Fischteich und m¨ochte wissen, wie viele Fische sich in dem Teich befinden. Er hat eine Stichprobe gezogen: Sch¨atztheorie. Eine Umweltschutzorganisation m¨ochte wissen, ob sich der Zustand des Waldes im Vergleich zu vor 10 Jahren verbessert hat: Testtheorie. 18: 00 am Wahlabend. Es gibt bereits die ersten Prognosen, obwohl noch keine einzige Stimme ausgez¨ahlt wurde. Und so schlecht sind diese Vorhersagen gar nicht. Sch¨atztheorie. Ein Chiphersteller f¨ ur Handys m¨ochte wissen, ob die Gespr¨ache ausreichend gut verschl¨ usselt werden: Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="12"?> 1.2. Arbeitsweise in der Statistik 13 Kryptographie, Zufallszahlen. Wie aufw¨andig ist es, ein Gespr¨ach, das von einem Handy aus gef¨ uhrt wird, abzuh¨oren? Wie sicher ist meine EC-Karte? Bei all diesen Themen handelt es sich um statistische Fragestellungen bzw. um Fragen oder Probleme, die mit der Statistik beantwortet werden k¨onnen. Sie m¨ ussen zugeben, diese machen sich ziemlich breit. Die Beispiele und die damit m¨oglicherweise verbundenen offenen Fragen werden Sie ¨ ubrigens im Verlaufe des Buches wieder antreffen. 1.2 Arbeitsweise in der Statistik Statistik zu definieren, ist nicht einfach bzw. auch nicht sinnvoll. Oder halten Sie den folgenden Versuch aus einem Statistik-Lexikon f¨ ur gelungen? 3 ”Gesamtheit der Verfahren und Methoden zur Gewinnung, Erfassung, Aufbereitung, Analyse, Abbildung, Nachbildung und Vorhersage von z¨ahl-, meß- und systematisch beobachtbaren (m¨oglichst massenhaften) Informationen (Daten) ¨ uber theoretisch fundierte Sachverhalte (reale Objekte und Vorg¨ange) zum Zwecke der Erkenntnisgewinnung und Entscheidungsfindung (meist unter Ungewissheit).“ Man muss sich der Statistik ¨ uber ein paar Umwege ann¨ahern. Davon, wo die Statistik ¨ uberall mitmischt, haben Sie bereits einen kleinen Eindruck bekommen. Was macht nun ein Statistiker? Und warum macht er das, was er tut? ”We are drowning in information but starving for knowledge.“ Dieser markante Satz stammt von John Naisbitt . 4 Er beschreibt recht anschaulich, was Sinn und Zweck der Arbeit eines Statistikers ist. Gerade im heutigen sogenannten Informationszeitalter gibt es Daten in H¨ ulle und F¨ ulle. Daten zu sammeln, ist verf¨ uhrerisch einfach und nicht einmal besonders teuer. Unternehmungen sammeln besonders gerne und besonders fleißig Daten. Diese Daten oder Informationen liegen dann in der Regel massenhaft und unzusammenh¨angend vor. Wie gewinnt man aus diesen Daten relevante Erkenntnisse? Die Statistik erm¨oglicht diesen Transformationsprozess: Daten → Erkenntnisse. Sie liefert die notwendigen Arbeitsmittel sowie die angemessene Vorgehensweise. Statistisches Vorgehen ist immer ein induktives Vorgehen. Einfach formuliert bedeutet das, aufgrund von speziellen Beobachtungen, zum Beispiel auf Basis einer Stichprobe, wird versucht, auf eine allgemeine Regel zu schließen. Das ist der erw¨ahnte Transformationsprozess: Es liegen Daten vor (die Stichprobe), mit deren Hilfe allgemeing¨ ultige Erkenntnisse bzw. Zusammenh¨ange generiert werden sollen. Sie m¨ochten etwas ¨ uber eine große und unbekannte Grundgesamtheit wissen. Das k¨onnen ganz konkret alle potenziellen Kunden sein, oder die Bev¨olkerung eines Landes oder auch, abstrakter, ein Produktionsprozess. In jedem Fall etwas, 3 Vgl. [R¨onzStrohe94]. 4 Bekannter Zukunftsforscher und Strategieberater, u.a. Autor des Buches Megatrends. Vgl. [Naisbitt84]. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="13"?> 14 Kapitel 1. Einf¨ uhrung und Motivation was in seiner Gesamtheit niemals erfasst werden kann — wenn Sie vielleicht an der Lebensdauer einer produzierten Gl¨ uhbirne interessiert sind, dann k¨onnen Sie schließlich nicht alle ausprobieren, denn dann haben Sie nichts mehr zum Verkaufen. Sie m¨ ussen zielf¨ uhrend Daten ¨ uber diese Grundgesamtheit sammeln, vielleicht eine Stichprobe ziehen. Die Statistik bietet erfolgversprechende Mittel und Wege, um aufgrund der erhobenen Daten allgemeine Erkenntnisse ¨ uber die Grundgesamtheit insgesamt zu gewinnen. Der folgende Ablaufplan skizziert die Arbeitsweise eines Statistikers: 1. Warum gibt es die Daten, welcher Zweck wird mit der Erhebung verfolgt? Welche allgemeinen Erkenntnisse sind angestrebt? Habe ich daf¨ ur die richtigen Daten gesammelt bzw. vorliegen? 2. Die Stichprobe muss verstanden, also analysiert werden. Daf¨ ur stehen die folgenden Werkzeuge zur Verf¨ ugung: Explorative Datenanalyse: Graphiken, Maßzahlen Wahrscheinlichkeitsrechnung Modellierung, theoretische Verteilungsmodelle 3. Wenn man die Daten verstanden hat, sie also modellieren konnte, dann erlaubt die Inferenzstatistik (= schließende bzw. induktive Statistik) die ersehnte allgemeine Schlussfolgerung, also zum Beispiel Zusammenh¨ange, Erwartungen, Prognosen usw. Dazu stehen prinzipiell zwei Vorgehensweisen zur Verf¨ ugung: Sch¨atztheorie Testtheorie 4. Die Erkenntnisse werden nachvollziehbar und reproduzierbar in einem statistischen Report aufgeschrieben. 5 Man kann ganz gut erkennen, wie der Erkenntnisschritt abl¨auft: vom Speziellen zum Allgemeinen. Oder um es mit zwei bekannten Statistikern zu sagen: “Statistics is the science of gaining knowledge from data. Data are numbers with a context.” David Moore , 1991. “Inductive inference is the only process known to us by which essentially new knowledge comes into the world.” Sir Ronald A. Fisher , 1935. 5 Sollten Sie einmal gefragt werden, was wissenschaftliches Arbeiten ist, dann m¨ ussen in jedem Fall die beiden kursiv gedruckten Eigenschaften Erw¨ahnung finden. Sie bilden das Fundament, auf dem die Wissenschaft ruht. F¨ ur mehr zu dem Thema vgl. [Seiffert73] bzw. [Seiffert96]. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="14"?> 1.3. Wer ist Statistiker/ in? 15 1.3 Wer ist Statistiker/ in? Der erw¨ahnte Transformationsprozess sei einmal an einem historischen Beispiel beschrieben. Man braucht nicht unbedingt einen Computer und Millionen von Daten in einer modernen Datenbank. Es ist vor allem das konsequente Vorgehen nach dem eben aufgezeigten Ablaufplan, das statistisches Handeln, also das Streben nach allgemeiner Erkenntnis, ausmacht. Exkurs zur Motivation: Die Cholera in London 1854 herrschte in London eine verheerende Cholera-Epidemie mit vielen Toten. Damals wurde angenommen, dass Cholera durch D¨ unste (Miasmen) verbreitet wird. In dieser Zeit war John Snow (1813-1858) Arzt in London. Er war der ¨ Uberzeugung, dass Cholera gerade nicht durch die Luft ¨ ubertragen wird. Schließlich hatte er sich bei Behandlungen seiner Patienten nie angesteckt. Er hatte die Nahrungskette in Verdacht, hier vor allem die Trinkwasserversorgung durch zentrale Brunnen. Er konnte die Stadt von seinen Ideen aber nicht ¨ uberzeugen. Also ging er statistisch vor, um sein Anliegen zu beweisen: 1. Er sammelte Daten. Akribisch trugen er und seine Mitarbeiter die Cholera- Todesf¨alle zusammen. 2. Um die Daten zu verstehen, hat er sie graphisch mit Hilfe einer Karte von London dargestellt (Vgl. Abbildung 1.1). In der Karte sind die Todesf¨alle durch Cholera mit einem • dargestellt, die Trinkwasserbrunnen (=pump) durch ein × . In der Karte, ein sogenanntes Streudiagramm, konnte er nun ein klares Muster erkennen. Es liegen deutlich mehr Punkte um den Brunnen auf der Broad Street als irgendwo sonst. 3. Damit hat er ein Erkl¨arungsmodell gefunden — dies k¨onnte auch als Hypothese bezeichnet werden: ”Der Brunnen auf der Broad Street ist die Ursache f¨ ur die Ausbreitung der Cholera zur Epidemie.“ Das Problem sind die vielen sogenannten Ausreißer, hier also F¨alle, die nicht zum Modell passen und im Gegenteil dem Modell widersprechen. Diese d¨ urfen auf keinen Fall außer Acht gelassen werden. Die Ausreißer m¨ ussen erkl¨art werden, da sonst die Modellierung falsch ist und die Hypothese abzulehnen ist. F¨ ur jede an Cholera verstorbene Person, die im Einzugsgebietes eines anderen Brunnens lebte, ist zu ¨ uberpr¨ ufen, ob diese Wasser aus dem fraglichen Brunnen bezogen hat. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="15"?> 16 Kapitel 1. Einf¨ uhrung und Motivation ... Die Cholera in London Das ist John Snow gelungen — und zwar f¨ ur jeden einzelnen Punkt in der Karte. Der Punkt links oben in der Karte repr¨asentiert bspw. eine alte Dame, die sich das Wasser vom Brunnen in der Broad Street hat bringen lassen. 4. Seine Erkenntnisse konnte er vortragen. Der Brunnen in der Broad Street wurde außer Betrieb gesetzt und es kam in der Tat recht schnell zum Stillstand der Epidemie. Die Ursache f¨ ur die Ausbreitung der Krankheit lag in dem Versuch begr¨ undet, die offenen (und wohl ziemlich ¨ ubel riechenden) Abwasserkan¨ale in die Themse zu sp¨ ulen. Dadurch wurde der Brunnen kontaminiert. Abbildung 1.1: John Snows Darstellung der Cholera-Toten Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="16"?> 1.4. Zwei Wetten 17 John Snows Vorgehen ist ein zeitlos sch¨ones Beispiel f¨ ur einen angemessenen Weg nicht nur zur statistischen Erkenntnis. Zu Lebzeiten wurde seine Theorie allerdings durch die damaligen Wissenschaftler und ¨ Arzte nicht anerkannt und erst einige Jahre nach seinem Tod best¨atigt. Dieses historische Beispiel zeigt eindrucksvoll, dass die Statistik Hilfsmittel, Konzepte und Methoden zum L¨osen von Problemen liefert. Wie man sie angeht, wie man sie formuliert, wie man sie strukturiert und wie man zu Ergebnissen kommt. Schauen Sie unbedingt auch einmal diese (nicht Statistik) Quellen an: [Polya90], [Popper96]. Kurz gefasst! Ihr privates und berufliches Leben wird Sie mit der Statistik konfrontieren. Statistik findet statt: “Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write.” H.G. Wells , (1866-1946). Statistik wandelt Daten in Erkenntnisse um (Transformation). F¨ ur diese Transformation gibt es unterschiedliche Mittel und Wege. Diese lernen Sie im Folgenden kennen. 1.4 Zwei Wetten Zum Abschluss der Einf¨ uhrung und Motivation m¨ochte ich Ihnen zwei Wetten anbieten, die recht verbl¨ uffende und, ja genau Sie ahnen es, nicht sehr intuitive L¨osungen mit sich bringen. Die beiden Geschichten werden sp¨ater aufgegriffen und ausf¨ uhrlich besprochen. 1.4.1 Drei T¨ uren, zwei Ziegen und ein Auto Sie haben es in die letzte Runde der Spielshow Geh aufs Ganze! geschafft. 6 Vor Ihnen befinden sich drei verschlossene T¨ uren. Hinter zwei T¨ uren ist jeweils eine Ziege, hinter einer ein Auto versteckt. Sie d¨ urfen sich vor eine T¨ ur stellen, zum Beispiel T¨ ur 3. Der Moderator, der nat¨ urlich weiß, was hinter welcher T¨ ur versteckt ist, ¨offnet eine T¨ ur. Nat¨ urlich nicht die, hinter der das Auto versteckt ist, und auch nicht die, welche Sie sich ausgesucht haben. Er ¨offnet zum Beispiel T¨ ur 1. Sie sehen eine Ziege. Nun bietet der Moderator Ihnen Folgendes an — Sie m¨ochten nat¨ urlich das Auto gewinnen: Sie bleiben bei Ihrer Ursprungswahl (T¨ ur 3), oder Sie wechseln zur 6 Deutsche Version der amerikanischen Originalshow Let’s make a deal! . Das hier beschriebene Spiel h¨alt sich an das Original. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="17"?> 18 Kapitel 1. Einf¨ uhrung und Motivation anderen noch verschlossenen T¨ ur (T¨ ur 2). Sie bekommen anschließend das, was hinter der T¨ ur ist. Wie sollten Sie sich verhalten? Soeben ist Ihnen das sogenannte Ziegenproblem vorgestellt worden (vgl. Seiten 140, 148, 196ff). 7 1.4.2 Die Ziffern 1, . . . , 9 Man nehme eine beliebige Zeitschrift, schlage diese an einer beliebigen Stelle auf und betrachte die erste (oder auch die zweite, zw¨olfte oder letzte) von Null verschiedene Zahl, die Ihnen begegnet (Seitenzahlen sollen erst mal nicht ber¨ ucksichtigt werden). Ich wette, dass die erste Ziffer dieser Zahl entweder eine 1, 2 oder 3 ist. Sollte dort zum Beispiel zu lesen sein, Frau bekommt 3 Kinder oder 66 % der Amerikaner stehen hinter ihrem Pr¨asidenten oder Gesch¨aftsf¨ uhrer veruntreut 750.000 e , dann ergibt sich als erste Ziffer die 3, die 6 bzw. die 7. Sie d¨ urfen nun auf die Ziffern 4 , 5 , 6 , 7 , 8 , 9 setzen. Wie sollten Sie sich verhalten? Dieses Ph¨anomen ist unter der Bezeichnung Benfords Gesetz bekannt. Schauen Sie sich diesbez¨ uglich auch einmal die Aufgabe 15 auf der Seite 194 an. 8 7 Bei Google werden Sie mit Ziegenproblem oder Monty Hall problem f¨ undig. Monty Hall war einer der Moderatoren der amerikanischen Show. Das Buch von Gero von Randow ist sehr empfehlenswert. Vgl. [vonRandow04] oder [Tiemann2003], S. 187ff. 8 Vgl. [Benford38] bzw. [Newcomb1881] oder [Tiemann2003], S. 194ff. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="18"?> Kapitel 2 Deskriptive Statistik Der Name ist hier eindeutig Programm. Die beschreibende Statistik beschreibt Daten. Sie versucht, Ihnen etwas ¨ uber die Daten zu erz¨ahlen, so dass Sie sich anschließend gest¨arkt und gut ger¨ ustet mit einer h¨oheren Art von Datenverst¨andnis befassen k¨onnen. Daten existieren, wie geschildert, nicht um ihrer selbst willen. Es wird ein Zweck mit ihrer Erhebung verfolgt. Im Allgemeinen dienen die Daten dazu, Licht auf ein Problem zu werfen bzw. ganz konkret Antworten auf Fragen zu finden. F¨ ur das explorative Untersuchen und das anschließende Beschreiben bzw. Darstellen der Daten stehen, wie auf der Seite 14 bereits kurz beschrieben, vor allem Maßzahlen und Graphiken zur Verf¨ ugung. Diese Arbeitsmittel verhelfen der Beschreibung derart auf die Spr¨ unge, dass Verdichtungen und Aggregationen sowie Abstraktionen einen gewinnbringenden Blick auf die Daten erlauben. Es k¨onnen mit Hilfe der beschreibenden Statistik bereits erste Erkenntnisse gewonnen werden. Diese sind dann f¨ ur m¨ogliche Hypothesenformulierungen im Rahmen der induktiven Statistik sehr bedeutsam. Selbstverst¨andlich bedeuten Verdichtungen auch immer einen Verlust an Informationen, welcher aber kalkuliert und damit bekannt ist, um durch die Beschreibung klarer sehen zu k¨onnen. Bevor Sie sich gleich diesem wichtigen Themenblock systematisch und wohlsortiert widmen, soll zun¨achst ganz unvermittelt ein erster Blick auf das Ergebnis einer beschreibenden Statistik geworfen werden - bedenken Sie dabei, dass auf Basis solcher und ¨ahnlicher Statistiken des Statistischen Bundesamtes Hartz- IV-S¨atze, Subventions- und sonstige Unterst¨ utzungsmaßnahmen oder gleich ganze Konjunkturprogramme entschieden werden: <?page no="19"?> 20 Kapitel 2. Deskriptive Statistik Exkurs zur Motivation: Armut in Deutschland In der statistischen Begegnungsliste beginnend auf der Seite 11 wurde im Punkt 1.1 eine Aussage zur Armutssituation in Deutschland getroffen: Mecklenburg- Vorpommern oder Hamburg? Wo leben denn nun relativ gesehen die meisten armen Menschen? Die beiden Graphiken in der Abbildung 2.1 helfen weiter. In der linken Graphik ist der Anteil armer Menschen am mittleren Bundeseinkommen bestimmt worden, rechts am mittleren Einkommen des jeweiligen Landes. Arm in diesem Sinne bedeutet ¨ ubrigens, weniger als 60 % des Durchschnittseinkommens zu haben. Was ist der Durchschnitt? Was ist ein Median? Was passiert, wenn alle immer reicher werden? Sie sehen, eine Statistik vermittelt nicht eine objektive Wahrheit, sondern immer nur das, was der (seri¨ose) Verfasser einer Statistik aussagen m¨ochte. Das ist wohl das statistikfreundliche Pendant zu dem bekannten Spruch: ”Traue keiner Statistik, die du nicht selbst gef¨alscht hast.“ Abbildung 2.1: Graphische Darstellung der Armut in Deutschland 2007 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="20"?> 2.1. Eine kleine Datenkunde 21 2.1 Eine kleine Datenkunde In diesem Kapitel lernen Sie wie Daten beschaffen sind. die verschiedenen Eigenschaften von Daten kennen. Wie Sie bereits gesehen haben, ist Statistik mehr als eine Graphik zu erstellen, den Mittelwert zu berechnen und vielleicht ein komplexes Rechenverfahren anzuwenden. Alles beginnt mit einem Problem, einer Fragestellung. An dieser Stelle sei auf das Buch von Polya [Polya90] hingewiesen. Dort finden Sie eine wunderbare Einf¨ uhrung in die Kunst, Problemen strategisch und damit erfolgreich zu begegnen. In der Statistik werden Probleme, wie bereits erw¨ahnt, (ausschließlich) induktiv behandelt. Dazu sind in der Regel Daten notwendig. Diese fallen nicht vom Himmel. Im Gegenteil: Sie m¨ ussen erhoben, beobachtet oder sogar erzeugt werden und zwar so, dass sie im Rahmen der Fragestellung weiterhelfen. Das ist nicht unbedingt trivial. Sehr viele Gedanken und Arbeit m¨ ussen in die angemessene Datengenerierung investiert werden. Garbage in, garbage out fasst die Bedeutung dieser Investition gut zusammen. Im Rahmen dieses Buches wird davon ausgegangen, dass Daten vorliegen und diese den Anforderungen gen¨ ugen. Deskriptive Statistik beschreibt den ersten Schritt im Rahmen der statistischen Vorgehensweise. Wie sehen die Daten aus? Welche Geschichte erz¨ahlen sie? Was sind die Besonderheiten und welche Morphologie bringen die Daten mit? Den Daten soll durch genaues Hinsehen, durch geschicktes Zusammenfassen und durch geeignetes Darstellen m¨oglichst viel an Informationen entlockt werden, in der Regel nat¨ urlich in Bezug auf die eigentliche Fragestellung. Im Folgenden sollen dazu verschiedene Methoden und Konzepte vorgestellt werden. Je nachdem welche Art von Daten vorliegen, k¨onnen unterschiedliche Verfahren zum Einsatz kommen. Wenn bei einer Einkommenserhebung von 100 Personen bspw. lediglich notiert wurde, wer mehr bzw. weniger als e 1000 verdient, dann sind die Auswertungsm¨oglichkeiten offensichtlich sehr begrenzt. Liegen alle 100 Einkommensdaten vor, dann l¨asst sich wesentlich mehr damit anfangen. Diese Eigenschaften k¨onnen systematisch beschrieben werden ¨ uber das Skalenniveau und die M¨achtigkeit der Auspr¨agungsmenge. Die folgende Tabelle stellt die drei wichtigsten Niveaus vor. Die verschiedenen Skalen, also die Zeilen der Tabelle, sind aufsteigend sortiert, da der Informationsgehalt zunimmt. Das jeweils nachfolgende Niveau weist zus¨atzliche, den Informationsgehalt erweiternde, Eigenschaften zum vorherigen auf: Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="21"?> 22 Kapitel 2. Deskriptive Statistik Skalenniveau Eigenschaften / Rechenoperationen Beispiel Nominalskala Lediglich die Unterschiedlichkeit aller Beobachtungen wird zum Ausdruck gebracht. Kategoriale Daten. → = / = Geschlecht, Parteienvorlieben Ordinalskala Die Beobachtungen k¨onnen in eine nat¨ urliche Reihenfolge gebracht werden, R¨ange k¨onnen gebildet werden. Kategoriale Daten. → < / > Steuerklassen, ∗ ∗ ∗ -Hotel Kardinalskala Setzt sich zusammen aus Intervallskala - die absoluten Unterschiede zwischen Beobachtungen sind sinnvoll - und Verh¨alnisskala - die relativen Unterschiede sind sinnvoll. Metrische Daten. → + / − × / ÷ Gr¨oße in cm, Alter in Jahren Tabelle 2.1: Verschiedene Skalenniveaus Je nachdem welches Niveau die Daten aufweisen, k¨onnen unterschiedliche Methoden angewandt werden. Das Skalenniveau bestimmt den Informationsgehalt. Je mehr Informationen in den Daten stecken, desto gr¨oßer ist das Spektrum der M¨oglichkeiten, statistische Methoden anzuwenden. Bei den Daten wird zus¨atzlich zwischen diskret und stetig unterschieden. Diese Unterscheidung macht im Grunde nur Sinn bei den metrischen Daten, wie gleich deutlich werden wird. M¨achtigkeit Eigenschaften Beispiel Diskret Die Menge der Auspr¨agungen ist endlich oder abz¨ahlbar unendlich. Auf der Merkmalsachse sind L¨ ucken. Metrische Daten k¨onnen diskret sein, kategoriale Daten sind immer diskret. Geschlecht, Schulnoten Stetig Auf der Merkmalsachse sind keine L¨ ucken, die Menge der Auspr¨agungen ist ¨ uberabz¨ahlbar groß. Nur metrische Daten k¨onnen stetig sein. Gr¨oße, Dauer Tabelle 2.2: M¨achtigkeit der Auspr¨agungsmenge Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="22"?> 2.1. Eine kleine Datenkunde 23 Auch diese Unterscheidung hat einen großen Einfluss auf die Analysemethode. Sie werden sehen, dass ein Merkmal in der Theorie zwar stetiger Natur sein kann (Alter) aber in der konkreten Datensituation (Alter in Jahren) durchaus wie ein diskretes Merkmal behandelt werden kann. Und das umgekehrt ein eindeutig diskretes Merkmal (Anzahl B¨ ucher) wie ein stetiges behandelt werden muss, um sinnvolle Ergebnisse zu bekommen. Bevor es mit der statistischen Arbeit losgehen kann, sollen noch ein paar Begrifflichkeiten eingef¨ uhrt werden. Es ist dann einfacher und pr¨aziser, ¨ uber die kommenden Konzepte zu sprechen: Grundgesamtheit Gesamtheit aller f¨ ur eine Fragestellung relevanten Subjekte. Alle Einwohner der BRD, alle Teilnehmer der Vorlesung. Totalerhebung / Teilerhebung Alle Einheiten der Grundgesamtheit werden ber¨ ucksichtigt./ Eine Teilmenge der Grundgesamtheit wird ber¨ ucksichtigt, die aufgrund gewisser Merkmale ausgew¨ahlt wurde. Volksz¨ahlung, EBC-Fragebogen/ Microcensus Stichprobe Teilmenge aus einer Grundgesamtheit, die nach bestimmten Verfahren ausgew¨ahlt wurde. 10 Studierende, die befragt werden. Experiment Erfassung von Daten, die erst erzeugt werden m¨ ussen. Klinische Studien, physikalischer Versuch. Erhebung Erfassung von im Prinzip vorhandenen Daten. Befragung, Beobachtung. Merkmal, Variable Gegenstand der Untersuchung. Geburtsjahr, Gr¨oße, Gewicht, Geschlecht, Lieblingspartei. Merkmalsauspr¨agung Konkrete Realisationen einer Variable, Beobachtung. 1972, 180 cm, 75 kg, weiblich, Die Gr¨ unen. Merkmalstr¨ager Untersuchungseinheiten, an denen die Merkmale erhoben werden. Haushalt A, Fragebogen Person 1. Tabelle 2.3: Statistische Grundbegriffe Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="23"?> 24 Kapitel 2. Deskriptive Statistik 2.2 Das Einstichprobenproblem In diesem Kapitel lernen Sie wie Sie ein Merkmal angemessen analysieren. wie Sie Erkenntnisse aus Tabellen, Maßzahlen und Graphiken ziehen. Ein Merkmal allein soll im Fokus der Betrachtung stehen. Daher k¨onnte dieses Kapitel auch univariate Datenanalyse heißen. Bei jeder Datenanalyse will man den Datensatz ¨ ubersichtlich darstellen. Ist die Anzahl der Beobachtungen gering, so reicht es aus, diese aufzuz¨ahlen. Bei vielen oder sehr vielen Beobachtungen liefert die Aufz¨ahlung keinen ¨ Uberblick ¨ uber die Struktur des Datensatzes. Hier sollten Sie eine Tabelle oder eine Grafik erstellen. Sie werden auf den folgenden Seiten lernen, wie man dabei vorzugehen hat. Es hat sich bew¨ahrt, bei der Vorstellung von Datenanalysekonzepten Daten zu verwenden, die f¨ ur das Publikum eine gewisse Bedeutung haben. Am besten kann dies erreicht werden, wenn Sie vorher per Fragebogen ein paar Daten erheben. Beispielhaft ist ein solcher Fragebogen im Kapitel 6.4 abgedruckt. 2.2.1 H¨aufigkeitsanalyse diskreter Daten Die folgende Tabelle zeigt in aufgelisteter Form die 49 verschiedenen Ergebnisse der Befragung von Studierenden im 2. Semester zum Merkmal Alter. Urliste der L¨ange 49: 20 19 21 21 20 23 23 20 20 19 22 20 19 20 23 31 22 24 21 21 21 23 20 21 21 21 20 21 21 21 19 22 20 22 23 19 20 22 22 21 25 20 20 21 20 24 21 21 21 Rangwertreihe: 19 19 19 19 19 20 20 20 20 20 20 20 20 20 20 20 20 20 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 22 22 22 22 22 22 23 23 23 23 23 24 24 25 31 Tabelle 2.4: Auflistung des Merkmals Alter Und was erkennen Sie? In der oberen Auflistung sicherlich relativ wenig, in dieser Reihenfolge sind die Daten angefallen. Unter Umst¨anden kann man hier R¨ uckschl¨ usse auf die Struktur der Erhebung ziehen, wenn es also bestimmte H¨aufungen von Antworten in der Urliste gibt. Durch Sortieren und geschicktes Teilen, wie in der unteren Auflistung dargestellt, kann man bereits deutlich mehr erkennen. Die j¨ ungere H¨alfte ist mindestens 19, h¨ochstens 21 Jahre alt. Der ¨alteste Student ist 31 Jahre. Eine erste Maßzahl kann Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="24"?> 2.2. Das Einstichprobenproblem 25 abgeleitet werden. Die Zahl 21 teilt den Datensatz in gleich große H¨alften, links und rechts davon liegen 50 % der Beobachtungen. Diese Zahl nennt man auch Median, sie sagt uns, wo das Zentrum der Daten liegt. Der Median wird sp¨ater genauer definiert. Viel mehr l¨asst sich allerdings nicht sagen. Es soll deshalb eine sogenannte H¨aufigkeitstabelle erstellt werden, die diskrete Variante: i x.i n.i h.i F.i ------------------------------- 1 19 5 0.102 0.102 2 20 13 0.265 0.367 3 21 16 0.327 0.694 4 22 6 0.122 0.816 5 23 5 0.102 0.918 6 24 2 0.041 0.959 7 25 1 0.020 0.980 8 31 1 0.020 1.000 ------------------------------- 49 1 Tabelle 2.5: Diskrete H¨aufigkeitstabelle des Merkmals Alter Offensichtlich l¨asst sich mit Hilfe einer solchen Tabelle ein Datensatz gut zusammenfassen. Hier die wichtigsten Interpretationspunkte: Spalte i ist der Index, die verschiedenen Merkmalsauspr¨agungen werden durchgez¨ahlt, diese stehen in der Spalte x.i. Bei mindestens ordinalem Messniveau sind diese von klein nach groß zu sortieren, da ansonsten die Spalte F.i keinen Sinn macht. In der Spalte n.i sind die absoluten H¨aufigkeiten notiert, also wie oft die Merkmalsauspr¨agung i beobachtet wurde. Die Spalte h.i gibt die korrespondierende relative H¨aufigkeit an, also n.i/ n, wobei n die Anzahl aller Beobachtungen ist, das ist gerade die Summe aller n.i. Die Summe aller h.i muss entsprechend 1 ergeben. Die Spalte F.i sind die kumulierten relativen H¨aufigkeiten. Wie viel Prozent der Beobachtungen haben h¨ochstens einen bestimmten Wert angenommen. Dies wird auch als empirische Verteilungsfunktion ˆ F (·) bezeichnet. Eine solche einfache Darstellung erf¨ ullt bereits die Aufgabe der ¨ ubersichtlichen Darstellung eines Datensatzes. Die H¨aufigkeitstabelle sammelt alle verschiedenen Merkmalsauspr¨agungen, z¨ahlt, wie oft jede vorkommt, und stellt das Ergebnis tabellarisch dar. Der Vollst¨andigkeit halber sei hier noch einmal der formale Aufbau einer diskreten H¨aufigkeitstabelle dargelegt: Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="25"?> 26 Kapitel 2. Deskriptive Statistik Index Merkmalsauspr¨agung abs. H¨aufigkeit rel. H¨aufigkeit kum.rel. H¨aufigkeit i X i n i h i = n i n F i = ∑ i j=1 h j 1 X 1 n 1 h 1 = n 1 n F 1 = h 1 2 X 2 n 2 h 2 = n 2 n F 2 = h 1 + h 2 ... ... ... ... ... k X k n k h k = n k n F k = 1 Tabelle 2.6: Der Aufbau einer diskreten H¨aufigkeitstabelle Mit Hilfe der H¨aufigkeitstabelle k¨onnen Anteilsfragen gestellt werden - und mit Hilfe der passenden Spalte schnell beantwortet werden: Wie viel Prozent der Befragten sind genau 20 Jahre alt? 13 / 49 ←→ h 2 = 26 . 5% Wie viel Prozent der Befragten sind h¨ochstens 20 Jahre alt? (5 + 13) / 49 ←→ F 2 = 36 . 7% Wie viel Prozent der Befragten sind ¨alter als 20 Jahre? (16 + 6 + 5 + 2 + 1 + 1) / 49 ←→ 1 − F 2 = 100% − 36 . 7% = 63 . 3% Abbildung 2.2: Stabdiagramm des Merkmals Alter Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="26"?> 2.2. Das Einstichprobenproblem 27 Die passende Graphik zur angemessenen Darstellung einer diskreten H¨aufigkeitstabelle ist das sogenannte Stabdiagramm. ¨ Uber der Merkmalsachse, in der Regel die horizontale Achse, werden St¨abe proportional zur relativen H¨aufigkeit abgetragen. Werden die St¨abe etwas dicker gezeichnet, kann man das Ganze auch allgemein als S¨aulendiagramm bezeichnen, dreht man es um 90 ◦ im Uhrzeigersinn, ist es ein Balkendiagramm. Die Konstruktion eines Stabdiagramms ist sehr einfach, wie Sie in der Abbildung 2.2 gut sehen k¨onnen. Dort kann man auch gut per Augenmaß eine weitere Maßzahl zur (zentralen) Lage erkennen, den sogenannten Modus: Welches ist die h¨aufigste Beobachtung. Das ist nat¨ urlich gerade die Merkmalsauspr¨agung, ¨ uber der der h¨ochste Stab abgetragen wurde. Im Beispiel ist das die 21. Maßzahlen verdichten die Daten zu einer pr¨agnanten Aussage, zum Beispiel zur Lage. Wie alt sind denn typischerweise Studierende im 2. Semester! Nat¨ urlich kann diese Erkenntnis auch direkt aus der Tabelle gewonnen werden, aber nicht so unmittelbar: Ein Bild sagt mehr als 1000 Worte! Auch die letzte Spalte, die F.i, k¨onnen graphisch dargestellt werden (vgl. Abbildung 2.3). Dabei handelt es sich um einen einfachen Linienzug, wobei die horizontale Achse die Merkmalsachse ist und die vertikale Achse die Anteile abbildet. Abbildung 2.3: Empirische Verteilungsfunktion (diskret) des Merkmals Alter Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="27"?> 28 Kapitel 2. Deskriptive Statistik Im diskreten Fall ist die empirische Verteilungsfunktion allerdings nicht sehr aussagekr¨aftig, sie soll hier der Vollst¨andigkeit halber mitgeliefert werden. Im stetigen Fall ist sie sehr wichtig, im diskreten Fall bedeutet sie im Grunde keinen Mehrwert, keine Erleichterung. Aus der Definition ergibt sich folgende formale Definition f¨ ur die empirische Verteilungsfunktion: Definition 2.1: Empirische Verteilungsfunktion ˆ F ( x ) = Anzahl der Beobachtungen ≤ x Anzahl der Beobachtungen Selbstverst¨andlich gibt es weitere M¨oglichkeiten, Ergebnisse einer diskreten H¨aufigkeitstabelle darzustellen. Was halten Sie zum Beispiel vom Tortendiagramm in Abbildung 2.4? Dazu ein Hinweis: Sobald Sie es mit mindestens ordinalem Messniveau zu tun haben, ist das Tortendiagramm eher ungeeignet. Eine sehr geeignete Variante des Stabdiagramms zur Darstellung der Altersverteilung in einer Bev¨olkerung ist die sogenannte Alterspyramide. Die Alterspyramide ist ein spezielles Balkendiagramm (= gedrehtes Stabdiagramm), das den geschlechtsspezifischen Altersaufbau der Bev¨olkerung eines Landes zu einem bestimmten Zeitpunkt graphisch darstellt. F¨ ur ausgew¨ahlte Zeitpunkte sind die Alterspyramiden f¨ ur die Bundesrepublik Deutschland in Abbildung 2.5 dargestellt. Abbildung 2.4: Tortendiagramm des Merkmals Alter Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="28"?> 2.2. Das Einstichprobenproblem 29 Abbildung 2.5: Alterspyramide der Bundesrepublik Deutschland Auf der horizontalen Achse ist jeweils die absolute Anzahl an M¨annern (nach links abgetragen) bzw. an Frauen (nach rechts) abzulesen. Die Altersklassen werden durch die vertikale Achse dargestellt. Je l¨anger ein Balken, desto mehr Frauen bzw. M¨anner sind in einer Altersklasse vertreten. Verfolgen Sie einmal genau die Verwandlung von einer (perfekten) Pyramide zu einer etwas unf¨ormigen Urne. Das Aussehen verr¨at n¨amlich etwas ¨ uber den Zustand der Bev¨olkerung: Wachsende Bev¨olkerung: pyramidenf¨ormig Station¨are Bev¨olkerung: glockenf¨ormig Schrumpfende Bev¨olkerung: spindel- / urnenf¨ormig Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="29"?> 30 Kapitel 2. Deskriptive Statistik Ein paar Stichworte zur Kontextinterpretation: Die Alterspyramiden verraten viel ¨ uber die deutsche Bev¨olkerung. Die im Ersten Weltkrieg gefallenen Soldaten sowie die Geburtenausf¨alle und die Weltwirtschaftskrise sind klar zu erkennen. Gleiches gilt f¨ ur den Zweiten Weltkrieg und seine Folgen. Kurz gefasst! Wenn Daten diskret sind, dann k¨onnen Sie durch einfaches Z¨ahlen der Beobachtungen erste Erkenntnisse gewinnen. Dabei helfen Ihnen H¨aufigkeitstabellen, Stabdiagramme, Verteilungsfunktionen, Tortendiagramme und der Modus. H¨aufigkeiten k¨onnen Sie bei nahezu jeder Datenlage bilden, ggf. gehen Ihnen dabei allerdings wichtige Erkenntnisse verloren (vgl. Kapitel 2.1 Eine kleine Datenkunde ). 2.2.2 H¨aufigkeitsanalyse stetiger Daten In diesem Kapitel lernen Sie wie Sie ein stetiges Merkmal durch H¨aufigkeitsanalyse auswerten k¨onnen. welche Hilfsmittel Ihnen daf¨ ur zur Verf¨ ugung stehen. Der ¨ Ubergang von einer diskreten zu einer stetigen Datenlage ist fließend. Man kann hier nicht ausschließlich eine formale Definition heranziehen, welche nat¨ urlich eine eindeutige Unterscheidung dieser beiden M¨achtigkeiten vornimmt. Wie Sie bereits sehen konnten, war die diskrete Betrachtung des (eigentlich) stetigen Merkmals Alter durchaus angemessen, denn Zeit verl¨auft kontinuierlich. Alter in Jahren kommt da doch eher wie eine diskretisierte Version daher. Umgekehrt funktioniert das allerdings auch. Verd¨achtig sind diskrete Merkmale, die viele verschiedene Merkmalsauspr¨agungen aufweisen, welche d¨ unn besetzt sind. Schauen Sie sich das Merkmal Anzahl B¨ucher an, das offensichtlich diskret ist, denn zwischen ein und zwei B¨ uchern liegt nichts. Die Studierenden wurden gebeten abzusch¨atzen, wie viele B¨ ucher sie besitzen. Zun¨achst einmal sei nur die diskrete H¨aufigkeitstabelle abgebildet. Hilft diese Transformation des Datensatzes weiter? Wissen Sie, was prominente Zahlen sind? Was w¨ urden Sie sch¨atzen, wie viele B¨ ucher Sie besitzen, 53? Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="30"?> 2.2. Das Einstichprobenproblem 31 i x.i n.i h.i F.i ------------------------------- 1 0 1 0.020 0.020 2 4 1 0.020 0.041 3 6 1 0.020 0.061 4 10 2 0.041 0.102 5 15 4 0.082 0.184 6 20 6 0.122 0.306 7 25 1 0.020 0.327 8 30 7 0.143 0.469 9 50 5 0.102 0.571 10 60 2 0.041 0.612 11 70 3 0.061 0.673 12 80 2 0.041 0.714 13 90 1 0.020 0.735 14 100 6 0.122 0.857 15 150 1 0.020 0.878 16 200 3 0.061 0.939 17 300 3 0.061 1.000 Tabelle 2.7: Diskrete H¨aufigkeitstabelle Merkmal Anzahl B¨ ucher Diese zusammenfassende Darstellung scheint nicht der Weisheit letzter Schluss zu sein. Man bekommt keine ¨ Ubersicht ¨ uber die Daten, es f¨allt sogar schwer, auf Anhieb zu sagen, wie viele B¨ ucher im Schnitt die Studierenden denn meinen zu besitzen. Die L¨osung: Bilden Sie Klassen, in die Sie die Merkmalsauspr¨agungen einsortieren. Die folgende Tabelle ist eine klassierte oder stetige H¨aufigkeitstabelle des Merkmals Anzahl B¨ ucher. i ug og n.i h.i F.i -------------------------------- 1 0 50 28 0.571 0.571 2 50 100 14 0.286 0.857 3 100 150 1 0.020 0.878 4 150 200 3 0.061 0.939 5 200 250 0 0.000 0.939 6 250 300 3 0.061 1.000 -------------------------------- 49 1 Tabelle 2.8: Klassierte H¨aufigkeitstabelle Merkmal Anzahl B¨ ucher Diese Darstellung ist angemessen. Der Datensatz wird gewinnbringend zusammengefasst. Welche Klassengrenzen Sie w¨ahlen, ist ¨ ubrigens vollkommen kontextabh¨angig. Sie sollten allerdings bem¨ uht sein, die Klassen ¨aquidistant, das heißt gleichbreit, zu gestalten, das macht die Darstellung und Interpretation einfacher. Das macht allerdings nicht immer Sinn, wie Sie sp¨ater sehen werden. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="31"?> 32 Kapitel 2. Deskriptive Statistik In der Regel z¨ahlt die Untergrenze einer Klasse nicht zur Klasse mit dazu. Ein Student mit 50 B¨ uchern f¨allt also in die 1. Klasse - g¨abe es jemanden mit 50.00001 B¨ uchern, dann w¨are das die 2. Klasse. Das gibt es nat¨ urlich nicht. Das liegt aber nur daran, dass ein eigentlich diskretes Merkmal als stetiges behandelt wird. Bei echten stetigen Merkmalen ist das denkbar. Daher z¨ahlt die Untergrenze nicht mit dazu. Hier gleich die Ausnahme von der Regel: In der 1. Klasse selber ist das meist anders. Ein Student mit 0 B¨ uchern f¨allt ebenfalls in die 1. Klasse. Das hat ¨asthetische Gr¨ unde. Im Beispiel m¨ usste die (neue) 1. Klasse sonst von -50 bis zur 0 reichen. Das macht keinen Sinn, daher l¨asst man es. Finden Sie eigentlich F 1 = 0 . 571 aus der klassierten Tabelle 2.8 auch in der diskreten Version in Tabelle 2.7 wieder? Falls ja, dann sehen Sie sch¨on die verdichtende Wirkung einer Klassierung. Der Vollst¨andigkeit halber ist im Folgenden noch der allgemeine Aufbau einer stetigen H¨aufigkeitstabelle dargelegt. Die Spalte Δ X i ist in der Beispieltabelle 2.8 nicht aufgef¨ uhrt. Das ist die Klassenbreite, definiert als Obergrenze minus Untergrenze, da m¨ usste immer eine 50 stehen. i U G i < X ≤ OG i n i h i Δ X i F i 1 U G 1 ≤ X ≤ OG 1 n 1 h 1 Δ X 1 F 1 = h 1 2 U G 2 < X ≤ OG 2 n 2 h 2 Δ X 2 F 2 = h 1 + h 2 3 U G 3 < X ≤ OG 3 n 3 h 3 Δ X 3 F 3 = h 1 + h 2 + h 3 ... ... ... ... ... ... k U G k < X ≤ OG k n k h k Δ X k F k = 1 Tabelle 2.9: Der Aufbau einer stetigen H¨aufigkeitstabelle Im Folgenden ist f¨ ur Sie die grunds¨atzliche Nomenklatur einer klassierten H¨aufigkeitstabelle aufgeschrieben, so dass Sie eine genaue Vorstellung von allen Begrifflichkeiten haben. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="32"?> 2.2. Das Einstichprobenproblem 33 i Der Index z¨ahlt die verschiedenen Klassen durch. X steht f¨ ur das Merkmal U G i Untergrenze der i -ten Klasse. Es gilt: U G i < U G i+1 OG i Obergrenze der i -ten Klasse. Es gilt: OG i < OG i+1 n i absolute H¨aufigkeit in der i -ten Klasse — Wie viele Beobachtungen fallen in die i -te Klasse? h i relative H¨aufigkeit in der i -ten Klasse — Wie viel Prozent der Beobachtungen liegen in der i -ten Klasse? Δ X i Klassenbreite der i -ten Klasse: Δ X i = OG i − U G i F i kumulierte relative H¨aufigkeit (empirische Verteilungsfunktion) k Anzahl der verschiedenen Klassen ∑ k i=1 n i = n Die Summe aller Einzelh¨aufigkeiten ergibt die Gesamth¨aufigkeit. ∑ k i=1 h i = 1 Wenn man alle Beobachtungen ber¨ ucksichtigt, kommt man auf 100 % . Tabelle 2.10: Nomenklatur einer stetigen H¨aufigkeitstabelle Nat¨ urlich kann auch Alter als stetiges Merkmal aufgefasst und so behandelt werden, schließlich ist es ja streng genommen eines. Sehen Sie sich einmal die folgenden Tabellen an - und was ist besser stetig vs. diskret und 7 Klassen vs. 4 Klassen: i ug og n.i h.i F.i i ug og n.i h.i F.i ------------------------------- ------------------------------ 1 18 20 18 0.367 0.367 1 19 22 40 0.816 0.816 2 20 22 22 0.449 0.816 2 22 25 8 0.163 0.980 3 22 24 7 0.143 0.959 3 25 28 0 0.000 0.980 4 24 26 1 0.020 0.980 4 28 31 1 0.020 1.000 5 26 28 0 0.000 0.980 6 28 30 0 0.000 0.980 7 30 32 1 0.020 1.000 Tabelle 2.11: Klassierte H¨aufigkeitstabellen des Merkmals Alter Das stetige Pendant zum Stabdiagramm ist das Histogramm. Die relativen H¨aufigkeiten werden hier per Balken ¨ uber jeder Klasse graphisch dargestellt. Entscheidend ist, ob alle Klassen die gleiche Breite aufweisen oder nicht. Ist dem so, dann ist die Graphik im Prinzip wie das Stabdiagramm zu interpretieren. In Abbildung 2.6 ist das Histogramm von Anzahl B¨ ucher im ¨aquidistanten Fall dargestellt (Tabelle 2.8). Auf der vertikalen Achse ist zun¨achst einmal die absolute H¨aufigkeit (= frequency) abgetragen, die Verwendung der relativen H¨aufigkeit h¨atte lediglich eine Umskalierung der y-Achse zur Folge. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="33"?> 34 Kapitel 2. Deskriptive Statistik Abbildung 2.6: Histogramm Anzahl B¨ucher Im nicht-¨aquidistanten Fall ist es ein klein wenig komplizierter, wie das folgende Beispiel illustriert. In Abbildung 2.7 sei die Punkteverteilung von 0 - 100, die Studierende in einer bestimmten Klausur erreicht haben, als Histogramm dargestellt. Die horizontale Achse ist die Punkteachse, jeder kleine Stern ist ein konkretes Ergebnis. Die Noten werden durch Klassenbildung ¨ uber den Punkten ermittelt Dabei sind alle Klassen genau 5 Punkte breit, bis auf die erste. Zwischen 0 und 49 Punkten gibt es die Note 5. ¨ Uber jeder Klasse ist die relative H¨aufigkeit in Prozent notiert. Die am h¨aufigsten besetzte Klasse ist die 1. mit der Note 5. Diese hat den mit Abstand niedrigsten Balken. Ist das korrekt? Stellen Sie sich einmal vor, die Bal- Abbildung 2.7: Histogramm Beispiel unterschiedliche Klassengr¨oßen Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="34"?> 2.2. Das Einstichprobenproblem 35 kenh¨ohe w¨ urde der relativen H¨aufigkeit entsprechen. Ein riesiges Rechteck w¨ urde das Bild beherrschen, und Sie w¨ urden einen ziemlich falschen Eindruck von der Datenlage, also dem Ergebnis der Klausur bekommen. Es stimmt, die meisten Ergebnisse liegen zwischen 0 und 49 Punkten, aber diese Klasse ist 10 Mal so breit wie alle anderen Klassen. Die Punkte liegen weit auseinander in der 1. Klasse. Man kann nicht davon sprechen, dass in dieser Klasse mehr los ist als in den anderen. Schauen Sie sich nur die Lage der Punkte an. Das Histogramm stellt graphisch dar, wie dicht die Punkte in einem bestimmten Intervall beieinanderliegen. Auf der vertikalen Achse wird daher die sogenannte H¨aufigkeitsdichte abgetragen. Diese ist das Verh¨altnis von relativer H¨aufigkeit zur Klassenbreite. Damit ist auch klar, warum bei ¨aquidistanten Klassen einfach die relative H¨aufigkeit abgetragen werden kann: Alle diese werden durch dieselbe Zahl geteilt. Die Verwendung der absoluten H¨aufigkeit im Histogramm oder auch im Stabdiagramm ist nur dann sinnvoll, wenn nicht verschiedene Datens¨atze bez¨ uglich ihrer Verteilung miteinander verglichen werden sollen. Denn das ist die Aufgabe relativer Zahlen. Definition 2.2: Histogramm ¨ Aquidistante Klassen - identische Klassenbreiten: ¨ Uber jeder Klasse wird ein Rechteck abgetragen, dessen H¨ohe entweder der absoluten oder der relativen H¨aufigkeit entspricht, je nachdem was man auf der vertikalen Achse abtragen m¨ochte. Nicht-¨aquidistante Klassen: Wenn nicht alle Klassen die gleiche Breite haben, dann kann man nicht einfach die relative H¨aufigkeit nach oben abtragen. Dies w¨ urde zu einer verzerrten Darstellung f¨ uhren. ¨ Uber jeder Klasse wird ein Rechteck mit folgender H¨ohe abgetragen — es wird f¨ ur jede Klasse die sogenannte H¨aufigkeitsdichte ˆ f i berechnet: ˆ f i = h i Δ X i Auf diese Weise entspricht die Fl¨ache jedes Rechtecks genau der relativen H¨aufigkeit in der Klasse. So wird eine sehr breite Klasse, in der genau so viele Beobachtungen liegen wie in einer sehr schmalen Klasse, entsprechend ein Rechteck mit geringer H¨ohe bekommen, dagegen die sehr schmale Klasse ein hohes Rechteck. Somit ist auch die Bezeichnung H¨aufigkeitsdichte gut zu interpretieren. Zu ˆ f (sprich ”f Dach“): Durch das Dach-Symbol werden sehr oft empirische Befunde charakterisiert. Der Vollst¨andigkeit halber sei an dieser Stelle erw¨ahnt, dass es nat¨ urlich auch einen klassierten Modus gibt. Er ist definiert als Klassenmitte - ( OG + U G ) / 2 - der am h¨aufigsten besetzten Klasse. Es gibt kompliziertere Definitionen, die sollen Sie an dieser Stelle aber nicht kennenlernen. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="35"?> 36 Kapitel 2. Deskriptive Statistik Im stetigen Fall hat die empirische Verteilungsfunktion eine große Bedeutung. Die folgende Definition zeigt zun¨achst einmal, wie aus einer klassierten Tabelle jene ermittelt werden kann. Die anschließende Abbildung 2.8 stellt die diskrete der stetigen Variante f¨ ur das Beispiel Alter einmal gegen¨ uber. Definition 2.3: Empirische Verteilungsfunktion klassierte Daten ˆ F ( x ) = ⎧ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎩ 0 f¨ ur x < U G 1 ˆ F ( U G i ) + ( x − U G i ) · ˆ f i U G i < x ≤ OG i 1 f¨ ur x > U G k Dabei ist ˆ f i die H¨aufigkeitsdichte in der i-ten Klasse, in welcher gerade x liegt. Die ¨ Ahnlichkeit ist deutlich, einmal als Treppenfunktion einmal als Linienzug. Anhand der Graphik wird aber auch deutlich, dass diese stetige Version der empirischen Verteilungsfunktion eine Annahme trifft bzw. treffen muss. Es wird Gleichverteilung innerhalb einer Klasse unterstellt, was dazu f¨ uhrt, dass zwei aufeinanderfolgende Werte von F.i mit einer Gerade verbunden werden k¨onnen, da sich laut Annahme die Beobachtungen gleichm¨aßig innerhalb der Klasse verteilen. Im Folgenden soll anhand des Merkmals Gr¨oße in cm beispielhaft aufgezeigt werden, wie mit der empirischen Verteilungsfunktion gerechnet werden kann. Tabelle 2.12 zeigt zun¨achst die H¨aufigkeitstabelle. Abbildung 2.8: Empirische Verteilungsfunktion Alter - diskret vs. stetig Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="36"?> 2.2. Das Einstichprobenproblem 37 i ug og n.i h.i F.i f.i -------------------------------------- 1 155 160 1 0.020 0.020 0.004 2 160 165 8 0.163 0.184 0.033 3 165 170 6 0.122 0.306 0.024 4 170 175 8 0.163 0.469 0.033 5 175 180 11 0.224 0.694 0.045 6 180 185 9 0.184 0.878 0.037 7 185 190 5 0.102 0.980 0.020 8 190 195 1 0.020 1.000 0.004 Tabelle 2.12: Klassierte H¨aufigkeitstabelle des Merkmals Gr¨oße in cm Wie groß ist der Anteil der Studierenden, die h¨ochstens 178 cm groß sind? Was ist also der Wert f¨ ur ˆ F (178) berechnet auf Basis von Tabelle 2.12? Nat¨ urlich kann man an dieser Stelle darauf hinweisen, doch bitte in die Daten zu schauen und durchzuz¨ahlen. Aber es ist durchaus nicht unrealistisch, dass nur transformierte Daten zum Beispiel in Form einer H¨aufigkeitstabelle zur Verf¨ ugung stehen. Denken Sie an ver¨offentlichte Daten des Statistischen Bundesamtes oder des Bundeswirtschaftsministeriums. Graphisch l¨asst sich die Antwort sowohl mit Hilfe des Histogramms als auch mit der empirischen Verteilungsfunktion leicht finden. Im Fall des Histogramms m¨ ussen nur die Fl¨achenst¨ ucke bis zur Stelle 178 cm aufaddiert werden, im Fall der Verteilungsfunktion ist der Funktionswert an der vertikalen Achse abzulesen. In der Abbildung 2.9 ist dies einmal dargestellt. Nun ist auch klar, warum die Buchstaben f bzw. F verwandt wurden. Letztere ist nat¨ urlich die Fl¨achenfunktion, also im Prinzip die Stammfunktion - hier nat¨ urlich noch nicht im Sinne der Analysis. Abbildung 2.9: Verteilungsfunktion und Histogramm Gr¨oße Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="37"?> 38 Kapitel 2. Deskriptive Statistik Mit Hilfe der Tabelle 2.12 k¨onnen Sie den Wert auch ausrechnen. Dazu soll die Formel aus Definition 2.3 verwandt werden. Die gesuchte Gr¨oße, 178 cm, liegt in der 5. Klasse - die Wirkungsweise der Formel k¨onnen Sie genau am Histogramm nachvollziehen: ˆ F (178) = ˆ F (175) + (178 − 175) · ˆ f 5 = 0 . 469 + 3 · 0 . 045 ˆ F (178) = 0 . 604 Aufgrund der Konstellation in der klassierten H¨aufigkeitstabelle und nat¨ urlich unter der erw¨ahnten Annahme der Gleichverteilung in jeder Klasse ergibt sich, dass 60.4 % der befragten Studierenden h¨ochstens 178 cm groß sind. Kurz gefasst! Wenn Daten stetig sind, k¨onnen Sie auch - wie bei diskreten Daten - erste Erkenntnisse durch das einfache Z¨ahlen der Beobachtungen ziehen. Dabei helfen Ihnen stetige H¨aufigkeitstabellen, Histogramme, Empirische Verteilungsfunktionen und der klassierte Modus. Klassen k¨onnen Sie bei nahezu jeder Datenlage bilden. Achten Sie aber darauf, dass Sie durch die Klassenbildung keine Erkenntnisse verlieren. 2.2.3 Analyse der Urliste In diesem Kapitel lernen Sie wie Sie ¨ uber die einfache H¨aufigkeitsanalyse hinaus Erkenntnisse aus Daten gewinnen k¨onnen. wie Sie die konkreten Realisationen der Daten analysieren k¨onnen. welche Hilfsmittel Ihnen daf¨ ur zur Verf¨ ugung stehen. Die Urliste beinhaltet die Daten in der Form, in der sie angefallen sind, und nicht transformiert. Bei einer Transformation gehen notwendigerweise Informationen verloren. Sie k¨onnen in der Regel mehr Erkenntnisse aus den Daten ziehen, wenn ein entsprechendes Skalenniveau vorliegt. Tabelle 2.13 definiert daf¨ ur ein paar grunds¨atzliche Begrifflichkeiten. Das Vorgehen soll im Geiste der EDA, der explorativen Datenanalyse verstanden werden, die John Tukey bereits in den 1970er Jahren auf den Weg gebracht hat. Er hat sich stets die Fragen gestellt: Welche Geschichte erz¨ahlen die Daten und was kann mit ihnen herausgefunden werden? Bevor Sie sich auf die Suche nach mehr oder minder komplizierten Modellen und Methoden machen, sollten Sie eine gr¨ undliche Datenexploration mit Hilfe von Gra- Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="38"?> 2.2. Das Einstichprobenproblem 39 X Allgemeine Bezeichnung f¨ ur das Merkmal. n Stichprobenumfang — bei n Personen wurde das Merkmal erhoben. x i i-te Beobachtung vom Merkmal X. Die i-te Person hat gerade x i angegeben. i = 1 , 2 , . . . , n Der Index i durchl¨auft alle Nummern von 1 bis n, da n Daten erhoben wurden. x (1) Dies ist die kleinste Beobachtung. x ( n ) Dies ist die gr¨oßte Beobachtung. x ( i ) , i = 1 . . . n Dies bezeichnet die Rangwertreihe, also den geordneten Datensatz. Tabelle 2.13: Nomenklatur f¨ ur Daten aus der Urliste phiken und Maßzahlen durchf¨ uhren. Nur wenn Sie die Daten verstanden haben, k¨onnen Sie daraus Erkenntnisse im induktiven Sinne gewinnen. Die erste und einfachste M¨oglichkeit, sich ein Bild von den Daten zu machen, ist der sogenannte Dotplot. Abbildung 2.10 zeigt zwei Dotplots des Merkmals Alter. Die Merkmalsachse ist die horizontale Achse. Auf der vertikalen Achse wird in diesem Fall lediglich der Index abgetragen. Was meinen Sie, ist der Unterschied in den beiden Graphiken? Hinweis: In der Tabelle 2.13 finden Sie zwei verschiedene M¨oglichkeiten, die Merkmalsauspr¨agungen zu notieren. Abbildung 2.10: Dotplot des Merkmals Alter Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="39"?> 40 Kapitel 2. Deskriptive Statistik Anhand des Dotplots k¨onnen Sie bereits gut die Struktur, die Verteilung der Daten auf der Merkmalsachse erkennen. Existieren H¨aufungen, gibt es Ausreißer, wo liegen die meisten Beobachtungen, wo ist das Zentrum? Mit Hilfe des Dotplots bekommen Sie erste Antworten auf diese Fragen. Lagemaßzahlen Diese Antworten sollen quantifiziert werden, also im Sinne XY Jahre sind der Durchschnitt. Die ersten Maßzahlen sollen definiert werden, zun¨achst folgende Zentrale Maßzahlen zur Lage: Mittelwert Median Modus Midrange. Diese verraten Ihnen, wo auf der Werteachse der Datensatz liegt. Maßzahlen aggregieren, sie fassen zusammen und verdichten. Das macht es einfacher, eine schnelle Aussage in Bezug auf die Daten zu erhalten. Aber Sie m¨ ussen auch aufpassen, denn wo verdichtet wird, da verlieren Sie Erkenntnisse. Bevor Sie allerdings anfangen, zum Beispiel einen Mittelwert zu berechnen, ist es immer geboten, einmal ¨ uber die Sinnhaftigkeit des Unterfangens nachzudenken: Mittelwert aus -5 und 45? Hier sollten Sie nicht einfach die 20 als Antwort geben. Es empfiehlt sich dringend, zun¨achst einmal nach dem Kontext der Daten zu fragen. Erinnern Sie sich noch an die Statistik-Definition von Moore auf der Seite 14? Wenn das getan ist, dann k¨onnen Sie rechnen. Die Definitionen und Eigenschaften der vier genannten Maßzahlen sollen vorgestellt und vorgerechnet werden. Die Maßzahlen sind gem¨aß ihrer Bedeutung sortiert. Es liegen Daten vom Umfang n vor; die einzelnen Merkmalsauspr¨agungen sind x i , das heißt x 1 wurde zuerst beobachtet, x n als letztes; die Rangwertfolge ist x ( i ) , das heißt x (1) ist stets die kleinste, x ( n ) die gr¨oßte Beobachtung. Exkurs zur Motivation: Das Summenzeichen Das klingt zun¨achst einmal nicht sehr spaßig. Mal sehen. Dem kleinen Gauß (1777-1855) wurde in der Schule, als neunj¨ahrigem Sch¨ uler die Aufgabe gegeben, die Zahlen 1 , . . . , 100 aufzuaddieren, wenig spaßig. (So ganz genau ist die Geschichte nicht ¨ uberliefert, aber prinzipiell kann es so gewesen sein, vgl. [Satorius1856] S. 12f.) Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="40"?> 2.2. Das Einstichprobenproblem 41 Als Summenformel - Summe der ersten 100 nat¨ urlichen Zahlen: 100 ∑ i =1 i = 1 + 2 + 3 + . . . + 98 + 99 + 100 = S Gauß hat es wohl so hingeschrieben, als Neunj¨ahriger wohlgemerkt: 1 +2 +3 +... +98 +99 +100 = S 100 +99 +98 + ... +3 +2 +1 = S 101 +101 +101 + ... +101 +101 +101 = 2S Die allgemeing¨ ultige Struktur ist gut zu erkennen, wenn man 100-mal die 101 aufaddiert - bzw. n-mal ( n + 1) -, dann kommt gerade das Doppelte der eigentlichen Summe heraus, daher gilt allgemein die Gaußsche Summenformel (auch kleiner Gauß genannt): n ∑ i =1 i = n · ( n + 1) 2 Ferner gelten unter anderem diese Eigenschaften, die Sie noch brauchen werden: 10 ∑ i =1 1 = 1 + 1 + . . . + 1 ︸ ︷︷ ︸ 10 mal = 10 k ∑ i =1 n i = n 1 + n 2 + . . . + n k 10 ∑ i =1 i 2 = 1 2 + 2 2 + 3 2 + 4 2 + 5 2 + 6 2 + 7 2 + 8 2 + 9 2 + 10 2 = Formel? 10 ∑ i =1 n · i = n · 10 ∑ i =1 i 10 ∑ i =1 (10 + n · i ) = n · 10 + n · 10 ∑ i =1 i Arithmetisches Mittel: Vermutlich haben Sie schon einmal den Durchschnitt von verschiedenen Zahlen errechnet. Umgangssprachlich ist damit das arithmetische Mittel gemeint, welches eine Maßzahl f¨ ur die zentrale Lage ist. ¨ Ublicherweise wird ¯ x als Symbol verwandt und es ist folgendermaßen definiert: Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="41"?> 42 Kapitel 2. Deskriptive Statistik Definition 2.4: Arithmetisches Mittel ¯ x = 1 n n ∑ i =1 x i = x 1 + x 2 + . . . + x n n (sprich: ”x quer“) Es werden also alle Beobachtungen aufaddiert, die Summe wird durch die Anzahl der Beobachtungen geteilt. In der folgenden Auflistung sind die wichtigsten Eigenschaften und Interpretationen notiert: Es wird ein kardinales Messniveau ben¨otigt (die Summe muss Sinn machen, vgl. Aufgaben 10 bzw. 11: harmonisches und geometrisches Mittel). Der Mittelwert ist derjenige Wert, den jede Beobachtung annehmen w¨ urde, wenn die Summe der Beobachtungen gleichm¨aßig verteilt w¨are (Beispiel: Einkommen! ). Der Mittelwert kann als Gleichgewichtspunkt bei einer Waage aufgefasst werden, links und rechts von ihm befinden sich identische Summen von Abst¨anden zum Zentrum - nur mit unterschiedlichem Vorzeichen: n ∑ i =1 ( x i − ¯ x ) = 0 → Arithmetische Interpretation: Das arithmetische Mittel zweier Zahlen x und y ist diejenige Zahl m, f¨ ur die gilt m − x = y − m Der Mittelwert hat die Eigenschaft der Linearit¨at: z i = a + b · x i ⇒ ¯ z = a + b · ¯ x Beispiel: Durchschnittstemperatur. Wenn Sie Temperaturen in Grad Celsius vorliegen haben (C i ) und die Durchschnittstemperatur in Grad Fahrenheit wissen m¨ochten (F i ), dann k¨onnen Sie ¯ C ausrechnen und in die Beziehungsformel einsetzen: F i = C i · 9 / 5 + 32 → ¯ F = ¯ C · 9 / 5 + 32 Der Mittelwert ist ausreißerempfindlich. Der Mittelwert l¨asst sich von extremen Werten an den R¨andern stark beeinflussen. Da diese Maßzahl vor allem von der Gr¨oße der Summe abh¨angt, ist es klar, dass bereits einzelne sehr große Werte die Summe stark beeinflussen k¨onnen. Die Summe wird in Richtung des Ausreißers gezogen (vgl. dazu die Abbildung 2.12). Die Differenz ist der entscheidende Unterschied zwischen zwei Merkmalsauspr¨agungen. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="42"?> 2.2. Das Einstichprobenproblem 43 An der folgenden Darstellung 2.11 k¨onnen Sie sehr sch¨on erkennen, wie der Mittelwert durch das gleichm¨aßige Verteilen der Summen alles gl¨attet. Der Mittelwert ist ein Gleichmacher. Besonderheiten, Ecken und Kanten - durch jede Verdichtung gehen Informationen verloren - gehen dabei verloren — es wurden die durchschnittlichen Grauwerte der 16 Gesichter gebildet: Abbildung 2.11: Durchschnittsgesicht - Mittelwert Neben dem arithmetischen Mittel gibt es zwei Formen. 1. Das sogenannte gewichtete arithmetische Mittel sieht unterschiedliche Gewichtungen der einzelnen aufzuaddierenden Merkmalsauspr¨agungen vor. Im Grunde ist das ganz normale arithmetische Mittel auch ein gewichtetes, allerdings mit dem immer gleichen Gewicht f¨ ur alle x i , n¨amlich 1 / n, denn es gilt (vgl. Exkurs Seite 41): 1 n n ∑ i =1 x i = n ∑ i =1 ( 1 n · x i ) Jedes x i gibt es genau 1-mal in der Stichprobe. Wenn aber zum Beispiel bei n verschiedenen Datens¨atzen der gleichen Grundgesamtheit mit verschiedenen Stichprobenumf¨angen w i der Mittelwert ¯ x i jeweils bekannt ist, dann kann mit Hilfe des gewichteten arithmetischen Mittels das Gesamtmittel ¯ x g berechnet werden - die Gewichte f¨ ur zum Beispiel jede Stichprobe i sind somit jeweils w i / ∑ n i =1 w i : Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="43"?> 44 Kapitel 2. Deskriptive Statistik Definition 2.5: gewichtetes arithmetisches Mittel ¯ x g = n ∑ i =1 w i · ¯ x i ∑ n i =1 w i Vergleichen Sie dazu die Aufgabe 12 in der Aufgabensammlung. Als 2. sei das getrimmte arithmetische Mittel erw¨ahnt - ohne es allerdings exakt zu definieren. Es ist ausreichend, wenn Sie die Idee verstehen. Wie Sie bereits wissen, ist das arithmetische Mittel sehr ausreißerempfindlich. Eine M¨oglichkeit, die Problematik zu eliminieren und dennoch diesen Mittelwert zu benutzen (das arithmetische Mittel hat theoretische Eigenschaften, die es zum Teil unverzichtbar machen), ist es, einen bestimmten Prozentsatz, zum Beispiel α = 0 . 05 = 5 % (sprich Alpha), an den R¨andern des geordneten Datensatzes bei der Berechnung des arithmetischen Mittels einfach wegzulassen. Die 5 % gr¨oßten und die 5 % kleinsten Beobachtungen werden gestrichen, anschließend wird das arithmetische Mittel berechnet. Dieses heißt dann 5 % getrimmtes arithmetisches Mittel. Median (Zentralwert): Der Median ist als Maßzahl zu Beginn des Kapitels bereits intuitiv eingef¨ uhrt worden (vgl. S. 25). Der sortierte Datensatz wird durch ihn in zwei gleichgroße H¨alften geteilt. Definition 2.6: Median x 0 . 5 = ⎧ ⎨ ⎩ x ( n+1 2 ) f¨ ur n ungerade 1 2 · ( x ( n 2 ) + x ( n 2 +1) ) f¨ ur n gerade Es wird mindestens ein ordinales Messniveau ben¨otigt, da die Beobachtungen sortiert werden m¨ ussen. Links und rechts vom Median liegen 50 % der Daten, also gleich viele Beobachtungen. Der Median wird daher auch 50 %-Punkt genannt. Der Median teilt den Datensatz in zwei gleich große H¨alften. Daran l¨asst sich auch ganz gut eine Vergleichbarkeit zum arithmetischen Mittel herstellen. Links und rechts von diesem liegt absolut gesehen jeweils die gleiche Summe an Entfernungen zum Mittelwert in Einheiten gemessen. Im arithmetischen Mittel stecken allerdings weit mehr Informationen. Der Median ist ein robustes Maß, er ist eben nicht ausreißerempfindlich. Der Median l¨asst sich durch Ver¨anderungen an den R¨andern ¨ uberhaupt nicht beeinflussen (vgl. dazu auch die Abbildung 2.12). Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="44"?> 2.2. Das Einstichprobenproblem 45 Modus: Auch der Modus ist bereits bekannt (vgl. S. 27). Er wird hier der Vollst¨andigkeit halber und mit ein paar Eigenschaften versehen erw¨ahnt. Definition 2.7: Modus diskret: der h¨aufigste Wert stetig: Klassenmitte der am h¨aufigsten besetzten Klasse Dieser Mittelwert kann f¨ ur alle Messniveaus berechnet werden. Der Modus muss nicht immer existieren. Wenn bspw. die beiden am h¨aufigsten beobachteten Merkmalsauspr¨agungen gleich oft vorkommen, dann kann der Modus nicht bestimmt werden. Die gleiche Aussage gilt entsprechend f¨ ur klassierte Daten. Midrange: Diese Maßzahl wird eher selten als Maßzahl zur Lage eingesetzt. Ihre Berechnung ist sehr einfach, es ist das arithmetische Mittel aus Minimum und Maximum. Ein kleiner Beispieldatensatz so geht die Berechnung per Hand: 1, 3, 10, 20, 1000 Mittelwert ¯ x = (1 + 3 + 10 + 20 + 1000) / 5 = 206 . 8 Median x 0 , 5 = x (5+1) / 2 = x (3) = 10 Modus Dieser existier nicht, da es keinen h¨aufigsten Wert gibt. Midrange = (1 + 1000) / 2 = 500 . 5 Die folgende Abbildung 2.12 verdeutlicht die Ausreißerempfindlichkeit der Lagemaße. In beiden Graphiken sei auf der Merkmalsachse das Einkommen von sechs Personen in Euro abgetragen (*). Median und arithmetisches Mittel sind als vertikale Linien eingezeichnet. In der linken Graphik stellt sich bereits die Frage, ob das arithmetische Mittel der Wirklichkeit gerecht wird. Die Person mit dem h¨ochsten Einkommen (6000 Euro) erh¨alt deutlich mehr Geld. Werfen Sie einen Blick auf das arithmetische Mittel. Es ist um ¨ uber 30 % angestiegen, nur weil eine Person mehr verdient. Der Median ist gleichgeblieben. Bei Einkommensdaten empfiehlt es sich, den Median zu verwenden. Schauen Sie dazu noch einmal in den Exkurs auf der Seite 20. Mit dem kennengelernten Lagekonzept sind Sie in der Lage, die grunds¨atzliche Position einer Stichprobe zu benennen: Wie groß sind Studierende im Schnitt? Was ist das Durchschnittseinkommen? Usw. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="45"?> 46 Kapitel 2. Deskriptive Statistik Abbildung 2.12: Ausreißerempfindlichkeit - arithmetisches Mittel vs. Median Nicht selten ist es so, dass eine Auskunft ¨ uber die Mitte der Daten Ihnen nur bedingt weiterhilft. An den R¨andern der (sortierten) Daten sind oftmals die wesentlichen Informationen zu finden. Denken Sie an Diskussionen ¨ uber die Reichensteuer oder die Hartz-IV-Debatte. In beiden F¨allen hilft das Durchschnittseinkommen nicht weiter, um festzustellen, wie viel mehr Steuereinnahmen bei einer sogenannten Reichensteuer herausspringen. Nicht-zentrale Lagemaße k¨onnen diese L¨ ucke schließen. Diese machen Aussagen zur Beschaffenheit der Daten weg vom Zentrum. Im Beispiel k¨onnte eine Zahl weiterhelfen, die angibt, wie viel Geld die oberen 5 % denn mindestens verdienen. Dieses Zahl k¨onnte dann als Einkommensgrenze f¨ ur die zu Besteuernden dienen. Im Folgenden seien listenhaft die wichtigsten Konzepte zu den nicht-zentralen Lagemaßen kurz vorgestellt. Extremwerte: Minimum und Maximum, x (1) und x ( n ) Unteres Quartil: → x 0 . 25 : Median der unteren H¨alfte (siehe Median). Links davon liegen 25 % der Daten, rechts davon 75 %. Oberes Quartil → x 0 . 75 : Median der oberen H¨alfte (siehe Median). Links davon liegen 75 % der Daten, rechts davon 25 %. Verallgemeinerung p-Quantil: x p . p = 0 . 25 bzw. p = 0 . 75 und p = 0 . 50 sind spezielle Quantile, n¨amlich gerade die Quartile sowie der Median. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="46"?> 2.2. Das Einstichprobenproblem 47 Die Quantile sind definiert ¨ uber die empirische Verteilungsfunktion, die wir bereits kennengelernt haben: F ( x p ) = p. Diesen Zusammenhang k¨onnen Sie sehr gut in der Abbildung 2.9 auf der Seite 37 nachvollziehen. All diese Maßzahlen brauchen mindestens ordinales Messniveau, damit sind sie sehr breit einsetzbar und leisten gute Dienste. Noch kurz das Beispiel zur Berechnung - fortgesetzt von Seite 45: Unteres Quartil (= Median der unteren H¨alfte, inkl. Median): 1, 3, 10 x 0 , 25 = 3 Oberes Quartil (= Median der oberen H¨alfte, inkl. Median): 10, 20, 1000 x 0 , 75 = 20 Es gibt viele Definitionen zur Berechnung von Quantilen. In diesem Rahmen soll diese sehr einfache und intuitive Herangehensweise ausreichen. Kurz gefasst! Sie haben verschiedene grafische und rechnerische Hilfsmittel kennengelernt, mit denen Sie den Erkenntniswert von Daten steigern k¨onnen. Als Ausgangspunkt dient die Urliste, aus der Sie ggf. einen Dotplot erstellen k¨onnen. Als sinnvolle zentrale Lagemaße gelten das arithmetische Mittel, der Median, der Modus und die Midrange. Als nicht-zentrale Lagemaße k¨onnen Sie Extremwerte, Quartile bzw. Quantile heranziehen. Achten Sie stets darauf, dass die unterschiedlichen Lagemaße Vor- und Nachteile haben. Graphiken In diesem Kapitel lernen Sie dass Graphiken Ihren Blick auf Daten sch¨arfen k¨onnen. Graphiken zur Darstellung der Daten kennen. In der Regel wird es nicht so sein, dass alle Beobachtungen, alle Merkmalsauspr¨agungen einen einzigen Wert annehmen, in einem Punkt zusammenfallen. W¨are dem so, dann w¨ urden alle bisher kennengelernten Maßzahlen denselben Wert annehmen - und die Statistik w¨are eine ziemlich ¨ uberfl¨ ussige Disziplin. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="47"?> 48 Kapitel 2. Deskriptive Statistik In Abbildung 2.12 konnten Sie bereits deutlich sehen, wie sich Median und arithmetisches Mittel zueinander verhalten. Die Streuung und auch die Ungleichheit, in diesem Fall die Asymmetrie, in den Daten nahm zu. Mittelwert und Median liegen dadurch weiter voneinander entfernt. Sind die Daten dagegen h¨ ubsch symmetrisch, dann r¨ ucken die beiden Lagemaße ganz dicht aneinander. Streuung und Symmetrie sind Ph¨anomene, denen man sich am besten zun¨achst graphisch n¨ahert. In Abbildung 2.10 haben Sie die erste Graphik, den Dotplot kennengelernt. Es werden drei Graphiken vorgestellt werden, die Ihnen helfen sollen, die Daten besser einzusch¨atzen in Bezug auf ihre Verteilung besser einzusch¨atzen. Die Graphiken stellen sowohl die tats¨achlichen Beobachtungen als auch die daraus errechneten Maßzahlen dar. Boxplot: Der sogenannte Boxplot ist eine wichtige und h¨aufig eingesetzte und dabei sehr einfach (auch per Hand) zu konstruierende Zeichnung. John Tukey hat ihn in seiner EDA vorgestellt. Definition 2.8: Boxplot Es werden die f¨ unf Maßzahlen Minimum, unteres Quartil, Median, oberes Quartil, Maximum abgetragen. Die Merkmalsachse kann sowohl die horizontale als auch die vertikale Achse sein. Es wird eine Box, ein Rechteck, vom unteren bis zum oberen Quartil ¨ uber der Merkmalsachse abgetragen, wobei die H¨ohe keine Rolle spielt. An der Stelle des Medians wird eine Senkrechte durch die Box gezeichnet. Die beiden sogenannten whiskers werden bis zum Minimum bzw. Maximum abgetragen. In der Box liegen die zentralen 50 % der Daten. Lage, Streuung, Ausreißer sowie Symmetrieeigenschaften eines Datensatzes kann man auf einen Blick erkennen. Bei einem perfekt symmetrischen Datensatz sind alle vier Bereiche gleich lang in Bezug auf die Skala. Abbildung 2.13 zeigt den Boxplot des Merkmals Alter. Man kann sehr gut die grunds¨atzliche Symmetrie um das Zentrum der Box, den Median, erkennen. Zwischen jedem senkrechten Strich liegen 25 % der Beobachtungen. Die ersten drei dieser 25 %-Bereiche machen sich auf der Merkmalsachse ungef¨ahr gleich breit. Nur der letzte Bereich ben¨otigt deutlich mehr Platz. Der Ausreißer ist wohl Schuld. Dichtesch¨atzer: Mit dem Histogramm haben Sie bereits eine Variante eines Dichtesch¨atzers kennengelernt, abgetragen ¨ uber den klassierten Daten. Das Ergebnis war das Histogramm, eine Treppenfunktion (vgl. Abbildungen 2.6 und 2.7). Vor allem in der zweitgenannten Abbildung wurde deutlich, dass das Histogramm darstellt, wie dicht die Daten in den einzelnen Bereichen der Merkmalsachse liegen. Dies allerdings in Bezug auf die Klassengrenzen. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="48"?> 2.2. Das Einstichprobenproblem 49 Abbildung 2.13: Boxplot des Merkmals Alter Der sogenannte Dichtesch¨atzer geht nun einen Schritt weiter. Es wird von den Klassengrenzen abstrahiert. Es werden allgemein dichte Bereiche dargestellt und zwar in Bezug auf jede einzelne Beobachtung. Definition 2.9: Kerndichtesch¨atzer Hierbei wird um jede Beobachtung ein kleines Intervall (a. Fenster) gelegt. Durch Gewichtung aller Punkte im Intervall und durch Wiederholung des Vorgangs f¨ ur alle Beobachtungen und anschließender Aufaddierung der entstandenen Gewichtungen entsteht zu jedem Punkt auf der horizontalen Achse eine Gewichtssumme (= Dichtesch¨atzung), die auf der vertikalen Achse abgetragen wird. Das Dilemma ist die Fensterbreite h: Je gr¨oßer h, desto glatter ist die Kurve; daf¨ ur aber geht lokale Information verloren. Gerne genommen f¨ ur die Fensterbreite h wird: h = 2 × IQR, mit IQR als dem inter-quartile-range (s. Seite 67). Mit dem Dichtesch¨atzer erhalten Sie eine glatte Kurve, die Ihnen durch ihr Verhalten zeigt, wo Punkte dicht beieinander liegen. Vielleicht gibt es zwei Zentren (bimodal), um die die Punkte streuen oder nur eines. Der Zusatz Kern vor dem Dichtesch¨atzer wird gerne verwandt, da eine sogenannte Kernfuktion die erw¨ahnte Gewichtung ¨ ubernimmt. Diese Kernfunktion ist in der Regel die Gaußsche Normalverteilung (vgl. Kapitel 4.4.1 Normalverteilung ). In der folgenden Abbildung ist f¨ ur den mittlerweile bekannten Datensatz Alter eine Dichtesch¨atzung vorgenommen. Sie ist gut zu interpretieren. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="49"?> 50 Kapitel 2. Deskriptive Statistik Abbildung 2.14: Dichtesch¨atzer des Merkmals Alter W-Plot: Es gibt zahlreiche weitere gute Ideen dazu, wie man geschickt und eindringlich Daten darstellen kann. Eine dieser M¨oglichkeiten m¨ochte ich Ihnen mit dem sogenannten W-Plot vorstellen. Der Name r¨ uhrt daher, dass die Graphik wie ein W aussieht, wenn die Daten symmetrisch sind. In diesem Fall werden Maßzahlen und die tats¨achlichen Beobachtungen geschickt gleichzeitig dargestellt. Es empfiehlt sich eher nicht, diese Graphik per Hand zu zeichnen. Definition 2.10: W-Plot Es werden die gleichen f¨ unf Lageparameter wie beim Boxplot eingezeichnet. Hier ist die horizontale Achse die Merkmalsachse, die vertikale Achse hat keine Bedeutung. Man f¨angt oben links mit dem Minimum an und bewegt sich bis zum unteren Quartil nach unten. Die Beobachtungen werden gem¨aß ihrer Auspr¨agung platziert, es wird also der geordnete Datensatz abgetragen. Vom unteren Quartil geht es dann wieder hinauf zum Median, von dort hinunter zum oberen Quartil und dann noch ein letztes Mal hinauf zum Maximum. Die vertikalen Abst¨ande werden so skaliert, dass gerade alle Beobachtungen in die Graphik passen. Bei einem perfekt symmetrischen Datensatz entsteht dann ein W. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="50"?> 2.2. Das Einstichprobenproblem 51 Abbildung 2.15: W-Plot - Alter Kurz gefasst! Sie haben zus¨atzlich zu den Maßzahlen den Boxplot, den Dichtesch¨atzer sowie den W-Plot zur Darstellung der Daten kennengelernt. Sie k¨onnen anhand der Graphiken und der Konstellationen der Lagesch¨atzer Mittelwert, Median und Modus bereits eine Aussage zur Symmetrie bzw. Schiefe eines Datensatzes machen. Streuungsmaße In diesem Kapitel lernen Sie dass die Lage alleine nicht ausreicht, um einen Datensatz zu interpretieren. zus¨atzlich zur Lage Maßzahlen zur Streuung der Daten kennen. Das Konzept der Streuung oder Variation ist ein sehr bedeutsames in der Statistik. Zun¨achst einmal bezeichnet Streuung lediglich die Unterschiedlichkeit in den Daten: Sie sind nicht alle 180 cm groß! Falls Sie doch alle 180 cm groß w¨aren, dann w¨are die Streuung Null, der Mittelwert w¨are nat¨ urlich gerade 180 cm groß. Alle anderen bisher kennengelernten Lagemaße w¨ urden auch diesen Wert annehmen. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="51"?> 52 Kapitel 2. Deskriptive Statistik Der Streuung kommen unterschiedliche Bedeutungen zu, was das Konzept so fundamental wichtig macht: Manchmal macht es die Analyse schwerer: Je gr¨oßer die Streuung, desto mehr verliert zum Beispiel der Mittelwert an Aussagekraft. Die Streuung beraubt die Analyse in diesem Fall einer gewissen Sch¨arfe in Bezug auf die Aussagem¨oglichkeiten. Aufgrund der Streuung k¨onnen kausale Zusammenh¨ange ausgenutzt werden. Wenn man die Ursache-Wirkungs-Prinzipien versteht, kann man die Streuung einer zu erkl¨arenden Variablen auf die Streuung erkl¨arender Variablen zur¨ uckf¨ uhren und erstgenannte so verstehen und modellieren. Damit sind Prognosen m¨oglich (ANOVA = Varianzanalyse bzw. Regression). Man kann das Risiko (= Streuung) seines Aktienportfolios optimieren durch eine Kombination von verschiedenen Anlagen, deren (Einzel-)Variationen man kennt. Durch die geschickte (Linear-)Kombination kann die Gesamtstreuung des Portfolios minimiert werden. Und manchmal hilft die Streuung, wenn man Kombinationen mit maximaler Streuung sucht, um beeindruckende Prognosen zu machen (Diskriminanzanalyse): Zahlt eine Kundin ihren Kredit zur¨ uck? Dann ist Streuung n¨amlich Information, die Unterschiedlichkeit der Daten verr¨at Ihnen etwas ¨ uber sie (vgl. Seite 11, Beispiel 1.1)! Sie sehen: Hier stecken eine ganze Reihe von M¨oglichkeiten. Mal m¨ochte man m¨oglichst wenig Streuung, um pr¨azise Allaussagen ¨ uber einen Datensatz machen zu k¨onnen. Mal m¨ochte man mehr Streuung, um Zusammenh¨ange verstehen zu k¨onnen. Grunds¨atzlich ist Streuung als Information zu interpretieren, die Sie nicht ignorieren, sondern ausnutzen sollten. Da bereits die Lagemaße ein gewisses Abstraktionsniveau abverlangen, ist es nicht verwunderlich, dass die Streuungsmaße da noch eins draufsetzen. Den Anfang macht daher ein ganz einfaches Beispiel - das l¨asst sich leider nicht vermeiden, sehr oft muss man ein paar kontextfreie Zahlen verwenden, denen man ansieht, wie sie ticken, um dann zu verstehen, wie Maßzahlen darauf reagieren. Beispiel A: Der folgende Datensatz soll betrachtet werden: 1 , 3 , 10 , 20 , 1000 → ¯ x = 206 . 8 Beschreibt das die Lage der Daten ausreichend? → x 0 . 5 = 10 → x 0 . 25 = 3 , x 0 . 75 = 20 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="52"?> 2.2. Das Einstichprobenproblem 53 Beim Datensatz A sind Mittelwert und Median sehr unterschiedlich, Faktor 20. Die drei Quantile sind zueinander deutlich stimmiger. Der Ausreißer 1000 ist in diesem Fall daf¨ ur verantwortlich. Sind die Lagemaße angemessen, um die Situation zu beschreiben? Beispiel B: Der folgende Datensatz soll betrachtet werden: 1 , 2 , 3 , 4 , 5 , . . . , 19 , 20 → ¯ x = x 0 . 5 = 10 . 5 Beschreibt das die Lage der Daten ausreichend? → x 0 . 25 = 5 . 5 , x 0 . 75 = 15 . 5 Im Beispiel B sind Mittelwert und Median exakt gleich. Der Datensatz ist perfekt symmetrisch, da m¨ ussen die beiden Lagemaße zusammenfallen. Dennoch scheint die 10 . 5 nicht sehr dicht bei den Daten zu liegen, obwohl sie nat¨ urlich genau das Zentrum beschreibt. Die Daten streuen sehr stark, zwar in beide Richtungen exakt gleich, aber sie entfernen sich vom Zentrum. Auch hier scheint es, dass die Lagemaße die Situation nicht vollst¨andig in den Griffbekommen. In beiden F¨allen ist die große Unterschiedlichkeit bei den Daten verantwortlich daf¨ ur, dass die Lagemaße allein nicht mehr ausreichen, um den Datensatz angemessen zu interpretieren. Es wird ein Konzept ben¨otigt, dass etwas ¨ uber die Streuung aussagt. Wie weit liegen im Durchschnitt die Daten vom Zentrum entfernt? Mit der Antwort auf diese Frage h¨atten Sie ein sehr gutes Konzept f¨ ur eine Maßzahl zur Streuung. Der Einstieg soll etwas einfacher sein, aber am Ende des Kapitels soll eine Antwort auf die Frage gefunden sein. Spannweite (absolute Range): Wie groß ist der Bereich, auf dem die Daten liegen? Wie breit machen sich die Daten auf der Merkmalsachse, wie viel Raum nehmen sie insgesamt ein? So bekommen Sie einen ersten Eindruck davon, wo die Daten grunds¨atzlich liegen. Im jeweiligen Kontext ergibt sich eine erste Interpretation. Definition 2.11: Spannweite s w = x ( n ) − x (1) F¨ ur die beiden Beispiele gilt: A: 1000 − 1 = 999 B: 20 − 1 = 19 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="53"?> 54 Kapitel 2. Deskriptive Statistik Quartilsabstand: Auf welchem Bereich liegen die zentralen 50 % der Daten? Wie breit machen sich die zentralen 50 % der Daten? Diesen Wert k¨onnen Sie sehr gut mit der gerade definierten Spannweite vergleichen (vgl. da auch noch einmal den Boxplot auf der Seite 48). Definition 2.12: Quartilsabstand s q = x 0 . 75 − x 0 . 25 F¨ ur die beiden Beispiele gilt: A: 20 − 3 = 17 B: 15 . 5 − 5 . 5 = 10 Die 17 ist mit der 999 zu vergleichen. Es ergibt sich eine sehr große Diskrepanz: Die zentralen 50 % ben¨otigen sehr viel weniger Platz als die gesamten Daten. Oder anders: 60-mal mehr Platz ben¨otigen alle Daten im Vergleich zu den zentralen 50 %. Der Vergleich 10 mit 19 ergibt keine Besonderheiten. Dass die gesamten Daten im Vergleich zu den zentralen 50 % knapp doppelt so viel Platz ben¨otigen, scheint nicht sehr auff¨allig. Dieser Vergleich verr¨at Ihnen etwas ¨ uber das Vorhandensein von Ausreißern. Sie erfahren nicht sehr viel ¨ uber das Ausmaß der Streuung, also ob diese groß ist oder nicht. Dazu ben¨otigen Sie ein weiteres Konzept. Mittlere Abweichung: Die Frage soll noch einmal gestellt werden: Wie weit sind die Daten im Durchschnitt vom Mittelwert entfernt - wie star streuen sie um diesen? Sie werden zun¨achst die Entfernung vom arithmetischen Mittel betrachten, da dieses das wichtigste Konzept zur zentralen Lage ist. Entfernungen sind in diesem Fall Differenzen (vgl. Eigenschaften des Mittelwertes). Definition 2.12: mittlere Abweichung d = √ √ √ √ 1 n · n ∑ i =1 ( x i − ¯ x ) 2 = = √ 1 n · [ ( x 1 − ¯ x ) 2 + ( x 2 − ¯ x ) 2 + . . . + ( x n − ¯ x ) 2 ] Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="54"?> 2.2. Das Einstichprobenproblem 55 Das Quadrieren ist notwendig, weil die Summe der absoluten Entfernungen immer Null ergibt (vgl. die Eigenschaft des Gleichgewichtspunktes einer Waage, S. 42 bzw. schauen Sie sich Aufgabe 13 zu diesem Kapitel an)! Das d (f¨ ur deviation) ist exakt die Antwort auf die gestellte Frage: Es gibt die durchschnittliche Entfernung in Einheiten der Daten vom Mittelwert an. Die mittlere Abweichung ist, genau wie das arithmetische Mittel, ausreißerempfindlich, denn es ist im Wesentlichen eine Summe. F¨ ur die beiden Beispiele gilt: A: √ 157335 . 76 = 396 . 7 B: √ 33 . 3 = 5 . 77 Die zweite Streuung ist zwar sehr viel kleiner, ist aber dennoch relativ groß, wenn man sie auf den Mittelwert oder auf die Spannweite bezieht. Bei den sogenannten relativen Streuungsmaßen wird ein Streuungsparameter auf einen Lageparameter bezogen. Man bekommt zum einen eine sehr gut zu interpretierende Aussage zur aktuellen Streuung. Ist sie groß oder nicht in Bezug auf das Zentrum? Zum anderen ist somit der Vergleich der Streuung von Merkmalen mit verschiedenen Dimensionen (zum Beispiel Preise in verschiedenen W¨ahrungen) m¨oglich. Denn bei relativen Maßzahlen k¨ urzen sich die Dimensionen heraus. Der Variationskoeffizient ist zum Beispiel folgendermaßen definiert: Definition 2.12: Variationskoeffizient vk = d ¯ x F¨ ur die beiden Beispiele gilt: A: 396 . 7 / 206 . 8 = 1 . 79 B: 5 . 77 / 10 . 5 = 0 . 55 Im ersten Fall sind die Daten im Schnitt fast doppelt so weit vom Mittelwert entfernt, damit ist dieser offensichtlich nicht zu gebrauchen. Im zweiten Fall sind die Daten immerhin noch deutlich ¨ uber 50 % vom Mittelwert entfernt. Auch das ist viel und Sie sollten einmal genauer Hinschauen. Bei den Altersdaten liegt der Mittelwert bei etwa 20 Jahren. Die Streuung betr¨agt nur einen Bruchteil davon. Studierende im 2. Semester sind ungef¨ahr gleich alt. Betrachten Sie einen Erwachsenen von 40 Jahren und ein Neugeborenes. Im Durchschnitt sind die auch 20 Jahre. Die mittlere Abweichung betr¨agt genau 20 Jahre Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="55"?> 56 Kapitel 2. Deskriptive Statistik und damit ist der Variationskoeffizient genau 1. Sp¨atestens wenn dieser 1 ist, dann macht der Mittelwert keinen Sinn mehr, denn die Daten liegen im Durchschnitt in genau dieser Gr¨oßenordnung von ihm entfernt. Bevor man die Wurzel zieht, um das d zu bestimmen, hat man die sogenannte mittlere quadratische Abweichung berechnet. Mittlere (quadratische) Abweichung der Beispieldaten A: d 2 = (1 − 206 , 8) 2 + (3 − 206 , 8) 2 + (10 − 206 , 8) 2 + (20 − 206 , 8) 2 + (1000 − 206 , 8) 2 5 d 2 = 157335 , 8 → d = √ 157335 , 8 = 396 , 7 Mittlere absolute Abweichung: Der Vollst¨andigkeit halber sei noch diese Maßzahl erw¨ahnt. Es stellt sich die Frage, warum eigentlich quadrieren, wenn man auch Betragsstriche verwenden kann, das scheint einfacher zu sein. Nur auf den ersten Blick. Die Betragsfunktion hat die unangenehme Eigenschaft, nicht ¨ uberall differenzierbar zu sein. Sp¨atestens bei Optimierungsfragen ist das ein Problem. Hier nimmt man dann auch den Median: Wie weit sind die Daten im Durchschnitt vom Median entfernt? Definition 2.12: mittlere absolute Abweichung d abs = 1 n n ∑ i =1 | x i − x 0 . 5 | Das nachfolgende Beispiel soll noch einmal die Streuung verdeutlichen. Es wird Schritt f¨ ur Schritt aufgezeichnet, wie Sie zur mittleren Abweichung gelangen. Diese vier Datens¨atze liegen vor - Entfernungen in km: I 9 km 10 km 11 km II 8 km 10 km 12 km III 6 km 10 km 14 km IV 1 km 10 km 19 km Der Mittelwert ist bei allen vier Datens¨atzen derselbe, n¨amlich 10 km: 9 + 10 + 11 3 = 8 + 10 + 12 3 = 6 + 10 + 14 3 = = 1 + 10 + 19 3 = 30 km 3 = 10 km Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="56"?> 2.2. Das Einstichprobenproblem 57 Beschreibt das arithmetische Mittel die jeweiligen Datenlagen ausreichend? In der folgenden Tabelle sind die Entfernungen zum Mittelwert dargestellt: I 9-10 10-10 11-10 II 8-10 10-10 12-10 III 6-10 10-10 14-10 IV 1-10 10-10 19-10 I -1 0 1 II -2 0 2 III -4 0 4 IV -9 0 9 Stellen Sie die Daten doch einmal graphisch dar, zum Beispiel als Dotplot. Durch Abziehen des Mittelwertes ¨andert sich nichts an der Struktur der Daten, sie streuen jetzt lediglich um 0 km statt um 10 km. Die folgende Graphik versucht, das darzustellen. 1 1 1 Plot der Daten 1-4 km 0 5 10 15 20 2 2 2 3 3 3 4 4 4 1 1 1 km um den Mittlerwert bereinigte Daten -10 -5 0 5 10 2 2 2 3 3 3 4 4 4 5 10 15 1 2 3 4 Boxplot der Datensaetze 1-4 -5 0 5 1 2 3 4 Boxplot der bereinigten Daten Abbildung 2.16: Graphiken zur Entfernung vom Mittelwert Die Frage ist, wie Sie mit einer einzigen Zahl die durchschnittliche Entfernung jeder Beobachtung zum Mittelwert ausdr¨ ucken k¨onnen. Hier ist noch einmal die Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="57"?> 58 Kapitel 2. Deskriptive Statistik Tabelle mit den absoluten Entfernungen: I -1 0 1 II -2 0 2 III -4 0 4 IV -9 0 9 Die Summe der Entfernungen ergibt jedesmal Null. Das ist die Eigenschaft des Mittelwerts, der die Summe aller Beobachtungen gleichm¨aßig auf alle Beobachtungen verteilt. Dennoch ben¨otigen Sie so etwas wie die gesamte Streuung, um dann eine durchschnittliche Streuung zu ermitteln. Eine M¨oglichkeit ist folgende: Die absolute Entfernung soll zun¨achst quadriert, und dann erst soll die Summe gebildet werden: I 1 0 1 -> 2 II 4 0 4 -> 8 III 16 0 16 -> 32 IV 81 0 81 -> 162 Nun k¨onnen Sie die durchschnittliche quadrierte Streuung bestimmen: Die Gesamtstreuung ist durch den Umfang der Daten zu teilen: I 2/ 3 = 0.67 II 8/ 3 = 2.67 III 32/ 3 = 10.67 IV 162/ 3 = 54 Sie kennen jetzt also die durchschnittliche quadrierte Streuung. Das k¨onnen Sie aber nicht interpretieren, weil nat¨ urlich auch die Einheiten quadriert sind: 0 . 67 km 2 , 2 . 67 km 2 , 10 . 67 km 2 , 54 km 2 . Kilometer zum Quadrat macht aber in diesem Zusammenhang keinen Sinn, daher ist die Wurzel zu ziehen: I: √ 0 . 67 km 2 = 0 . 82 km II: √ 2 . 67 km 2 = 1 . 63 km III: √ 10 . 67 km 2 = 3 . 27 km IV: √ 54 km 2 = 7 . 35 km Nun kennen Sie die durchschnittliche Entfernung jeder Beobachtung vom Mittelwert 10 km: I 9 km 10 km 11 km -> 0.82 km II 8 km 10 km 12 km -> 1.63 km III 6 km 10 km 14 km -> 3.27 km IV 1 km 10 km 19 km -> 7.35 km Diese Tabelle k¨onnen Sie gut interpretieren. Jede dieser Entfernungen kann in Bezug zum (immer gleichen) Mittelwerte 10 km gesetzt werden und Sie k¨onnen gut erkennen, wie die Streuung ansteigt. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="58"?> 2.2. Das Einstichprobenproblem 59 Stichprobenvarianz: Im Grunde haben Sie mit der mittleren Abweichung genau die Maßzahl bekommen, die Sie haben wollten. Aus bestimmten Gr¨ unden wird diese aber eher nicht verwandt, sondern eine andere, die im Prinzip aber ganz genauso aussieht. Es gibt lediglich einen, aber feinen Unterschied: W¨ahrend beim d 2 bzw. d durch den Stichprobenumfang, also n, geteilt wird, wird bei der sogenannten Stichprobenvarianz s 2 bzw. der Wurzel daraus der Stichprobenstandardabweichung s durch eins weniger, also n − 1 geteilt. Das hat theoretische Gr¨ unde. Letztere Maßzahl hat ein paar g¨ unstigere Eigenschaften, wenn man sie genau analysiert. Das geht aber ¨ uber den Umfang hier hinaus. Sie nehmen das bitte lediglich zur Kenntnis. Wozu dann das d? Ganz einfach: Es ist intuitiv v¨ollig unlogisch, nicht durch n zu teilen, wenn Sie einen Durchschnitt berechnen wollen. Die Stichprobenstandardabweichung ist exakt genauso zu interpretieren, wie das d. Wenn bspw. n = 100 gilt, dann teilen Sie im einen Fall durch die 100, im anderen durch 99. Da ergibt sich f¨ ur alle praktischen Zwecke kein Unterschied. Definition 2.12: Stichprobenvarianz s 2 = 1 n − 1 · n ∑ i =1 ( x i − ¯ x ) 2 Es gilt die folgende lineare Beziehung zwischen den beiden, welche trivial durch Einsetzen nachzuvollziehen ist: s 2 = n n − 1 · d 2 Es ist sehr unhandlich und fehleranf¨allig, das s ¨ uber die Definition auszurechnen. Es gibt eine Vereinfachung, denn es gilt (vgl. Aufgabe 15 zu diesem Kapitel): d 2 = x 2 − x 2 , mit x 2 = 1 n n ∑ i =1 x 2 i W¨ahrend x 2 lediglich das Quadrat des Mittelwertes ist, ist x 2 das Mittel der Quadrate, also erst quadrieren, dann mitteln. Dieser Zusammenhang soll jetzt nicht groß inhaltlich interpretiert werden. Sie nehmen ihn einfach dankbar auf: Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="59"?> 60 Kapitel 2. Deskriptive Statistik Das Beispiel A: x 2 = 1 2 + 3 2 + 10 2 + 20 2 + 1000 2 5 = 200102 → d 2 = 200102 − 206 , 8 2 = 157335 , 8 d = √ 157335 , 8 = 396 , 7 Das kommt auch auf der Seite 56 heraus, nur hier schneller. Stichprobenvarianz bzw. Stichprobenstandardabweichung (s oder SD = Standard Deviation): s 2 = 5 4 · 157335 , 8 = 196669 , 7 → s = 443 , 5 Kurz gefasst! In diesem Abschnitt haben Sie verschiedene Maßzahlen zur Streuung eines Datensatzes kennengelernt. Spannweite, Interquartilsabstand, mittlere Abweichung, Stichprobenstandardabweichung sowie der Variationskoeffizient helfen Ihnen, die Streuung zu quantifizieren. Zusammen mit den Maßzahlen zur Lage sowie den Graphiken sind Sie in der Lage, sich ein fundiertes Bild von einem Datensatz zu machen. 2.2.4 Aufgaben 1. In Abbildung 2.17, Seite 61, sind die ersten beiden Seiten der Volksbefragung (Census) von 2011 abgedruckt. (a) Was f¨ ur Eigenschaften haben die abgefragten Merkmale (Messniveau, Auspr¨agungsmenge)? (b) Warum sind Volksz¨ahlungen notwendig? (c) Was ist der Mikrozensus? 2. In der Abbildung 2.18, Seite 62, finden Sie die Geschichte aus Neureichenbach. Lesen Sie diese aufmerksam und versuchen Sie, die Aussagen und Sachverhalte statistisch nachzuvollziehen. 3. Bei der Fußballweltmeisterschaft 2002 in Japan und S¨ udkorea fanden 64 Spiele statt. Im Folgenden finden Sie eine Urliste der Anzahl der Tore je Spiel: Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="60"?> 2.2. Das Einstichprobenproblem 61 Abbildung 2.17: Zensus 2011 www.zensus2011.de - Fragebogen Seiten 1-2 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="61"?> 62 Kapitel 2. Deskriptive Statistik Abbildung 2.18: Geschichte aus Neureichenbach - [Swoboda82], S. 35 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="62"?> 2.2. Das Einstichprobenproblem 63 1 2 3 8 1 4 2 4 1 3 2 2 4 2 2 5 2 2 1 0 3 4 1 1 3 4 3 2 1 2 2 4 6 2 2 3 0 2 4 5 3 7 1 2 2 5 4 1 1 3 3 2 2 2 1 3 3 1 0 1 1 1 5 2 (a) Erstellen Sie die H¨aufigkeitstabelle und interpretieren Sie diese. (b) Zeichnen und interpretieren Sie das Stabdiagramm! (c) Versuchen Sie, die empirische Verteilungsfunktion zu zeichnen (diskret! ). (d) Wie groß ist der Anteil der Spiele, in denen genau 3 Tore geschossen wurden? (e) Wie groß ist der Anteil der Spiele, in denen mindestens ein Tor geschossen wurde? Formulieren Sie dies mit Hilfe von ˆ F () . 4. Was erz¨ahlen Ihnen die folgenden aktuellen Alterspyramiden ¨ uber die jeweiligen L¨ander? Abbildung 2.19: Verschiedene Bev¨olkerungspyramiden - Quelle: Deutsche Stiftung Weltbev¨olkerung/ Uno 5. Im Begleitheft der ersten F¨ unf Freunde-CD-ROM finden sich L¨osungshinweise, die aber kodiert sind. So findet sich unter Wie komme ich auf die Insel? folgender Text: Yq hmi Mrwip fixvixir dy osirrir, fveyglwx hy jspkirhi Kikirwxeirhi: Imri Ebx yrh hew Wimp eyw hiq Wglyttir yrh hmi Vyhiv eyw hiq Zivwxigo zsr Kisvki. Eywwivhiq qeglx iwivwx Wmrr, hmi Mrwip dy ivjsvwglir, airr hy hir Wglexdtper irxhigox lewx. Jedem Buchstaben des Alphabets wurde ein anderer Buchstabe des Alphabets zugeordnet. Um den Text zu entschl¨ usseln, ben¨otigen wir die (durchschnittliche) H¨aufigkeit in % der Buchstaben in einem deutschsprachigen Text: a 6.51 e 17.4 i 7.55 m 2.53 q 0.09 u 4.35 y 0.04 b 1.89 f 1.66 j 0.27 n 9.78 r 7.00 v 0.67 z 1.13 c 3.06 g 3.01 k 1.21 o 2.51 s 7.27 w 1.89 d 5.08 h 4.76 l 3.44 p 0.79 t 6.15 x 0.03 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="63"?> 64 Kapitel 2. Deskriptive Statistik Ein a taucht also mit H¨aufigkeit 6.51 % in einem deutschsprachigen Text auf. In der L¨osungshilfe steht, dass der Text mit Hilfe einer C¨asar-Verschl¨ usselung kodiert worden ist. Bei dieser wird jeder Buchstabe durch den Buchstaben verschl¨ usselt, der eine bestimmte Anzahl von Buchstaben hinter ihm steht. Wird also zum Beispiel das a durch das h verschl¨ usselt, so wird das b durch das i verschl¨ usselt, das c durch das j, u.s.w.. Entschl¨ usseln Sie mit Hilfe dieser Informationen den Text. 6. Was halten Sie von dem folgenden Stabdiagramm zum Merkmal Gewicht? Gewicht rel. Haeufigkeiten 42 47 50 53 56 59 61.7 65 68 72 75 78 82 86 92 102 0.00 0.02 0.04 0.06 0.08 Abbildung 2.20: Stabdiagramm des Merkmals Gewicht Diskutieren Sie den Einfluss des Messniveaus bzw. der M¨achtigkeit der Auspr¨agungsmenge auf den Umgang mit den Daten. Versuchen Sie, Kriterien abzuleiten. 7. Schauen Sie sich die folgende Graphik 2.21 aus der ZEIT an. Versuchen Sie, die Aussage in der Bild¨ uberschrift nachzuvollziehen. Was ist Ihre Meinung zu den Zahlen? Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="64"?> 2.2. Das Einstichprobenproblem 65 Seit 2007 verliert der Arbeitsmarkt an Schwung Veränderung der Arbeitslosenzahlen gegenüber Vorjahresmonat Quelle: in Anlehnung an Deutsche Bundesbank, Zeit (7/ 2009) sowie eigene Berechnungen Abbildung 2.21: Arbeitslosenentwicklung 8. Zeigen Sie, dass im Histogramm die Summe der Rechtecksfl¨ache immer 1 ergibt. Begr¨ unden Sie dies auch inhaltlich. Zur Erinnerung: ¨ Uber den Klassen werden Rechtecke der H¨ohe ˆ f i und der Breite Δ X i abgetragen. 9. Betrachten Sie die letzten drei Spieltage der Saison 2008/ 2009 in der Fußballbundesliga. Es wurden 25 Spiele ausgew¨ahlt und bei jedem Spiel die Zeit ermittelt, die man auf das erste Tor warten musste. Die Urliste sieht folgendermaßen aus: 67 54 5 21 4 48 47 33 20 25 26 36 5 23 50 9 6 30 10 15 17 26 35 42 39 Es werden folgende Klassen gebildet: 1. Klasse : 0 bis 15 2. Klasse : 15 bis 30 3. Klasse : 30 bis 45 4. Klasse : 45 bis 60 5. Klasse : 60 bis 75 6. Klasse : 75 bis 90 (a) Erstellen Sie eine H¨aufigkeitstabelle. (b) Zeichnen und interpretieren Sie das Histogramm. (c) Zeichnen Sie die empirische Verteilungsfunktion. (d) Bestimmen Sie ˆ F (40) . Zeichnen Sie die Stelle entsprechend ein. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="65"?> 66 Kapitel 2. Deskriptive Statistik (e) Bestimmen Sie mit Hilfe der empirischen Verteilungsfunktion den Anteil der Spiele, bei denen man mehr als 30, aber h¨ochstens 60 Minuten auf das erste Tor warten musste. Zeichnen Sie das Intervall entsprechend ein. Hinweis: ˆ F (60) und ˆ F (30) helfen hier weiter. 10. Ein Auto f¨ahrt eine Strecke von 2 km. Den ersten Kilometer f¨ahrt es mit einer Geschwindigkeit von 20 km/ h, den zweiten Kilometer mit 60 km/ h — Beschleunigungen sollen vernachl¨assigt werden. (a) Wie hoch ist die Durchschnittsgeschwindigkeit? (b) Begr¨ unden Sie die Grenzen des arithmetischen Mittels. (c) Probieren Sie einmal das harmonische Mittel: ¯ x h = n n ∑ i =1 1 x i = n 1 x 1 + 1 x 2 + . . . + 1 x n Es werden kardinales Messniveau sowie positive Merkmalsauspr¨agungen ben¨otigt. Das Merkmal X ist das Verh¨altnis zweier Gr¨oßen, das heißt, die Dimension ist das Verh¨altnis zweier Maßeinheiten (zum Beispiel km/ h), auch verh¨altnisskalierte Merkmale genannt. 11. Durchschnittliche Wachstumsrate des BSP von 1980 bis 1988. Abbildung 2.22: Entwicklung BSP Die Wachstumsrate w i ist folgendermaßen definiert: w i = BSP i BSP i −1 = x i x i −1 Daher ist w 1 = 1735 . 7 / 1733 . 8 . Das durchschnittliche BSP zu berechnen, kann nat¨ urlich mit dem arithmetischen Mittel gemacht werden. Was ist aber mit dem durchschnittlichen Wachstum? Berechnen Sie dieses. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="66"?> 2.2. Das Einstichprobenproblem 67 Probieren Sie einmal das geometrische Mittel: ¯ x g = n √ √ √ √ n ∏ i =1 x i = n √ x 1 · x 2 · . . . · x n Es werden kardinales Messniveau sowie positive Merkmalsauspr¨agungen ben¨otigt. Die Verwendung des geometrischen Mittels ist sinnvoll bei multiplikativ verkn¨ upften Merkmalswerten, das heißt, wenn sachlogisch der Unterschied zwischen den Merkmalswerten durch das Verh¨altnis und nicht durch die Differenz charakterisiert wird. Warum klappt hier das arithmetische Mittel nicht? 12. Die Durchschnittsgr¨oße vom Fragebogen betr¨agt ¯ x = 175 . 6 cm. Angenommen, Sie w¨ urden die Durchschnittsgr¨oße der M¨anner kennen, ¯ x m = 182 . 5 cm, ferner, dass 23 M¨anner und 26 Frauen die Fragen beantwortet haben. Was ist die Durchschnittsgr¨oße der Frauen? Diskutieren Sie das Konzept des gewichteten arithmetischen Mittels. K¨onnen Sie das normale arithmetische Mittel auch als gewichtetes darstellen? 13. Zeigen Sie, dass die Summe der Abst¨ande aller Beobachtungen zum Mittelwert immer Null sein muss. n ∑ i =1 ( x i − ¯ x ) = 0 Begr¨ unden Sie dies auch inhaltlich, arithmetisch. 14. Ein Statistiker sieht sich ¨ uber einen Zeitraum alle Folgen der Show WER WIRD MILLION ¨ AR an und notiert sich am Ende der Sendung den realisierten Gesamtgewinn des Tages. Es ergaben sich folgende Werte in Tausend DM: 34 17 96 33 189 282 33 66 64 (a) Bestimmen Sie den Mittelwert und den Median. (b) Bestimmen Sie die Spannweite und die Stichprobenvarianz bzw. die Standardabweichung. (c) Erstellen und interpretieren Sie den Boxplot. (d) Es stellt sich heraus, der Statistiker hat sich vertan. Wie wirken sich die beiden folgenden Szenarien auf die zuvor berechneten Maßzahlen aus? i. Es waren in Wirklichkeit Gewinne in Tausender Euro, die notiert wurden (1 Euro = 1.96 DM). ii. Der Statistiker hat jeweils die letzte halbe Stunde verschlafen. Alle Zahlen sind um 16 TDM zu klein. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="67"?> 68 Kapitel 2. Deskriptive Statistik 15. Zeigen Sie, dass f¨ ur die mittlere quadratische Abweichung gilt: d 2 = x 2 − x 2 mit d 2 = 1 n n ∑ i =1 ( x i − ¯ x ) 2 Hinweis: Wenden Sie den binomischen Lehrsatz ( a − b ) 2 = a 2 − 2 ab + b 2 an und ziehen Sie anschließend das Summenzeichen in den Klammerausdruck. 16. Es sei: z i = x i − ¯ x s x mit s x als Standardabweichung von x. (a) Wie groß ist der Mittelwert von z? (b) Wie groß ist die Varianz von z? (c) Reflektieren und begr¨ unden Sie Ihr Ergebnis inhaltlich. Was halten Sie von der Bezeichnung standardisieren? 17. Schauen Sie sich die folgenden drei Histogramme an. Histogramm 1 Schiefe: 1.9 0 100 200 300 400 500 AVG MED MOD Histogramm 2 Schiefe: −1.9 AVG MEDMOD 0 100 200 300 400 500 Histogramm 3 Schiefe: 0 AVG MED MOD 100 200 300 400 Abbildung 2.23: Graphiken zur Symmetrie (a) Beschreiben Sie die Verteilung der Daten. (b) Bringen Sie damit die jeweilige Konstellation von Mittelwert, Median und Modus zusammen. L¨asst sich (induktiv) ein Zusammenhang ableiten? Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="68"?> 2.3. Das Zweistichprobenproblem 69 (c) Die jeweilige Auspr¨agung der im Folgenden definierten Maßzahl schiefe ist f¨ ur jeden Datensatz im Titel angegeben. Interpretieren Sie (induktiv) die Werte. schiefe ( x ) = 1 n ∑ n i =1 ( x i − ¯ x ) 3 d 3 x , mit d 3 x = ( d 2 x ) 3 2 Hier wird die Differenz zum Mittelwert in die 3. Potenz gehoben (bei der Varianz war es die 2.). Versuchen Sie, die Funktionsweise der Maßzahl zu diskutieren. (d) Bringen Sie die Maßzahl zur Schiefe sowie die verschiedenen Konstellationen der Lage Maßzahlen mit den folgenden Beschreibungen zum Aussehen der Verteilung eines Datensatzes zusammen: symmetrisch linksschief = rechtssteil rechtsschief = linkssteil 18. Betrachten Sie noch einmal den Datensatz und die Klasseneinteilung aus Aufgabe 9 auf Seite 65. (a) Welche Wartezeit bis zum ersten Tor wurde in 25% der Spiele nicht ¨ uberschritten? Bestimmen Sie diesen Wert • mit Hilfe der empirischen Verteilungsfunktion, • aus den Rohdaten. (b) Bestimmen Sie aus den Rohdaten • das untere Quartil, • das obere Quartil, • den Median. (c) Zeichnen und interpretieren Sie den Boxplot. (d) Berechnen Sie den Mittelwert aus den Rohdaten. (e) Ber¨ ucksichtigen Sie den Mittelwert in Ihrem Boxplot. (f) Berechnen Sie die Stichprobenvarianz s 2 . 2.3 Das Zweistichprobenproblem In diesem Kapitel lernen Sie wie Sie zwei Merkmale gleichzeitig analysieren k¨onnen. welche Hilfsmittel Ihnen zur Verf¨ ugung stehen, um Abh¨angigkeiten und Zusammenh¨ange aufzudecken und abzubilden. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="69"?> 70 Kapitel 2. Deskriptive Statistik Zweistichprobenproblem klingt seltsam. Was ist das also? Zweistichprobenproblem heißt zun¨achst einmal ganz unkompliziert, dass zwei Beobachtungen in einer Grundgesamtheit gemacht wurden. Zwei Merkmale wurden erhoben. Man spricht daher auch von bivariater Datenanalyse. Beim Zweistichprobenproblem geht es darum, das gemeinsame Auftreten von zwei Merkmalen im Hinblick auf Abh¨angigkeiten, Wechselwirkungen usw. zu betrachten. Sie k¨onnen grunds¨atzlich zwei verschiedene Situationen unterscheiden: 1. verbundenes Zweistichprobenproblem Es werden am selben Objekt, an derselben Person zwei Beobachtungen gemacht, zwei Reaktionen notiert oder auch zwei Messungen durchgef¨ uhrt. Die Stichproben sind durch den Umstand verbunden, dass sie von derselben Quelle stammen. Der Merkmalstr¨ager ist also derselbe. Korrelation. Es werden K¨orpergr¨oße und -gewicht von allen Studierenden gemessen. Besteht ein Zusammenhang (im Sinne von groß entspricht schwer)? Ist das individuelle Konsumverhalten abh¨angig vom pers¨onlichen Einkommen? Besteht eine (kausale? ) Beziehung zwischen zwei Merkmalen? Vorher-/ Nachher-Analyse. Die Wirkung eines Schlafmittels soll untersucht werden. Die Probanden bekommen das Schlafmittel verabreicht und es wird die Schlafzeit der Probanden notiert. Von denselben Probanden wird ein paar Tage sp¨ater gemessen, wie lange diese ohne das Schlafmittel schlafen k¨onnen. Zu jeder Person existieren nun zwei Beobachtungen. Hat eine (gezielte) Maßnahme einen Einfluss auf die Lage eines Merkmales auf der Merkmalsachse? 2. unverbundenes Zweistichprobenproblem Es werden Beobachtungen an verschieden Personen/ Objekten gemacht, weil es technisch (oder aus welchen Gr¨ unden auch immer) nicht m¨oglich ist, die Messungen (man spricht oft auch von Behandlungen) am selben Objekt durchzuf¨ uhren, oder weil eben verschiedene Dinge miteinander verglichen werden sollen. Eine neue Operationsmethode soll ausprobiert und mit einer alten verglichen werden. Man bildet zwei Gruppen von Patienten. Die eine bekommt die erste Behandlung, die andere die zweite (hier: neue und alte Operationsmethode). Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="70"?> 2.3. Das Zweistichprobenproblem 71 Zwei Produktionsprozesse sollen miteinander verglichen werden in Bezug auf die Produktionsleistung. Laufen M¨anner im Durchschnitt langsamer als Frauen? Wenn Sie die Reaktion auf zwei unterschiedliche Behandlungen (im weitesten Sinne) vergleichend messen m¨ochten, empfiehlt es sich offensichtlich, einen verbundenen Versuchsaufbau zu w¨ahlen. Eigenarten oder pers¨onliche Besonderheiten der Probanden gleichen sich dann n¨amlich aus, weil diese in beiden Experimenten zur Geltung kommen. W¨ urden Sie das Beispiel mit dem Schlafmittel unverbunden durchf¨ uhren, dann k¨onnte es passieren, dass in der Gruppe ohne Schlafmittel Menschen sind, die von Natur aus lange und gut schlafen, und in der anderen Gruppe, in der mit Schlafmittel, sind solche, die schlecht und kurz schlafen. Der Effekt ist kaum nachvollziehbar und kann nicht zugeordnet werden. F¨ uhren Sie das Experiment verbunden durch, zum Beispiel nur mit den Langschl¨afern, dann kann dieser Effekt durch Differenzenbildung einfach eliminiert werden, da er in beiden Experimenten vorliegt. Genauso offensichtlich ist es aber auch, dass der verbundene Aufbau nicht immer gew¨ahlt werden kann. Denken Sie an das Beispiel mit der Operation oder auch Situationen, in denen eine Qualit¨atskontrolle durchgef¨ uhrt werden soll, die aber die Zerst¨orung des Produkts nach sich zieht. Sie sollen in diesem Rahmen lediglich zwei verbundene Datens¨atze betrachten und dabei dem m¨oglichen Zusammenhang dieser beiden nachgehen. Kurz gefasst! Es gibt eine Reihe von Gr¨ unden, warum Sie zwei Merkmale gleichzeitig betrachten m¨ochten. Die unterschiedlichen Situationen f¨ uhren dann zu unterschiedlichen Vorgehensweisen. 2.3.1 Kontingenz In diesem Kapitel lernen Sie wie Sie Abh¨angigkeiten bei zwei nominalskalierten Merkmalen aufdecken k¨onnen. wie Sie die Abh¨angigkeitsstruktur in einer Kontingenztabelle graphisch darstellen k¨onnen. eine Maßzahl zur Messung der St¨arke einer solchen potenziellen Abh¨angigkeit kennen. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="71"?> 72 Kapitel 2. Deskriptive Statistik In vielen Disziplinen hat man es mit kategorialen Daten zu tun. Denken Sie an die Soziologen und die Psychologen. Wie Sie inzwischen wissen, stecken in diesen Daten weniger Informationen als in den metrischen Daten. Im Umkehrschluss bedeutet das wohl, dass Sie sich etwas mehr anstrengen m¨ ussen, um aus diesen dennoch Erkenntnisse zu gewinnen. Konkret werden Sie der Frage nachgehen, wie Sie Zusammenh¨ange in nominalskalierten Daten aufzeigen k¨onnen. Wie im univariaten Fall bietet es sich zun¨achst an, eine H¨aufigkeitstabelle der Daten zu erstellen Eine zweidimensionale H¨aufigkeitstabelle wird Kontingenztabelle genannt. Am besten sehen Sie sich dazu zun¨achst ein Beispiel an. Auf dem Fragebogen auf der Seite 233 wird unter anderem auch danach gefragt, wie ein bestimmter Film (Titanic) gefallen hat. Die Bewertung sind Schulnoten von 1 bis 5. Sie sollen sich die beiden Merkmale Geschlecht: X versus Titanic: Y einmal genauer anschauen. Hier sind - arg verk¨ urzt - zum Einstieg zun¨achst einmal die eindimensionalen H¨aufigkeitstabellen angegeben: x y m w 1 2 3 4 5 ----- ------------- 23 26 6 16 16 7 4 Tabelle 2.14: Geschlecht vs. Titanic: eindimensionale H¨aufigkeitstabellen Sie wollen aber das gemeinsame Auftreten der beiden Merkmale betrachten. Im Hinterkopf haben Sie die Frage, ob das Geschlecht einen Einfluss auf die Bewertung des Filmes hat. Oder anders formuliert: Bewerten M¨anner und Frauen den Film unterschiedlich? Nur wenn Sie das gemeinsame Auftreten betrachten, k¨onnen Sie durch geschicktes Hingucken herausfinden, ob eine Interdependenz zwischen den beiden Merkmalen vorliegt. In Tabelle 2.15 ist das gemeinsame Auftreten in der sogenannten Kontingenztabelle f¨ ur das Beispiel Geschlecht und Titanic dargestellt - die absoluten und die relativen H¨aufigkeiten. Der Stichprobenumfang betr¨agt wieder n = 49 : y x | 1 2 3 4 5 -+--------------+--m| 1 4 9 6 3| 23 w| 5 12 7 1 1| 26 -+--------------+--- | 6 16 16 7 4| 49 y x | 1 2 3 4 5 -+-----------------------------m| 0.020 0.082 0.184 0.122 0.061 w| 0.102 0.245 0.143 0.020 0.020 Tabelle 2.15: Kontingenztabelle Geschlecht, TITANIC Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="72"?> 2.3. Das Zweistichprobenproblem 73 K¨onnen Sie bereits etwas erkennen? Ein wenig sicherlich, zum Beispiel, dass f¨ unf Frauen den Film sehr gut fanden, aber nur ein Mann den Film sehr gut fand. Aber so ohne Weiteres offenbart sich die Struktur noch nicht, Sie m¨ ussen noch das geschickte Draufgucken optimieren. Der Vollst¨andigkeit halber sei in den Tabellen 2.16 und 2.17 der formale Aufbau einer Kontingenztabelle angegeben. Y → y 1 y 2 . . . y l X ↓ ↓ ∑ l j=1 n ij x 1 n 11 n 12 . . . n 1l n 1· x 2 n 21 n 22 . . . n 2l n 2· . . . . . . . . . . . . . . . . . . x k n k1 n k2 . . . n kl n k· ∑ k i=1 n ij → n ·1 n ·2 . . . n ·l n Tabelle 2.16: Formaler Aufbau der Kontingenztabelle i = 1 . . . k Das Merkmal X hat k verschiedene Auspr¨agungen: x i j = 1 . . . l Das Merkmal Y hat l verschiedene Auspr¨agungen: y j n ij absolute H¨aufigkeit f¨ ur das gemeinsame Auftreten von x i und y j n i · = ∑ l j =1 n ij Randh¨aufigkeit von X: absolute H¨aufigkeit f¨ ur x i . Es wird ¨ uber alle Auspr¨agungen von Y addiert. Das gemeinsame Auftreten von x i mit allen Auspr¨agungen von Y wird ber¨ ucksichtigt. n · j = ∑ k i =1 n ij Randh¨aufigkeit von Y : absolute H¨aufigkeit f¨ ur y j . Es wird ¨ uber alle Auspr¨agungen von X addiert. Das gemeinsame Auftreten von y j mit allen Auspr¨agungen von X wird ber¨ ucksichtigt. Tabelle 2.17: Nomenklatur einer Kontingenztabelle Die sogenannten Randh¨aufigkeiten sind nichts anderes als die eindimensionalen H¨aufigkeitstabellen f¨ ur jedes der beiden Merkmale. Das l¨asst sich sehr gut anhand der Beispieltabellen nachvollziehen. In diesen gilt zum Beispiel n 11 = 1 , n 21 = 5 usw. Versuchen Sie, Ihren Blick dadurch zu sch¨arfen, dass Sie die Fragen an die Daten modifizieren, diese n¨amlich deutlicher nach Ihren Vermutungen ausrichten. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="73"?> 74 Kapitel 2. Deskriptive Statistik Sie vermuten, dass M¨anner und Frauen den Film deutlich anders bewerten! Daher m¨ ussen Sie anders, pr¨aziser fragen: Aus der Frage Wie viel Prozent finden TITANIC sehr gut (sehr schlecht)... wird Wie viel Prozent der Frauen (M¨anner) finden den Film sehr gut (sehr schlecht)? bzw. Wie viel Prozent von denjenigen, die TITANIC sehr gut (sehr schlecht) finden, sind Frauen (M¨anner)? Sie wechseln damit von den relativen H¨aufigkeiten zu den sogenannten bedingten relativen H¨aufigkeiten. Nat¨ urlich k¨onnen diese Fragen auch f¨ ur andere Zusammenh¨ange als Merkmale des Fragebogens gestellt werden: Man beachte auch hier wieder den kleinen aber feinen Unterschied in der Formulierung: 1. Wie viel Prozent der Frauen haben die FDP gew¨ahlt? Wie viel Prozent der M¨anner? 2. Wie viel Prozent der W¨ahler der FDP sind Frauen, wie viel Prozent sind M¨anner? Bei der zweiten Frage muss die Summe 1, also 100 % ergeben, da die Basis (= Bedingung) dieselbe ist, n¨amlich FDP-W¨ahler und M¨anner und Frauen eine vollst¨andige Zerlegung dieser Gruppe darstellen. Bei der ersten Frage muss nicht 100 % herauskommen. Hier ist die Basis (= Bedingung) verschieden. Einmal alle Frauen, dann alle M¨anner. Noch mal gesagt: Diese relativen H¨aufigkeiten nennt man bedingte relative H¨aufigkeiten, da ein Merkmal als Bedignung festgelegt wird. Die Definition und die Notation sollen am Beispiel Geschlecht, Titanic dargelegt werden: Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="74"?> 2.3. Das Zweistichprobenproblem 75 Definition 2.13: bedingte relative H¨aufigkeit 1. h ( Y = 1| X = weiblich ) = n 21 / n 2• = 5 / 26 = 0 . 192 2. h ( X = weiblich | Y = 1) = n 21 / n •1 = 5 / 6 = 0 . 83 → Dabei ist das, was rechts vom | steht, die Bedingung. Interpretation: 1. Wie viel Prozent der Frauen finden TITANIC sehr gut? 2. Von denjenigen, die TITANIC sehr gut finden, sind wie viel Prozent Frauen? Es wird sozusagen eine Verengung des Blickwinkels vorgenommen. Nicht mehr alle n = 49 Befragten interessieren, sondern nur diejenigen, welche die Bedingung erf¨ ullen: Alle, die den Film sehr gut fanden! Alle Frauen! Und was hilft’s? Na ganz offensichtlich: Wenn es keinen Unterschied in den Gruppen hinsichtlich der Bewertung gibt, dann sollten die Anteile innerhalb der Gruppen (M¨anner und Frauen in der Gruppe Film sehr gut) auch ungef¨ahr der Gesamtverteilung der M¨anner und Frauen entsprechen, in diesem Fall ungef¨ahr gleich groß, da die Gesamtzahl der M¨anner und Frauen dicht beieinander liegt. Die Aussage ist dann, M¨anner und Frauen bewerten den Film gleich. Wenn es hingegen sehr wohl einen systematischen Unterschied in Bezug auf die Bewertung des Filmes gibt, dann sollte sich das in den bedingten relativen H¨aufigkeiten widerspiegeln! Zum Beispiel, dass ¨ uberproportional viele Frauen in der Gruppe Film sehr gut zu finden sind. Schauen Sie sich das einmal an. Basis ist die Kontingenztabelle 2.15 auf der Seite 72. Im Folgenden sind die bedingten relativen H¨aufigkeiten dargestellt - beide Merkmale als Bedingung: X ist die Bedingung (Geschlecht): y x | 1 2 3 4 5 -+-----------------------------m| 0.043 0.174 0.391 0.261 0.130 w| 0.192 0.462 0.269 0.038 0.038 Y ist die Bedingung (Titanic): y x | 1 2 3 4 5 -+-----------------------------m| 0.167 0.250 0.562 0.857 0.750 w| 0.833 0.750 0.438 0.143 0.250 Tabelle 2.18: Bedingte Relative H¨aufigkeiten Geschlecht, TITANIC Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="75"?> 76 Kapitel 2. Deskriptive Statistik Nun lassen sich die diskutierten Fragen beantworten: Wie viel Prozent der Frauen finden TITANIC sehr gut: 19.2 % = 5/ 26 Wie viel Prozent der M¨anner finden TITANIC sehr gut: 4.3 % = 1/ 23 Wie viel Prozent derjenigen, die Titanic sehr gut finden, sind Frauen: 83.3 % = 5/ 6 (M¨anner: 100 % − 83 . 3 % = 16 . 7 % ) Wie viel Prozent derjenigen, die Titanic sehr schlecht finden, sind M¨anner: 75 % = 3/ 4 Frauen: 100 % − 75 % = 25 % ) Ist das auff¨allig? Ja ist es, denn der Anteil der Frauen in der Gruppe derjenigen, die den Film sehr gut finden, liegt bei 83 %. Insgesamt sind in der Stichprobe aber nur etwas ¨ uber 50 % Frauen. Die gleiche Auff¨alligkeit findet sich bei den M¨annern mit knapp 17 % bei den sehr guten Bewertungen, daf¨ ur sind 75 % M¨anner in der Gruppe, die den Film sehr schlecht finden. Der Anteil in der Stichprobe liegt bei knapp 50 %. Das ist kein Zufall, da steckt System hinter, n¨amlich, dass M¨anner und Frauen den Film anders bewerten. Sie k¨onnen auch die Richtung des Zusammenhanges benennen: Frauen finden ihn im Schnitt besser, M¨anner schlechter. Welche der beiden Blickrichtungen hebt die Unterschiede deutlicher hervor? In diesem Fall ist die Vorgehensweise relativ eindeutig. Das eine Merkmal ist zwar auch kategorialer Natur, aber das Messniveau ist ordinal. In diesem Fall ist es meist g¨ unstig, das ordinale Merkmal als Bedingung zu setzen und sich die Extremwerte anzuschauen. Dort finden Sie die Unterschiede, sofern es welche gibt. Auch hier bedeutet die graphische Darstellung der bedingten relativen H¨aufigkeiten einen deutlichen Mehrwert. Die graphische Darstellung der bedingten relativen H¨aufigkeiten nennt man Zeilenbzw. Spaltenprofil Es wird graphisch die Verteilung des einen Merkmales (zum Beispiel Bewertung des Films TITANIC) unter der Bedingung dargestellt, dass das andere eine bestimmte Auspr¨agung angenommen hat (zum Beispiel weiblich). Zeilenprofil: Die Variable in den Zeilen (1. Dimension, Geschlecht) wird als Bedingung gew¨ahlt und die Verteilung der Spaltenvariable (2. Dimension, TITANIC) wird f¨ ur jede Merkmalsauspr¨agung der ersten bestimmt. Es werden die Zeilen aus der Tabelle mit den bedingten relativen H¨aufigkeiten als S¨aulen oder St¨abe abgetragen, wobei die Bedingung das Zeilenmerkmal X ist. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="76"?> 2.3. Das Zweistichprobenproblem 77 Abbildung 2.24: Zeilenprofil - Geschlecht, Titanic Spaltenprofil: Hier gilt es gerade andersherum, die 2. Dimension (Y )ist die Bedingung, die Verteilung der 1. Dimension (X) wird unter dieser Bedingung abgetragen. Man spricht demgem¨aß auch von einer bedingten Verteilung. Abbildung 2.25: Spaltenprofil - Geschlecht, Titanic Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="77"?> 78 Kapitel 2. Deskriptive Statistik Das mittlere Profil ist gerade die univariate Randverteilung, also sozusagen das Stabdiagramm, das Sie bereits kennengelernt haben. Dieses dient als Bewertungsmaßstab. Im Spaltendiagramm l¨asst sich sehr sch¨on ablesen, dass bei den Bedingungen Y = 1 und Y = 5 große Abweichungen zum mittleren Profil, also zu der Gesamtverteilung des Merkmals Geschlecht vorliegen. Es l¨asst sich somit auf einen Blick erkennen, dass das Geschlecht einen Einfluss auf die Bewertung des Films Titanic hat. Die Merkmale Geschlecht und Titanic beeinflussen sich in der gemeinsamen Realisation! Man kann wohl nicht von Unabh¨angigkeit der beiden Merkmale sprechen. Manchmal ist es hilfreich, sich die Abweichungen der Profile vom jeweiligen mittleren Profil anzusehen, das sogenannte Differenzprofil. Dabei werden einfach nur die Differenzen als Stabbzw. S¨aulendiagramm abgetragen. Die folgende Abbildung 2.26 zeigt die Differenz des Spaltenprofils. Sehr sch¨on k¨onnen Sie die systematischen Unterschiede bei den sehr guten bzw. schlechten Noten erkennen. Die M¨anner sind stark unterrepr¨asentiert bei den Noten 1 und 2 und ¨ uberrepr¨asentiert bei den Noten 4 und 5 in Bezug auf den Gesamtanteil M¨anner. Bei den Frauen ist das Bild gerade umgekehrt. Abbildung 2.26: Differenz Spaltenprofil zum mittleren Profil Sie haben die Richtung des Zusammenhanges aufgedeckt. Stellen Sie sich vor, Sie h¨atten die Aufgabe, die empirischen Daten der ber¨ uhmten PISA-Studie auszuwer- Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="78"?> 2.3. Das Zweistichprobenproblem 79 ten. Welche (soziodemographischen) Merkmale sind - mal ganz platt formuliert - daf¨ ur verantwortlich, ob ein Sch¨ uler erfolgreich sein wird oder nicht? Ist es das Geschlecht? Die soziale Zugeh¨origkeit? Das Bildungsniveau der Eltern? Die Familiensituation? Na und noch einige andere. Zu all diesen m¨oglichen Kombinationen k¨onnen Sie unm¨oglich s¨amtliche Profile zeichnen, anschauen und bewerten. Sie m¨ochten eine Maßzahl haben, die angibt, wo ein Zusammenhang ist und wo nicht. Sie schauen sich dann nur die an, bei denen die Maßzahl anschl¨agt. Eine solche Maßzahl, den sogenannten Kontingenzkoeffizienten wollen wir jetzt herleiten. Idee: Da es nat¨ urlich unendlich viele Arten der Abh¨angigkeit gibt, w¨are es gut, herauszubekommen, wie sich X und Y bei Unabh¨angigkeit verhalten w¨ urden. Frage: Wie w¨aren die Zellen der Kontingenztabelle besetzt, wenn zum Beispiel das Geschlecht gar keinen Einfluss auf die Parteienvorliebe oder die Titanic-Bewertung aus¨ uben w¨ urde? Es m¨ ussten zum Beispiel ein paar mehr M¨anner den Film sehr gut finden. Dies gilt nat¨ urlich unter Beibehaltung der Rahmenbedingungen, also den absoluten Randh¨aufigkeiten. Das kann dann mit den empirischen Daten verglichen werden. Aus dem Ausmaß des Unterschiedes zwischen den theoretischen und den empirischen gemeinsamen H¨aufigkeiten, l¨asst sich dann das Ausmaß der Abh¨angigkeit ableiten. Wie kommt man zu diesen H¨aufigkeiten unter Unabh¨angigkeit. Dazu zwei Ideen: Die Zeilenbzw. Spaltenprofile sollten wie die mittleren Profile verlaufen. Bei Unabh¨angigkeit gilt, dass das Produkt der Einzelwahrscheinlichkeiten die Wahrscheinlichkeit f¨ ur das gemeinsame Auftreten ergibt. Vergleiche zwei W¨ urfel: → zweimal die Sechs intuitiv = 1 / 6 · 1 / 6 (vgl. Kapitel 3.1, Seite 146). Aus den oben knapp formulierten Ideen ergibt sich eine Formel zur Berechnung der absoluten H¨aufigkeiten unter Unabh¨angigkeit. Also was h¨atte ich beobachten m¨ ussen (gegeben die absoluten Randh¨aufigkeiten), wenn das Geschlecht keinen Einfluss auf die Bewertung des Filmes gehabt h¨atte. Diese H¨aufigkeiten k¨onnen per Differenzbildung mit dem verglichen werden, was Sie tats¨achlich beobachtet haben. Sind die Unterschiede insgesamt (also in der Summe) zu groß, dann unterscheiden sich die errechneten H¨aufigkeiten von den beobachteten. Sie k¨onnen dann nicht annehmen, dass die beiden Merkmale unabh¨angig sind, sie beeinflussen sich gegenseitig. Es ergibt sich folgende Formel zur Berechnung der unter Unabh¨angigkeit zu erwartenden absoluten H¨aufigkeiten f¨ ur das gemeinsame Auftreten von X und Y : Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="79"?> 80 Kapitel 2. Deskriptive Statistik Definition 2.14: H¨aufigkeiten unter Unabh¨angigkeit ˜ n ij = n i • · n • j n Je nachdem, in welcher Zelle Sie sind, m¨ ussen Sie einfach die beiden Randh¨aufigkeiten miteinander multiplizieren und durch die Gesamtzahl der Beobachtungen teilen (vgl. auch die Tabellen auf S. 72f) - das erinnert an die beiden W¨ urfel und das Vorgehen ist dazu absolut strukturgleich. F¨ ur das Beispiel sei dies einmal ausgerechnet. Unter Unabh¨angigkeit: Wie viele M¨anner h¨atten TITANIC sehr gut finden m¨ ussen: ˜ n 11 = 6 · 23 49 = 2 . 8 Unter Unabh¨angigkeit: Wie viele Frauen h¨atten TITANIC sehr schlecht finden m¨ ussen: ˜ n 25 = 4 · 26 49 = 2 . 1 Die folgende Tabelle zeigt f¨ ur alle Zellen die zu erwartenden absoluten H¨aufigkeiten unter Unabh¨angigkeit: y x 1 2 3 4 5 m 2.82 7.51 7.51 3.29 1.88 w 3.18 8.49 8.49 3.71 2.12 Tabelle 2.19: Erwartete absolute H¨aufigkeiten unter Unabh¨angigkeit Diese Tabelle mit den ˜ n ij ist mit den n ij , also den tats¨achlichen Beobachtungen zu vergleichen. Der Vergleich wird Schritt f¨ ur Schritt durchgef¨ uhrt - dies ist gewissermaßen als Kochrezept zu verstehen. 1. Differenzenbildung: Original Kontingenztabelle: n ij y x 1 2 3 4 5 m 1 4 9 6 3 w 5 12 7 1 1 Manipulierte Kontingenztabelle bei Unabh¨angigkeit: ˜ n ij y x 1 2 3 4 5 m 2.82 7.51 7.51 3.29 1.88 w 3.18 8.49 8.49 3.71 2.12 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="80"?> 2.3. Das Zweistichprobenproblem 81 Differenzenbildung: n ij − ˜ n ij y x 1 2 3 4 5 m -1.82 -3.51 1.49 2.71 1.12 w 1.82 3.51 -1.49 -2.71 -1.12 Unterschiedlichkeit wird nat¨ urlich durch Differenzenbildung etabliert. Man sieht deutlich was passiert: Die eine Gruppe ist unterbesetzt, die andere weist zu viele Beobachtungen auf: in Bezug auf Unabh¨angigkeit! 2. Quadrieren: Nat¨ urlicherweise w¨ urden Sie die Differenzen aufsummieren, um die Gesamtabweichung zu bekommen. Wie Sie sehen, klappt das nicht. Die Summe der Differenzen ist immer Null - wie bei den Varianzen, Sie erinnern sich. quadrierte Differenzen: ( n ij − ˜ n ij ) 2 y x 1 2 3 4 5 m 3.3124 12.3201 2.2201 7.3441 1.2544 w 3.3124 12.3201 2.2201 7.3441 1.2544 3. Normieren: Die absolute Entfernung ist nicht entscheidend, es geht um die relative. Liege ich 100 % oder nur 5 % von der Unabh¨angigkeit entfernt! und normiert: ( n ij − ˜ n ij ) 2 ˜ n ij y x 1 2 3 4 5 m 1.175 1.640 0.296 2.232 0.667 w 1.042 1.451 0.261 1.980 0.592 4. Summe aller (quadrierten und normierten) Entfernungen: Sie sind an der Gesamtentfernung interessiert, also in Bezug auf alle Zellen. Daher ist die Summe zu bilden, alle Zellen der letzten Tabelle sind aufzuaddieren. ... Pr¨ ufgr¨oße: k ∑ i =1 l ∑ j =1 ( n ij − ˜ n ij ) 2 ˜ n ij 11.33571 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="81"?> 82 Kapitel 2. Deskriptive Statistik Das doppelte Summenzeichen wird dem Umstand gerecht, dass Sie ¨ uber zwei Dimensionen aufaddieren m¨ ussen. Sie haben Schritt f¨ ur Schritt und durchaus intuitiv eine Zahl hergeleitet, die Ihnen etwas ¨ uber die Entfernung zur Unabh¨angigkeit verr¨at. Diese spezielle Maßzahl nennt man Pr¨ ufgr¨oße. Diese Pr¨ ufgr¨oße m¨ ussen Sie angemessen interpretieren. Die folgende Pr¨ ufgr¨oße beantwortet Ihnen also die Frage nach der Unterschiedlichkeit zwischen den empirischen Beobachtungen n ij und den theoretisch bei Unabh¨angigkeit zu erwartenden ˜ n ij (sprich: ”chiquadrat“): χ 2 = k ∑ i =1 l ∑ j =1 ( n ij − ˜ n ij ) 2 ˜ n ij Im Kapitel 5.2 Testtheorie werden Sie mit dieser Pr¨ ufgr¨oße weiterarbeiten und weitergehende Aussagen generieren k¨onnen. Dort wird dann auch das (in der Struktur ¨ahnliche) Konzept der Homogenit¨at behandelt. Tabelle 2.20: Die χ 2 -Pr¨ ufgr¨oße Hier wird zun¨achst als Maßzahl f¨ ur den Zusammenhang der Kontingenzkoeffizient K von Pearson vorgeschlagen: Definition 2.15: Kontingenzkoeffizient K = √ χ 2 χ 2 + n , mit K ∈ [0 , 1] Bei Null herrscht v¨ollige Unabh¨angigkeit - dann waren ja gerade alle Differenzen gleich Null und χ 2 nimmt den Wert Null an. Der Wert 1 deutet das gr¨oßte Ausmaß der Abh¨angigkeit an. Allerdings ist der Wert 1 mehr ein theoretischer, schauen Sie sich die Formel noch einmal an. Aber je gr¨oßer K wird, desto weiter entfernen Sie sich von der Unabh¨angigkeit. Im Beispiel: K = √ 11 . 34 11 . 34 + 49 = 0 . 433 Aber K ist in hohem Maße abh¨angig von der Dimension der zugrunde liegenden Kontingenztabelle. Der sogenannte korrigierte Kontingenzkoeffizient K ∗ ber¨ ucksichtigt die Dimensionen: Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="82"?> 2.3. Das Zweistichprobenproblem 83 Definition 2.16: korrigierter Kontingenzkoeffizient K ∗ = K · √ c c − 1 , mit c = min ( k, l ) Auch hier gilt: Je gr¨oßer K ∗ , desto gr¨oßer ist das Ausmaß des Zusammenhangs. Im Beispiel: K ∗ = 0 . 433 · √ 2 2 − 1 = 0 . 613 Das ist ein relativ hoher Wert, der darauf hinweist, dass zwischen Geschlecht und Titanic ein Zusammenhang besteht. Im Kapitel Testen werden Sie dar¨ uber hinausgehende Interpretationsm¨oglichkeiten kennenlernen. An dieser Stelle sei schon darauf hingewiesen, dass eine gewisse Mindestanzahl von Beobachtungen vorliegen sollte. Bei Null gibt es ja zum Beispiel durchaus Probleme. Nat¨ urlich k¨onnen auch metrisch skalierte Daten tabelliert werden, um dann die besprochene Maßzahl zu berechnen. Groß, mittel, klein vs. schwer, mittel, leicht. Aber es gehen nat¨ urlich Informationen verloren, da in den Daten aufgrund des Messniveaus mehr steckt. Diesen Zusammenh¨angen werden Sie sich im Folgenden widmen. Kurz gefasst! Die Kontingenztabelle ist die Basis, um zwei nominalskalierte Merkmale zu untersuchen. Zur fundierten Analyse der Unabh¨angigkeit bzw. Abh¨angigkeit der beiden Merkmal stehen Ihnen die bedingten relativen H¨aufigkeiten, die Profile und der Kontingenzkoeffizient zur Verf¨ ugung. 2.3.2 Korrelation In diesem Kapitel lernen Sie wie Sie den Zusammenhang zwischen zwei metrisch skalierten Daten analysieren k¨onnen. die entsprechenden Graphiken und Maßzahlen kennen. Im Grunde sind Sie wieder der gleichen Frage auf der Spur: Sind zwei Merkmale unabh¨angig oder beeinflussen sie sich gegenseitig? Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="83"?> 84 Kapitel 2. Deskriptive Statistik Sie sollen dies f¨ ur ordinal bzw. kardinalskalierte Daten tun. Fangen Sie mit einer geeigneten Darstellung an, dem sogenannten Scatterplot bzw. Streudiagramm. Dabei werden die Punktepaare ( x i / y i ) ∀ i in ein entsprechendes Koordinatensystem gezeichnet. ¨ Ublicherweise wird das X-Merkmal durch die horizontale Achse dargestellt. In die Graphik werden jeweils die beiden Mittelwerte als vertikale Linien eingezeichnet. Dadurch entstehen vier disjunkte Bereiche. Der Schnittpunkt der beiden Vertikalen ist der sogenannte Schwerpunkt der Daten. Man erkennt auf den ersten Blick (vgl. Abbildung 2.27), dass es wohl einen Zusammenhang gibt: → ”Je gr¨oßer, desto schwerer.“ Die gleiche Frage wie eben kann gestellt werden, wie l¨asst sich dieser Zusammenhang quantifizieren, wie kann er messbar gemacht werden? Sie suchen wieder eine Maßzahl (Pr¨ ufgr¨oße), ganz analog zu den kategorialen Daten, die Ihnen die Daten gem¨aß dieser Frage nach dem Zusammenhang geeignet verdichtet. Die Idee hier ist, dass Sie schauen, in welchen der 4 sogenannten Quadranten die meisten Punkte liegen. Abbildung 2.27: Scatterplot mit Schwerpunkt - Gr¨oße, Gewicht Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="84"?> 2.3. Das Zweistichprobenproblem 85 Liegen die meisten Punkte oben rechts und unten links, spricht das f¨ ur einen positiven Zusammenhang, d.h. der Zusammenhang der beiden Merkmale ist gleichgerichtet: Je gr¨oßer (X), desto schwerer (Y). Liegen die meisten Punkte dagegen oben links und unten rechts, spricht das f¨ ur einen negativen Zusammenhang, d.h. der Zusammenhang der beiden Merkmale ist entgegengesetzt: Je ¨alter das Auto (X), desto geringer der Wiederverkausfwert (Y). Ist keine solche Struktur zu erkennen, dann existiert kein Zusammenhang im genannten Sinn. Hier ist es wohl recht deutlich. Ein Vorschlag f¨ ur eine Maßzahl ist nun,: Der Zusammenhang ist positiv und 0.837 stark, denn es gilt 38 . 8 % + 44 . 9 % = 83 . 7 % . Und das ist ein sehr hoher Wert, der dicht am Maximum 1 liegt. Das Skalenniveau gibt aber mehr her. Die Maßzahl z¨ahlt daher nicht einfach, denn Sie haben ja ein h¨oheres Messniveau. Es werden die Abst¨ande von jedem Punktepaar zum Schwerpunkt gebildet, diese werden gewichtet und ¨ uber die Varianzen normiert. Das heißt, die Position jedes Punktepaares relativ zum Schwerpunkt wird ausgewertet. Dadurch ist eine viel sch¨arfere Aussage m¨oglich. Abbildung 2.28: Scatterplot mit #Punkten in den vier Quadranten - Gr¨oße, Gewicht Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="85"?> 86 Kapitel 2. Deskriptive Statistik Der sogenannte Korrelationskoeffizient von Bravais-Pearson sieht daher folgendermaßen aus - beachten Sie die Differenzbildung von jeder Stelle x i zum Mittelwerte ¯ x und von y i zu ¯ x und das f¨ ur alle Punktepaare ( x i / y i ) . Diese Entfernung wird aufaddiert und anschließend gemittelt und normiert: Definition 2.17: Korrelationskoeffizient von Bravais-Pearson r xy = 1 n n ∑ i =1 ( x i − ¯ x ) · ( y i − ¯ y ) √ √ √ √ 1 n n ∑ i =1 ( x i − ¯ x ) 2 · 1 n n ∑ i =1 ( y i − ¯ y ) 2 = d xy √ d 2 x · d 2 y Dabei ist d xy die sogenannte empirische Kovarianz. Es gilt: Definition 2.18: Empirische Kovarianz d xy = 1 n n ∑ i =1 ( x i − ¯ x ) · ( y i − ¯ y ) Wie bei den Varianzen l¨asst sich das ganze etwas angenehmer formulieren, um es per Hand zu berechnen: d xy = x · y − ¯ x · ¯ y , wobei x · y = 1 n n ∑ i =1 x i · y i Damit gilt f¨ ur den Korrelationskoeffizienten folgende Rechenregel: r xy = x · y − ¯ x · ¯ y √ (x 2 − ¯ x 2 ) · (y 2 − ¯ y 2 ) Tabelle 2.21: Korrelationskoeffizient von Bravais-Pearson Im Beispiel kommt ¨ ubrigens r xy = 0 . 73 heraus. Das ist ein recht großer Wert, er spricht f¨ ur einen deutlichen, positiven (linearen) Zusammenhang der beiden Merkmale. Sie sollen an einem ganz einfachen Beispiel r xy per Hand ausrechnen. Offenbar gilt im Beispiel, dass perfekte negative Korrelation vorliegt, die Punkte liegen auf einer Geraden mit negativer Steigung: Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="86"?> 2.3. Das Zweistichprobenproblem 87 Folgende Eigenschaften sind zu beachten: r xy ist eine Maßzahl f¨ ur den linearen Zusammenhang zwischen zwei Merkmalen. Es ist zu pr¨ ufen, ob die Annahme der Linearit¨at eine sinnvolle ist. → Ist der Zusammenhang anderer Art, ist r xy mit Vorsicht oder gar nicht zu verwenden. Wertebereich: −1 ≤ r xy ≤ 1 r xy = 1 → Es liegt ein perfekter linearer Zusammenhang mit positiver Steigung vor. r xy = −1 → Es liegt ein perfekter linearer Zusammenhang mit negativer Steigung vor. r xy ≈ 0 → Es liegt kein linearer Zusammenhang vor. Das heißt aber nicht, dass gar kein Zusammenhang vorliegen muss. Dieser kann anderer Natur sein, der von r xy nicht erkannt wird. → Im n¨achsten Kapitel Regression werden Sie noch eine weitere Interpretationsm¨oglichkeit kennenlernen und die Frage nach der Linearit¨at genauer beleuchten. Tabelle 2.22: Eigenschaften des Korrelationskoeffizienten x: 10 9 8 7 6 y: 3 4 5 6 7 F¨ ur dieses Beispiel sollen Sie einmal die Schritte durchgehen, die zur Berechnung von r xy notwendig sind. Zun¨achst soll der Scatterplot angeschaut werden. Alle Punkte liegen auf einer Geraden mit negativer Steigung: Abbildung 2.29: Scatterplot zum Rechenbeispiel Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="87"?> 88 Kapitel 2. Deskriptive Statistik Berechnung von r xy - Zutaten: xy = 1 5 · (10 · 3 + 9 · 4 + 8 · 5 + 7 · 6 + 6 · 7) = 38 ¯ x = 8 , ¯ y = 5 x 2 = 1 5 · (10 2 + 9 2 + 8 2 + 7 2 + 6 2 ) = 66 y 2 = 1 5 · (3 2 + 4 2 + 5 2 + 6 2 + 7 2 ) = 27 → r xy = 38 − 8 · 5 √ (66 − 64) · (27 − 25) = −2 √ 2 · 2 = −1 Nun haben Sie einmal hinter die Berechnungskulissen geschaut, das kann nicht schaden. Es ist keine Hexerei, wenn Excel oder eine andere Software oder sogar Ihr Taschenrechner Ihnen den Korrelationskoeffizienten serviert. Es ist vor allem Fleißarbeit. Das Prinzip und die angemessene Interpretation haben Sie aber verstanden und darauf kommt es an. Weisen die Daten lediglich ordinales Messniveau auf bzw. liegt bekanntermaßen kein linearer Zusammenhang vor, dann sollte der Rangkorrelationskoeffizient r s von Spearman verwandt werden. Dieser ist eine Maßzahl f¨ ur den monotonen Zusammenhang von zwei Merkmalen: x i < x j ⇔ y i < y j bzw. x i > x j ⇔ y i > y j Monotonie bedeutet in diesem Zusammenhang also: Gilt, wenn man zwei beliebige Punkte im Scatterplot vergleicht: Liegt der Punkt, der weiter rechts liegt, auch h¨oher? → monoton steigend = positiver Zusammenhang, wie in unserem Gr¨oße, Gewicht Beispiel. Oder gilt umgekehrt, dass der Punkt, der weiter rechts liegt, auch tiefer liegt → monoton fallend = negativer Zusammenhang, Alter des Autos, Wert des Autos. Die Merkmale X und Y werden bei dieser Betrachtung durch die R¨ange ersetzt: Definition 2.19: Rang r ( x i ) = Position von x i in der Rangwertreihe = Anzahl Beobachtungen ≤ x i Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="88"?> 2.3. Das Zweistichprobenproblem 89 Dazu ein kurzes Beispiel: x: 4 1 5 10 2 r(x): 3 1 4 5 2 Den Rangkorrelationskoeffizienten erhalten Sie, indem Sie in der Formel f¨ ur r xy statt x und y die R¨ange r ( x ) bzw. r ( y ) verwenden. Es werden also nicht mehr die tats¨achlichen Beobachtungen miteinander verglichen, sondern die jeweiligen Positionen, die die Beobachtungen in der Rangwertreihe einnehmen: Haben die relativen Positionen der Beobachtungen in der Rangwertreihe zueinander einen Bezug im Sinne der Korrelation? Anders formuliert: Ist das kleinste x auch mit dem kleinsten y gepaart? Usw. Definition 2.20: Rangkorrelationskoeffizient Die folgende Formel f¨ uhrt ebenfalls zum Ergebnis und sie hilft bei der inhaltlichen Interpretation - bei Bindungen (gleiche Beobachtungen) klappt es nicht ganz: r s = 1 − 6 · n ∑ i =1 d 2 i n · ( n 2 − 1) mit d i = r ( x i ) − r ( y i ) Der Wertebereich von r s ist identisch mit dem von r xy . Folgende Eigenschaften von r s sollten Sie kennen: r s = 1 → Alle R¨ange m¨ ussen gleich sein, d.h. die Punktepaare stehen jeweils an derselben Stelle in den Datens¨atzen. Es liegt ein streng monotoner Zusammenhang vor. Alle d i m¨ ussen Null sein, sonst kann der gesamte Ausdruck nicht 1 werden. r s = −1 → Analoge ¨ Uberlegungen. r s ≈ 0 Es liegt keine erkennbare Monotonie vor. Das Beispiel fortgesetzt: Berechnung der R¨ange von x und y: x 10 9 8 7 6 y 3 4 5 6 7 ----------------------------r(x) 5 4 3 2 1 r(y) 1 2 3 4 5 r(x) r(y) 4 2 0 -2 -4 quadriert 16 4 0 4 16 Summe: 16 + 4 + 16 + 4 = 40 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="89"?> 90 Kapitel 2. Deskriptive Statistik Abbildung 2.30: Vergleich der beiden Korrelationskoeffizienten - Gr¨oße, Gewicht Korrelationskoeffizient von Spearman: r s = 1 − 6 · 40 5 · (25 − 1) = 1 − 240 120 = 1 − 2 = −1 Auch hier kommt −1 heraus. Wenn vorher zum Beispiel der Wert x 1 = 10 mit y 1 = 3 usw. verglichen wurde, dann wird jetzt der Vergleich der R¨ange durchgef¨ uhrt. Und der f¨ uhrt dazu, dass der gr¨oßte X-Wert mit dem kleinsten Y -Wert, der zweitgr¨oßte X-Wert mit dem zweitkleinsten Y -Wert usw. verglichen wird. Es liegt tats¨achlich perfekte Monotonie vor. Die folgende Graphik versucht einmal, den Unterschied zwischen den beiden Koeffizienten graphisch darzustellen. Dazu sind sowohl der Original-Scatterplot der Daten als auch der Scatterplot der R¨ange dargestellt. Die beiden Graphiken sind nat¨ urlich nicht identisch, aber man sieht die Zusammenh¨ange gut. Korrelation bedeutet nicht notwendigerweise auch Kausalit¨at. Korrelation ersetzt keine Ursache-Wirkungs-Analyse! Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="90"?> 2.3. Das Zweistichprobenproblem 91 Es wird lediglich ein gemeinsames Verhalten gemeldet, was immer das genau bedeutet. Die inhaltliche Bewertung k¨onnen Ihnen die Maßzahlen nat¨ urlich nicht abnehmen. Scheinkorrelation heißt, das Merkmal X beeinflusst Y, aber nur unter dem Einfluss von Z. Es existiert im Prinzip eine Dreiecksbeziehung. X ist mit Z korreliert und Y ist ebenfalls mit Z korreliert. L¨asst man Z außen vor, dann sieht es so aus, als hingen X und Y zusammen. Da m¨ ussen Sie aufpassen. Dazu ein paar Beispiele: 1. ”Je massiver der Einsatz der Feuerwehr, desto gr¨oßer der Schaden.“ 2. ”Je h¨aufiger der Arztbesuch, desto gr¨oßer die Wahrscheinlichkeit zu sterben.“ 3. ”Je weniger St¨orche, desto weniger Geburten.“ 1. Die H¨ohe des Schadens (Y) h¨angt wohl nicht von der Gr¨oße des Feuerwehreinsatzes ab (X), so als ob die Feuerwehr den Schaden erst generierte, sondern von der Gr¨oße des Brandfalles (Z), von dem wiederum auch die Gr¨oße des Einsatzes (X) abh¨angt. Wenn Z groß ist, dann sind auch X und Y groß. 2. Die erh¨ohte Sterblichkeit (Y) h¨angt nicht von der H¨aufigkeit des Arztbesuches ab (X), so als ob der Arzt schlechte Arbeit leiste, sondern von der Schwere der Krankheit (Z), von der wiederum auch die H¨aufigkeit des Arztbesuches (X) abh¨angt. 3. Die sinkende Geburtenrate (Y) war nicht auf die sinkende Anzahl der St¨orche (X) zur¨ uckzuf¨ uhren, wie man einst ernstlich vermutete, sondern beide Ph¨anomene wurden von der fortschreitenden Meliorisierung bzw. Industrialisierung bzw. Urbanisierung (Z) verursacht. Diese nahm den St¨orchen den Lebensraum und ver¨anderte die Lebensbedingungen mitsamt der mentalen Einstellung zum Kinderreichtum. So war etwa der Kinderreichtum in den Familien mit der agrarischen Produktionsweise verbunden, die zunehmend abnahm. Kurz gefasst! Sie haben den Scatterplot als geeignete Graphik kennengelernt, um einen Zusammenhang zwischen zwei Merkmalen zu erkennen. F¨ ur den linearen Zusammenhang zwischen zwei metrisch skalierten Merkmalen ist der Korrelationskoeffizient von Bravais-Pearson geeignet. Liegt kein linearer Zusammenhang vor oder sind die Daten nur ordinal, dann ist der Rangkorrelationskoeffizient von Spearman die beste Wahl. Beachten Sie, dass eine Aussage zur Korrelation keine Ursache-Wirkungs- Analyse ersetzt (Scheinkorrelation). Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="91"?> 92 Kapitel 2. Deskriptive Statistik 2.3.3 Regression In diesem Kapitel lernen Sie wie Sie den Zusammenhang zwischen zwei Merkmalen modellieren k¨onnen. dazu die Regressionsanalyse kennen. Die Regressionsanalyse setzt auf der Korrelationsanalyse auf und f¨ uhrt diese gewissermaßen zu neuen H¨ohen, die Qualit¨at der Aussage ist eine andere. Der Korrelationskoeffizient macht Aussagen ¨ uber einen potenziellen linearen Zusammenhang zweier Merkmale. Im Gegensatz zum Korrelationskoeffizienten der Korrelationsanalyse wird die Richtung des Zusammenhangs im linearen Modell eindeutig festgelegt. Regress bezeichnet in der traditionellen Logik den R¨ uckgang, das R¨ uckschreiten des Denkens vom Bedingten auf die Bedingung, von der Wirkung auf die Ursache und vom Besonderen zum Allgemeinen. → Regression: Ein abh¨angiges Merkmal auf ein unabh¨angiges zur¨ uckf¨ uhren, um das abh¨angige somit urs¨achlich zu erkl¨aren. regressus: lat. R¨ uckgriff Auch hier kommen ausschließlich metrisch skalierte Merkmale zum Einsatz. Bei der (linearen) Regressionsanalyse wird versucht, eine lineare Beziehung zwischen den Merkmalen X und Y zu etablieren und zwar derart, dass X, als sogenannter Regressor, das Merkmal Y , als Regressand erkl¨aren soll. Im Sinne von: wenn X steigt, dann steigt auch Y bzw. umgekehrt. X wird dann auch als exogene und Y als endogene Variable bezeichnet. Anders formuliert: Mit Hilfe der exogenen Variable(n) soll urs¨achlich erkl¨art werden, warum das zu erkl¨arende Merkmal streut. Sie haben es hier also im weitesten Sinne mit einer speziellen Form der Varianzanalyse zu tun: Das endogene und zu erkl¨arende Merkmal Y weist unterschiedliche Beobachtungen auf (hat eine Streuung gr¨oßer Null), weil die exogene(n) Variable(n) X einen direkten urs¨achlichen Einfluss auf Y hat. Und X streut eben auch! Letzteres wird im Modell als gegeben angenommen. Es soll eine Gerade so angepasst werden, dass sie die Struktur (Richtung) der Daten maximal gut wiedergibt. Aus der Anpassung dieser Geraden lassen sich dann andere Aussagen ableiten, bspw. Prognosen. Ausgangspunkt ist wie bei der Korrelationsanalyse der Scatterplot. Schauen Sie sich noch einmal den bekannten Scatterplot zu Gr¨oße und Gewicht an, und platzieren Sie per Augenmaß eine optimale Gerade (vgl. Seite 84). Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="92"?> 2.3. Das Zweistichprobenproblem 93 Finden Sie erste (intuitive) Kriterien f¨ ur die Lage der Geraden? Welchen Weg muss die Gerade nehmen, um die Daten angemessen zu repr¨asentieren? Einigermaßen formal gesprochen: Um die beste Gerade zu finden, ist das Folgende zu tun: Bestimme diejenige Gerade, f¨ ur die gilt, dass die quadrierten Abst¨ande aller Punkte zur Gerade minimal sind. Diese Gerade ist die Regressionsgerade. Damit haben Sie sozusagen eine Prosabeschreibung dessen, was zu tun ist. Intuitiv scheint das Sinn zu machen: Die beste Gerade zur Beschreibung des Zusammenhangs zweier Merkmale ist wohl diejenige, welche insgesamt am dichtesten an den Punkten liegt, sozusagen durch das Herz der Punkte verl¨auft. Das ist zu formalisieren! Zun¨achst stellt sich die Frage, was eine Gerade auszeichnet? Jede Gerade ist durch die folgende Gleichung bestimmt: y = a + b · x Eine Zahl x wird mit der Steigung b multipliziert, anschließend wird der sogenannte y-Achsenabschnitt a hinzuaddiert. So kann jede Gerade eindeutig bestimmt werden. Eine Gerade hat an jeder beliebigen Stelle der X-Achse dieselbe Steigung! Hier haben Sie es mit Punktepaaren zu tun, also gilt: y i = a + b · x i Jeder Punkt im Scatterplot ist bestimmt durch die beiden Koordinaten: ( x i , y i ) , zum Beispiel Gr¨oße (x) und Gewicht (y). F¨ ur zum Beispiel Gr¨oße und Gewicht soll eine Gerade angepasst werden und zwar mit Hilfe der eben formulierten Idee. Notation der optimalen, aus den Daten gesch¨atzten Gerade: ˆ y i = ˆ a + ˆ b · x i Das kleine Dach, zum Beispiel hier ˆ a (sprich ”a Dach“), kennen Sie bereits. Es weist daraufhin, dass aus empirischen Daten bestimmte Parameter errechnet werden. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="93"?> 94 Kapitel 2. Deskriptive Statistik Abbildung 2.31: Scatterplot mit Abst¨anden zur Geraden - Gr¨oße, Gewicht Um die Regressionsgerade zu finden, m¨ ussen ˆ a und ˆ b bestimmt werden. Der vertikale Abstand d i zur Geraden kann folgendermaßen berechnet werden. Die sogenannten Residuen d i : Definition 2.21: Residuen d i = y i − ˆ y i = y i − (ˆ a + ˆ b · x i ) Das ist nicht weiter kompliziert. In der Graphik k¨onnen Sie es noch einmal sehen, es sind die vertikal eingezeichneten Striche, und das sind lediglich die Abst¨ande zwischen dem tats¨achlich beobachteten Wert (y i ) und dem vom Modell prognostizierten ( ˆ y i ). Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="94"?> 2.3. Das Zweistichprobenproblem 95 Offensichtlich gilt: Je kleiner diese Differenzen in der Summe sind, desto besser ist die Gerade dazu geeignet, damit die Daten zu modellieren. Diese Gerade gibt es ja noch nicht. Das heißt, die Aufgabe besteht darin, a und b so zu w¨ahlen, dass die Abst¨ande minimal sind. Damit ergibt sich folgende Optimierungsaufgabe (Methode der kleinsten Quadrate, MKQ): n ∑ i =1 d 2 i = n ∑ i =1 ( y i − ˆ a − ˆ b · x i ) 2 → min a,b Die Gerade soll insgesamt optimal liegen, daher ist die Summe der (quadrierten) Abst¨ande von den Punkten zur Gerade zu minimieren. Nach Anwendung der entsprechenden Mathematik ergeben sich folgende Sch¨atzer ˆ a und ˆ b - in Aufgabe 12 zu diesem Kapitel k¨onnen Sie das einmal nachweisen: ˆ a = ¯ y − ˆ b · ¯ x ˆ b = xy − ¯ x · ¯ y x 2 − ¯ x 2 Tabelle 2.23: Die Sch¨atzer ˆ a und ˆ b f¨ ur die Regressionsgerade Die Zutaten sind Ihnen mittlerweile alle gut bekannt. Alles was Sie an Rechenwerk ben¨otigen, haben Sie im Rahmen der Korrelation bereits kennengelernt und erfolgreich angewandt. Das ist auch kein Wunder - Regression und Korrelation sind sehr miteinander verwandt. Es soll noch ein Beispiel gerechnet werden, um im Anschluss die Interpretation kennenzulernen. Folgende Daten seien gegeben, n = 5 : x: 10 12 14 11 13 y: 9 10 11 10 11 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="95"?> 96 Kapitel 2. Deskriptive Statistik Abbildung 2.32: Scatterplot Beispiel zur Berechnung der Regressionsgeraden Bekanntermaßen sind einige Hilfsgr¨oßen zu berechnen. Bei so kleinen Datens¨atzen kann die folgende Tabelle hilfreich sein - wenn Sie zu Fuß per Hand und Taschenrechner unterwegs sind: x.i y.i x.quadrat y.quadrat x mal y ------------------------------------------- 10 9 100 81 90 12 10 144 100 120 14 11 196 121 154 11 10 121 100 110 13 11 169 121 143 ------------------------------------------- 60 51 730 523 617 Tabelle 2.24: Tabelle zur Berechnung der Hilfsgr¨oßen bei der Regression Die Zwischengr¨oßen: ¯ x = 12 , ¯ y = 10 , 2 , x 2 = 146 , x · y = 123 , 4 Nun k¨onnen die Sch¨atzer berechnet werden: ˆ b = 123 , 4 − 12 · 10 , 2 146 − 12 2 = 0 , 5 → ˆ a = 10 , 2 − 0 , 5 · 12 = 4 , 2 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="96"?> 2.3. Das Zweistichprobenproblem 97 Damit gilt f¨ ur die Regressionsgerade: ˆ y = 4 , 2 + 0 , 5 · x Der Korrelationskoeffizient braucht noch: y 2 = 104 , 6 r xy = 123 , 4 − 12 ∗ 10 , 2 √ (146 − 144) · (104 , 6 − 104 , 04) = 0 , 945 So sieht der Scatterplot dann mit eingezeichneter Gerade aus: Abbildung 2.33: Scatterplot Beispiel der Regressionsgeraden Schauen Sie sich noch einmal das Beispiel Gr¨oße vs. Gewicht an. Um die G¨ ute der Anpassung beurteilen zu k¨onnen, ist es wichtig, einen Blick auf die Residuen zu werfen. Diese d¨ urfen keine erkennbare Struktur mehr aufweisen! Ist eine deutliche Struktur erkennbar, dann ist das Modell ungeeignet. F¨ ur diese Beurteilung wird der sogenannte Residuenplot gezeichnet. Dazu wird ¨ uber jedem x i ein Stab abgetragen mit der H¨ohe d i , diese H¨ohen schwanken um Null. Die Frage ist, wie schwanken sie um Null. Die Residuen sind sozusagen der Rest, die restliche Streuung, die durch das Modell gerade nicht erkl¨art werden kann. Diese m¨ ussen zuf¨alliger Natur sein, denn existiert noch eine sogar per Augenmaß erkennbare Struktur, dann hat das Modell gewisse Zusammenh¨ange nicht erkannt und nicht abgebildet und ist damit ungeeignet. Die lineare Regression kann nur eines erkl¨aren, die sogenannte Bewegung auf der Geraden, das ist der Kausalansatz. Im Beispiel bedeutet es: Wenn jemand gr¨oßer ist, dann ist die Wahrscheinlichkeit groß, dass die Person auch schwerer ist. Das wird ausgenutzt. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="97"?> 98 Kapitel 2. Deskriptive Statistik Abbildung 2.34: Scatterplot, Regressionsgerade und Residuenplot mit Abst¨anden zur Geraden - Gr¨oße, Gewicht Streuung im Merkmal Y (dem abh¨angigen) wird durch Variation im Merkmal X (dem unabh¨angigen) erkl¨art. Warum X streut, wird nicht hinterfragt. Dies ist eine einfache Form der Varianzanalyse. Warum eine Person nicht exakt so groß ist, wie das Modell voraussagt, kann nat¨ urlich nicht erkl¨art werden. Das ist die sogenannte Streuung um die Gerade, die Residuen. Wenn darin noch Struktur steckt, muss ein anderes Modell gew¨ahlt werden. Im Residuenplot in der Abbildung 2.34 ist keine solche Struktur erkennbar: die lineare Anpassung ist angemessen. Es sollen Eigenschaften und Interpretationen der vorgestellten Geradenanpassung aufgelistet werden: 1. Die Regressionsgerade verl¨auft immer durch den Schwerpunkt der Daten. 2. Die Steigung ˆ b der Regressionsgeraden gibt an, um wie viele Einheiten (laut Modell! ) sich der Wert von y ver¨andert, wenn x um eine Einheit erh¨oht wird. → Das kann das Modell erkl¨aren: Die Bewegung auf der Geraden. Mehr nicht. 3. Der y-Achsenabschnitt ˆ a gibt den autonomen Wert von y an, wenn x gerade Null ist. Das ist nicht immer interpretierbar. Bei der keynesianischen Konsumfunktion k¨onnen Sie beide Paramameter gut Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="98"?> 2.3. Das Zweistichprobenproblem 99 interpretieren - Y sei das Einkommen, und C () die Konsumfunktion: C ( Y ) = C a + C Y · Y Hierbei ist C a dann der autonome Konsum und C Y die marginale Konsumneigung. 4. Die G¨ ute der Anpassung eines linearen Modells k¨onnen Sie durch den Anteil der durch das Modell erkl¨arten Streuung an der Gesamtstreuung von y ermessen. Das sogenannte Bestimmtheitsmaß R 2 erf¨ ullt diese Aufgabe: R 2 = ˆ b 2 · x 2 − ¯ x 2 y 2 − ¯ y 2 oder R 2 = r 2 xy also den bekannten Korrelationskoeffizienten zum Quadrat. R 2 · 100 gibt in % den Anteil der erkl¨arten Streuung an. Die Streuung der y i kann durch das Modell in einen erkl¨arten Teil und einen unerkl¨arten Teil zerlegt werden. Mit Hilfe des Modells kann der Teil der Streuung erkl¨art werden, der auf der Geraden stattfindet, also die Streuung der ˆ y i . Dieser Anteil ist gerade das Bestimmtheitsmaß. Die unerkl¨arte Reststreuung ist die Streuung der Residuen um die Gerade herum. Die kann nat¨ urlich gerade nicht erkl¨art werden. 5. Es gilt: 0 ≤ R 2 ≤ 1 6. Es ist immer wichtig, sich die Residuen anzuschauen. Es ist zu pr¨ ufen, ob diese noch eine Struktur aufweisen. Diese Pr¨ ufung kann als Modellcheck bezeichnet werden. Es k¨onnte bspw. sein, dass mit steigenden x − Werten die Streuung der Residuen zunimmt. Dann scheint die Anpassung einer Geraden nicht optimal zu sein. 7. Prognosen k¨onnen gemacht werden, in dem x-Werte eingesetzt werden, die in den empirischen Daten nicht vorkommen. Bei Zeitreihen ist das X-Merkmal die Zeit. Dann k¨onnen Prognosen in die Zukunft gemacht werden. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="99"?> 100 Kapitel 2. Deskriptive Statistik Bei der multiplen Regression ist das Vorgehen analog. Es gibt allerdings mehr als eine erkl¨arende Variable. Dar¨ uberhinaus kann nat¨ urlich auch ein anderer als ein linearer Zusammenhang modelliert werden. Auch hier kann die MKQ benutzt werden. Die lineare Regression ist sehr verbreitet und wird vielfach eingesetzt. Die Annahme der Linearit¨at ist eine h¨aufig anzutreffende. Ein weiteres Beispiel zur Regression aus den Fragebogendaten ist das folgende - Gr¨oße und Schuhgr¨oße (Y ) wurden in Zusammenhang gebracht. Wenn Sie noch einmal die Graphik 2.34 auf der Seite 98 betrachten, dann finden Sie oben angegeben den Korrelationskoeffizient (0.733) und das Bestimmtheitsmaß (0.54). Vergleichen Sie das einmal mit der Regression f¨ ur Gr¨oße und Schuhgr¨oße. Was f¨allt Ihnen auf? Abbildung 2.35: Scatterplot, Regressionsgerade und Residuenplot mit Abst¨anden zur Geraden - Gr¨oße, Schuhgr¨oße Der Korrelationskoeffizient von Bravais-Pearson ist eine Maßzahl f¨ ur den linearen Zusammenhang, denn eine grunds¨atzliche lineare Beziehung zwischen den Daten wird angenommen. Der Koeffizient zum Quadrat ist gerade der Anteil der erkl¨arten Streuung bei der linearen Anpassung. Die folgende Abbildung zeigt vier verschiedene Punktewolken. Der Korrelationskoeffizient ist jeweils angegeben. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="100"?> 2.3. Das Zweistichprobenproblem 101 Abbildung 2.36: Unterschiedliche Korrelationen In der Abbildung 2.37 ist in der oberen Reihe jeweils derselbe Scatterplot abgetragen. Links ist eine lineare Anpassung durchgef¨ uhrt worden, rechts eine quadratische. Der Anteil der erkl¨arten Varianz, das Bestimmtheitsmaß, ist in beiden F¨allen sehr hoch, im quadratischen Fall sogar noch ein bißchen gr¨oßer. Man sieht in den jeweils in der unteren Reihe dargestellten Residuenplots sehr sch¨on, was es heißt, wenn noch Struktur in den Residuen steckt. Die lineare Anpassung ist hier unangemessen, obwohl das Bestimmtheitsmaß bei fast 88 % liegt. Aber mit diesem Modell machen Sie systematische Prognosefehler. Man muss immer beides durchf¨ uhren: den Modellcheck und die G¨ ute der Anpassung bewerten. Zum Abschluss ist in Abbildung 2.38 einmal eine Logarithmus-Funktion an eine Datensituation angepasst. Bei diesen Daten gilt das Gesetz des abnehmenden Grenznutzens, und das ist nicht linear, es wird eine S¨attigung erreicht. Dargestellt sind Ausgaben f¨ ur Fernsehwerbung (X) und die korrespondierende Anzahl von Zuschauern, die man erreicht (Y ). Es ist klar, dass man diese Anzahl zun¨achst dadurch sehr stark steigern kann, dass man mehr Geld ausgibt, also pr¨asenter ist. Aber irgendwann kippt der Zusammenhang, es wird immer schwerer noch mehr Menschen zu erreichen, weil man immer ¨ofter nur die erreicht, die man schon hat. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="101"?> 102 Kapitel 2. Deskriptive Statistik Abbildung 2.37: Quadratische Anpassung Kurz gefasst! Die Regressionsanalyse versucht, ein Merkmal durch ein anderes zu erkl¨aren, die Kausalit¨at ist zu pr¨ ufen. Die lineare Regression setzt eine gewisse und grunds¨atzliche lineare Beziehung zwischen den beiden Merkmalen voraus. Zur Beurteilung sind wichtig: der Modellcheck, also das Pr¨ ufen auf Struktur im Residuenplot, und die G¨ ute der Anpassung, das Bestimmtheitsmaß als Anteil der erkl¨arten Varianz. Neben der linearen Regression haben Sie kurz die multiple und die nicht lineare Regression kennengelernt. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="102"?> 2.3. Das Zweistichprobenproblem 103 Abbildung 2.38: Logarithmus-Anpassung 2.3.4 Konzentrationsmessung In diesem Kapitel lernen Sie ob ein Merkmal wie Einkommen gleich (gerecht) in einer bestimmten Gruppe von Personen verteilt ist. eine Maßzahl sowie eine Graphik zur Beurteilung der Verteilungsfrage kennen. In der folgenden Tabelle 2.25 sind die verf¨ ugbaren Einkommen der Haushalte der Bundesrepublik Deutschland dargestellt. Es sind 14 Einkommensklassen gebildet worden. Je gr¨oßer die Klassennummer, desto gr¨oßer das Einkommen der Haushalte in der Klasse. Es liegt also ordinales Messniveau vor! Die erste Prozentzahl gibt den mengenm¨aßigen Anteil der Haushalte in der jeweiligen Klasse an — zum Beispiel 27 % aller Haushalte fallen in die erste Klasse mit dem geringsten Einkommen —, die zweite Prozentzahl den Anteil am Gesamteinkommen — die erste Klasse hat einen Anteil von 1.6 % am Gesamteinkommen. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="103"?> 104 Kapitel 2. Deskriptive Statistik Anteil.Haushalte(X) Anteil.Einkommen(Y) -------------------------------------------- 1 27.0% 1.6% 2 8.2% 2.5% 3 8.6% 4.5% 4 8.9% 6.4% 5 8.1% 7.6% 6 8.3% 9.3% 7 7.2% 9.7% 8 5.8% 9.0% 9 4.5% 7.8% 10 3.4% 6.6% 11 4.6% 11.4% 12 3.0% 10.5% 13 1.6% 7.3% 14 0.8% 5.8% -------------------------------------------- 100% 100% Tabelle 2.25: Verteilung des verf¨ ugbaren Einkommens auf die Haushalte der Bundesrepublik Deutschland Man k¨onnte die Frage stellen: Wie gut ist das verf¨ ugbare Einkommen verteilt? Diese Tabelle soll in Bezug auf die Verteilung der Einkommen auf die verschiedenen Klassen betrachtet werden. Ist die Verteilung der Einkommen gerecht bzw. gleich? Es soll keine Gerechtigkeitsdiskussion initiiert werden, der Blick soll auf Gleichheit bzw. Ungleichheit gelenkt werden. Ein erster Blick auf die Tabelle zeigt uns, dass in der ersten Spalte große Prozentzahlen eher am Anfang stehen, in der zweiten Spalte dagegen eher am Ende. Der Korrelationskoeffizient ist ¨ ubrigens r xy = −0 . 6 . Wie w¨ urden Sie das interpretieren? Sie wollen Ihren Blick sch¨arfen. Dazu schauen Sie sich einmal die kumulierten Anteile in Tabelle 2.26 an. Diese Tabelle mit den kumulierten relativen Anteilen ist die Basis f¨ ur die sogenannte Lorenzkurve und den Gini-Koeffizienten. Beide, die Graphik und die Maßzahl, helfen uns, Ungleichheit transparent zu machen. Die Lorenzkurve ist nichts anderes als die graphische Darstellung der Tabelle, es ist ein Scatterplot der beiden Anteilswerte. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="104"?> 2.3. Das Zweistichprobenproblem 105 Klasse Anteil.Haushalte Anteil.Einkommen ----------------------------------------- 1 27.0 1.6 2 35.2 4.1 3 43.8 8.6 4 52.7 15.0 5 60.8 22.6 6 69.1 31.9 7 76.3 41.6 8 82.1 50.6 9 86.6 58.4 10 90.0 65.0 11 94.6 76.4 12 97.6 86.9 13 99.2 94.2 14 100.0 100.0 ----------------------------------------- Tabelle 2.26: Kumulierte Betrachtung der Einkommensverteilung Abbildung 2.39: Lorenzkurve zur Einkommensverteilung Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="105"?> 106 Kapitel 2. Deskriptive Statistik Wie k¨onnen Sie Graphik und die beiden Zahlenangaben interpretieren? Auf der horizontalen Achse (X-Achse) ist der Anteil der Haushalte in der jeweiligen Klasse an der Gesamtzahl der Haushalte abgetragen, auf der vertikalen Achse (Y-Achse) der Anteil der Haushalte am Gesamteinkommen. Es sind dann die kumulierten Werte aus der Tabelle 2.26 dargestellt, die miteinander verbunden werden. W¨ urde jede Klasse ¨ uber den Anteil am Einkommen verf¨ ugen, der ihrer Gr¨oße entspricht, dann w¨ urde die Kurve genau auf der Diagonalen (Winkelhalbierenden) liegen, und es w¨ urde nat¨ urlich keine Fl¨ache aufklaffen, es w¨ urde perfekte Gleichverteilung herrschen. Die Fl¨ache zwischen der Diagonalen und der Kurve gibt das Ausmaß der Ungleichverteilung an, zus¨atzlich betont durch die senkrechten Striche. Je gr¨oßer die Fl¨ache, desto gr¨oßer die Ungleichverteilung. Die Fl¨ache entsteht dadurch, dass am Anfang viel schneller nach rechts gewandert wird als nach oben. Die 1. Klasse macht 27 % aller Haushalte aus, sie hat aber am Gesamteinkommen nur einen Anteil von 1.6 %. Diese Struktur ist am Anfang zu beobachten. Am Ende ist es genau umgekehrt. Die zum Vergleich eingezeichnete Winkelhalbierende, also diejenige Gerade, die durch den Ursprung verl¨auft und Steigung 1 hat, stellt die perfekte Gleichverteilung des Einkommens dar. Man sieht, der 1. Punkt liegt weit unterhalb der Winkelhalbierenden. L¨age der Punkt darauf, dann h¨atte die 1. Klasse gerade einen so großen Anteil am Einkommen, wie sie Anteil an allen Haushalten aufweist. Die Maßzahl f¨ ur die Ungleichheit ist der Gini-Koeffizient. Dieser nimmt den Wert 0 . 57 an. Der Gini-Koeffizient ist das Verh¨altnis von tats¨achlicher aufklappender Fl¨ache (hier = 0.264) zur maximal m¨oglichen Fl¨ache. Bei 14 Klassen, wie im Beispiel, kann die Fl¨ache nicht gr¨oßer werden als 0 . 464 . Und 0 . 264 / 0 . 464 = 0 . 57 → 57 % von der maximalen Ungleichverteilung ist ein relativ hoher Wert. Noch einmal deutlicher: Die Fl¨ache, die zwischen der Lorenzkurve und der Geraden aufklafft, ist die Konzentrationsfl¨ache. Theoretisch, also bei ganz vielen Klassen, kann diese maximale Fl¨ache nicht gr¨oßer als 1/ 2 werden. Dies ergibt sich aus der Formel zur Berechnung einer Dreiecksfl¨ache: Grundseite · H¨ohe 2 = 1 · 1 2 = 1 / 2 Praktisch kann sie aber nicht gr¨oßer werden als: Fl¨ache max = 1 / 2 · (1 − 1 / n ) = 1 / 2 · (1 − 1 / 14) = 0 . 464 Sie sehen, was passiert, wenn Sie mal eine sehr große Zahl f¨ ur n einsetzen. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="106"?> 2.3. Das Zweistichprobenproblem 107 Die Gr¨oße der Fl¨ache betr¨agt in diesem Fall gerade 0 . 26 - die konkrete Berechnung soll an dieser Stelle ausgespart werden. Die Interpretation ist wichtiger. Diese Fl¨ache von 0 . 26 wird auf die 0 . 464 bezogen werden, das Ergebnis ist der Gini- Koeffizient. Die n¨achste Graphik zeigt die bereits bekannte Verteilung des verf¨ ugbaren Einkommens sowie (rechts oben) die Verteilung nach dem staatlichen Umverteilungsprozess. Einige Haushalte bekommen etwas, andere geben etwas ab. Die dritte Graphik ist ein fiktiver Datensatz und zeigt die Lorenzkurve im Falle maximaler Ungleichverteilung bei zehn Klassen: Wie Sie sehen, hat die Umverteilung zu einer h¨oheren Verteilungsgerechtigkeit gef¨ uhrt bzw. zu einer etwas geringeren Konzentration des verf¨ ugbaren Einkommens. Der Staat hat ein großes Interesse daran, dass die Ungleichheit bei der Verteilung des Einkommens nicht zu groß wird. Daher sind solche und ¨ahnliche Berechnungen der Statistiker in Wiesbaden von großer Bedeutung. Abbildung 2.40: Lorenzkurve nach staatlicher Umverteilung Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="107"?> 108 Kapitel 2. Deskriptive Statistik Kurz gefasst! Mit Hilfe der Konzentrationsmessung k¨onnen Sie die Verteilung eines Merkmals innerhalb einer bestimmten Gruppe analysieren. Dazu gaben Sie die Lorenzkurve und den Gini-Koeffizienten kennengelernt. 2.3.5 Aufgaben 1. Was ist der Unterschied zwischen dem verbundenen und dem unverbundenen Zweistichprobenproblem? (a) Welche Fragestellungen interessieren? (b) Geben Sie f¨ ur jeweils ein Anwendungsbeispiel an! 2. Geben Sie bei jedem der folgenden F¨alle an, ob es sich um ein verbundenes oder um ein unverbundenes Zweistichprobenproblem handelt. (a) Um zu ¨ uberpr¨ ufen, ob sich die Reaktionszeit vor dem Essen von der Reaktionszeit nach dem Essen unterscheidet, werden zehn Personen zuf¨allig ausgew¨ahlt und ihre Reaktionszeit vor und nach dem Essen miteinander verglichen. (b) Es soll untersucht werden, ob sich Krankenh¨auser hinsichtlich der Verweildauer nach einer bestimmten Operation unterscheiden. Hierzu werden in jedem Krankenhaus die Verweilzeiten von jeweils f¨ unf Patienten bestimmt. (c) Es soll untersucht werden, ob IBM-Studenten in der Statistik-Klausur besser abschneiden als TEM-Studenten. Dazu werden jeweils zehn Klausuren zuf¨allig ausgew¨ahlt und die Punktzahl notiert. 3. Von den Passagieren auf der Titanic waren 337 in der 1. Klasse, 285 in der 2. Klasse und 721 in der 3. Klasse. Es waren 885 Besatzungsmitglieder an Bord. Von den Passagieren der ersten Klasse wurden nach dem Ungl¨ uck 135 vermisst, von denen der zweiten Klasse 160, von denen der dritten Klasse 541 und von der Besatzung 674. (a) Erstellen Sie eine Kontingenztabelle. (b) Bestimmen Sie die korrespondierenden bedingten relativen H¨aufigkeiten, interpretieren Sie diese und stellen Sie sie graphisch dar. (c) Bestimmen Sie den korrigierten Kontingenzkoeffizienten K ∗ . 4. Auf dem Fragebogen wurden Studierende nach ihrer Parteienvorliebe sowie nach ihrer Anreise zur Hochschule gefragt. In der folgenden Tabelle sind die Antworten zusammengefasst. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="108"?> 2.3. Das Zweistichprobenproblem 109 Auto ¨offentl. ---------------------- CDU 14 20 FDP 4 7 GR¨UNE 1 6 keine 2 7 LINKE 0 2 SONST 1 1 SPD 2 18 (a) Bestimmen Sie die korrespondierenden bedingten relativen H¨aufigkeiten, interpretieren Sie diese und stellen Sie sie graphisch dar. (b) Bestimmen Sie den korrigierten Kontingenzkoeffizienten K ∗ . (c) Rechnen Sie einmal mit Ihren Antworten vom Fragebogen! 5. Es soll untersucht werden, ob der Zustand eines Patienten nach einer Operation vom Krankenhaus abh¨angt, in dem er operiert wird. Außerdem soll noch der gesundheitliche Zustand des Patienten bei der Einlieferung ins Krankenhaus ber¨ ucksichtigt werden. Es wurden die Krankenh¨auser A und B betrachtet. Es ergaben sich folgende Daten: F¨ ur Patienten mit gutem Zustand bei der Einlieferung: Krankenhaus A Krankenhaus B gestorben 6 8 ¨uberlebt 594 592 F¨ ur Patienten mit schlechtem Zustand bei der Einlieferung: Krankenhaus A Krankenhaus B gestorben 57 8 ¨uberlebt 1443 192 (a) Bestimmen Sie die relativen ¨ Uberlebensh¨aufigkeiten der Patienten in den beiden Krankenh¨ausern f¨ ur die beiden Zust¨ande der Patienten bei der Einlieferung. (b) Bestimmen Sie die aggregierte Kontingenztabelle mit den Variablen Zustand nach der Operation und Krankenhaus. (c) Bestimmen Sie die relativen ¨ Uberlebensh¨aufigkeiten in den beiden Krankenh¨ausern. (d) F¨allt Ihnen etwas auf? (e) Dieses Ph¨anomen bezeichnet man auch als Simpson’s Paradox. Versuchen Sie, dar¨ uber etwas herauszufinden. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="109"?> 110 Kapitel 2. Deskriptive Statistik Abbildung 2.41: Regression und Klausur 6. Die folgende Abbildung 2.41 ist ein Auszug aus einer Klausur. Bewerten Sie einmal, wie die Kommilitonin vorgegangen ist. 7. Am 20. Januar 1986, kaum zwei Minuten nach ihrem Start, explodierte das Spaceshuttle Challenger. Ein oder mehrere Dichtungsringe versagten, so dass heiße Gase ausstr¨omen konnten. Eine (positive) Reaktion der Dichtungsringe auf warme Außentemperaturen war wohl bekannt, d.h. warme Temperaturen sind unproblematisch. Die Wettervorhersage f¨ ur diesen 24. Start im NASA Spaceshuttle-program lag bei 31 F (knapp unter dem Gefrierpunkt). So kalt war es noch nie vor einem Start. Um einen m¨oglichen Einfluss der K¨alte zu bestimmen, wurden von den vorher stattgefundenen Fl¨ ugen diejenigen betrachtet, bei denen ein oder mehrere Dichtungsringe nicht korrekt funktioniert haben. Dazu wurden bei diesen insgesamt sieben Fl¨ ugen die Bodentemperatur beim Start mit der Anzahl der undichten Ringe verglichen. Bei den anderen 16 Fl¨ ugen ging alles glatt, diese Informationen wurden also nicht ber¨ ucksichtigt. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="110"?> 2.3. Das Zweistichprobenproblem 111 Hier die Datenlage zu den sieben Fl¨ ugen (Temperaturen in Fahrenheit, Anzahl defekte Dichtungsringe bei der Temperatur): 1 53 57 58 63 70 70 75 2 1 1 1 1 1 2 (a) Stellen Sie die Daten in einem Scatterplot dar. Was sehen Sie? (b) Bestimmen Sie den Korrelationskoeffizienten. (c) Bestimmen die Regressionsgerade. (d) Zeichnen Sie diese in das Streudiagramm ein. (e) Interpretieren Sie Ihr Ergebnis. (f) Berechnen Sie den Wert ˆ Y , den das Modell f¨ ur X = 32 vorhersagt, also die Anzahl der defekten Dichtungsringe. In der folgenden Tabelle sind die vollst¨andigen Daten aller bisherigen 23 Fl¨ uge zusammengetragen: Temperatur Dichtungsringe 1 53 2 2 57 1 3 58 1 4 63 1 5 66 0 6 67 0 7 67 0 8 67 0 9 68 0 10 69 0 11 70 0 12 70 0 Temperatur Dichtungsringe 13 70 1 14 70 1 15 72 0 16 73 0 17 75 0 18 75 2 19 76 0 20 76 0 21 78 0 22 79 0 23 81 0 Es gilt temperatur 2 = 4886 . 957 . (g) Wiederholen Sie die Schritte 7a-7f mit den gesamten Daten. (h) Zu welcher Einsch¨atzung kommen Sie nun? (i) Bewerten Sie den Umstand, dass ein Teil der Daten nicht ber¨ ucksichtigt wurde. 1 Vgl. zum Beispiel [Tiemann2003], S. 208f Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="111"?> 112 Kapitel 2. Deskriptive Statistik 8. In der folgenden Tabelle ist das Alter (in Jahren) und der Verkaufspreis in e eines Golf IV Variant angegeben: (Quelle: ADAC Liste) alter preis ------------- 0 18850 1 14400 2 11400 3 10100 4 8900 5 7825 6 6925 7 6175 Die Summe der Produkte, also ∑ Alter · Preis, betr¨agt 227 000, die durchschnittliche Summe der Quadrate der Preise, also preis 2 betr¨agt 127 647 422, die entsprechende von alter ist gerade 17.5. (a) Erstellen Sie das Streudiagramm der Daten. (b) Bestimmen und interpretieren Sie den Wert des Korrelationskoeffizienten von Bravais-Pearson. (c) Bestimmen Sie den Korrelationskoeffizienten von Spearman. (d) ¨ Uberpr¨ ufen Sie Ihr Ergebnis, indem Sie einmal die R¨ange im Streudiagramm darstellen. (e) Was halten Sie von einer linearen Regression, um den Preisverfall zu modellieren? (f) Zeichnen Sie die Regressionsgerade ein und erstellen Sie den Residuenplot. Interpretieren Sie Ihr Ergebnis. 9. In der folgenden Tabelle sind aus den in der Klasse gesammelten Daten von zehn zuf¨allig ausgew¨ahlten Studierenden die Gr¨oße in cm (X) und das Gewicht in kg (Y) notiert: X Y ------- 163 53 185 80 178 80 169 60 185 72 164 64 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="112"?> 2.3. Das Zweistichprobenproblem 113 176 78 176 80 190 76 170 63 Folgende Hilfsgr¨oßen seien angegeben: 10 ∑ i =1 x i · y i = 124593 x 2 = 30911 , 2 y 2 = 5071 , 8 10 ∑ i =1 x i = 1756 10 ∑ i =1 y i = 706 (a) Erstellen Sie das Streudiagramm, und zeichnen Sie den Schwerpunkt der Daten ein. Beschreiben Sie die Daten. (b) Berechnen Sie den Korrelationskoeffizienten r xy von Bravais-Pearson und interpretieren Sie diesen. (c) Berechnen Sie die Regressionsgerade, und zeichnen Sie diese in das im Aufgabenteil (a) erstellte Streudiagramm ein. Interpretieren Sie ˆ a und ˆ b. (d) Berechnen Sie das Bestimmtheitsmaß und interpretieren Sie dieses. (e) In der folgenden Abbildung 2.42 ist der Residuenplot dargestellt - die zehn Residuen sind zus¨atzlich durch kleine Kreise markiert. Interpretieren Sie ihn angemessen. 165 170 175 180 185 190 −5 0 5 X: Größe in cm Residuen Residuendarstellung Abbildung 2.42: Residuenplot Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="113"?> 114 Kapitel 2. Deskriptive Statistik 10. In der folgenden Tabelle sind die durchschnittlichen Verbraucherpreise (in DM) f¨ ur 1 kg Kalbsschnitzel und 1 kg Brath¨ahnchen (Tiefk¨ uhlkost) f¨ ur die Jahre 2004, 2005, 2006, 2007 und 2008 angegeben. (Quelle: Statistisches Jahrbuch) Jahr Kalbfleisch Brath¨ahnchen ----------------------------- 2004 14.9 2.62 2005 14.8 2.54 2006 15.5 2.50 2007 16.2 2.56 2008 16.4 2.60 (a) Erstellen Sie das Streudiagramm der Daten. (b) Bestimmen Sie den Korrelationskoeffizienten von Bravais-Pearson. (c) Bestimmen Sie den Korrelationskoeffizienten von Spearman. (d) Wie ¨andert sich der Wert des Korrelationskoeffizienten von Bravais- Pearson, wenn die Preise in e und nicht in DM angegeben werden? 11. Zeigen Sie, dass die Regressionsgerade immer durch den Schwerpunkt verl¨auft. Es muss also Folgendes gelten: ˆ y = ˆ a + ˆ b · ¯ x = ¯ y 12. Leiten Sie die MKQ-Sch¨atzer ˆ a und ˆ b f¨ ur das lineare Modell her. 13. Bei der Betrachtung der Merkmale Anzahl Storchenpaare sowie Geburtenrate ergibt sich, wenn man verschiedene europ¨aische L¨ander als Merkmalstr¨ager betrachtet, eine deutliche positive Korrelation. Das ist merkw¨ urdig. (a) In der folgenden Graphik sind drei Scatterplots, Regressionsgeraden sowie die jeweiligen Korrelationskoeffizienten dargestellt. Beschreiben Sie die Graphiken. (b) Was verstehen Sie unter Scheinkorrelation? (c) Interpretieren Sie vor diesem Hintergrund die Korrelationen neu. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="114"?> 2.3. Das Zweistichprobenproblem 115 Storchpaare Geburtenrate 0 5000 10000 15000 20000 25000 30000 0 500 1000 1500 Korrelation= 0.62 Einw.pro.qkm Storchpaare 100 150 200 250 300 350 0 5000 15000 25000 Korrelation= −0.298 Einw.pro.qkm Geburtenrate 100 150 200 250 300 350 0 500 1000 1500 Korrelation= −0.132 Abbildung 2.43: Aufgabe zur Scheinkorrelation 14. Im Folgenden finden Sie eine Tabelle, die die Verteilung der Steuerpflichtigen auf Einkommensklassen zeigt, sowie die Eink¨ unfte, die in diesen Klassen erzielt werden. Zum Beispiel fallen 4 . 8 % der Steuerpflichtigen in die unterste Einkommensklasse, diese haben nur 0 . 2 % aller Eink¨ unfte. Abbildung 2.44: Aufgabe Konzentrationsmessung Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="115"?> 116 Kapitel 2. Deskriptive Statistik (a) Zeichnen Sie die Lorenzkurve. (b) Interpretieren Sie die Kurve. Ist das Einkommen ”gerecht“ verteilt? (c) Wie viel % der Eink¨ unfte erzielt das obere Drittel der Steuerpflichtigen? (d) Der Gini-Koeffizient liegt ¨ ubrigens bei 0.41. Interpretieren Sie diesen Wert. (e) Vergleichen Sie Ihre Kurve und den Koeffizienten mit der folgenden Graphik. Hier ist nun das Steueraufkommen in den Klassen dargestellt: Abbildung 2.45: Aufgabe Konzentrationsmessung (f) Wie groß ist der Anteil des oberen Drittels der Steuerpflichtigen am Steueraufkommen? 15. Als die USArmee noch eine Pflichtarmee war, wurde jedes Jahr ein Teil eines Jahrganges zum Milit¨ardienst eingezogen (= draft). Nur ein Teil, da alle in Frage kommenden eine zu große Anzahl darstellte. Bis einschließlich 1969 war es Aufgabe gewisser lokaler Kommitees, diese Ausgew¨ahlten zu bestimmen. Dies Verfahren war sehr anr¨ uchig und es haftete ihm der Vorwurf der Vetternwirtschaft an. Mit anderen Worten: Die Ziehung war nicht gerecht. Was heißt gerecht? In diesem Zusammenhang wohl, dass jeder in Frage kommende junge Mann die Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="116"?> 2.3. Das Zweistichprobenproblem 117 gleiche Wahrscheinlichkeit hat, gezogen zu werden bzw. vom Dienst verschont zu bleiben. F¨ ur die Ziehung im Jahre 1970 entschied man sich f¨ ur ein landesweites Losverfahren, welches folgendermaßen durchgef¨ uhrt wurde. In einem Beh¨alter wurden 366 beschriftete Kugeln platziert, die jeden m¨oglichen Geburtstag des Jahres 1952 repr¨asentierten. 2 Es wurde ohne Zur¨ ucklegen gezogen. Die erste Kugel, die dem Beh¨alter entnommen wurde, kennzeichnete den Tag des Jahres 1952, der bei der Einberufung zuerst ber¨ ucksichtigt wurde. Wurde also, wie gleich zu sehen, der 14. September zuerst gezogen, wurden alle an diesem Tag geborenen M¨anner zuerst eingezogen. Es wurde so fortgefahren, bis alle Kugeln entnommen waren. Wie bereits erw¨ahnt, war die Gesamtzahl der potenziellen neuen Soldaten zu hoch. Das heißt, Geburtstage, die erst sehr sp¨at gezogen wurden, bedeutet f¨ ur die an einem solchen Geborenen, dass sie vielleicht nicht f¨ ur einen draft ber¨ ucksichtigt wurden - je sp¨ater gezogen, desto gr¨oßer die Wahrscheinlichkeit. Nach dem Losverfahren wurde n¨amlich — in der gezogenen Reihenfolge — nur solange einberufen, bis die ben¨otigte Anzahl erreicht wurde. Wenn zum Beispiel die ersten 200 Geburtstage ausreichen, m¨ ussen die restlichen 166 nicht zum Milit¨ardienst. Das Ergebnis der Ziehung ist in der folgenden Kontingenztabelle zusammengefasst. In den Zellen steht, wann welcher Tag gezogen wurde; als erster also der 14. September, als letzter der 8. Juni: 2 Es sind 366 Tage, weil 1952 ein Schaltjahr war. 1952 ist das entscheidende Jahr, weil die M¨anner, die 1970 zum Milit¨ardienst m¨ ussen, eben 1952 geboren wurden. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="117"?> 118 Kapitel 2. Deskriptive Statistik draft70 Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 1 306 86 108 32 330 249 93 111 205 359 19 129 2 159 144 29 271 298 228 350 45 161 125 34 328 3 251 297 267 83 40 301 115 261 49 244 348 157 4 215 210 275 81 276 20 279 145 232 202 260 165 5 101 214 293 269 364 28 188 54 82 240 310 56 6 224 347 139 253 155 110 327 114 6 87 76 10 7 305 91 122 147 35 85 50 168 8 234 51 12 8 199 181 213 312 321 366 13 48 184 283 97 105 9 194 338 317 219 197 335 277 107 263 342 80 43 10 325 216 323 218 65 206 284 21 71 220 282 41 11 329 150 136 14 37 134 248 324 158 237 46 39 12 221 68 300 346 133 272 15 142 242 72 66 314 13 318 152 259 124 295 69 42 307 175 138 126 163 14 238 3 354 231 178 356 331 198 1 294 127 26 15 17 89 169 273 130 180 322 102 113 171 131 320 16 121 212 166 148 55 274 120 44 207 254 106 96 17 235 189 33 266 112 73 98 154 255 288 143 304 18 140 292 332 90 278 341 190 141 246 5 146 128 19 58 25 200 336 75 104 227 311 177 241 203 24 20 280 302 239 345 183 360 187 344 63 192 185 135 21 186 363 334 62 250 60 27 291 204 243 156 70 22 337 290 265 316 326 247 153 339 160 117 9 53 23 118 57 256 252 319 109 172 116 119 201 182 162 24 59 236 258 2 31 358 23 36 195 196 230 95 25 52 179 343 351 361 137 67 286 149 176 132 84 26 92 365 170 340 357 22 303 245 18 7 309 173 27 355 225 268 74 296 64 289 352 233 264 47 78 28 77 299 223 262 308 222 88 167 257 94 281 123 29 349 285 362 191 226 353 270 61 151 229 99 16 30 164 NA 217 208 103 209 287 333 315 38 174 4 31 211 NA 30 NA 313 NA 193 11 NA 79 NA 100 (a) Ist dieses Losverfahren fair? K¨onnen Sie an der Tabelle bereits etwas erkennen? (b) Im Folgenden sind Ihnen einige Hilfsgraphiken sowie Maßzahlen zur Verf¨ ugung gestellt worden. Benutzen Sie diese, um das Ergebnis des Ziehungsverfahrens zu beschreiben. (c) Ist die Ziehung ”fair“? Was ist hier ggf. bei der Ziehung schiefgegangen? Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="118"?> 2.3. Das Zweistichprobenproblem 119 • Mittlere Ziehungszahlen pro Monat (also die Spaltendurchschnitte) Jan Feb M¨arz Apr Mai Juni Juli Aug Sept Okt Nov Dez 201 204 226 204 208 196 182 173 157 189 148 115 • Vergleichende Boxplots - pro Monat: Ziehungsnummer Jan Feb Maerz Apr Mai Juni Juli Aug Sept Okt Nov Dez 0 100 200 300 Verteilung der Ziehungsnummern pro Monat AVG Abbildung 2.46: Vergleichende Boxplots • Es wurde pro Monat gez¨ahlt, wie viele der gezogenen Zahlen von 1 bis 366 in das erste Drittel, in das zweite und in das letzte Drittel gefallen sind. Jan Feb M¨arz Apr Mai Juni Juli Aug Sept Okt Nov Dez (1,123] 9 7 5 8 9 11 12 13 10 8 12 18 (123,244] 12 12 10 8 7 7 7 7 15 16 12 9 (244,366] 10 10 16 14 15 12 12 11 5 7 6 4 Randh¨aufigkeiten (1,123] (123,244] (244,366] 122 122 122 Jan Feb M¨ arz Apr Mai Juni Juli Aug Sept Okt Nov Dez 31 29 31 30 31 30 31 31 30 31 30 31 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="119"?> 120 Kapitel 2. Deskriptive Statistik 2.4 Beschreibung von Zeitreihen In diesem Kapitel lernen Sie dass Zeitreihen ein sehr wichtiges Konzept in der Statistik sind, da viele Merkmale ¨ uber den Zeitablauf betrachtet werden. dass Ihnen zwei bereits bekannte Konzepte helfen, um erste Aussagen ¨ uber Zeitreihen treffen zu k¨onnen. Ein wichtiges Thema im Rahmen der Statistik ist die Zeitreihenanalyse. In diesem Rahmen kann es allerdings nur sehr knapp und oberfl¨achlich behandelt werden. Aber Sie haben zwei Konzepte kennengelernt, die hier weiterhelfen, Korrelation und Regression. Diese Konzepte sollen in den Kontext Zeitreihen eingef¨ uhrt werden. Unter einer Zeitreihe versteht man eine Menge von Daten x t f¨ ur ein statistisches Merkmal, die in zeitlicher Reihenfolge t = 1 , 2 , . . . n angeordnet sind. Dies k¨onnen beliebige Zeiteinheiten sein. Es existiert also wenigstens ordinales, meist aber kardinales Messniveau. Im Rahmen der Zeitreihenanalyse versuchen Sie, Gesetzm¨aßigkeiten in der Zeitreihe aufzusp¨ uren, die zur Erkl¨arung oder Prognose durch Anpassung eines Modells an die Daten dienen k¨onnen. Sei x t die Zeitreihe, dann kann diese in die folgenden Komponenten zerlegt werden: x t = m t + k t + s t + u t Dabei ist: m t : Trend; die langfristige systematische Ver¨anderung des mittleren Niveaus der Zeitreihe. k t : Konjunkturkomponente; mehrj¨ahrige, nicht notwendig regelm¨aßige Schwankung. s t Saisonkomponente; jahreszeitlich bedingte Schwankungskomponente, die sich relativ unver¨andert jedes Jahr wiederholt. u t St¨orgr¨oße; die restliche Variation in der Zeitreihe. Schauen Sie sich einmal die Graphik in Abbildung 2.47 an. Die Kurve zeigt die monatliche Suchintensit¨at nach einem bestimmten Produkt - Wildbret - ¨ uber einen Zeitraum von etwas ¨ uber drei Jahren. Auf der vertikalen Achse sind die sogenannten Visits abgetragen, im weitesten Sinne die Besuche durch die nach Wildbret Suchenden. Die Suche wurde in einer B2B-Suchmaschine (= Business-to-Business) durchgef¨ uhrt. Das bedeutet, Eink¨aufer f¨ ur Firmen sind am Suchen. Die eingezeichnete Gerade ist der sogenannte lineare Trend, das ist nichts anderes als die lineare Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="120"?> 2.4. Beschreibung von Zeitreihen 121 Traffic − Visits 07 2006 09 2006 11 2006 01 2007 03 2007 05 2007 07 2007 09 2007 11 2007 01 2008 03 2008 05 2008 07 2008 09 2008 11 2008 01 2009 03 2009 05 2009 07 2009 09 2009 11 2009 0 500 1000 1500 2000 2500 3000 3500 Rubrik: Wildbret −> linearer Trend pro Monat: 32 Visits Abbildung 2.47: Trafficverlauf der Suche nach Wildbret in einer B2B-Suchmaschine Regression. Was meinen Sie, wie die Aussage linearer Trend pro Monat: +32 Visits zustande gekommen ist? Stellen Sie sich vor, Sie haben 60 000 von solchen Produkten und Dienstleistungen und m¨ochten auf Knopfdruck die mit positivem, negativem und stagnierendem Trend haben. Sie wissen jetzt, wie das geht. Von allen 60 000 m¨ ussen sie die Regression berechnen und das ˆ b anschauen - offensichtlich nicht ohne Rechnerunterst¨ utzung. Offensichtlich wird nicht gleichm¨aßig ¨ uber das Jahr nach diesem Produkt gesucht. Stellen Sie sich vor, Sie m¨ochten auf Knopfdruck diejenigen Produkte und Dienstleistungen haben, nach denen nur saisonbedingt gesucht wird. Auch das k¨onnen wir. Abbildung 2.48 zeigt wie. Im oberen Teil ist die sogenannte trendbereinigte Zeitreihe dargestellt. Das kennen wir, das ist der Residuenplot. Hier nicht als St¨abe sondern als verbundener Linienzug dargestellt. Sie erkennen eine Struktur, die Saisonfigur. Den Trend sollten Sie zun¨achst entfernen, er ¨ uberlagert sonst alles. Die Zeitreihe bezeichnet man dann auch als station¨ar. In der unteren Graphik ist die sogenannte Autokorrelationsfunktion (ACF) dargestellt. Die Idee dazu ist eine sehr einfache. Die Zeitreihe wird um ein sogenanntes lag gegeneinander verschoben. Davon wird dann (im Prinzip) der Korrelationskoeffizient von Bravais-Pearson berechnet. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="121"?> 122 Kapitel 2. Deskriptive Statistik Traffic Trendbereinigt 07 2006 09 2006 11 2006 01 2007 03 2007 05 2007 07 2007 09 2007 11 2007 01 2008 03 2008 05 2008 07 2008 09 2008 11 2008 01 2009 03 2009 05 2009 07 2009 09 2009 11 2009 −500 500 1500 Wildbret Trendbereinigt Lag ACF Autokorrelationsfunktion 0 6 12 18 24 −0.2 0.2 0.6 1.0 Abbildung 2.48: Trafficverlauf Wildbret - Saisonkomponente Wenn lag=0 gew¨ahlt wird, dann vergleichen Sie die Originalzeitreihe mit der um 0 Einheiten verschobenen. Das ist wieder die Originalzeitreihe. Der Korrelationskoeffizient ist nat¨ urlich 1, die zu vergleichenden Wert sind identisch: x 1 mit x 1+0 usw. In der Graphik ist das der ganz rechte Stab mit der H¨ohe 1. Zum lag 1 wird vergleichen: x 1 mit x 1+1 , x 2 mit x 2+1 usw. Die lags sind auf der horizontalen Achse abgetragen. Auff¨allig sind die Stellen 6,12,18,24. Sie haben starke negative Korrelationen, wenn die Zeitreihe um 1/ 2 Jahr bzw. um 1 1/ 2 Jahre gegeneinander verschoben ist. Sie sehen starke positive Korrelationen, bei Verschiebungen um ein oder zwei Jahre. Das macht ja gerade die Saison aus. Im Winter ist reges Interesse (große Visitzahlen), im n¨achsten Sommer, 1/ 2 Jahr sp¨ater, ist geringes Interesse (kleine Visitzahlen). Ein ganzes Jahr sp¨ater, im n¨achsten Winter, ist wieder großes Interesse vorhanden. Das bedeutet, bei Zeitreihen mit Saisonfigur sollten Sie Auff¨alligkeiten bei 12 bzw. 24- und bei 6 bzw. 18-Monatsvergleichen haben - diese kann ein Rechner automatisch ausgeben. Sie ben¨otigen eine relativ lange Zeitreihe, um dar¨ uber hinaus noch weitere Vergleiche zu haben. Die zwei Jahre reichen aber in der Regel aus. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="122"?> 2.5. Wirtschaftskennzahlen 123 Kurz gefasst! Sie haben einen ersten Einblick in die Zeitreihenanalyse erhalten. Die Konzepte Saison und Trend k¨onnen Sie nun analysieren. 2.5 Wirtschaftskennzahlen In diesem Kapitel lernen Sie Maßzahlen kennen, die in der Wirtschaft von großer Bedeutung sind. dass diese Kennzahlen das wirtschaftliche Geschehen zusammenfassen k¨onnen. In diesem Kapitel sollen, vor allem auch der Vollst¨andigkeit halber, einige Wirtschaftskennzahlen vorgestellt werden. Dies wird in relativ aufz¨ahlender Form und mit knappem Text geschehen. Verh¨altniszahlen Gliederungszahlen: G G ist eine Verh¨altniszahl, deren Z¨ahler eine Teilmenge der im Nenner stehenden Menge ist. Es wird also eine relative H¨aufigkeit berechnet. Beispiele sind: GExportquote = Export Produktion GEigenkapitalquote = Eigenkapital Gesamtkapital G = deutsche Arbeitslose Arbeitslose Beziehungszahlen: B B ist eine Verh¨altniszahl, deren Z¨ahler und Nenner Umf¨ange oder Merkmalssummen zweier sinnvoll zueinander in Beziehung stehender ungleichartiger Gesamteinheiten sind: Daten aus zwei verschiedenen Grundgesamtheiten werden ins Verh¨altnis gesetzt. Die Dimension der Messzahl ist dann gerade das Verh¨altnis der Dimensionen. Beispiele sind: BBev¨olkerungsdichte = Einwohner Fl¨ache in qkm BFl¨achenumsatz = Umsatz Ladenfl¨ache in qm Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="123"?> 124 Kapitel 2. Deskriptive Statistik Messzahlen: M M ist eine Verh¨altniszahl zweier gleichartiger statistischer Zahlen zum Beispiel zu verschiedenen Zeitpunkten erhoben. Damit ist die Messzahl dimensionslos. Sie dient zum Vergleich individueller Ph¨anomene. Beispiele sind: MPreismessziffer Gut A = Preis im Zeitpunkt t 1 Preis im Zeitpunkt t 0 Spezielle Indizes Preisindizes Ein Preisindex versucht, die Entwicklung der Preise in einem bestimmten volkswirtschaftlichen Bereich darzustellen Es gibt nicht den Preisindex und auch nicht die Berechnung. Zum Beispiel k¨onnte die Entwicklung der Verbraucherpreise, speziell der Lebenshaltungskosten, bedeutsam sein. Ein Preisindex f¨ ur die Lebenshaltungskosten soll die Entwicklung zahlreicher Einzelpreise in einer Kenngr¨oße zusammenfassen. Wie haben sich die Lebenshaltungskosten ver¨andert? Die Grundlage der Berechnung ist der sogewnannte Warenkorb, d.h. die Gesamtheit der ausgew¨ahlten G¨ uter, deren Preise beobachtet werden sollen. Der Warenkorb f¨ ur die Preisindizes in der Bundesrepublik Deutschland umfasst zur Zeit ca. 750 Waren und Dienstleistungen. Er ist identisch f¨ ur Deutschland, das fr¨ uhere Bundesgebiet, f¨ ur die neuen Bundesl¨ander und Berlin-Ost und f¨ ur alle speziell abgegrenzten Haushaltstypen. Diese G¨ uterauswahl muss von Zeit zu Zeit daraufhin ¨ uberpr¨ uft werden, ob sie noch den aktuellen Verbrauchsgewohnheiten entspricht: langfristige Ver¨anderungen, neue Produkte, nicht mehr existierende Produkte (zum Beispiel verbleites Benzin raus, Energiesparlampe rein). Noch wichtiger als die Auswahl der richtigen Produkte und Dienstleistungen ist das Gewicht, mit denen diese bei der Berechnung eingehen, also wie sollen etwa Mietausgaben und Nahrungsmittelausgaben gewichtet werden. Dies wird als W¨agungsschema bezeichnet. H¨ohe und Struktur der Ausgaben der privaten Haushalte werden vom Statistischen Bundesamt aus den Ergebnissen der Einkommens- und Verbrauchsstichprobe, die alle f¨ unf Jahre durchgef¨ uhrt wird, und der j¨ahrlichen Statistik der laufenden Wirtschaftsrechnungen abgeleitet. Im Folgenden ist das W¨agungsschema f¨ ur den Preisindex f¨ ur die Lebenshaltung aller privaten Haushalte in Deutschland (Angaben in Promille) dargestellt: 3 3 Quelle: Statistisches Bundesamt Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="124"?> 2.5. Wirtschaftskennzahlen 125 COICOP-VPI Gewichte 1991 Gewichte 1995 01 Nahrungsmittel und alkoholfreie Getr¨anke 144,81 131,26 02 Alkoholische Getr¨anke und Tabakwaren 45,19 41,67 03 Bekleidung und Schuhe 76,89 68,76 04 Wohnung, Wasser, Elektrizit¨at, Gas und andere Brennstoffe 240,46 274,77 05 Hausrat und laufende Instandhaltung des Hauses 72,87 70,56 06 Gesundheitspflege 30,56 34,39 07 Verkehr 156,77 138,82 08 Nachrichten¨ ubermittlung 17,92 22,66 09 Freizeit und Kultur 99,59 103,57 10 Bildungswesen 5,42 6,51 11 Hotels, Caf´es und Restaurants 58,44 46,08 12 Verschiedene Waren und Dienstleistungen 51,08 60,95 Insgesamt 1000,00 1000,00 Dazu soll ein Beispiel angeschaut werden, wie Sie einen Preisindex berechnen. Nehmen Sie an, die Gesamtausgaben aller Haushalte w¨ urden nur zum Kauf dreier G¨ uter verwandt. F¨ ur diese G¨ uter wurden 2007 und 2008 folgende gekaufte Mengen und gezahlte Preise ermittelt: Index i Menge (2007) q 0 i Preis (2007) p 0 i Menge (2008) q 1 i Preis (2008) p 1 i Benzin 1 q 0 1 = 1000 p 0 1 = 1.20 q 1 1 = 1100 p 1 1 = 1.30 Brot 2 q 0 2 = 200 p 0 2 = 5.00 q 1 2 = 180 p 1 2 = 5.50 Hosen 3 q 0 3 = 2 p 0 3 = 100.00 q 1 3 = 2 p 1 3 = 90.00 Die folgende Gesamtausgaben f¨ ur die Jahre 2007 (= Basisjahr) und 2008 k¨onnen ermittelt werden: A 2007 = 3 ∑ i =1 = p 0 i × q 0 i = 1 . 20 × 1000 + 5 . 00 × 200 + 100 . 00 × 2 = 2400 A 2008 = 3 ∑ i =1 = p 1 i × q 1 i = 1 . 30 × 1100 + 5 . 50 × 180 + 90 . 00 × 2 = 2600 Die h¨oheren Ausgaben sind sowohl auf Preisver¨anderungen als auch auf Mengenver¨anderugnen zur¨ uckzuf¨ uhren. Sie sind an der Preisentwicklung interessiert. → Also k¨onnte man sich sich die Frage stellen: Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="125"?> 126 Kapitel 2. Deskriptive Statistik Was h¨atte man 2008 insgesamt bezahlen m¨ ussen, wenn man im Jahre 2008 mengenm¨aßig dasselbe gekauft h¨atte wie 2007? Es wird also die Mengenstruktur des Basisjahres mit den aktuellen Preisen im Zeitpunkt t (Berichtsperiode) bewertet. Diese Frage beantwortet der Preisindex von Laspeyres, der folgendermaßen definiert ist: Definition 2.22: Preisindex nach Laspeyres P L t = ∑ p t i × q 0 i ∑ p 0 i × q 0 i × 100 Im Beispiel gilt: P L 1 = 1 . 30 × 1000 + 5 . 50 × 200 + 90 . 00 × 2 1 . 20 × 1000 + 5 . 00 × 200 + 100 . 00 × 2 × 100 = 107 . 5 Demnach sind die Preise von 2007 bis 2008 um 7.5 % gestiegen. Man k¨onnte auch eine andere Frage stellen, um Informationen ¨ uber die Preisentwicklung zu bekommen: Was h¨atte man f¨ ur die im Jahre 2008 umgesetzten Mengen mit den Preisen von 2007 bezahlen m¨ ussen? Es wird also die aktuelle Mengenstruktur mit Preisen aus der Basisperiode bewertet. Diese Frage beantwortet der Preisindex von Paasche, der folgendermaßen definiert ist: Definition 2.23: Preisindex nach Paasche P P t = ∑ p t i × q t i ∑ p 0 i × q t i × 100 Im Beispiel gilt: P P 1 = 1 . 30 × 1100 + 5 . 50 × 180 + 90 . 00 × 2 1 . 20 × 1100 + 5 . 00 × 180 + 100 . 00 × 2 × 100 = 107 . 4 Demnach sind die Preise von 2007 bis 2008 um 7.4 % gestiegen. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="126"?> 2.5. Wirtschaftskennzahlen 127 In der Praxis wird der Preisindex von Laspeyres oft vorgezogen, da das einmal ermittelte Mengenschema des Basisjahres nur mit aktualisierten Preisen fortgeschrieben werden muss. Es ist allerdings zu ber¨ ucksichtigen, dass der Warenkorb des Basisjahres veraltet. Dann muss der Warenkorb angepasst werden und ein neues Basisjahr wird ben¨otigt . Kaufkraft Um zwischen verschiedenen W¨ahrungen hin und her zu rechnen, ben¨otigt man den entsprechenden Wechselkurs. 4 Der aktuelle Wechselkurs zwischen Euro und US-Dollar betrage 1 USD = 0,77 Euro oder 1 Euro =1,30 USD. Ein Einkommen von 40.000 Euro entspricht also 51.948 USD. Ein Einkommen von 40.000 USD sind dann entsprechend 30.800 Euro. Wechselkurse sind in der Regel sehr volatil. Das bedeutet, dass sich die Verh¨altnisse schnell ¨andern k¨onnen und aus 1 Euro vielleicht nur 1 US-Dollar wird. Die folgende Graphik zeigt den Verlauf der Umrechnung von US-Dollar zu Euro von 1998 bis Ende 2002. Dollar 1999 2000 2001 2002 2003 0.9 1.0 1.1 Wechselkurs: 1 Euro = ? ? Dollar (Tagesdaten) Abbildung 2.49: Verlauf Wechselkurs US-Dollar - Euro Die h¨ochste Notierung war ganz zu Beginn der Kurve, also Ende 1998. F¨ ur einen Euro gab es 1.181 USD. Die niedrigste Notierung war Ende 2000, dort 4 Eine gute Quelle f¨ ur aktuelle und historische Wechselkurse ist www.oanda.com Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="127"?> 128 Kapitel 2. Deskriptive Statistik kaufte 1 Euro gerade mal 0.828 US$. Das Gespr¨ach ¨ uber die beiden Geh¨alter w¨are an diesen Tagen folgendermaßen ausgefallen: Ende 1998 40.000 US-Dollar = 33.869 Euro 40.000 Euro = 47.240 US-Dollar Ende 2000 40.000 US-Dollar = 48.309 Euro 40.000 Euro = 33.120 US-Dollar Spiegeln diese Zahlen die Verh¨altnisse gut wider? Es sind doch ziemlich große Unterschiede festzustellen. Vermutlich wird es aber nicht so sein, dass die Kaufkraft sich f¨ ur die beiden Personen so sehr unterscheidet. Anders formuliert, keiner von beiden wird sich 1998 groß mehr/ weniger leisten k¨onnen als im Jahr 2000. Die Wechselkurse spiegeln diese Kaufkraft nicht unbedingt wider. Wechselkurse haben die Funktion, die Preise im In- und Ausland auf einen Nenner zu bringen. F¨ ur einen deutschen Urlauber sollte demnach - bei einem gegebenen Wechselkurs von bspw. 0,77 Euro je US-US-Dollar - eine Jeans in New York mit 45 US-Dollar genauso teuer sein wie die gleiche Jeans, f¨ ur die er zu Hause 60 Euro bezahlen muss. Meist stellen die Wechselkurse eine solch identische Kaufkraft jedoch nicht her. Dies liegt daran, dass neben den Preisunterschieden zwischen zwei L¨andern Faktoren wie die aktuelle Konjunkturlage, unterschiedliche Zinsentwicklungen oder das Vertrauen in die Wirtschaftspolitik auf den Wechselkurs einwirken. Allein schon der Ankauf von viel Roh¨ol beeinflusst den Kurs des US-Dollars, da Roh¨ol in US-Dollar gehandelt wird. An diese Stelle setzt die Idee der Kaufkraftparit¨at an. Um aber die Abweichungen der Wechselkurse von der Kaufkraft zu ermitteln, sind in der Regel umfangreiche Berechnungen erforderlich. Stichwort: Warenkorb und W¨agungsschema. Kostet ein solcher Warenkorb zum Beispiel in Deutschland 500 Euro und in den USA 500 US-Dollar, dann betr¨agt der Wechselkurs, dem eine gleiche Kaufkraft zugrunde liegt, 1 Euro je US-US-Dollar. Wird man aber einen f¨ ur alle L¨ander identischen Warenkorb finden k¨onnen? Eine verbl¨ uffend einfache L¨osung f¨ ur dieses Problem ver¨offentlicht das britische Wirtschaftsmagazin “The Economist” seit 1986 jeden April. Die Journalisten haben ein Konsumgut identifiziert, das es in weit mehr als 100 L¨andern gibt, in mehr oder weniger derselben Beschaffenheit und Qualit¨at, der Big Mac. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="128"?> 2.5. Wirtschaftskennzahlen 129 Die Kaufkraftparit¨at ist ein Maß f¨ ur die relative Kaufkraft verschiedener L¨ander. Sie wird durch die jeweils verschiedenen Kaufpreise desselben Gutes in verschiedenen L¨andern berechnet. Diese werden dann auf eine Basisw¨ahrung bezogen. In der folgenden Tabelle sind die Preise f¨ ur den Big Mac f¨ ur einige L¨ander dargestellt: USA 2.54 US-Dollar Euroland 2.57 Euro Großbritannien 1.99 Pfund Schweiz 6.30 SFr Russland 35.00 Rubel Die Kaufkraftparit¨at (engl: Purchasing Power Parity = PPP) zwischen den USA und Euroland l¨asst sich folgendermaßen berechnen: P P P = 2 , 57 Euro 2 , 54 US-Dollar = 1 , 012 Euro US-Dollar Dies kann ¨ uber folgende Formel mit dem gehandelten Wechselkurs verglichen werden: P P P − Wechselkurs Wechselkurs So l¨asst sich feststellen, ob eine W¨ahrung im Vergleich zu einer anderen W¨ahrung ¨ uber- oder unterbewertet ist. Aktuell entspricht 1 US-Dollar gerade 0,77 US-Dollar: 1 , 012 − 0 , 77 0 , 77 = 0 , 314 Man k¨onnte also daraus schließen, dass der Euro um 31 % ¨ uberbewertet ist. Die P P P -Theorie ist eine der ¨alteren ¨okonomischen Theorien und sie besagt: Langfristig sollte der Wechselkurs zwischen zwei L¨andern gegen die Rate streben, welche die Preise f¨ ur identische G¨ uter und Dienstleistungen ausgleicht. Mit anderen Worten ein US-Dollar sollte in jedem Land die gleiche Menge an Waren kaufen k¨onnen. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="129"?> 130 Kapitel 2. Deskriptive Statistik Die folgende Graphik zeigt den Big Mac-Index f¨ ur ausgew¨ahlte L¨ander. The hamburger standard Big Mac prices in local currency in dollars Implied PPP* of the dollar Actual exchange rate: Jan 30th Under (-)/ over (+) valuation against the dollar, % United States† $ 3.54 3.54 - - Argentina Peso 11.50 3.30 3.25 3.49 -7 Australia A$ 3.45 2.19 0.97 1.57 -38 Brazil Real 8.02 3.45 2.27 2.32 -2 Britain £2.29 3.30 1.55 ‡ 1.44 ‡ -7 Canada C$ 4.16 3.36 1.18 1.24 -5 Chile Peso 1,550 2.51 438 617 -29 China Yuan 12.5 1.83 3.53 6.84 -48 Cz. Republic Koruna 65.94 3.02 18.6 21.9 -15 Denmark DK 29.5 5.07 8.33 5.82 43 Egypt Pound 13.0 2.34 3.67 5.57 -34 Euro Area§ € 3.42 4.38 1.04** 1.28** 24 Hong Kong HK$ 13.3 1.72 3.76 7.75 -52 Hungary Forint 680 2.92 192 233 -18 Indonesia Rupiah 19,800 1.74 5,593 11,380 -51 Israel Shekel 15.0 3.69 4.24 4.07 4 Japan ¥290 3.23 81.9 89.8 -9 Malaysia Ringgit 5.50 1.52 1.55 3.61 -57 Mexico Peso 33.0 2.30 9.32 14.4 -35 New Zealand NZ$ 4.90 2.48 1.38 1.97 -30 Norway Kroner 40.0 5.79 11.3 6.91 63 Peru Sol 8.06 2.54 2.28 3.18 -28 Philippines Peso 98.0 2.07 27.7 47.4 -42 Poland Zloty 7.00 2.01 1.98 3.48 -43 Russia Ruble 62.0 1.73 17.5 35.7 -51 Saudi Arabia Riyal 10.0 2.66 2.82 3.75 -25 Singapore S$ 3.95 2.61 1.12 1.51 -26 South Africa Rand 16.95 1.66 4.79 10.2 -53 South Korea Won 3,300 2.39 932 1,380 -32 Sweden SKR 38,0 4.58 10.7 8.30 29 Switzerland CHF 6.50 5.60 1.84 1.16 58 Taiwan NT$ 75.0 2.23 21.2 33.6 -37 Thailand Baht 62.0 1.77 17.5 35.0 -50 Turkey Lire 5.15 3.13 1.45 1.64 -12 * Purchasing-power parity; local price divided by price in the United States † Average of New York, Chicago, Atlanta and San Francisco ‡ Dollars per Pound § Weighted average of prices in euro area ** Dollars per Euro Sources: McDonald’s; The Economist Abbildung 2.50: Big Mac-Index Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="130"?> 2.5. Wirtschaftskennzahlen 131 Ein weiterer interessanter (vergleichender) Gedanke ist dieser: Wie lange muss man bei einem durchschnittlichen Nettolohn arbeiten, um sich in dem jeweiligen Land einen Big Mac leisten zu k¨onnen? Kurz gefasst! Sie haben verschiedene Typen von Kennzahlen kennengelernt, um wirtschaftliche Gegebenheiten zusammenzufassen. Sie haben die Preisindizes von Paasche und Laspeyres kennengelernt. Sie haben erste Eindr¨ ucke zur Messung der Kaufkraft bekommen. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="132"?> Kapitel 3 Wahrscheinlichkeiten In diesem Kapitel lernen Sie die Wahrscheinlichkeitsrechnung grunds¨atzlich kennen. dass ohne diese Sie Daten nicht korrekt bewerten bzw. modellieren k¨onnten. Sie werden sehen, dass f¨ ur die induktive Statistik die Wahrscheinlichkeitsrechnung eine notwendige Voraussetzung ist. Sie sind bereits an einigen Stellen Wahrscheinlichkeiten begegnet, wenn auch die Bezeichnung noch nicht unbedingt explizit gefallen ist bzw. das Konzept eingef¨ uhrt wurde. Neben der Argumentation mit Zahlen, Maßzahlen und Graphiken werden im ¨offentlichen Leben unterschwellig oder ganz direkt immer auch Wahrscheinlichkeitsaussagen transportiert. → Grunds¨atzlich und intuitiv: Die Wahrscheinlichkeit sagt etwas dar¨ uber aus, mit welcher Gewissheit ein Ereignis eintritt. Eine Sechs beim W¨ urfeln: 1/ 6, also etwa 10-mal bei 60 W¨ urfen oder? ! Kopf beim M¨ unzwurf: 1/ 2, also etwa 30-mal bei 60 W¨ urfen oder? ! Werden Prognosen f¨ ur die Zukunft gemacht - die ¨ ubliche Ank¨ undigung des Wirtschaftswachstums, Wahlprognosen usw. - dann wurde im Hintergrund immer eine Wahrscheinlichkeit konstruiert, die den jeweiligen Prognosewert st¨ utzt, also die M¨oglichkeit einsch¨atzt, dass die Prognose zutrifft. Diese Bewertung findet im Rahmen der induktiven Statistik statt. ”Spielteilnahme ab 18 [...] Gl¨ ucksspiel kann s¨ uchtig machen [...] Gewinnchancen 1 zu 140 Millionen“ <?page no="133"?> 134 Kapitel 3. Wahrscheinlichkeiten Abbildung 3.1: Lotto-Wahrscheinlichkeiten - www.lotto.de So oder so ¨ahnlich wird f¨ ur das Lottospiel 6 aus 49 geworben. Mit der letzten Gewinnchance ist diejenige Wahrscheinlichkeit gemeint, die sechs Richtige mit Superzahl beschreibt. Abbildung 3.1 zeigt einen Screenshot von der Webseite des deutschen Lotto- und Totoblocks, die Gewinnwahrscheinlichkeiten sind aufgelistet. Und? Hilft das weiter? Haben Sie eine Vorstellung davon, wie unsere Chancen stehen, am n¨achsten Samstag den Jackpot zu knacken? Exkurs zur Motivation: Eine Lotto-Analogie Ich fahre mit dem Auto von Hamburg nach Rom. Das sind so etwa 1.400 km oder 140 Millionen cm. Irgendwo auf der Strecke halte ich an und lege einen W¨ urfel mit Kantenl¨ange 1 cm an den Straßenrand. Dann fahre ich zur¨ uck. Ich biete in Hamburg folgendes Gl¨ ucksspiel an: Gegen einen Wetteinsatz werden ein Spieler und ich dieselbe Strecke noch einmal fahren. Dem Spieler sind die Augen verbunden, er muss sagen, wann ich anhalten soll. Wenn er seine T¨ ur aufmacht und einen zweiten W¨ urfel genau neben meinen, auf der Hinfahrt platzierten legt, dann hat er viel Geld gewonnen. Finde ich wohl Spieler? Erkennen Sie Lotto wieder? Wahrscheinlichkeiten sind schwer zu greifen und oftmals noch schwerer korrekt zu formulieren. Dennoch erfreuen sie sich großer Beliebtheit als Vergleich, was wohl auch damit zusammenh¨angt, dass man sehr gut verdichtete Aussagen treffen kann und vor allem extremen Situationen ein Label verpassen kann. Was halten Sie von der Aussage in Abbildung 3.2? Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="134"?> 3.1. Zufallsvorg¨ange und Ereignisse 135 Drillinge Ein Sechser im Lotto plus Superzahl: Die Wahrscheinlichkeit von eineiige Drillinge liegt bei etwa eins zu zehn Millionen. Bild: istockphoto.de Abbildung 3.2: Umgang mit Wahrscheinlichkeiten im Alltag Im Folgenden n¨ahern Sie sich den Wahrscheinlichkeiten und lernen, mit diesen angemessen umzugehen. Dazu ist es notwendig und unumg¨anglich, vorgelagerte, weil darauf aufbauende Konzepte kennenzulernen. 3.1 Zufallsvorg¨ange und Ereignisse In diesem Kapitel lernen Sie wie Sie den Zufall beschreiben und modellieren k¨onnen. die wichtigsten Grundkonzepte kennen. Fangen Sie mit einem W¨ urfel an. Der W¨ urfel ist so beliebt, weil jeder schon mal einen in der Hand gehalten hat und weil nicht ganz so viel passieren kann - im Sinne von ”Er hat nur sechs Seiten.“ Beim Mensch ¨argere dich nicht! gibt es immer wieder Situationen, in denen Sie mit Ihrem n¨achsten W¨ urfelwurf genau eine bestimmte Augenzahl erreichen wollen. Sei es, dass Sie hierdurch einen Ihrer Kegel in Sicherheit bringen oder einen fremden herauskegeln k¨onnen. Nehmen Sie an, es sei eine Augenzahl von vier erforderlich. Wie groß ist die Wahrscheinlichkeit, dass beim n¨achsten Wurf eine Vier kommt? Nat¨ urlich 1/ 6, denn es gibt sechs verschiedene, gleich wahrscheinliche M¨oglichkeiten und nur eine liefert das gew¨ unschte Ergebnis. Stimmt das? Schauen Sie sich das einmal an. Die Wahrscheinlichkeitsrechnung als Theorie ist auf wundersame Weise mit der Empirie verbunden. Im Kapitel 5.1 l¨asst sich dazu einiges finden. Beim W¨ urfeln ist es sehr einfach, diesen Zufallsvorgang anzuschauen, zu simulieren, da Sie den Zufallsgenerator (den W¨ urfel) einfach in die Hand nehmen und w¨ urfeln Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="135"?> 136 Kapitel 3. Wahrscheinlichkeiten 1 2 3 4 5 6 Augenzahl absolute Häufigkeit 0 200 400 600 800 1000 947 1018 1035 983 1023 994 Würfelexperimente Häufigkeitsverteilung Anzahl Würfe: 6000 Augenzahl relative Häufigkeit Relative Häufigkeit 1 2 3 4 5 6 0% 10% 20% 30% 40% 50% 15,8% 17% 17,2% 16,4% 17,1% 16,6% Abbildung 3.3: Ein W¨ urfelexperiment - Verteilung der Augenzahlen k¨onnen. Haben Sie ein paar Mal gew¨ urfelt, dann bekommen Sie mit der Zeit einen guten Eindruck davon, wie wahrscheinlich es ist, die Vier zu w¨ urfeln. Leider ist das nicht immer so einfach. Schon beim Lotto f¨allt das heimische Ausprobieren schwer, und es w¨ urde sehr lange dauern, um brauchbare Ergebnisse per Hand zu simulieren. Auch im Rahmen der Wahrscheinlichkeitsrechnung kann Ihnen der Computer gute Dienste leisten. Mit der entsprechenden Software lassen sich die Zufallsvorg¨ange exakt beschreiben. Im Anschluss kann simuliert werden. Abbildung 3.3 zeigt das Ergebnis von 6000 per Computer simulierten W¨ urfelw¨ urfen. Die absoluten und die relativen H¨aufigkeiten sind jeweils als Stabdiagramm dargestellt. Und was sagen Sie? So ungef¨ahr ist die Vorstellung - 1 / 6 = 16 . 67 % - ja eingetreten. Kommen Sie dichter dran, wenn Sie h¨aufiger w¨ urfeln? Dazu erfahren Sie sp¨ater mehr. Sie wollen ein paar Begrifflichkeiten bzw. Konzepte kennenlernen, um ein Ger¨ ust f¨ ur die Wahrscheinlichkeitsrechnung aufzubauen. Ein Experiment mit zuf¨alligem Ausgang wird als Zufallsexperiment bezeichnet. → Der einmalige Wurf eines W¨ urfels. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="136"?> 3.2. Die Wahrscheinlichkeit 137 Die m¨oglichen elementaren Ausg¨ange heißen Ergebnisse oder Elementarereignisse. → Die verschiedenen Augenzahlen: zum Beispiel {1} Die Menge dieser Ergebnisse heißt Ergebnismenge (Ereignisraum, Stichprobenraum) und wird oft mit Ω (”Omega“) bezeichnet, also alles, was passieren kann. → Ω = {1 , 2 , 3 , 4 , 5 , 6} Elementarereignisse werden durch einelementige Teilmengen der Ergebnismenge repr¨asentiert. → {1} , {2} , {3} , {4} , {5} , {6} Mehrere Elementarereignisse k¨onnen zu nicht elementaren Ereignissen zusammengefasst werden. Ereignisse lassen sich ebenso durch (kurze) Aussagen charakterisieren und werden im Folgenden durch große Buchstaben abgek¨ urzt. Ereignis A: gerade Augenzahl {2 , 4 , 6} Sie haben nat¨ urlich die Mengenklammern bemerkt. Die Mengenlehre ist ein wichtiger Grundbaustein der Wahrscheinlichkeitsrechnung. Es ist sozusagen die Modellierungssprache. Mit ihrer Hilfe k¨onnen Sie (pr¨azise) das Zufallsexperiment formulieren, zu dem Sie Wahrscheinlichkeiten ermitteln m¨ ochten. Das folgt nun. 3.2 Die Wahrscheinlichkeit In diesem Kapitel lernen Sie das Konzept Wahrscheinlichkeit kennen. die verschiedenen Blickwinkel und Definitionsm¨oglichkeiten kennen. Am besten ist es, man n¨ahert sich m¨oglichst unauff¨allig und ohne große Ank¨ undigungen den theoretischen Aspekten dieses Themas, daher: Jedem Elementarereignis wird als Wahrscheinlichkeit so eine Zahl zwischen 0 und 1 zugeordnet, dass die Summe der Wahrscheinlichkeiten gerade 1 ergibt. Die Wahrscheinlichkeit soll die oben erw¨ahnte intuitive Gewissheit in Bezug auf das Eintreten widerspiegeln. Einfachst betrachtet, kann dies als Prozentzahl interpretiert werden. F¨ ur Wahrscheinlichkeit verwenden Sie den Buchstaben P (probability) verwenden. P ( W¨ urfel zeigt Augenzahl j ) = 1 / 6 mit j = 1 , . . . , 6 Im Folgenden werden Sie sich mit solchen Zufallsexperimenten besch¨aftigen, die eine diskrete Ergebnismenge aufweisen. endlich viele oder abz¨ahlbar unendlich viele Ergebnisse sind m¨oglich. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="137"?> 138 Kapitel 3. Wahrscheinlichkeiten Das war durchaus nachvollziehbar. Selbstverst¨andlich, und das ist ja auch durchaus ¨ ublich in vielen Lehrb¨ uchern, kann man an dieser Stelle ein theoretisches Feuerwerk entfachen und der Wahrscheinlichkeitsrechnung ein wasserdichtes Fundament verpassen. Das ist allerdings nicht Ziel des vorliegenden Buches. Die allermeisten Studierenden, die sich mit Statistik besch¨aftigen, ben¨otigen diese gr¨ undliche Fundamentlegung nicht. Lehrb¨ ucher mit einem anderen Konzept tun dies und k¨onnen zurate gezogen werden. Hier soll der Hinweis gen¨ ugen: Die Wahrscheinlichkeitsrechnung hat ein solches (axiomatisches) Fundament, auf das Sie sich verlassen k¨onnen. In der Regel ist die konkrete Kenntnis dar¨ uber nicht notwendig, da im (Berufs-) Alltag ein ¨ ubergeordnetes Verst¨andnis und die Einsch¨atzung einfacher Wahrscheinlichkeitssituationen vollkommen ausreichend ist. Wichtig ist dagegen die Erkenntnis, dass der Mensch sich im Allgemeinen schwer damit tut, (korrekte) Entscheidungen unter Unsicherheit zu treffen und dass Bauchgef¨ uhl und Intuition keine verl¨asslichen Gehilfen sind. 1 Viel spannender ist jetzt die Frage nach dem konkreten Zustandekommen dieser Wahrscheinlichkeiten. Beim W¨ urfel wird immer wieder ohne Einspruch 1/ 6 als Wahrscheinlichkeit f¨ ur die Elementarereignisse festgelegt. Woher kommt diese Zahl? Was rechtfertigt sie? Im Folgenden sollen verschiedene Ans¨atz zur Festlegung von Wahrscheinlichkeiten vorgestellt werden. 1. Klassische Wahrscheinlichkeit / Laplace-Wahrscheinlichkeit 2 Wenn Sie an der Wahrscheinlichkeit f¨ ur ein Elementarereignis interessiert sind, f¨ uhrt Sie eine logische Betrachtung des W¨ urfelwurfs zu dem Schluss, dass es sechs verschiedene Seiten gibt und aus Symmetriegr¨ unden keine h¨aufiger drankommen sollte. Anders formuliert: Es gibt sechs verschiedene Ergebnisse (Elementarereignisse) des Zufallsexperiments (fairer) W¨ urfelwurf, die alle gleich wahrscheinlich sind. Wenn Sie also an der Wahrscheinlichkeit f¨ ur das Eintreten von Ereignis A interessiert sind, dann m¨ ussen Sie Folgendes wissen: Wie viele Ergebnisse f¨ uhren zu A, und wie viele Ergebnisse gibt es insgesamt: P ( A ) = Anzahl Ergebnisse in A Anzahl Ergebnisse in Ω = | A | |Ω| mit | A | gleich der M¨achtigkeit der Menge A, also der Anzahl Elemente in A. Wie groß ist also die Wahrscheinlichkeit f¨ ur das Ereignis A: gerade Augenzahl ? 1 Vgl. Kapitel 1.1 Warum Statistik - Begegnungen 2 Pierre-Simon (Marquis de) Laplace, 1749-1827 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="138"?> 3.2. Die Wahrscheinlichkeit 139 Wurf Relative Häufigkeit 0 1000 2000 3000 4000 5000 6000 0.0 0.1 0.2 0.3 Entwicklung der relativen Häufigkeit für die 1 #Würfe: 6000 , #Erfolge: 989 h=16,5% Abbildung 3.4: Ein W¨ urfelexperiment - Entwicklung der relativen H¨aufigkeit f¨ ur die Augenzahl 1 → A = {2 , 4 , 6} P ( A ) = 3 6 = 1 / 2 Der klassische Ansatz kann prinzipiell nur verwandt werden, wenn die Ergebnismenge endlich ist und alle Elementarereignisse gleich wahrscheinlich sind. Man spricht auch vom Gleichm¨oglichkeitsmodell. 2. Frequentistischer Ansatz 3 Eine M¨oglichkeit, zu einer Bewertung eines Ereignisses im Rahmen eines Zufallsvorgangs zu gelangen, besteht darin, den Zufallsvorgang mehrmals unter identischen Bedingungen zu beobachten und zu z¨ahlen, wie oft das interessierende Ereignis eingetreten ist. Man sammelt also Erfahrungen ¨ uber die Realisierungsm¨oglichkeiten eines Ereignisses durch Beobachten und Z¨ahlen. 3 lat. frequentia: H¨aufigkeit Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="139"?> 140 Kapitel 3. Wahrscheinlichkeiten Die Wahrscheinlichkeit P wird dann durch die relativen H¨aufigkeiten abgesch¨atzt. In Abbildung 3.4 sind 6000 durch einen Rechner simulierte W¨ urfelw¨ urfe dargestellt. Das interessierende Ereignis war die Augenzahl 1. Es ist die Entwicklung der relativen H¨aufigkeiten dieses Ereignisses dargestellt. Die Schwankungen um 1 / 6 scheinen immer geringer zu werden. Es liegt also nahe, die Wahrscheinlichkeit P durch die relative Erfolgsh¨aufigkeit zu ersetzen - wenn Sie das Experiment N -mal durchf¨ uhren und n N ( A ) -mal das Ereignis A eingetreten ist, dann gilt: P ( A ) ≈ n N ( A ) N Allerdings wissen Sie an dieser Stelle nicht, ob das immer gilt, also f¨ ur jeder Versuchsreihe. Die Frage ist also, k¨onnen Sie sich auf den Zufall ”verlassen“? Auf der Seite 195 werden Sie eine Antwort auf diese Frage bekommen und die L¨ ucke schließen k¨onnen. 3. Subjektivistischer Ansatz Das klingt zun¨achst einmal unseri¨os, nichts ist doch objektiver als eine berechenbare Wahrscheinlichkeit. Denken Sie einmal an die Ziegenwette auf der Seite 17 zur¨ uck. Stellen Sie sich vor, dass, nachdem der Moderator die T¨ ur mit der Ziege ge¨offnet hat, eine dritte Person hinzukommt und lediglich weiß, dass hinter zwei T¨ uren ein Auto und eine Ziege versteckt sind. → F¨ ur diese Person ist die (subjektive) Wahrscheinlichkeit in Bezug darauf, wo sich das Auto befindet, eine vollkommen andere, da ihr Informationen fehlen! → Darum geht es: Pers¨onliche Einsch¨atzungen, individuelles Wissen oder die Befragung eines Experten k¨onnen helfen, die Wahrscheinlichkeit f¨ ur das Eintreten eines Ereignisses zu bestimmen. Dabei handelt es sich um eine legitime und sehr h¨aufige Form, sich ¨ uber das Eintreten eines Ereignisses zu informieren. → Wie wird sich die Wirtschaft entwickeln? Beim Konzept der bedingten Wahrscheinlichkeit ist diese Form des Expertenwissens sehr bedeutsam. 4. Axiomatische Definition 1933 hat der Mathematiker Andrej N. Kolmogoroff (1903-1987) die Wahrscheinlichkeitsrechnung auf ein axiomatisches Fundament gesetzt. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="140"?> 3.3. Rechnen mit Wahrscheinlichkeiten 141 Drei Bedingungen muss das Wahrscheinlichkeitsmaß P demnach erf¨ ullen. ¨ Ubrigens werden Sie diese im weiteren Verlauf kennenlernen. 4 Damit k¨onnen Sie sich auf die Wahrscheinlichkeitsrechnung ”verlassen“, da sie widerspruchsfrei ist. Sie k¨onnen alle intuitiven Ableitungen aus den drei Grundaxiomen ableiten. Wie oben erw¨ahnt, reicht die Kenntnis dar¨ uber in diesem Zusammenhang vollkommen aus. Kurz gefasst! Als Basis der Wahrscheinlichkeitsrechnung dient das Konzept der Menge. Dies ist die Beschreibungssprache. Im Zuge dessen haben Sie die Konzepte Zufallsexperiment, Ergebnisse, Ergebnismenge, Ereignis kennengelernt. Der Begriff Wahrscheinlichkeit ist intuitiv eingef¨ uhrt worden, einem Ergebnis wird eine Zahl zwischen Null und Eins zugewiesen. Es wurden Ihnen Ans¨atze zum Auffinden dieser Zahl, der Wahrscheinlichkeit, aufgezeigt. Das Gleichm¨oglichkeitsmodell hat in diesem Zusammenhang eine große Bedeutung. 3.3 Rechnen mit Wahrscheinlichkeiten In diesem Kapitel lernen Sie wie Sie mit Wahrscheinlichkeiten rechnen k¨onnen. wie Sie verschiedene Ergebnisse zusammenfassen k¨onnen. wie Sie Ereignisse graphisch darstellen k¨onnen. Sie haben sich die notwendigen Voraussetzungen, Begrifflichkeiten und Konzepte erarbeitet, um mit Wahrscheinlichkeiten zu hantieren. Am Beispiel des W¨ urfels sollen Rechenregeln entwickelt werden. F¨ ur das Eintreten der Ergebnismenge Ω gilt - diese wird auch als das sichere Ereignis bezeichnet: 4 WS liegt zwischen Null und Eins, das sichere Ereignis hat WS 1, WS f¨ ur die Vereinigung inkompatibler Ereignisse ist gleich der Summe der Einzel-WS. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="141"?> 142 Kapitel 3. Wahrscheinlichkeiten P (Ω) = 1 → Ω = {1 , 2 , 3 , 4 , 5 , 6} irgendetwas davon muss eintreten, wenn ich einen W¨ urfel werfe. Dies l¨asst sich auch sehr einfach ¨ uber den klassischen Ansatz zeigen: → Da alle m¨oglichen Ergebnisse zum Eintreten von Ω f¨ uhren, gilt in diesem W¨ urfelfall: P (Ω) = 6 / 6 = 1 Es sei Ereignis A = {4} → P ( A ) = 1 / 6 , gem¨aß Gleichm¨oglichkeitsmodell - ein Ergebnis, n¨amlich {4} , f¨ uhrt zum Eintreten von A. Wie groß ist die Wahrscheinlichkeit, dass keine 4 gew¨ urfelt wird? Sie sind also an ¯ A dem Komplement¨arereignis zu A interessiert: ¯ A = {1 , 2 , 3 , 5 , 6} → Ausz¨ahlen f¨ uhrt also zu P ( ¯ A ) = 5 / 6 Allgemein gilt: P ( ¯ A ) = 1 − P ( A ) Im Beispiel: P ( ¯ A ) = 1 − 1 / 6 = 5 / 6 A und ¯ A k¨onnen nicht gemeinsam auftreten, daher kann f¨ ur ¯ A nur noch 1− P ( A ) ¨ ubrigbleiben, die sogenannte Gegenwahrscheinlichkeit. ¨ Ubrigens ist das Komplement¨arereignis zu Ω das sogenannte unm¨ogliche Ereignis ∅ . ∅ bezeichnet auch eine leere Menge. Es gilt daher: P (Ω) = 1 und P (∅) = 0 → P (∅) = 1 − P (Ω) = 1 − 1 = 0 Beim W¨ urfelexperiment gilt P ({7}) = 0 . Wahrscheinlichkeiten werden sehr oft ¨ uber sogenannte Aussagen formuliert. Dies ist nicht verwunderlich, wenn Sie bedenken, dass (echte) Wahrscheinlichkeitsprobleme in gr¨oßeren Zusammenh¨angen formuliert werden, oft genug zusammengesetzt sind und eben nicht als Einzelproblem daherkommen. Mit Hilfe der Mengenlehre lassen sich diese beschreiben. Es ist wichtig, eine solche Beschreibungssprache zu haben. Die Mathematik und auch die Statistik erf¨ ullen diese Funktion. Mit ihrer Hilfe l¨asst sich eine Abstraktion vom eigentlichen konkreten Problem vornehmen, so dass von dieser neuen Position aus die Fragestellungen formuliert und gel¨ost werden k¨onnen. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="142"?> 3.3. Rechnen mit Wahrscheinlichkeiten 143 Und mit Hilfe von sogenannten Venn-Diagrammen lassen sich Mengenbzw. Aussagenoperationen einfach graphisch darstellen. 5 Es seien A = {1 , 2 , 3} und B = {2 , 4 , 6} zwei Ereignisse in Bezug auf ein W¨ urfelexperiment. Vereinigungsmenge: Entweder A oder B tritt ein, die sogenannte ODER- Verkn¨ upfung. A ∪ B = {1 , 2 , 3 , 4 , 6} → A ∪ ¯ A = Ω Abbildung 3.5: Venn-Diagramm zur Vereinigung Schnittmenge: A und B treten gleichzeitig ein, die sogenannte UND-Verkn¨ upfung. A ∩ B = {2} → A ∩ ¯ A = ∅ Abbildung 3.6: Venn-Diagramm zur Schnittmenge Differenzmenge: A tritt ein, aber nicht B, die sog MINUS-Verkn¨ upfung. A \ B = {1 , 3} Abbildung 3.7: Venn-Diagramm zur Differenz Nun k¨onnen auch Wahrscheinlichkeitsaussagen generiert werden. Vereinigung: P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) Die Schnittmenge wird zweimal gez¨ahlt, daher muss sie einmal wieder abgezogen werden ( Venn -Diagramm Abbildung 3.5). 5 John Venn 1834-1923 , britischer Logiker. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="143"?> 144 Kapitel 3. Wahrscheinlichkeiten → Im Beispiel umfasst A ∪ B = {1 , 2 , 3 , 4 , 6} gerade f¨ unf Ergebnisse. → Es muss also gelten P ({1 , 2 , 3 , 4 , 6}) = 5 / 6 . P ({1 , 2 , 3}) = 3 / 6 und P ({2 , 4 , 6}) = 3 / 6 , die Summe ist also 1. F¨ ur die Schnittmenge gilt P ({2}) = 1 / 6 → 3 / 6 + 3 / 6 − 1 / 6 = 5 / 6 Sind A und B schnittleer, haben sie also kein gemeinsames Ergebnis, dann gilt: A ∩ B = ∅ A und B werden dann auch als disjunkt bezeichnet ( Venn -Diagramm). Da P (∅) = 0 gilt, l¨asst sich in diesem schnittleeren Fall sagen: P ( A ∪ B ) = P ( A ) + P ( B ) Beispiel A: gerade Augenzahl und B: ungerade Augenzahl . Der Mensch freut sich beim Mensch-¨argere-Dich-nicht-Spiel besonders dann, wenn er mehrere Sechsen hintereinander w¨ urfelt. Wie wahrscheinlich ist es, dass sich bei zwei W¨ urfen bspw. zwei Sechsen einstellen? A i = der i-te W¨ urfel zeigt eine 6. Nat¨ urlich hilft hier auch das Gleichm¨oglichkeitsmodell weiter. Wenn Sie zwei W¨ urfel gleichzeitig (oder zweimal hintereinander) w¨ urfeln, dann gibt es nur einen einzigen Pasch 6 unter den 36 m¨oglichen Ausg¨angen. Diese Ergebnismenge l¨asst sich noch einigermaßen hinschreiben. Wie viele Elemente hat die Ergebnismenge? 2. W¨ urfel → 1 2 3 4 5 6 1. W¨ urfel ↓ 1 1,1 1,2 1,3 1,4 1,5 1,6 2 2,1 2,2 2,3 2,4 2,5 2,6 3 3,1 3,2 3,3 3,4 3,5 3,6 4 4,1 4,2 4,3 4,4 4,5 4,6 5 5,1 5,2 5,3 5,4 5,5 5,6 6 6,1 6,2 6,3 6,4 6,5 6,6 Tabelle 3.1: Ergebnismenge beim zweimaligen W¨ urfelwurf Ab drei W¨ urfen sieht das anders aus. Wie viele sind es hier? Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="144"?> 3.3. Rechnen mit Wahrscheinlichkeiten 145 Allgemein gilt folgender Multiplikationssatz: f¨ ur das gemeinsame Auftreten der Ereignisse A und B Sind zwei Ereignisse A und B unabh¨angig voneinander, dann gilt: P ( A ∩ B ) = P ( A ) · P ( B ) Unabh¨angig heißt, dass das Eintreten des einen Ereignisses keinerlei Einfluss auf das Eintreten des anderen hat. → Man erinnere sich bitte an die Herleitung des Kontingenzkoeffizienten! Zwei W¨ urfel beeinflussen sich nicht. Daher gilt: P ( A 1 ∩ A 2 ) = P ( A 1 ) · P ( A 2 ) = 1 / 6 · 1 / 6 = 1 / 36 Im Beispiel von Seite 143 gilt das nat¨ urlich nicht. Hier wird nur ein W¨ urfel geworfen. Dazu werden verschiedene Ereignisse betrachtet. Wenn A eingetreten ist, hat das sehr wohl einen Einfluss auf B. Hier k¨onnen Sie im Gegenteil mit bedingten Wahrscheinlichkeiten rechnen. Angenommen Sie wissen, dass Ereignis B = {2 , 4 , 6} eingetreten ist. Wie groß ist jetzt die Wahrscheinlichkeit, dass A = {1 , 2 , 3} auch eingetreten ist? Bei getrennter Betrachtung gilt: P ( A ) = 3 / 6 und P ( B ) = 3 / 6 und P ( A ∩ B ) = 1 / 6 . Nun bekommen Sie aber die Information, dass B eingetreten ist. Das hat einen großen Einfluss auf die Beantwortung der Frage, ist auch A eingetreten. Die Bezugsgr¨oßen haben sich ge¨andert. Ω spielt keine Rolle mehr. B ist jetzt die entscheidende Bezugsgr¨oße! Sie interessiert P ( A | B ) , also die Wahrscheinlichkeit f¨ ur das Ereignis A unter der Bedingung, dass B eingetreten ist, die sogenannte bedingte Wahrscheinlichkeit: Definition 3.1: Bedingte Wahrscheinlichkeit P ( A | B ) = P ( A ∩ B ) P ( B ) Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="145"?> 146 Kapitel 3. Wahrscheinlichkeiten Im Beispiel: P ( A | B ) = 1 / 6 3 / 6 = 1 / 3 Sie haben etwas gelernt, Sie haben eine Zusatzinformation erhalten. Diese ver- ¨andert grunds¨atzlich die Wahrscheinlichkeit f¨ ur das Eintreten eines Ereignisses (vgl. das Ziegenproblem). Nun k¨onnen Sie auch Unabh¨angigkeit definieren, n¨amlich, dass das Eintreten des einen Ereignisses keinen Einfluss auf das andere hat - als bedingte Wahrscheinlichkeit geschrieben: Definition 3.2: Unabh¨angigkeit P ( A | B ) = P ( A ) Man stelle sich einen Vertreter vor, der zehn Besuche am Tag schafft und mit Wahrscheinlichkeit 0 . 2 einen erfolgreichen Abschluss bei einem Besuch schafft. → Die Vertriebsleitung k¨onnte die A-priori-Wahrscheinlichkeit interessieren, dass A: mindestens 2 erfolgreiche Abschl¨ usse get¨atigt werden. Die konkrete Wahrscheinlichkeit P ( A ) daf¨ ur werden Sie im Kapitel 4.3.2 Binomialverteilung kennenlernen. Im Moment reicht aus, sie wird echt gr¨oßer als Null und echt kleiner als 1 sein. → Nun ruft die Vertriebschefin mittags beim Vertreter an und erf¨ahrt, dass er bereits am Vormittag B: drei erfolgreiche Termine hatte. Somit muss die Frage nach dem Ereignis A umformuliert werden zur A-posteriori-Wahrscheinlichkeit P ( A | B ) = 1 . → Es gilt offensichtlich nicht P ( A | B ) = P ( A ) . Zus¨atzliche Kenntnisse B den Ausgang eines Zufallsexperimentes (zehn Hausbesuche durch einen Vertreter) betreffend, k¨onnen gravierende Auswirkungen auf A-priori-Wahrscheinlichkeiten haben. Dagegen: Wie groß ist die Wahrscheinlichkeit, A: eine 6 zu w¨ urfeln, wenn Sie wissen, dass Sie bereits B: mit einer M¨ unze Zahl geworfen haben? Offensichtlich hat B keinerlei Einfluss auf das Eintreten von A. Die beiden Ereignisse sind unabh¨angig, daher gilt P ( A | B ) = P ( A ) . → Aus den beiden letzten Formeln ergibt sich dann auch der Multiplikationssatz f¨ ur unabh¨angige Ereignisse auf der Seite 145. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="146"?> 3.3. Rechnen mit Wahrscheinlichkeiten 147 Definition 3.3: Multiplikationssatz der Unabh¨angigkeit Aus der Definition f¨ ur bedingte Wahrscheinlichkeit sowie der zur Unabh¨angigkeit ergibt sich durch Gleichsetzung folgende Gleichung - bei Unabh¨angigkeit gilt: P ( A ) = P ( A ∩ B ) P ( B ) ⇒ P ( A ∩ B ) = P ( A ) · P ( B ) Vergleichen Sie noch einmal das Beispiel Geschlecht vs. Titanic: Wie wurden die H¨aufigkeiten unter Unabh¨angigkeit berechnet! A: Wie groß ist die Wahrscheinlichkeit, bei zwei W¨ urfen eines W¨ urfels mindestens eine 6 zu haben? Verschiedene Wege f¨ uhren zum Ziel. → Nat¨ urlich k¨onnen die f¨ ur A g¨ unstigen Ausg¨ange gez¨ahlt werden. Das sind gerade 11. Bei zwei W¨ urfeln geht das noch so gerade (vgl. Tabelle 3.1). Oft lassen sich Fragen dieser Art einfacher ¨ uber das Gegenereignis beantworten: → ¯ A: Wie wahrscheinlich ist es, dass bei zwei W¨ urfen keine 6 vorkommt? P ( ¯ A ) = 5 6 · 5 6 = 25 36 → P ( A ) = 1 − P ( ¯ A ) = 1 − 25 36 = 36 36 − 25 36 = 11 36 A: Wie groß ist die Wahrscheinlichkeit, bei vier W¨ urfen eines W¨ urfels mindestens eine 6 zu haben? → Hier m¨ochten Sie nicht mehr die Ergebnismenge aufschreiben (= 1296 Ergebnisse). P ( ¯ A ) = ( 5 6 ) 4 = 625 1296 → P ( A ) = 1 − P ( ¯ A ) = 1 − 625 1296 = 0 , 51775 Sie w¨ urden also wenigstens eine 6 bei vier W¨ urfen erwarten. Und viermal die 6 bei vier W¨ urfen? → P ( 4 mal Sechs bei 4 W¨ urfen ) = ( 1 6 ) 4 ≈ 0 . 001 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="147"?> 148 Kapitel 3. Wahrscheinlichkeiten Alles dazwischen ist zun¨achst einmal wesentlich komplizierter. Beim Bernoulli-Prozess bzw. bei der Binomial-Verteilung werden Sie diese Frage beantworten k¨onnen. Kurz gefasst! Sie haben verschiedene Rechenvorschriften kennengelernt: Gegenwahrscheinlichkeit, Vereinigung, Unabh¨angigkeit, bedingte Wahrscheinlichkeit. Mit Hilfe von Venn-Diagrammen k¨onnen Sie Ereignisse graphisch darstellen. Exkurs zur Motivation: Das Ziegenproblem Auf der Seite 17 wurde die Ziegenwette vorgestellt. Es gibt verschiedene M¨oglichkeiten, das optimale Verhalten zu eruieren. Eine ist, Ω aufzuschreiben. Das geht nicht immer, hier klappt es: Angenommen, der Kandidat hat im 1. Schritt Tor 1 ausgew¨ahlt, was kann passieren - dies ist keine Einschr¨ankung, die Tabelle ist strukturgleich f¨ ur alle drei m¨oglichen F¨alle: Auto Moderator nie wechseln immer wechseln 1 2 oder 3 1 0 2 3 0 1 3 2 0 1 Tabelle 3.2: Ziegenproblem - Was kann passieren? Jede Zeile beschreibt eine gleich wahrscheinliche (1/ 3), aber sich gegenseitig ausschließende Situation, n¨amlich wo steht das Auto (Spalte 1). Spalte 2 zeigt, welche T¨ ur der Moderator aufmachen kann. In den beiden letzten Spalten ist vermerkt, welche Strategie gewinnen (1) bzw. verlieren w¨ urde (0). Die Summe der beiden letzten Spalten ist 1 bzw. 2. Aufgrund des Gesetzes von der Vereinigung d¨ urfen Sie die beiden Zahlen mit 1/ 3 multiplizieren und erhalten die gesuchten Wahrscheinlichkeiten: Die Strategie hat eine zweimal so große Wahrscheinlichkeit (2/ 3)! Auf der Seite 197f wird gezeigt, wie Sie dieses Ergebnis auch per Simulation erzielen k¨onnen. Und im Rahmen der Aufgaben zu diesem Kapitel soll einmal versucht werden, die entsprechenden bedingten Wahrscheinlichkeiten zu formulieren. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="148"?> 3.4. Totale Wahrscheinlichkeit 149 3.4 Totale Wahrscheinlichkeit In diesem Kapitel lernen Sie wie Sie Ω zerlegen k¨onnen, um bisher unerreichte Wahrscheinlichkeiten auszurechnen. wie Sie mit dieser Technik auf heikle Fragen ehrliche Antworten bekommen. Das Konzept der totalen Wahrscheinlichkeit soll an einem Beispiel hergeleitet werden, welches dar¨ uber hinaus noch einmal die St¨arken der Wahrscheinlichkeitsrechnung darlegen, die Sie sich (leider) erarbeiten m¨ ussen, da sie einem f¨ ur gew¨ohnlich nicht in den Schoß fallen. Es soll mit statistischen Mitteln der Frage nachgegangen werden, wie Sie unter Wahrung von Anonymit¨at ehrliche Antworten auch zu sehr heiklen Themen bekommen k¨onnen. Als Beispiel soll hier die Steuerehrlichkeit dienen. Der folgende zweistufige Versuchsaufbau zeigt auf, wie eine solche anonyme Befragung durchgef¨ uhrt werden kann. 1. Ein Befragter f¨ uhrt ein Zufallsexperiment durch, dessen Ergebnis nur er kennt: Er wirft zweimal hintereinander eine M¨ unze. 2. Ist beim ersten Wurf Kopf gefallen, soll er folgende Frage 1 beantworten: Frage 1: Haben Sie bei Ihrer letzten Steuerkl¨arung Teile Ihres Einkommens bzw. Ihrer Verm¨ogenswerte nicht angegeben? Ansonsten soll er Frage 2 beantworten: Frage 2: Erschien beim zweiten M¨ unzwurf Kopf? Das war alles. Jeder Befragte wirft die M¨ unze zweimal, gibt aber nur eine Antwort, Ja oder Nein. Der Fragesteller weiß nicht, auf welche Frage der Befragte geantwortet hat. Wie Sie mit diesem einfachen Experiment zu einem aussagekr¨aftigen Ergebnis ¨ uber die Steuerehrlichkeit der Gesamtbev¨olkerung kommen, zeigen die nachstehenden Ausf¨ uhrungen. Zwei Ereignisse werden definiert: Ereignis F1: Frage 1 wird beantwortet. Ereignis J: Die Frage (egal welche) wird mit Ja beantwortet. Die folgenden Wahrscheinlichkeiten sind unter der Voraussetzung, einen fairen W¨ urfel zu verwenden, (trivialerweise) bekannt: P ( F 1) = 1 2 , P ( F 1) = 1 2 , P ( J | F 1) = 1 2 Leider ist die gesuchte Wahrscheinlichkeit nicht dabei. Sie sind schließlich daran interessiert, die Wahrscheinlichkeit f¨ ur Ja, gegeben es wurde Frage 1 beantwortet, Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="149"?> 150 Kapitel 3. Wahrscheinlichkeiten zu erfahren, = P ( J | F 1) . Ja, gegeben es wurde Frage 2 beantwortet, ist mit 1 / 2 immerhin schon bekannt. Wie l¨asst sich die gesuchte Wahrscheinlichkeit berechnen bzw. ¨ uber die erhobenen Daten sch¨atzen? Der Trick besteht in der genauen Analyse, wie das Ereignis J zustande kommen kann. Die Antwort Ja kann in zwei F¨allen gegeben werden, entweder auf Frage 1, sofern Ereignis F1 eingetreten ist, oder auf Frage 2, wozu das Komplement¨arereignis eingetreten sein muss. Mit Hilfe der Mengenlehre kann das Ereignis J also so zusammengesetzt werden: J = ( J ∩ F 1) ∪ ( J ∩ F 1) Diese Zerlegung des Ereignisses l¨asst sich gut an einem Venn-Diagramm erkennen, vgl. Abbildung 3.8. Das Ereignis J kann entsprechend der angegebenen Beziehung nur im Zusammenhang mit F1 oder F 1 eintreten, was durch die Schnittmenge ausgedr¨ uckt wird. Ferner muss f¨ ur die G¨ ultigkeit der Beziehung der Ereignisraum Ω durch die beiden Ereignisse F1 und F 1 vollst¨andig zerlegt werden. Da diese im vorliegenden Fall zueinander komplement¨ar und damit disjunkt sind, sodass F 1 ∩ F 1 = ∅ gilt, ist dies erf¨ ullt - mehr kann sozusagen nicht passieren. Abbildung 3.8: Totale Wahrscheinlichkeit Nun kann die Wahrscheinlichkeit f¨ ur J unter Nutzung des Satzes (bzw. Axioms) von der Vereinigung so bestimmt werden - vgl. S. 143, hier gilt, wie erw¨ahnt, die Schnittleere der Ereignisse: P ( J ) = P ( J ∩ F 1) + P ( J ∩ F 1) Soweit so gut. Nun fehlen allerdings noch die Wahrscheinlichkeiten f¨ ur die Schnittmengen. Dazu wird die Definition der bedingten Wahrscheinlichkeit ben¨otigt (vgl. Seite 145): P ( A | B ) = P ( A ∩ B ) P ( B ) Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="150"?> 3.4. Totale Wahrscheinlichkeit 151 Damit lassen sich die Wahrscheinlichkeiten f¨ ur die Schnittmengen so ausdr¨ ucken: P ( A ∩ B ) = P ( A | B ) · P ( B ) Setzten Sie A = J und B = F 1 bzw. B = F 1 , so ergibt sich aus der aufgestellten Beziehung: P ( J ) = P ( J | F 1) · P ( F 1) + P ( J | F 1) · P ( F 1) Dies ist nichts anderes als der Satz von der totalen Wahrscheinlichkeit. Alle Wahrscheinlichkeiten, die zum Eintreten eines Ereignisses, hier J , f¨ uhren k¨onnen, werden auch ber¨ ucksichtigt, da der Ereignisraum vollst¨andig zerlegt wurde. Anders formuliert heißt das: Wenn die unbekannte Wahrscheinlichkeit eines bestimmten Ereignisses - hier J - ermittelt werden soll, dann kann diese Wahrscheinlichkeit unter bestimmten Umst¨anden in mehrere kleinere H¨appchen zerlegt werden. Das funktioniert, wenn das gesuchte Ereignis als Konsequenz bestimmter Vorereignisse eintritt → Ja kann nur geantwortet werden, wenn entweder Frage 1 oder Frage 2 gestellt wurden. Die Zerlegung des Ereignisses und die totale Wahrscheinlichkeit haben Sie damit in die Lage versetzt, unter Wahrung v¨olliger Anonymit¨at den Anteil der Steuers¨ under zu ermitteln. Es gilt n¨amlich unter Verwendung der bekannten Wahrscheinlichkeiten: P ( J | F 1) = P ( J ) − P ( J | F 1) · P ( F 1) P ( F 1) = P ( J ) − 0 . 25 0 . 5 = 2 · P ( J ) − 0 . 5 P(J) ist nichts anderes als der Anteil aller Ja-Antworten, den kann man ausz¨ahlen. F¨ ur unsere Zwecke reicht die folgende Definition der totalen Wahrscheinlichkeit - das Ereignis A kann an die n Zerlegungen der Ereignisse B n geheftet werden. Die B n bilden eine Partition des zugrunde liegenden Wahrscheinlichkeitsraums Ω , das heißt, sie bilden eine vollst¨andige und disjunkte Zerlegung von Ω . F¨ ur n = 2 ist die Zerlegung beschr¨ankt auf B und B: Definition 3.4: Totale Wahrscheinlichkeit P ( A ) = ∑ n P ( A | B n ) · P ( B n ) P ( B n ) > 0 ∀ n Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="151"?> 152 Kapitel 3. Wahrscheinlichkeiten 3.5 Satz von Bayes In diesem Kapitel lernen Sie mit Hilfe der bedingten Wahrscheinlichkeit die eigentlich interessierenden Wahrscheinlichkeiten berechnen zu k¨onnen. am Beispiel der Medizin, welche Bedeutung dieses Konzept in der Realit¨at hat. An dieser Stelle k¨onnte man ein v¨ollig neues Buch beginnen, das die Bayes-Statistik zum Thema hat. Hier soll aber lediglich der erw¨ahnte Satz vorgestellt werden, benannt ¨ ubrigens nach Thomas Bayes (1702-1761), der zwar vor allem ein englischer Pfarrer war dessen Name aber unsterblich mit dem Bayestheorem verbunden ist. 6 Grunds¨atzlich geht es um die Frage, inwiefern neu gewonnene Erkenntnisse, bereits bekannte Wahrscheinlichkeiten f¨ ur Ereignisse beeinflussen. Die Frage nach der Wahrscheinlichkeit, eine 6 zu w¨ urfeln, wird nat¨ urlich trivialerweise durch die Information beeinflusst, dass auf jeden Fall eine ungerade Augenzahl gew¨ urfelt wurde. Die sogenannte a-priori Wahrscheinlichkeit P (6) = 1 / 6 kann dann durch die aposteriori Wahrscheinlichkeit P (6| ungeradeAugenzahl ) = 0 ersetzt werden. Letztere ist eine bedingte Wahrscheinlichkeit. Der Satz von Bayes kann aber noch mehr. Die Zutaten sind bedingte Wahrscheinlichkeiten und der Satz von der totalen Wahrscheinlichkeit. Eine wichtige Anwendung des Satzes von Bayes findet sich in der Medizin. Beim sogenannten Screening kommen Tests zum Einsatz, die anzeigen sollen, ob ein Mensch eine bestimmte Krankheit hat oder nicht, sich in einem bestimmten Zustand befindet oder eben nicht. Sollte sich zum Beispiel die gesamte Bev¨olkerung verpflichtend einem Test zu einer bestimmten Krankheit XYZ unterziehen? Aus vielen Gr¨ unden ist die klare Antwort NEIN. Ein wichtiges Argument liefert die Wahrscheinlichkeitsrechnung mit dem Satz von Bayes. Die Wahrscheinlichkeit f¨ ur das Ereignis A, n¨amlich, dass ein zuf¨allig ausgew¨ahlter Mensch an der Krankheit XYZ leide, betrage: P ( A ) = 0 . 0002 also im Schnitt 1 von 5000. Ein Screeningtest soll zutage bringen, wer Krankheitstr¨ager ist. Das Ereignis B tritt ein, falls der Sreeningtest bei einer Person positiv ausgefallen ist, die Krankheit laut Test also vorliegt. 6 Sein somit wichtigstes Werk Essay Towards Solving a Problem in the Doctrine of Chances. wurde erst zwei Jahre nach seinem Tod ver¨offentlicht. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="152"?> 3.5. Satz von Bayes 153 Der Hersteller des Tests versichert, dass jener das Vorliegen einer Krankheit zu 99 % erkennt, also die sogenannte Sensitivit¨at: P ( B | A ) = 0 . 99 betr¨agt. Lediglich in 1 % der F¨alle produziert der Test einen Fehlalarm: P ( B | A ) = 0 . 01 Die sogenannte Spezifizit¨at 1 − P ( B | A ) liegt damit ebenfalls bei 99 %, also die richtige Beurteilung der Gesunden. Nun ist es allerdings so, dass Sie gerade nicht wissen, wer gesund ist und wer nicht. Daf¨ ur wollen Sie den Test schließlich durchf¨ uhren. Das bedeutet, die folgende Wahrscheinlichkeit ist die interessante - der Test ist positiv, wie wahrscheinlich ist es, dass die Person krank ist: P ( A | B ) =? Der Satz von Bayes erlaubt gewissermaßen das Umkehren von Schlussfolgerungen unter Ausnutzung der vorhandenen Informationen: Definition 3.5: Satz von Bayes P ( A | B ) = P ( B | A ) · P ( A ) P ( B ) mit P ( B ) = P ( B | A ) · P ( A ) + P ( B | A ) · P ( A ) Diese Formel f¨allt nat¨ urlich nicht vom Himmel. Sie ergibt sich aus den Definitionen zur bedingten Wahrscheinlichkeit und zur totalen Wahrscheinlichkeit. Bedingte Wahrscheinlichkeit: P ( A | B ) = P ( A ∩ B ) P ( B ) Weil aber P ( A ∩ B ) = P ( B ∩ A ) und P ( B | A ) : = P ( B ∩ A ) P ( A ) gilt, gelangen Sie zur folgenden Beziehung: P ( A | B ) = P ( B | A ) · P ( A ) P ( B ) Die Wahrscheinlichkeit f¨ ur das Eintreten des Ereignisses B (ein positiver Test), P ( B ) , wird ¨ uber die mittlerweile bekannte totale Wahrscheinlichkeit berechnet, da dies in der Praxis meist nicht anders m¨oglich ist. Die Wahrscheinlichkeit wird dann ¨ uber die beiden m¨oglichen Zust¨ande A und A ) , also eine Person ist krank oder gesund, errechnet: P ( B ) = P ( B ∩ A ) + P ( B ∩ ¯ A ) = P ( B | A ) · P ( A ) + P ( B | ¯ A ) · P ( ¯ A ) Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="153"?> 154 Kapitel 3. Wahrscheinlichkeiten Nun soll gerechnet werden - wie gut sind die Aussagen des Tests im tats¨achlichen Einsatzfall, also bei Nichtkenntnis dar¨ uber, ob die getestete Person krank oder gesund ist: P ( A | B ) = 0 . 99 · 0 . 0002 0 . 99 · 0 . 0002 + 0 . 01 · 0 . 9998 = 0 . 019 Das Ergebnis ist gleichermaßen ¨ uberraschend wie erschreckend. Wahrscheinlich ist die getestete Person nicht krank ( > 98 %), obwohl der Test positiv ausgefallen ist. Lediglich in knapp 2 % der F¨alle ist die positiv getestete Person auch wirklich krank. Damit ist klar, dass ein solches Screening niemals generell f¨ ur eine gesamte Population zum Einsatz kommen darf. Wie kann das sein? Das Verh¨altnis zweier Zahlen ist entscheidend: P ( A ) ist mit 0.0002 sehr viel kleiner als die Wahrscheinlichkeit, einen Fehlalarm zu produzieren, P ( B | A ) = 0 . 01 . Die Spezifizit¨at zu verbessern, ist eine Frage der Technik und ggf. eine Kostenfrage. Der gr¨oßte Hebel ist fraglos, P ( A ) zu erh¨ohen. Konkret bedeutet das, zum Beispiel lediglich Risikogruppen zu ber¨ ucksichtigen. Die Graphik 3.9 zeigt eindrucksvoll die große Wirkung, die eine Erh¨ohung von P ( A ) auf die gesuchte Wahrscheinlichkeit aus¨ ubt. Man beachte, dass in der Graphik lediglich Werte bis maximal 5 % f¨ ur P ( A ) ber¨ ucksichtigt sind. Dennoch f¨ uhrt sie zu einer sehr signifikanten Verbesserung der Testergebnisse. Abbildung 3.9: Satz von Bayes - Einfluss P ( A) Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="154"?> 3.6. Aufgaben 155 Abbildung 3.10: Baumdarstellung - Satz von Bayes In der Graphik 3.10 ist das Ph¨anomen, das der Satz von Bayes per Formel offenlegt, noch einmal graphisch als sogenanntes Baumdiagramm dargestellt. In diesem dichotomen Fall ist das eine gute und angemessene Darstellung. 7 Kurz gefasst! Die totale Wahrscheinlichkeit erlaubt es Ihnen, eine vollst¨andige Zerlegung des Wahrscheinlichkeitsraumes durchzuf¨ uhren. Durch Vertauschen von Bedingung und bedingtem Ereignis lassen sich entgegengesetzte Wahrscheinlichkeiten ausrechnen, Satz von Bayes. Der Satz von Bayes ist in der Regel auf die totale Wahrscheinlichkeit angewiesen. 3.6 Aufgaben 1. Ergebnis einer kanadischen Studie: Linksh¨ander leben im Schnitt sieben Jahre k¨ urzer als Rechtsh¨ander. Kanadische Wissenschaftler haben festgestellt, dass mit zunehmendem Alter, der Anteil der Linksh¨ander rapide abnimmt. So sind von den unter 20-J¨ahrigen 7 Darstellung in Anlehnung an den entsprechenden Wikipedia-Eintrag. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="155"?> 156 Kapitel 3. Wahrscheinlichkeiten etwa 13 % linksh¨ander, von den 80+-J¨ahrigen sind es nur noch 1 %. Aus dieser Tatsache schlussfolgerten sie, dass Linksh¨ander wohl nicht so lange leben wie Rechtsh¨ander. K¨onnen Sie der Argumentation folgen oder haben Sie bedenken? 2. Linda ist 31 Jahre alt. Sie ist ledig, extrovertiert und intellektuell absolut brilliant. Sie hat einen Abschluss in Philosophie. Als Studentin hat sie sich gegen Diskriminierung und soziale Ungerechtigkeit engagiert. Sie hat auch an Demonstrationen gegen Kernkraft teilgenommen. (a) Was ist wahrscheinlicher? A: Linda ist Bankangestellte B: Linda ist Bankangestellte und aktiv in der Frauenbewegung (b) Begr¨ unden Sie ihre Antwort. (c) Bei einer umfangreichen Befragung im Rahmen einer Studie von Kahneman und Tversky gaben 99 % an, dass Alternative B wahrscheinlicher ist. Kommentieren Sie Ihre Einsch¨atzung, und vergleichen Sie diese mit der Einsch¨atzung einer so großen Mehrheit. 3. In einer Vorlesung f¨ ur Erstsemester sitzen 250 Studierende, von denen 100 weiblich sind. 200 Studierende besitzen einen eigenen PC. Von den Frauen besitzen 80 einen eigenen PC. (a) Hat das Geschlecht hier einen Einfluss auf den Umstand, einen Computer zu besitzen oder nicht? Eine Person wird zuf¨allig ausgew¨ahlt. Benutzen Sie zur Begr¨ undung die folgenden Ereignisse: W: die Person ist weiblich C: die Person besitzt einen eigenen PC (b) Berechnen Sie P ( C ) und P ( C | W ) . 4. Bei einer Pr¨ ufung sind 25 % der Pr¨ uflinge in Mathematik, 15 % in Statistik und 10 % in Statistik und Mathematik durchgefallen. Einer der Pr¨ uflinge wird zuf¨allig ausgew¨ahlt. Wie groß ist die Wahrscheinlichkeit, dass er oder sie: (a) in mindestens einem der beiden F¨acher durchgefallen ist? (b) nur in Mathematik durchgefallen ist? (c) in keinem Fach durchgefallen ist? (d) in genau einem Fach durchgefallen ist? Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="156"?> 3.6. Aufgaben 157 → Hinweis: Definieren Sie sich entsprechende Ereignisse und, verwenden Sie die kennengelernten Mengenoperationen: Vereinigung, Schnittmenge, Differenz, Komplement¨arereignis. 5. Eine faire M¨ unze wird zweimal geworfen. Betrachten Sie die folgenden Ereignisse: A: im 1. Wurf erscheint ZAHL B: im 2. Wurf erscheint ZAHL C: es erscheint genau einmal ZAHL (a) Welche Ereignispaare sind unabh¨angig? 6. Beim Lotto 6 aus 49 gibt es bekanntlich ( 49 6 ) = 13 . 983 . 816 verschiedene M¨oglichkeiten, diese sechs Kugeln zu ziehen. 8 (a) Stellen Sie sich einmal vor, jemand spielt 80 Jahre lang jede Woche eine Reihe Lotto. Wie groß ist die Wahrscheinlichkeit, dass diese Person wenigstens einmal 6 Richtige hat? (b) Was passiert, wenn (theoretisch) jemand 13.983.816-mal Lotto spielt, also so viele zuf¨allig ausgef¨ ullte Lottoscheine abgibt. Wie groß ist die Wahrscheinlichkeit f¨ ur wenigstens einmal 6 Richtige? (c) Wie groß ist die Wahrscheinlichkeit, den Jackpot zu knacken? Dazu wird ja noch die Superzahl, also eine Zahl zwischen 0 und 9 gezogen. (d) Stellen Sie sich vor, Sie sitzen bei der Ziehung live vor dem Fernseher und stellen nach sechs gezogenen Kugeln fest, Sie haben 6 Richtige. Wie groß ist denn nun die Wahrscheinlichkeit, den Jackpot zu knacken? Argumentieren Sie dies auch mit Hilfe von bedingten Wahrscheinlichkeiten. 7. Auf der Seite 12 im Punkt 1.1 wird die Lottowahrscheinlichkeit mit einer Autofahrt von Hamburg nach Rom beschrieben. Nehmen Sie einmal an, die Entfernung betrage 1400 km, das sind 140 Millionen cm. Vergleichen Sie das mit den eben berechneten Wahrscheinlichkeiten, den Jackpot zu knacken. K¨onnen Sie ein Experiment formulieren, das mit Hilfe der Autofahrt die praktische Unm¨oglichkeit illustriert, den Jackpot zu knacken? 8. Werfen Sie noch einmal einen Blick in den Exkurs-Kasten von der Seite 10, dort ging es um eine Jahrmarktwette. (a) Versuchen Sie, das Problem dar¨ uber zu l¨osen, dass Sie sich ¨ uberlegen was alles passieren kann, um dann zu den passenden Wahrscheinlichkeiten zu gelangen. (b) Versuchen Sie anschließend, das Problem mit Hilfe bedingter Wahrscheinlichkeiten zu l¨osen. 8 Akzeptieren Sie dies einmal kurz. Im Folgenden Kapitel wird die Aussage klar! Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="157"?> 158 Kapitel 3. Wahrscheinlichkeiten 9. Lesen Sie den Artikel Mit Statistik zur Wahrheit ([Tiemann2010]). Versuchen Sie, die Argumentation nachzuvollziehen. 10. Aus dem Dossier Die Welt im Internet 9 aus dem Spektrum der Wissenschaft wird ein Programm vorgestellt, ”das in digitalen Bildern von Menschen mit recht hoher Treffsicherheit Unbekleidete erkennt.“ Sie sollen sich hier nicht um die konkrete, technische Umsetzung k¨ ummern, sondern um die Aussagen und die F¨ahigkeiten. Hier sind die (abgedruckten) Fakten und Folgerungen aus Testl¨aufen: (a) Von 4854 Bildern mit Menschen erkannte das Programm in 43 % die Nackten. → ”Ein ziemlich gutes Ergebnis f¨ ur eine so komplexe Bildanalyse.“ (b) Auf 4289 Bildern mit ausschließlich angezogenen Personen wurden nur 4 % f¨alschlich als nackt gewertet. → ”Der Gegentest verlief ebenfalls erfolgreich.“ Bewerten Sie diese Zahlen mi den Ihnen bekannten wahrscheinlichkeitstheoretischen Hilfsmitteln auch vor dem Hintergrund, dass Facebook mittlerweile Gesichter erkennen kann. 9 Spektrum der Wissenschaft, Dossier 01/ 98 S. 27 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="158"?> Kapitel 4 Verteilungen In diesem Kapitel lernen Sie dass Sie, um Daten angemessen modellieren zu k¨onnen, Verteilungen ben¨otigen. die Br¨ ucke zwischen der Empirie und der Theorie durch das Konzept der Zufallsvariable kennen. werden Sie konkrete Verteilungen kennenlernen und anwenden. Bisher haben Sie sich im Rahmen der Wahrscheinlichkeitsrechnung mit Ereignissen befasst, die sich durch Experimente mit ungewissem Ausgang (Zufallsexperiment) ergeben. Zum Beispiel Ein W¨ urfelwurf. Die Ergebnismenge ist: Ω = {1 , 2 , 3 , 4 , 5 , 6} . Sie haben dann nach der Wahrscheinlichkeit bestimmter Ereignisse gefragt. Zum Beispiel die Wahrscheinlichkeit f¨ ur mindestens einmal Sechs beim mehrmaligen W¨ urfelwurf. Das haben Sie hinbekommen. In gewisser Weise ist es relativ unhandlich, mit Ereignissen zu hantieren und zu rechnen. Man ist festgelegt auf die Formulierung des Ereignisses. Leichte Abweichungen von der Formulierung (zweimal die Sechs) machen das Ergebnis unbrauchbar. Das Konzept der Zufallsvariable ist daher in gewisser Weise als Verallgemeinerung zu verstehen. Sie werden dies im Folgenden kennenlernen. 4.1 Zufallsvariablen Wichtig ist auch hier die Unterscheidung zwischen stetigen und diskreten Zufallsvariablen. Genau wie in der Datenanalyse ergeben sich daraus Konsequenzen, was den Umgang und die Behandlung der Zufallsvariable betrifft. <?page no="159"?> 160 Kapitel 4. Verteilungen Sie m¨ ussen es in diesem Rahmen mit der mathematischen Korrektheit nicht ganz so genau nehmen. Wichtig ist es, dass die Konzepte verstanden und angewandt werden k¨onnen. Definition 4.1: Zufallsvariable Eine Zufallsvariable X ist eine Abbildung von Ω in die reellen Zahlen. Oder anders formuliert: F¨ ur jedes Ergebnis eines Zufallsvorgangs nimmt X einen bestimmten Wert, eine bestimmte Zahl - an je nach inhaltlicher Gestaltung der Zufallsvariable. Das heißt, die konkrete Abbildung kann sich erst durch einen konkreten Kontext ergeben. Definition 4.2: Diskrete Zufallsvariable X ist eine diskrete Zufallsvariable, wenn die Ergebnismenge Ω endlich ist. Genaugenommen darf Ω unendlich abz¨ahlbar groß sein, damit X noch eine diskrete Zufallsvariable ist. Dazu das ¨ ubliche W¨ urfelbeispiel: Beim viermaligen W¨ urfelwurf interessiert vielleicht die Zufallsvariable X: Anzahl sechs, die gew¨ urfelt wurde. Daraus ergibt sich sofort und ohne gr¨oßeres Problem, dass X die Werte 0 , 1 , 2 , 3 , 4 annehmen kann. Sie sind (nat¨ urlich) an Wahrscheinlichkeiten, Durchschnittswerten und Streuungen interessiert. All das kann f¨ ur eine Zufallsvariable angegeben werden. F¨ ur jedes Konstrukt in der Theorie, also der Welt der Zufallsvariablen und Modelle, gibt es ein Pendant in der Empirie. Die folgende Tabelle fasst dies schon einmal kurz zusammen: Empirie Theorie relative H¨aufigkeit h() Wahrscheinlichkeit Mittelwert ¯ x Erwartungswert Stichprobenvarianz s 2 Varianz emp. Verteilungsfunktion ˆ F ( x ) Verteilungsfunktion Tabelle 4.1: Vergleich Konzepte Theorie vs. Empirie Die Konzepte aus der Theorie sollen an dem folgenden Beispiel einer diskreten Zufallsvariable erarbeitet werden: X: Anzahl der M¨adchen in Familien mit zwei Kindern. Wertebereich: Das erste, was Sie sich anschauen sollten, ist: Welche Werte kann X eigentlich grunds¨atzlich annehmen? Darauf baut alles auf. Manchmal, wenn es wenige sind, k¨onnen Sie diese Werte aufschreiben. Manchmal kann man sie mit Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="160"?> 4.1. Zufallsvariablen 161 Symbolen erfassen - X ∈ R . Und manchmal ist es ausreichend zu wissen, wie viele es sind. Bei unserem Beispiel gilt: X kann die Werte 0 , 1 , 2 annehmen, denn Folgendes kann nur passieren, denn dies sind die vier gleich wahrscheinlichen Ergebnisse des Zufallsexperimentes Zwei Kinder: { J J } → X = 0 , { J M } → X = 1 , { M J } → X = 1 , { M M } → X = 2 Wahrscheinlichkeiten: Nat¨ urlich sind Sie an der Wahrscheinlichkeit von X interessiert. Sie m¨ochten die Ergebnisse des Zufallsexperimentes bzw. Ihr durch die Zufallsvariable expliziertes Interesse bewerten k¨onnen. Wie wahrscheinlich ist es, dass X einen bestimmten Wert x annimmt: Definition 4.3: Wahrscheinlichkeitsfunktion P ( X = x ) heißt Wahrscheinlichkeitsfuntkion von X Es gilt: P ( x ) ≥ 0 f¨ ur alle x ∈ R und ∑ x | P ( x ) > 0 P ( X = x ) = 1 Das kennen Sie bereits aus der Empirie: Eine Wahrscheinlichkeitsfunktion darf nicht negativ werden und die Summe aller Wahrscheinlichkeiten, also wenn man jedes Ergebnis ber¨ ucksichtigt, muss 1 werden. 1 Statt Wahrscheinlichkeiten von Ereignissen abzufragen, k¨onnen Sie sich auch f¨ ur Wahrscheinlichkeiten von Realisationen von Zufallsvariablen interessieren. Es gibt verschiedene M¨oglichkeiten, diese zu notieren. Die folgende Schreibweise ist eher kompakter Natur: P X: Anzahl 6 bei 4 W¨ urfen ( X = 2) = ? P X: Anzahl M¨adchen bei 2 Kindern ( X = 1) = ? Die Wahrscheinlichkeitsfunktion f¨ ur X: Anzahl der M¨adchen in Familien mit 2 Kindern sieht so aus: P ( X = x ) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0 . 25 f¨ ur x = 0 0 . 5 f¨ ur x = 1 0 . 25 f¨ ur x = 2 0 sonst 1 Die Formulierung ∑ x|P (x)>0 P (X = x) heißt ¨ ubersetzt: Addiere jede Wahrscheinlichkeit auf, aber ber¨ ucksichtige nur diejenigen Stellen x , bei denen sich eine positive Wahrscheinlichkeit ergibt. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="161"?> 162 Kapitel 4. Verteilungen Die Verteilungsfunktion: Die Verteilungsfunktion F X () von X spielt vor allem bei stetigen Zufallsvariablen eine entscheidende Rolle. Im diskreten Fall ist sie f¨ ur Sie eher uninteressant. Das gleiche haben Sie ¨ ubrigens schon in der Empirie bemerkt. Im diskreten Fall haben Sie die relativen H¨aufigkeiten, die Ihnen alle Fragen beantworten k¨onnen. ¨ Ahnlich ist es hier. Bei den diskreten Zufallsvariablen ist die Wahrscheinlichkeitsfunktion das Maß der Dinge. Der Vollst¨andigkeit halber soll die Verteilungsfunktion allgemein aber an dieser Stelle eingef¨ uhrt werden. Definition 4.4: Verteilungsfunktion F X ( x ) = P ( X ≤ x ) Die Definition ist vollkommen analog zu den kumulierten relativen H¨aufigkeiten. Beim W¨ urfelbeispiel: Wie groß ist die Wahrscheinlichkeit, h¨ochstens zweimal die 6 bei viermaligem W¨ urfelwurf zu bekommen: F X (2) = P ( X ≤ 2) =? F¨ ur die Anzahl M¨adchen k¨onnen Sie F X () leicht aufschreiben, es gilt (vgl. dazu die WS-Funktion auf der Seite 161): F X ( x ) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0 f¨ ur x < 0 0 . 25 f¨ ur 0 ≤ x < 1 0 . 75 f¨ ur 1 ≤ x < 2 1 f¨ ur x ≥ 2 Erwartungswert: In der Tabelle 4.1 ist es bereits deutlich geworden: Der Erwartungswert einer Zufallsvariable entspricht inhaltlich dem Mittelwert, genaugenommen dem arithmetischen Mittel. Daher ist er inhaltlich auch genauso zu interpretieren: Welchen Wert nimmt X im Durchschnittt an? Definition 4.5: Erwartungswert (diskret) E ( X ) = ∑ x | P ( x ) > 0 x · P ( X = x ) Die Analogie zum arithmetischen Mittel bzw. zum gewichteten arithmetischen Mittel wird durch die Definition noch einmal ganz deutlich: Jede m¨ogliche Realisation der Zufallsvariable wird mit ihrer Eintrittswahrscheinlichkeit gewichtet. Das ganze wird dann aufaddiert. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="162"?> 4.1. Zufallsvariablen 163 F¨ ur die Anzahl M¨adchen gilt: E ( X ) = 0 · 0 , 25 + 1 · 0 , 5 + 2 · 0 , 25 = 1 Sie w¨ urden also im Mittel 1 M¨adchen erwarten Varianz: Wie bei der Empirie so gilt auch hier, die Lage alleine ist nicht ausreichend um in diesem Fall eine Zufallsvariable angemessen bewerten zu k¨onnen. Die Varianz einer Zufallsvariable X ist daher ganz analog zur mittleren quadratischen Abweichung d 2 x definiert. Definition 4.6: Varianz V ar ( X ) = E ( [ X − E ( X )] 2 ) Der Erwartungswert-Operator ¨ ubernimmt hier das Summenzeichen und das Teilen durch n, wie Sie es von d 2 x kennen. Das konkrete Ausrechnen geht auch hier einfacher - ebenfalls analog zu den empirischen Daten: Definition 4.7: Varianz - Rechenformel V ar ( X ) = E ( X 2 ) − E ( X ) 2 mit E ( X 2 ) = ∑ x | P ( x ) > 0 x 2 · P ( X = x ) F¨ ur das Beispiel Anzahl M¨adchen gilt also: E ( X 2 ) = 0 2 · 0 . 25 + 1 2 · 0 . 5 + 2 2 · 0 . 25 = 1 . 5 Damit ergibt sich f¨ ur die Varianz, die auch gerne als σ 2 X (sprich: ”sigma quadrat“) bezeichnet wird: σ 2 X = V ar ( x ) = 1 . 5 − 1 2 = 0 . 5 Um zu den Einheiten zur¨ uckzukehren, muss, wie im empirischen Fall, die Wurzel aus der Varianz gezogen werden. Das Ergebnis ist die Standardabweichung. Diese ist genauso zu interpretieren wie das d x bzw. s x . Definition 4.8: Standardabweichung σ X = √ V ar ( x ) Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="163"?> 164 Kapitel 4. Verteilungen F¨ ur das Beispiel ergibt sich als Standardabweichung σ X = √ 0 . 5 . Kurz gefasst! Sie kennen jetzt die Zufallsvariable als ein geeignetes Instrument zur Betrachtung von Wahrscheinlichkeiten. Sie kennen diskrete und stetige Zufallsvariablen. Sie haben in diesem Zusammenhang die Konzepte Wahrscheinlichkeitsfunktion, Verteilungsfunktion, Erwartungswert und Varianz kennengelernt. 4.2 Die (Daten-)Welt als Modell? Sie haben gewissermaßen das R¨ ustzeug kennengelernt, um real existierende Situationen zu modellieren. Das ist wichtig, um aus beobachteten Daten durch Induktion ¨ uber die Daten hinausreichende Erkenntnisse zu gewinnen. Deswegen gibt es die Disziplin Statistik. Sie werden im Folgenden diskrete und stetige Modelle kennenlernen. Ausf¨ uhrlich vorgestellt werden in diesem Rahmen dabei nur die wichtigsten. Es werden weitere genannt und in den jeweiligen Kontext gesetzt. Die Feinheiten und konkreten Anwendungen gehen ¨ uber den hier gesetzten Rahmen hinaus. Stellen Sie sich vor, Sie w¨aren f¨ ur die Vertriebsleitung in einem Unternehmen zust¨andig. Damit w¨are es zum Beispiel Ihre Verantwortung, die Gr¨oße und den Einsatz des Außendienstes zu planen und zu steuern. Daf¨ ur brauchen Sie Planzahlen. Angenommen, jeder Außendienstler m¨ usste wenigstens einen Auftrag pro Tag abschließen, um die entstehenden Kosten zu decken. Wie wahrscheinlich ist es denn, dass das auch passiert? Um Ziele zu setzen, m¨ ussen Sie wissen, was Sie pro Außendienstmitarbeiter an Auftr¨agen pro Monat erwarten k¨onnen und wie groß die m¨ogliche Abweichung davon ist. Wonach klingt das? Das klingt nach Wahrscheinlichkeiten, Erwartungswerten und Varianzen bzw. Standardabweichungen. Die Frage ist nur wovon? Welche Zufallsvariable X modelliert die gerade geschilderte Situation? Genauer, wie ist eine Zufallsvariable zu definieren, um korrekte Antworten auf die gerade gestellten Fragen zu bekommen? Das sollen Sie sich ansehen. Sie werden dabei feststellen, dass die Kunst des Abstrahierens Ihnen dabei zu Hilfe eilt. Wenn Sie von dem Außendienstmitarbeiter, also dem konkreten Kontext, abstrahieren, dann stellen Sie fest, dass im Grunde ein und dieselbe Zufallsvariable eine sehr große Menge an Situationen abdecken kann. Das macht die Sache einfacher. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="164"?> 4.3. Spezielle diskrete Modelle 165 4.3 Spezielle diskrete Modelle In diesem Kapitel lernen Sie Wahrscheinlichkeitssituationen angemessen zu modellieren. den Bernoulliprozess sowie die Binomialverteilung zur Modellierung bestimmter diskreter Prozesse kennen. die Normalverteilung zur Modellierung vieler stetiger Prozesse kennen. 4.3.1 Bernoulliexperiment Oft sind Sie bei einem Zufallsexperiment am Eintreten eines ganz bestimmten Ereignisses interessiert: Wird eine 6 gew¨ urfelt? Wurde ein M¨adchen geboren? Habe ich im Lotto gewonnen? Wird ein Kredit zur¨ uckbezahlt? Entspricht ein Produkt den Qualit¨atsanforderungen? Wird ein Auftrag abgeschlossen? Usw. Das Eintreten eines solchen Ereignisses A bezeichnet man als Erfolg. Das Nicht- Eintreten, also ¯ A, entsprechend als Misserfolg. Das Aufteilen in zwei disjunkte M¨oglichkeiten, zwei m¨ogliche Ergebnisse, nennt man auch dichotomisieren. Dieses Vorgehen vereinfacht die Analyse nat¨ urlich ungemein. Selbstverst¨andlich gehen Informationen verloren, aber das muss keine Rolle spielen, wenn ich zum Beispiel nur wissen m¨ochte 6 oder keine 6 beim Mensch-¨argere-dich-nicht-Spiel. Grunds¨atzlich haben Sie damit nichts Neues gelernt, nur eine versch¨arfte Sichtweise. Sie sollen die erste spezielle Zufallsvariable bzw. Verteilung kennenlernen, die Bernoulliverteilung - benannt nach Jakob Bernoulli (1655-1705). Basis daf¨ ur ist der sogenannte Bernoullivorgang, das eben eingef¨ uhrte Dichotomisieren. Es gilt: Definition 4.9: Bernoullivorgang - Bernoulliverteilung Ein Zufallsexperiment habe genau zwei m¨ogliche Ausg¨ange A und ¯ A. Es sei: P ( A ) = p und P ( ¯ A ) = 1 − p Dies nennt man Bernoullivorgang. Die Zufallsvariable X nimmt den Wert 1 beim Erfolg, also dem Eintreten von A an, den Wert 0 bei ¯ A. Die Zufallsvariable X ist dann bernoulliverteilt mit p. X ∼ bern ( p ) P ( X = 1) = p, P ( X = 0) = 1 − p Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="165"?> 166 Kapitel 4. Verteilungen Diese Verteilung nennt man auch Null-Eins-Verteilung, warum, ist offensichtlich. Sie haben damit einen W¨ urfelwurf oder einen Vertreterbesuch modelliert. Offensichtlich sind Sie aber an mehreren, n¨amlich an n aufeinanderfolgenden Versuchen interessiert. Definition 4.10: Bernoulliprozess Man Beobachtet n Bernoullivorg¨ange nacheinander und es gelten die folgenden Voraussetzungen: Die n Vorg¨ange sind unabh¨angig voneinander. Die Erfolgswahrscheinlichkeit p ist jeweils konstant. Dann spricht man von einem Bernoulliprozess der L¨ange n. Die getroffen Annahmen sind nicht sehr restriktiv. Schauen Sie sich noch einmal die Beispiele im Kasten auf der Seite 165 an. Das trifft auf alle zu. Sogar auf den Vertreter, auch wenn man hier ggf. konstatieren k¨onnte, dass zwei erfolgreiche Vertragsabschl¨ usse hintereinander ihn oder sie vielleicht befl¨ ugeln, die umgekehrte Situation vielleicht demoralisierend wirkt. Dazu l¨asst sich aber auch sagen, dass das ¨ uber das Jahr verteilt entsprechend ausgleichend wirkt, sodass die Annahme durchaus gerechtfertigt scheint. Das Ereignis A: Augenzahl Sechs beim einmaligen W¨ urfelwurf ist ein Bernoullivorgang,und es gilt P ( A ) = P ( X = 1) = 1 / 6 . Wird der W¨ urfel dann aber viermal hintereinander geworfen und das Ereignis A interessiert, dann spricht man von einem Bernoulliprozess, entsprechend der eben angef¨ uhrten Definition. Offensichtlich ist dann nat¨ urlich die Frage nach der Summe der Erfolge bei n Versuchen, also zum Beispiel die Anzahl Sechs bei vier W¨ urfen, eine gern gestellte. Der Bernoulliprozess ist die Basis f¨ ur die Binomialverteilung. Diese erlaubt es uns, die gestellten Fragen f¨ ur all solche Situationen zu beantworten. 4.3.2 Binomialverteilung Die Binomialverteilung, die Sie kennenlernen werden, ist sicherlich eine der wichtigsten diskreten Verteilungen. Sie baut, wie Sie eben herausgearbeitet haben, auf dem Bernoullivorgang auf. Sehr viele reale Datensituationen k¨onnen mit diesem Modell bearbeitet werden. Das Sch¨one und das Verst¨andnis F¨ordernde ist, dass Sie sie vollst¨andig und mit einfachen Mitteln herleiten k¨onnen, so wie auch der Bernoulliprozess erarbeitet wurde. Sie sollen folgende Zufallsvariable eines Bernoulliprozesses mit p = 1 / 6 und n = 4 betrachten: S = Anzahl Sechs beim viermaligen W¨ urfelwurf Offensichtlich kann S die Werte 0 , 1 , 2 , 3 , 4 annehmen. Sie kennen auch bereits zwei konkrete Wahrscheinlichkeiten. Sie k¨onnen den Multiplikationssatz von Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="166"?> 4.3. Spezielle diskrete Modelle 167 der Seite 145 anwenden - die Anwendungen sind erf¨ ullt, da es es sich um einen Bernoulliprozess handelt. Die Wahrscheinlichkeit f¨ ur keinen Erfolg und f¨ ur vier Erfolge bereiten Ihnen keine Schwierigkeiten: P ( S = 0) = ( 5 6 ) 4 ≈ 0 , 48 und P ( S = 4) = ( 1 6 ) 4 ≈ 0 . 001 Leider sind die Realisationen dazwischen etwas schwieriger zu berechnen. Aber daf¨ ur sollen Sie die Binomialverteilung kennenlernen. Definition 4.11: Binomialverteilung S sei eine diskrete Zufallsvariable, die folgende Werte annehmen kann: S = 0 , 1 , 2 , . . . , n Sie habe die folgende Wahrscheinlichkeitsfunktion: P ( S = s ) = ( n s ) · p s · (1 − p ) n − s Dabei ist ( n s ) der sogenannte Binomialkoeffizient - sprich ”n ¨ uber s“: ( n s ) = n ! ( n − s )! · s ! mit n ! = 1 · 2 · 3 · . . . · n Dann ist S binomialverteilt mit den Parametern n und p: S ∼ binom ( n, p ) Die Schreibweise S ∼ . . . haben Sie bereits kennengelernt. So notierten Sie allgemein die Verteilung einer Zufallsvariablen. Mit n ! ist die sogenannte Fakult¨at gemeint, man sagt ”n Fakult¨at“. Definition 4.12: Fakult¨at Es sei n eine nat¨ urliche Zahl. Die Fakult¨at von n berechnet sich als Produkt aller nat¨ urlicher Zahlen kleiner oder gleich n: n ! = 1 · 2 · . . . · ( n − 1) · n Bevor die Formel f¨ ur die Wahrscheinlichkeitsfunktion herleiten, seien zwei Rechenregeln angegeben. F¨ ur den Erwartungswert und die Varianz gibt es jeweils eine Formel: Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="167"?> 168 Kapitel 4. Verteilungen Definition 4.13: Erwartungswert und Varianz der Binomialverteilung S sei eine binomialverteilte Zufallsvariable: S ∼ binom ( n, p ) . Dann gelten f¨ ur den Erwartungswert: E ( S ) = n · p und f¨ ur die Varianz: V ar ( S ) = n · p · (1 − p ) Schauen Sie sich das einmal ausf¨ uhrlich an, denn so ohne Weiteres ist das nicht nachvollziehbar. Nehmen Sie einmal an, Sie haben beim viermaligen Wurf eines fairen W¨ urfels folgendes beobachtet, A, also das interessierende Ereignis, der Erfolg, sei eine gew¨ urfelte 6. ¯ A A ¯ A ¯ A Es wurde also insgesamt genau eine 6 gew¨ urfelt, es ist ein Erfolg beobachtet worden. Sie k¨onnen diese Situation durch Realisationen der Parameter der Binomialverteilung beschreiben, es gilt S = 1 , n = 4 , p = 1 / 6 . Da Unabh¨angigkeit als Voraussetzung gilt, ist die Wahrscheinlichkeit f¨ ur genau diese spezielle Beobachtung gerade - erinnern Sie sich noch einmal an den Multiplikationssatz von Seite 145: P ( Erfolg an 2. Stelle ) = (1 − p ) · p · (1 − p ) · (1 − p ) = (1 − p ) 3 · p 1 = 1 − p ) 4−1 · p 1 = (1 − p ) n − s · p s = ( 5 6 ) 4−1 · ( 1 6 ) 1 Wenn Sie einmal in den Definitionskasten zur Binomialverteilung schauen, dann stellen sie fest, dass das der Wahrscheinlichkeitsfunktion doch schon recht nah kommt. Es fehlt lediglich der Binomialkoeffizient. Der kommt. Denn das Problem ist, und das macht die Berechnung etwas m¨ uhseliger, dass Sie ganz grunds¨atzlich daran interessiert sind, was die Wahrscheinlichkeit f¨ ur S = 1 ist. Der aufgelistete Fall war nur eine M¨oglichkeit von mehreren. S nimmt den Wert 1 n¨amlich nicht nur bei der gezeigten Konstellation an, sondern bei all diesen Ergebnissen - unser Fall ist der an zweiter Stelle aufgef¨ uhrte: 1 : A ¯ A ¯ A ¯ A 2 : ¯ A A ¯ A ¯ A 3 : ¯ A ¯ A A ¯ A 4 : ¯ A ¯ A ¯ A A Tabelle 4.2: Darstellung ein Erfolg bei vier Versuchen Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="168"?> 4.3. Spezielle diskrete Modelle 169 Die entscheidende Frage ist, auf wie viele Arten kann es passieren, genau einen Erfolg bei vier Versuchen zu beobachten? Hier k¨onnen Sie es noch z¨ahlen, es sind vier, und alle sind gleich wahrscheinlich mit der oben hergeleiteten Wahrscheinlichkeit. Nun m¨ ussen Sie sich noch einmal die Regel von der Vereinigung auf der Seite 143 vor Augen f¨ uhren, denn alle vier F¨alle sind nat¨ urlich disjunkt. Daher k¨onnen die vier Wahrscheinlichkeiten einfach aufaddiert werden. Und da sie alle exakt gleich groß sind, gilt: P ( S = 1) = 4 · ( 5 6 ) 3 · ( 1 6 ) 1 ≈ 0 , 386 Diesen Faktor 4 rechnet der Binomialkoeffizient f¨ ur Sie aus. Auf wie viele Arten k¨onnen Sie S = 1 Erfolg bei n = 4 Versuchen beobachten? Daher muss gelten: 4 = ( 4 1 ) ! = 4! (4 − 1)! · 1! = 24 3! · 1! = 4 Entscheidend ist hier die Frage, an welcher Position kann das A stehen, also wann k¨onnen Sie einen Erfolg beobachten beim viermaligen W¨ urfelwurf: an den Positionen 1 bis 4 . Das war ja noch relativ einfach. Wie demonstriert, berechnet genau das der Binomialkoeffizient: Ich habe vier Positionen zu vergeben ( n = 4) , auf wie viele verschiedene Arten, kann ich einen Erfolg verbuchen. Wie viele verschiedene Sequenzen aus einmal A und dreimal ¯ A k¨onnen Sie erzeugen? Die Antwort ist ebenfalls vier und nat¨ urlich die L¨osung f¨ ur unser Problem. Bei zwei Erfolgen stellt sich dieselbe Frage: Wenn ich viermal w¨ urfle, auf wie viele Arten, kann ich zwei Erfolge an den Positionen 1 bis 4 unterbringen: 1 2 3 4 ———— A A ¯ A ¯ A A ¯ A A ¯ A A ¯ A ¯ A A ¯ A A A ¯ A ¯ A A ¯ A A ¯ A ¯ A A A Tabelle 4.3: Darstellung: zwei Erfolge bei vier Versuchen Es gibt genau sechs M¨oglichkeiten, zwei Erfolge bei vier Versuchen zu verbuchen: ( 4 2 ) = 4! (4 − 2)! · 2! = 24 2! · 2! = 6 Oder noch mal anders formuliert: Wie viele verschiedene Positionen (f¨ ur die beiden Erfolge) kann ich bei zweimaligem Ziehen ohne Zur¨ ucklegen ( S = 2) aus einer Urne mit den Zahlen 1 . . . 4 , ( n = 4) ziehen - analog zur Darstellung in Tabelle 4.3: (1 , 2) , (1 , 3) , (1 , 4) , (2 , 3) , (2 , 4) , (3 , 4) Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="169"?> 170 Kapitel 4. Verteilungen Auf wie viele Arten kann ich zwei verschieden Zahlen aus vier verschiedenen Zahlen ziehen (ohne Zur¨ ucklegen)? Oder: Wie viele verschiedene Sequenzen aus 2 mal A und 2 mal ¯ A k¨onnen Sie erzeugen? All das sind synonyme Formulierungen. Und das beantwortet der Binomialkoeffizient. Damit ist auch klar, dass ( 4 0 ) = 1 und ( 4 4 ) = 1 sein muss. Davon gibt es jeweils nur eine einzige M¨oglichkeit. Damit kennen Sie die Wahrscheinlichkeitsfunktion von S: Anzahl 6 beim viermaligen W¨ urfelwurf: P ( S = s ) = ( 4 s ) · ( 1 6 ) s · ( 5 6 ) 4− s , f¨ ur s = 0 , . . . , 4 P ( S = 0) = ( 4 0 ) · ( 1 6 ) 0 · ( 5 6 ) 4 P ( S = 1) = ( 4 1 ) · ( 1 6 ) 1 · ( 5 6 ) 3 P ( S = 2) = ( 4 2 ) · ( 1 6 ) 2 · ( 5 6 ) 2 P ( S = 3) = ( 4 3 ) · ( 1 6 ) 3 · ( 5 6 ) 1 P ( S = 4) = ( 4 4 ) · ( 1 6 ) 4 · ( 5 6 ) 0 Tabelle 4.4: Wahrscheinlichkeitsfunktion S ∼ binom ( n = 4 , p = 1 / 6) S P(S=s) --------- 0 0.482 1 0.386 2 0.116 3 0.015 4 0.001 Tabelle 4.5: Konkrete Wahrscheinlichkeiten zu S ∼ binom ( n = 4 , p = 1 / 6) Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="170"?> 4.3. Spezielle diskrete Modelle 171 Der Vollst¨andigkeit halber seien noch der Erwartungswert: E ( S ) = 4 · 1 / 6 = 2 / 3 = 0 . 67 und die Varianz: V ar ( S ) = 4 · 1 / 6 · 5 / 6 = 20 / 36 = 0 . 556 berechnet. Abbildung 4.1: WS-Funktion der Binomialverteilung Die Binomialverteilung wird sehr viel verwandt, immer dann, wenn Sie am Eintreten eines bestimmten Ereignisses interessiert sind. Sie haben auch gesehen, dass der W¨ urfelwurf zwar als Initialbeispiel gedient hat, aber dann kaum noch erw¨ahnt wurde. Es ist egal, ob ein W¨ urfel n-mal geworfen wird, ein Vertreter am Tag n Hausbesuche macht oder n Produkte auf Qualit¨at untersucht werden. Das ist die St¨arke von Modellen. Sie k¨onnen vom konkreten Kontext immer wieder abstrahieren ohne den Nachteil, diesem nicht gerecht zu werden. ¨ Ubrigens k¨onnen Sie mit Hilfe des Binomialkoeffizienten auch die Wahrscheinlichkeit f¨ ur 6 Richtige im Lotto bestimmen. Man kann auf ( 49 6 ) Arten sechs Kugeln aus 49 ohne Zur¨ ucklegen ziehen. Das sind genau 13983816. Versuchen Sie nicht, diese Zahl ¨ uber die Definition auszurechnen. Vermutlich hat Ihr Taschenrechner folgende Taste, die so oder ¨ahnlich beschriftet Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="171"?> 172 Kapitel 4. Verteilungen ist: nCr. Das C steht dabei f¨ ur Combination. Der Binomialkoeffizient rechnet die Anzahl der Kombinationen von r Erfolgen bei n Versuchen aus. Zur¨ uck zu den 6 Richtigen: Eine Reihe von den knapp 14 Millionen m¨oglichen wird tats¨achlich gezogen. 1 / 13 . 983 . 816 ist also die Wahrscheinlichkeit. Das ist nichts anderes als die Anwendung des klassischen Wahrscheinlichkeitsmodells (vgl. Seite138). Und 5 Richtige? Die Binomialverteilung hilft hier leider so nicht weiter, die Lage ist etwas komplizierter. 4.3.3 Weitere M¨oglichkeiten Selbstverst¨andlich gibt es viele weitere diskrete spezielle Verteilungsmodelle. In diesem Rahmen soll es bei der Bernoulli- und Binomialverteilung bleiben. Damit kommen Sie schon ein gutes St¨ uck voran. Es sei aber dennoch auf einige weitere Verteilungen hingewiesen, welche sich nat¨ urlicherweise anschließen w¨ urden. Zum Beispiel in [WolNaeTie2006] k¨onnen Sie sich ausf¨ uhrlich dazu informieren. Geometrische Verteilung: Diese entspringt auch dem Bernoulliprozess. Die Frage ist, wie lange muss man auf einen Erfolg warten? Die geometrische Verteilung ist eine diskrete Warteverteilung. Die Wahrscheinlichkeitsfunktion f¨ ur jene herzuleiten, ist nicht weiter schwer. Nehmen Sie an, Sie wollen den W¨ urfel so lange werfen, bis eine 6 erscheint, es sei p = 1 / 6 . Und Sie fragen sich, wie wahrscheinlich ist es, dass im 4. Wurf das erste Mal die 6 erscheint, dann gilt offensichtlich - denn die dreimal vorher darf keine 6 gefallen sein: P ( Erfolg beim 4. Wurf = ( 5 6 ) 3 · 1 6 Definition 4.14: Geometrische Verteilung W sei eine diskrete Zufallsvariable und kann folgende Werte annehmen: W = 1 , 2 , 3 , . . . W hat die Wahrscheinlichkeitsfunktion P ( W = w ) = (1 − p ) w −1 · p W heißt geometrisch verteilt mit Parameter p W ∼ geometrisc ( p ) Ferner gilt: E ( W ) = 1 p und V ar ( W ) = 1 − p p 2 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="172"?> 4.4. Spezielle stetige Modelle 173 Man sagt ¨ ubrigens, die geometrische Verteilung hat kein Ged¨achtnis. ¨ Uberlegen Sie doch einmal, worauf das anspielt und was die Konsequenzen sind. Hinweis: Werfen Sie noch mal einen genauen Blick auf die Voraussetzungen des Bernoulliprozesses! Hypergeometrische Verteilung: Diese Verteilung soll nur kurz erw¨ahnt werden. Im Grunde ist diese v¨ollig analog zur Binomialverteilung zu sehen, außer, dass die Unabh¨angigkeit nicht gegeben ist. Bei der ausf¨ uhrlichen Vorstellung der Binomialverteilung wurde der Vergleich zum Kugelziehen aus einer Urne vorgenommen. Bei Unabh¨angigkeit wird mit Zur¨ ucklegen gezogen. Die vorherige Ziehung hat keinen Einfluss auf die folgende Ziehung, da alle Kugeln wieder in der Urne sind. Beim Lotto wird ohne Zur¨ ucklegen gezogen, das heißt, es herrscht sehr wohl Abh¨angigkeit zwischen den sechs Ziehungen an einem Samstag. Wenn als erste Kugel die 5 gezogen wurde, kann sie nicht mehr gezogen werden. Auch die Wahrscheinlichkeiten f¨ ur alle anderen Kugeln ¨andern sich. Zun¨achst hat jede Kugel die Chance 1 / 49 , dann 1 / 48 bzw. Null, dann 1 / 47 bzw. Null usw. Die hypergeometrische Verteilung ist das passende Modell, um eine Lottoziehung zu modellieren. Wenn Sie also die Wahrscheinlichkeit f¨ ur 5 Richtige bestimmen wollen, dann nehmen Sie die hypergeometrische Verteilung. Poisson-Verteilung: Auch diese soll nur der Vollst¨andigkeit halber erw¨ahnt werden. Sie ist ebenfalls eine Z¨ahlverteilung. Mit ihr k¨onnen Sie sehr gut seltene Ereignisse modellieren, zum Beispiel Serverausf¨alle oder auch Anrufe in einem Callcenter. Sie k¨onnen ein Beispiel dazu in [Tiemann2011] nachlesen. Die Poisson-Verteilung entsteht ¨ ubrigens bei einer Grenzbetrachtung. Ausgangspunkt ist der Bernoulliprozess bzw. die Binomialverteilung. Wenn Sie die Erfolgswahrscheinlichkeit gegen Null streben lassen, p → 0 , und gleichzeitig den Erwartungswert konstant bei λ halten, also np → λ, dann entsteht eine Grenzverteilung, diese ist die Poisson-Verteilung. Sie heißt auch Verteilung der seltenen Ereignisse - p ist klein! 4.4 Spezielle stetige Modelle In der Empirie hatten Sie ja das ein oder andere Problem, ein Merkmal der stetigen bzw. der diskreten Welt zuzuordnen. Das Merkmal Anzahl B¨ ucher ist offensichtlich diskret, denn es ist eine Z¨ahlvariable. Dennoch war es g¨ unstiger, die Daten mit Hilfe einer stetigen Betrachtungsweise zu analysieren, es wurden Klassen gebildet. In der Theorie ist es eindeutig. Wenn eine Zufallsvariable ¨ uberabz¨ahlbar viele Realisationsm¨oglichkeiten liefert, dann haben Sie es mit einer stetigen Zufallsvariable zu tun. In diesem Fall m¨ ussen Sie sich auch unbedingt daran halten, sonst gehen die Wahrscheinlichkeitsaussagen schief. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="173"?> 174 Kapitel 4. Verteilungen Im Rahmen dieser Einf¨ uhrung werden Sie vornehmlich die sogenannte Normalverteilung kennenlernen. Der Name deutet es ja bereits an, dass sie nicht ganz unbedeutend sein kann. Wie auch bei den diskreten Modellen, wird es einen Ausblick auf weitere stetige Modelle geben, denn offensichtlich gibt es davon viele. 4.4.1 Normalverteilung Das wichtigste Verteilungsmodell ist die Normalverteilung, die von Gauß vorgeschlagen wurde. Vielleicht erinnern Sie sich noch an die DM-Zeit. Die folgende Abbildung zeigt einen alten 10 DM-Schein. Auf diesem ist Carl Friedrich Gauß (1777-1855) abgebildet und eben die Dichtefunktion der Normalverteilung. Abbildung 4.2: Ein alter 10 DM-Schein Das hat verschiedene Gr¨ unde. Zun¨achst einmal ist zu kl¨aren, warum es es die Normalverteilung ¨ uberhaupt gibt, also zu welchem urspr¨ unglichen Zweck sie hergeleitet worden ist. Die Normalverteilung ist von Gauß zur Modellierung von Messfehlern entwickelt worden. Bei der wiederholten Messung (Sch¨atzung) einer Gr¨oße Y stellt man fest, dass die einzelnen Messungen (Sch¨atzungen) unterschiedliche Werte ergeben - lassen Sie doch einmal zehn Ihrer Freunde die Breite eines Zimmer absch¨atzen. Wie k¨onnen Sie diesen Tatbestand modellieren? Ein sehr einfaches Modell ist dieses: Y = μ + X Dabei ist μ (sprich ”m¨ uh“) der wahre Wert der zu messenden Gr¨oße und X der Messfehler. Nun ist es so, dass man eine Reihe sinnvoller Annahmen f¨ ur die Messfehler annehmen kann, zum Beispiel diese: Die Messfehler sollten nicht systematisch sein. Daraus ergibt sich, dass das Zentrum eines Modells f¨ ur Messfehler die Null sein sollte. Positive Messfehler sollten die gleiche Verteilung besitzen wie negative Messfehler. Daraus ergibt sich, dass die Verteilung f¨ ur Messfehler symmetrisch um das Zentrum sein muss. Das Zentrum konnte bereits als die Null identifiziert werden. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="174"?> 4.4. Spezielle stetige Modelle 175 Die Wahrscheinlichkeit f¨ ur das Auftreten eines Messfehlers sollte mit zunehmender Entfernung vom Zentrum abnehmen. Die entsprechende Dichtefunktion muss also zunehmend flacher an den R¨andern werden. Dies sind wohl die entscheidenden Annahmen. Mit der richtigen Mathematik kann man daraus die Dichtefunktion der Normalverteilung herleiten. Schauen Sie sich noch einmal den 10 DM-Schein an. Die Dichtefunktion, die Sie dort sehen, erf¨ ullt die drei Voraussetzungen. je h¨oher die Dichtefunktion, desto dichter, desto wahrscheinlicher sind Beobachtungen aus diesem Bereich. Der Modus ist das gerade das Zentrum, welches gleichzeitig das Symmetriezentrum bildet. Auf dem 10 DM-Schein ist sogar die Formel abgebildet. In Rahmen dieses Buches wird auf die Formel verzichtet. Sie sollen die Normalverteilung anwenden. Interessanterweise ben¨otigen Sie dazu die Formel nicht. Aber der Reihe nach. Warum ist die Normalverteilung so wichtig? Es gibt eine Reihe von Symptomen und eine wichtige Ursache, die Sie jetzt vorgestellt bekommen. 1. Viele Datensituationen lassen sich durch die Normalverteilung (NV) modellieren. Im Folgenden ist das Merkmal K¨orpergr¨oße als Histogramm dargestellt. Die Normalverteilung ist durch die passende Dichteverteilung in die Graphik mit eingetragen. Sie sehen, das passt ganz gut. Vergleichen Sie das einmal mit den Annahmen. Das Zentrum hier liegt ¨ ubrigens bei ¯ x = 168 cm, die Standardabweichung hat den Wert s = 7 . 4 cm. Abbildung 4.3: Modellieren von K¨orpergr¨oße durch die Normalverteilung Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="175"?> 176 Kapitel 4. Verteilungen 2. Abweichungen zu einem Modell Fehler, die Residuen, Abweichungen Messfehler usw. lassen sich (in der Regel) sehr gut durch die Normalverteilung anpassen. In der folgenden Abbildung ist das Regressionsbeispiel auf der Seite 100 dargestellt. Die Graphik links unten ist neu. Dort ist das Histogramm der Residuen abgebildet, die passende Normalverteilung ist mit ihrer Dichtefunktion wieder dar¨ ubergelegt. Man kann gut erkennen, dass die Normalverteilung die Verteilung der Residuen sehr gut wiedergibt. Abbildung 4.4: Residuen einer Regression und die Normalverteilung Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="176"?> 4.4. Spezielle stetige Modelle 177 3. Die Ursache: Viele Prozesse streben gegen die Normalverteilung. Das klingt etwas seltsam. Aber dieser Umsatz ist als Zentraler Grenzwertsatz bekannt und bewiesen. Sie werden im n¨achsten Kapitel weitere solcher Prozesse kennenlernen. Was strebt gegen die Normalverteilung? Es sind, ganz allgemein gesprochen, Summen oder auch Z¨ahlprozesse. Dazu ein Beispiel (vgl. auch Aufgabe 4 auf Seite 205). Nehmen Sie ein Telefonbuch und w¨ahlen Sie 20 beliebige Telefonnummern aus - sechs Stellen sollten die Nummern schon haben. Nehmen Sie von jeder die erste Ziffer und erstellen Sie ein Stabdiagramm zur H¨aufigkeit. Die St¨abe werden ungef¨ahr alle gleich hoch sein. Addieren Sie die Ziffernfolge jeder Telefonnummer auf, und erstellen Sie vom Ergebnis ein Histogramm. Die folgende Graphik zeigt das Ergebnis davon am Rechner simuliert mit 10 000 Telefonnummern, die ersten paar davon sehen Sie am rechten Rand aufgelistet. Abbildung 4.5: Ziffernsummen und Normalverteilung Sie m¨ ussen zugeben, das ist doch relativ erstaunlich. Diesen Umstand (Addition) sehen Sie sehr oft in der Natur, auch wenn nicht immer Addition daransteht. Bedenken Sie eine Differenz ist im Grunde auch nur eine Addition mit negativem Vorzeichen, eine Multiplikation ist eine vereinfachte Schreibweise f¨ ur eine Summe usw. Das ist der Grund, warum die Normalverteilung so wunderbar passt. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="177"?> 178 Kapitel 4. Verteilungen Wie finden Sie die passende Normalverteilung? Die drei Beispiele eben haben bereits gezeigt, dass die Normalverteilung f¨ ur die unterschiedlichsten Datensituationen passend gemacht werden kann. Die Normalverteilung und damit das Aussehen der Dichte wird durch zwei Parameter festgelegt: Definition 4.15: Parameter der Normalverteilung Die stetige Zufallsvariable sei Normalverteilt mit den Parametern μ und σ 2 X ∼ N ( μ, σ 2 ) mit x ∈ R Dann gilt f¨ ur X: E ( X ) = μ und V ar ( X ) = σ 2 Das heißt, Sie legen die Normalverteilung so fest, dass sie zur Datensituation optimal passt und das geht so - man nennt das auch Spezifizieren: Lageparameter E ( X ) = μ → absch¨atzen durch ¯ x, das arithmetische Mittel Streuungsparameter V ar ( x ) = σ 2 → absch¨atzen durch s 2 x , die Stichprobenvarianz Tabelle 4.6: Festlegung der Parameter der NV So bestimmen Sie die am besten passende Normalverteilung, denn es gibt schließlich unendlich viele Wahlm¨oglichkeiten f¨ ur die beiden Parameter der Normalverteilung. Man kann sogar mathematisch zeigen, dass ¯ x und s 2 x in der Tat die besten Sch¨atzer sind. Der Verteilungsfunktion kommt in der stetigen Welt eine sehr prominente Bedeutung zu. Alle Wahrscheinlichkeitsfragen werden mit ihrer Hilfe beantwortet. Sie werden sehen, dass es im stetigen Fall keine Wahrscheinlichkeitsfunktion mehr gibt. Die Verteilungsfunktion ist entsprechend der kennengelernten Definition daher grunds¨atzlich keine Unbekannte mehr - wie Sie konkret Fragen beantworten, sehen Sie gleich: F X ( x ) = P ( X ≤ x ) Ein wichtiger Spezialfall der Normalverteilung ist die sogenannte Standardnormalverteilung. ¨ Ublicherweise wird diese Zufallsvariable mit Z bezeichnet, sie ist folgendermaßen spezifiziert: Z ∼ N ( μ = 0 , σ 2 = 1) Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="178"?> 4.4. Spezielle stetige Modelle 179 In der folgenden Graphik ist die Dichte der Standardnormalverteilung dargestellt. Abbildung 4.6: Dichte der Standardnormalverteilung Die Standardnormalverteilung ist von so zentraler Bedeutung, da jede Normalverteilung auf eben jene zur¨ uckgef¨ uhrt wird, um Wahrscheinlichkeitsfragen zu beantworten. Bei stetigen Zufallsvariablen werden Wahrscheinlichkeiten immer ¨ uber Intervalle abgefragt. Die Wahrscheinlichkeit f¨ ur einen diskreten Punkt ist in der stetigen Welt immer Null: P ( X = x ) = 0 . Was passiert, wenn Sie jedem m¨oglichen diskreten Punkt eine noch so kleine positive Wahrscheinlichkeit zuordnen w¨ urden, um eine Wahrscheinlichkeitsfunktion zu erzeugen? Die fundamentale Voraussetzung, dass die Summe aller Wahrscheinlichkeiten 1 ergibt, w¨are offensichtlich verletzt. Denn es gibt - Sie sind in der stetigen Welt - ¨ uberabz¨ahlbar viele Realisationen. Das w¨ urde dazu f¨ uhren, dass die Summe der Wahrscheinlichkeiten gegen Unendlich l¨auft. Das darf nicht sein. Im Stetigen repr¨asentiert die Fl¨ache unter der Dichtefunktion, genau wie im Histogramm, die Wahrscheinlichkeit. Beim Histogramm konnten Sie die Fl¨achenst¨ ucke addieren, im stetigen Fall m¨ ussen Sie integrieren. Das entspricht der Summation. Also gilt offensichtlich - f X () sei die Dichtefunktion einer stetigen Zufallsvariable Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="179"?> 180 Kapitel 4. Verteilungen X, zum Beispiel der Normalverteilung: ∫ +∞ −∞ f X ( x ) dx = 1 Und f¨ ur einen diskreten Punkt x gilt offensichtlich: P ( X = x ) = ∫ x x f X ( x ) dx = 0 Daraus folgt zwingend, dass es im stetigen Fall keine Wahrscheinlichkeitsfunktion geben kann, nur Dichtefunktionen. Noch einmal: Die entsprechende Fl¨ache unter der Dichtefunktion ist dann gerade die gesuchte Wahrscheinlichkeit (vgl. H¨aufigkeitsdichte beim Histogramm). Die Verteilungsfunktion F X () ist daher die Integralfunktion der Dichtefunktion, daher auch die Buchstabenwahl, f und F . Es werden schließlich Fl¨achenst¨ ucke bis zur Stelle x aufaddiert: F X ( x ) = P ( X ≤ x ) Die gesamte Fl¨ache unter einer Dichtefunktion ist immer gerade 1. Das entspricht genau der Aussage, dass die Summe der Wahrscheinlichkeiten einer Wahrscheinlichkeitsfunktion immer 1 ergibt. Die Integralfunktion - zum Berechnen einer Fl¨ache - ist das stetige Pendant zur Summenfunktion im diskreten Fall. Es werden sozusagen kleine Fl¨achenst¨ ucke aufaddiert. Die Verteilungsfunktion ist das entscheidende Instrument, um Wahrscheinlichkeitsfragen zu beantworten. Das klingt gut. Das Problem ist nur, dass aufgrund des Aussehens der Dichtefunktion keine Stammfuktion zu dieser existiert. Im Wesentlichen ist das Problem, dass in der Dichte der Term e x 2 auftaucht, dieser bereitet die Probleme. Selbstverst¨andlich lassen sich ¨ uber N¨aherungsverfahren beliebig genaue Angaben zum Wert eines bestimmten Integrals machen. Daf¨ ur brauchen Sie aber bestimmte Software, die ist nicht immer vorhanden. Als die Rechner grunds¨atzlich so noch nicht zur Verf¨ ugung standen, hat man sich damit beholfen, dass die Verteilungsfunktion der Standardnormalverteilung tabelliert wurde. Jede andere Normalverteilung l¨asst sich durch Standardisieren auf diese zur¨ uckf¨ uhren. Die Verteilungsfunktion hat der Standardnormalverteilung einen speziellen Buchstaben, Φ( Z ) (sprich ”Phi“): Definition 4.16: Verteilungsfunktion der Standardnormalverteilung P ( Z ≤ z ) = F Z ( z ) = Φ( z ) , mit Z ∼ N (0 , 1) Diese Wahrscheinlichkeiten sind, wie eben erw¨ahnt, tabelliert. Aufgrund der Symmetrieeigenschaften gilt: Φ( z ) = 1 − Φ(− z ) Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="180"?> 4.4. Spezielle stetige Modelle 181 Die Beziehung zwischen jeder beliebigen Normalverteilung X und der Standardnormalverteilung Z ist folgende, es sei X ∼ N V ( μ, σ 2 ): F X ( x ) = Φ ( x − μ σ ) Dies ist die sogenannte Standardisierung. Das funktioniert immer und wird mit empirischen Daten gemacht, um Vergleichbarkeit herzustellen. Von allen Beobachtungen eines Merkmals X wird der Mittelwert abgezogen, anschließend wird durch die Standardabweichung geteilt. Wenn also eine Wahrscheinlichkeitsaussage zu einer normalverteilten gemacht werden soll, dann wird diese auf die Standardnormalverteilung zur¨ uckgef¨ uhrt. Und diese Wahrscheinlichkeiten k¨onnen Sie nachschauen (vgl. dazu im Anhang Seite 233). Ein Hinweis: Im Falle der NV ist es immer empfehlenswert, sich Wahrscheinlichkeitssituationen anhand der Dichtefunktion vor Augen zu f¨ uhren, das heißt diese, wie gleich demonstriert werden wird, aufzuzeichnen. Dazu sollen Sie ein Beispiel aus der Produktionstheorie anschauen. Bei einem Produktionsprozess wird ein Industriekleber maschinell in Eimer abgef¨ ullt. Die tats¨achliche F¨ ullh¨ohe X l¨asst sich gut durch eine Normalverteilung mit den Parametern μ = 1000 ml und σ = 10 ml modellieren. 1. Liegt die F¨ ullh¨ohe zwischen 980 und 1020 ml, darf die Produktion in den Handel. 2. Liegt die F¨ ullh¨ohe unter 980 ml liegt ein gravierender Produktionsfehler vor. 3. Auch bei einer H¨ohe von mehr als 1020 ml muss eingegriffen werden. Wie groß sind die jeweiligen Wahrscheinlichkeiten? Bei einem Produktionsprozess, wie hier dem Abf¨ ullvorgang, kann man keine Punktlandung erreichen. Was ist die Begr¨ undung? Den Erwartungswert und die Streuung k¨onnen Sie ¨ uber die Installation von Messanlagen realisieren. Die Gr¨oße der Varianz bei Ihrem Prozess, ist durch die G¨ ute der Messanlage determiniert. Es ist abzuw¨agen: Wie genau will ich oder muss ich messen k¨onnen? Wie viel Geld bin ich bereit, f¨ ur eine entsprechende Anlage auszugeben? Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="181"?> 182 Kapitel 4. Verteilungen Diese Situation ist eine absolut realistische Unternehmerentscheidung, wenn auch nat¨ urlich deutlich vereinfacht. Zudem ist die Varianz aus Darstellungsgr¨ unden sicherlich zu groß gew¨ahlt. Aber das Grundproblem besteht. Schauen Sie sich die entscheidenden Wahrscheinlichkeiten einmal an. Anhand der graphischen Aufbereitung der Fragestellung mit Hilfe der Dichtefunktion wird das Berechnen klarer. 1. Zum Intervall: P (980 ≤ X ≤ 1020) = F X (1020) − F X (980) = Φ ( 1020 − 1000 10 ) − Φ ( 980 − 1000 10 ) = Φ(2) − Φ(−2) = Φ(2) − (1 − Φ(2)) = 0 . 977 − (1 − 0 . 977) = 0 . 977 − 0 . 023 = 0 . 954 In 95.4 % der F¨alle sind die Abf¨ ullh¨ohen in Ordnung. Dies ist folgendermaßen aus der Tabelle zur Verteilungsfunktion der Standardnormalverteilung abzulesen. Die Zeilen unterscheiden sich in der Stelle vor dem Komma und in der ersten Nachkommastelle. Die Spalten unterscheiden sich dann in der 2. Nachkommastelle von 0 bis 9. Im Folgenden ist der f¨ ur Sie relevante Ausschnitt zu sehen. Die gesamte Tabelle finden Sie auf der Seite 233. Die Wahrscheinlichkeit bis zur Stelle 2 ist nachzuschlagen. z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971 1.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977 2.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982 2.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986 2.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelle 4.7: Relevanter Ausschnitt aus NV-Tabelle zum aufgef¨ uhrten Beispiel Die vorgerechnete Situation ist in der folgenden Graphik ausf¨ uhrlich dargestellt. Oben ist die Normalverteilung X ∼ N (1000 , 10 2 ) dargestellt, unten die Standardnormalverteilung. Man kann sehr gut das Standardisieren nachvollziehen. Die Stelle 1020 entspricht genau der Stelle 2. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="182"?> 4.4. Spezielle stetige Modelle 183 Abbildung 4.7: NV-Wahrscheinlichkeit f¨ ur die Situation: Intervall Es ist ebenfalls sehr gut zu erkennen, warum Sie Obergrenze minus Untergrenze rechnen m¨ ussen - f¨ ur die Werte der Verteilungsfunktion nat¨ urlich -, wenn Sie die Wahrscheinlichkeit f¨ ur ein durch diese Grenzen definiertes Intervall berechnen m¨ochten. F X (1020) gibt die Wahrscheinlichkeit von minus Unendlich bis zur 1020. F X (980) jene von minus Unendlich bis 980. Ziehen Sie die beiden voneinander ab, bleibt das Intervall. 2. Weniger als 980 ml: P ( x ≤ 980) = F x (980) = Φ ( 980 − 1000 10 ) = Φ(−2) = 1 − Φ(2) = 1 − 0 . 977 = 0 . 023 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="183"?> 184 Kapitel 4. Verteilungen Abbildung 4.8: NV-Wahrscheinlichkeit f¨ ur die Situation: Kleiner In 2.3 % der F¨alle sind zu starke Abweichungen nach unten in der Produktion zu erwarten. Dies konnte gleich direkt als Ergebnis der Normalverteilung abgelesen werden. In der nachfolgenden Graphik ist auch dieser Fall dargestellt. 3. Mehr als 1020 ml: P ( x > 1020) = 1 − P ( X ≤ 1020) = 1 − F x (1020) = 1 − Φ ( 1020 − 1000 10 ) = 1 − Φ(2) = 1 − 0 . 977 = 0 . 023 In 2.3 % der F¨alle sind zu starke Abweichungen nach oben in der Produktion zu erwarten. Der Vollst¨andigkeit halber ist auch dieser Fall in der n¨achsten Abbildung graphisch aufbereitet dargestellt. Die Wahrscheinlichkeiten verdeutlichen noch einmal die Symmetrieeigenschaft der Normalverteilung. Im Falle der Normalverteilung herrscht perfekte Symmetrie. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="184"?> 4.4. Spezielle stetige Modelle 185 Abbildung 4.9: NV-Wahrscheinlichkeit f¨ ur die Situation: Gr¨oßer Links und rechts vom Zentrum (= Median, Modus, Mittelwert) liegt bei gleichen Abst¨anden zu diesem jeweils gleich viel Wahrscheinlichkeitsmasse. Daher ist es nicht verwunderlich, dass die 4.6 %, die außerhalb des Intervalls aus der 1. Aufgabenstellung lagen, sich gleichm¨aßig zu je 2.3 % links von der Untergrenze und rechts von der Obergrenze aufteilen. In der abschließenden Tabelle sind Wahrscheinlichkeiten der Standardnormalverteilung f¨ ur bestimmte Intervalle angegeben. Dabei wird von der Null nach links und rechts in gleich Schritten gegangen und zwar in Vielfachen der Standardabweichung. Diese Intervalle nennt man auch Schwankungsintervalle. von bis Wahrscheinlichkeit -1 1 68.3 % -2 2 95.4 % -3 3 99.7 % -3.5 3.5 99.95 % Tabelle 4.8: Schwankungsintervalle der Standardnormalverteilung Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="185"?> 186 Kapitel 4. Verteilungen Damit wird auch deutlich, warum in der Tabelle zur Normalverteilung auf der Seite 233 nur Werte von 0 bis 3 tabelliert sind. Jenseits der 3 passiert nicht mehr viel. Die NV spielt in der Inferenzstatistik eine wichtige Rolle. Viele Tests setzen voraus, dass die Daten aus einer Normalverteilung stammen. 4.4.2 Weitere stetige Modelle An dieser Stelle sollen noch kurz drei weitere Verteilungen vorgestellt werden. Selbstverst¨andlich gibt es unz¨ahlige mehr. Diese sind aber kein Gegenstand dieser Einf¨ uhrung. t-Verteilung: Die t-Verteilung ist f¨ ur Sie wichtig, da sie die entscheidende Rolle beim sogenannten t-Test spielen wird, den Sie noch kennenlernen werden. Die Dichtefunktion der t-Verteilung sieht prinzipiell genauso aus wie die der Normalverteilung. Sie ist ebenfalls symmetrisch um Null. Die t-Verteilung hat einen Parameter, die sogenannten Freiheitsgrade, in der Regel angegeben durch den Buchstaben k. Definition 4.17: t-Verteilung Die stetige Zufallsvariable T sei t-verteilt mit Parameter k = 1 , 2 , 3 , . . . T ∼ t ( k ) mit T ∈ R Es gilt: E ( T ) = 0 Die Varianz ben¨otigen Sie zum Verst¨andnis nicht. Je gr¨oßer k ist, desto mehr n¨ahert sich die t-Verteilung der Standardnormalverteilung an. William Gosset (1876-1937) publizierte unter dem Pseudonym Student die t- Verteilung. Die t-Verteilung ist daher auch als Student’s t-Verteilung bekannt. Gosset arbeitete in der Agrarbranche. Er hat die Verteilung entwickelt, um die bestm¨ogliche Gerstenqualit¨at zu erzeugen. Sein Arbeitgeber hatte es nicht erlaubt, dass Mitarbeiter Papiere zu Studien ver¨offentlichen. Daher musste er ein Pseudonym w¨ahlen. Im Rahmen des t-Tests werden Sie sehen, inwiefern die t-Verteilung bei solchen und ¨ahnlichen Fragestellungen weiterhilft. χ 2 -Verteilung: Diese ist aus demselben Grund f¨ ur Sie wichtig. Sie ben¨otigen Sie im Rahmen eines statistischen Tests, den Sie kennenlernen werden. Auch die χ 2 - Verteilung (sprich ”chiquadrat“) hat einen Parameter, n¨amlich die Freiheitsgrade, ebenfalls durch den Buchstaben k gekennzeichnet. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="186"?> 4.5. Aufgaben 187 Definition 4.18: χ 2 -Verteilung Die stetige Zufallsvariable U sei χ 2 -verteilt mit Parameter k = 1 , 2 , 3 , . . . U ∼ χ 2 ( k ) mit U ≥ 0 Es gilt E ( U ) = k Auch hier ben¨otigen Sie die Varianz nicht. Diese Verteilung ist ebenfalls mit der Standardnormalverteilung eng verbunden. Exponentialverteilung: Im Anschluss an die Binomialverteilung, eine Z¨ahlverteilung interessierender Ereignisse, haben Sie kurz die geometrische Verteilung kennengelernt. Diese ist die Warteverteilung im Bernoullimodell. Die Poisson-Verteilung haben Sie auch als Z¨ahlverteilung bestimmter Ereignisse kennengelernt. Die Warteverteilung der Poisson-Verteilung ist gerade die Exponentialverteilung. Offensichtlich sind die Wartezeiten im Poisson-Fall stetiger Natur, denn die Exponentialverteilung ist eine stetige Verteilung. Das sollten Sie zumindest einmal geh¨ort haben. Alles weitere zu den hier genannten oder noch anderen Verteilungen k¨onnen Sie zum Beispiel bei [WolNaeTie2006] nachlesen. Kurz gefasst! Modelle dienen dazu, die Datenwelt zu verstehen und Erkenntnisse zu generieren. Sie haben den Bernoulliprozess und die Binomialverteilung als diskrete Modelle kennengelernt. Die Normalverteilung kennen Sie als wichtigstes stetiges Modell. Neben den ausf¨ uhrlich vorgestellten wurden weitere diskrete und stetige Modelle eingef¨ uhrt. 4.5 Aufgaben 1. Angenommen M¨adchen- und Jungengeburten seien gleich wahrscheinlich. Stellen Sie sich eine weitl¨aufig befreundete Familie mit 2 Kindern vor: (a) Wie wahrscheinlich ist es, dass diese Familie zwei M¨adchen hat? (b) Sie erinnern sich dunkel, dass in der Familie in der Tat auf jeden Fall ein Kind ein M¨adchen ist. Wie wahrscheinlich ist es dann, dass die Familie zwei M¨adchen hat? Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="187"?> 188 Kapitel 4. Verteilungen (c) Sie erinnern sich noch etwas genauer: Das erste Kind ist ein M¨adchen. Wie wahrscheinlich ist es nun, dass die Familie zwei M¨adchen hat? 2. Man bietet Ihnen das folgende Gl¨ ucksspiel an: Sie bezahlen einen Einsatz von x Cent, dann d¨ urfen Sie zweimal w¨ urfeln. Werfen Sie mindestens einmal eine 6, dann erhalten Sie als Gewinn 100 Cent. (a) Wie groß ist die Wahrscheinlichkeit, dass Sie gewinnen? (b) Sie d¨ urfen so oft spielen, wie Sie m¨ochten. Welchen Einsatz w¨aren Sie h¨ochstens bereit zu bezahlen, um langfristig nicht zu verlieren? → Hinweis: Erstellen Sie eine Gewinnfunktion in Abh¨angigkeit von (x). 3. Tversky und Kahneman fragten Personen, welche der beiden folgenden Alternativen sie vorz¨ogen. Alternative A: Man erh¨alt eine sichere Auszahlung von $ 240. Alternative B: Mit Wahrscheinlichkeit 0 . 25 erh¨alt man eine Auszahlung von $ 1000 und mit Wahrscheinlichkeit 0 . 75 keine Auszahlung. (a) Entscheiden Sie sich spontan f¨ ur eine der beiden Alternativen. (b) Berechnen Sie geeignete Maßzahlen, um Ihre Entscheidung zu unterst¨ utzen. (c) 84 % der von Tversky und Kahneman befragten Personen entschieden sich f¨ ur Alternative A. Vergleichen Sie diesen Umstand mit Ihren eigenen Erkenntnissen aus den beiden vorherigen Aufgabenpunkten. Versuchen Sie, eine Begr¨ undung f¨ ur die hohe Prozentzahl zu finden. (d) Hilft es Ihnen bei der Beantwortung der letzten Frage, den Begriffrisikofreudig zu verwenden? 4. Im Anschluss fragten Tversky und Kahneman die Personen, welche der beiden folgenden Alternativen sie vorz¨ogen. Alternative A: Man hat einen sicheren Verlust von $ 750. Alternative B: Mit Wahrscheinlichkeit 0.75 verliert man $ 1000 und mit Wahrscheinlichkeit 0.25 nichts. (a) Entscheiden Sie sich spontan f¨ ur eine der beiden Alternativen. (b) Berechnen Sie geeignete Maßzahlen, um Ihre Entscheidung zu unterst¨ utzen. (c) In diesem Fall entscheiden sich 87 % Prozent der Befragten f¨ ur Alternative B. Vergleichen Sie auch diesen Umstand mit Ihren eigenen Erkenntnissen aus den beiden vorherigen Aufgabenpunkten. Versuchen Sie, eine Begr¨ undung f¨ ur die hohe Prozentzahl zu finden. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="188"?> 4.5. Aufgaben 189 (d) Hilft es Ihnen bei der Beantwortung der letzten Frage, den Begriffrisikofreudig zu verwenden? 5. Eine faire M¨ unze wird zweimal geworfen. (a) Erstellen Sie die Ergebnismenge Ω . (b) Die Zufallsvariable X sei definiert als Anzahl Kopf. Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (c) Bestimmen Sie E ( X ) und V ar ( X ) . 6. Eine faire M¨ unze wird zehnmal geworfen. (a) Erstellen Sie NICHT die Ergebnismenge Ω . Warum nicht? Wie groß ist Ω , wie viele verschiedene Ergebnisse gibt es denn? (b) Die Zufallsvariable X sei definiert als Anzahl Kopf. Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. W¨ahlen Sie dazu ein geeignetes Modell aus. (c) Bestimmen Sie E ( X ) und V ar ( X ) . (d) Wie groß ist die Wahrscheinlichkeit, h¨ochstens zweimal Kopf zu beobachten? (e) Wie groß ist die Wahrscheinlichkeit, mindestens achtmal Kopf zu beobachten? (f) Wie groß ist die Wahrscheinlichkeit, genau f¨ unfmal Kopf zu beobachten? 7. Zum Binomialkoeffizienten. (a) Beschreiben Sie mit Ihren eigenen Worten, was der Binomialkoeffizient, zum Beispiel ( 10 2 ) , aussagt. (b) Argumentieren Sie, warum ( n 0 ) und ( n n ) gerade 1 sein m¨ ussen. (c) Auf wie viele Arten kann man aus 10 Personen 2 f¨ ur einen Ausschuss ausw¨ahlen? (d) Auf wie viele Arten kann man aus 10 Personen 8 f¨ ur einen Ausschuss ausw¨ahlen? (e) Warum gilt ( 10 2 ) = ( 10 8 ) ? 8. Um im Internet sicher miteinander kommunizieren zu k¨onnen, muss eine verschl¨ usselte Verbindung aufgebaut werden. Klassischer Weise ben¨otigen zwei Personen, die miteinander geheim kommunizieren m¨ochten, genau einen gemeinsamen Schl¨ ussel - ob im Internet oder nicht. Im Internet kommunizieren aber sehr, sehr viele Personen miteinander geheim. Denken Sie an all die verschl¨ usselten Verbindungen, wenn Sie Ihr Internet Banking machen oder online einkaufen. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="189"?> 190 Kapitel 4. Verteilungen Zeigen Sie mit Hilfe des Binomialkoeffizienten, warum im Zeitalter des Internets die geheime Kommunikation mit einem geheimen Schl¨ ussel f¨ ur jeweils zwei kommunizierende nicht mehr funktioniert. Bedenken Sie auch, dass diese Schl¨ ussel ja irgendwie (geheim) ausgetauscht werden m¨ ussen. (a) Wie viele Schl¨ ussel braucht man denn, wenn n-Personen jeweils paarweise miteinander geheim kommunizieren m¨ochten (b) Und wie entwickelt sich diese Zahl in Abh¨angigkeit der Personenzahl? 9. Leiten Sie den Erwartungswert und die Varianz einer bernoulliverteilten Zufallsvariable her. Hinweis: Benutzen Sie daf¨ ur die Definitionen des Erwartungswertes bzw. der Varianz (S. 162f). 10. Zeigen Sie, dass f¨ ur den Erwartungswert einer binomialverteilten die angegebene Formel n · p zutreffend ist. Hinweis: Benutzen Sie daf¨ ur die Definition des Erwartungswertes (S. 162). 11. Stiftung Warentest hat die Beratungsqualit¨at von Apotheken unter die Lupe genommen. Der Tagespresse vom 27.2.2004 2 war zu entnehmen: 50 Apotheken in Berlin, K¨oln und M¨ unchen bekamen zwei Besuche von anomymen Testern. . . . Die Verbrauchersch¨ utzer haben zun¨achst einen Kunden losgeschickt, der ein Schnupfenmittel kaufen wollte. In 21 Apotheken wurden die Pr¨ ufer schlecht beraten. . . . Sie sollen den Test als Bernoulliprozess auffassen. Das interessierende Erfolgsereignis ist A: Die Beratung war in Ordnung. (a) Wie groß ist die Erfolgswahrscheinlichkeit p = P ( A ) ? Diese soll durch den oben erw¨ahnten Befund abgesch¨atzt werden. (b) Wie ist die Zufallsvariable S: Anzahl erfolgreiche Beratungen verteilt? (c) Wie groß ist die Wahrscheinlichkeit, dass Sie bei dieser Konstellation mehr als 45 gute Beratungen beobachten k¨onnen, also P ( S > 45) ? (d) Der Pr¨asident der Bundesvereinigung Deutscher Apotheken h¨alt dagegen, . . . dass die Stichprobe viel zu klein ist. In Wahrheit liegt die Wahrscheinlichkeit, eine gute Beratung zu bekommen, bei mindestens 90 %. (e) Berechnen Sie E ( S ) und V ( S ) mit der behaupteten Erfolgswahrscheinlichkeit. 2 Neue Westf¨alische Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="190"?> 4.5. Aufgaben 191 (f) Halten Sie es f¨ ur m¨oglich bzw. wahrscheinlich, dass, falls die Behauptung stimmt, man nur 29 gute Beratungen bei 50 Versuchen erwischt? Verwenden Sie in Ihrer Argumentation auch die gerade eben errechneten Maßzahlen. (g) Wie groß ist nun die Wahrscheinlichkeit, dass Sie mehr als 45 gute Beratungen beobachten k¨onnen, also P ( S > 45) , bei n = 50 Versuchen? 12. Sie sollen eine Anzahl n von Kreditvertr¨agen aus derselben Risikoklasse betrachten. In dieser Klasse gilt, dass die R¨ uckzahlungswahrscheinlichkeit an die Bank bei 75 % liegt. (a) Erstellen Sie eine bernoulliverteilte Zufallsvariable, die diese Situation gut modelliert. (b) Die n = 10 Vertr¨age sind unabh¨angig voneinander. Die Zufallsvariable S sei definiert als Anzahl zur¨ uckgezahlter Kredite. (c) Mit wie vielen zur¨ uckgezahlten Vertr¨agen kann die Bank rechnen? (d) Wie groß ist die Wahrscheinlichkeit, dass die Bank alle Kredite zur¨ uckbezahlt bekommt? (e) Wie groß ist die Wahrscheinlichkeit, dass die Bank gar keinen Kredit zur¨ uckbezahlt bekommt? (f) Wie groß ist die Wahrscheinlichkeit, dass Sie mindestens acht Kredite zur¨ uckbezahlt bekommt? (g) Wie groß ist die Wahrscheinlichkeit, dass Sie h¨ochstens sieben Kredite zur¨ uckbezahlt bekommt? (h) Es sei n = 1000 . Bei so einer großen Anzahl von Bernoulliwiederholungen, k¨onnen Sie den zentralen Grenzwertsatz ausnutzen. Es gilt 3 S ≈ N V ( μ = n · p, σ 2 = n · p · (1 − p ) ) (i) Welche Anzahl erwarten Sie also? Und mit welcher Streuung ist zu rechnen? (j) Vergleichen Sie die Maßzahlen, mit denen bei n = 10 . (k) Wie groß ist die Wahrscheinlichkeit, mindestens 800 Kredite zur¨ uckzubekommen? (l) Wie groß ist die Wahrscheinlichkeit, h¨ochstens 700 Kredite zur¨ uckzubekommen? (m) Vergleichen Sie diese Wahrscheinlichkeiten mit den analogen bei n = 10 Versuchen. 3 ≈ heißt, S ist nur approximativ normalverteilt, das heißt, je gr¨oßer n , desto mehr n¨ahert sich S der Normalverteilung. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="191"?> 192 Kapitel 4. Verteilungen 13. Ein Produzent von Kakaopulver weiß aus Erfahrung, dass das F¨ ullgewicht seiner 125g-Packung einer Normalverteilung mit μ = 125 g und einer Standardabweichung von σ = 5 g unterliegt. X: Gewicht in Gramm → X ∼ N V (125 , 5 2 ) (a) Wie groß ist die Wahrscheinlichkeit, dass eine Packung genau 125 g wiegt? (b) Wie groß ist die Wahrscheinlichkeit, dass eine Packung zwischen 120 g und 130 g wiegt? (c) Wie groß ist die Wahrscheinlichkeit, dass eine Packung weniger als 110 g wiegt? (d) Zeichnen Sie die drei Situationen grob in die entsprechende Dichtefunktion ein. (e) Welches Gewicht unterschreitet eine Packung mit einer Wahrscheinlichkeit von 0,05? Hinweis: Wenn X ∼ N V (125 , 5 2 ) , dann k¨onnen Sie durch Standardisierung x −125 5 auf die bekannte Tabelle der Standardnormalverteilung zur¨ uckgreifen. Der umgekehrte Weg klappt auch: Wenn Sie diejenige Stelle gefunden haben, die von einer standardnormalverteilten Zufallsvariable Z in 5 % der F¨alle unterschritten wird (der 5 %-Punkt, Z 0 , 05 dazu m¨ ussen Sie sich die Werte anschauen, die in der Tabelle stehen), dann k¨onnen Sie so in die Kakao bzw. X Welt zur¨ uckkommen: X 0 , 05 = z 0 , 05 · 5 + 125 14. Eine Reifenfirma untersucht die Lebensdauer X eines neu entwickelten Reifens. Dabei zeigt sich, dass die ermittelte Lebensdauer der Reifen gut durch eine Normalverteilung mit den Parametern μ = 36000 km und σ = 4000 km angen¨ahert werden kann. Hinweis: Zur Beantwortung der Fragen kann es hilfreich sein, sich die Situationen in die Dichte der Normalverteilung einzuzeichnen. (a) Wie groß ist die Wahrscheinlichkeit daf¨ ur, dass ein zuf¨allig ausgew¨ahlter Reifen h¨ochstens 48000 km h¨alt? (b) Wie groß ist die Wahrscheinlichkeit daf¨ ur, dass ein zuf¨allig ausgew¨ahlter Reifen l¨anger als 36000 km h¨alt? Argumentieren Sie diese Wahrscheinlichkeit auch anhand der Dichte der Normalverteilung. (c) Wie groß ist die Wahrscheinlichkeit, dass ein zuf¨allig ausgew¨ahlter Reifen genau 36000 km h¨alt? (d) Wie groß ist die Wahrscheinlichkeit, dass ein zuf¨allig ausgew¨ahlter Reifen l¨anger als 32000 km und weniger als 40000 km h¨alt? Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="192"?> 4.5. Aufgaben 193 Weiter Weg zur Zwei Ein kurioses Gesetz der Wahrscheinlichkeitstheorie kann Finanzbeamten helfen, Steuersünder aufzuspüren. Ein abgegriffenes Handbuch in einer Bibliothek brachte den amerikanischen Physiker Frank Benford auf den Einfall seines Lebens. Die vorderen Seiten, plötzlich sah er es, wiesen die weitaus stärksten Lesespuren auf. Benford stutzte. Das Buch enthielt nichts als Logarithmentabellen - damals, vor den Zeiten des Taschenrechners, eine gebräuchliche Rechenhilfe. Vorn standen all jene Zahlen, die mit einer Eins anfingen; dort schlugen die Leute augenscheinlich am häufigsten nach. Warum diese eigenartige Vorliebe für die Eins? Den Physiker beschlich ein wunderlicher Verdacht. Die nächsten Jahre wendete Benford dafür auf, der Sache auf den Grund zu gehen. Er beschaffte sich Zahlenkolonnen aller Art und studierte sie: Statistiken der amerikanischen Baseball-Liga, alle Zahlen aus einer Ausgabe des „Reader‘s Digest“, das Atomgewicht der Elemente und Stromrechnungen von den pazifischen Salomon-Inseln. Am Ende hatte er 20.229 Datensätze überprüft. Das Ergebnis bestätigte seine Ahnung: Die Wirklichkeit scheint der Eins den Vorzug zu geben. Fast jede dritte Zahl fängt mit ihr an. Je größer jedoch die Ziffer, desto seltener steht sie an erster Stelle. 1938 veröffentlichte Benford seine Entdeckung, dazu die Formel, mit der sich die Wahrscheinlichkeit jeder Anfangsziffer errechnen lässt. Für die Eins beträgt sie demnach gut 30 Prozent, für die Zwei knapp 18, für die Neun nur 4,6 Prozent. Diese Formel, seither „Benfords Gesetz“ genannt, bezaubert die Zahlenforscher bis heute. Die Einwohnerzahlen der 3.141 US- Bezirke, die Größe der Dateien auf einer beliebigen Computerfestplatte, die Anzahl der Aktien, die täglich an der New Yorker Börse umgesetzt werden: Wo immer gezahlt wird, so scheint es, waltet BenfordsGesetz. Nur was es nutzt, das zu wissen, war lange fraglich - bis der US-Wissenschaftler Mark Nigrini entdeckte, dass auch die Zahlen in Steuererklärungen dem seltsamenGesetz folgen. Jedenfalls, wenn sie nicht gefälscht sind. Knapp 200.000 Steuererklärungen hat Nigrini im Computer analysiert. Tatsächlich: Fast jeder dritte Betrag fing mit einer Eins an. Nigrini witterte einen eleganten Trick, Betrügern auf die Schliche zu kommen: Wer betrügt, denkt sich irgendwelche Zahlen aus, und für ausgedachte Zahlen gilt Benfords Gesetz nicht. Nigrini entwickelte eine Software, die Abweichungen von Benfords Gesetz aufspürt. Um die Ergebnisse zu verfeinern, beachtet sie neben den ersten Ziffern auch noch die zweiten. Den ersten Test bestand das Programm schon vor einigen Jahren: New Yorker Steuerfahnder speisten es mit sieben Fällen nachgewiesenen Betruges. Bei allen schlug das Programm Alarm. Nichts Verdächtiges offenbarten hingegen die Steuererklärungen der Familie Clinton aus 16 Jahren, die Nigrini ebenfalls überprüfte. Wenn aber ein Betrüger von Benfords Gesetz erfährt und seine Zahlen flugs anpasst? Nigrini hält das für ausgesprochen schwierig. Ein in sich plausibler Steuerbetrug, in dem auch noch genügend Einsen an erster Stelle vorkommen, von den zweiten Ziffern zu schweigen, sei nicht so schnell fabriziert. Der große Vorteil des Benford-Tests besteht in seiner Automatisierbarkeit. Menschliche Steuerprüfer können bestenfalls Stichproben durchleuchten. Computer dagegen fressen sich im Nu durch sämtliche Zahlenkolonnen eines Großunternehmens. Fordern sie Unregelmäßigkeiten zutage, so ist zwar noch nichts bewiesen, sagt Nigrini. „Aber dann sollte sich jemand die Sache genauer ansehen.“ Die Steuerbehörden mehrerer amerikanischer Bundesstaaten verwenden bereits Nigrinis Software, darunter Kalifornien und Delaware. Auch etliche Großunternehmen, von Texaco bis Philip Morris, haben ihre interne Buchhaltung damit ausgerüstet.In Deutschland ist die Software bei den Wirtschaftsprüfern Schitag Ernst & Young im Einsatz. In mehreren Fällen seien damitschon krumme Transaktionen aufgedeckt worden, sagt der EDV-Spezialist Stefan Joggerst. Seinen Nutzen hat das Wissen um die Vorherrschaft der Eins damit bewiesen. Dennoch ist es selbst vielen Mathematikern nicht ganz geheuer. Vor den unbestechlichen Gesetzen der Wahrscheinlichkeit, so sind sie es gewohnt, sind eigentlich alle Zahlen gleich. Die Skala der Zahlen steigt gleichmäßig von Null bis Unendlich. Warum verteilen sich nicht alle Beträge gleichmäßig darüber? Die Eins ist auf dieser Skala von der Zwei nicht weiter entfernt als die Fünf von der Sechs. Für die wirklichen Dinge allerdings, die gezählt, gemessen und gewogen werden, kann der Weg von der Eins zurZwei sehr lang sein: Um ihn zurückzulegen, müssen sie um das Doppelte wachsen.Einer Fünf fehlt dagegen nur ein Fünftel,um zur Sechs zu werden. Nigrinierklärt es am Beispiel des Deutschen Aktienindex: Angenommen, er stünde gerade bei 1.000 Punkten, dann müssten sich die Aktienkurse im Schnitt verdoppeln,ehe der Dax die 2.000 erreicht. So lange bliebe die führende Eins erhalten, so lange erschiene sie auf allen Listen. Stünde der Dax aber bei 5.000 Punkten, so müssten die Werte nur noch um 20 Prozent steigen,ehe mit 6.000 die Fünf als erste Ziffer abgelöst wird. Noch kleiner ist im Verhältnis der Schritt von 9.000 nach 10.000. Dann aber erscheint wieder die Eins an erster Stelle, und sie bleibt so lange, bis der Index sich auf 20.000 abermals verdoppelt. Was wächst oder schrumpft, verharrt deshalb relativ lange im Bereich der führenden Eins. Das Gesetz gilt allerdings auch für viele Größen, die sich nicht wesentlich ändern im Lauf der Zeit, zum Beispiel für die Fläche von Gewässern. Ob man sie inQuadratmetern misst, in Quadratmeilen oder in Hektar, immer tritt die Eins vorneweg gehäuft auf. Das hat den Zahlenforschern lange zu schaffen gemacht. Ein Blick auf die Weltverhältnisse löste auch dieses Rätsel: Der Physiker Don Lemons verwies 1986 in einem Aufsatz auf einen Umstand, den die Wissenschaft bis dahin kaum beachtet hatte: Es gibt einfach mehr Pfützen als Tümpel, mehr Tümpel als Ozeane. Folglich gibtes wahrscheinlich auch mehr Gewässer zwischen 10 und 20 Hektar als zwischen 20 und 30, mehr zwischen 100 und 200 als zwischen 200 und 300 - undso fort. Damit ist Benfords Gesetz vollends auf dem Weg zur Weltenformel. Denn es gibt auch mehr Kieselsteine als Felsbrocken und überhaupt mehr kleine Dinge als große. Warum sich dies so verhält, ist wieder eine andere Frage. Manfred Dworschak (Spiegel 47/ 1998) Abbildung 4.10: Spiegelartikel zu Benfords Gesetz Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="193"?> 194 Kapitel 4. Verteilungen (e) Wie groß ist die Wahrscheinlichkeit, dass ein zuf¨allig ausgew¨ahlter Reifen l¨anger als 36000 km und weniger als 40000 km h¨alt? (f) Welche Lebensdauer wird von 95% der Reifen nicht ¨ uberschritten? 15. Lesen Sie den Spiegelartikel auf der Seite 193. Hier wird eine sehr praktische Anwendung f¨ ur das sogenannte Benford-Gesetz beschrieben, also die H¨aufigkeiten f¨ ur die erste Ziffer (vgl. dazu auch [Tiemann2003], S. 194f). Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="194"?> Kapitel 5 Induktive Statistik 5.1 Grenzwerts¨atze - Empirie vs. Theorie In diesem Kapitel lernen Sie dass alles, was Sie bisher kennengelernt haben, wichtig ist und zum Einsatz kommen wird. Ziel ist es, aus Daten Schlussfolgerungen ziehen. wichtige Grenzwerts¨atze kennen, welche noch einmal die Verbindung zwischen Empirie und Theorie untermauern. den statistischen Test kennen und werden konkrete Tests anwenden. ”Es ist mir noch heute r¨atselhaft, dass man herausbringt, was 60 Millionen Menschen denken, wenn man zweitausend befragt. Erkl¨aren kann ich das nicht. Es ist eben so.“ Elisabeth Noelle-Neumann , Meinungsforscherin Wenn man das so liest, kann man in der Tat ins Gr¨ ubeln kommen. Aber lassen Sie mich dieses Ph¨anomen etwas alltagstauglicher umformulieren: Ist ein W¨ urfel fair oder wurde da etwas manipuliert? Wie gehen Sie vor? Theoretisch k¨onnten Sie den W¨ urfel nat¨ urlich ganz genau vermessen und so pr¨ ufen, ob alles seine Ordnung hat. Aber eben nur theoretisch. Praktisch machen Sie etwas anderes: Sie w¨ urfeln. Und dieses (ausnahmsweise) intuitiv richtige Vorgehen, entspricht genau dem, was bereits auf der Seite 13 als induktives Vorgehen eingef¨ uhrt wurde: Sie m¨ochten ¨ uber eine Grundgesamtheit, die Sie in ihrer Gesamtheit niemals erfassen k¨onnen — denn dazu w¨aren dann wohl unendlich viele W¨ urfe notwendig —, etwas Bedeutsames erfahren. Sie brauchen eine Stichprobe. <?page no="195"?> 196 Kapitel 5. Induktive Statistik Oder um es mit Lew Tarassow zu sagen: ”Damit sich die Wahrscheinlichkeit offenbart, m¨ ussen Sie den W¨ urfel sehr oft rollen lassen und verfolgen, wie oft eine Vier f¨allt.“ 1 Der W¨ urfel offenbart seine Charakteristika, Sie m¨ ussen sie ihm aus der Nase ziehen, Sie m¨ ussen etwas daf¨ ur tun. Damit sind die Funktionsweisen der Grenzwerts¨atze bereits ganz gut beschrieben. Die Grenzwerts¨atze f¨ ur Folgen von Zufallsvariablen sind in einem gewissen Sinn das i-T¨ upfelchen auf der Wahrscheinlichkeitsrechnung. Diese erlauben erst ein induktives Vorgehen oder auch Simulationsexperimente. Sie verbinden auf wundersame Weise die Empirie mit der Theorie. Wir wollen drei dieser Gesetze kennenlernen. 5.1.1 Das Gesetz der großen Zahlen Lax formuliert sagt das Gesetz aus, dass mit zunehmendem Stichprobenumfang Mittelwerte gegen Erwartungswerte und relative H¨aufigkeiten gegen Wahrscheinlichkeiten streben. Das ist keine Kleinigkeit, sondern er¨offnet im Gegenteil sehr m¨achtige Spielr¨aume. Wenn ich also Beispielsweise den wahren Anteil der SPD-W¨ahler in meiner Grundgesamtheit wissen m¨ochte — sozusagen die Wahrscheinlichkeit, einen SPD-W¨ahler zu erwischen, wenn ich zuf¨allig in die Grundgesamtheit greife —, dann (Achtung Frau Noelle-Neumann), so das Gesetz, muss ich eine gewisse Anzahl von Personen aus meiner Grundgesamtheit ber¨ ucksichtigen. Die relative H¨aufigkeit der SPD- W¨ahler in meiner Stichprobe strebt dann gegen den wahren, aber unbekannten und in seiner G¨anze nicht eruierbaren Anteil. Leider sagt das Gesetz so zun¨achst einmal nichts dar¨ uber aus, welchen Umfang die Stichprobe haben sollte, um eine hinreichend genaue Approximation zu erzielen. ¨ Uber die Geschwindigkeit dieser sogenannten stochastischen Konvergenz wissen Sie erst einmal nichts. Erinnern Sie sich noch an das Ziegenproblem auf der Seite 17? Im Rahmen der Wahrscheinlichkeitsrechnung haben Sie sich bereits mit dem paradoxen Umstand befasst, dass die Strategie Wechseln zu einer doppelt so großen Wahrscheinlichkeit (2/ 3), das Auto zu gewinnen, f¨ uhrt. Das Gesetz der großen Zahlen er¨offnet noch einen weiteren Weg, diese 67 % Wahrscheinlichkeit zu ermitteln: Man simuliert das Ziegenproblem. Nat¨ urlich k¨onnen Sie die Ziegenspiele einfach mit drei Bechern und einem Matchboxauto selber durchspielen. Hier soll der Rechner eingesetzt werden und das Ziegenproblem spielen. 1 Vgl. [Tarassow98] Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="196"?> 5.1. Grenzwerts¨atze - Empirie vs. Theorie 197 Anzahl der Spiele rel. Gewinnhäufigkeiten 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0 Das Ziegenproblem: 10 Spiele Wechseln: 50% Nicht Wechseln: 50% 55 Nicht wechse Wechseln Abbildung 5.1: Entwicklung der relativen Gewinnh¨aufigkeiten nach 10 Ziegenspielen Graphik 5.1 zeigt die Entwicklung der relativen Gewinnh¨aufigkeiten f¨ ur die beiden Strategien Wechseln und Nicht-Wechseln nach 10 absolvierten Ziegenspielen — in 10 verschiedenen, vom Computer zuf¨allig gew¨ahlten Konstellationen, wurde man also vor die Wahl gestellt, entweder bei der Originalwahl zu bleiben oder zu wechseln. Der Computer merkt sich, welche Strategie wann gewonnen h¨atte und stellt diese Entwicklung mit einem Linienzug dar. Nach 10 Spielen haben beide Strategien jeweils f¨ unfmal gewonnen. Entweder haben Sie sich vorhin grob verrechnet, und die intuitive 50: 50 Feststellung ist doch richtig, oder das Experiment gibt Ihnen bereits einen ganz guten Eindruck davon, dass die stochastische Konvergenz, also das Streben der relativen H¨aufigkeiten gegen die Wahrscheinlichkeiten, mit etwas mehr Geduld bedacht werden muss. Denn wie oft w¨ urden Sie einen W¨ urfel werfen, um festzustellen, ob die Sechs auch oft genug gef¨allt? Sicherlich mehr als zehnmal. Bevor Sie das Ziegenspiel ¨ofter spielen, sollen Sie sich kurz die Wirkungsweise vor Augen f¨ uhren. Jedes Beobachten der Strategie Wechseln bei einem Ziegenspiel kann als Bernoulliexperiment aufgefasst werden. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="197"?> 198 Kapitel 5. Induktive Statistik Sie spielen n voneinander unabh¨angige Ziegenspiele nacheinander. Es interessiert, ob die Strategie Wechseln erfolgreich war oder nicht. Das sollen Sie mit einer Zufallsvariable X i modellieren: X i ∼ bern ( p = 2 / 3) , i = 1 , . . . , n F¨ ur jedes X i gilt E ( X i ) = p, V ( X i ) = p · (1 − p ) = σ 2 Nach n Spielen stellen Sie S = n ∑ i =1 X i Erfolge fest. Nat¨ urlich ist S binomialverteilt. Es interessiert die relative Gewinnh¨aufigkeit h S = S/ n, denn die soll gegen 2/ 3 streben. Die relative H¨aufigkeit h S hat zwei wichtige Eigenschaften: Erwartungswert E ( h s ) E ( h S ) = E ( S/ n ) = 1 / n · E ( S ) = 1 / n · E ( n ∑ i =1 X i ) = = 1 / n · n ∑ i =1 E ( X i ) = 1 / n · n · p = p Wie gehofft ist der Erwartungswert von h S gerade p = 2 / 3 . Damit taugt er f¨ ur unser Experiment, er ist erwartungstreu. Varianz V ( h s ) σ 2 h S = V ( h S ) = V ( S/ n ) = 1 n 2 · V ( S ) = 1 n 2 · V ( n ∑ i =1 X i ) = = 1 n 2 · n ∑ i =1 V ( X i ) = 1 n 2 · n · p · (1 − p ) = p · (1 − p ) n = σ 2 n Die Varianz hat die entscheidende Eigenschaft, dass sie umso kleiner wird, je mehr Ziegenspiele Sie spielen. Die Standardabweichung gibt bekanntermaßen die durchschnittliche Entfernung vom Erwartungswert an, und diese Entfernung wird mit zunehmendem Stichprobenumfang immer kleiner — sie strebt sogar gegen Null, wenn n → ∞ : σ h S = √ σ 2 n = σ √ n Dies ist das sogenannte √ n-Gesetz, welches Eigenschaften von Mittelwerten und relativen H¨aufigkeiten (das sind auch Mittelwerte) beschreibt: Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="198"?> 5.1. Grenzwerts¨atze - Empirie vs. Theorie 199 Definition 5.1: √ n-Gesetz Wenn Sie n identisch und unabh¨angig verteilte Zufallsvariablen X i mit Varianz σ 2 beobachten, dann gilt f¨ ur die Standardabweichung des Mittelwertes ¯ X: σ ¯ X = σ √ n Anders formuliert heißt das, unsere relative H¨aufigkeit schmiegt sich immer dichter an den Sie interessierenden Erwartungswert. Und der ist gerne auch mal unbekannt. Dann f¨ uhrt das Experiment zum gew¨ unschten Erkenntnisgewinn. Unter Verwendung des Gesetzes k¨onnen Sie sich tats¨achlich durch Wiederholung eine unbekannte Gr¨oße herleiten. Das heißt, die Simulation f¨ uhrt zwangsl¨aufig zum gew¨ unschten Ziel — nat¨ urlich nur dann, wenn unser Experiment auch so gestaltet ist, dass es tats¨achlich das gew¨ unschte Ph¨anomen korrekt abbildet. Wenn Sie gar nichts ¨ uber das σ wissen, dann k¨onnen Sie zumindest folgende Aussage treffen: Wenn der Fehler um 1/ 10 verkleinert werden soll, dann muss ich 10 2 = 100 mal mehr Versuche ber¨ ucksichtigen. Und in diesem Fall? Sie kennen die Rahmenbedingungen. Hier ist die erwartete Entfernung von p = 2 / 3 , der erwartete Fehler, gerade √ 2 / 3 · 1 / 3 10 = 0 . 15 Damit liegt das Experiment durchaus im Rahmen der Genauigkeitserwartung. Sie k¨onnen um den Erwartungswert 0 . 67 ein Intervall der L¨ange 0 . 15 legen: 0 . 67±0 . 15 . Die im Experiment mit zehn Spielen beobachteten 0 . 5 liegen am unteren Rand. Wenn Sie n = 1000 Ziegenspiele spielen, dann erwarten Sie, dass die relative H¨aufigkeit deutlich dichter an den 2/ 3 bzw. 1/ 3 liegt. Der Fehler ist dann um den Faktor 10 kleiner, denn Sie haben 100-mal mehr Spiele durchgef¨ uhrt: √ 2 / 3 · 1 / 3 1000 = 0 . 015 Graphik 5.2 zeigt alle 1000 Ziegenspiele. Wie Sie sehen, pendeln sich die relativen H¨aufigkeiten sehr sch¨on bei den Wahrscheinlichkeiten ein. W¨ahrend am Anfang die Kurven noch recht zickig daherkommen — das liegt an den noch hohen Varianzen der relativen H¨aufigkeiten, bei 10 Spielen herrschte ja sogar Ausgeglichenheit — ist ab n = 200 wohl klar, wohin die Reise gehen wird. Auch die errechnete Entfernung wird spielend eingehalten. Die Graphik zeigt Ihnen recht anschaulich das Gesetz der großen Zahlen bei der Arbeit. Das Gesetz der großen Zahlen gibt es in verschiedenen Formulierungen. Sie werden das schwache Gesetz kennenlernen, das auf der Tschebyscheffschen Ungleichung beruht. Mit dieser Ungleichung ist f¨ ur jede Zufallsvariable ein Intervall Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="199"?> 200 Kapitel 5. Induktive Statistik Anzahl der Spiele rel. Gewinnhäufigkeiten 0 200 400 600 800 1000 0.0 0.2 0.4 0.6 0.8 1.0 Das Ziegenproblem: 1000 Spiele Wechseln: 66.9% Nicht Wechseln: 33.1% 669 331 Nicht wechse Wechseln Abbildung 5.2: Entwicklung der relativen Gewinnh¨aufigkeiten nach 1000 Ziegenspielen f¨ ur den Erwartungswert formuliert, dessen Gr¨oße bzw. die Wahrscheinlichkeit, dass der Erwartungswert sich innerhalb dieses auch realisiert, abh¨angig von der Varianz ist — an dieser Stele greift dann das √ n − Gesetz. Wenn Sie sukzessive das Ziegenspiel spielen und Sie mit der Zufallsvariablen X i den Erfolg notieren, dann haben Sie es mit einer Folge von Zufallsvariablen zu tun. Das Gesetz macht nun eine Aussage ¨ uber solche Folgen: Definition 5.2: Tschebyscheff Gesetz der großen Zahlen (schwaches Gesetz) lim n →∞ P ( | ¯ X n − μ | < ε ) = 1 f¨ ur ε > 0 Mit zunehmendem Stichprobenumfang konvergiert das arithmetische Mittel gegen den Erwartungswert μ. Dabei handelt es sich um eine Konergenz in Wahrscheinlichkeiten, daher auch die Bezeichnung schwache Konvergenz. Genaugenommen steht in dem Ausdruck, dass die Wahrscheinlichkeit, — P () — Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="200"?> 5.1. Grenzwerts¨atze - Empirie vs. Theorie 201 dass der betragsm¨aßige Abstand zwischen Mittelwert und μ — | ¯ X n − μ | — kleiner ist als ein beliebig kleiner positiver Wert (der nat¨ urlich ganz, ganz klein sein darf), — < ε — dass diese Wahrscheinlichkeit mit wachsendem n gegen 1 strebt. Das schwach meint den Umstand, dass eben nicht mit Wahrscheinlichkeit 1 jede Folge auch ihr Ziel trifft. Die Wahrscheinlichkeit 1 ist ein theoretisches Ziel im Unendlichen. F¨ ur praktische Zwecke reicht aber diese Formulierung aus. Der Vollst¨andigkeit halber sei folgendes erw¨ahnt: 1. Das Gesetz kann auch als Spezialfall f¨ ur die Entwicklung von relativen H¨aufigkeiten formuliert werden. Es heißt dann Gesetz der großen Zahlen von Bernoulli. 2. Es gibt auch ein starkes Gesetz der großen Zahlen (von Borel und Cantelli). Dieses ist so formuliert, dass es sich nicht um eine stochastische Konvergenz handelt. Die Voraussetzungen, wann dieses gilt, sind etwas strenger. Im Normalfall sind diese aber erf¨ ullt. Exkurs zur Motivation: Roulette Und ist das Gesetz alltagstauglich? Stellen Sie sich vor, Sie sitzen im Kasino am Rouletttisch, und Sie beobachten, dass seit vier Runden kein Rot mehr erschienen ist. Sie erinnern sich an das Gesetz der großen Zahlen zur¨ uck, setzen alles auf Rot, und Sie verlieren. Nun schimpfen Sie auf die Statistik und sehen die Unbrauchbarkeit der Disziplin dramatisch best¨atigt. Ist dem so? Das Gesetz der großen Zahlen sagt etwas ¨ uber die Entwicklung von relativen Maßzahlen aus. Es verr¨at Ihnen nichts ¨ uber die n¨achste folgende Realisation. Beim 5. Lauf der Roulettekugel gilt wieder 50: 50 (lassen Sie die Null einmal weg). Die Kugel hat kein Ged¨achtnis, sie weiß nicht, dass Rot langsam dran w¨are. W¨ahrend die Varianz der relativen H¨aufigkeit immer kleiner wird, steigt die der absoluten H¨aufigkeiten mit zunehmender Wiederholung. Beim konkreten Spielen interessieren aber die absoluten H¨aufigkeiten. Im Kapitel zur geometrischen Verteilung finden Sie weitere Hinweise zu dieser Ged¨achtnislosigkeit. Lesen Sie doch auch einmal hier nach [Faller09]. Sowohl die Graphiken als auch die Formeln haben gezeigt, dass die Gr¨oße des Stichprobenumfanges entscheidend daf¨ ur ist, wie weit die Konvergenz bereits Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="201"?> 202 Kapitel 5. Induktive Statistik fortgeschritten ist. W¨ urfeln Sie 20-mal, haben Sie eine ganz gute Vorstellung, w¨ urfeln Sie 100-mal, dann k¨onnen Sie sich ein deutliches St¨ uck weit sicherer sein, ob der W¨ urfel fair ist oder nicht. Die Varianz des Sch¨atzers f¨ ur das wahre p sinkt mit zunehmendem Stichprobenumfang. Stichproben kosten allerdings im wahren Leben viel Geld. Deswegen wird man bei der Mark-und Meinungsforschung immer einen Kompromiss eingehen m¨ ussen, zwischen Genauigkeit der Aussage und den Kosten zur Verbesserung dieser, also grunds¨atzlich der Erh¨ohung des Stichprobenumfanges n. Die folgende Graphik zeigt einmal f¨ ur den ARD-Deutschlandtrend, wie diese Fehlergr¨oßen aussehen. M¨ochte man die Fehler verkleinern, m¨ ussen mehr Menschen per CATI (= Computer Assisted Telephone Interview) befragt werden. Abbildung 5.3: Hinweise zur Untersuchungsanlage beim ARD Deutschlandtrend 5.1.2 Der Hauptsatz der mathematischen Statistik Dieses Unterkapitel k¨onnte sehr technisch werden, soll es aber nicht. Sie sollen lieber mitnehmen, was dieser wichtige Satz inhaltlich bedeutet. Er ist wieder einmal eine wichtige St¨ utze f¨ ur die Statistik. Der Satz gibt sozusagen der Idee der Modellierung erst den hoheitlichen Segen. Zun¨achst muss festgehalten werden, dass in der Verteilungsfunktion alle Informationen bez¨ uglich einer Verteilung eines Modells enthalten sind. Mehr kann man ¨ uber eine Verteilung nicht wissen, nicht herausfinden. Alles l¨asst sich daraus ableiten. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="202"?> 5.1. Grenzwerts¨atze - Empirie vs. Theorie 203 Dieser Hauptsatz sagt, dass mit zunehmendem Stichprobenumfang die empirische Verteilungsfunktion gegen die zugrundeliegende Verteilungsfunktion der Grundgesamtheit strebt, und das mit Wahrscheinlichkeit Eins. Die exakte Formulierung ist etwas komplizierter, f¨ ur unsere Zwecke reicht das aber. Dieser Satz ist sehr wichtig, was ja auch schon durch den Namen zum Ausdruck gebracht wird, denn er bescheinigt der empirischen Verteilungsfunktion die hervorragende Eigenschaft, die Grundgesamtheit, welche vollst¨andig durch die Verteilungsfunktion beschrieben ist, mit gr¨oßer werdendem n immer besser abzubilden. 5.1.3 Der zentrale Grenzwertsatz Sie haben diesen bereits im Kapitel zur Normalverteilung kennengelernt. Dort hieß es, Summen streben gegen die Normalverteilung. Eine etwas exaktere Formulierung ist die folgende. Definition 5.3: Zentraler Grenzwertsatz Die Summe identisch und unabh¨angig verteilter Zufallsvariablen strebt gegen die Normalverteilung und zwar unabh¨angig von der zugrundeliegenden und tats¨achlichen Verteilung der Grundgesamtheit. Dies ist ein sehr starkes Gesetz. Die Voraussetzungen sind zudem fast immer erf¨ ullt. Es beschert der Normalverteilung seine prominente und allgegenw¨artige Bedeutung. Dazu soll ein Beispiel angeschaut werden. Nehmen Sie noch einmal ein W¨ urfelexperiment. Und Sie sind interessiert an dem Ereignis 6 oder nicht. Die Wahrscheinlichkeit betr¨agt bekanntermaßen p = 1 / 6 . Jeden W¨ urfelwurf k¨onnen Sie als Bernoulliverteilte ansehen, die Summe ist dann Binomialverteilt, das sind nat¨ urlich gerade die Anzahl der Erfolge. Nun m¨ usste ja gelten, dass die Summe, also allgemein die Binomialverteilung, gegen die Normalverteilung strebt. Das tut sie auch, wie sie der folgenden Abbildung entnehmen k¨onnen. Es werden die Wahrscheinlichkeitsfunktionen zu n = 4 , 10 , 20 , 50 dargestellt. Durch die Wahl von p = 1 / 6 ergibt sich nat¨ urlich eine sehr schiefe Verteilung (links oben). Ein Erfolg hat eine geringe Wahrscheinlichkeit, daher f¨allt die Funktion stark ab. Aber beobachten Sie, was passiert, wenn man den Stichprobenumfang, hier das n, die Zahl der W¨ urfelw¨ urfe (moderat) erh¨oht. Sehr schnell stellt sich Symmetrie ein. In der letzten Graphik, rechts unten, muss man wohl sagen, dass man hier die Dichte der Normalverteilung sehr gut dr¨ uber legen k¨onnte. Sie haben den zentralen Grenzwertsatz soeben bei der Arbeit beobachtet. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="203"?> 204 Kapitel 5. Induktive Statistik Abbildung 5.4: Die Binomialverteilung strebt gegen die Normalverteilung Kurz gefasst! Grenzwerts¨atze f¨ ur Folgen von Zufallsvariablen verbinden die Empirie mit der Theorie. Das Gesetz der großen Zahlen zeigt, dass Mittelwerte gegen Erwartungswerte und relative H¨aufigkeiten gegen Wahrscheinlichkeiten streben. Der Hauptsatz besagt, dass die empirische Verteilungsfunktion gegen die Verteilungsfunktion strebt. Der zentrale Grenzwertsatz manifestiert, dass Summen von Zufallsvariablen gegen die Normalverteilung streben. Die S¨atze erlauben Simulationsexperimente bzw. allgemein induktive Statistik. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="204"?> 5.1. Grenzwerts¨atze - Empirie vs. Theorie 205 5.1.4 Aufgaben 1. F¨ uhren Sie das Argument mit den absoluten H¨aufigkeiten aus der Exkurs-Box auf der Seite 201 zu Ende. Wie oft erwarten Sie denn Rot nach 100 Kugeln? Und wie weit erwarten Sie, von diesem absoluten Ziel entfernt zu sein? F¨ uhren Sie das Argument einmal fort, wenn Sie bedenken, dass die Kugel bereits Tausende von Spielen hinter sich hat. 2. Lesen Sie einmal den Selbstversuch einer Journalistin im Kasino nach (vgl. [Faller09]). Warum erlauben Kasinos nur das Setzen bis zu einem bestimmten Betrag? Interpretieren Sie in diesem Zusammenhang auch einmal die Aussage picking up pennies in front of a steamroller. 3. Schauen Sie sich die Anzeige in der Abbildung 5.5 an, die einem Zeitungsredakteur zugeschickt wurde. (a) Was halten Sie davon? (b) Gehen Sie insbesondere auf die Bemerkung zum Gesetz der großen Zahlen ein. (c) Offensichtlich war die Prognose ja nicht so gut. K¨onnen Sie sich einen Weg vorstellen, wie dieses Angebot (f¨ ur den Versender) denn erfolgreich und lukrativ sein k¨onnte? Bedenken Sie dabei die M¨oglichkeit, durch das Medium Internet quasi umsonst massenhaft E-Mails zu verschicken. 4. Nehmen Sie sich ein Telefonbuch, schlagen Sie es an einer beliebigen Stelle auf, und notieren Sie sich 50 Telefonnumern. (a) Nehmen Sie jeweils die erste Ziffer von allen Telefonnumern (Sie haben also 50 einstellige Ziffern vor sich), und stellen Sie diese in einem Stabdiagramm dar. (b) Addieren Sie nun von jeder Telefonnummer die einzelnen Ziffern auf, so dass Sie 50 neue Zahlen generiert haben. Stellen Sie diese als Stabdiagramm bzw. Histogramm dar. (c) Beschreiben Sie, was Sie beobachten, und warum Sie dies beobachten. (d) Welche Gesetzm¨aßigkeit ist daf¨ ur verantwortlich? 5. Die MonteCarloMethode, also der Modellierung eines Zufallsexperimentes so, dass der sich einpendelnde Mittelwert gegen die interessierende Gr¨oße strebt, reicht zur¨ uck bis in Jahr 1777, als GeorgesLouis Leclerc Buffon in seinem Essai ein Experiment beschreibt, das als Buffon’s Needle Problem bekannt werden sollte. Auf einem ausgebreiteten Tischtuch sind parallele Streifen im Abstand d eingezeichnet. Es wird eine Nadel der L¨ange L ≤ d auf dieses Tischtuch geworfen. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="205"?> 206 Kapitel 5. Induktive Statistik „Und nun die Lotto-Prognose für Samstag, den 31. Oktober 1998.“ …! Zugegeben, die Vorstellung, dass wir die Lottozahlen mit annähernder Genauigkeit prognostizieren können, ist ungewöhnlich aber wahr. Überzeugen Sie sich selbst und testen Sie unser Angebot. Sie werden begeistert sein. Wie genau ist unsere Lotto-Prognose? Wir können keinen Sechser vorausberechnen, auch keinen Fünfer. Allerdings ist unsere Prognose immer verdammt nah dran. ... So spielen Ihre Leser nicht 6 aus 49, sondern etwa 6 aus 24, wenn sie einige Varianten in der Nähe unserer Kombinationen tippen…. Wie funktioniert unsere Lottoprognose? Unsere Prognose basiert nicht auf der Wahrscheinlichkeitstheorie, denn unser Expertenteam hat nachgewiesen, dass solche Prognosen nicht funktionieren können, weil die Lottotrommel kein idealer Zufallsgenerator ist und 49 Kugeln wenig mit den Gesetzen der großen Zahlen zu tun haben. Unsere Prognose basiert auf der Annahme, dass diese Trommel mit 49 Kugeln ein kompliziertes physikalisches Problem ist. Unsere Software simuliert dieses System, lernt aus jeder Ziehung, passt sich an und berechnet Zahlenfelder, die bevorzugt für die nächste Ziehung in Betracht kommen.… 4 12 27 32 35 42 D i e t a t s ä c h l i c h e n G e w i n n z a h l e n : 2 , 5 , 6 , 2 4 , 2 6 , 4 4 D i e t a t s ä c h l i c h e n G e w i n n z a h l e n : 2 , 5 , 6 , 2 4 , 2 6 , 4 4 Abbildung 5.5: Eine Lottoprognose Sie sind daran interessiert, ob die Nadel einen der Streifen zerteilt - Sie k¨onnten sich das Tischtuch als unendlich groß vorstellen, was aber nur garantieren soll, dass jeder Nadelwurf die Chance hat, einen Streifen zu treffen. Was ist die Wahrscheinlichkeit, dass die Nadel einen der Streifen trifft? Ja, das ist nicht so einfach. Aber probieren Sie doch mal die folgende Formel aus beim Nadelwerfen — was wird hier aussimuliert, und was sagen Sie zur Konvergenzgeschwindigkeit? 2 relative Trefferh¨aufigkeit → ? 6. K¨onnen Sie eine Monte-Carlo-Simulation modellieren, mit der Sie die Kreiszahl π erzeugen k¨onnen? Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="206"?> 5.2. Testtheorie 207 5.2 Testtheorie In diesem Kapitel lernen Sie die schließende Statistik kennen. den statistischen Test kennen. wie Sie grunds¨atzlich Vermutungen als statische Hypothesen formulieren k¨onnen. Schließende Statistik oder auch induktive Statistik ist in gewisser Weise das i-T¨ upfelchen der Statistik. Es ist der Grund, warum es so etwas wie Statistik ¨ uberhaupt gibt. Man m¨ochte aufgrund der Eigenschaften einer Stichprobe, aus Daten, die erhoben, erzeugt oder beobachtet wurden, Allaussagen, das heißt allgemeing¨ ultige Aussagen generieren. Das ist ein starker Anspruch. Sie werden im Folgenden allgemein das Konzept statistischer Test kennenlernen. Im Anschluss schauen Sie sich zwei konkrete statistische Tests an. Da es nat¨ urlich auch hier viele solcher Tests gibt, werden noch weitere Konzepte dazu erw¨ahnt. 5.2.1 Der statistische Test Wie testet man eine Vermutung, die sich vielleicht aus der Betrachtung eines Datensatzes oder aus inhaltlichen ¨ Uberlegungen ergeben hat? Darum geht es schließlich im Rahmen der Statistik: Durch induktive Argumentation versuchen, belastbare Erkenntnisse zu generieren. Daf¨ ur ben¨otigen Sie (im jeweiligen Kontext) sinnvolle und zielf¨ uhrende Daten, also solche, die im Rahmen der jeweiligen Problemstellung auch weiterhelfen. Diese benutzen Sie, um auf eine Allgemeing¨ ultigkeit zu schließen, der sogenannte induktive Schluss. Hier hilft das Konzept statistischer Test weiter: Definition 5.4: Der statistische Test Ein statistischer Test ist eine Entscheidungsregel, mit der auf Grundlage einer Stichprobe ¨ uber eine Hypothese H 0 gegen¨ uber einer Alternativhypothese H 1 entschieden wird. vulgo: Der statistische Test sagt mir, ob ich mich f¨ ur oder gegen meine Hypothese entscheiden soll. Diese Entscheidung wird allein aufgrund der Datenlage getroffen. Der Test trifft die Entscheidung. der statistische Teste ist die objektive Entscheidungsregel. In der Hypothese-/ Gegenhypothese-Konstellation formulieren Sie Ihre Vorstellung einer m¨oglichen allgemeing¨ ultigen Implikation auf Basis der erhobenen/ beobachteten Daten. Mit Hilfe der WS-Rechnung wird die Entscheidung untermauert bzw. letztendlich auch getroffen. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="207"?> 208 Kapitel 5. Induktive Statistik Sie sollen dazu wieder ein Beispiel aus der Produktionstheorie, genaugenommen aus dem Total Quality Management betrachten. Eine Firma produziert elektrische Widerst¨ande mit 100 Ohm. Produktionsbedingt passiert es, dass nach einer gewissen Produktionszeit die Widerst¨ande nicht mehr auf 100 Ohm eingestellt sind. Um hier zu viel Ausschuss zu vermeiden, wird die Produktion regelm¨aßig gepr¨ uft. Ist die gemessene Abweichung (nach oben oder nach unten) vom Ziel 100 Ohm zu groß, dann muss eingegriffen werden. Ein zu fr¨ uhes Eingreifen kostet Produktionszeit. Aus langj¨ahriger Erfahrung weiß man, dass hier eine Normalverteilung zur Modellierung der Ohm-Daten sehr geeignet ist. Tabelle 5.1: Ein Beispiel zum statistischen Test Sie sollen dieses Problem als statistischen Test formulieren. Die Hypothese bzw. Alternativhypothese lauten daher: H 0 : μ = μ 0 = 100 vs. H 1 : μ = 100 Es wird angenommen, dass die Meßwerte aus einer Normalverteilung stammen, Sie m¨ ussen also auf 100 testen, das ist der Wert, der Sie interessiert. Wie Sie sehen, konnten wir die interessierende Frage mit Hilfe der beiden Hypothesen formulieren. Wichtig ist nat¨ urlich die Verteilungsannahme der Daten, die ggf. zu ¨ uberpr¨ ufen ist. Hier verzichten Sie darauf, Sie nehmen an, die Normalverteilungsannahme ist gerechtfertigt. Es gibt ganz grunds¨atzlich zwei Klassen von statistischen Tests: solche, die auf einer bestimmten Verteilung der Daten aufbauen, der sogenannten Verteilungsannahme, parametrische Tests; und solche, die keine bestimmte Verteilung der Daten voraussetzen, nicht parametrische Tests. Im Rahmen dieser Einf¨ uhrung lernen Sie einen parametrischen und einen nichtparametrischen Test kennen. Folgende Meßwerte in Ohm haben sich aus den letzten zehn produzierten Widerst¨anden ergeben: 106.8 101.1 99.4 101.2 103.4 100.8 105.4 103.3 100.0 98.0 Tabelle 5.2: Beispieldaten zum statistischen Test - Ohm-Werte Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="208"?> 5.2. Testtheorie 209 Spricht das f¨ ur oder gegen die Hypothese? Im Rahmen der eben formulierten Hypothese ist die Stelle 100 Ohm wichtig. Entsprechend ist zu ¨ uberpr¨ ufen, ob die 100 als Zentrum der Beobachtungen in Frage kommt oder eben nicht. muss die Hypothese abgelehnt werden oder nicht? F¨ ur die Produktion heißt das: Muss eingegriffen werden oder nicht? Sollten Sie der Meinung sein, dass die Daten durchaus aus einer Normalverteilung mit Zentrum 100 kommen, dann spricht das f¨ ur Ihre Hypothese. Sind Sie aber der Meinung, dass das Zentrum (Mittelwert) der Daten wohl eher nicht 100 ist, dann spricht das gegen Ihre Hypothese. Die Frage ist: Was heißt die Daten haben als Zentrum 100? Sie brauchen eine objektive Entscheidungsregel in Abh¨angigkeit von den Daten. Sprechen die Daten f¨ ur die 100 Ohm als wahren Parameter? Oder anders formuliert: Hat sich der Produktionsprozess verschoben, weil eine Schraube locker geworden ist oder ¨ Ol fehlt, und der wahre Parameter ist gar nicht mehr 100 Ohm, und es muss dringend in den Produktionsprozess eingegriffen werden? Ein wenig Datenanalyse kann an dieser Stelle nicht schaden. Schauen Sie sich die Daten einmal an - in der Graphik sehen Sie die zehn Punkte, den Boxplot, den Mittelwert und das 1. Schwankungsintervall der Daten (einmal die Standardabweichung nach links vom Mittelwert und einmal nach rechts). Die Stelle 100 ist mit einem Pfeil markiert: Abbildung 5.6: Boxplot der Ohm-Daten (Test Beispiel) Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="209"?> 210 Kapitel 5. Induktive Statistik Und? Schwer zu sagen. Die Daten streuen nicht wirklich zuf¨allig um 100, sind aber auch nicht zu weit entfernt. Die meisten scheinen jedoch gr¨oßer zu sein. Was ist zu tun? Dies ist eine Entscheidung unter Unsicherheit: Entweder H 0 annehmen oder H 0 ablehnen. Diese Entscheidung soll nicht nach dem Bauch sondern ¨ uber eine allgemein g¨ ultige Entscheidungsregel getroffen werden. Diese Regel muss ausschließlich auf Basis der Daten und der Verteilungsannahme getroffen werden. Die Entscheidungsregel muss sich dann auch immer gleich verhalten. Es darf keine Beliebigkeit enthalten sein. Dabei kann offensichtlich nur folgendes passieren: E = Entscheidung, R = Realit¨at , letztere kennen Sie nicht: E ↓ / R → H 0 H 1 H 0 richtig Fehler 2. Art H 1 Fehler 1. Art richtig Tabelle 5.3: Die Entscheidungsmatrix beim statistischen Test Mit der Wahl der Zeile formulieren Sie Ihre Entscheidung, diese kann sich ex post als richtig oder als falsch herausstellen. Ob Ihre Entscheidung richtig oder falsch war, erfahren Sie immer erst nach der Entscheidung. Das k¨onnen Sekunden oder Jahre sein, aber es ist immer zeitlich danach angesiedelt. Der statistische Test sagt Ihnen nicht, ob Ihre Entscheidung richtig oder falsch ist. Er kann Ihnen nicht die Frage beantworten, ob H 0 mit Sicherheit anzunehmen oder abzulehnen ist. Er hilft Ihnen nur , Ihre Entscheidung zu quantifizieren. Folgende Wahrscheinlichkeiten ergeben sich: E ↓ / R → H 0 H 1 H 0 (1 − α ) β H 1 α (1 − β ) Tabelle 5.4: Die Entscheidungsmatrix mit Fehlerwahrscheinlichkeiten Da α und β gegenl¨aufig (sprich ”alpha und beta“) sind, k¨onnen nicht beide Fehlerwahrscheinlichkeiten gleichzeitig minimiert werden. Gegenl¨aufig heißt, wenn ich α, also die Wahrscheinlichkeit f¨ ur den Fehler 1. Art, kleiner setze, dann wird β steigen, da die Entscheidungsregel seltener die Hypothese ablehnt, man wird sich ¨ofter f¨ ur H 0 entscheiden. Im Extremfall k¨onnten Sie α = 0 setzen, das heißt die Hypothese wird niemals abgelehnt, egal wie sehr die Daten gegen H 0 sprechen. Dies wird aber zwangsl¨aufig dazu f¨ uhren, dass diese Entscheidung falsch ist. Offensichtlich wird β einen gr¨oßeren Wert annehmen m¨ ussen. Sie m¨ ussen sich entscheiden, welchen Fehler Sie in Kauf nehmen. Das ist sehr stark kontextabh¨angig. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="210"?> 5.2. Testtheorie 211 Es wird so ein, dass Sie α festlegen k¨onnen, w¨ahrend β in der Regel unbekannt ist. Sie kennen nur diesen Zusammenhang. Dazu gleich mehr. Noch mal zusammengefasst: Versucht man, α m¨oglichst klein zu halten, also die falsche Entscheidung zu reduzieren gegen H 0 , obwohl H 0 richtig ist (was Sie nicht wissen! ! ), dann muss die Entscheidungsregel so beschaffen sein, dass Sie sich ¨ofter f¨ ur H 0 entscheiden. Dann erh¨oht sich (logischer und konsequenterweise) die Fehlerwahrscheinlichkeit β, denn Sie begehen h¨aufiger den Fehler 2. Art. Die umgekehrte Argumentation l¨auft genauso. Tabelle 5.5: Die beiden Fehlerwahrscheinlichkeiten α und β In der Praxis ist es so, dass α vor der Durchf¨ uhrung festgelegt wird. Oft verwendet man α = 0 . 05 . 1. Wenn unsere Vermutung stimmt, dann wird sie nur mit einer Wahrscheinlichkeit von maximal 5 % abgelehnt. Unsere Entscheidungsregel trifft nur in 5 % dieser F¨alle eine falsche Entscheidung. Dies ist auch die sogenannte Irrtumswahrscheinlichkeit. → Wie oft irrt der Test, wenn H 0 ex-post stimmt (das wissen Sie erst hinterher! ) 2. Das Signifikanzniveau betr¨agt dann 95 %. Das bedeutet, dass in 95 von 100 F¨allen, wenn unsere Vermutung denn stimmt (was Sie nicht wissen), sich der Test richtig entscheidet. Wenn H 0 sich als richtig erweist, macht der Test (= die Entscheidungsregel) in 95 % der F¨alle eine zutreffende Entscheidung Tabelle 5.6: Die Bedeutung des Fehlers 1. Art f¨ ur α = 0 . 05 Wenn es wichtig ist, dass Sie sich in den F¨allen, wenn die Vermutung stimmt, zumindest dann richtig entscheiden, dann muss α m¨oglichst klein gew¨ahlt werden. Was heißt das noch mal f¨ ur β? ! Wir haben es hier mit bedingten Wahrscheinlichkeiten zu tun, und die machen leider wieder das Verst¨andnis etwas schwieriger - denn in diesem Fall wissen Sie (noch) nicht, ob eine Bedingung eingetreten ist oder nicht: Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="211"?> 212 Kapitel 5. Induktive Statistik Definition 5.5: Fehler 1. Art als bedingte Wahrscheinlichkeit α = P ( Gegen H 0 | H 0 stimmt ) 1 − α = P ( F¨ ur H 0 | H 0 stimmt ) Nat¨ urlich k¨onnen Sie α = 0 . 01 und damit (1 − α ) = 0 . 99 setzen. ABER: Das heißt, Sie gestalten Ihre Regel weniger streng, da Sie sich in der jeweiligen Datensituation immer h¨aufiger f¨ ur H 0 entscheiden. ABER: Nur wenn H 0 auch wirklich stimmt, erreichen Sie dann auch die 99 %. ABER: Sie wissen nicht, wie wahrscheinlich es ist, dass Ihre Hypothese stimmt. Sie kennen P ( H 0 ) selbstverst¨andlich nicht. Hier m¨ ussen Sie sich entscheiden, welcher Fehler in der jeweiligen Situation schwer wiegender ist. Dazu ein Beispiel: Feueralarm E ↓ / R → H 0 : Alarm echt H 1 : blinder Alarm H 0 stimmt: Ausr¨ ucken (1 − α ) β H 1 stimmt: Nicht ausr¨ ucken α (1 − β ) Tabelle 5.7: Beispiel Entscheidungsmatrix: Feueralarm Hier ist es sicherlich so, dass die Irrtumswahrscheinlichkeit α ganz klar zu minimieren ist, da die Konsequenzen des Fehlers 1. Art weit gr¨oßer sind als die des Fehlers 2. Art. Zu einem Fehlalarm auszur¨ ucken kostet nur Geld, einen echten Alarm zu ignorieren, kann offensichtlich wesentlich gravierendere Konsequenzen nach sich ziehen. Das Beispiel zeigt auch noch einmal, was Signifikanz von zum Beispiel 99 % bedeutet: Wenn es wirklich brennt (H 0 stimmt), dann f¨ uhrt unsere Entscheidungsregel dazu, dass die Feuerwehr in 99 von 100 solcher F¨alle auch tats¨achlich ausr¨ uckt. Nur in 1 % der echten Alarme r¨ uckt sie nicht aus. Wie die Verteilung echter Alarm vs. blinder Alarm aussieht, wissen Sie zun¨achst aber nicht. Das macht die Sache schwieriger. Sie haben das Konzept statistischer Test kennegelernt und verstanden. Der statistische Test ist eine objektive Entscheidungsregel auf Basis der Daten. Im Prinzip l¨auft jeder statistische Test strukturgleich ab. Sie werden jetzt zwei Tests im Rahmen dieser Einf¨ uhrung kennenlernen. Sie sollten keine Probleme haben, die Vorgehensweise bei anderen Tests nachvollziehen zu k¨onnen. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="212"?> 5.2. Testtheorie 213 Kurz gefasst! Der statistische Test ist eine objektive Entscheidungsregel, die sich ausschließlich an der Datenlage orientiert. Der Fehler 1. Art α wird festgelegt. Das Signifikanzniveau des Tests liegt dann bei 1 − α und sagt in wie viel % der Entscheidungen, wenn H 0 stimmt, entscheidet der Test richtig. In einer Hypothesenkonstellation H 0 vs. H 1 wird die Vermutung formuliert. In der Regel versuchen Sie, Ihre Vermutung in die Gegenhypothese zu platzieren und die Hypothese abzulehnen. Denn dann wissen Sie, wie groß der Fehler ist, n¨amlich α. 5.2.2 Der t-test In diesem Kapitel lernen Sie den t-Test zur ¨ Uberpr¨ ufung von Hypothesen bez¨ uglich der Lage kennen. dass Sie den Test in verschiedenen Situationen anwenden k¨onnen. Sie m¨ochten ¨ uberpr¨ ufen, ob Ihre Stichprobe auf der Seite 208 aus einer Normalverteilung mit μ 0 = 100 stammt. Der folgende Ablaufplan f¨ ur den zweiseitigen t-Test hilft dabei weiter. Zweiseitig bedeutet: Es geht grunds¨atzlich darum, ob die Stichprobe (Mittelwert) dicht am Ziel 100 liegt. Dabei ist es egal, ob die Werte eher kleiner oder gr¨oßer als die 100 sind. Allein die grunds¨atzliche N¨ahe bzw. Entfernung ist entscheidend. Diese N¨ahe wird ¨ uber die Quantile bestimmt. Der Test heißt t-Test, da die Pr¨ ufgr¨oße, welche eine Zufallsvariable ist, im Falle der G¨ ultigkeit der Hypothese einer bestimmten Verteilung folgt. Die Pr¨ ufgr¨oße ist dann t-verteilt. Diese Verteilung haben Sie bereits kurz auf der Seite186 kennengelernt. Die Dichte der t-Verteilung sieht der der Normalverteilung sehr ¨ahnlich. Mit immer gr¨oßer werdendem Parameter (hier steigendem Stichprobenumfang) strebt die t-Verteilung gegen die Standardnormalverteilung. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="213"?> 214 Kapitel 5. Induktive Statistik 1. Die Hypothesen: H 0 : μ = μ 0 = 100 vs. H 1 : μ = μ 0 = 100 2. Sie brauchen eine Pr¨ ufgr¨oße: P G t = √ n · (¯ x − μ 0 ) s → Im Beispiel: P G t = √ 10 · (101 . 94 − 100) 2 . 75 = 2 . 23 3. Die Irrtumswahrscheinlichkeit α festlegen: α = 0 . 05 4. Die Entscheidungsregel, lehne die Hypothese genau dann ab, wenn gilt: | P G t | > t ( n −1); 1− α 2 mit t ( n −1); 1− α 2 als dem (1− α 2 )·100 %-Quantil der t-Verteilung mit Parameter (n-1). Tabelle 5.8: Ablaufplan zweiseitiger t-Test Wenn die Hypothese stimmt, dann ist P G t gerade t-verteilt. Darauf baut die Logik dieses aber auch jedes anderen Tests auf! Der konkrete Wert der Pr¨ ufgr¨oße, hier 2.23, der sich aufgrund der Daten ergibt, wird mit der passenden t-Verteilung in Verbindung gebracht. Ist diese Realisation, 2.23, eine typische Realisation der t-Verteilung? Wenn ja, dann k¨onnen Sie H 0 nicht ablehnen. Liegt die 2.23 aber am Rand der Dichtefunktion, dann argumentieren wir, dass die 2.23 eher nicht aus der spezifizierten t-Verteilung stammt und damit wird die Hypothese abgelehnt. Dieser Vergleich wird ¨ uber die Quantile gemacht. Liegt der Wert der Pr¨ ufgr¨oße im 95 % Bereich um das Zentrum Null oder nicht! Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="214"?> 5.2. Testtheorie 215 → Im Beispiel: Gesucht ist das 97.5 %-Quantil der t-Verteilung mit Parameter (10 − 1) = 9 (sog. Freiheitsgrade). → Daf¨ ur gibt es eine Tabelle (vgl. S.186): t 9; 0 . 975 = 2 . 26 5. Entscheide dich: | P G t | = 2 . 23 ≤ t 9; 0 , 975 = 2 . 26 → H 0 kann zum Niveau 95 % nicht abgelehnt werden. Tabelle 5.9: Ablaufplan zweiseitiger t-Test, fortgesetzt Den Fehler 2. Art β k¨onnen Sie nicht ausrechnen, da unter H 1 keine bestimmte Normalverteilung angenommen werden kann, nat¨ urlich wie soll die auch Aussehen, wenn der Mittelwert lediglich als ungleich 100 angegeben ist. Schauen Sie sich einmal graphisch an, wie die Entscheidung zustande gekommen ist. Der zweiseitige Test soll zum Niveau (1 − α ) = 0 . 95 durchgef¨ uhrt werden. Die folgende Graphik 5.7 zeigt die Position der Pr¨ ufgr¨oße, welche, falls H 0 stimmt, t-verteilt ist, gerade in dieser t-Verteilung an. Abbildung 5.7: Entscheidung zweiseitiger t-Test am Beispiel Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="215"?> 216 Kapitel 5. Induktive Statistik Zus¨atzlich sind jene zwei Quantile eingezeichnet, so dass sich zwischen ihnen gerade 95 % der Werte der t-Verteilung realisieren. Wie Sie sehen, kann die Hypothese zu diesem Niveau so gerade nicht abgelehnt werden, sie liegt zwischen den Quantilen, ist aber sehr dicht am rechten Rand. Zur Durchf¨ uhrung des zweiseitigen Testes wird das 97,5 % Quantil der t-Verteilung mit Parameter 9 gesucht (Anzahl Beobachtungen minus 1) Die entsprechende Tabelle finden Sie auf der Seite 231. Die Zeilen unterscheiden sich durch unterschiedliche Werte f¨ ur den Parameter, die sogenannten Freiheitsgrade. Die Spalten bieten 6 verschiedene Testniveaus: k t k ; 0 . 9 t k ; 0 . 925 t k; 0 . 95 t k ; 0 . 975 t k ; 0 . 99 t k ; 0 . 995 · · · · · · · · · · · · · · · · · · · · · 8 1.40 1.59 1.86 2.31 2.90 3.36 9 1.38 1.57 1.83 2.26 2.82 3.25 10 1.37 1.56 1.81 2.23 2.76 3.17 · · · · · · · · · · · · · · · · · · · · · Tabelle 5.10: Ausschnitt aus der Tabelle der Quantile der t-Verteilung Aufgrund der Symmetrie gilt nat¨ urlich: t 9; 0 . 975 = − t 9; 0 . 025 Es gibt noch zwei weitere Testszenarien: Es k¨onnte zum Beispiel von Bedeutung sein, ob der Zielwert 100 Ohm in der Produktion signifikant unter- oder ¨ uberschritten wird. Es w¨are m¨oglich, dass ein unterschreiten schlimmer ist, weil dann die Produktion komplett gestoppt werden m¨ usste und die Produkte nicht auf den Markt d¨ urfen. Ein ¨ uberschreiten k¨onnte vielleicht bedeuten, dass die Produkte immerhin weiter benutzbar w¨aren. Der sogenannte einseitige t-Test ist dann das geeignete Mittel. Hier wird je nach Hypothesenformulierung gepr¨ uft, ob die Werte eher gr¨oßer oder kleiner sind als das Ziel, welches in H 0 formuliert ist. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="216"?> 5.2. Testtheorie 217 1. Die Hypothesen: H 0 : μ = μ 0 = 100 vs. H 1 : μ > μ 0 = 100 2. Sie brauchen eine Pr¨ ufgr¨oße: P G t = √ n · (¯ x − μ 0 ) s → Im Beispiel: P G t = √ 10 · (101 . 94 − 100) 2 , 75 = 2 , 23 3. Die Irrtumswahrscheinlichkeit α festlegen: α = 0 . 05 4. Die Entscheidungsregel, lehne die Hypothese genau dann ab, wenn gilt: P G t > t ( n −1); 1− α → Im Beispiel: Gesucht ist das 95 %-Quantil der t-Verteilung mit (10 − 1) = 9 Freiheitsgraden. Daf¨ ur gibt es eine Tabelle (vgl. S.186): t 9; 0 , 95 = 1 . 833 5. Entscheide dich: P G t = 2 . 23 > t 9; 0 . 95 = 1 . 833 → H 0 muss zum Niveau 95 % abgelehnt werden. Tabelle 5.11: Ablaufplan einseitiger t-Test, Situation H 1 > μ 0 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="217"?> 218 Kapitel 5. Induktive Statistik Abbildung 5.8: Entscheidung einseitiger t-Test am Beispiel Beim einseitigen Test muss die Hypothese abgelehnt werden. α muss nicht an beide R¨ander verteilt werden wie beim zweiseitigen Test. Abbildung 5.8 zeigt die Situation anhand der Dichte der t-Verteilung. Dadurch dass die gesamte Irrtumswahrscheinlichkeit an den passenden Rand geschoben werden kann, bekommen Sie eine sch¨arfere Aussage. Ihre Vermutung war ja, dass die Daten eher gr¨oßer sind als die 100. Daher macht der einseitige Test hier mehr Sinn. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="218"?> 5.2. Testtheorie 219 Oder - die komplement¨are Formulierung: 1. Die Hypothesen: H 0 : μ = μ 0 = 100 vs. H 1 : μ < μ 0 = 100 2. Sie brauchen eine Pr¨ ufgr¨oße: P G t = √ n · (¯ x − μ 0 ) s → Im Beispiel: P G t = √ 10 · (101 . 94 − 100) 2 , 75 = 2 , 23 3. Die Irrtumswahrscheinlichkeit α festlegen: α = 0 . 05 4. Die Entscheidungsregel, lehne die Hypothese genau dann ab, wenn gilt: P G t < t ( n −1); α = − t ( n −1); 1− α → Im Beispiel: Gesucht ist das 5 %-Quantil der t-Verteilung mit (10 − 1) = 9 Freiheitsgraden. Das ist gleich −1 · t ( n −1); 1− α → Daf¨ ur gibt es eine Tabelle - vgl. S.231: t 9; 0 , 05 = − t 9; 0 , 95 = −1 . 833 5. Entscheide dich: P G t = 2 . 23 > − t 9; 0 . 95 = −1 . 833 H 0 kann zum Niveau 95 % nicht abgelehnt werden. Tabelle 5.12: Ablaufplan einseitiger t-Test, Situation H 1 < μ 0 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="219"?> 220 Kapitel 5. Induktive Statistik Wie Sie auch an der folgenden Graphik sehen, macht diese Formulierung in der gegebenen Datensituation wenig Sinn. Nat¨ urlich kann die Hypothese nicht abgelehnt werden. Abbildung 5.9: Entscheidung einseitiger t-Test am Beispiel, komplement¨are Formulierung Die gerade vorgestellte Version des t-Tests kann auch sehr gut im Rahmen des verbundenen Zweistichprobenproblems eingesetzt werden. Dort interessierte ja unter anderem der Lageunterschied zwischen zwei verbundenen Merkmalen. Als Beispiel wurde die Wirksamkeit eines Schlafmittels genannt (vgl. Seite 70). Das Vorgehen dazu ist, dass zun¨achst alle Differenzen d i = x i − y i gebildet werden. Gibt es keinen Lageunterschied, ist die Wirkung des Schlafmittels also nicht erkennbar, dass heißt, schlafen die Probanden mit oder ohne Schlafmittel ungef¨ahr gleich lang, dann sollten die Differenzen um Null streuen. Die Hypothesenformulierung im verbunden Zweistichprobenfall lautet daher f¨ ur die Anwendung des t-Test immer: Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="220"?> 5.2. Testtheorie 221 Definition 5.6: Hypothesen im verbundenen Zweistichprobenproblem H 0 : μ = μ 0 = 0 vs. H 1 : μ = μ 0 = 0 (zweiseitig) H 0 : μ = μ 0 = 0 vs. H 1 : μ < μ 0 = 0 (einseitig) H 0 : μ = μ 0 = 0 vs. H 1 : μ > μ 0 = 0 (einseitig) Im Aufgabenteil finden Sie dazu die entsprechenden Anwendungsm¨oglichkeiten. 5.2.3 Der χ 2 -Test In diesem Kapitel lernen Sie einen Test zur ¨ Uberpr¨ ufung der Unabh¨angigkeit von zwei nominalskalierten Merkmalen kennen. wie Ihnen die ¨ Uberlegungen aus einem fr¨ uheren Kapitel hier weiterhelfen. F¨ ur diesen gibt es zwei Formulierungsbzw. Auslegungsm¨oglichkeiten, einmal als χ 2 Unabh¨angigkeitstest oder χ 2 Homogenit¨atstest. Greifen Sie noch einmal das Beispiel Titanic auf auf der Seite 72 auf. Dort wurde das gemeinsame Auftreten der beiden Merkmale Geschlecht und Titanic-Bewertung betrachtet. Sie sind der grunds¨atzlichen Frage nachgegangen, ob die beiden Merkmale unabh¨angig sind oder nicht. Sind sie es nicht, dann beeinflusst sich das gemeinsame Auftreten, es gibt Interdependenzen. In diesem Fall bewerten Frauen den Film besser als M¨anner. Diese Beschreibung der Situation wird dem Aspekt des Unabh¨angigkeitstest gerecht. Man k¨onnte die Geschichte auch leicht variiert darlegen. Es gibt zwei verschiedene Gruppen von Untersuchungseinheiten, M¨anner und Frauen. Die Variable X kann in diesem Fall auch als Gruppierungsvariable bezeichnet werden. In beiden Gruppen wurde dasselbe Merkmal erhoben, die Bewertung des Films Titanic. Verhalten sich beide Gruppen gleich in Bezug auf das Merkmal. Der Test pr¨ uft, ob das Merkmal Y in allen Gruppen von X identisch verteilt ist. Bewerten M¨anner und Frauen den Film gleich, herrscht Homogenit¨at? F¨ ur unsere Zwecke sollen die beiden Fragestellungen als synonym betrachtet werden. Die folgende Tabelle zeigt noch einmal die Kontingenztabelle zu dem Beispiel, das wir bereits kennen. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="221"?> 222 Kapitel 5. Induktive Statistik y x | 1 2 3 4 5 -+--------------+--m| 1 4 9 6 3| 23 w| 5 12 7 1 1| 26 -+--------------+--- | 6 16 16 7 4| 49 Tabelle 5.13: Das Geschlecht-Titanic-Beispiel beim χ 2 -Test Sie hatten hier bereits den Kontingenzkoeffizienten bzw. den korrigierten ausgerechnet. Das Ergebnis sprach gegen Unabh¨angigkeit. Dazu haben Sie die Zwischengr¨oße χ 2 verwandt. Sie k¨onnen einen Test auf Unabh¨angigkeit durchf¨ uhren: Sind zwei Merkmale X und Y voneinander unabh¨angig, in dem Sinne wie Sie es kennengelernt haben, n¨amlich als Sie die Unabh¨angigkeit kennengelernt haben. Das Auftreten des einen Merkmales hat keinen Einfluss auf das Eintreten des anderen Merkmales, d.h. es gilt: Definition 5.7: Unabh¨angigkeit bei zwei Merkmalen Zwei Zufallsvariablen X und Y sind unabh¨angig, wenn f¨ ur die gemeinsame Wahrscheinlichkeitsfunktion gilt: P ( X = x, Y = y ) = P ( X = x ) · P ( Y = y ) Diese Definition kann direkt aus dem Multiplikationssatz von der Seite 145 hergeleitet werden. Nehmen Sie einfach an, das Ereignis A sei der Umstand, dass X einen bestimmten Wert x annimmt und B sei das Ereignis, dass Y einen Wert y annimmt. Mit gemeinsamer Wahrscheinlichkeitsfunktion ist die lediglich die Wahrscheinlichkeit f¨ ur die gemeinsame Realisation von zwei Zufallsvariablen gemeint. Nun der Test. Ausgangspunkt ist eine ( k × l ) Kontingenztabelle mit den gemeinsamen H¨aufigkeiten n ij und den H¨aufigkeiten unter Unabh¨angigkeit ˜ n ij . Es sollte m¨oglichst gelten, dass alle ˜ n ij ≥ 5 , da es sonst Probleme mit der Aussagekraft des Tests geben kann. Auch hier kann wieder ein Ablaufplan angegeben werden, der das Vorgehen manifestiert. 1. Die Hypothesen: H 0 : Die beiden Merkmale X und Y sind unabh¨angig H 1 : Die beiden Merkmale X und Y sind nicht unabh¨angig Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="222"?> 5.2. Testtheorie 223 2. Sie brauchen eine Pr¨ ufgr¨oße: P G χ 2 = k ∑ i =1 l ∑ j =1 ( n ij − ˜ n ij ) 2 ˜ n ij , mit ˜ n ij = n i • · n • j n → Im Beispiel: P G χ 2 = 11 . 34 3. Die Irrtumswahrscheinlichkeit α festlegen: α = 0 , 05 4. Die Entscheidungsregel, lehne die Hypothese genau dann ab, wenn gilt: P G χ 2 ≥ χ 2 ( k −1)·( l −1); (1− α ) mit χ 2 ( k −1)·( l −1); (1− α ) als dem (1 − α ) · 100 %-Quantil der χ 2 -Verteilung mit Parameter ( k − 1) · ( l − 1) . → Im Beispiel: Gesucht ist das 95 %-Quantil der χ 2 -Verteilung mit Parameter (2 − 1) · (5 − 1) = 4 (sog. Freiheitsgrade). → Daf¨ ur gibt es eine Tabelle (vgl. S.232): χ 2 4; 0 , 95 = 9 , 488 5. Entscheide dich: P G χ 2 = 11 . 34 ≥ χ 2 4; 0 . 95 = 9 . 488 → H 0 wird zum Niveau 95 % abgelehnt. In der folgenden Abbildung ist die Situation einmal graphisch dargestellt. Die Dichtefunktion der χ 2 -Verteilung mit vier Freiheitsgraden ist aufgezeichnet. Die Stelle 11.34, also der konkrete Wert der Pr¨ ufgr¨oße, ist durch die gr¨ une Senkrechte markiert. Die gestrichelten Linien markieren verschiedene Quantile, also Niveaus des Tests. In unserem Fall liegt das Signifikanzniveau bei 95 %. Die Pr¨ ufgr¨oße liegt außerhalb des 95 % Bereiches, H 0 ist abzulehnen. Wie Sie der Graphik entnehmen k¨onnen, gilt erst ab einem Signifikanzniveau von 98 %, dass die Hypothese nicht abgelehnt werden kann. Dazu m¨ ussten Sie den Fehler 1. Art arg verkleinern (α = 0 . 02 ), offensichtlich w¨ urde im Gegenzug der Fehler 2. Art ansteigen, wohin k¨onnen Sie nicht sagen. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="223"?> 224 Kapitel 5. Induktive Statistik x.achse Dichte PG 0 5 10 15 20 0.00 0.05 0.10 0.15 90% 91% 92% 93% 94%95%96%97% 98% 99% Chi−quadrat Verteilung mit 4 Freiheitsgraden Abbildung 5.10: Entscheidungssituation beim χ 2 -Test Wie Sie sehen, l¨asst sich eine sch¨arfere Aussage zur Unabh¨angigkeit formulieren. Aufgrund des Aussehens der Dichte Funktion der χ 2 -Verteilung und der Hypothesenformulierung gibt es ¨ ubrigens keinen zweiseitigen Test. Nur die vorgestellte Version macht Sinn. 5.2.4 Weitere statistische Tests Der Rahmen dieser Einf¨ uhrung l¨asst nur noch einen kurzen Blick auf die weiteren M¨oglichkeiten zu. Es gibt unz¨ahlige weitere statistische Tests, da es nat¨ urlich entsprechend viele weitere Fragestellungen gibt, die man hofft, mit den entsprechenden Daten beantworten zu k¨onnen. Es k¨onnen Fragen zur Zuf¨alligkeit sein, Fragen nach der G¨ ultigkeit Verteilung einer Grundgesamtheit, Fragen zur Lage, zur Streuung, zu Symmetrie, zu Anteilswerten und vieles mehr. Grunds¨atzlich gilt aber, dass Sie alles, was Sie ben¨otigen, um einen weiteren Test zu verstehen, kennengelernt haben. Sie ben¨otigen immer: eine Hypothese, Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="224"?> 5.2. Testtheorie 225 eine Pr¨ ufgr¨oße, die Verteilung der Pr¨ ufgr¨oße unter H 0 , und die Entscheidungsregel. Diese Punkte variieren nat¨ urlich je nach Kontext. Aber prinzipiell ist es immer das gleiche. t-Test im unverbundenen Fall: Einen weiteren konkreten Test sollen Sie noch kurz anschauen. Es kann sein, dass die Merkmale X und Y nur als unverbundenes Zweistichprobenproblem vorliegen. Auch in diesem Fall kann es nat¨ urlich sein, dass Sie an einem Lageunterschied interessiert sind. Auch daf¨ ur k¨onnen Sie den t-Test einsetzen, allerdings in einer leicht abgewandelten Form. Es liegen zwei unabh¨angige Stichproben X und Y vom Umfang n bzw. m vor. Die Daten stammen aus einer Normalverteilung mit ( μ X , σ 2 X ) bzw. ( μ Y , σ 2 Y ) . Die Frage ist, kann man aufgrund der Daten annehmen, dass μ X = μ Y gilt? Herrscht also Lagegleichheit? Folgende Annahme wird getroffen (diese kann selbstverst¨andlich auch mit einem Test ¨ uberpr¨ uft werden, aber nicht in diesem Rahmen): σ 2 X = σ 2 Y = σ 2 Wie im verbundenen bzw. univariaten Fall nehmen Sie an, dass σ 2 unbekannt ist, es muss also abgesch¨atzt werden. Die Pr¨ ufgr¨oße f¨ ur den unverbundenen t-Test ist dann die folgende: Definition 5.8: Pr¨ ufgr¨oße t-Test unverbundener Fall T = ¯ X − ¯ Y S · √ n · m n + m wobei die gemeinsame Streuung S folgendermaßen berechnet wird — s 2 x bzw. s 2 y sind die bekannten Stichprobenvarianzen, es wird also so eine Art Mittelwert aus den beiden gebildet: S = √ ( n − 1) · s 2 x + ( m − 1) · s 2 y n + m − 2 Diese Pr¨ ufgr¨oße ist, wenn H 0 , also die Gleichheit der beiden Erwartungswerte gilt, t-verteilt mit dem Parameter ( n + m − 2) . Damit sind Sie in der Lage, auch einen solchen Test durchzuf¨ uhren. Welches Quantil zu w¨ahlen ist, h¨angt nat¨ urlich von α ab. Welche t-Verteilung es ist, wissen Sie und die Entscheidungsregel kennen Sie auch, je nachdem ob Sie zweiseitig oder einseitig vorgehen. Sie finden alles auf den Seiten 213ff. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="225"?> 226 Kapitel 5. Induktive Statistik Kurz gefasst! Der t-Test wird zur Lage¨ uberpr¨ ufung im Einstichprobenbzw. im verbundenen Zweistichprobenfall eingesetzt. Der t-Test kann etwas umformuliert auch im unverbundenen Zweichstichprobenfall verwandt werden. Der χ 2 -Test dient zur ¨ Uberpr¨ ufung der Unabh¨angigkeit bzw. Homogenit¨at in Kontingenztabellen. 5.2.5 Aufgaben 1. Der franz¨osische Mathematiker, Physiker und (religi¨os inspirierter) Philosoph Blaise Pascal (1623-1662) war der Meinung, dass (ganz allgemein) der Glaube an Gott nicht nur richtig, sondern auch vern¨ unftig sei. Die sogenannte Pascalsche Wette ist Blaise Pascals ber¨ uhmtes Argument f¨ ur den Glauben an Gott. Seine Wette hat er folgendermaßen dargelegt: 2 ”Angenommen es sei sicher, dass es Gott gibt oder ihn nicht gibt, und dass es keinen Mittelweg gibt. F¨ ur welche Seite werden wir uns entscheiden? Lassen Sie uns ein Spiel spielen, bei dem es zu einer Entscheidung f¨ ur Kopf oder Zahl kommt. Mit Vernunft k¨onnen wir weder das eine noch das andere versichern; mit Vernunft k¨onnen wir weder das eine noch das andere ausschließen. Verfallen Sie also nicht dem Irrtum, dass hierbei eine richtige Wahl getroffen werden k¨onnte, denn Sie wissen nicht, ob Sie falsch liegen oder schlecht gew¨ahlt haben. Sowohl wer sich f¨ ur Kopf entscheidet, als auch wer sich f¨ ur Zahl entscheidet, beide liegen falsch: Die Wahrheit kann nicht durch eine Wette entschieden werden, aber es muss gewettet werden. Es gibt keine Freiwilligkeit, Sie m¨ ussen sich darauf einlassen. Wenn Sie nicht wetten, dass es Gott gibt, m¨ ussen Sie wetten, dass es ihn nicht gibt. Wof¨ ur entscheiden Sie sich? W¨agen wir den Verlust daf¨ ur ab, dass Sie sich daf¨ ur entschieden haben, dass es Gott gibt: Wenn Sie gewinnen, gewinnen Sie alles, wenn Sie verlieren, verlieren Sie nichts. Setzen Sie also ohne zu z¨ogern darauf, dass es ihn gibt.“ Pascal argumentiert also folgendermaßen: Es sei stets eine bessere Wette, an Gott zu glauben, weil der Erwartungswert des Gewinns, der durch den Glauben an Gott erreicht 2 B. Pascal, Pense´es, Nr. 233, ¨ Ubers., http: / / www.zeno.org/ Philosophie/ M/ Pascal,+Blaise Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="226"?> 5.2. Testtheorie 227 werden k¨onnte, stets gr¨oßer sei als der Erwartungswert im Falle des Unglaubens. 3 Versuchen Sie einmal, diese Entscheidungssituation in der bekannten Matrixform darzustellen. Formulieren Sie also eine Hypothesenkonstellation und ¨ uberlegen Sie sich, welches pay-off Sie in die Zellen der Matrix schreiben - ganz analog also zum Fehler 1. bzw. 2. Art. 2. In einem Gerichtssaal wartet ein Angeklagter auf sein Urteil. Das Gericht hat sich zur Beratung zur¨ uckgezogen und muss ¨ uber schuldig und nicht schuldig entscheiden. (a) Welche beiden Fehler k¨onnen die Richter bei ihrer Entscheidung begehen? (b) In der Justiz gilt der Grundsatz: ”Im Zweifel f¨ ur den Angeklagten“. Wie m¨ ussten die Wahrscheinlichkeiten f¨ ur die m¨oglichen Fehler des Gerichts aussehen, wenn der obige Grundsatz g¨ ultig w¨are? (c) Vergleichen Sie die Situation mit einem statistischen Test. (d) Lesen Sie dazu einmal die Gerichtsgeschichte nach ([Kr¨amer2011], Seite 17f.) 3. An der Steuerberater-Pr¨ ufung 2008/ 2009 nahmen 5118 Personen teil. Von den 2636 Personen, die ein Universit¨atsstudium absolviert haben, bestanden 1502 die Pr¨ ufung, von den 1240, Personen, die ein Fachhochschulstudium absolviert haben, bestanden 655 die Pr¨ ufung und von den 1242, Personen, die eine Lehrzeit mit Gesellenpr¨ ufung absolviert haben, bestanden 593 die Pr¨ ufung. (a) Erstellen Sie die Kontingenztabelle. (b) Zeichnen Sie ein geeignetes Profil, und vergleichen Sie dieses mit dem entsprechenden mittleren Profil. (c) Testen Sie zum Niveau α = 0 . 05 , ob die beiden Merkmale unabh¨angig sind. Stellen Sie dabei Ihr Vorgehen ausf¨ uhrlich, d.h. nachvollziehbar dar. 4. Von den 250 Teilnehmern einer akademischen Fortbildung sind 69 weiblich. 111 Teilnehmer hatten in der Schule einen Mathematik-Leistungskurs belegt. Von den Frauen hatten 23 einen Mathematik-Leistungskurs gew¨ahlt. (a) Ist der Besuch des Leistungskurses unabh¨angig vom Geschlecht (α = 0 . 05 ). (b) Beschreiben Sie Ihr Vorgehen nachvollziehbar! 5. Das Fremdenverkehrsamt eines bekannten Urlaubsortes behauptet, dass im Ort pro Jahr durchschnittlich 30 cm Niederschlag f¨allt. Die Niederschlagsmenge X sei normalverteilt. 3 Dies ist ¨ ubrigens kein Argument f¨ ur die Existenz Gottes, sondern eines f¨ ur den Glauben an Gott. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="227"?> 228 Kapitel 5. Induktive Statistik An einer Meßstation wurden in den letzten neun Jahren folgende Jahresdurchschnittswerte in cm ermittelt: 31.5 33.7 29.6 30.6 34.3 29.5 31.1 29.9 30.5 (a) Erstellen Sie geeignete Graphiken und/ oder Maßzahlen zur Beurteilung der Lage. (b) Testen Sie die Behauptung des Fremdenverkehrsamtes zum Signifikanzniveau α = 0 . 05 . (c) Welchen statistischen Fehler k¨onnen Sie bei der Entscheidung unter 5b gemacht haben? (d) Wie lautet Ihre Entscheidung zum Niveau α = 0 . 01 bzw. α = 0 . 1 ? Begr¨ unden Sie Ihre Ergebnisse inhaltlich. (e) F¨ uhren Sie einen geeigneten einseitigen Test zum Niveau α = 0 . 05 durch. Falls Sie zu einer anderen Entscheidung als unter 5b kommen, argumentieren Sie diese. 6. Zehn Personen wurden zuf¨allig ausgew¨ahlt, um zu untersuchen, ob Alkohol die Reaktionszeit beeinflusst. Die Reaktionszeit jeder Person wurde vor und nach dem Genuss einer bestimmten Menge Alkohol bestimmt. Es ergaben sich folgende Werte (in sec.): Person Vorher(X) Nachher (Y) ------------------------------ 1 0.68 0.73 2 0.64 0.62 3 0.68 0.66 4 0.82 0.92 5 0.58 0.68 6 0.80 0.87 7 0.72 0.77 8 0.65 0.70 9 0.84 0.88 10 0.73 0.79 Da es sich um ein verbundenes Problem handelt, k¨onnen Sie die Differenzen d i = y i − x i bilden. Es soll der Frage nachgegangen werden, ob die Reaktionszeit zugenommen hat. (a) Erstellen Sie die Differenzen. (b) Bestimmen Sie Mittelwert und Stichprobenvarianz der d i . (c) Zeichnen Sie den Boxplot. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="228"?> 5.2. Testtheorie 229 (d) Was ist Ihre Meinung bis hierher? (e) Nehmen Sie einmal an, die Differenzen seien normalverteilt. Verwenden Sie den t-Test, um zum Niveau α = 0 , 05 mit einer geeigneten Wahl von H 0 bzw. H 1 zu testen, ob die Reaktionszeit zugenommen hat - verwenden Sie dazu aber nur die d i . Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="230"?> Kapitel 6 Anh¨ange 6.1 Tabelle zur t-Verteilung k t k; 0.9 t k; 0.925 t k; 0.95 t k; 0.975 t k; 0.99 t k; 0.995 1 3.08 4.17 6.31 12.71 31.82 63.66 2 1.89 2.28 2.92 4.30 6.96 9.92 3 1.64 1.92 2.35 3.18 4.54 5.84 4 1.53 1.78 2.13 2.78 3.75 4.60 5 1.48 1.70 2.02 2.57 3.36 4.03 6 1.44 1.65 1.94 2.45 3.14 3.71 7 1.41 1.62 1.89 2.36 3.00 3.50 8 1.40 1.59 1.86 2.31 2.90 3.36 9 1.38 1.57 1.83 2.26 2.82 3.25 10 1.37 1.56 1.81 2.23 2.76 3.17 11 1.36 1.55 1.80 2.20 2.72 3.11 12 1.36 1.54 1.78 2.18 2.68 3.05 13 1.35 1.53 1.77 2.16 2.65 3.01 14 1.35 1.52 1.76 2.14 2.62 2.98 15 1.34 1.52 1.75 2.13 2.60 2.95 16 1.34 1.51 1.75 2.12 2.58 2.92 17 1.33 1.51 1.74 2.11 2.57 2.90 18 1.33 1.50 1.73 2.10 2.55 2.88 19 1.33 1.50 1.73 2.09 2.54 2.86 20 1.33 1.50 1.72 2.09 2.53 2.85 21 1.32 1.49 1.72 2.08 2.52 2.83 22 1.32 1.49 1.72 2.07 2.51 2.82 23 1.32 1.49 1.71 2.07 2.50 2.81 24 1.32 1.49 1.71 2.06 2.49 2.80 25 1.32 1.49 1.71 2.06 2.49 2.79 Tabelle 6.1: Quantile der t-Verteilung mit k-Freiheitsgraden <?page no="231"?> 232 Kapitel 6. Anh¨ange 6.2 Tabelle zur χ 2 -Verteilung k χ 2 k; 0.9 χ 2 k; 0.925 χ 2 k; 0.95 χ 2 k; 0.975 χ 2 k; 0.99 1 2.71 3.17 3.84 5.02 6.63 2 4.61 5.18 5.99 7.38 9.21 3 6.25 6.90 7.81 9.35 11.34 4 7.78 8.50 9.49 11.14 13.28 5 9.24 10.01 11.07 12.83 15.09 6 10.64 11.47 12.59 14.45 16.81 7 12.02 12.88 14.07 16.01 18.48 8 13.36 14.27 15.51 17.53 20.09 9 14.68 15.63 16.92 19.02 21.67 10 15.99 16.97 18.31 20.48 23.21 11 17.28 18.29 19.68 21.92 24.72 12 18.55 19.60 21.03 23.34 26.22 13 19.81 20.90 22.36 24.74 27.69 14 21.06 22.18 23.68 26.12 29.14 15 22.31 23.45 25.00 27.49 30.58 16 23.54 24.72 26.30 28.85 32.00 17 24.77 25.97 27.59 30.19 33.41 18 25.99 27.22 28.87 31.53 34.81 19 27.20 28.46 30.14 32.85 36.19 20 28.41 29.69 31.41 34.17 37.57 21 29.62 30.92 32.67 35.48 38.93 22 30.81 32.14 33.92 36.78 40.29 23 32.01 33.36 35.17 38.08 41.64 24 33.20 34.57 36.42 39.36 42.98 25 34.38 35.78 37.65 40.65 44.31 Tabelle 6.2: Quantile der χ 2 -Verteilung mit k-Freiheitsgraden Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="232"?> 6.3. Tabelle zur Normalverteilung 233 6.3 Tabelle zur Normalverteilung z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.536 0.1 0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.575 0.2 0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.614 0.3 0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.652 0.4 0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.688 0.5 0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.722 0.6 0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.755 0.7 0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.785 0.8 0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.813 0.9 0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.839 1.0 0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.862 1.1 0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.883 1.2 0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.901 1.3 0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.918 1.4 0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.932 1.5 0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.944 1.6 0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.954 1.7 0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.963 1.8 0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971 1.9 0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977 2.0 0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982 2.1 0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986 2.2 0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989 2.3 0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.992 2.4 0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.994 2.5 0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.995 2.6 0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.996 2.7 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 2.8 0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 2.9 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.999 3.0 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.999 Tabelle 6.3: Verteilungsfunktion Φ( z ) der Standardnormalverteilung 6.4 Zwei Frageb¨ogen 6.4.1 Daten An dieser Stelle sei einmal der Fragebogen abgedruckt, mit dem zu Beginn der Vorlesung empirisches Datenmaterial erhoben werden kann. Viele der hier abgefragten Merkmale finden sich im Laufe des Buches wieder. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="233"?> 234 Kapitel 6. Anh¨ange F¨ ur die Studierenden - so die Erfahrung - entsteht somit ein echter Bezug zu den Daten. Das macht die Sache interessanter und das kann nicht schaden. 1. Geschlecht: 2. Alter: 3. Gr¨oße: 4. Gewicht: 5. Schuhgr¨oße: 6. Was war Ihre letzte Schulnote in Mathematik: 7. Wie hat Ihnen der Film TITANIC (mit Kate Winslet und Leonardo Di Caprio) gefallen? Bitte f¨allen Sie Ihr Urteil auf einer Skala von 1 (sehr gut) bis 5 (sehr schlecht): 8. Wie viele B¨ ucher besitzen Sie ungef¨ahr: 9. Halten Sie Statistik f¨ ur ein interessantes Fach? Bitte f¨allen Sie Ihr Urteil auf einer Skala von 1 (sehr interessant) bis 5 (sehr langweilig): 10. Welche Partei w¨ urden Sie w¨ahlen, wenn morgen Bundestagswahl w¨are (1=SPD/ 2=CDU/ 3=FDP/ 4=GR ¨ UNE/ 5=Die Linke/ 6=SONSTIGE): 11. Wie sind Sie heute hierhergekommen (1=Auto/ 2=Fahrrad/ 3=¨offentliche Verkehrsmittel/ 4= zu Fuß): 12. Sind Sie f¨ ur weitere Steuersenkungen (Ja/ Nein): 6.4.2 Merkw¨ urdiges Variante 1 Hier finde Sie einige der Fragen, die Kahneman und Tversky im Rahmen ihrer langj¨ahrigen Untersuchungen verwandt haben, um herauszubekommen, wie sich Menschen tats¨achlich in Entscheidungssituationen verhalten bzw. wie sie entscheiden. Das Modell, welches das menschliche Handeln besser beschrieben kann, ist die Prospect Theory, von der wir bereits ganz am Anfang geh¨ort haben. Sie finden hier zwei Varianten der Fragen. Durch die leichten Umformulierungen kommen Sie den Heuristiken auf die Schliche. 1. Was glauben Sie: Ist der Anteil der afrikanischen L¨ander in der UNO gr¨oßer oder kleiner als 65 %? Ihre Einsch¨atzung, kleiner oder gr¨oßer: 2. Was sch¨atzen Sie, wie groß der tats¨achliche Anteil der afrikanischen L¨ander in der UNO ist? Ihre Sch¨atzung in %: Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="234"?> 6.4. Zwei Frageb¨ogen 235 3. Bitte SCH ¨ ATZEN Sie die folgende Berechnung ab: 9 × 8 × 7 × 6 × 5 × 4 × 3 × 2 × 1 = 4. Aus zehn Personen — A,B,C,. . . , J — soll ein Ausschuss gebildet werden, dem genau zwei Personen angeh¨oren. Stellen Sie sich vor, die beiden Personen w¨ urden zuf¨allig gezogen, dann k¨onnten also zum Beispiel die unterschiedlichen Aussch¨ usse (A,B) oder (A,C) oder (A,D) usw. gebildet werden. Was glauben Sie, wie viele unterschiedliche Aussch¨ usse auf diese Art entstehen k¨onnten? Ihre Sch¨atzung: 5. Was glauben Sie, wie viele Leute m¨ ussen mindestens in einem Raum sein, damit die Wahrscheinlichkeit, dass wenigstens zwei am selben Tag Geburtstag haben, gr¨oßer ist als 50 %? Ihre Sch¨atzung, wie viele Personen: 6. Schauen Sie sich das folgende Muster einmal an. Sch¨atzen Sie die Anzahl der verschiedenen Pfade, um von der ersten bis zur letzten Zeile zu kommen - man startet auf einem beliebigen X der ersten Zeile und in jeder der darunterliegenden Zeilen geht man auf genau ein Symbol. Ihre Sch¨atzung: X X X X X X X X X X X X X X X X X X 7. Angenommen, Sie spielen jede Woche am Samstag eine Reihe Lotto 6 aus 49. Was meinen Sie, wie viele Wochen m¨ ussen Sie spielen, damit Sie aller Wahrscheinlichkeit nach wenigstens einmal drei Richtige haben? Variante 2 1. Was glauben Sie: Ist der Anteil der afrikanischen L¨ander in der UNO gr¨oßer oder kleiner als 10 %? Ihre Einsch¨atzung, kleiner oder gr¨oßer: Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="235"?> 236 Kapitel 6. Anh¨ange 2. Was sch¨atzen Sie, wie groß der tats¨achliche Anteil der afrikanischen L¨ander in der UNO ist? Ihre Sch¨atzung in %: 3. Bitte SCH ¨ ATZEN Sie die folgende Berechnung ab: 1 × 2 × 3 × 4 × 5 × 6 × 7 × 8 × 9 = 4. Aus zehn Personen — A,B,C,. . . , J — soll ein Ausschuss gebildet werden, dem genau acht Personen angeh¨oren. Stellen Sie sich vor, die acht Personen w¨ urden zuf¨allig gezogen, dann k¨onnten also zum Beispiel die unterschiedlichen Aussch¨ usse (A,B,C,D,E,F,G,H) oder (A,B,C,D,E,F,G,I) oder (A,B,C,D,E,F,G,J) usw. gebildet werden. Was glauben Sie, wie viele unterschiedliche Aussch¨ usse auf diese Art entstehen k¨onnten? Ihre Sch¨atzung: 5. Was glauben Sie, wie viele Leute m¨ ussen mindestens in einem Raum sein, damit die Wahrscheinlichkeit, dass wenigstens noch eine Person auch an Ihrem pers¨onlichen Geburtstag Geburtstag hat, gr¨oßer ist als 50 %? Ihre Sch¨atzung, wie viele Personen: 6. Schauen Sie sich das folgende Muster an. Sch¨atzen Sie die Anzahl der verschiedenen Pfade, um von der ersten bis zur letzten Zeile zu kommen - man startet auf einem beliebigen X der ersten Zeile und in jeder der darunterliegenden Zeilen geht man auf genau ein Symbol. Ihre Sch¨atzung: X X X X X X X X X X X X X X X X X X X X X X X X 7. Angenommen, Sie spielen jede Woche am Samstag eine Reihe Lotto 6 aus 49. Was meinen Sie, wie viele Wochen m¨ ussen Sie spielen, damit Sie aller Wahrscheinlichkeit nach wenigstens einmal vier Richtige haben? Hinweise/ Aufkl¨arung Mit Entscheidungen unter Unsicherheit tun sich Menschen allgemein schwer. Nat¨ urlich k¨onnen manche das besser, andere schlechter, und man kann sein Verhalten sicher durch Lernen und ¨ Uben verbessern. Aber grunds¨atzlich hat uns die Evolution nicht mit solchen Entscheidungen gesegnet oder auch mit strategischem Verhalten ausgestattet. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="236"?> 6.4. Zwei Frageb¨ogen 237 Kahneman und Tversky haben das systematisiert und in ein Modell gegossen. Hier ist eine kleine Auswahl der von den beiden eruierten Prinzipien aufgelistet - ihre Heuristiken: Gewinn und Verlust — Aufgaben 3 und 4 auf der Seite 188. Menschen f¨ urchten den Verlust mehr, als sie den Gewinn begr¨ ußen. Das geht so weit, dass greifbare Vorteile nicht wahrgenommen werden, um die entferntere Chance des Versagens zu vermeiden. Dies manifestiert sich sehr sch¨on in Ihren Antworten zu den Fragen. Bei Gewinn sind Sie risikoavers: ”Lieber den Spatz in der Hand als die Taube auf dem Dach.“ Bei Verlusten ist das Risiko (= die Varianz) pl¨otzlich unser bester Freund. ¨ Uberpr¨ ufen Sie einmal Ihr Verhalten, wenn es am Aktienmarkt bergab geht. Ankerheuristik — Fragen 1, 2 und 3 Diese Problematik k¨onnten Sie auch als den ber¨ uhmten Strohhalm bezeichnen. Eine einmal gemachte Aussage (Meinung) wird zur selbst erf¨ ullenden Prophezeiung. Dies gilt sogar dann, wenn eine Aussage von einer Quelle stammt, die nicht besser informiert ist als Sie selbst. Wie bei den Fragen zur UNO. Irgendeinen Anker brauchen Sie, an dem Sie die Entscheidung festmachen k¨onnen. Availability — Fragen 4 und 6 Sie beurteilen eine Situation vor dem Hintergrund, wie leicht Sie sich diese vorstellen k¨onnen. Geht es leicht, dann passen Sie eine Eintrittswahrscheinlichkeit oder wie bei den Fragen eine H¨aufigkeit nach oben an. K¨onnen Sie sich etwas nur schwer vorstellen, dann kann es davon nicht so viel geben bzw. es ist wohl nicht so wahrscheinlich. Representativeness — Fragen 5 und 7 Hier geht es im Wesentlichen um Wahrscheinlichkeiten - a priori und a posteriori Wahrscheinlichkeiten. Mit denen tun Sie sich grunds¨atzlich schwer. Die a priori Information bez¨ uglich der Dame in Aufgabe 2 (vgl. S. 156) bewerten Sie h¨oher als die Tatsache, dass Alternative A einfach wahrscheinlicher ist. Nat¨ urlich ist dies in keinster Weise eine auch nur ann¨ahernd umfassende Darstellung der Prospect Theory. Es sollte lediglich ein Eindruck vermittelt werden, aber einer, der Ihnen in gewisser Weise die Augen ¨offnen sollte. Ziel war es auch, Ihnen einmal den Spiegel vorzuhalten, denn es scheint nichts daran merkw¨ urdig zu sein, wie Sie sich verhalten. Diese Algorithmen sind aber Ihr nat¨ urliches Verhalten! Es gibt zahlreiche Literatur dazu, versuchen Sie es doch einmal hier: [KaSlTv82], [Plous93], [KahnemannTversky74], [KahnemannTversky91]. Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="238"?> Literaturverzeichnis I B¨ ucher [GonWool2008] Larry Gonick, Woollcott Smith: The Cartoon Guide to Statistics, Collins Reference, 2008. [HipK¨ ustMey2001] Hajo Hippner, Ulrich L. K¨ usters, Matthias Meyer: Handbuch Data Mining im Marketing. Knowledge Discovery in Marketing Databases (Business Computing), Vieweg Verlagsgesellschaft, 2001. [KaSlTv82] D. Kahneman, P. Slovic, A. Tversky: Judgement under Uncertainty: Heuristics and Biases , New York: Cambridge University Press, 1982. [Kr¨amer2011] Walter Kr¨amer: Denkste! : Trugschl¨ usse aus der Welt der Zahlen und des Zufalls , Piper, 2011. [Kr¨amer2011] Walter Kr¨amer: So l¨ ugt man mit Statistik , Piper, 2011. [Naisbitt84] John Naisbitt: Megatrends , Warner, 1984. [Plous93] Scott Plous: The Psychology of Judgement and Decision Making , McGraw-Hill, 1993. [Polya90] George P´olya: How to solve it , Penguin Books, 1990. [Popper96] Karl Popper: Alles Leben ist Probleml¨osen, Piper, 1996. [R¨onzStrohe94] B. R¨onz, H. Strohe: Lexikon Statistik , Gabler, 1994. [Rinne2008] Horst Rinne: Taschenbuch der Statistik , Harri Deutsch, 2008. [Satorius1856] Wolfgang Sartorius von Waltershausen: Gauß zum Ged¨achtniss, S. Hirzel, Leipzig 1856. → Google Books [Seiffert73] Helmut Seiffert: Einf¨ uhrung in die Wissenschaftstheorie , Band 1, Verlag C.H. Beck, 1973 [Seiffert96] Helmut Seiffert: Einf¨ uhrung in die Wissenschaftstheorie , Band 2, Verlag C.H. Beck, 1996 [Swoboda82] Helmut Swoboda: Knaurs Buch der modernen Statistik, Droemer Knaur, 1982. [Tarassow98] Lew Tarassow: Wie der Zufall will? - Vom Wesen der Wahrscheinlichkeit, Spektrum Akademischer Verlag, 1998 (Russische Erstausgabe: 1984) Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="239"?> 240 Literaturverzeichnis [Tiemann2003] Veith Tiemann: Einf¨ uhrung Statistik, Gabler, 2003. [Tukey1977] John W. Tukey: Exploratory Data Analysis, Addison Wesley Pub Co Inc, 1977. [vonRandow04] Gero von Randow: Das Ziegenproblem, Rowohlt, 2004. [WolNaeTie2006] Wolf, Naeve, Tiemann: Statistik aktiv mit R, UTB, 2006. II Zeitschriftenartikel/ Aufs¨atze [Benford38] F. Benford: The Law of Anomalous Numbers , Proc. Amer. Phil. Soc. 78, S. 551-572, 1938. [Faller09] Heike Faller: Die Spielerin, ZEIT MAGAZIN, Nr. 26, 2009. [KahnemannTversky74] D. Kahnemann, A. Tversky: Judgment under Uncertainty: Heuristics and Biases, Science, New Series, Vol. 185, No. 4157, S. 1124-1131, 1974. [KahnemannTversky91] D. Kahnemann, A. Tversky: Loss Aversion in Riskless Choice: A Reference-Dependent Model, Quarterly Journal of Economics, Volume 106, Issue 4, S. 1039-1061, 1991. [Newcomb1881] S. Newcomb: Note on the Frequency of the Use of Digits in Natural Numbers, Amer. J. Math. 4, S. 39-40, 1881. [Tiemann2010] Veith Tiemann: Mit Statistik zur Wahrheit, WISU, Nr. 10, 2010. [Tiemann2011] Veith Tiemann: Sim´eon Denis Poisson und das Warten auf seltene Ereignisse, WISU, Nr. 7, 2011. III Internetquellen [CRISP] www-01.ibm.com/ software/ analytics/ spss [OpenOffice] de.openoffice.org [PSPP] www.gnu.org/ software/ pspp [R] cran.r-project.org/ www.statsoft.de [SAS] www.sas.com/ offices/ europe/ germany/ index.html [SEMMA] www.sas.com/ offices/ europe/ uk/ technologies/ analytics/ datamining/ miner/ semma.html [SPLUS] spotfire.tibco.com/ products/ s-plus/ statistical-analysis-software.aspx [SPSS] www-01.ibm.com/ software/ de/ analytics/ spss [Statsoft] www.statsoft.de Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="240"?> Tabellenverzeichnis 2.1 Verschiedene Skalenniveaus . . . . . . . . . . . . . . . . . . . . . . 22 2.2 M¨achtigkeit der Auspr¨agungsmenge . . . . . . . . . . . . . . . . . . 22 2.3 Statistische Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . 23 2.4 Auflistung des Merkmals Alter . . . . . . . . . . . . . . . . . . . . 24 2.5 Diskrete H¨aufigkeitstabelle des Merkmals Alter . . . . . . . . . . . 25 2.6 Der Aufbau einer diskreten H¨aufigkeitstabelle . . . . . . . . . . . . 26 2.7 Diskrete H¨aufigkeitstabelle Merkmal Anzahl B¨ ucher . . . . . . . . 31 2.8 Klassierte H¨aufigkeitstabelle Merkmal Anzahl B¨ ucher . . . . . . . . 31 2.9 Der Aufbau einer stetigen H¨aufigkeitstabelle . . . . . . . . . . . . . 32 2.10 Nomenklatur einer stetigen H¨aufigkeitstabelle . . . . . . . . . . . . 33 2.11 Klassierte H¨aufigkeitstabellen des Merkmals Alter . . . . . . . . . . 33 2.12 Klassierte H¨aufigkeitstabelle des Merkmals Gr¨oße in cm . . . . . . 37 2.13 Nomenklatur f¨ ur Daten aus der Urliste . . . . . . . . . . . . . . . . 39 2.14 Geschlecht vs. Titanic: eindimensionale H¨aufigkeitstabellen . . . . 72 2.15 Kontingenztabelle Geschlecht, TITANIC . . . . . . . . . . . . . . 72 2.16 Formaler Aufbau der Kontingenztabelle . . . . . . . . . . . . . . . 73 2.17 Nomenklatur einer Kontingenztabelle . . . . . . . . . . . . . . . . . 73 2.18 Bedingte Relative H¨aufigkeiten Geschlecht, TITANIC . . . . . . . 75 2.19 Erwartete absolute H¨aufigkeiten unter Unabh¨angigkeit . . . . . . . 80 2.20 Die χ 2 -Pr¨ ufgr¨oße . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 2.21 Korrelationskoeffizient von Bravais-Pearson . . . . . . . . . . . 86 2.22 Eigenschaften des Korrelationskoeffizienten . . . . . . . . . . . . . 87 2.23 Die Sch¨atzer ˆ a und ˆ b f¨ ur die Regressionsgerade . . . . . . . . . . . 95 2.24 Tabelle zur Berechnung der Hilfsgr¨oßen bei der Regression . . . . . 96 2.25 Verteilung des verf¨ ugbaren Einkommens auf die Haushalte der BRD 104 2.26 Kumulierte Betrachtung der Einkommensverteilung . . . . . . . . . 105 3.1 Ergebnismenge beim zweimaligen W¨ urfelwurf . . . . . . . . . . . . 144 3.2 Ziegenproblem - Was kann passieren? . . . . . . . . . . . . . . . . 148 4.1 Vergleich Konzepte Theorie vs. Empirie . . . . . . . . . . . . . . . 160 4.2 Darstellung ein Erfolg bei vier Versuchen . . . . . . . . . . . . . . 168 4.3 Darstellung: zwei Erfolge bei vier Versuchen . . . . . . . . . . . . . 169 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="241"?> 242 Tabellenverzeichnis 4.4 Wahrscheinlichkeitsfunktion S ∼ binom ( n = 4 , p = 1 / 6) . . . . . . 170 4.5 Konkrete Wahrscheinlichkeiten zu S ∼ binom ( n = 4 , p = 1 / 6) . . . 170 4.6 Festlegung der Parameter der NV . . . . . . . . . . . . . . . . . . . 178 4.7 Relevanter Ausschnitt aus NV-Tabelle zum aufgef¨ uhrten Beispiel . 182 4.8 Schwankungsintervalle der Standardnormalverteilung . . . . . . . . 185 5.1 Ein Beispiel zum statistischen Test . . . . . . . . . . . . . . . . . . 208 5.2 Beispieldaten zum statistischen Test - Ohm-Werte . . . . . . . . . 208 5.3 Die Entscheidungsmatrix beim statistischen Test . . . . . . . . . . 210 5.4 Die Entscheidungsmatrix mit Fehlerwahrscheinlichkeiten . . . . . . 210 5.5 Die beiden Fehlerwahrscheinlichkeiten α und β . . . . . . . . . . . 211 5.6 Die Bedeutung des Fehlers 1. Art f¨ ur α = 0 . 05 . . . . . . . . . . . 211 5.7 Beispiel Entscheidungsmatrix: Feueralarm . . . . . . . . . . . . . . 212 5.8 Ablaufplan zweiseitiger t-Test . . . . . . . . . . . . . . . . . . . . . 214 5.9 Ablaufplan zweiseitiger t-Test, fortgesetzt . . . . . . . . . . . . . . 215 5.10 Ausschnitt aus der Tabelle der Quantile der t-Verteilung . . . . . . 216 5.11 Ablaufplan einseitiger t-Test, Situation H 1 > μ 0 . . . . . . . . . . 217 5.12 Ablaufplan einseitiger t-Test, Situation H 1 < μ 0 . . . . . . . . . . 219 5.13 Das Geschlecht-Titanic-Beispiel beim χ 2 -Test . . . . . . . . . . . . 222 6.1 Quantile der t-Verteilung mit k-Freiheitsgraden . . . . . . . . . . . 231 6.2 Quantile der χ 2 -Verteilung mit k-Freiheitsgraden . . . . . . . . . . 232 6.3 Verteilungsfunktion Φ( z ) der Standardnormalverteilung . . . . . . 233 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="242"?> Abbildungsverzeichnis 1.1 John Snows Darstellung der Cholera-Toten . . . . . . . . . . . . 16 2.1 Graphische Darstellung der Armut in Deutschland 2007 . . . . . . 20 2.2 Stabdiagramm Alter . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.3 Empirische Verteilungsfunktion (diskret) des Merkmals Alter . . . 27 2.4 Tortendiagramm des Merkmals Alter . . . . . . . . . . . . . . . . 28 2.5 Alterspyramide der BRD . . . . . . . . . . . . . . . . . . . . . . . . 29 2.6 Histogramm Anzahl B¨ucher . . . . . . . . . . . . . . . . . . . . . . 34 2.7 Histogramm Beispiel unterschiedliche Klassengr¨oßen . . . . . . . . 34 2.8 Empirische Verteilungsfunktion Alter - diskret vs. stetig . . . . . 36 2.9 Verteilungsfunktion und Histogramm Gr¨oße . . . . . . . . . . . . . 37 2.10 Dotplot des Merkmals Alter . . . . . . . . . . . . . . . . . . . . . 39 2.11 Durchschnittsgesicht - Mittelwert . . . . . . . . . . . . . . . . . . . 43 2.12 Ausreißerempfindlichkeit - arithmetisches Mittel vs. Median . . . . 46 2.13 Boxplot des Merkmals Alter . . . . . . . . . . . . . . . . . . . . . 49 2.14 Dichtesch¨atzer des Merkmals Alter . . . . . . . . . . . . . . . . . 50 2.15 W-Plot - Alter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.16 Graphiken zur Entfernung vom Mittelwert . . . . . . . . . . . . . . 57 2.17 Zensus 2011 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 2.18 Geschichte aus Neureichenbach . . . . . . . . . . . . . . . . . . . . 62 2.19 Verschiedene Bev¨olkerungspyramiden . . . . . . . . . . . . . . . . . 63 2.20 Stabdiagramm des Merkmals Gewicht . . . . . . . . . . . . . . . . 64 2.21 Arbeitslosenentwicklung . . . . . . . . . . . . . . . . . . . . . . . . 65 2.22 Entwicklung BSP . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 2.23 Graphiken zur Symmetrie . . . . . . . . . . . . . . . . . . . . . . . 68 2.24 Zeilenprofil - Geschlecht, Titanic . . . . . . . . . . . . . . . . . 77 2.25 Spaltenprofil - Geschlecht, Titanic . . . . . . . . . . . . . . . . 77 2.26 Differenz Spaltenprofil zum mittleren Profil . . . . . . . . . . . . . 78 2.27 Scatterplot mit Schwerpunkt der Merkmale Gr¨oße, Gewicht . . . 84 2.28 Scatterplot mit #Punkten in den vier Quadranten- Gr¨oße, Gewicht 85 2.29 Scatterplot zum Rechenbeispiel . . . . . . . . . . . . . . . . . . . . 87 2.30 Vergleich der beiden Korrelationskoeffizienten - Gr¨oße, Gewicht . 90 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="243"?> 244 Abbildungsverzeichnis 2.31 Scatterplot mit Abst¨anden zur Geraden - Gr¨oße, Gewicht . . . . 94 2.32 Scatterplot Beispiel zur Berechnung der Regressionsgeraden . . . . 96 2.33 Scatterplot Beispiel mit der Regressionsgeraden . . . . . . . . . . . 97 2.34 Scatterplot, Regressionsgerade und Residuenplot mit Abst¨anden zur Geraden - Gr¨oße, Gewicht . . . . . . . . . . . . . . . . . . . . 98 2.35 Scatterplot, Regressionsgerade und Residuenplot mit Abst¨anden zur Geraden - Gr¨oße, Schuhgr¨oße . . . . . . . . . . . . . . . . . . 100 2.36 Unterschiedliche Korrelationen . . . . . . . . . . . . . . . . . . . . 101 2.37 Quadratische Anpassung . . . . . . . . . . . . . . . . . . . . . . . . 102 2.38 Logarithmus-Anpassung . . . . . . . . . . . . . . . . . . . . . . . . 103 2.39 Lorenzkurve zur Einkommensverteilung . . . . . . . . . . . . . . . 105 2.40 Lorenzkurve nach staatlicher Umverteilung . . . . . . . . . . . . . 107 2.41 Regression und Klausur . . . . . . . . . . . . . . . . . . . . . . . . 110 2.42 Residuenplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 2.43 Aufgabe zur Scheinkorrelation . . . . . . . . . . . . . . . . . . . . . 115 2.44 Aufgabe Konzentrationsmessung . . . . . . . . . . . . . . . . . . . 115 2.45 Aufgabe Konzentrationsmessung . . . . . . . . . . . . . . . . . . . 116 2.46 Vergleichende Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . 119 2.47 Trafficverlauf der Suche nach Wildbret in einer B2B-Suchmaschine 121 2.48 Trafficverlauf Wildbret - Saisonkomponente . . . . . . . . . . . . . 122 2.49 Verlauf Wechselkurs US-Dollar - Euro . . . . . . . . . . . . . . . . 127 2.50 Big Mac-Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 3.1 Lotto-Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . 134 3.2 Wahrscheinlichkeiten im Alltag . . . . . . . . . . . . . . . . . . . . 135 3.3 Ein W¨ urfelexperiment - Verteilung der Augenzahlen . . . . . . . . 136 3.4 Ein W¨ urfelexperiment - Entwicklung der relativen H¨aufigkeit f¨ ur die Augenzahl 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 3.5 Venn-Diagramm zur Vereinigung . . . . . . . . . . . . . . . . . . . 143 3.6 Venn-Diagramm zur Schnittmenge . . . . . . . . . . . . . . . . . . 143 3.7 Venn-Diagramm zur Differenz . . . . . . . . . . . . . . . . . . . . . 143 3.8 Totale Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . 150 3.9 Satz von Bayes - Einfluss P ( A ) . . . . . . . . . . . . . . . . . . . . 154 3.10 Baumdarstellung - Satz von Bayes . . . . . . . . . . . . . . . . . . 155 4.1 WS-Funktion der Binomialverteilung . . . . . . . . . . . . . . . . . 171 4.2 Ein alter 10 DM Schein . . . . . . . . . . . . . . . . . . . . . . . . 174 4.3 Modellieren von K¨orpergr¨oße durch die Normalverteilung . . . . . 175 4.4 Residuen und die Normalverteilung . . . . . . . . . . . . . . . . . . 176 4.5 Ziffernsummen und Normalverteilung . . . . . . . . . . . . . . . . . 177 4.6 Dichte der Standardnormalverteilung . . . . . . . . . . . . . . . . . 179 4.7 NV-Wahrscheinlichkeit f¨ ur die Situation: Intervall . . . . . . . . . . 183 4.8 NV-Wahrscheinlichkeit f¨ ur die Situation: Kleiner . . . . . . . . . . 184 4.9 NV-Wahrscheinlichkeit f¨ ur die Situation: Gr¨oßer . . . . . . . . . . 185 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="244"?> Abbildungsverzeichnis 245 4.10 Spiegelartikel zu Benfords Gesetz . . . . . . . . . . . . . . . . . . . 193 5.1 Ziegenproblem - 10 Spiele . . . . . . . . . . . . . . . . . . . . . . . 197 5.2 Ziegenproblem - 1000 Spiele . . . . . . . . . . . . . . . . . . . . . . 200 5.3 Hinweise zur Untersuchungsanlage beim ARD Deutschlandtrend . . 202 5.4 Die Binomialverteilung strebt gegen die Normalverteilung . . . . . 204 5.5 Eine Lottoprognose . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 5.6 Boxplot der Ohm-Daten (Test Beispiel) . . . . . . . . . . . . . . . 209 5.7 Entscheidung zweiseitiger t-Test am Beispiel . . . . . . . . . . . . . 215 5.8 Entscheidung einseitiger t-Test am Beispiel . . . . . . . . . . . . . 218 5.9 Entscheidung einseitiger t-Test am Beispiel, komplement¨are Formulierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 5.10 Entscheidungssituation beim χ 2 -Test . . . . . . . . . . . . . . . . . 224 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="246"?> Stichwortverzeichnis A Absolute Range, 53 ACF, 121 ¨aquidistante Klassen, 31 Alternativhypothese, 207 Alterspyramide, 28 Asymmetrie, 69 Ausreißer, 15, 40, 42, 48, 53, 54 ausreißerempfindlich, 42 Autokorrelationsfunktion, 121 B B2B, 120 Baumdiagramm, 155 Bayes, Satz von, 152 Bayestheorem, 152 bedingte relative H¨aufigkeiten, 74 Benfords Gesetz, 18 Bernoulliprozess, 166 Bernoulliverteilung, 165 Bernoullivorgang, 165 Bestimmtheitsmaß, 99 Beziehungszahlen, 123 Big Mac Index, 128 bimodal, 49 Bindungen, 89 Binomialkoeffizient, 167 Tascehnrechner, 171 Binomialverteilung, 166 bivariat, 70 Boxplot, 48 vergleichende, 119 Buffon Nadelproblem, 205 Business-to-Business, 120 C CATI, 202 χ 2 -Test, 221 D Daten Informationsgehalt, 22 Schwerpunkt, 84 Verteilung, 48 Datenanalyse bivariat, 70 explorative, 38 Graphiken, 48 univariat, 24 deviation, 55 dichotom, 155 dichotomisieren, 165 Dichte empirische, 48 Dichtefunktion, 175 Dichtesch¨atzer, 48 Differenzenprofil, 78 diskret, 22 Diskriminanzanalyse, 11 Dotplot, 39 Dreiecksfl¨ache, 106 Durchschnitt, siehe Mittelwert E EDA, 38, 48 Elementarereignis, 137 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="247"?> 248 Stichwortverzeichnis endogen, 92 Entscheidungsmatrix, 210 Entscheidungsregel, 207 Ereignis, 137 Ergebnismenge, 137 erwartungstreu, 198 Erwartungswert, 162 exogen, 92 Exponentialverteilung, 187 Extremwerte, 46 F Facebook, 158 Fakult¨at, 167 Fehler 1. Art, 210 Fehler 2. Art, 210 Freiheitsgrade, 186 G Gauß Normalverteilung, 49, 174 Summenformel, 41 Gauß-Verteilung, 174 Gegenwahrscheinlichkeit, 142 Geometrische Verteilung, 172 Gesetz der großen Zahlen, 196 Bernoulli, 201 Borel, Cantelli, 201 schwach, 200 stark, 201 Gini-Koeffizient, 104 Gleichm¨oglichkeitsmodell, 139 Gliederungszahlen, 123 Gosset, William, 186 Grenzwerts¨atze, 195 Grenzwertsatz zentral, 191 Gruppierungsvariable, 221 H H¨aufigkeiten absolut, 25 relativ, 25 bedingt, 74 H¨aufigkeitsdichte, 35 H¨aufigkeitstabelle diskret, 25 Klassengrenzen, 31 klassiert, 31 stetig, 31 Hauptsatz mathematische Statistik, 202 Histogramm, 33, 35, 48 Homogenit¨atstest, 221 Hypergeometrische Verteilung, 173 Hypothese, 15, 207 I Induktion, 164 induktiv, 13, 21, 207 Informationszeitalter, 13 Interdependenz, 72 intervallskaliert, 21 Irrtumswahrscheinlichkeit, 211 J Jahrmarktwette, 10 K Kahneman, Daniel, 10, 188, 237 kardinalskaliert, 21 kategorial, 21 Kaufkraft, 127 Kaufkraftparit¨at, 128 Kausalit¨at, 90 Kerndichtesch¨atzer, 49 Klassenbreite, 32 Klassenmitte, 35 Kleinste Quadrate, 95 Komplement¨arereignis, 142 Kontingenz, 71 Kontingenzkoeffizient, 79, 82 korrigiert, 82 Kontingenztabelle, 72, 221 Konvergenz stochastisch, 196 Konzentration, 103, 107 Konzentrationsfl¨ache, 106 Konzentrationsmessung, 116 Korrelation, 120 Korrelationskoeffizient, 86 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="248"?> Stichwortverzeichnis 249 Bravais-Pearson, 86 Spearman, 88 Kovarianz empirisch, 86 L lag, 121 Laplace, 138 linearer Trend, 120 Lininenzug, 27 linksschief, 69 linkssteil, siehe rechtsschief Lorenzkurve, 104 Lotto, 134, 171 Autofahrt, 12, 157 M M¨achtigkeit der Auspr¨agungsmenge, 21 Marktforschung, 202 Maßzahl Lage, 25, 27 nicht zentral, 46 zentral, 40 schiefe, 69 Streuung, 51 Ungleichheit, 106 Median, 25, 44 Meinungsforschung, 202 Menge M¨achtigkeit, 138 Venn Diagramm, 143 Mengenlehre, 137 Vereinigungsmenge, 143 Merkmal, 11 Merkmalsauspr¨agung, 25 Messfehler, 174 metrisch, 21 Mittel arithmetisches, 41 getrimmt, 44 gewichtet, 43, 67 geometrisch, 66 harmonisch, 66 Mittelwert, 41 Mittlere absolute Abweichung, 56 Mittlere Abweichung, 54 Mittlere quadratische Abweichung, 56 MKQ, 95, 114 Modalwert, siehe Modus Modellierung, 164 Modus, 27, 45 diskret, 27 klassiert, 35 Monte Carlo Simulation, 205 Mulitplikationssatz, 166 Multiplikationssatz, 145 N Naisbitt, John, 13 nominalskaliert, 21 Normalverteilung, 49, 174, 203 Parameter, 178 Verteilungsfunktion, 178 Null-Eins-Verteilung, 166 O Objekt, 11 ordinalskaliert, 21 P Pearson, Karl, 82 Φ , 180 Poisson-Verteilung, 173 PPP-Theorie, 129 Preisindex, 124 Laspeyres, 126 Paasche, 126 Profil, 78 prominente Zahlen, 30 Prospect Theory, 10, 234 Pr¨ ufgr¨oße, 82, 213 Q Quantil, 46 Quartil, 46 Quartilsabstand, 54 R Rang, 88 Rangkorrelationskoeffizient, 88, 89 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="249"?> 250 Stichwortverzeichnis Rangwertreihe, 24, 39 rechtsschief, 69 rechtssteil, siehe linksschief Regress, 92 Regressand, 92 Regression, 92, 120 linear, 92 multiple, 100 Regressor, 92 Residuen, 94 Residuenplot, 97 S S¨aulendiagramm, 27 Saison, 120 Saisonfigur, 120 Scatterplot, 84 Scheinkorrelation, 91, 114 Schwankungsintervall, 185 Schwerpunkt, 84, 98 Scoring, 11 Sensitivit¨at, 153 Signifikanzniveau, 211 Simpson’s Paradox, 109 Skalenniveau, 21 Snow, John, 15 Spaltenprofil, 76 Spannweite, 53 spezifizieren, 178 Spezifizit¨at, 153 Stabdiagramm, 27 Standard Deviation, 60 Standardabweichung, 164 empirische, 59 standardisieren, 68, 180, 192 Standardnormalverteilung, 178 station¨ar, 121 Statistik beschreibende, 19 deskriptive, 19 induktive, 13 Statistischer Test, 207 stetig, 22 Stichprobenstandardabweichung, 59 Stichprobenvarianz, 59 Streudiagramm, 15 Streuung, 48, 51 Streuungsmaß relativ, 55 Sumenzeichen, 40 Symmetrie, 48, 69 symmetrisch, 48, 53 T Test, 207 nicht parametrisch, 208 parametrisch, 208 Tortendiagramm, 28 Trend, 120 Tschebyscheff Ungleichung, 199 t-Test einseitig, 216 unverbunden, 225 verbunden, 220 zweiseitig, 213 Tukey, John, 38, 48 Tversky, Amos, 10, 188, 237 t-Verteilung, 186 U Unabh¨angigkeit, 79, 145, 146, 166 Unabh¨angigkeitstest, 221 Urliste, 24, 38 V Varianz, 163 empirische, 59 Variation, 51 Variationskoeffizient, 55 Venn Diagramm, 143 Vereinigungsmenge, 143 verh¨altnisskaliert, 21 Verh¨altniszahlen, 123 Verteilnugen exponential, 187 Verteilung seltene Ereignisse, 173 Verteilungen Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="250"?> Stichwortverzeichnis 251 bedingt, 77 Bernoulli, 165 Binomial, 166 Gauß, 174 geometrische, 172 kein Ged¨achtnis, 201 Hypergeometrisch, 173 Normal, 174 Null-Eins, 166 Poisson, 173 Student’s t, 186 t, 186 Verteilungsannahme, 208 Verteilungsfunktion, 162, 202 empirische, 25, 28, 36 Visit, 120 W W¨agungsschema, 124 Wahrscheinlichkeit a-posteriori, 152 a-priori, 152 axiomatisch, 140 bedingte, 146, 211 frequentistisch, 139 Gegenwahrscheinlichkeit, 142 klassische, 138 Laplace, 138 subjektivistisch, 140 totale, 149, 151, 153 Unabh¨angigkeit, 146 Wahrscheinlichkeitsfunktion gemeinsame, 222 Warteverteilung, 172, 187 Wechselkurs, 127 Wertebereich, 160 whisker, 48 Winkelhalbierende, 106 W-Plot, 50 √ n-Gesetz, 199 Z Zeilenprofil, 76 Zeitreihe trendbereinigt, 121 Zeitreihenanalyse, 120 Zentraler Grenzwertsatz, 177, 191 Zentralwert, siehe Median Ziegenproblem, 17 Omega, 148 Simulation, 196 Zufallsexperimen Erfolg, 165 Misserfolg, 165 Zufallsexperiment, 136 Zufallsvariable, 159 diskret, 160 Erwartungswert, 162 Varianz, 163 Wahrscheinlichkeitsfunktion, 161 Erwartungswert, 162 Standardabweichung, 164 stetig, 173, 179 Varianz, 163 Verteilungsfunktion, 162 Zusammenhang monoton, 88 Zweistichprobenproblem, 69 unverbunden, 70 verbunden, 70 Web-Service: http: / / www.uvk-lucius.de/ tiemann <?page no="252"?> www.uvk-lucius.de Walter Theiler Grundlagen der VWL: Mikroökonomik 1. Aufl. 2011, 278 Seiten, 143 Abb. ISBN 978-3-8252-8454-1 € (D) 29,90 / € (A) 30,80 / SFr 41,90 Was ist ein Marktgleichgewicht? Und was versteht man unter Konsumentenrente? Der Autor führt anschaulich in die methodischen und begrifflichen Grundlagen der VWL ein und wendet sie beispielhaft an. Der Leser wird in didaktisch einprägsamer Form mit der Makroökonomie vertraut gemacht und erhält so einen schnellen Zugang zum Stoff. Dabei hilft auch das »magische Viereck der Verbraucherentscheidungen«, das die Modellbildung begreiflich erklärt. In der Reihe »leicht verständlich! « werden Themen so aufbereitet, dass das Lesen, Lernen und Merken möglichst leicht fällt: . viele Übersichten und Grafiken . prägnante Beispiele . Aufgaben und Fallbeispiele mit Lösungen Das Buch richtet sich an Studierende der Wirtschaftswissenschaften und Lehrer und Schüler an Wirtschaftsgymnasien. Alles im Gleichgewicht <?page no="253"?> www.uvk-lucius.de Holger Walther Ohne Prüfungsangst studieren ca. 190 Seiten ISBN 978-3-8252-3675-5 ET ca. 02.2012 Schweißausbrüche, Nervosität und Denkblockaden: Diese Symptome der Prüfungsangst kennen viele Studierende nur allzu gut. Der Ratgeber hilft dabei, das Selbstbewusstsein vor, während und nach Prüfungssituationen Schritt für Schritt zu steigern. Er verrät außerdem, welche Entspannungstechniken den Körper wieder zur Ruhe bringen und welche Arbeitstechniken das Lernen sinnvoll bereichern. Zum Buch wird ein Fragebogen angeboten. Er verrät den Studierenden, in welchen Situationen die Prüfungsangst am stärksten ist und welche Kapitel des Buchs beim Bewältigen helfen. Dieses Lehrbuch richtet sich an Studierende aller Disziplinen. Das Studium mit Erfolg meistern
