Statistik für Wirtschaftswissenschaftler
Grundlagen und praktische Anwendungen
0309
2020
978-3-8385-5351-1
978-3-8252-5351-6
UTB
Ira Frost
Das Verstehen und Anwenden statistischer Methoden gehören mittlerweile zum Alltag der Akteure der ökonomischen Welt. Der Relevanz des Faches Statistik in der Praxis stehen die Schwierigkeiten vieler Studierenden gegenüber, Statistik zu verstehen. Dieses Buch bietet den Studienanfängern insbesondere in den praxisorientierten wirtschaftswissenschaftlichen Fächern einen leichteren Zugang zu diesem Fach. Mathematische Ausdrücke (Formeln) werden durch Beschreibungen und Kommentare in einer klaren, einfachen Sprache ergänzt.
Die Mathematik-Kenntnisse aus der Schule reichen vollkommen aus. Sollte die Schule jedoch weit in der Vergangenheit zurückliegen, so gibt ein Überblick im Anhang die Möglichkeit, diese Kenntnisse aufzufrischen.
Zahlreiche Beispiele und Abbildungen unterstützen den Lernprozess. Dabei werden die Beispiele in zwei Kategorien aufgeteilt: Beispiele, welche die (Rechen-)Technik betreffen, und solche aus der Praxis. Die zahlreichen Übungsaufgaben mit Lösungen können zur Prüfungsvorbereitung genutzt werden.
Dies ist ein utb-Band aus dem expert Verlag. utb ist eine Kooperation von Verlagen mit einem gemeinsamen Ziel: Lehrbücher und Lernmedien für das erfolgreiche Studium zu veröffentlichen. utb-shop.de ,! 7ID8C5-cfdfbg! ISBN 978-3-8252-5351-6 Ira Frost Statistik für Wirtschaftswissenschaftler 4. Auflage Verstehen und Anwenden statistischer Methoden gehören mittlerweile zum Alltag der Akteure der ökonomischen Welt. Der Relevanz des Faches Statistik in der Praxis stehen die Schwierigkeiten vieler Studierender gegenüber, Statistik zu verstehen. Dieses Buch bietet Studienanfängern insbesondere in den praxisorientierten wirtschaftswissenschaftlichen Fächern einen leichteren Zugang. Mathematische Ausdrücke werden durch Beschreibungen und Kommentare in einer klaren, einfachen Sprache ergänzt, Schulkenntnisse genügen völlig für das Verständnis. Sollte die Schule jedoch weit zurückliegen, so gibt ein Überblick im Anhang die Möglichkeit, Kenntnisse aufzufrischen. Viele Beispiele und Abbildungen unterstützen das Lernen. Zahlreiche Übungsaufgaben mit Lösungen sind zum Download verfügbar. Mathematik | Statistik | Wirtschaftswissenschaften Frost Statistik für Wirtschaftswissenschaftler QR-Code für mehr Infos und Bewertungen zu diesem Titel 53516 Frost_M-5351.indd 1 53516 Frost_M-5351.indd 1 07.02.20 09: 40 07.02.20 09: 40 Eine Arbeitsgemeinschaft der Verlage Böhlau Verlag · Wien · Köln · Weimar Verlag Barbara Budrich · Opladen · Toronto facultas · Wien Wilhelm Fink · Paderborn Narr Francke Attempto Verlag / expert Verlag · Tübingen Haupt Verlag · Bern Verlag Julius Klinkhardt · Bad Heilbrunn Mohr Siebeck · Tübingen Ernst Reinhardt Verlag · München Ferdinand Schöningh · Paderborn transcript Verlag · Bielefeld Eugen Ulmer Verlag · Stuttgart UVK Verlag · München Vandenhoeck & Ruprecht · Göttingen Waxmann · Münster · New York wbv Publikation · Bielefeld utb 5351 Ira Frost Statistik für Wirtschaftswissenschaftler Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http: / / dnb.dnb.de abrufbar. © 2020 · expert verlag GmbH Dischingerweg 5 · D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Alle Informationen in diesem Buch wurden mit großer Sorgfalt erstellt. Fehler können dennoch nicht völlig ausgeschlossen werden. Weder Verlag noch Autoren oder Herausgeber übernehmen deshalb eine Gewährleistung für die Korrektheit des Inhaltes und haften nicht für fehlerhafte Angaben und deren Folgen. Internet: www.expertverlag.de eMail: info@verlag.expert Einbandgestaltung: Atelier Reichert, Stuttgart Printed in Germany utb-Nr.: 5351 ISBN 978-3-8252-5351-6 (Print) ISBN 978-3-8385-5351-1 (ePDF) Vorwort Es ist offensichtlich, dass Statistik zunehmend in fast alle Disziplinen, ja sogar in den Alltag eindringt. So sind statistische Methoden aus den Wirtschaftswissenschaften nicht mehr wegzudenken. Entsprechend gibt es eine F¨ ulle hervorragender und ausf¨ uhrlicher Lehrb¨ ucher zu diesem Fach. Doch gerade diese F¨ ulle scheint viele Studienanf¨anger zu ¨ uberfordern. Das vorliegende Buch m¨ochte deshalb insbesondere den Einstieg ins Fach Statistik erleichtern und damit den Boden f¨ ur eine sp¨ater vertiefende Lekt¨ ure bereiten. Die Grundlage dieses Buches bilden die Vorlesungen und ¨ Ubungen, die ich f¨ ur die Studierenden der Betriebswirtschaftslehre an der Hochschule M¨ unchen abgehalten habe. Da dieses Buch Basiswissen vermittelt, gen¨ ugen in aller Regel die allgemeinen Grundkenntnisse der Schulmathematik. Allerdings ist es h¨aufig die Formelsprache, die ”mathematischen Laien“ den Zugang erschwert. Um Zusammenh¨ange und Vorg¨ange klar, effizient und universal auszudr¨ ucken - gerade in den Wirtschaftswissenschaften - sind Formeln jedoch unverzichtbar. So finden sich in diesem Buch zahlreiche Formeln. Damit die durch die Formeln dargestellten Zusammenh¨ange leichter zu erfassen sind, werden diese zus¨atzlich verbal erl¨autert bzw. kommentiert. Oft ist es unbefriedigend, fertige Formeln (Ergebnisse) vorgesetzt zu bekommen. Deswegen werden einige dieser Formeln, wie etwa der Verschiebungssatz f¨ ur die Varianz (Abschnitt 2.5), die Kleinsten-Quadraten-Sch¨atzer (Kapitel 5) sowie ausgew¨ahlte Ergebnisse in Sch¨atzen und Testen explizit hergeleitet. Außerdem macht es einfach mehr Spaß, die erworbenen mathematischen Kenntnisse anzuwenden. Ausf¨ uhrliche, Schritt f¨ ur Schritt erkl¨arte Beispiele unterst¨ utzen das Selbststudium sowie die Vor- und Nachbereitung des Vorlesungsstoffes. Eine richtige Methode zu erkennen und Ergebnisse sachgerecht zu interpretieren setzt voraus, dass man die Instrumente beherrscht. Deswegen werden zus¨atzlich zu praxisorientierten auch rein technisch ausgerichtete (Rechen-) Beispiele ausgef¨ uhrt. Um das Gelernte zu festigen, stehen ¨ Ubungsaufgaben zum Download unter https: / / www.utb-shop.de/ 9783825253516 bereit. Zu allen Aufgaben k¨onnen außerdem Musterl¨osungen heruntergeladen werden. Die Musterl¨osungen erm¨oglichen es den Lernenden, ihre eigenen Ergebnisse zu ¨ uberpr¨ ufen. Das Buch gliedert sich in drei Teile und folgt damit den klassischen Statistik-Einf¨ uhrungskursen. Der erste Teil ¨ uber die deskriptive Statistik beginnt mit der Einf¨ uhrung in die Terminologie. Standardverfahren der Datenaufbereitung (Tabellen und Grafiken), Kennzahlen zur Datenbeschreibung sowie Grundlagen der linearen Regression werden eingef¨ uhrt. Ein Kapitel ¨ uber Indexzahlen schließt den ersten Teil ab. Der zweite Teil behandelt die elementare Wahrscheinlichkeitsrechnung, die wiederum f¨ ur die induktive Statistik erforderlich ist. Hier finden sich neben mathematisch anmutenden Grenzwerts¨atzen auch einige wichtige praxisrelevante Modelle der Wahrscheinlichkeitsverteilung. Wenn auch der Leser die Grenzwerts¨atze nicht im Detail beherrschen muss, sollte er sich jedoch ihrer Bedeutung bewusst sein. Auf diesen Grenzwerts¨atzen basieren die praktischen Methoden der Statistik. Der dritte Teil ¨ uber die induktive Statistik pr¨asentiert ausgew¨ahlte anwendungsorientierte Themen aus dem klassischen Bereich der induktiven Statistik, n¨amlich aus Sch¨atz- und Testverfahren. F¨ ur die Auseinandersetzung mit diesen Methoden sind Ergebnisse aus der Wahrscheinlichkeitsrechnung erforderlich. Ich m¨ochte an dieser Stelle nicht vers¨aumen, Herrn Dr. Arnulf Krais vom expert verlag meinen Dank auszusprechen. Ohne seine Unterst¨ utzung w¨are dieses Projekt nicht m¨oglich gewesen. Zudem haben viele Personen an diesem Buch mittelbar oder unmittelbar mitgewirkt: die Studierenden der Hochschule M¨ unchen, die durch Gespr¨ache innerhalb und außerhalb der Vorlesungen zahlreiche Anregungen gegeben haben, Harald Frost, Markus Wessler, Helge R¨opcke, Alexandra Fuchs-W¨ urth, Alexandra und Lydia Frost. Ihnen allen danke ich sehr. Schließlich danke ich Herrn Hans Wolfertstetter, meinem ehemaligen Lehrer, der trotz seiner Lehrverpflichtungen das Manuskript durchgesehen hat. Vorwort zur zweiten Auflage Die vorliegende Auflage ist gegen¨ uber der ersten im wesentlichen unver¨andert. Um Missverst¨andnisse zu vermeiden, wurden Textkorrekturen vorgenommen. Erg¨anzt wurde die neue Auflage durch Konzentrationsmessung (Lorenzkurve, Gini-Koeffizient). Ich bedanke mich bei Kollegen und Studierenden f¨ ur Hinweise auf Fehler und Verbesserungsvorschl¨age. Mein besonderer Dank gilt Herrn Dr. Josef Dietl f¨ ur das Durchlesen und wertvolle Anregungen. Vorwort zur dritten Auflage In der dritten Auflage wurden einige Druckfehler korrigiert. Vielen Dank f¨ ur hilfreiche Hinweise von Studierenden und Lesern. Vorwort zur vierten Auflage Diverse Tippfehler wurden in der vierten Auflage beseitigt; das Beispiel in der Einf¨ uhrung ist aktualisiert worden. Ich bedanke mich f¨ ur die hilfreichen Hinweise von Studierenden und Lesern. Ein besonderer Dank gilt Herrn Patrick Sorg vom expert verlag. Inhaltsverzeichnis Vorwort Einf¨ uhrung 1 I. Deskriptive Statistik 3 1. Grundbegriffe 5 1.1. Merkmalsarten . . . . . . . . . . . . . . . . . . . . . . 6 1.2. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . 9 2. Eindimensionale Daten 11 2.1. H¨aufigkeitstabelle und Grafiken . . . . . . . . . . . . . 12 2.2. Empirische Verteilungsfunktion . . . . . . . . . . . . . 15 2.3. Klassierte Daten und Histogramm . . . . . . . . . . . . 17 2.4. Lageparameter . . . . . . . . . . . . . . . . . . . . . . 21 2.5. Streuungsparameter . . . . . . . . . . . . . . . . . . . . 35 2.6. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . 46 3. Konzentrationsparameter 51 3.1. Lorenzkurve und Gini-Koeffizient zur Messung der relativen Konzentration . . . . . . . . . . . . . . . . . . . 52 3.2. Maßzahlen der absoluten Konzentration . . . . . . . . 57 3.3. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . 60 4. Zweidimensionale Daten 63 4.1. Kontingenztabelle . . . . . . . . . . . . . . . . . . . . . 65 4.2. Bedingte Verteilungen und statistische Unabh¨angigkeit 68 4.3. Kontingenzkoeffizient nach Pearson . . . . . . . . . . . 71 4.4. Korrelationskoeffizient nach Bravais-Pearson . . . . . . 75 4.5. Rangkorrelationskoeffizient nach Spearman . . . . . . . 83 4.6. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . 86 5. Lineare Regressionsanalyse 89 5.1. Methode der kleinsten Quadrate . . . . . . . . . . . . . 89 5.2. Streuungszerlegung und Bestimmtheitsmaß . . . . . . . 93 5.3. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . 97 6. Verh¨altniszahlen 99 6.1. Messzahlen . . . . . . . . . . . . . . . . . . . . . . . . 99 6.2. Preisindizes . . . . . . . . . . . . . . . . . . . . . . . . 103 6.3. Umbasieren und Verketten von Indizes . . . . . . . . . 109 6.4. Mengenindizes . . . . . . . . . . . . . . . . . . . . . . . 113 6.5. Wertindex . . . . . . . . . . . . . . . . . . . . . . . . . 115 6.6. Deflationierung . . . . . . . . . . . . . . . . . . . . . . 116 6.7. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . 119 II. Elementare Wahrscheinlichkeitsrechnung 121 7. Einf¨ uhrung 123 7.1. Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . 123 7.2. Mengen und Mengenoperationen . . . . . . . . . . . . . 125 7.3. Ereignisse in Mengenschreibsweise . . . . . . . . . . . . 127 7.4. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . 128 8. Der Begriffder Wahrscheinlichkeit 129 8.1. Klassische Wahrscheinlichkeit nach Laplace . . . . . . . 129 8.2. Statistische Wahrscheinlichkeit . . . . . . . . . . . . . . 130 8.3. Subjektive Wahrscheinlichkeit . . . . . . . . . . . . . . 132 8.4. Axiome von Kolmogorov . . . . . . . . . . . . . . . . . 132 8.5. Bedingte Wahrscheinlichkeit und Unabh¨angigkeit . . . 135 8.6. Theorem von Bayes . . . . . . . . . . . . . . . . . . . . 138 8.7. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . 144 9. Kombinatorik 147 9.1. Grundregel . . . . . . . . . . . . . . . . . . . . . . . . 148 9.2. Permutation . . . . . . . . . . . . . . . . . . . . . . . . 149 9.3. Variation . . . . . . . . . . . . . . . . . . . . . . . . . . 150 9.4. Kombination . . . . . . . . . . . . . . . . . . . . . . . 150 9.5. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . 152 10.Zufallsvariablen 153 10.1. Eindimensionale Zufallsvariablen . . . . . . . . . . . . 153 10.2. Mehrdimensionale Zufallsvariablen . . . . . . . . . . . 154 10.3. Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . 154 10.4. Stetige Zufallsvariablen . . . . . . . . . . . . . . . . . . 160 10.5. Parameter von Zufallsvariablen . . . . . . . . . . . . . 162 10.6. Spezielle diskrete Verteilungen . . . . . . . . . . . . . . 170 10.7. Spezielle stetige Verteilungen . . . . . . . . . . . . . . . 182 10.8. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . 194 11.Die wichtigsten Grenzwerts¨atze 199 11.1. Ungleichung von Tschebyscheff . . . . . . . . . . . . . 199 11.2. Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . 200 11.3. Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . 202 III. Induktive Statistik 205 12.Statistische Sch¨atzverfahren 207 12.1. Grundgesamtheit, Stichproben . . . . . . . . . . . . . . 207 12.2. Punktsch¨atzer . . . . . . . . . . . . . . . . . . . . . . . 210 12.3. Chi-Quadrat-Verteilung . . . . . . . . . . . . . . . . . . 216 12.4. Student- oder t-Verteilung . . . . . . . . . . . . . . . . 217 12.5. Intervallsch¨atzer . . . . . . . . . . . . . . . . . . . . . . 219 12.6. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . 233 13.Statistische Testverfahren 237 13.1. Signifikanztest f¨ ur Parameter einer Verteilung . . . . . 240 13.2. Exakter Binomialtest . . . . . . . . . . . . . . . . . . . 242 13.3. Approximativer Binomialtest . . . . . . . . . . . . . . . 250 13.4. Gauß-Test f¨ ur den Erwartungswert . . . . . . . . . . . 254 13.5. t-Test f¨ ur den Erwartungswert . . . . . . . . . . . . . . 264 13.6. Ein alternatives Entscheidungskriterium . . . . . . . . 267 13.7. Chi-Quadrat-Test f¨ ur die Varianz . . . . . . . . . . . . 270 13.8. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . 274 14.Chi-Quadrat-Tests 277 14.1. Chi-Quadrat-Anpassungstest . . . . . . . . . . . . . . . 277 14.2. Chi-Quadrat-Unabh¨angigkeitstest . . . . . . . . . . . . 281 14.3. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . 286 Anhang 289 Tabellen 291 Literaturverzeichnis 299 Index 301 Einf¨ uhrung Statistik ist ein Instrument zur Gewinnung von Informationen aus Daten. Sie besch¨aftigt sich mit Methoden der Datenaufbereitung und -analyse. Man unterteilt Statistik im Allgemeinen in zwei Teilgebiete: deskriptive oder beschreibende Statistik und induktive oder schließende Statistik auch Inferenzstatistik genannt. Die Aufgabe der deskriptiven Statistik besteht darin, Informationen aus Daten zu filtern; sie knapp, dennoch aussagekr¨aftig, durch Kennzahlen, Tabellen und Grafiken darzustellen. Jeder von uns kennt sicherlich ein ¨ahnliches Beispiel wie das folgende Ergebnis der Befragung ¨ uber die durchschnittliche Nutzung des Internets in Minuten pro Tag in den Jahren 2000 bis 2018 in Deutschland. Die Studie wurde von GfK Media and Communication Research durchgef¨ uhrt; insgesamt haben 2009 Personen ab 14 Jahren in Deutschland daran teilgenommen. 1 Das von ARD/ ZDF ver¨offentlichte Ergebnis wird in Form einer Tabelle (siehe Tabelle 0.1) und einer Grafik (siehe Abbildung) pr¨asentiert. Die im Beobachtungszeitraum j¨ahrlich errechnete Kennzahl Durchschnittswert der Internetnutzung bildet die Grundlage der beiden Darstellungsformen. An der Grafik erkennt man, dass die durchschnittliche Nutzung des Internets jedes Jahr (mit einer kleinen Unterbrechung in den Jahren 2004 und 2015) zunimmt. Das erneute Wachstum ab 2004 verlief etwas langsamer, bis ein Sprung von 2012 auf 2013 stattfand. Die durchschnittliche Nutzungsdauer bleibt etwa auf diesem Niveau und steigt sichtbar von 2015 bis 2018. Außer tabellarischen und grafischen Darstellungen von Daten umfasst die deskriptive Statistik Themenbereiche, die aus Ver¨offentlichungen der Wirtschaftswelt bzw. allgemein aus den Medien vertraut sind, wie etwa Korrelation, Regression und Indexzahlen. Statistische Methoden, die in der induktiven Statistik vorgestellt werden, erm¨oglichen uns, aus dem Ergebnis der obigen Studie mit 1252 Personen Aussagen ¨ uber die durchschnittliche Nutzung des Internets in der Bundesrepublik 1 https: / / de.statista.com/ statistik/ daten/ studie/ 1388/ umfrage/ taegliche-nutzung-des-internets-in-minuten/ (Stand: 09.09.2019) 2 Einf¨ uhrung Werte Werte Werte 2000 17 2006 48 2012 83 2001 26 2007 54 2013 108 2002 35 2008 58 2014 111 2003 45 2009 70 2015 108 2004 43 2010 77 2016 128 2005 46 2011 80 2017 149 2018 196 Tabelle 0.1.: T¨agliche Nutzung des Internets in Minuten Deutschland zu treffen 2 . Wir k¨onnen unter bestimmten Bedingungen auch beurteilen, ob ein Stichprobenergebnis eher als zuf¨allig anzusehen ist oder nicht. Kurz gesagt: Die Inferenzstatistik besch¨aftigt sich mit Methoden, die Schl¨ usse aus einer Teilgesamtheit (Stichprobe) auf die Grundgesamtheit erm¨oglichen. Es liegt auf der Hand, dass solche Aussagen mit Unsicherheiten verbunden sind. Eine Wissenschaft, die sich Unsicherheit und Zufall zu eigen macht, ist die Wahrscheinlichkeitstheorie. Deshalb ist es nur verst¨andlich, dass zahlreiche Ergebnisse aus der Wahrscheinlichkeitstheorie in der induktiven Statistik intensiv genutzt werden. 2 ”Es ist mir noch heute schleierhaft, daß man herausbringt, was sechzig Millionen Menschen denken, wenn man zweitausend Menschen befragt. Erkl¨aren kann ich das nicht. Es ist eben so.“ (Elisabeth Noelle-Neumann, Meinungsforscherin). Zitat aus [16] 3 Teil I. Deskriptive Statistik 5 1. Grundbegriffe Wir haben in der Einf¨ uhrung die Begriffe Grundgesamtheit und Stichprobe bereits erw¨ahnt. Wie sie genau definiert sind, erfahren wir jetzt. Eine Grundgesamtheit oder Population ist eine Gruppe aller uns interessierenden Einheiten, auch statistische Einheiten genannt. So bilden beispielsweise alle Internetnutzer ab 14 Jahren in der Bundesrepublik Deutschland eine Grundgesamtheit. Eine Grundgesamtheit muss nicht unbedingt aus Personen bestehen. Die Einheiten k¨onnen L¨ander, Geb¨aude, Unternehmen, Maschinen, Waren etc. sein. Eine Stichprobe ist ein Teil der Grundgesamtheit, der, nach einem bestimmten Verfahren ausgew¨ahlt, tats¨achlich untersucht wird. Grunds¨atzlich gibt es zwei Auswahlverfahren: die bewusste Auswahl und die Zufallsauswahl. Bei einer Zufallsauswahl besitzt jedes Element der Grundgesamtheit die gleiche Chance, in die Stichprobe zu gelangen. Bei einer bewussten Auswahl wie etwa der Quotenstichprobe erfolgt die Auswahl nur teilweise zuf¨allig. Sind beispielsweise 21% der bayerischen Bev¨olkerung evangelisch, so sollen ebenso 21% der Personen in der Stichprobe der evangelischen Kirchen angeh¨oren. Unter Einhaltung dieser Quoten hat ein Interviewer freie Hand. In der Gfk-Studie zur Internetnutzung bilden die 2009 befragten Personen ab 14 Jahren eine Stichprobe. Die Anzahl der Einheiten in der Stichprobe nennt man Stichprobenumfang; er wird in der Regel mit n bezeichnet. (In der GfK-Studie ist n = 2009.) Eine Vollerhebung liegt vor, wenn alle Einheiten der Grundgesamtheit untersucht werden. An jeder ausgew¨ahlten Einheit wird eine bestimmte Eigenschaft beobachtet. Diese Eigenschaft nennen wir Merkmal oder Variable. Wir bezeichnen sie mit Großbuchstaben wie X, Y, Z o. a.. Die m¨oglichen (unterschiedlichen) Werte eines Merkmals heißen Merkmalsauspr¨agungen. In der GfK-Studie wurde das Merkmal T¨agliche Nutzung des Internets in Minuten untersucht. Die Auspr¨agungen dieses Merkmals sind nicht negative ganze Zahlen. 6 1. Grundbegriffe Unter Daten verstehen wir die beobachteten Auspr¨agungen in der Stichprobe. Um Daten zu beschaffen, kann man beispielsweise eine Befragung durchf¨ uhren; sie kann schriftlich, m¨ undlich, telefonisch oder online erfolgen. Auch interne Firmenunterlagen, die amtliche Statistik ( www.destatis.de ) oder Ver¨offentlichungen der Deutschen Bundesbank ( http: / / www.bundesbank.de ) k¨onnen als Datenquelle fungieren. (Ausf¨ uhrlicher zur Stichprobenverfahren und Datenbeschaffung siehe [2], [6], [11].) Merkmalsauspr¨agungen und Daten bezeichnen wir mit Kleinbuchstaben wie a j , x i , . . .. Dabei weist der Index i oder j auf den i-ten Datenpunkt oder die j-te Auspr¨agung hin. Um die eingef¨ uhrten Begriffe zu festigen, betrachten wir nun den folgenden Ausschnitt eines Fragebogens 1 : Alter: . . . . . . Jahre Geschlecht M¨annlich. . . Weiblich . . . Wie sch¨atzen Sie Ihre eigenen Mathematik-Kenntnisse ein? (1 = sehr gut bis 6 = sehr schlecht) 1 . . . 2 . . . 3 . . . 4 . . . 5 . . . 6 . . . Bei dieser Untersuchung werden die Merkmale Alter (X), Geschlecht (Y ) und Einsch¨atzung der eigenen Mathematik-Kenntnisse (Z) erhoben. Die Auspr¨agungen des Merkmals X sind beispielsweise Zahlen zwischen 18 und 34, die des Merkmals Y sind m = m¨annlich oder w = weiblich, und schließlich hat das Merkmal Z die Auspr¨agungen 1 = sehr gut bis 6 = sehr schlecht. Tabelle 1.1 gibt ein m¨ogliches Ergebnis einer solchen Befragung wieder. 1.1. Merkmalsarten Merkmale, die numerischer Natur sind, heißen quantitativ. Beispiele sind u. a. Alter, Einkommen, Wohnfl¨ache. Merkmale mit verbal for- 1 Eine solche Umfrage k¨onnte beispielsweise im Rahmen einer Verbesserung der Studienbedingungen durchgef¨ uhrt werden. 1.1. Merkmalsarten 7 Stud. Nr. Alter Geschlecht Einsch¨atzung der i x i y i Mathe.-Kenntnisse z i 1 20 m 1 2 19 m 3 3 21 m 5 4 20 w 1 5 28 m 2 6 28 w 2 7 34 w 5 8 25 m 5 9 25 w 5 10 25 m 3 11 18 w 2 12 24 m 4 13 19 w 3 14 19 w 3 15 24 w 4 16 21 w 2 17 22 m 2 18 22 w 2 19 20 w 1 20 18 w 2 Tabelle 1.1.: Ergebnis der Befragung unter n = 20 Studierenden des ersten Semesters mulierten Auspr¨agungen nennt man qualitativ. Beispiele sind u. a. Geschlecht, Religionszugeh¨origkeit, Nationalit¨at. Aber auch das Merkmal Einsch¨atzung der eigenen Mathematik-Kenntnisse ist qualitativ, obwohl seine Auspr¨agungen Ziffern sind. Diese Ziffern stellen eine (im Prinzip) willk¨ urliche Kodierung dar. Man kann sie beliebig ¨andern, wenn man nur die Ordnung beibeh¨alt. Statt die Kodierung ”1 = sehr gut“, ”2 = gut“ bis ”6 = sehr schlecht“ k¨onnte man zum Beispiel auch ”10 = sehr gut“, ”9 = gut“ bis ”5 = sehr schlecht“ w¨ahlen. Bei einer Datenanalyse kann man die verschiedenen Merkmale nicht gleich behandeln. F¨ ur das Merkmal Alter ergibt zum Beispiel die Aussage ”A ist doppelt so alt wie B“ einen Sinn, w¨ahrend eine solche Aussage f¨ ur die Merkmale Geschlecht oder Einsch¨atzung der Mathematik- Kenntnisse sinnlos ist. F¨ ur eine ad¨aquate Datenanalyse werden Merkmale nach zwei weiteren Kriterien in Kategorien aufgeteilt. Bez¨ uglich ihrer quantitativen Eigenschaften unterscheidet man drei Skalenniveaus: 8 1. Grundbegriffe 1. Auf dem niedrigsten Skalenniveau befindet sich die Nominalskala. Alle Auspr¨agungen nominal skalierter Merkmale lassen sich nur nach ihrer Art unterscheiden und sind gleichwertig. Die Merkmale Geschlecht, Religionszugeh¨origkeit oder Nationalit¨at sind einige Beispiele daf¨ ur. 2. Auf der n¨achsth¨oheren Skalenstufe steht die Ordinalskala. Zwischen den Auspr¨agungen ordinal skalierter Merkmale gibt es eine Rangordnung. Beispiele sind u. a. Einsch¨atzung der eigenen Mathematik-Kenntnisse, Beurteilung der Gesch¨aftslage (zum Beispiel im Rahmen des ifo-Konjunkturtests). 3. Die metrische oder kardinale Skala befindet sich auf dem h¨ochsten Skalenniveau. In der Literatur findet man eine weitere Unterteilung der Kardinalskala in Intervall- und Verh¨altnisskala. Die Verh¨altnisskala besitzt einen nat¨ urlichen Nullpunkt. Beispiele daf¨ ur sind Alter, Einkommen oder Wohnfl¨ache. Quotientenbildung ist f¨ ur die Verh¨altnisskala sinnvoll, d. h., es lassen sich Aussagen treffen wie ”Herr A verdient doppelt so viel wie Frau A. Daf¨ ur ist sie halb so alt wie er“. Solche Aussagen sind f¨ ur intervallskalierte Merkmale nicht sinnvoll, denn die Intervallskala basiert auf Differenzen. Sie besitzt keinen nat¨ urlichen Nullpunkt. Ein klassisches Beispiel dazu ist Temperatur in ◦ C bzw. Fahrenheit. Wir lassen im Folgenden die Unterscheidung außer Acht und sprechen einfach von der Kardinal- oder metrischen Skala. Eine weitere Unterscheidung der Merkmale erfolgt nach der Abz¨ahlbarkeit ihrer Auspr¨agungen. Merkmale heißen diskret, wenn ihre Auspr¨agungen abz¨ahlbar sind, d. h. man kann sie ”durchnummerieren“. Beispiele sind u. a. Haushaltsgr¨oße, Anzahl der Kinder, Alter in Jahren. Kann man die Auspr¨agungen eines Merkmals nicht abz¨ahlen, sondern nur messen, dann heißt das Merkmal stetig. Beispiele sind u. a. Alter, Wohnfl¨ache, Lebensdauer. Je nach Ziel einer Studie k¨onnen stetige in diskrete Merkmale ¨ uberf¨ uhrt werden. So kann man beispielsweise das stetige Merkmal Alter (das Altern kann man als einen kontinuierlichen Prozess in der Zeit ansehen) in Jahren, wie etwa 1 Jahr, 2 Jahre usw., angeben, wodurch es einen diskreten Charakter erh¨alt. 1.2. Zusammenfassung 9 1.2. Zusammenfassung Wichtige Begriffe Merkmale (Variable) Qualitatives Merkmal Merkmalsauspr¨agungen Quantitatives Merkmal Statistische Einheiten (Merkmalstr¨ager) Nominalskala Grundgesamtheit (Population) Ordinalskala Stichprobe Kardinalskala (Metrische Skala) Vollerhebung Diskret Daten Stetig 11 2. Eindimensionale Daten Daten heißen eindimensional, wenn sie nur Werte eines einzigen Merkmals darstellen. Untersucht man an jeder Einheit zwei Merkmale gemeinsam, z. B. X: Alter und Y : Gewicht, dann heißen sie zweidimensional. Wir werden uns mit den beiden genannten F¨allen besch¨aftigen und beginnen in diesem Kapitel mit dem eindimensionalen Fall. Die hier gewonnenen Ergebnisse werden in der zweidimensionalen Datenanalyse im nachfolgenden Kapitel verwendet und erweitert. Sei X ein Merkmal mit m Auspr¨agungen a 1 , . . . , a m , das an n ∈ N Merkmalstr¨agern gemessen wird. Die Daten ¨ uber X, die an den n Merkmalstr¨agern beobachtet werden, seien x 1 , . . . , x n . Man nennt diese Daten Rohdaten oder Urliste 1 . Beispiel 2.1 Betrachten wir die folgende Urliste des Merkmals X: Alter (in Jahren), beobachtet an n = 10 Personen: 20 19 21 20 28 28 34 25 25 25. Nach unserer Notation lauten die n = 10 Beobachtungen (Daten) x 1 = 20, x 2 = 19, . . . , x 10 = 25 und die m = 6 Auspr¨agungen sind: a 1 = 19, a 2 = 20, a 3 = 21, a 4 = 25, a 5 = 28, a 6 = 34. (Ordnet man sie der Gr¨oße nach, so verringert man das Risiko, Auspr¨agungen zu vergessen.) Eine weitere Urliste stellt das Ergebnis einer Beobachtung des Merkmals Y : Geschlecht (n = 10) dar: m, m, m, w, m, w, w, m, w, w. Nach unserer Notation sind: y 1 = m, y 2 = m, . . . , y 10 = w. Die m = 2 Auspr¨agungen lauten: b 1 = m, b 2 = w. 1 m = Anzahl der Auspr¨agungen, n = Anzahl der Daten = Anzahl der Merkmalstr¨ager, (m ≤ n) 12 2. Eindimensionale Daten 2.1. H¨aufigkeitstabelle und Grafiken In der Urliste (Rohdaten) befinden sich Werte, die mehrfach vorkommen. Urlisten sind in der Regel un¨ ubersichtlich. Die einfachste Methode, sie zu ordnen, ist das Erstellen einer H¨aufigkeitstabelle. In eine H¨aufigkeitstabelle tr¨agt man zu jeder Auspr¨agung 2 a j die Anzahl ein, wie oft diese beobachtet wurde. Die H¨aufigkeit, mit der a j in der Urliste vorkommt, wird mit f(a j ) oder kurz f j bezeichnet. Man nennt f j auch die absolute H¨aufigkeit von a j . Die absoluten H¨aufigkeiten addieren sich zu n (im Anhang finden Sie eine ausf¨ uhrliche Erkl¨arung zum Summenzeichen ∑ ): m ∑ j=1 f j = n (2.1) Der Anteilswert h j = h(a j ) = f j n (2.2) heißt entsprechend die relative H¨aufigkeit von a j . Die Anteilswerte summieren sich zu Eins: m ∑ j=1 h j = 1 (2.3) Beispiel 2.2 Z¨ahlt man f¨ ur den Datensatz im Beispiel 2.1, wie oft jeweils eine Auspr¨agung a j erscheint, so erh¨alt man die absoluten H¨aufigkeiten: f 1 = 1, f 2 = 2, f 3 = 1, f 4 = 3, f 5 = 2, f 6 = 1. Summenbildung dieser Werte ergibt 6 ∑ j=1 f j = 1 + 2 + 1 + 3 + 2 + 1 = 10 = n. Die relativen H¨aufigkeiten (Anteilswerte) sind h 1 = 1 10 , h 2 = 2 10 , h 3 = 1 10 , h 4 = 3 10 , h 5 = 2 10 , h 6 = 1 10 . 2 Der Klarheit halber vereinbaren wir: Der Laufindex i wird f¨ ur die Werte einer Urliste und der Laufindex j f¨ ur die Auspr¨agungen verwendet. Somit gilt: i = 1, . . . , n und j = 1, . . . , m. 2.1. H¨aufigkeitstabelle und Grafiken 13 Die Anteilswerte addieren sich zu Eins 6 ∑ j=1 h j = 0, 1 + 0, 2 + 0, 1 + 0, 3 + 0, 2 + 0, 1 = 1, 0. Auspr¨agung Nr. Auspr¨agung Absolute H. Relative H. j a j f j h j 1 19 1 0,1 2 20 2 0,2 3 21 1 0,1 4 25 3 0,3 5 28 2 0,2 6 34 1 0,1 10 1,0 Tabelle 2.1.: H¨aufigkeitstabelle des Merkmals Alter aus Beipiel 2.1 Grafisch kann man die absoluten oder relativen H¨aufigkeiten als Stab- oder S¨aulendiagramm darstellen. Man zeichnet ¨ uber a 1 , . . . , a m jeweils einen zur x-Achse senkrechten Stab der H¨ohe f j bzw. h j (siehe Abbildung 2.1). Stabdiagramme stellt man auf, wenn lediglich die H¨aufigkeiten der Auspr¨agungen dargestellt oder verglichen werden sollen. Sie sind sehr einfach zu konstruieren und f¨ ur Merkmale mit wenigen Auspr¨agungen geeignet. Eine andere grafische Darstellung ist das Kreis- oder Tortendiagramm. Dabei werden die H¨aufigkeiten als Kreissektoren abgebildet. Der Kreis stellt die Gesamtheit dar. Kreisdiagramme sind besonders zur Darstellung von Anteilen geeignet. Der Winkel des j-ten Kreissektors α j wird so bestimmt, dass α j = h j · 360 ◦ . (2.4) Abbildung 2.2 stellt die Daten aus Tabelle 2.1 als Kreisdiagramm dar. Die Winkel der Sektoren sind: α 1 = 0, 1 · 360 ◦ = 36 ◦ , α 2 = 0, 2 · 360 ◦ = 72 ◦ , α 3 = 0, 1 · 360 ◦ = 36 ◦ , α 4 = 0, 3 · 360 ◦ = 108 ◦ , α 5 = 0, 2 · 360 ◦ = 72 ◦ , α 6 = 0, 1 · 360 ◦ = 36 ◦ . 14 2. Eindimensionale Daten Alter f j 19 1 20 2 21 25 3 28 34 Abbildung 2.1.: Stabdiagramm f¨ ur das Merkmal Alter aus Tabelle 2.1 10% 19 Jahre 20% 20 Jahre 10% 21 Jahre 30% 25 Jahre 20% 28 Jahre 10% 34 Jahre Abbildung 2.2.: Kreisdiagramm f¨ ur das Merkmal Alter aus Tabelle 2.1 2.2. Empirische Verteilungsfunktion 15 2.2. Empirische Verteilungsfunktion Definition 2.1 Seien a 1 < . . . < a m die Auspr¨agungen des Merkmals X. Die Funktion H(x) = ∑ a j ≤ x h(a j ) (2.5) nennt man empirische Verteilungsfunktion von X. H(x) gibt den Anteil der Werte an, die kleiner oder gleich x sind. Zur Konstruktion von H(x) kumuliert man zun¨achst die relativen H¨aufigkeiten, d. h. f¨ ur jedes j = 1, . . . , m bestimmt man H j = H(a j ) = j ∑ i=1 h(a i ) (2.6) Diese bilden die Werte von H(x) f¨ ur a j ≤ x < a j+1 , j = 1, . . . , m − 1; f¨ ur x < a 1 ist H(x) = 0 und f¨ ur x ≥ a m ist H(x) = 1. Beispiel 2.3 Wir bestimmen f¨ ur das Merkmal Alter aus Tabelle 2.1 die empirische Verteilungsfunktion. Dazu werden zun¨achst die relativen H¨aufigkeiten kumuliert (siehe Tabelle 2.2). Alter Rel. H¨aufigkeit Kumulierte rel. H¨aufigkeit j a j h j H j = j ∑ i=1 h(a i ) 1 19 0,1 0,1 2 20 0,2 0,3 ( = 0,1 + 0,2 ) 3 21 0,1 0,4 ( = 0,1 + 0,2 + 0,1 ) 4 25 0,3 0,7 ( = 0,1 + 0,2 + 0,1 + 0,3 ) 5 28 0,2 0,9 ( = 0,1 + 0,2 + 0,1 + 0,3 + 0,2 ) 6 34 0,1 1,0 ( = 0,1 + 0,2 + 0,1 + 0,3 + 0,2 + 0,1 ) Tabelle 2.2.: Relative und kumulierte relative H¨aufigkeiten 16 2. Eindimensionale Daten Die empirische Verteilungsfunktion f¨ ur das Merkmal X: Alter ist gegeben durch H(x) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0 f¨ ur x < 19 0, 1 f¨ ur 19 ≤ x < 20 0, 3 f¨ ur 20 ≤ x < 21 0, 4 f¨ ur 21 ≤ x < 25 0, 7 f¨ ur 25 ≤ x < 28 0, 9 f¨ ur 28 ≤ x < 34 1, 0 f¨ ur x ≥ 34 Lesebeispiele: Der Funktionswert an der Stelle • x = 30 : H(30) = 0, 9 bedeutet, dass 90 % der Befragten j¨ unger oder gleich 30 Jahre alt sind. • x = 20 : H(20) = 0, 3 bedeutet, dass 30 % der Befragten j¨ unger oder gleich 20 Jahre alt sind. • x = 21, 6 : H(21, 6) = 0, 4 bedeutet, dass 40 % der Befragten j¨ unger oder gleich 21,6 Jahre alt sind. Grafisch wird H(x) in Abbildung 2.3 dargestellt. Alter H(x) 19 22 25 28 31 34 0.2 0.4 0.6 0.8 1.0 Abbildung 2.3.: Empirische Verteilungsfunktion f¨ ur das Merkmal Alter aus Tabelle 2.1 2.3. Klassierte Daten und Histogramm 17 Eigenschaften der empirischen Verteilungsfunktion: 1. H(x) ist eine monoton steigende Treppenfunktion, d. h. f¨ ur alle x 1 ≤ x 2 gilt H(x 1 ) ≤ H(x 2 ). 2. An den Auspr¨agungen a 1 < . . . < a m springt H(x) um die entsprechende relative H¨aufigkeit. 3. Der zugeh¨orige Funktionswert an den Sprungstellen ist der obere Wert (d. h. sie ist rechtsseitig stetig). 4. H(x) besitzt die Grenzwerte lim x →−∞ H(x) = 0 und lim x →∞ H(x) = 1. 2.3. Klassierte Daten und Histogramm H¨aufig ist es sinnvoll, Daten in Klassen oder Gruppen aufzuteilen, etwa dann, wenn ein Merkmal sehr viele Auspr¨agungen besitzt. Man spricht dann von klassierten oder gruppierten Daten. Zum Beispiel wurden im Rahmen der Nationalen Verzehrsstudie II (NVS II) 3 die Haushalts-Netto-Einkommen der Teilnehmer in 9 Einkommensklassen aufgeteilt. Von 19.329 Befragten gaben 2137 ”Weiß nicht“ an und 1445 machten keine Angabe. Einschließlich dieser Ergebnisse gibt Tabelle 2.3 die absoluten Anzahlen der Beobachtungen in der einzelnen Klassen wieder. Formal werden aus einer Urliste k ∈ N Klassen (Gruppen) [b 0 , b 1 [, [b 1 , b 2 [, . . . , [b k − 1 , b k [ gebildet. Jede Klasse [b j − 1 , b j [, j = 1, . . . , k ist ein linksabgeschlossenes und rechtsoffenes Intervall, d. h. f¨ ur alle x ∈ [b j − 1 , b j [ gilt b j − 1 ≤ x < b j . Man nennt b j − 1 Klassenuntergrenze und b j Klassenobergrenze. Die absolute H¨aufigkeit f j stellt entsprechend die Anzahl der Beobachtungen dar, die in die Klasse j fallen. (Die Klassenh¨aufigkeit wird auch Besetzungszahl genannt.) 3 NVS II ist eine Studie des Bundesministeriums f¨ ur Ern¨ahrung, Landwirtschaft und Verbraucherschutz zum Ern¨ahrungsverhalten der 14bis 80-j¨ahrigen Bev¨olkerung Deutschlands. 18 2. Eindimensionale Daten Einkommen von ... Absolute bis unter ... H¨aufigkeit Unter 400 191 400 − 750 648 750 − 1500 3125 1500 − 2000 2811 2000 − 2500 2711 2500 − 3000 2054 3000 − 4000 2539 4000 − 5000 882 5000 und mehr 786 Weiß nicht 2137 Keine Angabe 1445 Tabelle 2.3.: Haushalts-Netto-Einkommen (in Euro) der NVS II-Teilnehmer Offene Klassen wie etwa die 1. bzw. die 9. Klasse der Tabelle 2.3 sollte man vermeiden, da man keine Klassenmitte (siehe (2.9) unten) bestimmen kann. Klassenmitten werden wir sp¨ater (siehe (2.18) im Abschnitt 2.4.4) als N¨aherungswerte f¨ ur Klassenmittelwerte ben¨otigen. F¨ ur die Anzahl der Klassen k gibt es verschiedene Empfehlungen. Im Lexikon der Statistik ([24]) steht zum Beispiel k ≈ √ n, wobei mindestens 5 Klassen gebildet werden sollten (k ≥ 5). Alternativ dazu bieten sich die folgenden Faustregeln ([15]) an: Anzahl der Beobachtungen Anzahl der Klassen < 50 5 − 7 50 − 200 7 − 9 200 − 500 9 − 10 500 − 1000 10 − 11 1000 − 5000 11 − 13 5000 − 50.000 13 − 17 > 50.000 17 − 20 Nicht zuletzt h¨angt die Klassenbildung auch von der Art der vorliegenden Daten und dem Anspruch des Auswertenden ab. Sicher ist: Je kleiner k gew¨ahlt wird, umso mehr Informationen gehen verloren. 2.3. Klassierte Daten und Histogramm 19 Die Differenz zwischen der oberen und der unteren Klassengrenze b j − b j − 1 (2.7) nennt man Klassenbreite. Als Klassendichte bezeichnet man den Quotienten aus H¨aufigkeit und Klassenbreite: f ∗ j = f j b j − b j − 1 (2.8) Es ist sinnvoll, jede Klassengrenze so zu w¨ahlen, dass sie nicht mit einem beobachteten Wert zusammenf¨allt. Die Klassenmitte m j bestimmt man gem¨aß: m j = b j + b j − 1 2 (2.9) Wir haben ungruppierte Daten als Stabdiagramm dargestellt: F¨ ur jede Auspr¨agung a j auf der x-Achse wurde ein vertikaler Stab der H¨ohe f j oder h j gezeichnet. Auf ¨ahnliche Weise k¨onnen klassierte Daten grafisch als Histogramm aufbereitet werden. Ein Histogramm erh¨alt man, wenn man ¨ uber jedem der k Intervalle [b 0 , b 1 [, [b 1 , b 2 [, . . . , [b k − 1 , b k [ ein Rechteck mit dem Fl¨acheninhalt proportional zu f j oder h j zeichnet. Die Proportionalit¨at des Rechtecksinhalts zu den H¨aufigkeiten bestimmt somit die Rechtecksh¨ohen. Da der Fl¨acheninhalt eines Rechtecks sich aus der Multiplikation von H¨ohe und Breite ergibt und die Breite des Rechtecks durch die Klassenbreite b j − b j − 1 wiedergegeben wird, entspricht die Rechtecksh¨ohe der Klassendichte f ∗ j oder h ∗ j = h j b j − b j −1 . Aufgrund der Konstruktion des Histogramms gilt k ∑ j=1 h ∗ j · (b j − b j − 1 ) = k ∑ j=1 h j b j − b j − 1 · (b j − b j − 1 ) = k ∑ j=1 h j = 1. Das heißt: Der Fl¨acheninhalt eines Histogramms ist gleich eins (bzw. gleich n, wenn man f ∗ j statt h ∗ j einsetzt). 20 2. Eindimensionale Daten Beispiel 2.4 Tabelle 2.4 gibt das durchschnittliche monatliche Nettoeinkommen der Elterngeld-Bezieher im Jahr 2009 vor der Geburt des Kindes 4 wieder. Insgesamt wurden die Einkommen von n = 130.836 Elterngeld- Beziehern erhoben. Daraus wurden k = 5 Klassen gebildet. In diesem Fall haben alle Klassen die gleiche Breite: b j − b j − 1 = 200 (j = 1, . . . , 5). An der Gestalt des Histogramms in Abbildung 2.4 erkennt man, dass mit steigendem Einkommen die Anzahl der Elterngeld-Bezieher sinkt. Einkommen von ... Klassen- Absolute Dichte Relative bis unter ... breite H¨aufigk. H¨aufigk. [b j − 1 ; b j [ b j − b j − 1 f j f ∗ j h j 1500 − 1700 200 41.430 207,15 0,317 1700 − 1900 200 33.228 166,14 0,254 1900 − 2100 200 24.102 120,51 0,184 2100 − 2300 200 17.764 88,82 0,136 2300 − 2500 200 14.312 71,56 0,109 130.836 1,000 Tabelle 2.4.: Durchschnittliches monatliches Nettoeinkommen der Elterngeld- Bezieher 2009 1500 1700 31, 7% 1900 25, 4% 2100 18, 4% 2300 13, 6% 2500 10, 9% Abbildung 2.4.: Histogramm zur Tabelle 2.4 4 Aus einer Ver¨offentlichung der S¨ uddeutschen Zeitung am 31. Juli/ 1. August 2010 2.4. Lageparameter 21 2.4. Lageparameter Im vorangegangenen Kapitel haben wir erste, aus Rohdaten gewonnene Informationen in Form von Diagrammen und Tabellen dargestellt. In diesem Kapitel gehen wir einen Schritt weiter: Wir werden Daten durch ihr Zentrum charakterisieren. Kennzahlen, die den Ort beschreiben, an dem sich das Zentrum der H¨aufigkeitsverteilung befindet, heißen Lageparameter. Abbildung 2.5 zeigt zwei gleichf¨ormige H¨aufigkeitsverteilungen, die jedoch an zwei verschiedenen Stellen der x-Achse liegen. Das Zentrum der einen Population liegt bei 3,6 auf der Merkmalsachse, das Zentrum der anderen bei 12,1. Abh¨angig von der Skalierungsart wendet man arithmetisches Mittel, Median oder Modalwert (Modus) als Lageparameter an. 2.4.1. Modus Definition 2.2 Unter dem Modus oder Modalwert x mod versteht man diejenige Auspr¨agung, die am h¨aufigsten 5 vorkommt. Ist der Modalwert eindeutig, d. h. hat die H¨aufigkeitsverteilung ein eindeutiges Maximum, dann spricht man von einer unimodalen (eingipfeligen) Verteilung. Gibt es zwei oder mehrere Modalwerte, dann heißt die Verteilung multimodal (mehrgipfelig) (siehe Abbildung 2.6). 3, 6 12, 1 Abbildung 2.5.: Zwei gleiche H¨aufigkeitsverteilungen mit unterschiedlichen Lagen 5 Mehrere ”h¨aufigste“ Werte sind m¨oglich. 22 2. Eindimensionale Daten a) b) Abbildung 2.6.: a) unimodal (eingipfelig), b) bimodal (zweigipfelig) Bei einer unimodalen Verteilung ist der Modus in der grafischen Darstellung als Stabdiagramm diejenige Auspr¨agung mit dem h¨ochsten Stab. Modalwerte sind f¨ ur alle Skalierungsarten bestimmbar. Beispiel 2.5 Von f¨ unf Sch¨ ulern wurden die Merkmale X: Alter, Y : Geschlecht und Q: Sportnote erfasst (Tabelle 2.5). Die Modalwerte sind: x mod = 8, y mod = m, q mod = 1. Das bedeutet: Achtj¨ahrige Sch¨ uler bilden die Mehrheit, Jungen sind h¨aufiger vertreten als M¨adchen, und die meisten Sch¨ uler erzielen eine sehr gute Leistung in Sport. Sch¨ uler Nr. Alter (Jahre) Geschlecht Sportnote i x i y i q i 1 8 m 1 2 10 w 1 3 12 w 1 4 8 m 3 5 8 m 2 Tabelle 2.5.: Ergebnis der Erhebung der Merkmale X: Alter, Y : Geschlecht und Q: Sportnote 2.4.2. Median Definition 2.3 Der Median oder Zentralwert x med ist der Wert mit folgender Eigenschaft: Mindestens 50% aller Merkmalswerte sind kleiner oder gleich x med und mindestens 50% aller Merkmalswerte sind gr¨oßer oder gleich x med . 2.4. Lageparameter 23 Um den Median zu bestimmen, muss die Urliste zun¨achst der Gr¨oße nach geordnet werden x [1] ≤ x [2] ≤ . . . ≤ x [n] . Dabei wird der Laufindex der geordneten Urliste zwischen zwei eckige Klammern gesetzt. Den Median bestimmt man dann folgendermaßen: x med = ⎧ ⎪ ⎨ ⎪ ⎩ x [ n +1 2 ] n ungerade 1 2 ( x [ n 2 ] + x [ n 2 +1] ) n gerade (2.10) Beispiel 2.6 Wir betrachten die folgende Urliste x 1 = 7, x 2 = 13, x 3 = 3, x 4 = 10, x 5 = 3. Die geordnete Urliste lautet x [1] = 3, x [2] = 3, x [3] = 7, ︸ ︷︷ ︸ x med x [4] = 10, x [5] = 13. Der Median bestimmt sich gem¨aß (2.10) f¨ ur n = 5 x med = x [ 5+1 2 ] = x [3] = 7. Das heißt: Mindestens 50% der Werte sind ≤ 7 und mindestens 50% sind ≥ 7. Beispiel 2.7 Erweitern wir die Urliste um drei weitere Werte x 1 = 7, x 2 = 13, x 3 = 3, x 4 = 10, x 5 = 3, x 6 = 20, x 7 = 17, x 8 = 13 Die geordnete Urliste x [1] = 3, x [2] = 3, x [3] = 7, x [4] = 10, x [5] = 13 ︸ ︷︷ ︸ x med = 10+13 2 =11,5 , x [6] = 13, x [7] = 17, x [8] = 20. Man bestimmt den Median nach (2.10) f¨ ur n = 8 x med = x [ 8 2 ] + x [ 8 2 +1] 2 = x [4] + x [5] 2 = 10 + 13 2 = 11, 5. 24 2. Eindimensionale Daten Das heißt: Mindestens 50% der Werte sind ≤ 11, 5 und mindestens 50% sind ≥ 11, 5. Der Median teilt also die geordnete Urliste in zwei H¨alften. Ist n eine ungerade Zahl, so ist der Median unmittelbar abzulesen (Beispiel 2.6). Ist n eine gerade Zahl, dann befinden sich zwei Werte in der Mitte der geordneten Urliste. Als Median bezeichnet man dann die H¨alfte der Summe der beiden in der Mitte stehenden Werte (Beispiel 2.7). Den Median kann man f¨ ur ordinal- oder kardinalskalierte Merkmale bestimmen. Weiter gilt f¨ ur den Median x med : H(x med ) ≥ 0, 5 (2.11) Dabei ist H(x) die empirische Verteilungsfunktion von X. Diese Eigenschaft nutzt man f¨ ur die Medianbestimmung bei einer großen Datenmenge. Beispiel 2.8 Das Ifo Institut f¨ ur Wirtschaftsforschung erstellt monatlich den ifo- Gesch¨aftsklimaindex, der als Fr¨ uhindikator f¨ ur die konjunkturelle Entwicklung in Deutschland angesehen wird. In diesem Zusammenhang werden Unternehmen gebeten, ihre gegenw¨artige Gesch¨aftslage zu beurteilen (1 = gut, 2 = befriedigend oder 3 = schlecht). Das Ergebnis in Tabelle 2.6 ist fiktiv (jedoch nicht unm¨oglich). Laufindex j 1 2 3 Beurteilung a j 1 2 3 Anzahl der Unternehmer f j 40 15 45 100 Tabelle 2.6.: Ergebnis einer fiktiven Umfrage zur Gesch¨aftslage F¨ ur die Bestimmung des Medians bilden wir die kumulierten H¨aufigkeiten: Absolute H¨aufigkeit f j 40 15 45 100 Relative H¨aufigkeit h j 0,40 0,15 0,45 1,00 Kumul. rel. H¨aufigkeit H j 0,40 0,55 1,00 2.4. Lageparameter 25 Wegen H 1 = H(1) = 0, 40 < 0, 5 und H 2 = H(2) = 0, 55 > 0, 5 ist x med = 2. Das bedeutet: Mindestens 50% der befragten Unternehmen beurteilen die Gesch¨aftslage als befriedigend oder gut. (Mindestens 50% der befragten Unternehmen beurteilen die Gesch¨aftslage als befriedigend oder schlecht.) 2.4.3. Arithmetisches Mittel Definition 2.4 F¨ ur eine Urliste x 1 , x 2 , . . . , x n heißt ¯ x = 1 n n ∑ i=1 x i (2.12) das arithmetische Mittel von X. Liegen H¨aufigkeitsdaten vor, dann errechnet sich das arithmetische Mittel wie folgt: ¯ x = 1 n m ∑ j=1 a j · f j = m ∑ j=1 a j · h j (2.13) Beispiel 2.9 Eine Befragung von neun Familien nach der Anzahl der Kinder liefert das folgende Ergebnis: 3 2 0 0 6 0 1 0 3 Das Merkmal X: Anzahl der Kinder besitzt 5 Auspr¨agungen, die zusammen mit ihren H¨aufigkeiten in der folgenden Tabelle wiedergegeben werden: 26 2. Eindimensionale Daten j 1 2 3 4 5 Anzahl der Kinder a j 0 1 2 3 6 Anzahl der Familien f j 4 1 1 2 1 9 Das arithmetische Mittel, berechnet aus der Urliste ¯ x = 1 9 9 ∑ i=1 x i = 1 9 (3 + 2 + 0 + 0 + 6 + 0 + 1 + 0 + 3) = 5 3 bzw. aus den H¨aufigkeitsdaten ¯ x = 5 ∑ j=1 a j · h j = 0 · 4 9 + 1 · 1 9 + 2 · 1 9 + 3 · 2 9 + 6 · 1 9 = 5 3 . Im Durchschnitt hat jede Familie 1,7 (gerundet) Kinder. (Das arithmetische Mittel muss keinen tats¨achlich vorkommenden Wert annehmen.) Wichtige Eigenschaften des arithmetischen Mittels: 1. F¨ ur das arithmetische Mittel gilt die Schwerpunkteigenschaft n ∑ i=1 (x i − ¯ x) = 0 (2.14) Das heißt: Die Summe der Abweichungen der Werte von ihrem arithmetischen Mittel verschwindet. Das arithmetische Mittel l¨asst sich somit als der Schwerpunkt der Daten auf der Zahlengeraden interpretieren. An diesem Punkt w¨ urde sich die Zahlengerade im Gleichgewicht befinden. 2. Lineare Transformation. F¨ ur a, b ∈ R sei Y = a + b · X, d. h. f¨ ur jedes i = 1, 2, . . . , n ist y i = a + b · x i , dann gilt: ¯ y = a + b · ¯ x (2.15) 2.4. Lageparameter 27 Die Schwerpunkteigenschaft folgt aus n ∑ i=1 (x i − ¯ x) = n ∑ i=1 x i − n ∑ i=1 ¯ x = n ∑ i=1 x i − n · ¯ x = n ∑ i=1 x i − n ∑ i=1 x i = 0 und die zweite Eigenschaft gilt, weil ¯ y = 1 n n ∑ i=1 y i = 1 n n ∑ i=1 (a + b · x i ) = 1 n ( n ∑ i=1 a + n ∑ i=1 bx i ) = 1 n ( n · a + b · n ∑ i=1 x i ) = a + b · 1 n n ∑ i=1 x i = a + b · ¯ x. 2.4.4. Modus, Median, arithmetisches Mittel f¨ ur klassierte Daten Definition 2.5 Als Modalklasse bezeichnet man diejenige Klasse mit der h¨ochsten Dichte. Siehe dazu Beispiel 2.10. In der Literatur, wie etwa in [11], wird die Klassenmitte der Modalklasse als N¨aherung f¨ ur den Modalwert der Urliste vorgeschlagen. Wie bei der Urliste kann es in diesem Fall auch zwei oder mehrere Klassen mit ”h¨ochster“ Dichte geben. 28 2. Eindimensionale Daten F¨ ur klassierte Daten kann man den Median nicht mehr als einen einzigen Wert bestimmen; lediglich die Klasse [b z − 1 , b z [, in der der Median liegt, l¨asst sich angeben. Sie wird mit Hilfe der empirischen Verteilungsfunktion H(x) bestimmt. Dazu n¨ utzt man die folgende Eigenschaft des Medians aus: x med ∈ [b z − 1 , b z [ ⇔ H(x med ) ≥ 0, 5 (2.16) Als Medianklasse [b z − 1 , b z [ bezeichnet man diejenige Klasse, f¨ ur die die empirische Verteilungsfunktion erstmals den Wert 0,5 ¨ uberschreitet. Siehe dazu wiederum Beispiel 2.10. Zur Bestimmung des arithmetischen Mittels bei klassierten Daten seien f¨ ur j = 1, . . . , k gegeben: • f j Anzahl der Daten in der j-ten Klasse • ¯ x j arithmetisches Mittel der j-ten Klasse Das gesamte arithmetische Mittel der Datenreihe errechnet sich als ¯ x ges = 1 n k ∑ j=1 f j · ¯ x j = k ∑ j=1 h j · ¯ x j (2.17) Beispiel 2.10 Die folgende Tabelle gibt das Ergebnis einer Befragung von 1000 Haushalten nach dem verf¨ ugbaren Monatseinkommen X (in e ) wieder. Einkommen von. . . Anzahl Klassenmit- Klassen- Kumul. rel. bis unter. . . telwert dichte H¨aufigkeit [b j − 1 , b j [ f j ¯ x j f ∗ j H j 0 − 1000 98 800 0,098 0,098 1000 − 2000 263 1600 0,263 0,361 2000 − 4000 288 2200 0,144 0,649 4000 − 6000 236 5100 0,118 0,885 6000 − 10.000 115 7500 0,029 1,000 1000 a) Modalklasse: [1000, 2000[. Diese ist die Klasse mit der h¨ochsten Dichte f ∗ 2 = 0, 263 2.4. Lageparameter 29 b) Median: x med ∈ [2000, 4000[. Denn H 2 = 0, 361 < 0, 5 und H 3 = 0, 649 > 0, 5 c) Arithmetisches Mittel: ¯ x ges = 1 1000 5 ∑ j=1 f j · ¯ x j = 98 · 800 + 263 · 1600 + 288 · 2200 + 236 · 5100 + 115 · 7500 1000 = 3198, 90 Im Monat stehen jedem Haushalt durchschnittlich 3198,90 e zur Verf¨ ugung. Sind die Gruppenmittelwerte unbekannt, dann kann man das Gesamtmittel nicht berechnen. Man kann es jedoch mit Hilfe der Klassenmitten m j approximieren. Durch Ersetzen von ¯ x j durch m j in der Formel erh¨alt man eine N¨aherung des Gesamtmittelwertes: ¯ m = 1 n k ∑ j=1 f j · m j (2.18) Bemerkungen: • Die Genauigkeit der Approximation l¨asst sich optimieren, wenn die Klassenmitte ein guter Repr¨asentant f¨ ur die jeweilige Klasse ist. Dies ist dann der Fall, wenn innerhalb der Klassen die Werte ann¨ahernd gleichm¨aßig um die Klassenmitte verteilt sind. • Rechentechnisch ist es vorteilhaft, wenn die Klassenmitten einfache Zahlen sind. Beispiel 2.11 Wir nehmen an, dass f¨ ur den Datensatz aus dem Beispiel 2.10 die Klassenmittelwerte unbekannt sind. Sie werden durch die Klassenmitten m 1 = 500, m 2 = 1500, m 3 = 3000, m 4 = 5000, m 5 = 8000 gesch¨atzt. 30 2. Eindimensionale Daten Der Sch¨atzwert f¨ ur das durchschnittliche verf¨ ugbare Monatseinkommen pro Haushalt betr¨agt somit ¯ m = 1 1000 5 ∑ j=1 f j · m j = 98 · 500 + 263 · 1500 + 288 · 3000 + 236 · 5000 + 115 · 8000 1000 = 3407, 50. Bei dieser Einkommensverteilung geht man davon aus, dass pro Haushalt im monatlichen Mittel 3407,50 e zur Verf¨ ugung stehen. 2.4.5. Modus, Median, arithmetisches Mittel im Vergleich Den Modalwert bzw. die Modalwerte kann man f¨ ur alle Skalierungsarten bestimmen. Der Median verlangt, dass mindestens eine Ordinalskala vorliegt. Das arithmetische Mittel kann man nur f¨ ur metrisch skalierte (kardinalskalierte) Merkmale berechnen. Die folgende Tabelle gibt eine ¨ Ubersicht: Lageparameter Skalenart Modus Median Arithmetisches Mittel Nominal Ja Nein Nein Ordinal Ja Ja Nein Kardinal Ja Ja Ja Ein Wert, der nicht typisch f¨ ur eine Datenreihe ist, kann ein arithmetisches Mittel extrem ver¨andern, wodurch ein falscher Eindruck ¨ uber die Daten entstehen kann. Als Beispiel betrachten wir die Reihe 1 1 1 1 2 mit dem Median x med = 1 und dem arithmetischen Mittel ¯ x = 1, 2. Ersetzt man den letzten Wert (2) nun durch 5, so lautet die Reihe 1 1 1 1 5. Das arithmetische Mittel betr¨agt jetzt ¯ x = 1, 8, w¨ahrend der Median x med = 1 sich nicht ver¨andert hat. Im Gegensatz zum arithmetischen 2.4. Lageparameter 31 Mittel bleibt der Median von einem untypischen Wert unber¨ uhrt. Diese Eigenschaft des Medians nennt man robust. Eine weitere wichtige Eigenschaft einer Verteilung ist die Symmetrie. Eine Verteilung heißt symmetrisch, wenn die rechte und die linke H¨alfte der Verteilung zueinander ann¨ahernd spiegelbildlich sind. Sie heißt rechtsschief oder linkssteil, wenn kleine Werte h¨aufig vorkommen, große selten. Sie heißt linksschief oder rechtssteil, wenn ¨ uberwiegend große Werte auftreten. Bei einem kardinal skalierten Merkmal, dessen Verteilung eingipfelig ist, gilt die folgende Lageregel (siehe Abbildung 2.7): ¯ x = x med = x mod ⇔ Symmetrische Verteilung ¯ x > x med > x mod ⇔ Linkssteile Verteilung ¯ x < x med < x mod ⇔ Rechtssteile Verteilung (2.19) a) b) c) Abbildung 2.7.: a) symmetrisch: ¯ x = x med = x mod , b) linkssteil: ¯ x > x med > x mod , c) rechtssteil: ¯ x < x med < x mod 32 2. Eindimensionale Daten 2.4.6. Geometrisches Mittel Definition 2.6 Das geometrische Mittel von T nicht negativen Zahlen x 1 , x 2 , . . . , x T ist x geom = T √ √ √ √ T ∏ t=1 x t (2.20) Dabei ist ∏ T t=1 x t = x 1 · x 2 · . . . · x T . Viele Prozesse in der ¨ Okonomie sind Wachstumsprozesse. Das Endergebnis eines Wachstumsprozesses entsteht durch Multiplikationen von Wachstumsfaktoren mit dem Anfangswert ¨ uber mehrere Perioden hinweg. Deswegen ist f¨ ur die Ermittlung des durchschnittlichen Wachstumsfaktors das geometrische Mittel geeignet. Ein klassisches Beispiel f¨ ur einen ¨okonomischen Wachstumsprozess ist die Kapitalentwicklung ¨ uber einen bestimmten Zeitraum: Ausgehend von einem Anfangskapital K 0 und einem (konstanten) Zinssatz i p. a. erh¨alt man nach T Jahren ein Kapital von K T = (1 + i) T K 0 . Das Kapital w¨achst um den Faktor (1 + i) j¨ahrlich. Wenn der Zinssatz nicht konstant ist (i 1 f¨ ur das erste Jahr, i 2 f¨ ur das zweite Jahr usw.), dann entwickelt sich das Kapital im Zeitraum von beispielsweise 3 Jahren gem¨aß K 3 = (1 + i 3 ) · (1 + i 2 ) · (1 + i 1 )K 0 . Allgemein ergibt sich f¨ ur T Perioden K T = (1 + i T ) · . . . · (1 + i 1 )K 0 . Die Zinss¨atze i t (t = 1, . . . , T ) variieren Periode f¨ ur Periode. Es stellt sich hier die Frage nach dem durchschnittlichen Zinssatz pro Periode. Um den durchschnittlichen Zinssatz zu ermitteln, muss man zun¨achst den durchschnittlichen Zinsfaktor bestimmen. F¨ ur T Perioden ist der 2.4. Lageparameter 33 durchschnittliche Zinsfaktor pro Periode nichts anderes als der konstante Faktor (1 + i), der ¨ uber T Perioden hinweg den gleichen Endbetrag wie die sukzessive Multiplikation der Zinsfaktoren mit dem Anfangskapital K 0 erbringt, d. h., es gilt (1 + i 1 ) · (1 + i 2 ) · . . . · (1 + i T )K 0 = (1 + i) T K 0 . Nach dieser Gleichung muss sich der durchschnittliche Zinsfaktor pro Periode gem¨aß (1 + i) = T √ √ √ √ T ∏ t=1 (1 + i t ) berechnen lassen. Er ist somit das geometrische Mittel der T Zinsfaktoren. Der gesuchte durchschnittliche Zinssatz i ergibt sich folglich als i = T √ √ √ √ T ∏ t=1 (1 + i t ) − 1. Beispiel 2.12 Ein Betrag von K 0 = 5000 e wird drei Jahre lang verzinst. Die Zinss¨atze betragen f¨ urs erste Jahr 1%, f¨ urs zweite 2% und f¨ urs dritte 4%. Die Zinsen werden jeweils dem bisher angesammelten Kapital zugeschlagen und mitverzinst. Nach einem Jahr betr¨agt das Kapital (in e ) K 1 = (1 + 0, 01) · 5000 = 5050, nach zwei Jahren K 2 = (1 + 0, 02) · 5050 = 5151 und nach drei Jahren K 3 = (1 + 0, 04) · 5151 = 5357, 04. Das Kapital w¨achst also mit den Faktoren 1,01 im ersten, 1,02 im zweiten und 1,04 im dritten Jahr. Auf drei Jahre bezogen betr¨agt der Zinsfaktor 1, 04 · 1.02 · 1, 01 = 1, 071408. Dies entspricht einem j¨ahrlichen konstanten Zinsfaktor von 3 √ 1, 071408 = 1, 023257559. 34 2. Eindimensionale Daten Dieser liefert ¨ uber drei Jahre hinweg ebenfalls einen Betrag von 5357,04 e . Der Zinssatz (in %) betr¨agt somit im Mittel (1, 023257559 − 1) · 100 = 2, 3257559 pro Jahr. (Damit die Rechenschritte nachvollzogen werden k¨onnen, werden die Ergebnisse nicht gerundet.) Nach diesem Einf¨ uhrungsbeispiel formulieren wir die Anwendung des geometrischen Mittels in einem Wachstumsprozess allgemein. Dazu seien x 0 , x 1 , . . . , x T Merkmalswerte, die sich ¨ uber T Zeitperioden mit einem Anfangswert x 0 hinweg entwickeln. q t = x t x t −1 Wachstumsfaktor der Periode t w t = (q t − 1) · 100% Wachstumsrate der Periode t Es gilt x T = T ∏ t=1 q t · x 0 . (2.21) Das geometrische Mittel der T Wachstumsfaktoren q 1 , . . . , q T q = T √ √ √ √ T ∏ t=1 q t (2.22) stellt den durchschnittlichen Wachstumsfaktor dar, und w = (q − 1) · 100% (2.23) gibt die durchschnittliche Wachstumsrate wieder. 2.5. Streuungsparameter 35 2.5. Streuungsparameter Lageparameter zeigen, wo die Daten auf der Merkmalsachse liegen. F¨ ur eine Beschreibung von Verteilungen reicht dies jedoch nicht aus. So kann zum Beispiel das durchschnittliche Pro-Kopf-Einkommen in zwei Populationen identisch sein, obwohl in der einen Population die Einkommen gleichm¨aßig verteilt sind, w¨ahrend in der anderen große Unterschiede zwischen Arm und Reich herrschen. Diese Unterschiede oder Schwankungen sind in vielen Bereichen der Wirtschaftswissenschaften von Interesse. So wird das Auf und Ab der Aktienkurse oder Zinsen genau beobachtet und analysiert. Ebenso wird jedes Unternehmen Qualit¨atsschwankungen seiner Produkte vermeiden wollen. Es ist somit sinnvoll, zus¨atzlich zu Lageparametern Streuungsparameter anzugeben. Definition 2.7 Den Abstand zwischen dem gr¨oßten (x max ) und dem kleinsten Wert (x min ) R = x max − x min (2.24) nennt man Spannweite. Beispiel 2.13 Betrachten wir die folgenden Datens¨atze: Datensatz 1: 2 5 5 5 5 30 Datensatz 2: 2 5 15 13 29 30 Die Spannweite des ersten Datensatzes betr¨agt R 1 = 30 − 2 = 28, die des zweiten betr¨agt R 2 = 30 − 2 = 28. 2.5.1. Empirische Varianz, Standardabweichung, Variationskoeffizient Die Bestimmung der Spannweite ist sehr simpel. Sie hat jedoch den Nachteil, dass man ¨ uber die ”inneren“ Werte, wie Beispiel 2.13 zeigt, keine Aussage treffen kann. Dort sind die Spannweiten gleich, obwohl die Daten sehr unterschiedlich strukturiert sind. Die empirische Varianz gibt das Ausmaß der Datenstreuung um das arithmetische Mittel an. 36 2. Eindimensionale Daten Definition 2.8 Das arithmetische Mittel der quadrierten Abweichungen der Werte von ihrem arithmetischen Mittel ¯ x s 2 = 1 n n ∑ i=1 (x i − ¯ x) 2 (2.25) heißt die empirische Varianz 6 von X. Beispiel 2.14 F¨ ur die Datens¨atze aus Beispiel 2.13 seien ¯ x das arithmetische Mittel des Datensatzes 1 und ¯ y das des Datensatzes 2: ¯ x = 2 + 4 · 5 + 30 6 = 8, 67 und ¯ y = 2 + 5 + 15 + 13 + 29 + 30 6 = 15, 67 Man bestimmt die Varianzen gem¨aß (2.25): s 2 X = 1 n n ∑ i=1 (x i − ¯ x) 2 = 1 6 ( (2 − 8, 67) 2 + (5 − 8, 67) 2 + (5 − 8, 67) 2 +(5 − 8, 67) 2 + (5 − 8, 67) 2 + (30 − 8, 67) 2 ) = 553, 33 6 = 92, 22 s 2 Y = 1 n n ∑ i=1 (y i − ¯ y) 2 = 1 6 ( (2 − 15, 67) 2 + (5 − 15, 67) 2 + (15 − 15, 67) 2 +(13 − 15, 67) 2 + (29 − 15, 67) 2 + (30 − 8, 67) 2 ) = 691, 33 6 = 115, 22 6 Im Weiteren sprechen wir einfach von Varianz und meinen in der deskriptiven Statistik damit die empirische Varianz. 2.5. Streuungsparameter 37 ¯ x a) ¯ x b) Abbildung 2.8.: a) Kleine Streuung, b) Große Streuung Ein Vergleich der beiden Datens¨atze im Beispiel 2.13 zeigt: Die Werte des ersten Datensatzes sind homogener (sie schwanken weniger) als die des zweiten. Diese Tatsache wurde von der Spannweite nicht erfasst. Berechnet man hingegen die jeweilige Varianz, so zeigt sich, dass die Varianz des ersten Datensatzes kleiner als die des zweiten ist. Die Varianz s 2 gibt das Ausmaß der Streuung der Daten um ihren Mittelwert ¯ x an (vgl. Abbildung 2.8). Je kleiner s 2 ist, umso mehr Daten befinden sich nahe ¯ x. Sind alle Werte gleich, dann gilt s 2 = 0. Nach oben ist s 2 nicht beschr¨ankt; ihr Minimum liegt bei Null. Man nennt s 2 auch die mittlere quadratische Abweichung vom arithmetischen Mittel ¯ x. Beispiel 2.15 Seien 4, 3, 6, 2, 5 die von f¨ unf Studenten jeweils ben¨otigten Minuten zur Bearbeitung einer Statistik-Aufgabe. Im Mittel ben¨otigt jeder Student ¯ x = 4 + 3 + 6 + 2 + 5 5 = 4 Minuten zur Bearbeitung der Aufgabe. Um die Varianz zu berechnen, ermitteln wir f¨ ur jeden Wert zun¨achst dessen Abweichung von diesem Mittelwert (3. Spalte der Tabelle 2.7). Haben wir diese, so bilden wir ihre Quadrate (4. Spalte derselben Tabelle). Die empirische Varianz errechnen wir nach (2.25): s 2 = 1 n n ∑ i=1 (x i − ¯ x) 2 = 10 5 = 2 (Minuten 2 ) 38 2. Eindimensionale Daten i x i x i − ¯ x (x i − ¯ x) 2 1 4 0 0 2 3 -1 1 3 6 2 4 4 2 -2 4 5 5 1 1 20 0 10 Tabelle 2.7.: Arbeitstabelle zur Berechnung der empirischen Varianz Gem¨aß ihrer Berechnung ist die Einheit der Varianz die Einheit der Daten im Quadrat (im obigen Beispiel Minuten 2 ). Dies f¨ uhrt zu Schwierigkeiten bei der Interpretation der Varianz. Dagegen besitzt die positive Wurzel der Varianz, Standardabweichung genannt, s = √ s 2 (2.26) die gleiche Einheit wie die Daten selbst. Die Standardabweichung l¨asst sich als der mittlere Abstand der einzelnen Werte von ihrem arithmetischen Mittel auffassen. F¨ ur die obigen Daten betr¨agt die Standardabweichung s = √ 2 ≈ 1, 4 Minuten. Das heißt: Im Mittel ben¨otigt jeder Student vier Minuten zur Bearbeitung der Aufgabe. Die durchschnittliche Abweichung von diesem Mittelwert betr¨agt pro Student ca. 1,4 Minuten. F¨ ur s 2 gilt der sogenannte Verschiebungssatz: s 2 = 1 n n ∑ i=1 x 2 i − ¯ x 2 (2.27) 2.5. Streuungsparameter 39 Denn: s 2 = 1 n n ∑ i=1 (x i − ¯ x) 2 = 1 n n ∑ i=1 (x 2 i − 2x i ¯ x + ¯ x 2 ) = 1 n ( n ∑ i=1 x 2 i − 2¯ x n ∑ i=1 x i + n ∑ i=1 ¯ x 2 ) = 1 n n ∑ i=1 x 2 i − 2¯ x · 1 n n ∑ i=1 x i ︸ ︷︷ ︸ ¯ x + 1 n n ∑ i=1 ¯ x 2 ︸ ︷︷ ︸ n¯ x 2 = 1 n n ∑ i=1 x 2 i − 2¯ x 2 + ¯ x 2 = 1 n n ∑ i=1 x 2 i − ¯ x 2 Beispiel 2.16 Wir wenden den Verschiebungssatz f¨ ur die Berechnung der Varianz der Bearbeitungszeit einer Statistik-Aufgabe aus Beispiel 2.15 an: s 2 = 1 n n ∑ i=1 x 2 i − ¯ x 2 = 1 5 ( 4 2 + 3 2 + 6 2 + 2 2 + 5 2 ) − 4 2 = 90 5 − 16 = 2 Liegen H¨aufigkeitsdaten vor, so berechnet man die Varianz wie folgt: s 2 = 1 n m ∑ j=1 (a j − ¯ x) 2 · f j = m ∑ j=1 (a j − ¯ x) 2 · h j (2.28) Beispiel 2.17 Von sechs Studenten seien die jeweils ben¨otigten Minuten zur Bearbeitung einer Statistik-Aufgabe bekannt 3 3 6 2 5 5. Das Merkmal X: Bearbeitungszeit (in Minuten) hat 4 Auspr¨agungen a 1 = 2, a 2 = 3, a 3 = 5, a 4 = 6. 40 2. Eindimensionale Daten Als H¨aufigkeitstabelle dargestellt ergibt sich: j 1 2 3 4 a j 2 3 5 6 f j 1 2 2 1 6 h j 1 6 2 6 2 6 1 6 1 Das arithmetische Mittel betr¨agt ¯ x = ∑ 4 j=1 a j · f j 6 = 2 · 1 + 3 · 2 + 5 · 2 + 6 · 1 6 = 4. Die empirische Varianz betr¨agt (vgl. Tabelle 2.8) s 2 = 4 ∑ j=1 (a j − ¯ x) 2 · h j = 2. Im Mittel braucht jeder Student 4 Minuten f¨ ur die Bearbeitung der Aufgabe. Von diesem Mittelwert weicht die Bearbeitungszeit durchschnittlich √ 2 Minuten ab. j a j h j a j − ¯ x (a j − ¯ x) 2 (a j − ¯ x) 2 · h j 1 2 1 6 -2 4 4 6 2 3 2 6 -1 1 2 6 3 5 2 6 1 1 2 6 4 6 1 6 2 4 4 6 1 12 6 = 2 Tabelle 2.8.: Arbeitstabelle f¨ ur die Berechnung der empirischen Varianz aus H¨aufigkeitsdaten Wenn man sich f¨ ur eine Kapitalanlageform entscheiden m¨ochte, so m¨ochte man wissen, ob die Renditen 7 große Schwankungen aufweisen 7 Rendite ist definiert als der Quotient zwischen dem Ertrag (Verlust) und dem eingesetzten Kapital. Ein Kapital von 100 e , das sich nach einem Jahr zu 108 e vermehrt hat, hat eine Rendite von 8%. Wenn das Kapital nach einem Jahr um 20 e geringer geworden ist, dann betr¨agt die Rendite -20%. 2.5. Streuungsparameter 41 oder ob sie sich stabil um einen bestimmten Wert bewegen. Große Schwankungen bedeuten hohe Risiken, aber auch hohe Gewinnchancen. Vor diesem Hintergrund verwendet man die Standardabweichung als Risikomaß. Im Rahmen des Aktienhandels nennt man sie Volatilit¨at einer Aktie. Je gr¨oßer die Volatilit¨at ist, umso gr¨oßer ist die Chance zu gewinnen, aber auch zu verlieren. Beispiel 2.18 Seien A und B zwei Kapitalanlageformen, deren Renditen in 10 Monaten in Tabelle 2.9 wiedergegeben werden. Beide Anlageformen besitzen die gleiche mittlere Rendite ¯ x A = ¯ x B = 1, 50, jedoch mit unterschiedlichen Standardabweichungen s A = 0, 073 < 0, 235 = s B . Das bedeutet: Mit der Anlageform B kann man eine h¨ohere Rendite als mit der Anlageform A erreichen; das Risiko f¨ ur einen Verlust bei der Anlageform B ist aber ebenfalls h¨oher als bei der Anlageform A. Auch grafisch, wie Abbildung 2.9 zeigt, kann man diesen Sachverhalt erkennen. Die Amplituden der Anlageform B sind deutlich gr¨oßer als die der Anlageform A. Rendite Monat Anlage A Anlage B 1 1,47 1,48 2 1,52 1,35 3 1,50 1,69 4 1,48 1,20 5 1,38 1,88 6 1,54 1,23 7 1,45 1,50 8 1,40 1,20 9 1,64 1,68 10 1,57 1,75 Tabelle 2.9.: Entwicklung der Rendite zweier Kapitalanlagen 42 2. Eindimensionale Daten Rendite in Prozent 1 2 3 4 5 6 7 8 9 10 0 1.2 1.4 1.6 1.8 A B Abbildung 2.9.: Rendite der Anlage A (s A = 0, 073) verl¨auft ruhiger als die der Anlage B (s B = 0, 235) Wichtige Eigenschaften der Varianz: 1. Transformiert man x i (i = 1, . . . , n) gem¨aß y i = a + b · x i (a, b ∈ R ), so transformiert sich s 2x gem¨aß s 2 y = b 2 · s 2 x (2.29) 2. Die Standardabweichung der transformierten Variablen ist somit s y = | b | · s x (2.30) Hat man den Mittelwert ¯ x und die Standardabweichung s berechnet und ist die H¨aufigkeitsverteilung ann¨ahernd symmetrisch, dann kann man in der Praxis die folgenden empirischen Regeln anwenden: 1. Ca. 68% der Daten befinden sich im Ein-s-Bereich (¯ x ± s). 2. Ca. 95% der Daten befinden sich im Zwei-s-Bereich (¯ x ± 2s). 3. Ca. 99,7% der Daten befinden sich im Drei-s-Bereich (¯ x ± 3s). Beispiel 2.19 Nach einer gr¨ undlichen Analyse fand ein Investor heraus, dass die Verteilung der Rendite seiner Kapitalanlage ann¨ahernd symmetrisch 2.5. Streuungsparameter 43 ist. Aus seinen Beobachtungen errechnete er ein arithmetisches Mittel von 10% und eine Standardabweichung von 4%. Aus den empirischen Regeln folgert er, dass 1. ca. 68% der Renditen zwischen 6% (=10% -4%) und 14% (=10% +4%) liegen, 2. ca. 95% der Renditen zwischen 2% und 18% liegen, 3. ca. 99,7% der Renditen zwischen -2% und 22% liegen. Definition 2.9 Der Quotient zwischen der Standardabweichung s und dem arithmetischen Mittel ¯ x = 0 V K = s | ¯ x | (2.31) heißt Variationskoeffizient von X. Der Variationskoeffizient ber¨ ucksichtigt das Datenniveau, indem er die Streuung relativ zum arithmetischen Mittel misst. Außerdem ist V K dimensionslos. Dies erm¨oglicht einen direkten Vergleich mehrerer Datens¨atze. Warum man das Datenniveau bei der Streuungsmessung einbezieht, l¨asst sich anhand des folgenden Beispiels illustrieren. Beispiel 2.20 Wir nehmen an, die mittlere Rendite der Anlageform B aus Beispiel 2.18 betrage ¯ x B = 6, 38. Alle anderen Werte seien konstant geblieben. Insbesondere bleibt s A = 0, 073 < 0, 235 = s B bestehen. Der Variationskoeffizient der Anlage A betr¨agt V K A = s A ¯ x A = 0, 073 1, 50 = 0, 0487 und der der Anlage B betr¨agt V K B = s B ¯ x B = 0, 235 6, 38 = 0, 0368. Es gilt: V K B = 0, 0368 < 0, 0487 = V K A Relativ zu ihrem jeweiligen Niveau ist die Anlageform A risikoreicher als die Anlageform B. 44 2. Eindimensionale Daten 2.5.2. Empirische Varianz bei klassierten Daten Seien f¨ ur j = 1, . . . , k f j Anzahl der Werte in der Gruppe j n = ∑ k j=1 f j gesamter Datenumfang ¯ x j arithmetisches Mittel in der Gruppe j ¯ x ges = 1 n ∑ k j=1 f j x j Gesamtmittel s 2j Varianz in der Gruppe j F¨ ur die gesamte Varianz gilt: s 2 ges = 1 n k ∑ j=1 f j · s 2 j ︸ ︷︷ ︸ s 2 in + 1 n k ∑ j=1 f j (¯ x j − ¯ x ges ) 2 ︸ ︷︷ ︸ s 2 ex (2.32) Der erste Summand ist das arithmetische Mittel der k Varianzen s 2j . Man nennt ihn interne oder innere Varianz und bezeichnet diese mit s 2in . Der zweite Summand ist die Varianz der Klassenmittelwerte ¯ x j und heißt externe oder ¨außere Varianz (s 2ex ). Sind die Werte innerhalb der Gruppen untereinander ¨ahnlich, so ist die interne Varianz klein. Je unterschiedlicher die Gruppen untereinander sind, umso gr¨oßer ist die externe Varianz. Beispiel 2.21 Tabelle 2.10 zeigt das Ergebnis einer Befragung von 1000 Haushalten nach ihrem verf¨ ugbaren Monatseinkommen X (in e ). In der 3. Spalte der Tablelle 2.10 steht in jeder Zeile j das arithmetische Mittel und in der 4. Spalte die Standardabweichung der Klasse j, so bedeutet beispielsweise ¯ x 1 = 800 und s 1 = 150: In der Gruppe der Haushalte mit einem Einkommen unter 1000 e betr¨agt das mittlere Einkommen pro Haushalt 800 e mit einer Standardabweichung von 150 e ; in der Einkommensklasse 2 (von 1000 e bis unter 2000 e ) betr¨agt das mittlere Einkommen 1600 e mit einer Standardabweichung von 50 e . 2.5. Streuungsparameter 45 Einkommen von. . . Anzahl Mittelwert Standardabbis unter. . . weichung [b j − 1 ; b j [ f j ¯ x j s j 0 − 1000 98 800 150 1000 − 2000 263 1600 50 2000 − 4000 288 2200 100 4000 − 6000 236 5100 100 6000 − 10.000 115 7500 100 Tabelle 2.10.: Verf¨ ugbares Einkommen von 1000 Haushalten F¨ ur die Berechnung der Gesamtvarianz ermitteln wir zun¨achst den gesamten Mittelwert: ¯ x ges = 1 1000 5 ∑ j=1 f j · ¯ x j = 98 · 800 + 263 · 1600 + 288 · 2200 + 236 · 5100 + 115 · 7500 1000 = 3.198.900 1000 = 3.198, 9 Die f¨ ur die Gesamtvarianz ben¨otigten Werte der internen und externen Varianz sind (vgl. Tabelle 2.11) s 2 in = ∑ 5 j=1 f j · s 2j 1000 = 9.252.500 1000 = 9.252, 5 und s 2 ex = ∑ 5 j=1 f j (¯ x j − ¯ x ges ) 2 1000 = 4.504.068.790 1000 = 4.504.068, 79. Die Gesamtvarianz ergibt sich somit nach (2.32): s 2 ges = s 2 in + s 2 ex = 9.252, 5 + 4.504.068, 79 = 4.513.321, 29 Die Standardabweichung betr¨agt s ges = 2124, 46. Das heißt: Im Mittel weicht das verf¨ ugbare Monatseinkommen um etwas mehr als 2.000 e vom Mittelwert 3.198,9 e ab. 46 2. Eindimensionale Daten f j s j s 2 j f j · s 2 j ¯ x j − ¯ x ges (¯ x j − ¯ x) 2 f j (¯ x j − ¯ x) 2 98 150 22.500 2.205.000 -2398,9 5.754.721,21 563.962.678,6 263 50 2.500 657.500 -1598,9 2.556.481,21 672.354.558,2 288 100 10.000 2.880.000 -998,9 997.801,21 287.366.748,5 236 100 10.000 2.360.000 1901,1 3.614.181,21 852.946.765,6 115 100 10.000 1.150.000 4301,1 18.499.461,21 2.127.438.039,0 9.252.500 4.504.068.790 Tabelle 2.11.: Arbeitstabelle f¨ ur die Berechnung der internen und der externen Varianz 2.6. Zusammenfassung Zusammengefasst haben wir uns bisher mit den folgenden Fragen besch¨aftigt: 1. Welche Werte werden beobachtet? Wie oft kommen sie vor? 2. Welche Grafik ist geeignet? 3. Gibt es einen Wert, der besonders oft vorkommt? 4. Wo liegt das Zentrum der Verteilung? 5. Welcher ist der kleinste und welcher ist der gr¨oßte Wert? 6. Unterscheiden sich die Werte stark, oder sind sie ¨ahnlich? H¨aufigkeitstabellen sind die einfachste Methode, Daten ¨ ubersichtlich darzustellen. H¨aufig werden Daten in Form von Grafiken ver¨offentlicht. Die Wahl einer Grafik wird von der Art der Merkmale und dem Ziel der Anwender beeinflusst. Will man H¨aufigkeiten darstellen, dann sind Stabdiagramme oder, wenn die Daten klassiert sind, Histogramme geeignet. Anteile stellt man am besten durch Kreis- oder Tortendiagramme dar. Andere grafische Darstellungsm¨oglichkeiten wie das Stamm-Blatt-Diagramm oder den Box-Plot finden Sie zum Beispiel in [11]. Eine weitere Aufgabe der deskriptiven Statistik besteht darin, Daten durch aussagekr¨aftige Kennzahlen (Parameter) zu beschreiben. Lageparameter, welche die Lage von Verteilungen beschreiben, sind Modus (Modalwert), Median (Zentralwert) und arithmetisches Mittel. Der Modalwert ist derjenige Wert, der am h¨aufigsten vorkommt; 2.6. Zusammenfassung 47 der Median teilt die Daten in zwei H¨alften; das arithmetisches Mittel erh¨alt man, wenn man die Datensumme durch die Anzahl der Daten dividiert. Die Anwendung der Lageparameter h¨angt von der Merkmalskala ab. F¨ ur ein nominalskaliertes Merkmal ist der Modalwert der einzige geeignete Lageparameter. Bei ordinalskalierten Merkmalen kommen der Modus und der Median in Frage; bei kardinalskalierten Merkmalen lassen sich alle drei Parameter bestimmen. Im Gegensatz zum Median reagiert das arithmetische Mittel empfindlich gegen¨ uber Extremwerten. Eine Verteilung mit nur einem Modalwert nennt man unimodal. Ansonsten heißt sie multimodal. Eine Verteilung ist symmetrisch, wenn die rechte und die linke H¨alfte der Verteilung zueinander ann¨ahernd spiegelbildlich sind. Sie heißt rechtsschief (linkssteil), wenn kleine Werte h¨aufig vorkommen, große selten. Sie heißt linksschief (rechtssteil), wenn ¨ uberwiegend große Werte auftreten. Besitzt eine Verteilung alle drei Lageparameter und ist sie unimodal, dann kann man aus dem Verh¨altnis der Lageparameter auf die Symmetrie oder Schiefe der Verteilung schließen. Wenn ¯ x > x med > x mod gilt, dann ist die Verteilung rechtsschief; wenn ¯ x < x med < x mod , dann ist sie linksschief; sind alle drei Parameter identisch, dann ist die Verteilung symmetrisch. Liegt ein Wachstumsprozess ¨ uber mehrere Perioden vor, so gibt das geometrische Mittel der Wachstumsfaktoren den durchschnittlichen Wachstumsfaktor an. Ein arithmetisches Mittel zu berechnen ist in diesem Fall nicht der richtige Ansatz, denn der gesamte Wachstumsfaktor resultiert aus Multiplikationen der einzelnen Wachstumsfaktoren. Das arithmetische Mittel gibt den Durchschnitt an, wenn das Endergebnis durch eine Addition der Werte entsteht. Die (empirische) Varianz gibt das Ausmaß der Variationen in den Daten wieder. Diese ist definiert als das arithmetische Mittel der quadrierten Abweichungen der Werte von ihrem arithmetischen Mittel. Deshalb nennt man sie auch die mittlere quadratische Abweichung. Je kleiner die Varianz ist, umso ¨ahnlicher sind die Werte. Im Extremfall sind sie alle gleich; die Varianz nimmt dann ihr Minimum Null an. Nach oben ist die Varianz nicht beschr¨ankt. Die Einheit der Varianz ist das Quadrat der Dateneinheiten. Werden die Daten also beispielsweise in e gemessen, so ist die Einheit der Varianz e 2 . Dies f¨ uhrt zu Schwierigkeiten bei der Interpretation der 48 2. Eindimensionale Daten Varianz. Dagegen besitzt die Standardabweichung die gleiche Einheit wie die Daten selbst. Diese kann man als die mittlere Abweichung der Daten von ihrem arithmetischen Mittel ansehen. Eine dimensionslose Streuungsmaßzahl ist der Variationskoeffizient. Diesen erh¨alt man, wenn man die Standardabweichung durch das arithmetische Mittel dividiert. Im Zusammenhang mit finanzwirtschaftlichen Fragestellungen werden der Variationskoeffizient oder die Standardabweichung als Risikomaß verwendet. Eine Kapitalanlage mit einem h¨oheren Variationskoeffizienten ist risikobehafteter (und gleichzeitig gewinntr¨achtiger) als eine mit einem niedrigeren Variationskoeffizienten. Bewegen sich die Renditen der zu vergleichenden Anlageformen auf einem etwa gleichen Niveau, so kann man die Standardabweichungen zur Risikomessung verwenden. Sind die Niveaus sehr unterschiedlich, so ist der Variationskoeffizient zu verwenden. Die Gesamtvarianz von k Klassen (Gruppen) l¨asst sich als Summe der internen und der externen Varianz darstellen. Die interne Varianz gibt Auskunft ¨ uber die Variabilit¨at der Daten innerhalb der Gruppen. Ist jede Gruppe f¨ ur sich homogen, dann ist die interne Varianz gering. Die externe Varianz sagt etwas ¨ uber die Variationen zwischen den Gruppen aus. Eine große externe Varianz weist darauf hin, dass die Gruppen sich voneinander stark unterscheiden. Notationen, Formeln und ihre Bedeutung n Anzahl der Daten m Anzahl der Merkmalsauspr¨agungen X, Y, . . . Merkmale, Variablen x 1 , . . . , x n Rohdaten (Urliste) a 1 , . . . , a m bzw. x 1 , . . . , x m Merkmalsauspr¨agungen f j = f(a j ) Absolute H¨aufigkeit, j = 1, . . . , m h j = h(a j ) = f j n Relative H¨aufigkeit, j = 1, . . . , m H(x) = ∑ a j ≤ x h(a j ) Empirische Verteilungsfunktion b j − b j −1 Klassenbreite, j = 1, . . . , k f ∗ j = f j b j − b j−1 Klassendichte, j = 1, . . . , k m j = b j + b j−1 2 Klassenmitte, j = 1, . . . , k x mod Modus (Modalwert) 2.6. Zusammenfassung 49 x med Median (Zentralwert) ¯ x = 1 n ∑ n j =1 x i Arithmetisches Mittel ¯ x j Arithmetisches Mittel der Klasse j, j = 1, . . . , m ¯ x ges = 1 n ∑ k j =1 f j · ¯ x j Gesamtmittel aus Klassenmittelwerten ¯ m = 1 n ∑ k j =1 f j · m j N¨aherungswert f¨ ur ¯ x ges q t Wachstumsfaktor zum Zeitpunkt t, t = 1, . . . , T w t = (q t − 1) · 100 Wachstumsrate zum Zeitpunkt t, t = 1, . . . , T q = T √ ∏ T t =1 q t Durchschnittlicher Wachstumsfaktor w = (q − 1) · 100% Durchschnittliche Wachstumsrate R = x max − x min Spannweite s 2 = 1 n ∑ n i =1 (x i − ¯ x) 2 Varianz (mittlere quadratische Abweichung) s 2 = 1 n ∑ n i =1 x 2 i − ¯ x 2 Verschiebungssatz f¨ ur die Varianz s = √ s 2 Standardabweichung V K = s |¯ x | Variationskoeffizient s 2 in = 1 n ∑ k j =1 f j · s 2 j Interne Varianz s 2 ex = 1 n ∑ k j =1 f j (¯ x j − ¯ x ges ) 2 Externe Varianz s 2 ges = s 2 in + s 2 ex Gesamtvarianz 51 3. Konzentrationsparameter In einem um wettbewerbsorientierten Markt wird die Macht eines Unternehmens unter anderem von der Anzahl der Konkurrenten bestimmt. Wird ein Großteil des Gesamtumsatzes von nur wenigen herrschenden Anbietern erbracht, spricht man von einem konzentrierten Markt. Im Zusammenhang mit der Einkommens- und Verm¨ogensverteilung sind folgende Fragestellungen von Interesse: Wie verteilt sich das Volkseinkommen auf die einzelnen Wirtschaftssubjekte? Wie verteilt sich das Verm¨ogen? Wie ver¨andert sich diese Verteilung im Laufe der Zeit? In diesem Rahmen werden einige wichtige statistische Maßzahlen, die das Konzentrationsph¨anomen erfassen k¨onnen, dargestellt. Zun¨achst halten wir fest, dass f¨ ur die Konzentrationsmessung kardinal skalierte Merkmale mit nicht negativen Werten x i ≥ 0, i = 1, 2, . . . , n von n Merkmalstr¨agern vorausgesetzt werden. Ebenso setzen wir voraus, dass eine Summenbildung der Werte ∑ n i=1 x i sinnvoll ist. Je nach Fragestellung unterscheidet man zwischen der relativen und der absoluten Konzentration. Von einer relativen Konzentration spricht man, wenn bei der Konzentrationsmessung die Anzahl der Akteure nicht beachtet wird. Diese ist hoch, wenn ein großer Anteil der Merkmalssumme (z.B. des Verm¨ogens) auf einen kleinen Anteil von Merkmalstr¨agern (z.B. der Bev¨olkerung) entf¨allt. Von einer starken absoluten Konzentration spricht man, wenn ein großer Anteil der Merkmalssumme (z.B. des Umsatzes) auf eine kleine Zahl von Merkmalstr¨agern (z.B. Unternehmen) entf¨allt. 52 3. Konzentrationsparameter 3.1. Lorenzkurve und Gini-Koeffizient zur Messung der relativen Konzentration Die Lorenzkurve 1 zeigt grafisch (in einem x-y-Koordinatensystem), wie viel Prozent der kleinsten Merkmalstr¨ager (z.B. der ¨armsten Bev¨olkerung) wie viel Prozent der Merkmalssumme (z.B. des Verm¨ogens) besitzen. Um die Definition der Lorenzkurve anzugeben, betrachten wir eine Grundgesamtheit (GG) mit n Merkmalstr¨agern (z.B. Haushalten). Zu jedem Merkmalstr¨ager i wird ein Merkmalswert x i ≥ 0 (z.B. Einkommen) beobachtet. Die Merkmalstr¨ager werden nach dem Merkmalswert geordnet: Der Merkmalstr¨ager mit dem kleinsten Merkmalswert kommt zuerst und der mit dem h¨ochsten Merkmalswert schließt die Reihe ab: 0 ≤ x 1 ≤ x 2 ≤ . . . ≤ x n , Merkmalssumme : x = n ∑ i=1 x i . Jeder Merkmalstr¨ager i aus der geordneten Liste hat somit einen Anteil von p i = x i x an der Gesamtmerkmalssumme. Weiter stellen wir fest, dass jeder Merkmalstr¨ager i einen Anteil von 1 n an der Grundgesamtheit hat. F¨ ur die Konstruktion der Lorenzkurve f¨ uhrt man folgende Arbeitsschritte durch: 1. Kumuliere die Anteile 1 n an der Grundgesamtheit; die kumulierten Werte bezeichnet man mit u j : u 1 = 1 n, u 2 = 2 n, . . . , u n − 1 = n − 1 n , u n = 1 2. Kumuliere die Anteile an der Gesamtmerkmalssumme p i , d.h. bilde f¨ ur j = 1, 2, . . . , n, j ≥ i: v j = j ∑ i=1 p i . 3. Verbinde (in einem u-v-Koordinatensystem) die Koordinaten (0, 0), (u 1 , v 1 ), . . . , (u n − 1 , v n − 1 ), (1, 1). 1 Die Lorenzkurve ist nach dem amerikanischen Statistiker Max O. Lorenz (1880 - 1962) benannt. 3.1. Lorenzkurve und Gini-Koeffizient zur Messung der relativen Konzentration 53 Den Streckenzug durch die Koordinaten (u j , v j ), j = 0, 1, 2, . . . , n mit (u 0 , v 0 ) = (0, 0) nennt man Lorenzkurve. Ein Punkt (u j , v j ) auf der Lorenzkurve gibt an: u j · 100 Prozent der kleinsten (¨armsten) Merkmalstr¨ager haben zusammen v j · 100 Prozent der Merkmalssumme. Hat jeder Merkmalstr¨ager den gleichen Anteil an der Merkmalssumme (Nullkonzentration), ist die Lorenzkurve identisch mit der Diagonalen des Einheitsquadrats im u-v-Koordinatensystem. Je st¨arker die Konzentration ist, umso weiter entfernt sich die Lorenzkurve von der Diagonalen. Besitzt ein Merkmalstr¨ager alles (maximale Konzentration), hat die Lorenzkurve die Koordinaten (0, 0) f¨ ur j = 0, 1, 2, . . . , n − 1 und (u n , v n ) = (1, 1) (siehe Abbildung 3.1). Mit einer Lorenzkurve kann man somit Ungleichheiten in der Verteilung eines Merkmals (z.B. Verm¨ogensverteilung) sichtbar machen. u j v j 0 .2 .4 .6 .8 1 .2 .4 .6 .8 1 Abbildung 3.1.: Lorenzkurve f¨ ur n = 5 und x 1 = x 2 = x 3 = x 4 = 0 Beispiel 3.1 In einem Ort teilen sich f¨ unf Anbieter den Markt f¨ ur Elektronik. Das heißt: Jeder hat einen Anteil von 1 5 = 0, 2 an der Grundgesamtheit. Ihre j¨ahrlichen Umsatzzahlen (in 1000 Euro) seien in der folgenden Tabelle wiedergegeben: Markt Elektron Fair Froh Gl¨ uck Digital Umsatz 5 40 10 35 10 Tabelle 3.1.: Ums¨atze der f¨ unf Konkurrenten auf einem Elektronikmarkt Das gesamte Umsatzvolumen betr¨agt x = 5 + 10 + 10 + 35 + 40 = 100. F¨ ur die Lorenzkurve ordnet man die Anbieter nach der Umsatzgr¨oße: 54 3. Konzentrationsparameter Markt i 1=Elektron 2=Froh 3=Digital 4=Gl¨ uck 5=Fair Kumul. Anteil an GG u j 0,2 0,4 0,6 0,8 1 Umsatz x i 5 10 10 35 40 Umsatzanteil p i 5 100 10 100 10 100 35 100 40 100 Kumul. Umsatzanteil v j 0,05 0,15 0,25 0,6 1 Tabelle 3.2.: Bestimmung von Koordinatenpunkten der Lorenzkurve (u j , v j ), j = 1, 2, . . . , 5 u j v j 0 .2 .4 .6 .8 1 .2 .4 .6 .8 1 Abbildung 3.2.: Lorenzkurve der f¨ unf Elektronikm¨arkte Da die Lorenzkurve die relative Konzentration zeigt, kann man diese auch dann zeichnen, wenn man nur die Anteilswerte in der Grundgesamtheit kennt. Das folgende Beispiel zeigt das. Beispiel 3.2 In der Weihnachtsausgabe 2004 ver¨offentlichte die S¨ uddeutsche Zeitung die in Tabelle 3.3 stehenden Daten zur Einkommensverteilung in Deutschland (Reich und Arm in Deutschland). Im Jahr 2003 hatten 10 Prozent der ¨ Armsten einen Anteil von 3,2 Prozent am Nettovolkseinkommen, die zweit¨armsten 10 Prozent hatten 5,2 Prozent usw. F¨ ur die Lorenzkurve brauchen wir die kumulierten Gr¨oßen (siehe Tabelle 3.4). Zus¨atzlich zu der grafischen Darstellung kann man den Grad der Konzentration durch eine Kennzahl, den Gini-Koeffizienten G, angeben. 3.1. Lorenzkurve und Gini-Koeffizient zur Messung der relativen Konzentration 55 Bev¨olkerungs- Anteil am Netto- Bev¨olkerungs- Anteil am Nettoanteil volkseinkommen anteil volkseinkommen Die ¨armsten 10% 3,2% ... 9,5% Die zweit¨armsten 10% 5,2% ... 10,8% Die dritt¨armsten 10% 6,4% ... 12,4% ... 7,4% ... 14,7% ... 8,4% Die reichsten 10% 22% Tabelle 3.3.: Einkommensanteile 2003 in Deutschland (Quelle: SZ, Weihnachtsausgabe 2004) j 1 2 3 4 5 6 7 8 9 10 u j 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 v j 0,032 0,084 0,148 0,222 0,306 0,401 0,509 0,633 0,78 1 Tabelle 3.4.: Die kumulierten Gr¨oßen f¨ ur die Koordinaten der Lorenzkurve Als Gini-Koeffizienten bezeichnet man den Quotienten G = Fl¨ache zwischen Diagonale und Lorenzkurve Fl¨ache zwischen Diagonale und u-Achse . Die praktische Berechnung des Gini-Koeffizienten erfolgt gem¨aß: G = 2 ∑ n i=1 ix i n ∑ n i=1 x i − n + 1 n = 2 ∑ n i=1 ip i − (n + 1) n (3.1) Dabei ist p i = x i ∑ n j =1 x j . Eine ¨aquivalente Formel f¨ ur die Ermittlung von G ist G = 1 n ( n − 1 − 2 n − 1 ∑ j=1 v j ) . (3.2) F¨ ur den Ginikoeffizienten gilt 0 ≤ G ≤ n − 1 n = G max . (3.3) 56 3. Konzentrationsparameter u j v j 0 .2 .4 .6 .8 1 .2 .4 .6 .8 1 Abbildung 3.3.: Lorenzkurve der Einkommenverteilung in Deutschland 2003 Normiert man G durch G max , erh¨alt man den normierten Gini-Koeffizienten G ∗ = G G max = n n − 1 G (3.4) F¨ ur G ∗ gilt 0 ≤ G ∗ ≤ 1. (3.5) Beispiel 3.3 Der Gini-Koeffizient f¨ ur die Werte aus Beispiel 3.1: G = 1 n ( n − 1 − 2 n − 1 ∑ j=1 v j ) = 1 5 [5 − 1 − 2(0, 05 + 0, 15 + 0, 25 + 0, 6)] = 1, 9 5 = 0, 38 Es ist leicht zu zeigen, dass die anderen Formeln den gleichen Wert liefern ( ¨ Ubung! ). Der normierte Gini-Koeffizient betr¨agt G ∗ = 5 4 · 0, 38 = 0, 475. Ein Nachteil des Gini-Koeffizienten liegt darin, dass unterschiedliche Ungleichheiten von diesem nicht eindeutig gezeigt werden k¨onnen. Ab- 3.2. Maßzahlen der absoluten Konzentration 57 bildung 3.4 macht dieses Verhalten deutlich. Gem¨aß der linken Lorenzkurve besitzen die untersten 50% einen Anteil von 10% der Merkmalssumme, w¨ahrend die rechte Lorenzkurve einen Zustand wiedergibt, in dem die obersten 10% Merkmalstr¨ager 50% der gesamten Merkmalssumme haben. Der jeweilige Gini-Koeffizient ist gleich hoch. Es ist daher zu empfehlen, den Gini-Koeffizienten immer zusammen mit der zugeh¨origen Lorenzkurve anzugeben. u j v j u j v j Abbildung 3.4.: Links: Die untersten 50% haben einen Anteil von 10% der Merkmalssumme. Rechts: Die oberen 10% haben 50% der gesamten Merkmalssumme 3.2. Maßzahlen der absoluten Konzentration Eine statistische Maßzahl der Konzentration, die die Anzahl der Marktteilnehmer ber¨ ucksichtigt, ist die Konzentrationsrate CR g = n ∑ i=n − g+1 p i . (3.6) Dabei bedeuten n = Anzahl der Anbieter auf dem Markt und p i = Umsatzanteil des i-ten Anbieters am Gesamtumsatz. 58 3. Konzentrationsparameter Wenn x 1 , x 2 , . . . , x n die der Gr¨oße nach geordneten Ums¨atze der Unternehmen i = 1, 2, . . . , n bezeichnen, gibt ∑ n i=1 x i das gesamte Umsatzvolumen an, das auf dem betreffenden Markt erwirtschaftet wird. Somit kann man schreiben: p i = x i ∑ n j=1 x j (3.7) Im Lebensmitteleinzelhandel beobachtet man in der j¨ ungeren Vergangenheit eine Zunahme der Marktkonzentration (siehe Abbildung 3.5). Die gr¨oßten f¨ unf Anbieter erwirtschafteten im Jahr 2005 zusammen 61,3 Prozent des Gesamtumsatzes. Im Jahr 2011 betrug der Anteil 71,1 Prozent. 2 Der Konzentrationsprozess scheint weiter fortzuschreiten. Nachdem im Jahr 2007 der Discounter Plus von Edeka ¨ ubernommen wurde, sollen demn¨achst die Tengelmann-Superm¨arkte ebenso an Edeka verkauft werden. Wie die S¨ uddeutsche Zeitung am 7.10.2014 mitteilte, kommen die vier gr¨oßten Lebensmitteleinzelh¨andler (Edeka, Rewe, Aldi und die Schwarz-Gruppe) zuletzt auf einen Marktanteil von ca. 85 Prozent bzw. kurz in der oben eingef¨ uhrten Maßzahl mit g = 4 ausgedr¨ uckt: CR 4 = 0, 85. Entf¨allt der Gesamtumsatz auf einen einzigen Anbieter (maximale Konzentration), gilt CR 1 = 1. Haben alle n Unternehmen den gleichen Umsatz (minimale Konzentration), d.h. x 1 = x 2 = . . . = x n (dito p i = 1 n f¨ ur i = 1, 2, . . . , n), betr¨agt CR g = g n . Somit gilt g n ≤ CR g ≤ 1. (3.8) Beispiel 3.4 F¨ ur die Daten aus Beispiel 3.1 (f¨ unf Anbieter konkurrieren in einem Elektronikmarkt) soll die Frage Wie hoch ist der Marktanteil der zwei gr¨oßten Anbieter? beantwortet werden. Wir ¨ ubernehmen die Daten aus Tabelle 3.2: Die zwei (g = 2) gr¨oßten M¨arkte haben zusammen einen Umsatzanteil von CR 2 = p 4 + p 5 = 35% + 40% = 75%. 2 Quelle: Haucap et al. (2013) Ordnungspolitische Perspektiven Nr. 48 Wettbewerbsprobleme im Lebensmitteleinzelhandel. d¨ usseldorf university press (dup) im Auftrag der Heinrich-Heine- Universit¨at D¨ usseldorf, Wirtschaftwissenschaftliche Fakult¨at 3.2. Maßzahlen der absoluten Konzentration 59 Abbildung 3.5.: Entwicklung der Konzentration im Lebensmitteleinzelhandel Markt i 1=Elektron 2=Froh 3=Digital 4=Gl¨ uck 5=Fair Umsatz x i 5 10 10 35 40 Umsatzanteil p i 0,05 0,1 0,1 0,35 0,4 Tabelle 3.5.: Umsatzanteile der f¨ unf Elektonikm¨arkte Eine weitere Kennzahl f¨ ur die absolute Konzentration ist der Herfindahl- Index H = n ∑ i=1 p 2 i (3.9) Dabei bedeutet p i weiterhin den Anteil des i-ten Merkmalstr¨agers an der gesamten Merkmalssumme. Besitzt einer alles, gilt H = 1 (maximale Konzentration). Hat jeder der n Merkmalstr¨ager den gleichen Anteil an der Merkmalssumme, ist H = 1 n (minimale Konzentration). Der Wertebereich f¨ ur den Herfindahlindex H ergibt sich als: 1 n ≤ H ≤ 1 (3.10) Beispiel 3.5 Der Herfindahlindex f¨ ur die Daten aus Beispiel 3.1 betr¨agt H = 5 ∑ i=1 p 2 i = 0, 05 2 + 0, 1 2 + 0, 1 2 + 0, 35 2 + 0, 4 2 = 0, 405 60 3. Konzentrationsparameter 3.3. Zusammenfassung In vielen Bereichen der Wirtschafts- und Sozialpolitik kann das Vorkommen einer Konzentration von Produktion oder Besitz Handlungsbedarf ausl¨osen. So ¨ uberpr¨ uft das Kartellamt, ob die ¨ Ubernahme der Tengelmann-M¨arkte durch die Edeka-Gruppe zu einer weiteren starken Konzentration im Lebensmitteleinzelhandel f¨ uhrt. Von einer hohen Konzentration spricht man, wenn nur wenige Merkmalstr¨ager einen großen Anteil an der Merkmalssumme (Einkommen, Verm¨ogen, Produktion usw.) haben. Bei der Konzentrationsmessung unterscheidet man zwischen der absoluten und der relativen Konzentration. Die absolute Konzentration ber¨ ucksichtigt die Anzahl der Merkmalstr¨ager in einer Grundgesamtheit. Zwei wichtige Maßzahlen daf¨ ur sind der Herfindahl-Index H und die Konzentrationsrate CR g . In der Sozialpolitik ist der Gini-Koeffizient G als eine Kennzahl f¨ ur die Ungleichheit einer Verteilung verbreitet. F¨ ur die Berechnung von G spielt die Anzahl der Merkmalstr¨ager keine Rolle. Deshalb spricht man von einer relativen Konzentration. Diese kann man zus¨atzlich durch eine Lorenzkurve grafisch darstellen. Weil der maximale Wert von G immer kleiner 1 ist, wird h¨aufig der normierte Gini-Koeffizient G ∗ ver¨offentlicht. Notationen, Formeln und ihre Bedeutung n Anzahl der Merkmalstr¨ager in einer Grundgesamtheit (GG) x 1 ≤ x 2 ≤ . . . ≤ x n Merkmalswerte, x i ≥ 0 f¨ ur i = 1, 2 . . . n, x = ∑ n i =1 x i Merkmalssumme p i = x i x Anteil des Merkmalstr¨agers i an der Merkmalssumme v j = ∑ i ≤ j p i Kumulierter Anteil an der Merkmalssumme u j = j n Kumulierter Anteil der Merkmalstr¨ager an der Grundgesamtheit (0, 0), (u 1 , v 1 ), . . . , (u n , v n ) Koordinaten der Lorenzkurve G = 2 ∑ n i=1 ix i n ∑ n i=1 x i − n +1 n Gini-Koeffizient, 0 ≤ G ≤ n −1 n G = 2 ∑ n i=1 ip i −( n +1) n 3.3. Zusammenfassung 61 G = 1 n ( n − 1 − 2 ∑ n −1 j =1 v j ) G max = n −1 n Maximaler Wert von G G ∗ = G G max = n n −1 G Normierter Gini-Koeffizient, 0 ≤ G ∗ ≤ 1 H = ∑ n i =1 p 2 i Herfindahl-Index, 1 n ≤ H ≤ 1 CR g = ∑ n i = n − g +1 p i Konzentrationsrate, g n ≤ CR g ≤ 1 63 4. Zweidimensionale Daten Wenn man an jeder Untersuchungseinheit i = 1, 2, . . . , n zwei Merkmale X und Y beobachtet, dann nennt man das Ergebnis zweidimensional. Beispiele sind etwa: 1. Sonntagsfrage: Welche Partei w¨ urden Sie w¨ahlen, wenn am n¨achsten Sonntag Bundestagswahl w¨are? Die Merkmale Geschlecht und Parteipr¨aferenz sind von Interesse. 2. Bei der Erstellung des Mietspiegels wurden f¨ ur jede Wohnung die Wohnfl¨ache und der Mietpreis erhoben. Allgemein bezeichnen wir mit x 1 , . . . , x m die Auspr¨agungen von X und mit y 1 , . . . , y die Auspr¨agungen von Y . Insgesamt gibt es m · Auspr¨agungspaare (x j , y k ) (j = 1, . . . , m und k = 1, . . . , ). Zweidimensionale Daten kann man grafisch als ein Stabdiagramm im 3dimensionalen Raum R 3 darstellen. Dabei stehen die St¨abe (S¨aulen) auf einer x-y-Ebene; auf der z-Achse tr¨agt man die absoluten oder relativen H¨aufigkeiten ein (siehe u. a. [11]). Abbildung 4.1.: Streudiagramm 64 4. Zweidimensionale Daten Liegen zweidimensionale metrische Daten vor, so kann man diese als Streudiagramm (siehe Abbildung 4.1) wiedergeben. Das heißt: Man tr¨agt jedes Auspr¨agungspaar (x j , y k ) auf einem x-y-Koordinatensystem ein. Synonyme f¨ ur ”Streudiagramm“ sind Punktewolke oder Scatterplot. F¨ ur zeitlich hintereinanderfolgende Beobachtungen (Zeitreihen) sind Liniendiagramme verbreitet. Auch hier bedient man sich eines xy-Koordinaten-systems. Auf der x-Achse tr¨agt man die Zeitpunkte t auf, auf der y-Achse jeweils den zum Zeitpunkt t geh¨orenden Wert y t . Anschließend werden die Koordinatenpunkte (t, y t ) miteinander zu einer Linie verbunden. Der Vorteil dieses Diagramms liegt unter anderem darin, dass man zu Vergleichszwecken mehrere Reihen in einem Diagramm eintragen kann. So zeigt etwa Abbildung 4.2 ab 1991 drei Liniendiagramme zur Arbeitslosenzahlen im gesamten Bundesgebiet sowie in West- und in Ostdeutschland 1 . An dem Diagramm sieht man, dass in Ostdeutschland die Arbeitslosenzahlen niedriger als in Westdeutschland liegen. Abbildung 4.2.: Liniendiagramme zur Entwicklung der Arbeitslosenzahlen in Deutschland von 1950 bis 2009. Quelle: Bundesagentur f¨ ur Arbeit 1 http: / / www.pub.arbeitsagentur.de/ hst/ services/ statistik/ 000000/ html/ start/ gif/ b alo zr.shtml (Stand: 10.09.2011) 4.1. Kontingenztabelle 65 4.1. Kontingenztabelle Die H¨aufigkeit f jk gibt an, wie oft das Auspr¨agungspaar (x j , y k ) beobachtet wurde. Man kann f jk in Analogie zu eindimensionalen Daten in einer Tabelle wiedergeben. Eine solche Tabelle heißt Kontingenztabelle. Die allgemeine Form der Kontingenztabelle zeigt Tabelle 4.1. Den mittleren Teil der Kontingenztabelle, den Tabelle 4.2 darstellt, kann man als eine (m × )-Matrix mit f jk als Element in der j-ten Zeile und k-ten Spalte ansehen. Man nennt f jk gemeinsame absolute H¨aufigkeit von X und Y . Auspr¨agung Y y 1 . . . y k . . . y Auspr¨agung X x 1 f 11 . . . f 1k . . . f 1 f 1 ... ... ... ... ... x j f j1 . . . f jk . . . f j f j ... ... ... ... ... x m f m1 . . . f mk . . . f m f m f 1 . . . f k . . . f n Tabelle 4.1.: Kontingenztabelle f¨ ur die absoluten H¨aufigkeiten f 11 . . . f 1k . . . f 1 ... ... ... f j1 . . . f jk . . . f j ... ... ... f m1 . . . f mk . . . f m Tabelle 4.2.: (m × )-Matrix der gemeinsamen absoluten H¨aufigkeiten Die R¨ander der Kontingenztabelle beinhalten zum einen die Anzahl der Beobachtungen f¨ ur x j , j = 1, 2, . . . , m: f j = ∑ k=1 f jk (4.1) 66 4. Zweidimensionale Daten und zum anderen die Anzahl der Beobachtungen f¨ ur y k , k = 1, 2, . . . , : f k = m ∑ j=1 f jk (4.2) Man nennt f j bzw. f k absolute Randh¨aufigkeiten der Variablen X bzw. der Variablen Y . Es gilt m ∑ j=1 f j = m ∑ j=1 ∑ k=1 f jk = ∑ k=1 m ∑ j=1 f jk = ∑ k=1 f k = n. (4.3) Beispiel 4.1 An n = 1000 Personen wurden die Merkmale X: Geschlecht und Y : Parteipr¨aferenz erhoben. Das Merkmal X besitzt zwei und das Merkmal Y drei Auspr¨agungen, so dass es insgesamt sechs verschiedene Wertepaare f¨ ur das Merkmalspaar (X, Y ) gibt. F¨ ur jedes Auspr¨agungspaar (x j , y k ), j = 1, 2 und k = 1, 2, 3 wird notiert, wie oft dieses beobachtet wird. Das Ergebnis gibt die folgende Kontingenztabelle wieder. Partei A Partei B Partei C M¨annlich 129 196 185 510 Weiblich 220 140 130 490 349 336 315 1000 In der Kontingenztabelle stehen die gemeinsamen H¨aufigkeiten: • f 11 = 129 M¨anner (f 21 = 220 Frauen) haben f¨ ur A gestimmt. • f 12 = 196 M¨anner (f 22 = 140 Frauen) haben f¨ ur B gestimmt. • f 13 = 185 M¨anner (f 23 = 130 Frauen) haben f¨ ur C gestimmt. Die Randh¨aufigkeien des Merkmals X (Geschlecht): • f 1 = ∑ 3 k=1 f 1k = 129 + 196 + 185 = 510 Befragte sind m¨annlich. • f 2 = ∑ 3 k=1 f 2k = 220 + 140 + 130 = 490 Befragte sind weiblich. 4.1. Kontingenztabelle 67 Die Randh¨aufigkeiten des Merkmals Y (Parteipr¨aferenz ): • f 1 = ∑ 2 j=1 f j1 = 129 + 220 = 349 Stimmen sind f¨ ur A. • f 2 = ∑ 2 j=1 f j2 = 196 + 140 = 336 Stimmen sind f¨ ur B. • f 3 = ∑ 2 j=1 f j3 = 185 + 130 = 315 Stimmen sind f¨ ur C. Anstelle der absoluten kann man ebenso die gemeinsamen relativen H¨aufigkeiten von (x j , y k ) h jk = f jk n (4.4) in eine Kontingenztabelle eintragen (vgl. Tabelle 4.3). Wir bezeichnen die relativen Randh¨aufigkeiten entsprechend mit h j = f j n bzw. h k = f k n (4.5) Auspr¨agung Y y 1 . . . y k . . . y Auspr¨agung X x 1 h 11 . . . h 1k . . . h 1 h 1 ... ... ... ... ... x j h j1 . . . h jk . . . h j h j ... ... ... ... ... x m h m1 . . . h mk . . . h m h m h 1 . . . h k . . . h 1 Tabelle 4.3.: Kontingenztabelle f¨ ur die relativen H¨aufigkeiten Es gilt m ∑ j=1 h j = m ∑ j=1 ∑ k=1 h jk = ∑ k=1 m ∑ j=1 h jk = ∑ k=1 h k = 1. (4.6) Die Gesamtheit von h jk nennt man gemeinsame H¨aufigkeitsverteilung oder einfach gemeinsame Verteilung von X und Y ; die 68 4. Zweidimensionale Daten Gesamtheit von h j heißt Randverteilung von X, und die Gesamtheit aller h k Randverteilung von Y . Die Randverteilungen geben die Verteilung einer Variablen an, ohne Beachtung der anderen Variablen. Die allgemeine Form der Randverteilungen von X bzw. von Y zeigen (Tabelle 4.4) bzw. (Tabelle 4.5): Auspr¨agung x 1 . . . x j . . . x m Anteil h 1 . . . h j . . . h m 1 Tabelle 4.4.: Randverteilung des Merkmals X Auspr¨agung y 1 . . . y k . . . y Anteil h 1 . . . h k . . . h 1 Tabelle 4.5.: Randverteilung des Merkmals Y Beispiel 4.2 Die Werte der der Randverteilung von X (Geschlecht) sind • h 1 = 510 1000 = 0, 51 (51% der Befragten sind m¨annlich) und • h 2 = 490 1000 = 0, 49 (49% der Befragten sind weiblich). Die Werte der der Randverteilung von Y (Parteipr¨aferenz ) sind • h 1 = 349 1000 = 0, 349 (34,9% der Stimmen entfallen auf A), • h 2 = 336 1000 = 0, 336 (33,6% der Stimmen entfallen auf B) und • h 3 = 315 1000 = 0, 315 (31,5% der Stimmen entfallen auf C). 4.2. Bedingte Verteilungen und statistische Unabh¨angigkeit Bei einer Untersuchung zweidimensionaler Daten interessiert man sich h¨aufig f¨ ur die Verteilung des einen Merkmals, wenn das andere Merkmal einen bestimmten festen Wert annimmt. Beispiele: Wie sieht die Stimmenverteilung unter den weiblichen W¨ahlern aus? Wie sieht sie unter den m¨annlichen W¨ahlern aus? Wie ist die Verteilung der Geschlechter unter den einzelnen Parteien? 4.2. Bedingte Verteilungen und statistische Unabh¨angigkeit 69 Solche H¨aufigkeitsverteilungen heißen bedingte H¨aufigkeitsverteilungen, kurz bedingte Verteilungen. Die Bezeichnung f¨ ur die bedingte Verteilung von X, wenn Y = y k , ist X | Y = y k . Ihre Elemente werden durch f jk f k (4.7) bestimmt. F¨ ur das Merkmal X gibt es somit bedingte Verteilungen. Analog existieren m bedingte Verteilungen von Y , wenn X = x j mit f jk f j (4.8) als Elemente. Wir bezeichnen sie entsprechend mit Y | X = x j . Die bedingte Verteilung erfasst somit die Verteilung des einen Merkmals auf einer bestimmten Teilpopulation des anderen Merkmals. Beispiel 4.3 F¨ ur die Sonntagsfrage aus Beispiel 4.1 gibt es zwei bedingte Verteilungen f¨ ur das Merkmal Y (Parteipr¨aferenz ): 1. Y | X = x 1 (= M¨annlich) gibt die Stimmenverteilung unter den m¨annlichen Befragten an (Tabelle 4.6). Partei A Partei B Partei C M¨annlich 129 510 = 0, 253 196 510 = 0, 384 185 510 = 0, 363 1, 0 Tabelle 4.6.: Die Stimmenanteile unter den m¨annlichen Befragten 25,3% der M¨anner haben sich f¨ ur A, 38,4% f¨ ur B und 36,3% f¨ ur C entschieden. 2. Y | X = x 2 (= Weiblich) gibt die Stimmenverteilung unter den weiblichen Befragten an (Tabelle 4.7). Partei A Partei B Partei C Weiblich 220 490 = 0, 449 140 490 = 0, 286 130 490 = 0, 265 1, 0 Tabelle 4.7.: Die Stimmenanteile unter den weiblichen Befragten 44,9% der Frauen haben sich f¨ ur A, 28,6% f¨ ur B und 26,5% f¨ ur C entschieden. 70 4. Zweidimensionale Daten F¨ ur denselben Datensatz gibt es drei bedingte Verteilungen f¨ ur das Merkmal X (Geschlecht) (vgl. Tabelle 4.8) : 1. X | Y = y 1 (= A) gibt den Anteil der M¨anner (37%) bzw. Frauen (63%) unter A-W¨ahlern an. 2. X | Y = y 2 (= B) gibt den Anteil der M¨anner (58,3%) bzw. Frauen (41,7%) unter B-W¨ahlern an. 3. X | Y = y 3 (= C) gibt den Anteil der M¨anner (58,7%) bzw. Frauen (41,3%) unter C-W¨ahlern an. M¨annlich Weiblich Partei A 129 349 = 0, 37 220 349 = 0, 63 1, 0 Partei B 196 336 = 0, 583 140 336 = 0, 417 1, 0 Partei C 185 315 = 0, 587 130 315 = 0, 413 1, 0 Tabelle 4.8.: Anteil der M¨anner bzw. Frauen unter den A, B bzw. C-W¨ahlern Definition 4.1 Zwei Variablen X und Y heißen statistisch unabh¨angig, kurz unabh¨angig, wenn ihre gemeinsame Verteilung gleich dem Produkt der beiden Randverteilungen ist, d. h. f¨ ur alle j = 1, . . . m und f¨ ur alle k = 1, . . . , gilt die Beziehung h jk = h j · h k (4.9) Nun k¨onnen wir die Gleichung (4.9) wie folgt schreiben: f jk n = f j n · f k n Wir multiplizieren diese mit n: f jk n = f j n · f k n | · n ⇒ f jk = f j · f k n (4.10) Dividiert man die Gleichung auf der rechten Seite des ” ⇒ “-Zeichens durch f k , ergibt sich: f jk f k ︸︷︷︸ bedingte Verteilung von X = f j n ︸︷︷︸ Randverteilung von X 4.3. Kontingenzkoeffizient nach Pearson 71 bzw. durch f j , ergibt sich: f jk f j ︸︷︷︸ bedingte Verteilung von Y = f k n ︸︷︷︸ Randverteilung von Y Das heißt: Bei zwei statistisch unabh¨angigen Merkmalen X und Y stimmen die bedingten Verteilungen und die Randverteilungen ¨ uberein. 4.3. Kontingenzkoeffizient nach Pearson Je st¨arker ein Zusammenhang zwischen zwei Merkmalen ist, umso besser kann man aus Kenntnissen des einen Merkmals das Verhalten des anderen vorhersagen. Deshalb findet die Zusammenhangsanalyse in der Praxis großes Interesse 2 . Der Ausgangspunkt zur Messung eines Zusammenhangs zwischen zwei Variablen ist die statistische Unabh¨angigkeit. Nach Definition 4.9 sind zwei Merkmale genau dann statistisch unabh¨angig, wenn f¨ ur alle j = 1, . . . , m und f¨ ur alle k = 1, . . . , gilt: h jk = h j · h k Die Idee besteht darin, dass man die beobachteten H¨aufigkeiten f jk in der Kontingenztabelle mit den H¨aufigkeiten, die man beobachtet h¨atte, w¨aren die Variablen voneinander unabh¨angig, vergleicht. Wie sieht nun im Falle der Unabh¨angigkeit die Kontingenztabelle aus? Die theoretischen Werte kann man aus der Definition der statistischen Unabh¨angigkeit herleiten, denn, wie wir in (4.10) gezeigt haben, sind die Variablen X und Y unabh¨angig, wenn f¨ ur alle j = 1, . . . , m und f¨ ur alle k = 1, . . . , f jk = f j · f k n gilt. Den Quotienten f j · f k n = e jk (4.11) 2 Man hat zum Beispiel herausgefunden, dass zwischen (insbesondere weiblichen) Vornamen und Spendenbereitschaft ein Zusammenhang besteht. Die Spendenbereitschaft bei Helgas, Waltrauds, Erikas ist ziemlich groß. So versenden seri¨ose oder weniger seri¨ose Spendensammler gezielt ihre Bittbriefe an Frauen mit solchen Vornammen. 72 4. Zweidimensionale Daten kann man somit als die Anzahl der zu erwartenden Beobachtungen, wenn X und Y unabh¨angig w¨aren, interpretieren. Die Kontingenztabelle w¨ urde in diesem Fall wie folgt aussehen: y 1 . . . y k . . . y x 1 e 11 . . . e 1k . . . e 1 f 1 ... ... ... ... ... x j e j1 . . . e jk . . . e j f j ... ... ... ... ... x m e m1 . . . e mk . . . e m f m f 1 . . . f k . . . f n Tabelle 4.9.: H¨aufigkeiten im Falle der Unabh¨angigkeit Nun vergleicht man diese theoretische mit der tats¨achlich beobachteten Kontingenztabelle. Gelten f¨ ur j = 1, . . . m und f¨ ur k = 1, . . . , f jk = e jk , dann sind X und Y vollkommen unabh¨angig voneinander. Je gr¨oßer die Abweichungen sind, umso st¨arker ist der Zusammenhang zwischen X und Y . Insgesamt gibt es m · Abweichungen zwischen f jk und e jk . All diese Abweichungen werden zu einer Gr¨oße, Chi-Quadrat-Gr¨oße genannt, geb¨ undelt. Definition 4.2 Die Chi-Quadrat- (χ 2 -)Gr¨oße ist die Summe der Quotienten zwischen den quadrierten Abweichungen (f jk − e jk ) 2 und e jk : χ 2 = m ∑ j=1 ∑ k=1 (f jk − e jk ) 2 e jk (4.12) Je kleiner χ 2 ist, umso geringer sind die Abweichungen zwischen f jk und e jk , d. h. umso weniger abh¨angig sind die Variablen voneinander. Im Extremfall sind sie identisch (χ 2 = 0). Das ist dann genau der Fall, wenn X und Y vollkommen unabh¨angig sind. (Praktisch kommt dieser Fall nicht vor; man wird X und Y als unabh¨angig einstufen, wenn die Abweichungen zwischen f jk und e jk ”klein“ sind.) Man kann 4.3. Kontingenzkoeffizient nach Pearson 73 die χ 2 -Gr¨oße jedoch nicht als Maßzahl verwenden, da sie f¨ ur n → ∞ ¨ uber alle Grenzen hinaus wachsen kann 3 . Nichtsdestoweniger kann sie als Basis f¨ ur eine Maßzahl, den Kontingenzkoeffizienten nach Pearson dienen. Definition 4.3 Unter dem Kontingenzkoeffizienten nach Pearson 4 P versteht man die Wurzel aus dem Quotienten zwischen χ 2 und χ 2 + n: P = √ χ 2 χ 2 + n (4.13) Es gilt: 0 ≤ P ≤ P max = √ M − 1 M < 1. (4.14) Dabei ist M = min { m, } (die kleinere Zahl von m und ). P h¨angt also von der Anzahl der Auspr¨agungen ab, und sein maximaler Wert ist echt kleiner als Eins. Das sind keine w¨ unschenswerte Eigenschaften einer Maßzahl. Definition 4.4 Dividiert man P durch seinen maximalen Wert P max , so erh¨alt man den korrigierten Kontingenzkoeffizienten nach Pearson: P korr = P P max (4.15) F¨ ur P korr gilt: 0 ≤ P korr ≤ 1 (4.16) Somit erf¨ ullt P korr die an eine Maßzahl gestellten Anforderungen; P korr ist normiert und dimensionslos. 3 Man kann χ 2 als χ 2 = ∑ m j =1 ∑ k =1 ( f jk − e jk ) 2 e jk = n ( ∑ m j =1 ∑ k =1 f jk f j f k − 1 ) schreiben. In dieser Form erkennt man unmittelbar, dass χ 2 → ∞ , wenn n → ∞ . 4 Karl Pearson, 1857-1936, englischer Mathematiker und Anthropologe 74 4. Zweidimensionale Daten Beispiel 4.4 Die Kontingenztabelle in Beispiel 4.1 gibt das Ergebnis einer Befragung nach der Parteipr¨aferenz von n = 1000 Wahlberechtigten wieder. Wir geben die Zahlen in der folgenden Tabelle nochmals an und tragen zus¨atzlich in Klammern die H¨aufigkeiten e jk im Falle der Unabh¨angigkeit ein. Partei A Partei B Partei C M¨annlich 129 196 185 510 (177,99) (171,36) (160,65) Weiblich 220 140 130 490 (171,01) (164,64) (154,35) 349 336 315 1000 Die H¨aufigkeiten e jk , die sich bei G¨ ultigkeit der Unabh¨angigkeitsannahme ergeben, berechnen wir gem¨aß (4.11): e 11 = f 1 · f 1 n = 510 · 349 1000 = 177, 99, e 12 = f 1 · f 2 n = 510 · 336 1000 = 171, 36, . . . . . . . . . , e 23 = f 2 · f 3 n = 490 · 315 1000 = 154, 35 Weiter ermitteln wir f¨ ur die Berechnung von P korr 1. die χ 2 -Gr¨oße nach (4.12) (siehe dazu Tabelle 4.10) χ 2 = m ∑ j=1 ∑ k=1 (f jk − e jk ) 2 e jk = 42, 281, 2. den Kontingenzkoeffizienten nach Pearson gem¨aß (4.13) P = √ χ 2 χ 2 + n = √ 42, 281 42, 281 + 1000 = 0, 0406 3. und mit M = min { 2, 3 } = 2 den maximalen Wert nach (4.14) P max = √ M − 1 M = √ 2 − 1 2 = √ 1 2 . 4.4. Korrelationskoeffizient nach Bravais-Pearson 75 Somit betr¨agt der korrigierte Kontingenzkoeffizien nach Pearson P korr = P P max = 0, 0406 √ 0, 5 = 0, 057. Die Abh¨angigkeit zwischen den Merkmalen Geschlecht und Parteipr¨aferenz ist somit sehr gering. j k f jk e jk (f jk − e jk ) 2 (f jk − e jk ) 2 e jk 1 1 129 177,99 2400,0201 13,484 1 2 196 171,36 607,1296 3,543 1 3 185 160,65 592,9225 3,691 2 1 220 171,01 2400,0201 14,034 2 2 140 164,64 607,1296 3,688 2 3 130 154,35 592,9225 3,841 1000 1000 42,281 Tabelle 4.10.: Arbeitstabelle zur Berechnung von χ 2 4.4. Korrelationskoeffizient nach Bravais-Pearson Bei der Analyse zweier metrisch skalierter Datens¨atze interessiert man sich insbesondere f¨ ur einen linearen Zusammenhang zwischen den Variablen X und Y . Ein linearer Zusammenhang bedeutet: Man kann eine Gerade durch die Punktewolke (das Streudiagramm) so legen, dass die Beobachtungen ¨ uberwiegend um diese Gerade streuen. Man spricht auch von einer Korrelation zwischen den Variablen. Eine Korrelation bedeutet jedoch nicht, dass zwischen ihnen eine kausale Beziehung besteht. Eine statistische Analyse allein kann niemals eine kausale Beziehung rechtfertigen. Dazu bedarf es fachlich fundierter Kenntnisse. Eine Korrelation besagt nur, dass zwei Variablen sich gemeinsam in eine Richtung entwickeln. Die Korrelation ist positiv im Sinne ”je mehr . . . , desto mehr“, und sie ist negativ im Sinne: ”je mehr . . . , desto weniger“. 76 4. Zweidimensionale Daten Beispiel 4.5 Ein Einzelh¨andler hat w¨ahrend der letzten 12 Wochen Anzeigen in einer Lokalzeitung geschaltet. Die Anzahl der Anzeigen variiert zwischen eins und sieben. Die Mitarbeiter des Einzelh¨andlers notierten in diesem Zeitraum w¨ochentlich die Anzahl der Kunden. Mit X: Anzahl der Anzeigen und Y : Anzahl der Kunden gibt die folgende Tabelle das Ergebnis der Beobachtung wieder. i 1 2 3 4 5 6 7 8 9 10 11 12 x i 2 6 7 4 5 1 3 4 2 1 7 6 y i 300 670 500 360 460 250 400 490 130 250 500 600 An dem Streudiagramm (Abbildung 4.3) erkennt man, dass eine Korrelation zwischen den beiden Variablen bestehen kann. Die Korrelation ist positiv, da die Anzahl der Kunden mit steigender Anzahl der Anzeigen gleichm¨aßig zunimmt. Man kann sich vorstellen, dass durch die Punktewolke eine Gerade verl¨auft, die die Beziehung zwischen den Variablen beschreibt. 2 4 6 8 0 400 800 Anzahl der Anzeigen Anzahl der Kunden Abbildung 4.3.: Die Verteilung der Beobachtungspunkte weisen auf einen linearen Zusammenhang zwischen Anzahl der Kunden und Anzahl der Anzeigen hin. 4.4. Korrelationskoeffizient nach Bravais-Pearson 77 Nun wollen wir die St¨arke dieses linearen Zusammenhangs messen. Die Maßzahl daf¨ ur basiert auf der sogenannten Kovarianz. Bevor wir die Kovarianz einf¨ uhren, machen wir uns klar, dass sich f¨ ur jedes der Merkmale X und Y das arithmetische Mittel gem¨aß ¯ x = 1 n m ∑ j=1 x j · f j ¯ y = 1 n ∑ k=1 y k · f k , (4.17) die Varianz gem¨aß s 2 X = 1 n m ∑ j=1 (x j − ¯ x) 2 · f j s 2 Y = 1 n ∑ k=1 (y k − ¯ y) 2 · f k (4.18) sowie die Standardabweichung gem¨aß s X = √ s 2 X s Y = √ s 2 Y (4.19) berechnen lassen. Der Verschiebungssatz f¨ ur s 2 X bzw. f¨ ur s 2 Y lautet somit entsprechend: s 2 X = 1 n m ∑ j=1 x 2 j · f j − ¯ x 2 bzw. s 2 Y = 1 n ∑ k=1 y 2 k · f k − ¯ y 2 (4.20) Beispiel 4.6 Seien X mit den Auspr¨agungen 0, 1, 2 und Y mit den Auspr¨agungen 4, 8, 16, 32 zwei kardinalskalierte Merkmale. F¨ ur n = 40 Beobachtungen der 12 Wertepaare (x j , y k ) wurden die folgenden H¨aufigkeiten erfasst: Y X 4 8 16 32 f j 0 3 5 6 1 15 1 2 1 3 1 7 2 5 2 4 7 18 f k 10 8 13 9 40 Die arithmetischen Mittel ¯ x und ¯ y errechnen wir nach (4.17): ¯ x = 1 n 3 ∑ j=1 x j · f j = 1 40 (0 · 15 + 1 · 7 + 2 · 18) = 1, 075 78 4. Zweidimensionale Daten und ¯ y = 1 n 4 ∑ k=1 y k · f k = 1 40 (4 · 10 + 8 · 8 + 16 · 13 + 32 · 9) = 15 Die Varianzen s 2 X und s 2 Y bestmmen wir nach (4.20): s 2 X = 1 n 3 ∑ j=1 x 2 j · f j − ¯ x 2 = 1 40 (0 2 · 15 + 1 2 · 7 + 2 2 · 18) − 1, 075 2 = 0, 82 und s 2 Y = 1 n 4 ∑ k=1 y 2 k · f k − ¯ y 2 = 1 40 (4 2 · 10 + 8 2 · 8 + 16 2 · 13 + 32 2 · 9) − 15 2 = 105, 4 Aus den Varianzen s 2 X = 0, 82 und s 2 Y = 105, 4 ergeben sich die Standardabweichungen s X = √ 0, 82 = 0, 9055 und s Y = √ 105, 4 = 10, 266. Definition 4.5 Die Summe der Produkte (x i − ¯ x)(y i − ¯ y) geteilt durch die Anzahl der Beobachtungen n heißt Kovarianz von X und Y : s XY = 1 n n ∑ i=1 (x i − ¯ x)(y i − ¯ y) (4.21) Ebenso wie f¨ ur die Varianz existiert f¨ ur die Kovarianz ein Verschiebungssatz: s XY = 1 n n ∑ i=1 x i y i − ¯ x ¯ y (4.22) 4.4. Korrelationskoeffizient nach Bravais-Pearson 79 Liegen H¨aufigkeitsdaten vor, dann berechnet sich die Kovarianz gem¨aß s XY = 1 n m ∑ j=1 ∑ k=1 (x j − ¯ x)(y k − ¯ y) · f jk (4.23) Der Verschiebungssatz lautet entsprechend: s XY = 1 n m ∑ j=1 ∑ k=1 x j · y k · f jk − ¯ x · ¯ y (4.24) Was sagt uns nun die Kovarianz? Dazu betrachten wir die Lage der Datenpunkte in einem x-y-Koordinatensystem, dessen Zentrum im Datenschwerpunkt (¯ x, ¯ y) liegt (Abbildung 4.4). Wir w¨ahlen exemplarisch vier Datenpunkte (x 1 , y 1 ), (x 2 , y 2 ), (x 3 , y 3 ) und (x 4 , y 4 ), so dass in jedem Quadranten ein Punkt liegt. F¨ ur einen Punkt (x i , y i ), der im I. oder III. Quadranten liegt, ist das Produkt (x i − ¯ x)(y i − ¯ y) positiv und f¨ ur einen, der im II. oder IV. Quadranten liegt, ist es negativ. Deshalb gilt: Liegen die Beobachtungen ¨ uberwiegend im I. und III. Quadranten, dann wird die Kovarianz positiv. Große x-Werte gehen tendenziell mit großen y-Werten einher. x y ¯ y ¯ x (x 3 , y 3 ) III (x 2 , y 2 ) II (x 1 , y 1 ) I (x 4 , y 4 ) IV Abbildung 4.4.: M¨ogliche Datenlagen in einem Koordinatensystem durch den Schwerpunkt (¯ x, ¯ y) 80 4. Zweidimensionale Daten Zwischen den Merkmalen X und Y besteht also eine positive Korrelation. Befinden sich die Daten haupts¨achlich im II. und IV. Quadranten, dann ist die Kovarianz negativ. Je gr¨oßer die x-Werte sind, desto kleiner werden tendenziell die y-Werte. Die Merkmale X und Y sind negativ korreliert. Die Kovarianz kann also Hinweise geben, ob zwischen zwei Merkmalen eine positive oder eine negative Korrelation besteht. Sie ist jedoch nicht als Maßzahl geeignet, denn sie kann Werte zwischen −∞ und + ∞ annehmen. Eine Normierung der Kovarianz durch das Produkt der Standardabweichungen s X · s Y l¨ost dieses Problem. Definition 4.6 Der Quotient zwischen der Kovarianz s XY und dem Produkt der Standardabweichungen s X = 0 und s Y = 0 r = s XY s X · s Y (4.25) heißt Korrelationskoeffizient nach Bravais-Pearson. F¨ ur den Korrelationskoeffizienten r gilt: − 1 ≤ r ≤ +1 (4.26) Der Nenner ist ein Produkt der Standardabweichungen s X und s Y , die nach Voraussetzung stets positiv sind. Deshalb wird er niemals negativ sein. Das Vorzeichen von r wird allein durch die Kovarianz festgelegt. | r | = 1 Vollkommene Korrelation (Alle Beobachtungen liegen auf einer Geraden) r = 0 Keine Korrelation (Kein linearer Zusammenhang) r > 0 Positive Korrelation (Gleichsinniger linearer Zusammenhang) r < 0 Negative Korrelation (Gegensinniger linearer Zusammenhang) 4.4. Korrelationskoeffizient nach Bravais-Pearson 81 r ≈ 1 r ≈ 0 r ≈ 0 r ≈ − 1 Abbildung 4.5.: Datenverteilung und Korrelationskoeffizienten Abbildung 4.5 zeigt im Uhrzeigersinn ein Streudiagramm mit r ≈ 1 (eine starke positive Korrelation), mit r ≈ 0 (y-Werte bleiben unbeeinflusst von den x-Werten fast immer gleich), mit r ≈ − 1 (eine negative starke Korrelation) und schließlich mit r ≈ 0 (eine eher quadratische Abh¨angigkeit). Der Korrelationskoeffizient r gibt die St¨arke eines linearen Zusammenhangs wieder. Andere Arten funktionaler Zusammenh¨ange, wie quadratische, exponentielle u. a., werden von r nicht erfasst. Beispiel 4.7 In diesem Beispiel berechnen wir den Korrelationskoeffizienten nach Bravais-Pearson f¨ ur die Daten aus Beispiel 4.5. Dort haben wir die Variablen X: Anzahl der Anzeigen und Y : Anzahl der Kunden. Der visuelle Eindruck aus dem zugeh¨origen Streudiagramm vermittelt, dass zwischen den Merkmalen X und Y eine positive Korrelation besteht. Wie stark diese ist, zeigt der Korrelationskoeffizient nach Bravais- Pearson r. F¨ ur dessen Berechnung ermitteln wir zun¨achst (siehe Tabelle 4.11) die arithmetischen Mittel ¯ x = ∑ 12 i=1 x i 12 = 48 12 = 4 und ¯ y = ∑ 12 i=1 y i 12 = 4910 12 ≈ 409, 17, 82 4. Zweidimensionale Daten die Varianzen s 2 X = ∑ 12 i=1 (x i − ¯ x) 2 12 = 54 12 = 4, 5 und s 2 Y = ∑ 12 i=1 (y i − ¯ y) 2 12 = 273.091, 67 12 , die Standardabweichungen s X = √ 4, 5 = 2, 12 und s Y = √ 273.091, 67 12 ≈ 150, 86 sowie die Kovarianz s XY = 1 12 12 ∑ i=1 (x i − ¯ x)(y i − ¯ y) = 3240 12 = 270. i x i y i (x i − ¯ x) (y i − ¯ y) (x i − ¯ x)(y i − ¯ y) (x i − ¯ x) 2 (y i − ¯ y) 2 1 2 300 -2 -109,17 218,33 4 11.917,36 2 6 670 2 260,83 521,67 4 68.034,03 3 7 500 3 90,83 272,50 9 8.250,69 4 4 360 0 -49,17 0,00 0 2.417,36 5 5 460 1 50,83 50,83 1 2.584,03 6 1 250 -3 -159,17 477,50 9 25.334,03 7 3 400 -1 -9,17 9,17 1 84,03 8 4 490 0 80,83 0,00 0 6.534,03 9 2 130 -2 -279,17 558,33 4 77.934,03 10 1 250 -3 -159,17 477,50 9 25.334,03 11 7 500 3 90,83 272,50 9 8.250,69 12 6 600 2 190,83 381,67 4 36.417,36 48 4910 0 0,00 3240,00 54,00 273.091,67 Tabelle 4.11.: Arbeitstabelle zur Berechnung von s XY , s 2 X und s 2 Y Der Korrelationskoeffizient betr¨agt somit r = s XY s X · s Y = 270 2, 12 · 150, 86 = 0, 84. Zwischen der Anzahl der Anzeigen und der Anzahl der Kunden besteht ein starker positiver linearer Zusammenhang. Man kann davon ausgehen, dass, je mehr Anzeigen ver¨offentlicht werden, umso mehr Kundenbesuche zu erwarten sind. 4.5. Rangkorrelationskoeffizient nach Spearman 83 4.5. Rangkorrelationskoeffizient nach Spearman Liegen ordinalskalierte Merkmale X und Y vor, so kann man den Korrelationskoeffizienten nach Bravais-Pearson auf die Rangzahlen R(x i ) und R(y i ) (statt auf die x- und y-Werte selbst) anwenden. In diesem Fall heißt er Rangkorrelationskoeffizient nach Spearman und wird mit r Sp bezeichnet. Die Rangzahlen erh¨alt man, indem man die Beobachtungswerte der Gr¨oße nach sortiert und jedem von ihnen eine Rangnummer zuweist. Werden zwei oder mehrere gleich große Werte beobachtet, so werden sie zun¨achst einfach weiter durchnummeriert. Als Rangzahl jeder dieser Beobachtungen gilt dann das arithmetische Mittel ihrer Rangzahlen. Es ist gleichg¨ ultig, ob der gr¨oßte oder der kleinste Wert die Rangzahl 1 erh¨alt. Definition 4.7 Der Rangkorrelationskoeffizient nach Spearman ist definiert als r Sp = s R(X)R(Y ) s R(X) s R(Y ) (4.27) Dabei bedeuten: • R(X) = Rangzahl des Merkmals X • R(Y ) = Rangzahl des Merkmals Y • s R(X)R(Y ) = Kovarianz zwischen den Rangzahlen R(X) und R(Y ) • s R(X) = Standardabweichung von R(X) • s R(Y ) = Standardabweichung von R(Y ) Wie beim Bravais-Pearson-Korrelationskoeffizienten gilt − 1 ≤ r Sp ≤ +1 (4.28) Beispiel 4.8 Bei einer Qualit¨atskontrolle von sechs Markenweinen interessiert man sich u.a. f¨ ur die Merkmale X: Preis in Euro und Y : Sensorische Beurteilung. 84 4. Zweidimensionale Daten Die Schl¨ ussel f¨ ur die sensorische Beurteilung sei: Sehr gut Gut Befriedigend Ausreichend Mangelhaft 0, 5 − 1, 5 1, 6 − 2, 5 2, 6 − 3, 5 3, 6 − 4, 5 4, 6 − 5, 5 Das Testergebnis gibt die Tabelle 4.12 wieder. Dabei bezeichnen R(X): Rangzahl der Variablen X und R(Y ): Rangzahl der Variablen Y . Die Rangzahlen werden so vergeben, dass den einzelnen Beobachtungen der Gr¨oße nach absteigend Rangzahlen zwischen 1 und 6 zugewiesen werden. Die Marken B und F mit dem gleichen Preis von 15 e erhalten zun¨achst die Rangzahlen 3 und 4. Die endg¨ ultige Rangzahl jeder Marke ergibt sich als arithmetisches Mittel dieser Rangzahlen: 3+4 2 = 3, 5. Ebenso verf¨ahrt man mit dem gleichen Ergebnis der sensorischen ¨ Uberpr¨ ufung der Marken A und F. Marke Preis Sensorisch Rangzahl i x i y i r(x i ) r(y i ) A 13,00 2,0 5 3,5 B 15,00 3,0 3,5 6 C 16,00 1,5 2 2 D 18,00 2,5 1 5 E 12,00 1,0 6 1 F 15,00 2,0 3,5 3,5 21 21 Tabelle 4.12.: Rangzahlen der Merkmale Sensorisches Testergebnis (Y ) und Preis (X) F¨ ur die Rangzahlen R(X) und R(Y ) gelten r(x) = r(y) und s 2 R(x) = s 2 R(y) . Wir berechnen (vgl. Tabelle 4.12 bzw. Tabelle 4.13): r(x) = 1 6 6 ∑ i=1 r(x i ) = 21 6 = 3, 5 s 2 R(x) = 1 6 6 ∑ i=1 (r(x i ) − r(x)) 2 = 17 6 Die Kovarianz (vgl. Tabelle 4.13) betr¨agt s R(x)R(y) = 1 6 6 ∑ i=1 ( r(x i ) − r(x) )( r(y i ) − r(y) ) = − 7, 75 6 . 4.5. Rangkorrelationskoeffizient nach Spearman 85 i r(x i ) − r(x i ) r(y i ) − r(y i ) (r(x i ) − r(x i )) · (r(y i ) − r(y i )) (r(x i ) − r(x i )) 2 A 1,5 0,0 0,00 2,25 B 0,0 2,5 0,00 0,00 C -1,5 -1,5 2,25 2,25 D -2,5 1,5 -3,75 6,25 E 2,5 -2,5 -6,25 6,25 F 0,0 0,0 0,00 0,00 0,0 0,0 -7,75 17,00 Tabelle 4.13.: Arbeitstabelle zur Berechnung von s 2 R ( x ) , s 2 R ( y ) und s R ( x ) R ( y ) Somit betr¨agt der Rangkorrelationskoeffizient r Sp = s R(x)R(y) √ s 2 R(x) · √ s 2 R(y) = − 7,75 6 17 6 ≈ − 0, 456. Das Ergebnis weist auf einen mittleren negativen Zusammenhang zwischen Sensorische Beurteilung und Preis hin. (Man darf jedoch nicht vergessen, dass die Anzahl der Beobachtungen sehr gering ist.) Haben alle Werte verschiedene Rangzahlen, kann man r Sp nach der folgenden Formel berechnen: r Sp = 1 − 6 ∑ n i=1 d 2i n(n 2 − 1) (4.29) Dabei ist d i = r(x i ) − r(y i ), die Differenz der beiden i-ten Rangzahlen. Beispiel 4.9 Angenommen, der Preis f¨ ur die Marke F sei 10 e (x 6 = 10) und das Ergebnis der sensorischen Beurteilung derselben Marke sei y 6 = 4. Den Rangkorrelationskoeffizienten kann man gem¨aß (4.29) (vgl. Tabelle 4.14) wie folgt berechnen: r Sp = 1 − 6 ∑ n i=1 d 2i n(n 2 − 1) = 1 − 6 · 30 6(6 2 − 1) = 0, 14 86 4. Zweidimensionale Daten Marke Preis Sensorisch Rangzahl Rangdifi x i y i r(x i ) r(y i ) ferenz d i d 2i A 13,00 2,0 4 3 1 1 B 15,00 3,0 3 5 -2 4 C 16,00 1,5 2 2 0 0 D 18,00 2,5 1 4 -3 9 E 12,00 1,0 5 1 4 16 F 10,00 4,0 6 6 0 0 30 Tabelle 4.14.: Arbeitstabelle zur Berechnung von r Sp mit Hilfe der Rangdiferrenzen d i 4.6. Zusammenfassung Erhebt man an jeder Untersuchungseinheit zwei Merkmale, dann nennt man die Daten zweidimensional. Die H¨aufigkeitstabelle zweidimensionaler Daten heißt Kontingenztabelle. Im Zentrum der zweidimensionalen Datenanalyse steht die Frage nach dem Zusammenhang zwischen den Merkmalen. Je st¨arker der Zusammenhang zwischen zwei Merkmalen ist, umso besser kann man aus Kenntnissen des einen Merkmals das Verhalten des anderen vorhersagen. Drei Arten von Zusammenhangsmaßen wurden vorgestellt: 1. Bravais-Pearson-Korrelationskoeffizient r 2. Rangkorrelationskoefizient nach Pearson r Sp 3. Korrigierter Kontingenzkoeffizient nach Pearson P korr Die Wahl eines geeigneten Maßes wird durch die Merkmalskalen bestimmt. Der Bravais-Pearson-Korrelationskoeffizient ist nur bei kardinalskalierten Merkmalen sinnvoll. Er gibt an, wie stark die Variablen voneinander linear abh¨angig sind. Den ersten Hinweis auf einen linearen Zusammenhang kann man aus dem Streudiagramm (Punktewolke) der Daten entnehmen: Zeigt die Punktewolke ein Muster, das von links unten schr¨ag nach oben oder von links oben schr¨ag nach unten verl¨auft, dann kann man von einem linearen Zusammenhang ausgehen. Im ersten Fall ist der Zusammenhang positiv, d.h. große x-Werte gehen mit großen y-Werten einher. Im zweiten Fall ist der Zusammenhang negativ; das bedeutet: Je gr¨oßer die x-Werte sind, umso kleiner werden die 4.6. Zusammenfassung 87 y-Werte. Besteht zwischen den Variablen X und Y eine lineare Beziehung, dann sagt man ”X und Y sind korreliert“. Eine Korrelation ist keine kausale Beziehung. Sie besagt nur, dass zwei Variablen sich in die gleiche oder in die entgegengesetzte Richtung bewegen. (Zwischen der Anzahl der Neugeborenen und der Anzahl der Klapperst¨orche besteht tats¨achlich eine positive Korrelation.) Sind die Variablen ordinalskaliert, dann berechnet man den Spearman- Rangkorrelationskoeffizienten. Dieser ist eine Anwendung des Bravais- Pearson-Korrelationskoeffizienten auf die Rangzahlen der Variablen. Den Kontingenzkoeffizienten nach Pearson setzt man ein, wenn mindestens eine der Variablen nominalskaliert ist. Er misst die St¨arke der (statistischen) Abh¨angigkeit zweier Merkmale. ¨ Ubersicht von Zusammenhangsmaßen: NOMINAL ORDINAL KARDINAL NOMINAL Pearson Pearson Pearson P korr P korr P korr ORDINAL Pearson Spearman Spearman P korr r Sp r Sp KARDINAL Pearson Spearman Bravais-Pearson P korr r Sp r Notationen, Formeln und ihre Bedeutung n Anzahl der Daten x 1 , . . . , x m Auspr¨agungen des Merkmals X y 1 , . . . , y Auspr¨agungen des Merkmals Y (x j , y k ) Auspr¨agungspaare (X = x j und Y = y k ), j = 1, . . . , m; k = 1, . . . , f jk Absolute H¨aufigkeit von (x j , y k ), j = 1, . . . , m; k = 1, . . . , h jk Relative H¨aufigkeit von (x j , y k ), j = 1, . . . , m; k = 1, . . . , f j = ∑ k =1 f jk Randh¨aufigkeit von X, j = 1, . . . , m f k = m ∑ j =1 f jk Randh¨aufigkeit von Y , k = 1, . . . , 88 4. Zweidimensionale Daten f jk f j bedingte H¨aufigkeit des Merkmals Y , wenn X = x j , k = 1, . . . , f jk f k bedingte H¨aufigkeit des Merkmals X, wenn Y = y k , j = 1, . . . , m s 2 X = 1 n ∑ m j =1 (x j − ¯ x) 2 · f j Varianz von X s 2 Y = 1 n ∑ k =1 (y k − ¯ y) 2 · f k Varianz von Y s XY = 1 n ∑ n i =1 (x i − ¯ x)(y i − ¯ y) Kovarianz von X und Y r = s XY s X · s Y Bravais-Pearson-Korrelationskoeffizient r Sp = s R(X)R(Y ) s R(X) · s R(Y ) Spearman-Rangkorrelationskoeffizient P korr = P P max Korrigierter Kontingenzkoeffizient nach Pearson P = √ χ 2 χ 2 + n Kontingenzkoeffizient nach Pearson P max = √ M −1 M Maximaler Wert von P ; M = min { m, } χ 2 = ∑ m j =1 ∑ k =1 ( f jk − e jk ) 2 e jk Chi-Quadrat-Gr¨oße e jk = f j · f k n Anzahl von (x j , y k ) bei Unabh¨angigkeit, j = 1, . . . , m; k = 1, . . . , 89 5. Lineare Regressionsanalyse Im vorangegangenen Kapitel wurde der Korrelationskoeffizient r als Maß f¨ ur die St¨arke des linearen Zusammenhangs eingef¨ uhrt. Ein Korrelationskoeffizient gleich Null bedeutet, dass zwischen den Variablen kein linearer Zusammenhang besteht. Nimmt r betragsm¨aßig den Wert 1 an, dann ist der Zusammenhang perfekt; alle Beobachtungen liegen auf einer Geraden. Mit dem Korrelationskoeffizienten k¨onnen wir einen linearen Zusammenhang jedoch nicht in der Form einer Geradengleichung angeben. Dazu m¨ ussen wir auf die Regressionsanalyse 1 zur¨ uckgreifen. Die Regressionsanalyse bietet eine Methode zur Bestimmung der Geradengleichung, die die Beziehung zwischen den Variablen funktional beschreibt. Die abh¨angige oder endogene Variable bezeichnet man mit y, w¨ahrend x f¨ ur die unabh¨angige 2 oder exogene Variable steht. So wird man beispielsweise bei einer Studie ”Wie Ausgaben und Einkommen zusammenh¨angen“ Einkommen als die exogene und Ausgaben als die endogene Variable definieren. Das zur Bestimmung der Geraden verwendete Verfahren heißt die Methode der kleinsten Quadrate, kurz KQ-Methode 3 , die im n¨achsten Abschnitt vorgestellt wird. 5.1. Methode der kleinsten Quadrate Da die Beobachtungen (x i , y i ) im allgemeinen nicht auf einer Geraden liegen, schreiben wir y i = a + b · x i + u i . Die Variable u i ist somit ”verantwortlich“ daf¨ ur, dass die Datenpunkte nicht exakt auf der Geraden liegen. Die Methode der kleinsten 1 Da wir nur die lineare Regression betrachten, wird auf den Zusatz linear verzichtet. 2 Nicht zu verwechseln mit statistischer Unabh¨angigkeit! 3 Die Kleinste-Quadrate-Methode wurde von Carl Friedrich Gauß (1777-1855), deutscher Mathematiker und Physiker, entwickelt. 90 5. Lineare Regressionsanalyse Quadrate (KQ-Methode) bestimmt die Geradenkoeffizienten a und b so, dass die Summe der quadrierten Abweichungen zwischen den Beobachtungen y i und den zu x i geh¨orenden Werten auf der Geraden minimal wird. Die Summe beinhaltet die bekannten Beobachtungen x i und y i sowie die unbekannten Koeffizienten a und b. Die Summe l¨asst sich also als eine Funktion, die von a und b abh¨angt, schreiben. Wir bezeichnen die Funktion mit Q(a, b). Die Anwendung der KQ-Methode kann man somit als folgende Minimierungsaufgabe auffassen: Q(a, b) = n ∑ i=1 (y i − a − bx i ) 2 −→ min a,b (5.1) Um das Minimum zu finden, setzt man die partiellen Ableitungen von Q(a, b) jeweils gleich Null 4 : ∂ ∂a Q(a, b) = n ∑ i=1 − 2(y i − a − bx i ) ! = 0 ∂ ∂b Q(a, b) = n ∑ i=1 − 2(x i y i − ax i − bx 2 i ) ! = 0 Die Werte von a und b, die die obigen Bedingungen erf¨ ullen, heißen Kleinstquadrat-Sch¨atzer (abgek¨ urzt: KQ-Sch¨atzer). Wir bezeichnen sie mit ˆ a und ˆb. Die Bestimmungsgleichungen f¨ ur ˆ a und ˆb nennen wir Normalgleichungen. Sie lauten: n ∑ i=1 y i − nˆ a − ˆb n ∑ i=1 x i = 0 (5.2) n ∑ i=1 x i y i − ˆ a n ∑ i=1 x i − ˆb n ∑ i=1 x 2 i = 0 (5.3) Aus der ersten Normalgleichung (5.2) erhalten wir ˆ a = ¯ y − ˆb · ¯ x (5.4) 4 Mit den ersten Ableitungen von Q(a, b) haben wir nur die notwendigen Bedingungen f¨ ur ein Minimum bestimmt. Es ist aber leicht nachzupr¨ ufen, dass die hinreichenden Bedingungen ebenfalls erf¨ ullt sind. Die zweiten partiellen Ableitungen sind tats¨achlich positiv. 5.1. Methode der kleinsten Quadrate 91 x y (x i , y i ) u i a + b · x Abbildung 5.1.: KQ-Methode: ∑ n i =1 u 2 i soll minimiert werden. Dabei bedeutet u i = y i − (a + b · x i ). Setzen wir ˆ a in die zweite Normalgleichung (5.3) ein, erhalten wir: n ∑ i=1 x i y i − (¯ y − ˆb¯ x) n ∑ i=1 x i − ˆb n ∑ i=1 x 2 i = 0 n ∑ i=1 x i y i − ¯ y n ∑ i=1 x i + ˆb¯ x n ∑ i=1 x i − ˆb n ∑ i=1 x 2 i = 0 | · 1 n 1 n n ∑ i=1 x i y i − ¯ y ¯ x + ˆb¯ x¯ x − ˆb 1 n n ∑ i=1 x 2 i = 0 1 n n ∑ i=1 x i y i − ¯ y ¯ x ︸ ︷︷ ︸ =s XY − ˆb ( 1 n n ∑ i=1 x 2 i − ¯ x 2 ) ︸ ︷︷ ︸ =s 2 X = 0 Aufl¨osen der letzten Gleichung nach ˆb ergibt den KQ-Sch¨atzer f¨ ur die Steigung: ˆb = s XY s 2 X (5.5) Die nach der KQ-Methode bestimmte Gerade ˆ y = ˆ a + ˆb · x (5.6) 92 5. Lineare Regressionsanalyse heißt Regressions- oder Ausgleichsgerade und die Werte ˆ y i = ˆ a + ˆb · x i (5.7) i = 1, 2, . . . , n Regressionswerte. Die Regressionsgerade geht stets durch den Schwerpunkt (¯ x, ¯ y), denn ¯ y = ˆ a + ˆb · ¯ x. Zwischen der Geradensteigung ˆb und dem Korrelationskoeffizienten r besteht die Beziehung: ˆb = r · s Y s X (5.8) Denn ˆb = s XY s 2 X = s XY s X · s X · s Y s Y = s XY s X · s Y · s Y s X = r s Y s X . Beispiel 5.1 Wir greifen auf die Daten aus Beispiel 4.5 im Abschnitt 4.4 zur¨ uck. Dort haben wir 12 Beobachtungen zu den Variablen X: Anzahl der Anzeige pro Woche und Y : Anzahl der Kunden pro Woche. Zwischen den Variablen wurde ein Korrelationskoeffizient von r = 0, 84 berechnet, also eine positive Korrelation. Nun wollen wir diesen Zusammenhang mit Hilfe einer linearen Funktion ausdr¨ ucken. Aus Beispiel 4.7 entnehmen wir: ¯ x = 4 ¯ y = 409, 17 s 2 X = 4, 5 s XY = 270 Daraus berechnet sich ˆb = s XY s 2 X = 270 4, 5 = 60 und ˆ a = ¯ y − ˆb¯ x = 409, 17 − 60 · 4 = 169, 17. Somit lautet die Regressionsgerade (siehe Abbildung 5.2) ˆ y = 169, 17 + 60 · x. Die Anzahl der Kunden nimmt mit der Anzahl der Anzeigen gleichm¨aßig zu. W¨ urde man auf die Anzeige verzichten (x = 0), dann w¨aren 169 (=ˆ a) Kunden zu erwarten. Jede zus¨atzliche Anzeige w¨ urde 60 (=ˆb) weitere Kunden bringen. Mit Hilfe der Regressionsgeraden kann man f¨ ur eine vorgegebene Anzahl von Anzeigen (x-Wert) absch¨atzen, wie viele Kunden vorausichtlich kommen werden. 5.2. Streuungszerlegung und Bestimmtheitsmaß 93 2 4 6 8 0 400 800 Anzahl der Anzeigen Anzahl der Kunden ˆ y = 169, 17 + 60 · x Abbildung 5.2.: Streudiagramm und Regressionsgerade ˆ y = 169, 17 + 60 · x 5.2. Streuungszerlegung und Bestimmtheitsmaß Die Regressionsgleichung ˆ y i = ˆ a + ˆb x i beschreibt den durchschnittlichen Zusammenhang zwischen der abh¨angigen Variablen y und ihrer Erkl¨arungsvariablen x. Die Qualit¨at der Anpassung ist umso besser, je dichter die Beobachtungspunkte um die Regressionsgerade streuen (siehe Abbildung 5.3). Eine Maßzahl, die die G¨ ute der Anpassung wiedergibt, ist das Bestimmtheitsmaß. Die Grundlage f¨ ur dessen Definition bildet die Streuungs- oder Varianzzerlegung n ∑ i=1 (y i − ¯ y) 2 = n ∑ i=1 (ˆ y i − ¯ y) 2 + n ∑ i=1 (y i − ˆ y i ) 2 . (5.9) Die Streuungszerlegung folgt aus der Identit¨at y i − ¯ y = (ˆ y i − ¯ y) + (y i − ˆ y i ), (5.10) die in Abbildung 5.4 illustriert wird. Quadrieren der Gleichung (5.10) f¨ uhrt nach der binomischen Formel zu (y i − ¯ y) 2 = (ˆ y i − ¯ y) 2 + 2(ˆ y i − ¯ y)(y i − ˆ y i ) + (y i − ˆ y i ) 2 . 94 5. Lineare Regressionsanalyse a) b) Abbildung 5.3.: a) Gute Anpassung, b) Schlechte Anpassung x y y i ˆ y i ¯ y y i − ˆ y i ˆ y i − ¯ y y i − ¯ y Abbildung 5.4.: y i − ¯ y = (ˆ y i − ¯ y) + (y i − ˆ y i ) Summenbildung ¨ uber i = 1, . . . , n ergibt n ∑ i=1 (y i − ¯ y) 2 = n ∑ i=1 (ˆ y i − ¯ y) 2 +2 n ∑ i=1 (ˆ y i − ¯ y)(y i − ˆ y i )+ n ∑ i=1 (y i − ˆ y i ) 2 . (5.11) Die mittlere Summe ∑ (ˆ y i − ¯ y)(y i − ˆ y i ) ist gleich Null. Denn es gilt zun¨achst: ∑ (ˆ y i − ¯ y)(y i − ˆ y i ) = ∑ ˆ y i (y i − ˆ y i ) − ∑ ¯ y(y i − ˆ y i ) = ∑ ˆ y i (y i − ˆ y i ) − ¯ y ∑ (y i − ˆ y i ) ︸ ︷︷ ︸ = (5 . 2) 0 5.2. Streuungszerlegung und Bestimmtheitsmaß 95 Setzen wir ˆ y i = ˆ a + ˆbx i in die verbleibende Summe ein, so erhalten wir: ∑ ˆ y i (y i − ˆ y i ) = ∑ (ˆ a + ˆbx i )(y i − ˆ y i ) = ∑ ˆ a(y i − ˆ y i ) + ∑ ˆbx i (y i − ˆ y i ) = ˆ a ∑ (y i − ˆ y i ) ︸ ︷︷ ︸ = (5 . 2) 0 +ˆb ∑ x i (y i − ˆ y i ) ︸ ︷︷ ︸ = (5 . 3) 0 = 0 Damit gilt die Gleichung (5.9). Multipliziert man diese mit 1 n , dann erh¨alt man 1 n ∑ (y i − ¯ y) 2 = 1 n ∑ (ˆ y i − ¯ y) 2 + 1 n ∑ (y i − ˆ y i ) 2 (5.12) und wegen ˆ y = 1 n n ∑ i=1 ˆ y i = 1 n n ∑ i=1 (ˆ a + ˆbx i ) = ˆ a + ˆb¯ x = ¯ y gilt 1 n ∑ (ˆ y i − ¯ y) 2 = s 2 ̂ Y . Mit s 2 Rest = 1 n ∑ (y i − ˆ y i ) 2 schreibt sich die Gleichung (5.12) als s 2 Y = s 2 ̂ Y + s 2 Rest . (5.13) Das bedeutet: Die gesamte Varianz s 2 Y setzt sich aus der Varianz von s 2 ̂ Y und einer Restvarianz s 2 Rest zusammen. Man nennt s 2 ̂ Y die erkl¨arte Varianz und s 2 Rest die unerkl¨arte Varianz; s 2 ̂ Y stellt die Varianz der y-Werte dar, die auf den linearen Zusammenhang zwischen X und Y zur¨ uckzuf¨ uhren ist. Je gr¨oßer sie ist, umso besser ist die Anpassung. An der Punktewolke erkennt man einen großen s 2 ̂ Y -Wert darin, dass die meisten Beobachtungen nah an der Geraden liegen. Den Anteil der erkl¨arten Varianz s 2 ̂ Y an der Gesamtvarianz s 2 Y verwendet man als Maßzahl f¨ ur die G¨ ute der Anpassung. 96 5. Lineare Regressionsanalyse Definition 5.1 Das Bestimmtheitsmaß ist definiert als der Anteil der erkl¨arten Varianz an der Gesamtvarianz: R 2 = s 2 ̂ Y s 2 Y (5.14) Es gilt: 0 ≤ R 2 ≤ 1 (5.15) Je n¨aher das Bestimmtheitsmaß an Eins liegt, umso besser ist die Anpassung. R 2 = 1 : Die Gesamtvarianz von Y wird vom linearen Modell zu 100 Prozent erfasst. Die Anpassung ist perfekt. Alle Beobachtungen liegen auf der Regressionsgeraden. R 2 = 0 : Das Modell ist maximal schlecht. Zwischen dem Bestimmtheitsmaß R 2 und dem Korrelationskoeffizienten r besteht die folgende Beziehung: R 2 = r 2 (5.16) Beispiel 5.2 In Beispiel 4.7 haben wir f¨ ur die Variablen X: Anzahl der Anzeigen pro Woche und Y : Anzahl der Kunden pro Woche r = 0, 84 ermittelt. Demnach ergibt sich ein Bestimmtheitsmaß von R 2 = r 2 = 0, 84 2 ≈ 0, 71, d. h. circa 71% der Variationen von Y k¨onnen vom Modell erfasst werden. Beispiel 5.3 CAPM (Capital Asset Pricing Model) ist ein Instrument zum Vergleich verschiedener Aktien bez¨ uglich ihres Risikos. Nach diesem Modell besteht zwischen der erwarteten Rendite R i eines Wertpapiers 5.3. Zusammenfassung 97 i und der erwarteten Rendite R m des Marktportfolios 5 ein linearer Zusammenhang der Art: R i = r f + β i · (R m − r f ). In Worten: Die erwartete Rendite R i des Wertpapiers i ist gleich der Summe aus dem risikolosen Zins r f , und dem Produkt aus der erwarteten Marktpr¨amie R m − r f und dem Betafaktor der Aktie β i . Den Betafaktor β i ermittelt man empirisch nach der KQ-Methode. Interpretation der Beta-Faktor-Werte: β i = 1: Die erwartete Rendite des Wertpapiers i stimmt mit der erwarteten Rendite des Marktes ¨ uberein. β i > 1: Das Risiko dieses Wertpapiers ist gr¨oßer als das Marktrisiko. β i < 1: Das Risiko dieses Wertpapiers ist kleiner als das Marktrisiko. β i = 0: Die Aktie i ist nicht risikobehaftet. Wenn jemand eine Aktie kauft, dann erwartet er, dass seine Aktie mehr abwirft als eine sichere Anlage. Damit kann man den Betafaktor als Maß f¨ ur das Risiko einer Aktie gemessen am Risiko des gesamten Marktes ansehen. Mehr dazu siehe [11], [21]. 5.3. Zusammenfassung In Gegensatz zur Korrelationsrechnung kann man mit einem Regressionsmodell einen linearen Zusammenhang in der Form einer Geradengleichung (Regressionsgerade) angeben. Dadurch kann man beispielsweise im Rahmen einer Planung oder einer Prognose f¨ ur einen vorgegebenen x-Wert einen y-Wert ermitteln. Die Regressionsgerade wird mit der Methode der kleinsten Quadrate (KQ-Methode) bestimmt. Das Verfahren sieht vor, dass die Summe der quadrierten Abst¨ande (y i − (a + bx i )) 2 minimiert wird. Die Ergebnisse ˆ a bzw. ˆb heißen KQ-Sch¨atzer f¨ ur a bzw. f¨ ur b. Ein Instrument zur Beurteilung des Modells ist das Bestimmtheitsmaß R 2 . Das Bestimmtheitsmaß gibt den Anteil der Variationen von y an, der von dem linearen Modell erfasst wird. Die Bezeichnung des Bestimmtheitsmaßes mit R 2 lehnt sich an den Korrelationskoeffizienten r an, da man durchs Quadrieren des Korrelationskoeffizienten 5 Mit Marktportfolio bezeichnet man die Gesamtheit aller gehandelten Wertpapiere 98 5. Lineare Regressionsanalyse das Bestimmtheitsmaß erh¨alt. Je st¨arker die exogene Variable X an dem Entstehungsprozess der endogenen Variablen Y beteiligt ist, umso h¨oher ist der Wert des Bestimmtheitsmaßes. Das Maximum wird bei Eins erreicht. Das ist dann der Fall, wenn das Modell die Variationen zu 100% erfasst; die Anpassung ist perfekt. Das heißt: Alle Beobachtungen liegen auf der Geraden. (Diesen Fall kann man in der Praxis allerdings ausschließen.) Das Minimum von R 2 ist Null. Das ist dann der Fall, wenn die Anpassung maximal schlecht ist. Formeln und ihre Bedeutung ˆ a = ¯ y − ˆb¯ x KQ-Sch¨atzer f¨ ur a (y-Achsenabschnitt) ˆb = s XY s 2 X KQ-Sch¨atzer f¨ ur b (Steigung der Regressionsgeraden) ˆ y = ˆ a + ˆbx Regressionsgerade s 2 Y = s 2 ̂ Y + s 2 Rest Streuungs- oder Varianzzerlegung R 2 = s 2 ˆ Y s 2 Y = r 2 Bestimmtheitsmaß 99 6. Verh¨altniszahlen F¨ ur Vergleichszwecke werden in der Praxis h¨aufig Gr¨oßen zueinander in Beziehung gesetzt. Man denke zum Beispiel an die Kapitalrentabilit¨at als Quotient zwischen Gewinn und Kapital, an den St¨ uckpreis oder an die Bev¨olkerungsdichte (Personen/ km 2 ). Quotienten zweier Gr¨oßen heißen allgemein Verh¨altniszahlen. Man unterscheidet drei Kategorien dieser Zahlen: • Gliederungszahlen • Beziehungszahlen • Messzahlen Gliederungszahlen sind Quotienten einer Teilmasse und einer Gesamtmasse. Beispiele sind u. a. relative H¨aufigkeiten (Anteilswerte), das Verh¨altnis von Umsatzzahlen eines bestimmten Produktes zum Gesamtumsatz, die Eigenkapitalquote (der Quotient zwischen Eigen- und Gesamtkapital) oder der Auslastungsgrad von Produktionsmaschinen. Beziehungszahlen sind Quotienten zweier verschiedener, jedoch sachlich in sinnvoller Beziehung stehender Gr¨oßen. Beispiele sind u. a. das arithmetische Mittel, der Pro-Kopf-BIP, die Geburtenziffer oder die Bev¨olkerungsdichte. 6.1. Messzahlen F¨ ur eine Zeitreihe { y t : t = 0, 1, 2, . . . , T } (t kann Tage, Wochen, Monate, Jahre o. ¨a. bedeuten) mit y 0 = 0 heißen die Quotienten { y t y 0 · 100 } (6.1) Messzahlen. Messzahlen sind somit Quotienten gleichartiger Gr¨oßen. Eine Messzahl y t y 0 · 100 gibt an, wie stark sich der Zeitreihenwert y t in 100 6. Verh¨altniszahlen einer Periode t = 0 gegen¨ uber dem Wert in einer gew¨ahlten Periode 0 ge¨andert hat. Den Zeitpunkt 0 nennt man Basisperiode, den Zeitpunkt t Berichtsperiode. In der Praxis werden insbesondere Messzahlen, welche Preise p t , abgesetzte Mengen q t oder Ums¨atze p t q t eines bestimmten Produktes darstellen, gebildet. Beispiel 6.1 Tabelle 6.1 gibt die Entwicklung des Goldpreises pro kg Feingold in DM wieder, notiert in Frankfurt am Main/ Fixing der Frankfurter Wertpapierb¨orse 1 im Zeitraum von 1989 bis 1998 und als Preismesszahlen zur Basis 1989. Man schreibt: 1989 = 100. Die Preismesszahlen zeigen nicht nur, wie die Goldpreise immer niedriger werden, sondern auch, um wie viel Prozent sie bez¨ uglich des Basisjahrespreises sinken. Beispielsweise besagt eine Preismesszahl von 86,66 im Jahr 1990, dass in diesem Jahr der Goldpreis um ca. 13% niedriger lag als im Jahr 1989. Jahr Preis Messzahlen t p t p t p 0 · 100 1989 0 23.063,43 100,00 1990 1 19.987,53 86,66 1991 2 19.366,00 83,97 1992 3 17.261,06 74,84 1993 4 19.186,05 83,19 1994 5 20.043,65 86,91 1995 6 17.707,51 76,78 1996 7 18.756,04 81,32 1997 8 18.480,28 80,13 1998 9 16.701,93 72,42 Tabelle 6.1.: Goldpreis pro Kilogramm Feingold und als Preismesszahlen 1989=100 Einen weiteren Vorteil von Messzahlen illustriert Abbildung 6.1: Dort werden drei Zeitreihen jeweils als Messzahlen zur selben Basis dargestellt. Man erkennt, dass alle drei Zeitreihen tendenziell steigen. 1 http: / / www.bundesbank.de/ statistik/ statistik_zeitreihen.php? lang=de&open=&func= row&tr=WJ5501 (Stand: 26.04.2011) 6.1. Messzahlen 101 1990 1993 1995 1996 100 110 120 130 Abbildung 6.1.: Vergleich dreier Zeitreihen 1990=100 Sie entwickeln sich jedoch mit unterschiedlichen Geschwindigkeiten. Messzahlen erm¨oglichen also, mehrere Zeitreihenverl¨aufe zu Vergleichszwecken ¨ ubersichtlich in einem Diagramm abzubilden. Neben dem zeitlichen Vergleich sind Messzahlen - wie das folgende Beispiel zeigt - ebenso f¨ ur r¨aumliche Vergleiche geeignet. Beispiel 6.2 Tabelle 6.2 gibt den CO 2 -Ausstoß 2 einiger europ¨aischer Staaten (x i ) im Jahr 2007 in Mio. Tonnen wieder. Als Messzahlen stehen sie in der 4. Spalte derselben Tabelle. Dabei wird Deutschland als Basis festgelegt (Deutschland=100). Russland stieß im Jahr 2007 fast doppelt so viel CO 2 aus wie Deutschland. In der Ukraine wurde in diesem Jahr ca. 60 % weniger CO 2 emittiert als in Deutschland. i Land x i x i x 2 · 100 1 Russland 1587 198,87 2 Deutschland 798 100,00 3 Großbritannien 523 65,54 5 Italien 438 54,89 6 Frankreich 369 46,24 8 Spanien 345 43,23 9 Ukraine 314 39,35 Tabelle 6.2.: CO 2 -Ausstoß einiger europ¨aischen Staaten im Jahr 2007 in Mio. Tonnen und als Messzahlen im Vergleich zu Deutschland=100 2 http: / / www.agenda21-treffpunkt.de/ daten/ treibhausgase.htm (Stand: 13.07.2011) 102 6. Verh¨altniszahlen Im Gegensatz zu Messzahlen, welche Ver¨anderungen einer einzigen Zeitreihe durch den Bezug auf eine geeignete Basis messen, stellen Indexzahlen Ver¨anderungen einer Gesamtheit von Zeitreihen dar, z. B. die Preisentwicklung einer Gruppe von n Waren, Warenkorb genannt. Beispiele: 1. Aktienkursindex (DAX, Euro-Stoxx, Dow Jones, Nikkei usw.). Ein Aktienindex gibt an, wie sich der Wert einer Gruppe von Aktien im Vergleich zu einem fr¨ uheren Zeitpunkt entwickelt hat. Der DAX-Wert gibt den B¨orsenwert von 30 ausgew¨ahlten Unternehmen in Deutschland im Vergleich zum Einf¨ uhrungstag, dem 30. Dezember 1987 an. An diesem Tag wurde der DAX auf 1000 Punkte gesetzt. 2. Verbraucher-Preisindex VPI. Der Verbraucherpreisindex wird monatlich vom Statistischen Bundesamt ver¨offentlicht. Er beschreibt die Preisentwicklung der von den privaten Haushalten konsumierten G¨ uter. Im VPI werden Preismesszahlen einer Gruppe von Waren und Dienstleistungen, welche als repr¨asentativ f¨ ur private Haushalte in Deutschland gelten, gemittelt. 3. Produzentenpreisindex als Maß des Gesamtpreisniveaus f¨ ur Zwischenprodukte und Großhandelserzeugnisse ([20, Seite 38]). 4. Index der Einzelhandelspreise (EHI) beschreibt die Verkaufspreisentwicklung von Waren (ohne Dienstleistungen), welche Einzelh¨andler an private Haushalte verkaufen. Indexzahlen werden im Allgemeinen in Prozent herausgegeben. Eine Ausnahme bilden Aktienindizes: Sie werden in Promille wiedergegeben. Die wichtigsten Indexzahlen sind • Preisindex • Mengenindex • Wertindex Nachfolgend seien einige Notationen vereinbart: • Der Mengenvektor q t = ( q 1t . . . q it . . . q nt ) stellt einen Warenkorb der Periode t dar. Dabei bedeutet q it die transferierte (konsumierte, verkaufte, exportierte/ importierte, produzierte) Menge f¨ ur das Gut i in der Periode t. 6.2. Preisindizes 103 • Der Preisvektor p t = ( p 1t . . . p it . . . p nt ) enth¨alt als Komponente p it die Preise f¨ ur das jeweilige Gut i in der Periode t. • Ausgaben/ Umsatz in der Basisperiode 0: p 0 q 0 = n ∑ i=1 p i0 q i0 • Ausgaben/ Umsatz in der Berichtsperiode t: p t q t = n ∑ i=1 p it q it 6.2. Preisindizes Ein Preisindex soll die Preisver¨anderung eines Warenkorbes von einem bestimmten Zeitpunkt 0 (Basisperiode) bis zu einem Zeitpunkt t = 0 (Berichtsperiode) wiedergeben. Ein Vergleich der Ausgaben zur Berichts- und zur Basisperiode w¨ urde ein verf¨alschtes Ergebnis liefern, denn außer von den Preisen werden die Ausgaben auch von den Mengen bestimmt. Die Idee besteht nun darin, dass man durch Konstanthalten eines Warenkorbes (q 0 oder q t ) die Mengeneinfl¨ usse ausschaltet. Dazu gibt es zwei M¨oglichkeiten: 1. Man bewertet den Warenkorb zur Basisperiode mit den Preisen der Berichtsperiode p t q 0 = n ∑ i=1 p it q i0 104 6. Verh¨altniszahlen und vergleicht diesen fiktiven Wert des Warenkorbes mit dem tats¨achlichen Wert in der Basisperiode p 0 q 0 . Diese Vorgehensweise f¨ uhrt zum Preisindex nach Laspeyres 3 . 2. Der Warenkorb q t zur Berichtsperiode wird mit den Preisen p 0 der Basisperiode bewertet. Der dadurch entstandene fiktive Wert des aktuellen Warenkorbes p 0 q t = n ∑ i=1 p i0 q it wird nun mit dem tats¨achlichen Wert in der Berichtsperiode p t q t verglichen. Diese Vorgehensweise f¨ uhrt zum Preisindex nach Paasche 4 . 6.2.1. Preisindex nach Laspeyres Definition 6.1 Der Quotient P L 0t = p t q 0 p 0 q 0 (6.2) heißt Preisindex nach Laspeyres. Um den Preisindex in Prozent auszugeben, multipliziert man den Quotienten (6.2) mit 100. Der Preisindex nach Laspeyres gibt an, ob man in der Berichtsperiode f¨ ur den Warenkorb der Basisperiode mehr, weniger oder gleich viel ausgeben muss. Beispiel 6.3 Wir betrachten einen kleinen Warenkorb bestehend aus drei G¨ utern: Brot, Wein und Kinobesuch. Es soll festgestellt werden, ob dieser Warenkorb im Mai 2010 (Berichtsperiode, t = 1) gegen¨ uber Mai 2008 (Basisperiode, t = 0) weniger, gleich oder mehr kostet. Die Preise werden jeweils in Euro pro Kilogramm (Brot), Euro pro Liter (Wein) 3 Ernst Louis Etienne Laspeyres, 1834-1913, deutscher Wirtschaftswissenschaftler und Statistiker 4 Hermann Paasche, 1851-1925, deutscher Politiker und Statistiker 6.2. Preisindizes 105 und Euro pro Kino-Besuch angegeben. Die Mengen- und Preisvektoren sind: q 0 = (6 5 4) p 0 = (4, 90 7, 99 6, 00) q 1 = (3 4 4) p 1 = (5, 05 8, 00 7, 00) Um die Ausgaben zu berechnen, stellen wir die folgende Arbeitstabelle auf: Gut Preis Menge Ausgaben Preis Menge i p i0 q i0 p i0 q i0 p i1 q i1 Brot 4,90 6 29,40 5,05 3 Wein 7,99 5 39,95 8,00 4 Kino 6,00 4 24,00 7,00 4 Die Ausgaben (in e ) im Mai 2008 betrugen p 0 q 0 = 3 ∑ i=1 p i0 q i0 = 29, 40 + 39, 95 + 24, 00 = 93, 35. F¨ ur den gleichen Warenkorb q 0 = (6 5 4) m¨ usste man im Mai 2010 p 1 q 0 = 3 ∑ i=1 p i1 q i0 = 5, 05 · 6 + 8, 00 · 5 + 7, 00 · 4 = 98, 3 Euro ausgeben (offenbar mehr als im Mai 2008). Mit dem Preisindex nach Laspeyres l¨asst sich die Preissteigerung prozentual erfassen. Dieser errechnet sich nach (6.2): P L 01 = p 1 q 0 p 0 q 0 · 100 = 98, 3 93, 35 · 100 = 105, 3 Das heißt: Die Preise haben sich im Mai 2010 um 5,3 % gegen¨ uber Mai 2008 erh¨oht. Man kann den Preisindex nach Laspeyres auch als gewogenes arithmetisches Mittel von Preismesszahlen p it p i 0 darstellen: P L 0t = n ∑ i=1 p it p i0 · g i (6.3) 106 6. Verh¨altniszahlen Dabei gibt das jeweilige Gewicht g i = p i 0 q i 0 p 0 q 0 den Ausgabenanteil f¨ ur das Gut i an den gesamten Ausgaben an. Beispiel 6.4 Wir berechnen den Laspeyres-Preisindex aus dem Beispiel 6.3 nochmals als gewogenes Mittel der Preismesszahlen: p 11 p 10 = 5, 05 4, 90 = 1, 03 p 21 p 20 = 8, 00 7, 99 = 1 p 31 p 30 = 7 6 = 1, 17 mit den Gewichten: g 1 = p 10 · q 10 p 0 q 0 = 29,40 93,35 = 0, 31 (dem Ausgabenanteil f¨ ur Brot) g 2 = p 20 · q 20 p 0 q 0 = 39,95 93,35 = 0, 43 (dem Ausgabenanteil f¨ ur Wein) g 3 = p 30 · q 30 p 0 q 0 = 24,00 93,35 = 0, 26 (dem Ausgabenanteil f¨ ur Kino) gem¨aß (6.3): P L 01 = 3 ∑ i=1 p it p i0 · g i = (1, 03 · 0, 31 + 1 · 0, 43 + 1, 17 · 0, 26)100 = 105, 3 (Selbstverst¨andlich ist das Ergebnis identisch mit P L 01 im Beispiel 6.3.) 6.2.2. Preisindex nach Paasche Definition 6.2 Der Preisindex nach Paasche ist definiert als P P 0t = p t q t p 0 q t (6.4) Der Paasche-Preisindex gibt an, ob der Warenkorb der Berichtsperiode zu aktuellen Preisen gleich, mehr oder weniger kostet, als derselbe Warenkorb zu Preisen der Basisperiode gekostet h¨atte. 6.2. Preisindizes 107 Beispiel 6.5 Wir nehmen nochmals die Daten aus Beispiel 6.3 und berechnen nun den Preisindex nach Paasche. Mit p 1 q 1 = 3 ∑ i=1 p i1 q i1 = (5, 05 · 3 + 8, 00 · 4 + 7, 00 · 4) = 75, 15 (dem Wert des aktuellen Warenkorbes) und p 0 q 1 = 3 ∑ i=1 p i0 q i1 = (4, 90 · 3 + 7, 99 · 4 + 6, 00 · 4) = 70, 66 (dem fiktiven Wert desselben Warenkorbes zur Preisen von Mai 2008) ergibt sich der Preisindex nach Paasche (in %) gem¨aß (6.4) P P 01 = p 1 q 1 p 0 q 1 · 100 = 75, 15 70, 66 · 100 = 106, 35. Demnach haben sich die Preise im Mai 2010 um 6,35 % gegen¨ uber Mai 2008 erh¨oht. Sowohl der Laspeyresals auch der Paasche-Preisindex geben an, wie sich die Preise der Berichtsgegen¨ uber der Basisperiode ver¨andert haben. Der Unterschied liegt nur darin, dass der Laspeyres-Preisindex von dem Warenkorb der Basisperiode ausgeht, der Paasche-Preisindex dagegen von dem der Berichtsperiode. Der Z¨ahler im Laspeyres-Index p t q 0 = n ∑ i=1 p it q i0 ist eine fiktive Gr¨oße. Sie gibt den Wert von q 0 zu den Preisen der Berichtsperiode p t an. Dagegen stellt der Nenner p 0 q 0 = n ∑ i=1 p i0 q i0 den tats¨achlichen Wert von q 0 dar. Betrachtet man p 0 q 0 als Ausgaben, dann gibt diese Gr¨oße die tats¨achlichen Ausgaben zum Zeitpunkt 0 an, w¨ahrend p t q 0 der Betrag ist, den man ausgegeben h¨atte, w¨aren die Preise gleich p t gewesen. 108 6. Verh¨altniszahlen Der Paasche-Preisindex funktioniert analog: Man ersetzt den Warenkorb der Basisperiode (q 0 ) durch den der Berichtsperiode (q t ). Im Z¨ahler steht somit p t q t = n ∑ i=1 p it q it , der tats¨achliche Wert des Warenkorbes q t in der Berichtsperiode t, und im Nenner p 0 q t = n ∑ i=1 p i0 q it , der fiktive Wert von q t , der unterstellt, die Preise w¨aren gleich p 0 geblieben. Da man zu jeder Berichtsperiode nur die aktuellen Preise neu ermitteln muss, ist der Laspeyres-Index kosteng¨ unstiger zu errechnen. Der Rechenaufwand ist geringer, und alle Werte einer Indexreihe sind direkt vergleichbar, weil außer den Preisen im Z¨ahler alle anderen Gr¨oßen konstant bleiben (siehe Tabelle 6.3). Durch die Verwendung des immer gleichen Warenkorbes werden Ver¨anderungen im Verbrauchsverhalten jedoch nicht ber¨ ucksichtigt. Bei l¨angeren Indexreihen kann der veraltete Warenkorb zu erheblichen Ungenauigkeiten f¨ uhren. Der Paasche-Index verwendet stets den Warenkorb der Berichtsperiode. Dadurch wird die Genauigkeit auch bei l¨angeren Indexreihen gew¨ahrleistet (siehe Tabelle 6.3). Dazu muss man zu jeder Berichtsperiode zus¨atzlich zu den Preisen auch den Warenkorb neu bestimmen, weshalb der Paasche-Index aufwendiger zu ermitteln ist. Die Aktualit¨at der Mengen f¨ uhrt aber auch dazu, dass man die Werte einer Indexreihe nicht direkt vergleichen kann. t 1 2 3 4 5 . . . . . . . . . P L 0t p 1 q 0 p 0 q 0 p 2 q 0 p 0 q 0 p 3 q 0 p 0 q 0 p 4 q 0 p 0 q 0 p 5 q 0 p 0 q 0 . . . . . . . . . P P 0t p 1 q 1 p 0 q 1 p 2 q 2 p 0 q 2 p 3 q 3 p 0 q 3 p 4 q 4 p 0 q 4 p 5 q 5 p 0 q 5 . . . . . . . . . Tabelle 6.3.: Vergleich zwischen Laspeyres- und Paasche-Preisindex 6.3. Umbasieren und Verketten von Indizes 109 6.3. Umbasieren und Verketten von Indizes Die Vorteile des Laspeyres-Indexschemas f¨ uhren dazu, dass vielen in der Praxis relevanten Indexzahlen dieses Schema zugrundeliegt. Der Verbraucherpreisindex (VPI) des Statistischen Bundesamtes basiert zum Beispiel auf dem Preisindex nach Laspeyres. Der VPI wird monatlich vom Statistischen Bundesamt ver¨offentlicht. Er beschreibt die Preisentwicklung der von den privaten Haushalten konsumierten G¨ uter. Im VPI werden Preismesszahlen einer Gruppe von Waren und Dienstleistungen, welche als repr¨asentativ f¨ ur private Haushalte in Deutschland gelten, gemittelt. Dabei werden die einzelnen Posten nach ihrem Anteil gewichtet. Wie bereits erw¨ahnt, hat der konstante Warenkorb der Basisperiode unter anderem den Nachteil, dass die Ver¨anderungen der G¨ uter auf dem Markt und deren Bedeutung nicht ber¨ ucksichtigt werden. Manche G¨ uter verschwinden vom Markt, manche kommen hinzu, Verbraucher ¨andern ihre Gewohnheiten. Die Folge ist, dass mit wachsender Entfernung der Berichtsvon der Basisperiode die Indexzahlen ungenauer werden. Aus diesem Grunde aktualisiert beispielsweise das Statistische Bundesamt in der Regel alle f¨ unf Jahre den Warenkorb. Bei der Aktualisierung im Jahr 2000 wurden Disketten und Farbb¨ander durch CD-Rohlinge und Farbpatronen ersetzt und Dienstleistungen wie Pizzaservice und Sonnenstudio aufgenommen. Auch die Gewichte wurden angepasst. Die Haushalte werden durch die Ausgaben f¨ ur Miete, Wasser, Strom und Heizung sowie Nachrichten¨ ubermittlung st¨arker belastet. Tabelle 6.4 zeigt die Zusammensetzung des deutschen Warenkorbes 5 mit der Gewichtung jeweils f¨ ur das Jahr, in dem eine Aktualisierung stattgefunden hat. Der Zeitpunkt, an dem der Warenkorb angepasst wird, dient gleichzeitig als neue Basisperiode. Die Umrechnung einer bestehenden Indexreihe auf einer neuen Basis nennt man Umbasierung. 5 Quelle: Statistisches Bundesamt. http: / / de.wikipedia.org/ wiki/ Warenkorb (Stand: 10.10.2011) 110 6. Verh¨altniszahlen Bestandteil 1995 2000 2005 01 Nahrungsmittel, alkoholfreie Getr¨anke 13,1 10,3 10,4 02 Tabakwaren, alkoholische Getr¨anke 4,2 3,7 3,9 03 Bekleidung, Schuhe 6,9 5,5 4,9 04 Wohnung, Wasser, Gas, Brennstoffe 27,5 30,2 30,8 05 Einrichtungsgegenst¨ande 7,1 6,9 5,6 06 Gesundheit, Pflege 3,4 3,5 4,0 07 Verkehr 13,9 13,9 13,2 08 Nachrichten¨ ubermittlung 2,3 2,5 3,1 09 Freizeit, Kultur, Unterhaltung 10,4 11,0 11,6 10 Bildungswesen 0,7 0,7 0,7 11 Hotel, Restaurants 4,1 4,7 4,4 12 Andere Waren und Dienstleistungen 6,1 7,0 7,4 Tabelle 6.4.: Zusammensetzung des deutschen Warenkorbes in Prozent Definition 6.3 Sei I 01 , I 02 , . . . , I 0r , . . . , I 0T eine Folge von Indexzahlen zur Basis 0 f¨ ur die Berichtsperiode 1, 2, . . . , T . Die Umstellung der Indexreihe auf eine neue Basis r = 0 heißt Umbasierung, und sie erfolgt f¨ ur t = 1, 2, . . . , T nach I rt = I 0t I 0r · 100 (6.5) Beispiel 6.6 Die folgende Tabelle zeigt die Umrechnung der Indexreihe { I 0t : t = 0, 1, . . . , 5 } zur Basis 2000 auf der neuen Basis 2003: Jahr 2000 2001 2002 2003 2004 2005 t 0 1 2 3 4 5 I 0 t 100 126,2 137,3 135,3 146,0 148,8 I 3 t 73,9 93,27 101,48 100 107,91 109,98 Die Umbasierung erfolgt gem¨aß (6.5): I 30 = 100 135 , 3 · 100 = 73, 9 I 31 = 126 , 2 135 , 3 · 100 = 93, 27 I 32 = 137 , 3 135 , 3 · 100 = 101, 48 I 34 = 146 , 0 135 , 3 · 100 = 107, 91 I 35 = 148 , 8 135 , 3 · 100 = 109, 98 Von einer Indexverkettung spricht man, wenn zwei Indexreihen, die auf zwei verschiedenen Basisperioden berechnet wurden, zu einer einzigen Indexreihe verbunden werden: Eine Indexreihe I 01 , . . . , I 0r zur 6.3. Umbasieren und Verketten von Indizes 111 Basis 0 wird mit einer Indexreihe I r,r+1 , . . . , I rT zur Basis r (1 < r < T ) (siehe Tabelle 6.5) verkettet, so dass eine fortlaufende Indexreihe von t = 0 bis T ensteht. t 0 1 2 . . . r − 1 r r + 1 . . . T I 0t 100 I 01 I 02 . . . I 0,r − 1 I 0r I rt 100 I r,r+1 . . . I rT Tabelle 6.5.: Indexreihe zur Basis 0 und Indexreihe zur Basis r Die Verkettung erfolgt, indem die Indexreihen auf eine gemeinsame Basisperiode 0 oder r gebracht werden. Im ersten Fall setzt man die Reihe zur Basis 0 fort, und im zweiten rechnet man die Reihe zur Basis r zur¨ uck. Dabei ist wichtig, zum Zeitpunkt r die Indexzahl zur Basisperiode 0 zu berechnen. Um die beiden Reihen zu verketten, geht man davon aus, dass I 0t I 0r = I rt 100 (6.6) gilt. F¨ ur die Fortschreibung der Reihe I 0t l¨ost man die Gleichung (6.6) nach I 0t auf und berechnet f¨ ur t > r die Reihenglieder gem¨aß I 0t = I 0r 100 · I rt (6.7) F¨ ur die R¨ uckrechnung der Reihe I rt l¨ost man entsprechend die Gleichung (6.6) nach I rt auf und verwendet das Resultat zur Berechnung der Reihenglieder zum Zeitpunkt t < r: I rt = 100 I 0r · I 0t (6.8) Beispiel 6.7 Tabelle 6.6 zeigt eine zur Basis 0 errechnete Verbraucherpreisindex- Reihe VPI 0t und eine zur Basis 5 (VPI 5t ), sowie die fortgesetzte VPI 0t - Reihe und die zur¨ uckgerechnete VPI 5t -Reihe. Der Umrechnungsfaktor f¨ ur die Fortsetzung der VPI 0t -Reihe (t = 6, 7, . . . , 10) lautet: VPI 0t = VPI 05 100, 00 · VPI 5t = 109, 60 100, 00 · VPI 5t = 1, 096 · VPI 5t 112 6. Verh¨altniszahlen t VPI 0 ,t VPI 5 ,t 0 100,00 91,20 1 109,20 99,64 2 107,30 97,90 3 113,40 103,47 4 117,30 107,03 5 109,60 100,00 6 122,86 112,10 7 118,37 108,00 8 117,93 107,60 9 118,81 108,40 10 121,98 111,30 Tabelle 6.6.: Eine Indexreihe zur Basis 0 wird mit einer Indexreihe zur Basis 5 verkettet Mit dem Umrechnungsfaktor von 1, 096 ergeben sich folgende fortgesetzte Werte: VPI 06 = 1, 096 · 112, 10 = 122, 86 VPI 07 = 1, 096 · 108, 00 = 118, 37 VPI 08 = 1, 096 · 107, 60 = 117, 93 VPI 09 = 1, 096 · 108, 40 = 118, 81 VPI 0,10 = 1, 096 · 111, 30 = 121, 98 F¨ ur die R¨ uckrechnung der VPI 5t -Reihe f¨ ur t = 1, . . . , 4 ermittelt man VPI 5t = 100, 00 VPI 05 · VPI 0t = 100, 00 109, 60 · VPI 0t = 0, 912 · VPI 0t . Mit dem Umrechnungsfaktor von 0, 912 berechnet man: VPI 54 = 0, 912 · 117, 30 = 107, 03 VPI 53 = 0, 912 · 113, 40 = 103, 47 VPI 52 = 0, 912 · 107, 30 = 97, 90 VPI 51 = 0, 912 · 109, 20 = 99, 64 VPI 50 = 0, 912 · 100, 00 = 91, 20 Durch eine Verkettung hat man eine fortlaufende Indexreihe von t = 0, 1, . . . , 10. Man kann dadurch die Entwicklung der Verbraucherpreise 6.4. Mengenindizes 113 vom Zeitpunkt t = 1 bis 10 verfolgen. Verglichen mit der Periode 0 (Basis) sind die Preise in der Periode 10 um fast 22% gestiegen. Im Vergleich zur Periode 5 (Basis) lagen die Preise in der Periode 1 um ca. 0,4% niedriger. 6.4. Mengenindizes Will man Ver¨anderungen abgesetzter, konsumierter o. ¨a. Mengen messen, so greift man auf Mengenindizes zur¨ uck. In Analogie zu den Preisindizes nach Laspeyres und nach Paasche werden Laspeyresbzw. Paasche-Mengenindizes definiert. Der Mengenindex nach Laspeyres verwendet zur Gewichtung der Mengen die Preise der Basisperiode, der Paasche-Index die der Berichtsperiode. Definition 6.4 Der Mengenindex nach Laspeyres ist definiert als Q L 0t = p 0 q t p 0 q 0 (6.9) Der Nenner des Laspeyres-Mengenindex p 0 q 0 = n ∑ i=1 p i0 q i0 stellt den Wert des Warenkorbes q 0 bewertet mit den Preisen zur Basisperiode p 0 dar, w¨ahrend der Z¨ahler p 0 q t = n ∑ i=1 p i0 q it den Wert des aktuellen Warenkorbes q t zu konstanten Preisen der Basisperiode angibt. Definition 6.5 Der Mengenindex nach Paasche ist definiert als Q P 0t = p t q t p t q 0 (6.10) 114 6. Verh¨altniszahlen Der Paasche-Mengenindex bewertet die Warenk¨orbe mit den konstanten Preisen der Berichtsperiode p t . So gibt der Z¨ahler p t q t = n ∑ i=1 p it q it den tats¨achlichen Wert des aktuellen Warenkorbes q t wieder, w¨ahrend der Nenner p t q 0 = n ∑ i=1 p it q i0 den Wert des Warenkorbes q 0 zu konstanten Preisen der Berichtsperiode darstellt. Indem man die Mengen jeweils mit konstanten Preisen bewertet, werden die unterschiedlichen Maßeinheiten der Mengen (Kilogramm, Liter u. a.) eliminiert. Sowohl der Laspeyresals auch der Paasche-Mengenindex ist dimensionslos. Beide zeigen die ¨ Anderung der produzierten oder konsumierten G¨ uter gegen¨ uber der Basisperiode 0 auf. Will man den Indexwert in Prozent ausdr¨ ucken, so multipliziert man den Quotienten mit 100. Beispiel 6.8 Im Beispiel 6.3 haben wir f¨ ur einen Warenkorb, der aus Brot (1), Wein (2) und Kinobesuch (3) besteht, betrachtet. Wir werden nun mit den dort angegebenen Daten die Mengenindizes nach Laspeyres und nach Paasche ermitteln. Das heißt: Wir untersuchen, ob sich die konsumierten Mengen im Mai 2010 (t = 1) gegen¨ uber Mai 2008 (t = 0) ver¨andert haben. Zun¨achst geben wir die Daten nochmals an: Gut Preis Menge Preis Menge i p i0 q i0 p i1 q i1 1 4,90 6 5,05 3 2 7,99 5 8,00 4 3 6,00 4 7,00 4 Aus den Beispielen 6.3 und 6.5 entnehmen wir p 0 q 0 = 93, 35 p 1 q 0 = 98, 30 p 1 q 1 = 75, 15 p 0 q 1 = 70, 66. Der Mengenindex nach Laspeyres (in Prozent) ergibt sich gem¨aß (6.9) Q L 01 = p 0 q 1 p 0 q 0 · 100 = 70, 66 93, 35 · 100 = 75, 69. 6.5. Wertindex 115 Gegen¨ uber der Basisperiode hat man nach Laspeyres um 24,31% weniger konsumiert. Der Mengenindex nach Paasche (in Prozent) berechnet sich gem¨aß (6.10) Q P 01 = p 1 q 1 p 1 q 0 · 100 = 75, 15 98, 30 100 = 76, 45. Nach Paasche sind die konsumierten Mengen gegen¨ uber der Basisperiode um 23,54% geringer. 6.5. Wertindex Definition 6.6 Die Messzahl I W 0t = p t q t p 0 q 0 (6.11) heißt Wertindex. Um den Wertindex in Prozent anzugeben, multipliziert man den Quotienten mit 100. I W 0t gibt an, wie sich der Wert der produzierten bzw. konsumierten Waren insgesamt zwischen Basis- und Berichtsperiode ver¨andert hat. Interpretiert man p t q t als den Umsatz in der Berichtsperiode t und p 0 q 0 als den Umsatz in der Basisperiode 0, so nennt man I W 0t auch Umsatzindex. Ebenso kann man den Wertindex als Ausgabenindex bezeichnen, wenn p t q t bzw. p 0 q 0 Ausgaben zum Zeitpunkt t bzw. 0 angeben. Der Wertindex umfasst sowohl Preisals auch Mengen¨anderungen. Zwischen P L 0t , P P 0t , Q L0t , Q P0t und I W 0t bestehen folgende Beziehungen: I W 0t = P L 0t · Q P 0t = P P 0t · Q L 0t (6.12) Der Wertindex ist ein Produkt aus einem Laspeyres-Preisindex und einem Paasche-Mengenindex oder einem Paasche-Preisindex und einem Laspeyres-Mengenindex. 116 6. Verh¨altniszahlen 6.6. Deflationierung Wir haben Preisindizes als relative Gr¨oßen zur Messung von Preisniveaus einer Gruppe von G¨ utern eingef¨ uhrt. Eine weitere wichtige Aufgabe von Preisindizes ist die Deflationierung oder Preisbereinigung. Deflationierte Gr¨oßen sind Realgr¨oßen, d. h., sie werden von Preisen nicht mehr beeinflusst. Somit sind sie Mengengr¨oßen. Im Gegensatz dazu sind Nominalgr¨oßen, die die mit laufenden Preisen bewerteten Mengen bezeichnen, Geldgr¨oßen. Das folgende Zitat aus [18] zeigt deutlich, warum Realgr¨oßen in der Praxis wichtig sind: Der wichtigste Indikator f¨ ur Konjunktur und Wachstum in einer Volkswirtschaft ist das Bruttoinlandsprodukt (BIP). Das BIP misst die im Inland entstandene Produktion in laufenden Preisen der jeweiligen Berichtsperiode. Oftmals ist man aber nicht an der Entwicklung des reinen Wertaggregats interessiert, das auch von Preisfluktuationen beeinflusst wird, sondern ausschließlich an der Bewegung der Realgr¨oßen, d. h. an der Ver¨anderung der G¨ utervolumina. Das nominale Bruttoinlandsprodukt muss zu diesem Zweck in eine Preis- und eine Mengenkomponente (reales Bruttoinlandsprodukt) zerlegt werden. Formal besteht die Aufgabe darin, einen Wertindex des nominalen BIP ∑ i Q(i, t)P (i, t)/ ∑ i Q(i, 0)P (i, 0), der die laufenden Ausgaben ∑ i Q(i, t)P (i, t) in der Berichtsperiode t zu den Ausgaben 6 ∑ i Q(i, 0)P (i, 0) einer Basisperiode 0 in Beziehung setzt, durch geeignete Deflationierung (d. h. Division) mit einem Preisindex in einen Mengenindex zu ¨ uberf¨ uhren, der die Entwicklung des realen Bruttoinlandsprodukts misst. Formal bedeutet eine Deflationierung also eine Division eines Wertindex I W 0t durch einen Preisindex. Durch eine Deflationierung werden die Preiseinfl¨ usse ausgeschaltet; aus Nominalwerden Realgr¨oßen. 6 Mit Q(i, t) wird hier die im Jahr t umgesetzte Menge eines Gutes (i=1,2,...,n) bezeichnet, mit P (i, t) der dazu geh¨orende Produktpreis. 6.6. Deflationierung 117 Aus Gleichung (6.12) ergeben sich: 1. Der Laspeyres-Mengenindex Q L0t ist ein mit Paasche-Preisindex deflationierter Wertindex I W 0t , denn Q L 0t = I W 0t P P 0t . 2. Den Paasche-Mengenindex Q P0t erh¨alt man, wenn man als Deflator f¨ ur den Wertindex I W 0t den Preisindex nach Laspeyres verwendet: Q P 0t = I W 0t P L 0t Beispiel 6.9 Die Tabelle 6.7 ist ein Ausschnitt einer Tabelle aus [18, Seite 20, Modellrechnung 1]. Konsumg¨ uter Investitionsg¨ uter BIP Reales BIP in in Laspeyres- Mengen Preise Mengen Preise jeweiligen Preisen Mengenindex Preisen von 2000 (2000=100) 0 100,0 6,0 50,0 4,0 800,0 800,0 100,0 1 102,0 6,1 55,0 3,5 814,7 832,0 104,0 2 104,0 6,2 60,0 3,1 830,8 864,0 108,0 3 106,0 6,3 65,0 2,7 843,3 896,0 112,0 4 108,0 6,4 70,0 2,3 852,2 928,0 116,0 Tabelle 6.7.: Entwicklung des realen Bruttoinlandsprodukts Erl¨auterung der Tabelle 6.7: • Zu jedem Zeitpunkt t (t = 0, 1, 2, 3, 4) besteht der Mengenvektor q t aus Konsum- und Investitionsg¨ utern: q 0 = (100 50) q 1 = (102 55) q 2 = (104 60) q 3 = (106 65) q 4 = (108 70) Die Preisvektoren sind: p 0 = (6, 0 4, 0) p 1 = (6, 1 3, 5) p 2 = (6, 2 3, 1) p 3 = (6, 3 2, 7) p 4 = (6, 4 2, 3) 118 6. Verh¨altniszahlen • In der 6. Spalte (BIP in jeweiligen Preisen) steht in jeder Zeile das nominale BIP. Jeder Wert berechnet sich folgendermaßen: p 0 q 0 = ∑ p i0 q i0 = 6, 0 · 100 + 4, 0 · 50 = 800, 0 p 1 q 1 = ∑ p i1 q i1 = 6, 1 · 102 + 3, 5 · 55 = 814, 7 p 2 q 2 = ∑ p i2 q i2 = 6, 2 · 104 + 3, 1 · 60 = 830, 8 p 3 q 3 = ∑ p i3 q i3 = 6, 3 · 106 + 2, 7 · 65 = 843, 3 p 4 q 4 = ∑ p i4 q i4 = 6, 4 · 108 + 2, 3 · 70 = 852, 2 • Jede Zeile der 7. Spalte (BIP in Preisen von 2000) enth¨alt das reale BIP der Berichtsperiode. Die einzelnen Werte werden wie folgt ermittelt: p 0 q 0 = ∑ p i0 q i0 = 6, 0 · 100 + 4, 0 · 50 = 800, 0 p 0 q 1 = ∑ p i0 q i1 = 6, 0 · 102 + 4, 0 · 55 = 832, 0 p 0 q 2 = ∑ p i0 q i2 = 6, 0 · 104 + 4, 0 · 60 = 864, 0 p 0 q 3 = ∑ p i0 q i3 = 6, 0 · 106 + 4, 0 · 65 = 896, 0 p 0 q 4 = ∑ p i0 q i4 = 6, 0 · 108 + 4, 0 · 70 = 928, 0 • In der letzten Spalte steht in jeder Zeile f¨ ur jeden Zeitpunkt t = 1, 2, 3, 4 der Laspeyres-Mengenindex Q L 0t = p 0 q t p 0 q 0 · 100. Q L0t gibt f¨ ur jedes t = 1, 2, 3, 4 an, wie sich das reale BIP gegen¨ uber dem Basisjahr 2000 (t = 0) ge¨andert hat: Q L01 = p 0 q 1 p 0 q 0 · 100 = 832 800 · 100 = 104 Q L02 = p 0 q 2 p 0 q 0 · 100 = 864 800 · 100 = 108 Q L03 = p 0 q 3 p 0 q 0 · 100 = 896 800 · 100 = 112 Q L04 = p 0 q 4 p 0 q 0 · 100 = 928 800 · 100 = 116 6.7. Zusammenfassung 119 6.7. Zusammenfassung Messzahlen geben die r¨aumliche oder zeitliche Entwicklung eines einzigen Gutes an, w¨ahrend Indexzahlen die Entwicklung einer Gruppe von Waren beschreiben. Die wichtigsten Indexzahlen sind Preis-, Mengen- und Wertindex. Die bekanntesten Preisindizes sind der Preisindex nach Laspeyres und der nach Paasche. Sie geben an, wie sich die Preise der Berichtsgegen¨ uber den Preisen der Basisperiode ver¨andert haben. Grundlage der Laspeyres-Preisindex ist der Warenkorb der Basisperiode, w¨ahrend der Paasche-Preisindex den Warenkorb zur Berichtsperiode verwendet. Durch die Aktualit¨at der Warenk¨orbe ber¨ ucksichtigt der Paasche-Preisindex Ver¨anderungen im Konsumverhalten der Verbraucher. Außerdem wird die Genauigkeit auch bei l¨angeren Indexreihen gew¨ahrleistet. Die aktuellen Warenk¨orbe verursachen jedoch h¨ohere Kosten, da sie von Periode zur Periode (zus¨atzlich zu den Preisen) neu ermittelt werden m¨ ussen. Dagegen ist die Ermittlung des Laspeyres-Preisindex, der die Preisentwicklung eines festen Warenkorbes der Basisperiode verfolgt, kosteng¨ unstiger. Man muss in der Berichtsperiode nur die Preise neu ermitteln. Der konstante Warenkorb f¨ uhrt aber dazu, dass, je weiter die Basisperiode zur¨ uckliegt, umso ungenauer die Werte der Indexreihe werden. Dennoch dient der Laspeyres-Preisindex in der Praxis h¨aufig als Grundlage. So wird der deutsche Aktienindex DAX aufgrund des Laspeyres- Preisindex bestimmt. Ebenso verwendet das Statistische Bundesamt f¨ ur die Berechnung des Verbraucher-Preisindex das Laspeyres-Schema. Damit Ver¨anderungen trotzdem ber¨ ucksichtigt werden, wird der Warenkorb - in der Regel alle f¨ unf Jahre - aktualisiert. Gleichzeitig mit dem neuen Warenkorb wird die Basis neu festgelegt. Die Periode, in der der aktuelle Warenkorb eingef¨ uhrt wird, gilt als die neue Basis. Mit der neuen Basis existiert f¨ ur einen bestimmten Zeitraum keine fortlaufende Reihe. Um solch eine Reihe zu erhalten, werden die beiden auf unterschiedlichen Basisperioden errechneten Indexreihen verkettet. In Analogie zu den Preisindizes nach Laspeyres bzw. nach Paasche werden der Mengenindex nach Laspeyres und der Mengenindex nach 120 6. Verh¨altniszahlen Paasche definiert. Ein Mengenindex gibt die Mengenver¨anderungen in der Berichtsgegen¨ uber der Basisperiode wieder. Deshalb gibt ein Mengenindex auch Ver¨anderungen von Realgr¨oßen an. Im Gegensatz zu Realgr¨oßen werden Nominalgr¨oßen von Preisen beeinflusst. Eine nominelle Lohnsteigerung bedeutet nicht, dass die Kaufkraft steigt. Diese h¨angt von der Preisentwicklung ab. Steigen die Preise schneller als der Lohn, dann hat man real weniger zur Verf¨ ugung. Um von Nominalzu Realgr¨oßen zu kommen, muss man die Nominalgr¨oßen um die Preisschwankungen bereinigen. Dieser Vorgang heißt Deflationierung oder Preisbereinigung. Der Wertindex gibt eine nominelle Entwicklung eines Wertaggregats an. Deflationiert man den Wertindex mit dem Laspeyres-Preisindex, so erh¨alt man den Mengenindex nach Paasche. Nimmt man als Deflator den Preisindex nach Paasche, so ergibt sich der Mengenindex nach Laspeyres. Notationen, Formeln und ihre Bedeutung q t = ( q 1 t , . . . , q it , . . . , q nt ) Warenkorb der Periode t p t = ( p 1 t , . . . , p it , . . . , p nt ) Preisvektor der Periode t p 0 q 0 = ∑ n i =1 p i 0 q i 0 Ausgaben oder Umsatz der Periode 0 p t q t = ∑ n i =1 p it q it Ausgaben oder Umsatz der Periode t P L 0 t = p t q 0 p 0 q 0 Preisindex nach Laspeyres P L 0 t = ∑ n i =1 p it p i0 · g i P L 0 t als gewogenes Mittel der Preismesszahlen p it p i0 g i = p i0 · q i0 p 0 q 0 Ausgabenanteil f¨ ur das Gut i an den gesamten Ausgaben als Gewicht P P 0 t = p t q t p 0 q t Preisindex nach Paasche Q L ot = p 0 q t p 0 q 0 Mengenindex nach Laspeyres Q P ot = p t q t p t q 0 Mengenindex nach Paasche I W 0 t = p t q t p 0 q 0 Wertindex 121 Teil II. Elementare Wahrscheinlichkeitsrechnung 123 7. Einf¨ uhrung In dem Buch Eins zu Tausend bezeichnen die Autoren Ellen und Michael Kaplan die Wahrscheinlichkeitstheorie als die ”Wissenschaft vom Ungewissen“ [14, Seite 18]: Sie besch¨aftigt sich mit allem, was immer wieder vorkommt, aber nicht immer gleich ist. Ihre Aussagen liefern uns nicht Ja oder Nein der deduktiven Logik, sondern feine Abstufungen: fast alles, kaum, manchmal und vielleicht. Sie trennt das Normale vom Außergew¨ohnlichen, das Vorhersagbare vom Zuf¨alligen und gibt an, ob sich ein Vorhaben lohnt . Sie ist die Wissenschaft der Risiken, Vermutungen und Erwartungen - also all der Dinge, die das Leben ausmachen und voranbringen. Erg¨anzend dazu kann man sagen, dass Wahrscheinlichkeitstheorie die deskriptive und die induktive Statistik verbindet: Mit den Instrumenten aus der Wahrscheinlichkeitstheorie kann man Ergebnisse aus einer Teilgesamtheit auf die Grundgesamtheit ¨ ubertragen; Erfahrungen aus der Vergangenheit kann man f¨ ur Prognosezwecke gezielt verarbeiten. Hilfsmittel aus der Mathematik wie Kombinatorik und Mengenlehre erweisen sich dabei als ¨außerst n¨ utzlich, weshalb diese Themen im Abschnitt 9 kurz erl¨autert werden. 7.1. Grundlagen Stellen wir uns eine Dose mit einem Schoko-, einem Karamell- und einem Vanillekeks vor. Wir greifen blind hinein. In diesem Augenblick k¨onnen wir nicht sagen, welcher Keks gezogen wird. Wir wissen jedoch, dass dieser entweder ein Schoko- oder ein Karamell- oder ein Vanillekeks sein wird. Oder man wirft eine M¨ unze. Das Ergebnis eines M¨ unzwurfes kann entweder Kopf oder Zahl sein. Man kann nicht mit Sicherheit sagen, ob beispielsweise Zahl erscheint. Ebenso wissen wir 124 7. Einf¨ uhrung bei einem W¨ urfelwurf lediglich, dass eine Zahl zwischen der Eins und der Sechs fallen wird. Es l¨asst sich nicht mit Sicherheit sagen, welche Zahl dies sein wird. Alle diese Vorg¨ange haben etwas gemeinsam: Ihre Ergebnisse h¨angen vom Zufall ab. Definition 7.1 Unter einem Zufallsexperiment versteht man einen Vorgang, der durch die folgenden drei Eigenschaften charakterisiert ist: 1. Der Vorgang ist unter unver¨anderlichen Bedingungen wiederholbar (zumindest gedanklich). 2. Der Ausgang ist vom Zufall abh¨angig. 3. Die m¨oglichen Ergebnisse sind bekannt; wir wissen aber nicht, welches davon eintreten wird. Die Ergebnisse eines Zufallsexperiments bezeichnen wir mit ω 1 , . . . , ω N . Man fasst sie zu einer Ergebnismenge oder einem Ergebnisraum Ω = { ω 1 , ω 2 . . . ω N } zusammen. Beispiel 7.1 Die eingangs erw¨ahnten Zufallsexperimente sind: 1. Zuf¨alliges Ziehen eines Kekses. Dabei sind N = 3 Ergebnisse m¨oglich: ω 1 = s (Schokokeks), ω 2 = k (Karamellkeks) und ω 3 = v (Vanillekeks). Die Ergebnismenge lautet Ω = { s, k, v } . 2. Einmaliges Werfen einer M¨ unze mit N = 2 m¨oglichen Ergebnisse: ω 1 = Kopf und ω 2 = Zahl; Ω = { Kopf, Zahl } . 3. Einmal W¨ urfeln mit N = 6 m¨oglichen Ergebnissen: ω 1 = 1 (Augenzahl Eins) bis ω 6 = 6 (Augenzahl Sechs). Die Ergebnismenge lautet Ω = { 1, 2, 3, 4, 5, 6 } . In der Regel interessiert man sich nicht nur f¨ ur die einzelnen Ergebnisse, sondern auch f¨ ur eine Menge von Ergebnissen, z. B. f¨ ur ”Gerade Augenzahl“. Eine Menge von Ergebnissen nennt man ein Ereignis. Einzelne Ergebnisse eines Zufallsexperiments werden auch Elementarereignisse genannt. Elementarereignisse sind somit Ereignisse mit nur einem Element. Ein besonderes Ereignis ist das sichere Ereignis Ω. Ein Ereignis, das nicht auftreten kann, heißt unm¨ogliches Ereignis. 7.2. Mengen und Mengenoperationen 125 Beispiel 7.2 Ereignisbeispiele in dem eingangs erw¨ahnten Zufallsexperiments Zuf¨alliges Ziehen eines Kekses sind: 1. Ein Schoko- oder ein Karamellkeks wird gezogen 2. Ein Schokokeks wird gezogen (Elementarereignis) 3. Ein Schoko- oder ein Karamell- oder ein Vanillekeks wird gezogen (sicheres Ereignis) 4. Ein Schokoeis wird gezogen (unm¨ogliches Ereignis) 7.2. Mengen und Mengenoperationen Wir haben in der Definition 7.1 bereits die Ergebnisse eines Zufallsexperiments als eine Menge Ω = { ω 1 , ω 2 , . . . ω N } dargestellt. Darauf basierend fassen wir Ereignisse als Teilmengen 1 von Ω auf. Durch diese Betrachtungsweise lassen sich alle Regeln f¨ ur Mengen auf Ereignisse ¨ ubertragen. Zun¨achst erinnern wir uns an einige Begriffe aus der Mengenlehre: 1. F¨ ur eine N -elementige Menge Ω schreibt man | Ω | = N f¨ ur die Anzahl der Elemente von Ω. Die Anzahl der Elemente nennt man die M¨achtigkeit von Ω. 2. Die Menge aller Teilmengen von Ω heißt Potenzmenge von Ω. Daf¨ ur schreibt man P (Ω). 3. Die M¨achtigkeit der Potenzmenge einer N -elementigen Menge ist ∣ ∣ P (Ω) ∣ ∣ = 2 N . Beispiel 7.3 Sei Ω = { a,b,c } . Die M¨achtigkeit von Ω ist | Ω | = 3. Es gibt 2 3 = 8 Teilmengen von Ω, n¨amlich 1 Das Zeichen f¨ ur Teilmenge ist ⊂ ; A ⊂ B, gelesen: A ist Teilmenge von B, wenn jedes Element von A auch Element von B ist. 126 7. Einf¨ uhrung 1. die nullelementige Menge (die leere Menge ∅ ), 2. die einelementigen Teilmengen { a } , { b } und { c } , 3. die zweielementigen Teilmengen { a, b } , { a, c } und { b, c } , 4. die dreielementige Teilmenge { a, b, c } (= Ω). Also ist die Potenzmenge von { a,b,c } P (Ω) = {∅ , { a } , { b } , { c } , { a, b } , { a, c } , { b, c } , Ω } . Zur Erinnerung werden die wichtigsten Mengenoperationen kurz er¨ortert. Dazu seien A, B, C ⊂ Ω. Mengenoperation Darstellung Beschreibung A geschnitten B A ∩ B { ω | ω ∈ A und ω ∈ B } A vereinigt B A ∪ B { ω | ω ∈ A oder ω ∈ B oder ω ∈ A ∩ B } Nicht A ¯ A { ω | ω / ∈ A } A, aber nicht B A \ B = A ∩ ¯ B { ω | ω ∈ A und ω / ∈ B } Leere Menge ∅ { } Ist A ∩ B = ∅ , dann heißen A und B disjunkt. Regeln von de Morgan: A ∪ B = ¯ A ∩ ¯ B (7.1) A ∩ C = ¯ A ∪ ¯ C (7.2) 7.3. Ereignisse in Mengenschreibsweise 127 7.3. Ereignisse in Mengenschreibsweise F¨ ur A und B Ereignisse (A, B ⊂ Ω) gibt die folgende Tabelle eine ¨ Ubersicht ¨ uber die Korrespondenz zwischen Ereignissen und Mengen wieder. Ereignisse Mengendarstellung A tritt sicher ein. A = Ω (A ist ein sicheres Ereignis.) A tritt sicher nicht ein. (A ist ein A = ∅ unm¨ogliches Ereignis.) Mindestens eines der Ereignisse A A ∪ B oder B tritt ein. A und B treten zugleich ein. A ∩ B A tritt nicht ein. ¯ A A tritt ein, aber B nicht. A \ B = A ∩ ¯ B A und B k¨onnen nicht gemeinsam A ∩ B = ∅ eintreten. (Disjunkte Ereignisse). Keines der beiden Ereignisse tritt ein ¯ A ∩ ¯ B = A ∪ B H¨ochstens eines der beiden Ereignisse A ∩ B = ¯ A ∪ ¯ B tritt ein. Beispiel 7.4 F¨ ur das Zufallsexperiment Einmaliger W¨ urfelwurf betrachten wir einige Ereignisse und deren Darstellungen als Mengen. Ereignis Mengendarstellung A: Augenzahl ≤ 4 A = { 1, 2, 3, 4 } B: Gerade Augenzahl B = { 2, 4, 6 } C: Augenzahl ≥ 2 C = { 2, 3, 4, 5, 6 } A ∩ B: Augenzahl ≤ 4 und gerade A ∩ B = { 2, 4 } A ∪ B: Augenzahl ≤ 4 oder gerade A ∪ B = Ω \{ 5 } A ∩ C: 2 ≤ Augenzahl ≤ 4 A ∩ C = { 2, 3, 4 } 128 7. Einf¨ uhrung ¯ A: Augenzahl > 4 ¯ A = { 5, 6 } ¯ B: Ungerade Augenzahl ¯ B = { 1, 3, 5 } A ∪ B = ¯ A ∩ ¯ B { 5 } A ∩ C = ¯ A ∪ ¯ C { 1, 5, 6 } 7.4. Zusammenfassung Die m¨oglichen Ergebnisse eines Zufallsexperiments kann man als eine Menge Ω darstellen. Eine Menge von Ergebnissen bildet ein Ereignis. Da Ereignisse sich als Teilmengen von Ω ansehen lassen, kann man s¨amtliche Mengenoperationen auf Ereignisse ¨ ubertragen. Durch Mengenoperationen k¨onnen neue Ereignisse entstehen. So ergibt beispielsweise eine Verkn¨ upfung zweier Ereignisse A und B durch ”und“ (Bildung der Schnittmenge A ∩ B) das Ereignis Die Ereignisse A und B treten gemeinsam ein; eine ”oder“-Verkn¨ upfung der Ereignisse A und B (Bildung einer Vereinigungsmenge A ∪ B) liefert das Ereignis Mindestens eines der Ereignisse tritt ein. Ausf¨ uhrliche Beschreibung zu Mengen findet man zum Beispiel in [11, Abschnitt 4.1.1] oder [23, Abschnitt 8.1]. Weitere Notationen und ihre Bedeutung | Ω | M¨achtigkeit von Ω (Anzahl der Elemente von Ω) ω Elemente von Ω P (Ω) Potenzmenge von Ω (Menge der Teilmengen von Ω) 129 8. Der Begriffder Wahrscheinlichkeit Der Ausgang eines Zufallsexperiments ist ungewiss. Die Chance f¨ ur das Eintreten eines bestimmten Ereignisses kann man jedoch quantitativ durch eine Maßzahl angeben. Diese Maßzahl nennt man Wahrscheinlichkeit. Es gibt verschiedene Auffassungen des Wahrscheinlichkeitsbegriffes: die klassische Wahrscheinlichkeit nach Laplace 1 , die statistische und die subjektive Wahrscheinlichkeit. Im letztgenannten Fall spielt die pers¨onliche Einsch¨atzung (deshalb ”subjektiv“) f¨ ur das Eintreten von Ereignissen eine Rolle. 8.1. Klassische Wahrscheinlichkeit nach Laplace Laplace war ¨ uberzeugt, dass wir die Zukunft vollst¨andig voraussagen k¨onnten, wenn wir nur all die dazu ben¨otigten Informationen kennen w¨ urden. Dass wir es nicht k¨onnen, liegt laut Laplace nicht an unserer Unf¨ahigkeit, sondern an den fehlenden Informationen. Ein allwissendes Wesen (”Laplacescher D¨amon“) w¨are dazu in der Lage. Definition 8.1 Laplace definiert die Wahrscheinlichkeit P (A) f¨ ur das Eintreten eines Ereignisses A ⊂ Ω als den Quotienten zwischen | A | , der Anzahl der f¨ ur das Ereignis A g¨ unstigen F¨alle, und | Ω | , der Anzahl aller m¨oglichen F¨alle: P (A) = | A | | Ω | (8.1) Die Definition verlangt, dass 0 < | Ω | < ∞ gelten muss. Ein Zufallsexperiment, dessen Ausg¨ange von endlicher Anzahl und gleichwahrscheinlich sind, nennt man Laplace-Experiment. 1 Pierre Simon Marquis de Laplace, 1749 - 1827, Mathematiker und Astronom 130 8. Der Begriffder Wahrscheinlichkeit Beispiel 8.1 Im Zusammenhang mit dem Zufallsexperiment Einmaliges Werfen eines fairen (Laplace-) W¨ urfels berechnen wir die Wahrscheinlichkeiten f¨ ur das Ereignis A = { 1, 2, 3, 4 } P (A) = | A | | Ω | = 4 6 und f¨ ur das Ereignis B = { 2, 4, 6 } P (B) = | B | | Ω | = 3 6 . Im langfristigen Mittel erh¨alt man in vier von sechs W¨ urfen eine Augenzahl ≤ 4, und ebenso liefert im langfristigen Mittel jeder 2. Wurf eine gerade Augenzahl. 8.2. Statistische Wahrscheinlichkeit Bei dem Spiel Pass the pigs wirft man statt mit einem gew¨ohnlichen W¨ urfel mit einem ”W¨ urfelschwein“ (siehe Abbildung 8.1) 2 . Statt einer Augenzahl wird Suhle (das Schwein liegt auf dem R¨ ucken), Haxe (das Schwein steht auf den F¨ ußen), Schnauze (das Schwein lehnt auf seiner Schnauze) oder Backe (das Schwein lehnt auf Schnauze und Ohr) geworfen. Es gibt also vier m¨ogliche Ausg¨ange bei einem Wurf. Daraus zu folgern, die Wahrscheinlichkeiten f¨ ur Suhle, Haxe, Schnauze und Backe seien gleich, n¨amlich jeweils 0,25, ist nicht gerechtfertigt, denn ein ”W¨ urfelschwein“ ist kein symmetrischer K¨orper (also kein ”Laplace-Schwein“). Wie kann man die Wahrscheinlichkeit etwa f¨ ur Haxe ermitteln? F¨ ur eine ¨ uberzeugende Antwort kehren wir zun¨achst zu dem uns vertrauten Zufallsexperiment n-maliger M¨ unzwurf mit einer unverf¨alschten M¨ unze zur¨ uck, d. h. die m¨oglichen Ausg¨ange Kopf oder Zahl sind gleichwahrscheinlich. Das Experiment wiederholen wir mit verschiedenem n, unabh¨angig voneinander sehr oft. F¨ ur jedes n berechnen wir die relative H¨aufigkeit des Eintretens von Zahl (Z) h n (Z) = | Z | n . (8.2) 2 http: / / de.wikipedia.org/ wiki/ Schweinerei_(Spiel) (Stand 06.03.2011) 8.2. Statistische Wahrscheinlichkeit 131 Abbildung 8.1.: Pass the pigs: Die Schweinew¨ urfel (Die Schreibweise h n soll verdeutlichen, dass die relative H¨aufigkeit als Funktion von n betrachtet wird.) Abbildung 8.2 zeigt eine m¨ogliche Ergebnisreihe. Auf der x-Achse wird die Anzahl n aufgetragen, auf der y-Achse jeweils die zugeh¨orige relative H¨aufigkeit. Die Folge der relativen H¨aufigkeiten pendelt sich mit wachsendem n um den Wert 0,5 ein. Diesen Wert interpretiert man als die Wahrscheinlichkeit f¨ ur das Eintreten von Zahl und schreibt daf¨ ur kurz P (Z) = 0, 5. Die gleiche Erfahrung macht man, wenn man statt einer M¨ unze einen unverf¨alschten W¨ urfel wirft: Die relative H¨aufigkeit f¨ ur jede Augenzahl bewegt sich um den Wert 1 6 . Um die Wahrscheinlichkeit f¨ ur Haxe zu ermitteln, k¨onnen wir nun analog dem M¨ unzbeispiel das Zufallsexperiment n-maliger Schweinchenw¨ urfelw¨ urf sehr oft, mit verschiedenem n durchf¨ uhren. Der Wert, um den sich die relativen H¨aufigkeiten bewegen, wird als die Wahrscheinlichkeit f¨ ur Haxe aufgefasst. Definition 8.2 Den Wert, dem sich die relativen H¨aufigkeiten eines Ereignisses A mit wachsender, unabh¨angiger Beobachtungszahl ann¨ahern, heißt die Wahrscheinlichkeit von A. Man schreibt kurz: P (A) = lim n →∞ h (n) (A) (8.3) 132 8. Der Begriffder Wahrscheinlichkeit Abbildung 8.2.: Relativen H¨aufigkeiten von Zahl in Abh¨angigkeit von der Anzahl der Versuche 8.3. Subjektive Wahrscheinlichkeit In vielen F¨allen, insbesondere wenn es sich um einmalige Ereignisse handelt (Risiko f¨ ur Versicherungen, Optionshandel usw.), spielt die pers¨onliche Einsch¨atzung f¨ ur das Eintreten solcher Ereignisse eine Rolle. Deshalb f¨ uhrt man den Begriffder subjektiven (im Gegensatz zu den oben beschriebenen objektiven) Wahrscheinlichkeiten ein. (F¨ ur eine n¨ahere Beschreibung siehe zum Beispiel [23, Abschnitt 8.5].) 8.4. Axiome von Kolmogorov A. N. Kolmogorov 3 gelang es 1933, den Wahrscheinlichkeitsbegriffdurch einfache Eigenschaften zu beschreiben. Diese Eigenschaften st¨ utzen sich lediglich auf eine Menge Ω (Ergebnismenge), deren Teilmengen (Ereignisse) und eine Wahrscheinlichkeitsfunktion P , die jeder Teilmenge A ⊂ Ω einen Wert P (A) ∈ [ 0 , 1 ] (ihre Wahrscheinlichkeit) zuordnet. Wahrscheinlichkeit kann also als eine Maßzahl einer Menge verstanden werden. Definition 8.3 Eine Funktion P , die jedem Ereignis A ⊂ Ω eine reelle Zahl p ∈ [0, 1] zuordnet, heißt Wahrscheinlichkeitsfunktion, wenn P die folgenden Axiome von Kolmogorov erf¨ ullt: 3 Andrei Nikolajewitsch Kolmogorov, 1903 - 1987, russischer Mathematiker 8.4. Axiome von Kolmogorov 133 1. P (A) ≥ 0 f¨ ur jedes A ⊂ Ω 2. P (Ω) = 1 3. P (A ∪ B) = P (A) + P (B), wenn A ∩ B = ∅ , A, B ⊂ Ω Mit der Wahrscheinlichkeitsdefinition von Kolmogorov verschwinden die Einschr¨ankungen der Endlichkeit und Abz¨ahlbarkeit in der Laplaceschen Definition. Rechenregeln der Wahrscheinlichkeitsrechnung F¨ ur das Rechnen mit Wahrscheinlichkeiten gelten die folgenden Rechenregeln, die aus den Axiomen von Kolmogorov folgen (Beweise sind u. a. in [11, 23] zu finden): 1. 0 ≤ P (A) ≤ 1 f¨ ur A ⊂ Ω 2. P ( ∅ ) = 0 3. P (A) ≤ P (B), falls A ⊂ B 4. P ( ¯ A) = 1 − P (A) f¨ ur jedes ¯ A = Ω \ A Satz 8.1 (Additionssatz f¨ ur disjunkte Ereignisse) F¨ ur paarweise disjunkte Ereignisse A i ⊂ Ω, i = 1, . . . , k (d. h. f¨ ur alle i = j gilt A i ∩ A j = ∅ ) ist die Wahrscheinlichkeit, dass mindestens eines der Ereignisse A 1 , A 2 , . . . , A k eintritt, gleich der Summe der einzelnen Wahrscheinlichkeiten: P ( k ⋃ i=1 A i ) = P (A 1 ∪ A 2 ∪ . . . ∪ A k ) = k ∑ i=1 P (A i ) (8.4) Satz 8.2 (Additionssatz f¨ ur zwei beliebige Ereignisse) F¨ ur A, B ⊂ Ω gilt: P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (8.5) 134 8. Der Begriffder Wahrscheinlichkeit Es l¨asst sich leicht zeigen, dass f¨ ur drei beliebige Ereignisse A, B, C ⊂ Ω gilt: P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C) F¨ ur den allgemeinen Fall P ( k ⋃ i=1 A i ) sei u. a. auf [1, Seite 84] verwiesen. Beispiel 8.2 Wir betrachten eine beliebige Familie mit zwei Kindern. Die Kinder k¨onnen beide M¨adchen oder beide Jungen oder ein M¨adchen und ein Junge sein. Die m¨oglichen Konstellationen der Kinder sind gegeben durch die Menge Ω = { (J,J),(J,M),(M,J),(M,M) } . Wir nehmen an, dass M¨adchen- und Jungengeburten gleich wahrscheinlich sind. Weiter geben wir die folgenden Ereignisse an: A = { (J,J) } (Beide Kinder sind Jungen) C = { (J,J),(J,M) } (Das erste Kind ist ein Junge) D = { (J,M),(M,M) } (Das zweite Kind ist ein M¨adchen) Nach Laplace sind P (A) = | A | | Ω | = 1 4 , P (C) = | C | | Ω | = 2 4 und P (D) = | D | | Ω | = 2 4 . Nun ermitteln wir die Wahrscheinlichkeiten f¨ ur 1. A ∪ D = { (J,J),(J,M),(M,M) } : P (A ∪ D) = P (A) + P (D) = 1 4 + 2 4 = 3 4 (Die Ereignisse A und D sind disjunkt.) 2. C ∪ D = { (J,J),(J,M),(M,M) } : P (C ∪ D) = P (C) + P (D) − P (C ∩ D) = 2 4 + 2 4 − 1 4 = 3 4 Denn C ∩ D = { (J,M) } und P (C ∩ D) = 1 4 . 8.5. Bedingte Wahrscheinlichkeit und Unabh¨angigkeit 135 8.5. Bedingte Wahrscheinlichkeit und Unabh¨angigkeit Definition 8.4 Die bedingte Wahrscheinlichkeit f¨ ur ein Ereignis A, wenn ein Ereignis B mit P (B) = 0 eingetreten ist, ist definiert als P (A | B) = P (A ∩ B) P (B) (8.6) Man sagt kurz: Die Wahrscheinlichkeit von A, gegeben B. Beispiel 8.3 Im Beispiel 8.2 wurde die Wahrscheinlichkeit f¨ ur zwei Jungen in einer beliebigen Familie mit zwei Kindern (Ereignis A) P (A) = 1 4 ermittelt. Wie groß ist diese Wahrscheinlichkeit, wenn man zus¨atzlich weiß, dass mindestens eines der Kinder ein Junge ist ? Das Ereignis Mindestens eines der Kinder ist ein Junge l¨asst sich als B = { (J,J),(J,M),(M,J) } darstellen. Da A ∩ B = { (J,J) } und P (A ∩ B) = 1 4 , berechnet sich die Wahrscheinlichkeit P (A | B) f¨ ur zwei Jungen, wenn eines der Kinder ein Junge ist, nach (8.6) P (A | B) = P (A ∩ B) P (B) = 1/ 4 3/ 4 = 1 3 . Das Eintreten des Ereignisses B ver¨andert (genauer: vergr¨oßert) die Wahrscheinlichkeit von A. Wie man leicht nachpr¨ ufen kann, steht das formal errechnete Ergebnis mit unseren Erfahrungen in Einklang: Die Bedingung Mindestens eines der Kinder ist ein Junge bedeutet nichts anderes als eine Reduzierung der Ergebnismenge Ω um das Ereignis { (M,M) } . Von den drei ¨ ubrigen Kombinationsm¨oglichkeiten { (J,J),(J,M),(M,J) } ist eine ( { (J,J) } ) g¨ unstig. 136 8. Der Begriffder Wahrscheinlichkeit Aus der Definition der bedingten Wahrscheinlichkeit erh¨alt man durch Multiplikation von P (A | B) mit P (B) den folgenden allgemeinen Multiplikationssatz f¨ ur zwei Ereignisse. Satz 8.3 (Allgemeiner Multiplikationssatz) Die Wahrscheinlichkeit f¨ ur das gemeinsame Eintreten zweier Ereignisse A und B betr¨agt: P (A ∩ B) = P (A | B) · P (B) (8.7) Wegen P (A ∩ B) = P (B ∩ A) gilt P (A | B) · P (B) = P (B | A) · P (A). Wenn das Eintreten eines Ereignisses B die Wahrscheinlichkeit f¨ ur das Eintreten des Ereignisses A nicht beeinflusst und umgekehrt, dann nennt man die Ereignisse A und B (stochastisch) unabh¨angig. Hinsichtlich der bedingten Wahrscheinlichkeit heißt dies: P (A | B) = P (A) bzw. P (B | A) = P (B). (8.8) Beispiel 8.4 Greifen wir auf das Beispiel 8.2 zur¨ uck und ermitteln die Wahrscheinlichkeit, dass das zweite Kind ein M¨adchen ist, wenn das erste ein Junge ist. Wir haben das Ereignis Das zweite Kind ist ein M¨adchen mit D und das Ereignis Das erste Kind ist ein Junge mit C bezeichnet. F¨ ur die gesuchte Wahrscheinlichkeit bestimmen wir zun¨achst D ∩ C = { (J,M),(M,M) } ∩ { (J,M),(J,J) } = { (J,M) } und P (D ∩ C) = 1 4 . Somit ergibt sich: P (D | C) = P (D ∩ C) P (C) = 1/ 4 2/ 4 = 1 2 = P (D) Das heißt: Das Eintreten des Ereignisses C beeinflusst die Wahrscheinlichkeit des Ereignisses D nicht; die Ereignisse C und D sind voneinander unabh¨angig. 8.5. Bedingte Wahrscheinlichkeit und Unabh¨angigkeit 137 Satz 8.4 (Multiplikationssatz f¨ ur zwei unabh¨angige Ereignisse) F¨ ur zwei unabh¨angige Ereignisse A und B gilt: P (A ∩ B) = P (A) · P (B) (8.9) (Die Wahrscheinlichkeit f¨ ur das gemeinsame Eintreten zweier unabh¨angiger Ereignisse ist gleich dem Produkt der einzelnen Wahrscheinlichkeiten.) Satz 8.5 (Multiplikationssatz f¨ ur k unabh¨angige Ereignisse) F¨ ur k paarweise unabh¨angige Ereignisse A 1 , A 2 , . . . , A k gilt: P ( k ⋂ i=1 A i ) = P (A 1 ∩ A 2 ∩ . . . ∩ A k ) = k ∏ i=1 P (A i ) (8.10) Beispiel 8.5 Ausgehend von der Annahme, dass M¨adchen- und Jungengeburten gleichwahrscheinlich sind, berechnen wir die Wahrscheinlichkeit, dass in einer Familie, wie auf dem Foto in Abbildung 8.3 zu sehen ist, 8 M¨adchen geboren werden. Abbildung 8.3.: ”Eine Kette von 8 M¨adchen“ (Quelle: [4]) 138 8. Der Begriffder Wahrscheinlichkeit Wir definieren das Ereignis A i : Das i-te Kind ist ein M¨adchen. Da die Geschlechter der Kinder unabh¨angig voneinander sind, berechnet sich die Wahrscheinlichkeit, dass acht M¨adchen in einer Familie geboren werden, gem¨aß: P (A 1 ∩ A 2 ∩ . . . ∩ A 8 ) = 8 ∏ i=1 P (A i ) = ( 1 2 ) 8 = 1 256 Mit dem Multiplikationssatz haben wir ein Instrument, das in zweierlei Hinsicht anwendbar ist: 1. Berechnung der Wahrscheinlichkeit f¨ ur das gemeinsame Eintreten zweier unabh¨angiger Ereignisse A und B (” ⇒ “): A und B sind unabh¨angig ⇒ P (A ∩ B) = P (A) · P (B) (Sind die Ereignisse A und B unabh¨angig, dann ergibt sich die Wahrscheinlichkeit f¨ ur ihr gemeinsames Eintreten als Produkt der einzelnen Wahrscheinlichkeiten.) 2. ¨ Uberpr¨ ufung, ob zwei Ereignisse A und B unabh¨angig sind (” ⇐ “): P (A ∩ B) = P (A) · P (B) ⇒ A und B sind unabh¨angig (Gilt die Gleichung P (A ∩ B) = P (A) · P (B), dann sind die Ereignisse A und B unabh¨angig.) 8.6. Theorem von Bayes Eine wichtige Anwendung der bedingten Wahrscheinlichkeit findet sich im Theorem von Bayes 4 . Das Theorem von Bayes l¨asst sich am einfachsten durch ein Beispiel nachvollziehen: Angenommen, der Anteil einer bestimmten Erkrankung in der Bev¨olkerung betr¨agt 0,1%. F¨ ur diese Krankheit existiert ein medizinischer 4 Thomas Bayes, 1702 - 1761, englischer presbyterianischer Pfarrer 8.6. Theorem von Bayes 139 Test, der unter den kranken Patienten in 98% aller F¨alle ein positives Ergebnis liefert. In 6% aller F¨alle wird jedoch eine gesunde Person von dem Test f¨ ur krank erkl¨art. Ein Patient wurde positiv getestet. Wie hoch ist Wahrscheinlichkeit, dass er tats¨achlich krank ist? Die beschriebene Situation ist charakterischtisch f¨ ur die Anwendung des Theorems. Man kennt die Wahrscheinlichkeit f¨ ur ein bestimmtes Ereignis (im Beispiel: den Anteil der Kranken in der Bev¨olkerung). Dann taucht eine neue Information auf (positives Testergebnis). Diese neue Information wird zur Korrektur der Ausgangswahrscheinlichkeit rechnerisch, mit Hilfe einer mathematischen Formel, der Formel von Bayes, verarbeitet. Wie das geht, erfahren wir im Folgenden. Wir definieren die Ereignisse A: Positives Testergebnis und B: Person ist krank. Aus der Angabe entnehmen wir: P (B) = 0, 001 Anteil der kranken Personen in der Bev¨olkerung P (A | B) = 0, 98 Wahrscheinlichkeit f¨ ur ein positives Testergebnis, wenn der Patient erkrankt ist P (A | ¯ B) = 0, 06 Wahrscheinlichkeit f¨ ur ein positives Testergebnis, wenn der Patient gesund ist Die Frage ist nun: P (B | A)=? Gem¨aß (8.6) ist P (B | A) = P (A ∩ B) P (A) . F¨ ur die Bestimmung des Z¨ahlers P (A ∩ B) und des Nenners P (A) stellen wir den Ergebnisraum und die Wahrscheinlichkeiten jeweils als 2 × 2-Tabelle dar: B ¯ B A A ∩ B A ∩ ¯ B ¯ A ¯ A ∩ B ¯ A ∩ ¯ B Tabelle 8.1.: Vier m¨ogliche Ereignisse, die sich nicht ¨ uberschneiden B ¯ B A P (A ∩ B) P (A ∩ ¯ B) P (A) ¯ A P ( ¯ A ∩ B) P ( ¯ A ∩ ¯ B) P ( ¯ A) P (B) = 0, 001 P ( ¯ B) 1 Tabelle 8.2.: Die zugeh¨origen Wahrscheinlichkeiten 140 8. Der Begriffder Wahrscheinlichkeit Nach dem Multiplikationssatz (Satz 8.3) ergibt sich: P (A ∩ B) = P (A | B) · P (B) = 0, 98 · 0, 001 = 0, 00098 P (A ∩ ¯ B) = P (A | ¯ B) · P ( ¯ B) = 0, 06 · 0, 999 = 0, 05994 Dabei ist P ( ¯ B) = 1 − P (B) = 1 − 0, 001 = 0, 999. An der Wahrscheinlichkeitstabelle 8.2 erkennen wir, dass P (A) = P (A ∩ B) + P (A ∩ ¯ B) = 0, 00098 + 0, 05994 = 0, 06092. Daraus berechnen wir P (B | A) = P (B ∩ A) P (A) = 0, 00098 0, 06092 = 0, 016. Die Wahrscheinlichkeit, dass ein Patient mit einem positiven Testergebnis tats¨achlich krank ist, betr¨agt demnach 1,6%. Mit anderen Worten: Die Wahrscheinlichkeit, dass ein Patient mit einem positiven Testergebnis trotzdem nicht erkrankt ist, betr¨agt 98,4%. Die soeben verwendete Formel formulieren wir im folgenden Satz allgemein als Theorem von Bayes. Satz 8.6 (Theorem von Bayes) Die Wahrscheinlichkeit f¨ ur das Eintreten eines Ereignisses B mit P (A | B) > 0, nachdem ein anderes Ereignis A mit P (A) > 0 eingetreten ist, berechnet sich nach: P (B | A) = P (A | B)P (B) P (A | B)P (B) + P (A | ¯ B)P ( ¯ B) (8.11) Bayes nannte P (B) die A-priori-Wahrscheinlichkeit f¨ ur B. Die revidierte Wahrscheinlichkeit P (B | A) f¨ ur B, wenn eine neue Information A aufgetaucht ist, nannte er die A-posteriori-Wahrscheinlichkeit. Die A-priori-Wahrscheinlichkeit kann (subjektiv) geraten oder aus Erfahrungen gesch¨atzt werden. 8.6. Theorem von Bayes 141 Den Nenner im Bayes-Theorem P (A) = P (A | B)P (B) + P (A | ¯ B)P ( ¯ B) (8.12) nennt man auch Satz von der totalen Wahrscheinlichkeit, der allgemein wie folgt formuliert wird: Satz 8.7 (Satz von der totalen Wahrscheinlichkeit) Gegeben sei eine Zerlegung 5 B 1 , B 2 , . . . , B n von Ω. Dann gilt f¨ ur jedes Ereignis A: P (A) = n ∑ i=1 P (A | B i )P (B i ) (8.13) Beispiel 8.6 Angesichts der globalen Wirtschaftslage sch¨atzt ein Finanzanalyst, dass mit einer Wahrscheinlichkeit von 30% die Welt in den n¨achsten 12 Monaten eine Rezession erleben wird. Er glaubt, dass mit einer Wahrscheinlichkeit von 80% seine Investmentsfonds im Wert steigen werden, wenn die Rezession ausbleibt. Andernfalls rechnet er mit einer Wahrscheinlichkeit von 5%, dass die Investmentsfonds im Wert steigen. Wie groß ist die Wahrscheinlichkeit, dass die Investmentsfonds im Wert steigen? F¨ ur die Berechnung definieren wir die Ereignisse A: Investmentsfonds steigen im Wert und B: Rezession tritt ein. Aus den Angaben entnehmen wir: P (B) = 0, 30 Wahrscheinlichkeit f¨ ur eine Rezession in den n¨achsten 12 Monaten P (A | B) = 0, 05 Wahrscheinlichkeit f¨ ur einen Wertzuwachs, wenn eine Rezession eintritt P (A | ¯ B) = 0, 80 Wahrscheinlichkeit f¨ ur einen Wertzuwachs, wenn die Rezession ausbleibt Nach dem Satz von der totalen Wahrscheinlichkeit ergibt sich: P (A) = P (A | B) · P (B) + P (A | ¯ B) · P ( ¯ B) = 0, 05 · 0, 30 + 0, 80 · 0, 70 = 0, 575 5 d. h. f¨ ur alle i = j gilt B i ∩ B j = ∅ und n ⋃ i =1 B i = Ω. F¨ ur n = 2 bilden B und ¯ B eine Zerlegung von Ω. 142 8. Der Begriffder Wahrscheinlichkeit Das bedeutet: Mit einer Wahrscheinlichkeit von 57,5% steigt in den n¨achsten 12 Monaten der Fondwert. Als Abschluss dieses Abschnittes wenden wir das Theorem von Bayes auf ein mittlerweile zu den Klassikern geh¨orendes Beispiel an: das ”Monty Hall Problem“ (in Deutschland auch bekannt als ”Ziegenproblem“). Beispiel 8.7 (Monty Hall Problem) Das ”Monty Hall Problem“ hat seinen Ursprung in einer Quizshow, die in den USA in den 1970er Jahren in Fernsehen ausgestrahlt wurde. Bei diesem Spiel werden einem Kandidaten drei verschlossene T¨ uren gezeigt. Hinter einer T¨ ur steht ein Auto, hinter den beiden anderen warten Ziegen. Der Kandidat w¨ahlt nun eine T¨ ur aus, z. B. die T¨ ur 1. Der Moderator, Monty Hall, der den Inhalt jeder T¨ ur kennt, ¨offnet eine der zwei verbleibenden T¨ uren, z. B. T¨ ur 3. Eine Ziege kommt zum Vorschein. Dann fragt er den Kandidaten: ”Wollen Sie lieber T¨ ur 2, oder bleiben Sie bei T¨ ur 1? “. Die amerikanische Autorin Marilyn vos Savant, die als Frau mit dem h¨ochsten jemals gemessenen IQ gilt, stellte das ”Monty Hall Problem“ im Jahr 1990 in ihrer Kolumne vor. Sie meinte, die T¨ ur zu wechseln sei besser. Damit l¨oste sie eine lebhafte Debatte aus. Einige Jahre sp¨ater fand das ”Ziegenproblem“ durch eine Ver¨offentlichung Gero von Randows in der Wochenzeitung DIE ZEIT in Deutschland Aufmerksamkeit. Er erntete wie Marilyn vos Savant eine Lawine meist wenig freundlicher Leser-Zuschriften. Von Randow setzte sich ausf¨ uhrlich mit dem Ziegenproblem auseinander. Als Ergebnis erschien im Jahre 1992 von Randows Buch Das Ziegenproblem - Denken in Wahrscheinlichkeiten ([22]). Kehren wir zu der Frage zur¨ uck: Sollte der Kandidat seine bereits getroffene Entscheidung nach der neuen Information (des Moderators) ¨andern? Kann er durch einen Wechsel seine Chance, das Auto zu bekommen, erh¨ohen? Wir wollen die Frage hier mit Hilfe des Bayes’schen Theorems beantworten. Dazu definieren wir die Ereignisse (i = 1, 2, 3) M i : Moderator ¨offnet T¨ ur i und A i : Auto steht hinter T¨ ur i. Die Wahrscheinlichkeit, dass das Auto hinter T¨ ur i steht, betr¨agt P (A i ) = 1/ 3. 8.6. Theorem von Bayes 143 Die Wahrscheinlichkeit, dass das Auto hinter T¨ ur 1 steht, wenn der Moderator T¨ ur 3 ¨offnet, ist die bedingte Wahrscheinlichkeit P (A 1 | M 3 ). Die Wahrscheinlichkeit, dass das Auto hinter T¨ ur 2 steht, wenn der Moderator T¨ ur 3 ¨offnet, ist P (A 2 | M 3 ). Somit kann der Kandidat sich nach dem folgenden Kriterium entscheiden: Wenn P (A 2 | M 3 ) > P (A 1 | M 3 ) gilt, dann wird er wechseln, ansonsten bleibt er bei T¨ ur 1. Die bedingten Wahrscheinlichkeiten berechnen sich fogendermaßen: P (A 1 | M 3 ) = P (M 3 ∩ A 1 ) P (M 3 ) bzw. P (A 2 | M 3 ) = P (M 3 ∩ A 2 ) P (M 3 ) Der Nenner P (M 3 ) ergibt sich nach dem Satz der totalen Wahrscheinlichkeit: P (M 3 ) = P (M 3 | A 1 ) · P (A 1 ) + P (M 3 | A 2 ) · P (A 2 ) + P (M 3 | A 3 ) · P (A 3 ) Berechnung des 1. Summanden: Wenn das Auto hinter T¨ ur 1 steht, dann besteht f¨ ur den Moderator kein Grund, eine der beiden verbleibenden T¨ uren vorzuziehen. Deshalb gilt P (M 3 | A 1 ) = 1/ 2, also ist P (M 3 | A 1 ) · P (A 1 ) = 1/ 2 · 1/ 3 = 1/ 6. Berechnung des 2. Summanden: Wenn das Auto hinter T¨ ur 2 steht, dann muss der Moderator T¨ ur 3 ¨offnen. Deshalb gilt P (M 3 | A 2 ) = 1, also ist P (M 3 | A 2 ) · P (A 2 ) = 1 · 1/ 3 = 1/ 3. Berechnung des 3. Summanden: Wenn das Auto hinter T¨ ur 3 steht, dann wird der Moderator T¨ ur 3 nicht ¨offnen, d. h. P (M 3 | A 3 ) = 0, also ist P (M 3 | A 3 ) · P (A 3 ) = 0 · 1/ 3 = 0. Insgesamt ergibt sich: P (M 3 ) = P (M 3 | A 1 ) · P (A 1 ) + P (M 3 | A 2 ) · P (A 2 ) + P (M 3 | A 3 ) · P (A 3 ) = 1/ 6 + 1/ 3 + 0 = 1/ 2 144 8. Der Begriffder Wahrscheinlichkeit Somit betr¨agt P (A 1 | M 3 ) = P (M 3 ∩ A 1 ) P (M 3 ) = P (M 3 | A 1 ) · P (A 1 ) P (M 3 ) = 1/ 6 1/ 2 = 1/ 3 bzw. P (A 2 | M 3 ) = P (M 3 ∩ A 2 ) P (M 3 ) = P (M 3 | A 2 ) · P (A 2 ) P (M 3 ) = 1/ 3 1/ 2 = 2/ 3. Es gilt: P (A 2 | M 3 ) = 2/ 3 > 1/ 3 = P (A 1 | M 3 ) Wenn Monty T¨ ur 3 ¨offnet, dann sollte der Kandidat besser seine Wahl ¨andern. Die Wahrscheinlichkeit, dass das Auto hinter T¨ ur 2 steht, ist nach dieser Information doppelt so hoch wie die Wahrscheinlichkeit, dass sich das Auto hinter T¨ ur 1 befindet. Indem der Moderator gezielt eine T¨ ur mit Ziege ¨offnet, verkleinert sich die Wahrscheinlichkeit f¨ ur eine Ziege. 8.7. Zusammenfassung Die klassische Wahrscheinlichkeitsdefinition ist die nach Laplace. Sie gilt im Rahmen eines Laplace-Experiments. Bei einem Laplace-Experiment sind alle Ergebnisse gleich wahrscheinlich. Laplace definiert die Wahrscheinlichkeit eines Ereignisses A als den Quotienten aus der Anzahl der f¨ ur das Ereignis A g¨ unstigen F¨alle, und der Anzahl aller m¨oglichen F¨alle. Die statistische Wahrscheinlichkeit betrachtet die Wahrscheinlichkeit f¨ ur ein Ereignis A als Grenzwert der relativen H¨aufigkeiten h n (A) f¨ ur das Erscheinen von A bei n-maliger Versuchswiederholung. Kolmogoroffzeigte schließlich durch seine Axiome, dass die Wahrscheinlichkeit eines Ereignisses sich wie die Maßzahl einer Menge behandeln l¨asst. Diese Vorstellung von Wahrscheinlichkeit erm¨oglicht es uns, die Instrumente der Mengenlehre auf Ereignisse zu ¨ ubertragen. Ein weiterer Begriffist die bedingte Wahrscheinlichkeit P (B | A). Sie gibt die Wahrscheinlichkeit f¨ ur ein Ereignis B an, wenn ein anderes Ereignis A eingetreten ist. Beeinflusst das Eintreten von A das Eintreten von B nicht, dann heißen die Ereignisse A und B (stochastisch) unabh¨angig. 8.7. Zusammenfassung 145 Eine wichtige Anwendung der bedingten Wahrscheinlichkeit ist die Formel von Bayes. Mit der Formel von Bayes kann man eine neue Information A zur Revidierung einer bisher vorliegenden Wahrscheinlichkeit P (B) f¨ ur das Eintreten eines Ereignisses B (die A-priori- Wahrscheinlichkeit) hinzuziehen. Das Ergebnis P (B | A) heißt die Aposteriori-Wahrscheinlichkeit. Formeln, Notationen und ihre Bedeutung P (A) = | A | |Ω| Wahrscheinlichkeit nach Laplace | A | Anzahl f¨ ur das Ereignis A g¨ unstigen F¨alle | Ω | Anzahl aller m¨oglichen F¨alle P (B | A) = P ( B ∩ A ) P ( A ) Bedingte Wahrscheinlichkeit von B, gegeben A P (B | A) = P ( A | B ) P ( B ) P ( A | B ) P ( B )+ P ( A | ¯ B ) P ( ¯ B ) Formel (Theorem) von Bayes P (A) = ∑ n i =1 P (A | B i )P (B i ) Satz von der totalen Wahrscheinlichkeit Die wichtigsten Rechenregeln der Wahrscheinlichkeitsrechnung: 1. Additionssatz P (A ∪ B) = P (A) + P (B) − P (A ∩ B) 2. Additionssatz f¨ ur disjunkte Ereignisse P (A ∪ B) = P (A) + P (B) 3. Subtraktion P (A) = 1 − P ( ¯ A) 4. Multiplikationssatz P (A ∩ B) = P (A | B) · P (B) 5. Multiplikationssatz f¨ ur zwei unabh¨angige Ereignisse P (A ∩ B) = P (A) · P (B) 147 9. Kombinatorik Im vorangegangenen Kapitel haben wir die Laplace-Wahrscheinlichkeit als den Quotienten P (A) = | A | | Ω | kennengelernt. Nun betrachten wir f¨ ur m = 2, 3, 4, 5 das Zufallsexperiment Gleichzeitiges Werfen von m Laplace-M¨ unzen und definieren das Ereignis A: Genau zwei der m M¨ unzen zeigen Kopf. Die Frage lautet nun: Wie groß ist die Wahrscheinlichkeit von A? Jede M¨ unze zeigt entweder K (Kopf) oder Z (Zahl). F¨ ur m = 2, 3, 4 geben wir die Ergebnismenge Ω an: m Ergebnismenge Ω Anzahl | Ω | 2 { (K,K), (K,Z), (Z,K), (Z,Z) } 4 3 { (K,K,K), (K,K,Z), (K,Z,K), (Z,K,K), 8 (K,Z,Z), (Z,K,Z), (Z,Z,K), (Z,Z,Z) } 4 { (K,K,K,K), (K,K,K,Z), (K,K,Z,K), (K,Z,K,K), 16 (Z,K,K,K), (K,K,Z,Z), (K,Z,K,Z), (K,Z,Z,K), (Z,Z,K,K), (Z,K,K,Z), (Z,K,Z,K), (Z,Z,Z,K), (K,Z,Z,Z), (Z,K,Z,Z), (Z,Z,K,Z), (Z,Z,Z,Z) } Die obige Tabelle zeigt: Hat man zwei M¨ unzen, kommen zu jedem Ausgang der ersten M¨ unze zwei m¨ogliche Ausg¨ange K oder Z hinzu, sodass insgesamt 4 Ergebnisse vorliegen. Nimmt man eine dritte M¨ unze hinzu, so kommen wiederum zu jedem der vier Ausg¨ange zwei M¨oglichkeiten K oder Z hinzu. Insgesamt gibt es dann 8 Ergebnisse. Erh¨oht man die Anzahl der M¨ unzen auf vier, so ergeben sich f¨ ur jeden der 8 Ausg¨ange weitere zwei m¨ogliche Ausg¨ange. Insgesamt gibt es 16 Ergebnisse. Mit jeder weiteren M¨ unze verdoppelt sich die Anzahl der Ergebnisse. Allgemein gibt es bei m M¨ unzen 2 m m¨ogliche Ergebnisse. Nun bestimmen wir die Ergebnisse, die f¨ ur das Ereignis A g¨ unstig sind, und dessen Wahrscheinlichkeit P (A): 148 9. Kombinatorik m Ereignis A Anzahl | A | P (A) 2 { (K,K) } 1 1 4 3 { (K,K,Z), (K,Z,K), (Z,K,K) } 3 3 8 4 { (K,K,Z,Z), (K,Z,K,Z), (K,Z,Z,K), 6 6 16 (Z,Z,K,K), (Z,K,K,Z), (Z,K,Z,K) } 5 { (K,K,Z,Z,Z), (K,Z,K,Z,Z), (K,Z,Z,K,Z), 10 10 32 (K,Z,Z,Z,K), (Z,K,K,Z,Z), (Z,K,Z,K,Z) (Z,K,Z,Z,K), (Z,Z,K,K,Z), (Z,Z,K,Z,K) (Z,Z,Z,K,K) } ... ... ... ... m ? P (A) = | A | 2 m Mit steigendem m wird die explizite Bestimmung von | A | komplizierter. Die Kombinatorik liefert ein Instrument, mit dem man solche Anzahlen leicht bestimmen kann. Sie ist ein Zweig der Mathematik, der sich mit Methoden zur Bestimmung der Zahl m¨oglicher Anordnungen oder den Auswahlen von Elementen besch¨aftigt. Das Grundprinzip der Kombinatorik ist die sogenannte k-stufige Auswahl, die im folgenden Abschnitt vorgestellt wird. 9.1. Grundregel Bei einer k-stufigen Auswahl hat man n 1 M¨oglichkeiten f¨ ur die erste, n 2 M¨oglichkeiten f¨ ur die zweite, . . . , n k M¨oglichkeiten f¨ ur die k-te Auswahl. Diese M¨oglichkeiten sind frei miteinander kombinierbar. Insgesamt gibt es n 1 · n 2 · n 3 · . . . · n k (9.1) m¨ogliche Kombinationen. Ist n 1 = n 2 = . . . = n k = n, dann betr¨agt die Anzahl der M¨oglichkeiten n k . (9.2) Beispiel 9.1 Man kann aus drei unterschiedlichen T-Shirts und zwei unterschiedlichen Jeans 3 · 2 = 6 Kombinationen bilden. Es handelt sich um eine 9.2. Permutation 149 zweistufige Auswahl (k = 2) mit n 1 = 3= Anzahl der T-Shirts und n 2 = 2= Anzahl der Jeans. Beispiel 9.2 Das Buch der Kombinationen ist ein Bilderbuch, das aus 11 Tierbildern besteht. Jedes Blatt wird in drei Teile geschnitten, so dass jedes Tierbild in einen Kopf-, einen Rumpf- und einen Beinteil zerlegbar ist. Jeder Tierabschnitt ist mit den anderen kombinierbar. Mit diesem Bilderbuch kann man 11 · 11 · 11 = 1331 Tiere erzeugen. Es handelt sich also um eine dreistufige Auswahl mit n 1 = n 2 = n 3 = 11. Beispiel 9.3 Das eingangs erw¨ahnte Zufallsexperiment ”Gleichzeitiges Werfen von m Laplace-M¨ unzen“ kann man f¨ ur jedes m als eine m-stufige Auswahl mit n 1 = . . . = n m = 2 ansehen. F¨ ur jedes m gibt es somit 2 m Ergebnisse. 9.2. Permutation Definition 9.1 Eine Permutation ist eine Anordnung von n unterscheidbaren Elementen in irgendeiner beliebigen Reihenfolge. Beispiel 9.4 Durch Permutation der Buchstaben a, b, c entstehen folgende Anagramme: abc acb bac bca cab cba Eine Permutation von a, b und c ist gleichbedeutend mit einer Platzierung dieser Buchstaben in drei verschiedenen K¨astchen in irgendeiner Reihenfolge. F¨ ur das erste K¨astchen gibt es drei M¨oglichkeiten, f¨ ur das zweite zwei, und das dritte K¨astchen kann nur durch das verbleibende Element besetzt werden. Nach dem vorherigen Abschnitt gibt es also 3 · 2 · 1 = 6 M¨oglichkeiten, 3 verschiedene Buchstaben anzuordnen. Die Anzahl der m¨oglichen Permutationen ist n · (n − 1) · (n − 2) · . . . · 2 · 1 = n! (9.3) (Gelesen: n Fakult¨at. Vereinbarung: 0! =1) 150 9. Kombinatorik 9.3. Variation Definition 9.2 Eine Variation ist eine Zusammenstellung von k Elementen aus einer Menge mit n ≥ k unterscheidbaren Elementen mit Ber¨ ucksichtigung der Reihenfolge der Elemente. Es gibt n · (n − 1) · . . . · (n − k + 1) = n! (n − k)! (9.4) Variationen von n Elementen zu je k. Beispiel 9.5 Es gibt 4 · 3 = 12 Variationen von k = 2 Elementen aus einer n = 4elementigen Menge { a, b, c, d } : ab bc ac bd ad cd ba cb ca db da dc 9.4. Kombination Definition 9.3 Eine Kombination ist eine Zusammenstellung von k Elementen aus einer Menge mit n (k ≤ n) unterscheidbaren Elementen ohne Ber¨ ucksichtigung der Reihenfolge der Elemente. Man kann k unterscheidbare Elemente auf genau k! Weise permutieren. Bei Variationen von n Elementen zu je k wurden alle M¨oglichkeiten ber¨ ucksichtigt. Die Anzahl der Variationen betr¨agt gem¨aß (9.4) n! (n − k)! . Im Gegensatz dazu unterscheidet man bei einer Kombination die k! Permutationen nicht. Sie z¨ahlen als eine Zusammenstellung. Deshalb muss man, um die Anzahl der Kombinationen zu bestimmen, n! (n − k)! durch k! dividieren: n! (n − k)! k! = n! k! (n − k)! 9.4. Kombination 151 Dieser Ausdruck ist genau der Binomialkoeffizient ( n k ) , der als ”n ¨ uber k“ zu lesen ist. Somit ergibt sich die Anzahl der m¨oglichen Kombinationen gem¨aß: ( n k ) = n! k! (n − k)! (9.5) Beispiel 9.6 F¨ ur n = 4 Elemente a, b, c, d und k = 2 sind die m¨oglichen Kombinationen: ab = ba ac = ca ad = da bc = cb bd = db cd = dc Es gibt ( 4 2 ) = 4! 2! (4 − 2)! = 4 · 3 · 2 · 1 2 · 1 · 2 · 1 = 6 M¨oglichkeiten. W¨ urde man die Reihenfolge beachten, g¨abe es, wie im Beispiel 9.5 gezeigt wurde, 12 m¨ogliche Anordnungen. Je k = 2 Elemente lassen sich auf 2! = 2 Arten anordnen. Diese Anordnungen z¨ahlen bei einer Kombination als eine, deshalb gibt es nun nicht mehr 12, sondern 6 verschiedene Zusammenstellungen. Beispiel 9.7 Im eingangs erw¨ahnten Zufallsexperiment Gleichzeitiges Werfen von m Laplace-M¨ unzen interessieren wir uns f¨ ur das Ereignis A: Genau zwei der m M¨ unzen zeigen Kopf. F¨ ur die Berechnung von P (A) ben¨otigen wir | A | . Die Ermittlung von | A | wird mit steigendem m komplizierter. F¨ ur das Ereignis A ist nur wichtig, dass unter den m W¨ urfen Kopf zweimal erscheint; die Reihenfolge spielt dabei keine Rolle. Deswegen gibt es gem¨aß (9.5) f¨ ur jedes m ( m 2 ) g¨ unstige F¨alle: m 2 3 4 5 Anzahl | A | ( 2 2 ) = 1 ( 3 2 ) = 3 ( 4 2 ) = 6 ( 5 2 ) = 10 (Siehe auch [11]; [23, Kap. 7].) 152 9. Kombinatorik 9.5. Zusammenfassung Wichtige Begriffe Permutation Variation Kombination Fakult¨at Binomial-Koeffizient Formeln, Notationen und ihre Bedeutung n! Anzahl der m¨oglichen Permutationen n! (n − k)! Anzahl der Variationen ( n k ) = n! k! (n − k)! Anzahl der Kombinationen F¨ ur eine ausf¨ uhrliche Besch¨aftigung mit Kombinatorik sei der Abschnitt 3 aus [7] empfohlen. 153 10. Zufallsvariablen 10.1. Eindimensionale Zufallsvariablen In der Regel beurteilt man in einer statistischen Analyse Ereignisse ¨ uber quantitative (quantifizierte) Merkmale. Beispiele: 1. Fernsehkonsum. Eine Studie soll herausfinden, wie lange Kinder im Alter von vier bis acht Jahren pro Woche durchschnittlich fernsehen. Die Studie kann man als ein Zufallsexperiment betrachten. Die Ergebnismenge Ω = { ω 1 , ω 2 , . . . ω n } besteht aus n Kindern, die in die Erhebung per Zufall aufgenommen werden. Gegenstand der Untersuchung sind nicht die Kinder selbst, sondern ihr Fernsehverhalten. 2. Qualit¨atskontrolle. Es soll ¨ uberpr¨ uft werden, ob eine Abf¨ ullmaschine die Getr¨ankeflaschen korrekt abf¨ ullt. Man entnimmt zuf¨allig n Flaschen; Ω besteht aus diesen zuf¨allig ausgew¨ahlten Flaschen. Das zu untersuchende Merkmal ist der Flascheninhalt. Jede Abbildung 1 , die ein Ereignis A ⊂ Ω in eine reelle Zahl x ∈ R abbildet, heißt Zufallsvariable oder Zufallsgr¨oße. Zufallsvariablen werden im allgemeinen mit großen lateinischen Buchstaben, wie zum Beispiel X, Y, Z, . . . bezeichnet. Formal schreiben wir X : Ω −→ R Den Wert x, den eine Zufallsvariable X beim Vorliegen eines konkreten Ereignisses A annimmt, heißt die Realisation oder die Realisierung von X. Bei der Studie zum Fernsehkonsum von Kindern ist die Zufallsvariable X: Dauer des Fernsehens (in Stunden). Ein Ergebnis { X(A) = 3 } = { X = 3 } oder kurz X = 3 bedeutet, dass es eine Teilmenge A ⊂ Ω 1 F¨ ur eine exakte Definition siehe zum Beispiel [23, Seite 257]. 154 10. Zufallsvariablen gibt, deren Elemente Kinder sind, die durchschnittlich drei Stunden pro Woche fernsehen. { X > 6 } bedeutet, dass es Kinder (ω ∈ Ω) gibt, die durchschnittlich l¨anger als sechs Stunden pro Woche fernsehen. Vereinfachend kann man also sagen: Eine Zufallsvariable gibt das numerische Ergebnis eines Zufallsexperiments wieder. Aus Zufallsvariablen kann man durch Verkn¨ upfungen der Art X +Y , X · Y , ∑ n i=1 X i , a + bX, (a, b ∈ R ) u. a. weitere Zufallsvariablen bilden. 10.2. Mehrdimensionale Zufallsvariablen Bei einem Zufallsvorgang kann man sich gleichzeitig f¨ ur mehrere Eigenschaften einer Untersuchungseinheit interessieren. So kann beispielsweise in der Studie zum Fernsehkonsum von Kindern zus¨atzlich zur Fernsehdauer (X 1 ) das Alter der Kinder (X 2 ) Gegenstand der Untersuchung sein. Solche Beobachtungen lassen sich gemeinsam durch zwei Zufallsvariablen X 1 und X 2 beschreiben. Allgemein verwendet man bei n Eigenschaften n Zufallsvariablen X 1 , . . . , X n . Diese Darstellung ist zudem zur Wiedergabe von n-maligen Wiederholungen eines Zufallsexperiments geeignet. Beispiel: Ein W¨ urfel wird n = 3-mal geworfen. Die Zufallsvariable X i bezeichnet die Augenzahl beim i-ten Wurf. 10.3. Diskrete Zufallsvariablen Definition 10.1 Eine Zufallsvariable X heißt diskret, wenn der Wertebereich W X von X abz¨ahlbar ist, d. h. man kann die Elemente von W X (endlich oder unendlich) fortlaufend nummerieren, also abz¨ahlen. Beispiel 10.1 F¨ ur das Zufallsexperiment Dreimaliger M¨ unzwurf seien die Ereignisse K: Kopf wird geworfen und Z: Zahl wird geworfen. Die Ergebnismenge ist gegeben durch Ω = { (Z,Z,Z),(Z,Z,K),(Z,K,Z),(K,Z,Z),(K,K,Z),(K,Z,K), (Z,K,K),(K,K,K) } . 10.3. Diskrete Zufallsvariablen 155 Wir definieren die Zufallsvariable X: Anzahl des Auftretens von Zahl. Der Wertebereich von X: W X = { 0, 1, 2, 3 } . Also ist X : Ω −→ { 0, 1, 2, 3 } . Konkret lautet die Zuordnung: X(ω) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0 f¨ ur ω = (K,K,K) 1 f¨ ur ω = (K,K,Z),(K,Z,K),(Z,K,K) 2 f¨ ur ω = (Z,Z,K),(Z,K,Z),(K,Z,Z) 3 f¨ ur ω = (Z,Z,Z) Da sich Zufallsvariablen auf Ereignisse aus der Ergebnismenge eines Zufallsexperiments zur¨ uckf¨ uhren lassen, kann man das Konzept der Wahrscheinlichkeit aus Kapitel 8 auf Zufallsvariablen ¨ ubertragen. F¨ ur eine diskrete Zufallsvariable X (mit einem Wertebereich W X = { x 1 , . . . , x m } oder W X = { x 1 , x 2 , . . . } ) heißt die Funktion P : X(Ω) −→ [0, 1] x i → P (X = x i ) = p i die Wahrscheinlichkeit daf¨ ur, dass die Zufallsvariable X den Wert x i (i ∈ { 1, . . . , m } bzw. i ∈ N ) annimmt. Definition 10.2 Die Wahrscheinlichkeitsfunktion von X ist eine Funktion f : R −→ [0, 1] der Gestalt f(x) = ⎧ ⎪ ⎪ ⎨ ⎪ ⎪ ⎩ p i f¨ ur x = x i 0 sonst (10.1) Es gilt ∑ x f(x) = 1. 156 10. Zufallsvariablen Beispiel 10.2 F¨ ur das Zufallsexperiment Dreimaliger M¨ unzwurf im Beispiel 10.1 haben wir die Zufallsvariable X: Anzahl des Auftretens von Zahl mit dem Wertebereich W X = { 0, 1, 2, 3 } . Ausgehend von der Annahme, dass die M¨ unzen fair sind, gilt nach Laplace: • P (X = 0) = P ( { (K,K,K) } ) = 1 8 • P (X = 1) = P ( { (K,K,Z),(K,Z,K),(Z,K,K) } ) = 3 8 • P (X = 2) = P ( { (Z,Z,K),(Z,K,Z),(K,Z,Z) } ) = 3 8 • P (X = 3) = P ( { (Z,Z,Z) } ) = 1 8 Daraus ergibt sich die Wahrscheinlichkeitsfunktion von X: f(x) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 1 8 f¨ ur x = 0 3 8 f¨ ur x = 1 3 8 f¨ ur x = 2 1 8 f¨ ur x = 3 0 sonst Es gilt ∑ x f(x) = ∑ 4 j=1 p i = 1 8 + 3 8 + 3 8 + 1 8 = 1. Definition 10.3 Die Funktion F (x) = P (X ≤ x) = ∑ x i ≤ x f(x i ) (10.2) heißt Verteilungsfunktion von X. F (x) gibt die Wahrscheinlichkeit daf¨ ur an, dass die Zufallsvariable X Werte annimmt, die kleiner oder gleich x sind. 10.3. Diskrete Zufallsvariablen 157 x F (x) 0 1 2 3 1 8 4 8 7 8 1 Abbildung 10.1.: Verteilungsfunktion von X: Anzahl von Zahl beim dreimaligen M¨ unzwurf Beispiel 10.3 Die Verteilungsfunktion von X: Anzahl des Auftretens von Zahl in dem Zufallsexperiment Dreimaliger M¨ unzwurf lautet: F (x) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0 f¨ ur x < 0 1 8 f¨ ur 0 ≤ x < 1 4 8 f¨ ur 1 ≤ x < 2 7 8 f¨ ur 2 ≤ x < 3 1 f¨ ur x ≥ 3 Abbildung 10.1 zeigt den Graphen von F (x). Eigenschaften der diskreten Verteilungsfunktion F (x): 1. F (x) ist eine Treppenfunktion, die an den Stellen x = x i springt. An jeder Sprungstelle betr¨agt die Sprungh¨ohe p i . 2. F (x) ist rechtsseitig stetig, d. h. an den Sprungstellen gilt der obere Wert als der Funktionswert, d. h. f¨ ur alle h > 0 gilt lim h → 0 F (x + h) = F (x). 3. F (x) ist monoton steigend, d. h. f¨ ur a ≤ b gilt F (a) ≤ F (b). 158 10. Zufallsvariablen 4. F (x) besitzt die Grenzwerte lim x →−∞ F (x) = 0 und lim x →∞ F (x) = 1. Im folgenden Abschnitt werden die Begriffe der bedingten Wahrscheinlichkeit und der (stochastischen) Unabh¨angigkeit f¨ ur Zufallsvariablen definiert. Zun¨achst beschr¨anken wir uns auf zwei Zufallsvariablen. Die Definition der Unabh¨angigkeit wird sp¨ater jedoch (siehe 10.5) einfach auf n Zufallsvariablen ¨ ubertragen. Einf¨ uhrendes Beispiel: Wir werfen einen schwarzen und einen weißen Laplace-W¨ urfel gleichzeitig und betrachten die Zufallsvariablen X: Augenzahl des weißen W¨ urfels und Y : Augenzahl des schwarzen W¨ urfels. Das Ergebnis eines Wurfes (X = i, Y = j) schreiben wir kurz als ein Zahlenpaar (i, j), i, j ∈ { 1, 2, 3, 4, 5, 6 } (siehe Tabelle). Insgesamt gibt es 36 Ergebnisse. j i 1 2 3 4 5 6 1 1,1 1,2 1,3 1,4 1,5 1,6 2 2,1 2,2 2,3 2,4 2,5 2,6 3 3,1 3,2 3,3 3,4 3,5 3,6 4 4,1 4,2 4,3 4,4 4,5 4,6 5 5,1 5,2 5,3 5,4 5,5 5,6 6 6,1 6,2 6,3 6,4 6,5 6,6 Jedes Ergebnis besitzt die gleiche Wahrscheinlichkeit von 1 36 . F¨ ur die Wahrscheinlichkeit, dass der weiße W¨ urfel die Augenzahl i und der schwarze W¨ urfel die Augenzahl j (i, j = 1, 2, 3, 4, 5, 6) zeigen, schreiben wir 2 P (i, j) = 1 36 . Wir definieren nun die Zufallsvariable Augensumme : Z = X + Y Der Wertebereich von Z ist W Z = { 2, 3, . . . , 12 } . Das Ergebnis Die Augensumme ist 3 (Z = 3) entsteht durch die Wurfergebnisse { (1, 2), (2, 1) } . Somit ist P (Z = 3) = P ( { (1, 2), (2, 1) } ) = 2 36 . 2 Der ¨ Ubersicht halber werden - sofern kein Mißverst¨andnis besteht - die geschweiften Klammern weggelassen. So schreiben wir beispielsweise P (i, j) statt P ( { (i, j) } . 10.3. Diskrete Zufallsvariablen 159 Wir ver¨andern nun das Zufallsexperiment ein wenig: Wir werfen den weißen vor dem schwarzen W¨ urfel. Dieser Wurf liefert zum Beispiel eine Eins. (Der weiße W¨ urfel liegt auf dem Tisch und zeigt die Augenzahl Eins. Mit anderen Worten: Das Ereignis { X = 1 } ist eingetreten.) Wie groß ist die Wahrscheinlichkeit f¨ ur { Z = 3 } nach diesem Ergebnis? Anders formuliert: Wie groß ist die Wahrscheinlichkeit f¨ ur { Z = 3 } , wenn das Ereignis { X = 1 } eingetreten ist? Die Fragestellung erinnert uns an die bedingte Wahrscheinlichkeit im Kapitel 8. Dort wurde die Wahrscheinlichkeit f¨ ur ein Ereignis A, wenn ein anderes Ereignis B eingetreten ist, gem¨aß P (A | B) = P (A ∩ B) P (B) berechnet. ¨ Ahnlich kann man hier vorgehen. Da { Z = 3 } = { (1, 2), (2, 1) } und { X = 1 } = { (1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6) } , k¨onnen wir schreiben: P ( Z = 3 | X = 1 ) = P ( { Z = 3 } ∩ { X = 1 } ) P ( { X = 1 } ) Wegen { Z = 3 } ∩ { X = 1 } = { (1, 2) } ist der Z¨ahler P ( { Z = 3 } ∩ { X = 1 } ) = 1 36 . Zusammen mit dem Nenner P ( X = 1 ) = 6 36 ergibt P ( Z = 3 | X = 1 ) = 1/ 36 6/ 36 = 1 6 . Definition 10.4 Seien X und Y Zufallsvariablen mit dem jeweiligen Wertebereich W X bzw. W Y , und sei P (Y = y) > 0. Dann heißt die Wahrscheinlichkeit, dass X den Wert x ∈ W X annimmt, wenn Y = y ∈ W Y eingetreten ist, P (X = x | Y = y) = P (X = x, Y = y) P (Y = y) (10.3) 160 10. Zufallsvariablen die bedingte Wahrscheinlichkeit von X, gegeben Y . Die Gesamtheit der Wahrscheinlichkeiten P (X = x, Y = y) nennt man die gemeinsame Wahrscheinlichkeitsverteilung, kurz die gemeinsame Verteilung von X und Y . Definition 10.5 Zwei Zufallsvariablen X mit dem Wertebereich W X und Y mit dem Wertebereich W Y heißen stochastisch unabh¨angig, wenn f¨ ur beliebige x ∈ W X und y ∈ W Y gilt: P (X = x, Y = y) = P (X = x) · P (Y = y) (10.4) F¨ ur die Zufallsvariablen X und Y aus dem Einf¨ uhrungsbeispiel gilt f¨ ur alle i = 1, . . . , 6 und f¨ ur alle j = 1, . . . , 6 P (i, j) = 1 36 = 1 6 · 1 6 = P (X = i) · P (Y = j). Also sind X und Y stochastisch unabh¨angig. Noch allgemeiner heißen n Zufallsvariablen X 1 , . . . , X n unabh¨angig, wenn f¨ ur beliebige Werte x 1 , x 2 , . . . , x n aus dem jeweiligen Wertebereich gilt: P (X = x 1 , X 2 = x 2 , . . . , X n = x n ) = n ∏ i=1 P (X = x i ) (10.5) (F¨ ur eine ausf¨ uhrliche Beschreibung der Thematik sei auf [23], [11] verwiesen.) 10.4. Stetige Zufallsvariablen Im Gegensatz zu diskreten Variablen kann man die Werte stetiger Zufallsvariablen nicht abz¨ahlen. Vereinfachend gesagt: Ihre Werte erh¨alt man durch Messungen; stetige Zufallsvariablen haben Intervalle als Wertebereich. Die Intervalle k¨onnen abgeschlossen, offen oder halboffen sein. Beispiele sind u. a. Wartezeiten, Lebensdauern, Abf¨ ullgewichte. Genauer wird die Stetigkeit von Zufallsvariablen durch die folgende Definition festgelegt. 10.4. Stetige Zufallsvariablen 161 Definition 10.6 Eine Zufallsvariable X heißt stetig, wenn es eine Funktion f(u) ≥ 0 gibt, so dass die Verteilungsfunktion von X als das unbestimmte Integral von f(u) darstellbar ist, d. h. F (x) = P (X ≤ x) = x ∫ −∞ f(u)du (10.6) Die Funktion f(u) heißt Dichtefunktion von X. Eigenschaften der stetigen Verteilungsfunktion F (x) 1. F (x) ist an jeder Stelle x stetig. 2. F (x) ist monoton steigend, d. h. f¨ ur a ≤ b gilt F (a) ≤ F (b). 3. F (x) besitzt die Grenzwerte lim x →−∞ F (x) = 0 und lim x →∞ F (x) = 1. 4. F¨ ur alle x ∈ R , an denen f(x) stetig ist, gilt dF (x) dx = f(x). Das heißt: ¨ Uberall, wo die Dichtefunktion f(x) stetig ist, ist sie mit der Ableitung der Verteilungsfunktion F (x) identisch. 5. Normierungseigenschaft: Da −∞ ≤ X ≤ ∞ ein sicheres Ereignis ist, gilt ∞ ∫ −∞ f(x) dx = 1. (10.7) 6. Die Wahrscheinlichkeit, dass eine stetige Zufallsvariable X mit der Dichtefunktion f(x) Werte zwischen zwei Zahlen a und b mit −∞ < a ≤ b < ∞ annimmt, betr¨agt P (a < X ≤ b) = F (b) − F (a) = ∫ b a f(x)dx. (10.8) 162 10. Zufallsvariablen 7. Da ∫ x x f(u)du = 0, gilt P (X = x) = 0. (10.9) Somit gilt die folgende Gleichungskette: P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) = F (b) − F (a) Das bedeutet: F¨ ur die Bestimmung der Wahrscheinlichkeiten ist es unwesentlich, ob das Intervall abgeschlossen, halboffen oder offen ist. Analog zu diskreten Zuvallsvariablen heißen zwei stetige Zufallsvariablen X und Y stochastisch unabh¨angig, wenn ihre gemeinsame Dichtefunktion f(x, y) identisch mit dem Produkt der einzelnen Dichtefunktionen ist, d. h., wenn f(x, y) = f X (x) · f Y (y) gilt. Dabei bezeichnen f X (x) die Dichtefunktion von X und f Y (y) die von Y . Wir werden uns mit mehrdimensionalen stetigen Zufallsvariablen nicht n¨aher besch¨aftigen. Bei Interesse sei u. a. auf [23, Abschnitt 10.2] verwiesen. 10.5. Parameter von Zufallsvariablen In der deskriptiven Statistik haben wir f¨ ur einen konkreten Datensatz das arithmetische Mittel ¯ x und die empirische Varianz s 2 als Parameter kennengelernt. Die entsprechenden Parameter in der Grundgesamtheit heißen Erwartungswert und Varianz. Die ¨ ubliche Bezeichnung f¨ ur den Erwartungswert ist μ (griechisch: My) und f¨ ur die Varianz σ 2 (σ ist ebenfalls griechisch, gelesen: Sigma). 10.5.1. Erwartungswert Der Begriff Erwartungswert hat seinen Ursprung - wie die Wahrscheinlichkeitstheorie ¨ uberhaupt - in Gl¨ ucksspielen. Christiaan Huygens 3 hat 3 Christiaan Huygens (1629-1695), holl¨andischer Wissenschaftler 10.5. Parameter von Zufallsvariablen 163 den Begriffin seiner Abhandlung ¨ Uber Berechnungen in Gl¨ ucksspielen im Jahr 1657 eingef¨ uhrt. (N¨aheres dazu in [10].) Der Erwartungswert einer diskreten Zufallsvariablen X mit der Wahrscheinlichkeitsfunktion f(x) ist gegeben durch: μ = E(X) = ∑ j ∈N x j · f(x j ) (10.10) Beispiel 10.4 F¨ ur X: Augenzahl bei einmaligem Werfen eines Laplace-W¨ urfels (jede Augenzahl besitzt die gleiche Wahrscheinlichkeit p = 1 6 ) betr¨agt der Erwartungswert E(X) = 6 ∑ x=1 p · x = 6 ∑ x=1 1 6 · x = 1 6 6 ∑ x=1 x = 3, 5. Wie kann man das Ergebnis ”Der Erwartungswert der Augenzahl bei einmaligem W¨ urfeln betr¨agt 3,5“ interpretieren? Am einfachsten ist die Frage zu beantworten, wenn man das Konzept des Erwartungswertes aus dem Blickwinkel eines Gl¨ uckspiels betrachtet: Nehmen wir an, ein Spieler, der den W¨ urfel wirft, erh¨alt x Euro, wenn die Augenzahl x erscheint (der Einfachheit halber wird auf den Spieleinsatz zun¨achst verzichtet). In diesem Zusammenhang k¨onnen wir den Erwartungswert als die mittlere Gewinnerwartung des Spielers auffassen, d. h. wird das Spiel sehr oft wiederholt, dann betr¨agt im Mittel der Gewinn pro Spiel 3,50 e . Bei einem Gl¨ ucksspiel h¨angt der Gewinn vom Spielausgang ab. Man kann den Gewinn also als eine Funktion g des Spielausgangs X(Ω) in die Menge der reellen Zahlen R ansehen: g : X(Ω) −→ R Als reelle Funktion einer Zufallsvariablen ist g(X) ebenfalls eine Zufallsvariable. Der Erwartungswert von g(X) berechnet sich wie folgt: E [ g ( X )] = ∑ j g(x j ) · f(x j ) (10.11) 164 10. Zufallsvariablen Beispiel 10.5 Bei einem Gl¨ uckspiel Werfen eines fairen W¨ urfels betr¨agt der Einsatz 3,00 e . Wird 6 geworfen, so erh¨alt der Spieler 7,20 e . Bei der Augenzahl 4 oder 5 betr¨agt die Auszahlung 4,80 e . Sonst verliert der Spieler seinen Einsatz. Mit X: Augenzahl lautet die Gewinnfunktion: g(x) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 4, 20, wenn x = 6 1, 80, wenn x = 4 oder x = 5 − 3, 00, sonst (Den Gewinn erh¨alt man, indem man den Einsatz von der Auszahlung abzieht.) Die Wahrscheinlichkeiten f¨ ur die einzelnen Gewinnbetr¨age werden durch die folgenden Wahrscheinlichkeiten • P ( { X = 6 } ) = 1 6 • P ( { X = 4 } ∪ { X = 5 } ) = 2 6 • P ( { X = 1 } ∪ { X = 2 } ∪ { X = 3 } ) = 3 6 festgelegt. Somit betr¨agt der erwartete Gewinn E [ g ( X )] = ( − 3) · 3 6 + 1, 80 · 2 6 + 4, 20 · 1 6 = − 1, 20 6 = − 0, 20, was bedeutet, dass ein Spieler im Durchschnitt 0,20 e verliert. Der Erwartungswert einer stetigen Zufallsvariablen X mit der Dichtefunktion f(x) ist gegeben durch μ = E(X) = ∫ ∞ −∞ x · f(x)dx (10.12) Beispiel 10.6 Sei X f¨ ur −∞ < a < b < ∞ eine stetige Zufallsvariable mit der Dichtefunktion f(x) = ⎧ ⎪ ⎪ ⎨ ⎪ ⎪ ⎩ 1 b − a f¨ ur a ≤ x ≤ b 0 sonst 10.5. Parameter von Zufallsvariablen 165 Der Erwartungswert von X berechnet sich gem¨aß (10.12): E(X) = ∫ ∞ −∞ x · f(x) dx = ∫ b a x · f(x) dx = 1 b − a ∫ b a x dx = 1 b − a [ x 2 2 ] b a = 1 b − a [ b 2 2 − a 2 2 ] = a + b 2 Der Erwartungswert einer Zufallsvariablen existiert nat¨ urlich nur, wenn die Summe in (10.10) bzw. das Intergral in (10.12) endlich bleiben. Zufallsvariablen ohne Erwartungswerte wollen wir hier ausschließen. Eigenschaften von Erwartungswerten 1. F¨ ur beliebige a ∈ R gilt E(a + X) = a + E(X). (10.13) Das heißt: Verschiebt man X um a, so verschiebt sich der Erwartungswert von X ebenfalls um a. 2. F¨ ur n Zufallsvariablen X 1 , . . . , X n und beliebige a 1 , . . . , a n ∈ R gilt: E ( n ∑ i=1 a i X i ) = n ∑ i=1 a i · E(X i ) (10.14) Das heißt: Der Erwartungswert einer Linearkombination von n Zufallsvariablen ist gleich einer Linearkombination der einzelnen Erwartungswerte. Spezialfall n = 2 und a 1 = a 2 = 1: E(X 1 + X 2 ) = E(X 1 ) + E(X 2 ) (10.15) 3. Ist f(x) symmetrisch um c, d. h. f(c − x) = f(c + x), so ist E(X) = c. (10.16) 4. Sind X und Y unabh¨angig, dann gilt E(X · Y ) = E(X) · E(Y ). (10.17) 166 10. Zufallsvariablen H¨aufig kann man unter Verwendung dieser Eigenschaften Erwartungswerte, wie die folgenden Beispiele zeigen, bequem bestimmen. Beispiel 10.7 Sei X i : Augenzahl beim i-ten Wurf (mit einem Laplace-W¨ urfel), i = 1, 2, und sei X = X 1 + X 2 . Die Wahrscheinlichkeitstabelle von X lautet: x 2 3 4 5 6 7 8 9 10 11 12 P (X = x) 1 36 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 Man kann die Formel (10.10) f¨ ur die Berechnung von E(X) verwenden; viel einfacher ist es jedoch, wenn man die Symmetrie der Verteilung von X nutzt: Wie die Wahrscheinlichkeitsverteilungstabelle zeigt, ist die Verteilung von X symmetrisch um 7. Gem¨aß (10.16) ist somit E(X) = 7. Alternativ dazu kann man E(X) gem¨aß (10.15) bestimmen: E(X) = E(X 1 ) + E(X 2 ) = 3, 5 + 3, 5 = 7 (In Beispiel 10.4 wurde E(X 1 ) = E(X 2 ) = 3, 5 ermittelt.) 10.5.2. Varianz, Standardabweichung, Kovarianz Die Varianz einer diskreten Zufallsvariablen X mit dem Erwartungswert μ und der Wahrscheinlichkeitsfunktion f(x) lautet: σ 2 = V (X) = ∑ j ∈N (x j − μ) 2 · f(x j ) (10.18) Die Varianz einer stetigen Zufallsvariable X mit dem Erwartungswert E(X) = μ und der Dichtefunktion f(x) ist gegeben durch σ 2 = V (X) = ∫ ∞ −∞ (x − μ) 2 f(x)dx (10.19) 10.5. Parameter von Zufallsvariablen 167 F¨ ur die Varianz gilt der Verschiebungssatz: V (X) = E(X 2 ) − μ 2 (10.20) Die positive Wurzel der Varianz σ = √ σ 2 (10.21) heißt Standardabweichung. Beispiel 10.8 F¨ ur die Zufallsvariable X: Augenzahl bei einmaligem W¨ urfeln aus Beispiel 10.4 errechnet sich die Varianz gem¨aß (10.18): σ 2 = 6 ∑ x=1 1 6 · (x − E(X)) 2 = 1 6 6 ∑ x=1 (x − 3, 5) 2 = 1 6 ( (1 − 3, 5) 2 + (2 − 3, 5) 2 + (3 − 3, 5) 2 + (4 − 3, 5) 2 +(5 − 3, 5) 2 + (6 − 3, 5) 2 ) = 2, 917 Die Standardabweichung σ = √ 2, 917 ≈ 1, 71 l¨asst sich im Zusammenhang mit dem Gl¨ uckspiel als die durchschnittliche Abweichung des Gewinns vom Mittelwert 3,50 e auffassen. Beispiel 10.9 Die Varianz der stetigen Zufallsvariablen X aus Beispiel 10.6 l¨asst sich leicht mit Hilfe des Verschiebungssatzes (siehe (10.20)) berechnen: σ 2 = ∫ ∞ −∞ x 2 · f(x) dx − μ 2 = ∫ b a x 2 b − a dx − ( a + b 2 ) 2 = b 3 − a 3 3(b − a) − (a + b) 2 4 = (b − a) 3 12(b − a) = (b − a) 2 12 168 10. Zufallsvariablen Seien X und Y zwei Zufallsvariablen mit den Erwartungswerten E(X) = μ X und E(Y ) = μ Y . Die Kovarianz zwischen X und Y ist definiert als: Cov(X, Y ) = E [ (X − μ X )(Y − μ Y ) ] (10.22) Den Quotienten aus der Kovarianz zwischen X und Y und dem Produkt der Standardabweichungen σ X und σ Y ρ = Cov(X, Y ) σ X · σ Y (10.23) nennt man Korrelationskoeffizient zwischen X und Y . (ρ ist griechisch, gelesen: Rho). So wie beim Erwartungswert gibt es Zufallsvariablen, die keine Varianz haben. (Das ist dann der Fall, wenn die Summe in (10.18) bzw. das Integral in (10.19) nicht existieren.) Solche Zufallsvariablen wollen wir ebenfalls ausschließen. Eigenschaften der Varianz 1. Man kann die Varianz als die erwartete quadratische Abweichung der Zufallsvariablen X von ihrem Erwartungswert μ ansehen: V (X) = E(X − μ) 2 (10.24) 2. Sei X eine Zufallsvariable mit V (X) = σ 2 X . F¨ ur beliebige a ∈ R gilt: V (a + X) = σ 2 X (10.25) V (aX) = a 2 · σ 2 X (10.26) Das heißt: Bei einer Verschiebung der Zufallsvariablen X um a bleibt die Varianz unver¨andert; bei einer Multiplikation von X mit a ¨andert sich die Varianz um den Faktor a 2 . Das f¨ uhrt wiederum zu einer Ver¨anderung der Standardabweichung um den Faktor | a | : σ aX = | a | · σ X (10.27) 10.5. Parameter von Zufallsvariablen 169 3. Seien X und Y unabh¨angige Zufallsvariablen mit der jeweiligen Varianz σ 2 X bzw. σ 2 Y . F¨ ur die Varianz der Linearkombination aX + bY gilt: V (aX + bY ) = a 2 · σ 2 X + b 2 · σ 2 Y (10.28) Sind X und Y nicht unabh¨angig, dann berechnet sich die Varianz gem¨aß V (a · X + b · Y ) = a 2 · σ 2 X + b 2 · σ 2 Y + 2ab · Cov(X, Y ). (10.29) 4. Die Varianz einer Linearkombination von n unabh¨angigen Zufallsvariablen X 1 , . . . , X n mit beliebigen Konstanten a 1 , . . . , a n ∈ R ist: V ( n ∑ i=1 a i X i ) = n ∑ i=1 a 2 i · V (X i ) (10.30) Beispiel 10.10 Ein Portfolio besteht zu 20% aus der Aktie A und zu 80% aus der Aktie B. Die erwarteten Renditen seien μ A = 5% f¨ ur die Aktie A und μ B = 12% f¨ ur die Aktie B. Die Standardabweichungen betragen σ A = 8% f¨ ur A und σ B = 20% f¨ ur B. F¨ ur das Portfolio bestimmen wir die erwartete Rendite und die Standardabweichung, wenn der Korrelationskoeffizient zwischen den Aktien A und B gleich 1, gleich 0,6 bzw. gleich 0 ist. Die gesamte Rendite des Portfolios ist gegeben durch R = 0, 2 · R A + 0, 8 · R B . Dabei bedeuten R A die Rendite der Aktie A und R B die der Aktie B. Die erwartete Rendite (in %) des Portfolios betr¨agt nach (10.14): E(R) = a · μ A + b · μ B = 0, 2 · 5 + 0, 8 · 12 = 10, 6 F¨ ur die Standardabweichung ermitteln wir zun¨achst die gesamte Varianz nach (10.29): V (R) = a 2 · σ 2 A + b 2 · σ 2 B + 2ab · Cov(R A , R B ) ︸ ︷︷ ︸ σ A · σ B · ρ = 0, 2 2 · 8 2 + 0, 8 2 · 20 2 + 2 · 0, 2 · 0, 8 · 8 · 20 · ρ = 2, 56 + 256 + 51, 2 · ρ = 258, 56 + 51, 2 · ρ 170 10. Zufallsvariablen 1. F¨ ur ρ = 1 betr¨agt die Varianz V (R) = 258, 56 + 51, 2 · 1 = 309, 76 und somit die Standardabweichung σ R = √ 309, 76 = 17, 6. Im Mittel betr¨agt die Abweichung der Portfolio-Rendite von ihrem Mittelwert 17,6%. 2. F¨ ur ρ = 0, 6 betr¨agt die Varianz V (R) = 258, 56 + 51, 2 · 0, 6 = 289, 28 und die Standardabweichung σ R = √ 289, 28 = 17, 01. 3. F¨ ur ρ = 0 betr¨agt die Varianz V (R) = 258, 56 und die Standardabweichung σ R = √ 258, 56 = 16, 08. Eine starke Korrelation bedeutet, dass die Aktien sich in die gleiche Richtung bewegen; die Renditen steigen oder fallen gemeinsam. Je st¨arker die beiden Aktien miteinander korrelieren, umso gr¨oßer ist die Standardabweichung des Portfolios, d. h. umso gr¨oßer ist die Gewinnchance. Das bedeutet aber auch: Umso gr¨oßer ist das Verlustrisiko. 10.6. Spezielle diskrete Verteilungen 10.6.1. Diskrete Gleichverteilung Eine Zufallsvariable X mit W X = { x 1 , . . . , x m } besitzt eine diskrete Gleichverteilung, wenn f¨ ur alle j = 1, 2, . . . , m gilt: P (X = x j ) = p (10.31) Dabei gilt 0 ≤ p ≤ 1 und ∑ m j=1 p = 1. Beispiel: Bei einem Laplace- W¨ urfel besitzt jede Augenzahl die gleiche Wahrscheinlichkeit von 1 6 . 10.6. Spezielle diskrete Verteilungen 171 10.6.2. Binomialverteilung F¨ ur die Herleitung des Binomialverteilungsmodells betrachten wir ein Zufallsexperiment mit zwei m¨oglichen Ausg¨angen: A (Treffer) und ¯ A (Nichttreffer). Die Eintrittswahrscheinlichkeit f¨ ur A sei P (A) = p, und damit ist P ( ¯ A) = 1 − p. Ein solches Zufallsexperiment heißt Bernoulli-Experiment. Das Bernoulli-Experiment f¨ uhren wir nun n-mal unabh¨angig voneinander durch. Jede i-te Durchf¨ uhrung, i = 1, 2, . . . , n, l¨asst sich durch eine Zufallsvariable, Bernoulli-Variable genannt, beschreiben: X i = ⎧ ⎪ ⎨ ⎪ ⎩ 1, wenn A eintritt 0 sonst Als Ergebnis erhalten wir die sogenannte Bernoulli-Kette der L¨ange n mit dem Parameter p. Ein Baumdiagramm in Abbildung 10.2 veranschaulicht eine 2-malige Wiederholung des Experiments. Jeder Pfad zeigt ein m¨ogliches Ergebnis: • Pfad 1: (1, 1), d. h. X 1 = 1, X 2 = 1 • Pfad 2: (1, 0), d. h. X 1 = 1, X 2 = 0 • Pfad 3: (0, 1), d. h. X 1 = 0, X 2 = 1 • Pfad 4: (0, 0), d. h. X 1 = 0, X 2 = 0 0 0 1 − p 1 p 1 − p 1 0 1 − p 1 p p Abbildung 10.2.: Baumdiagramm zur 2-maligen Wiederholung eines Bernoulli- Experiments Die Anzahl der Treffer bei einer n unabh¨angigen Wiederholung des 172 10. Zufallsvariablen Bernoulli-Experiments k¨onnen wir durch die Zufallsvariable X = n ∑ i=1 X i angeben. Das Ereignis { X = x } setzt sich aus Ergebnissen mit genau x Treffern zusammen. Bei jedem Ergebnis werden genau x Stellen der Bernoulli-Kette mit Einsen und n − x Stellen mit Nullen besetzt. In der 1. Spalte der Tabelle 10.1 werden die Ergebnisse f¨ ur n = 4 aufgelistet. In diesem Fall kann die Zufallsvariable X einen Wert x ∈ { 0, 1, 2, 3, 4 } annehmen (2. Spalte der Tabelle 10.1); jeweils 4 ( 4 x ) Ergebnis (Ergebnisse) f¨ uhrt (f¨ uhren) zum Ereignis { X = x } (3. Spalte). Da die Wiederholungen unabh¨angig sind, tritt jedes Ergebnis mit einer Wahrscheinlichkeit p x (1 − p) 4 − x ein (4. Spalte). Folglich berechnet sich die Wahrscheinlichkeit f¨ ur { X = x } nach ( 4 x ) p x (1 − p) 4 − x (5. Spalte). Allgemein gibt es bei einer n-maligen unabh¨angigen Wiederholung eines Bernoulli-Experiments ( n x ) m¨ogliche Bernoulli-Ketten. Jede der Ketten bildet das Ergebnis x Erfolge und n − x Misserfolge ab und tritt mit einer Wahrscheinlichkeit von p x (1 − p) n − x ein. Folglich berechnet sich die Wahrscheinlichkeit, dass dabei x Erfolge erzielt werden, gem¨aß: P (X = x) = ( n x ) p x (1 − p) n − x (10.32) 4 Es gibt ( 4 x ) M¨oglichkeiten, 4 Stellen durch x Einsen und 4 − x Nullen zu besetzen. 10.6. Spezielle diskrete Verteilungen 173 Ergebnisse Anzahl der W’keit der x Ergebnisse elem. Ereignisse P (X = x) (0, 0, 0, 0) 0 ( 4 0 ) = 1 p 0 (1 − p) 4 ( 4 0 ) p 0 (1 − p) 4 (0, 0, 0, 1) 1 (0, 0, 1, 0) 1 ( 4 1 ) = 4 p(1 − p) 3 ( 4 1 ) p(1 − p) 3 (0, 1, 0, 0) 1 (1, 0, 0, 0) 1 (0, 0, 1, 1) 2 (0, 1, 0, 1) 2 ( 4 2 ) = 6 p 2 (1 − p) 2 ( 4 2 ) p 2 (1 − p) 2 (1, 0, 0, 1) 2 (1, 0, 1, 0) 2 (1, 1, 0, 0) 2 (0, 1, 1, 0) 2 (0, 1, 1, 1) 3 (1, 0, 1, 1) 3 ( 4 3 ) = 4 p 3 (1 − p) ( 4 3 ) p 3 (1 − p) (1, 1, 0, 1) 3 (1, 1, 1, 0) 3 (1, 1, 1, 1) 4 ( 4 4 ) = 1 p 4 (1 − p) 0 ( 4 4 ) p 4 (1 − p) 0 Tabelle 10.1.: Bernoulli-Kette der L¨ange n = 4 mit Parameter p. Eine Zufallsvariable X mit der Wahrscheinlichkeitsfunktion P (X = x) = ⎧ ⎪ ⎪ ⎨ ⎪ ⎪ ⎩ ( n x ) p x (1 − p) n − x f¨ ur x ∈ { 0, 1, . . . , n } 0 sonst (10.33) nennt man binomialverteilt mit den Parametern n und p. Daf¨ ur schreibt man kurz X ∼ B(n; p). (Gelesen: X ist binomialverteilt mit den Parametern n und p.) 174 10. Zufallsvariablen Der Erwartungswert und die Varianz einer binomialverteilten Zufallsgr¨oße sind: E(X) = np und V (X) = np(1 − p) (10.34) Beispiel 10.11 Bei einem Produktionsprozess arbeiten vier Maschinen unabh¨angig voneinander. Aus Erfahrung weiß man, dass w¨ahrend eines Produktionsprozesses jede Maschine mit einer Wahrscheinlichkeit von p = 0, 1 defekt sein kann. Die Anzahl der defekten Maschinen (w¨ahrend des Produktionsprozesses) l¨asst sich durch die Zufallsvariable X = 4 ∑ i=1 X i beschreiben. Dabei bedeutet f¨ ur i = 1, 2, 3, 4 X i = ⎧ ⎪ ⎨ ⎪ ⎩ 1 Maschine i ist defekt 0 sonst Da die Maschinen unabh¨angig voneinander arbeiten und f¨ ur jedes i = 1, 2, 3, 4 P (X i = 1) = 0, 1 gilt, ist X binomialverteilt mit den Parametern n = 4 und p = 0, 1, i. Z. X ∼ B(4; 0, 1). Das heißt: F¨ ur das Ereignis { X = x } , Genau x der vier Maschinen (ist) sind w¨ahrend des Produktionsprozesses defekt, (x = 0, 1, 2, 3, 4) gilt P (X = x) = ( 4 x ) 0, 1 x · 0, 9 4 − x . So betr¨agt die Wahrscheinlichkeit, dass der Produktionsprozess reibungslos verl¨auft (X = 0): P (X = 0) = ( 4 0 ) 0, 1 0 · 0, 9 4 = 0, 6561 10.6. Spezielle diskrete Verteilungen 175 Die Wahrscheinlichkeit, dass w¨ahrend der Produktion h¨ochstens eine Maschine defekt ist (X ≤ 1), ergibt sich gem¨aß P (X ≤ 1) = P (X = 0) + P (X = 1) = 0, 6561 + ( 4 1 ) 0, 1 1 · 0, 9 3 = 0, 6561 + 0, 2916 = 0, 9477. Die Wahrscheinlichkeit, dass w¨ahrend der Produktion mehr als drei Maschinen nicht funktionieren (X ≥ 3), betr¨agt P (X ≥ 3) = P (X = 3) + P (X = 4) = ( 4 3 ) 0, 1 3 · 0, 9 + ( 4 4 ) 0, 1 4 · 0, 9 0 = 0, 0036 + 0, 0001 = 0, 0037. Bei der Kostenplanung sollen die durchschnittlichen Reparaturkosten ber¨ ucksichtigt werden. Wie hoch sollen diese angesetzt werden, wenn wir davon ausgehen, dass ein Reparaturfall ca. 1000 e pro Maschine kostet? Da im Mittel pro Produktionsprozess E(X) = np = 4 · 0, 1 = 0, 4 Maschinen defekt sein k¨onnen, kann man mit durchschnittlichen Reparaturkosten von 400 e pro Produktionsprozess rechnen. Eigenschaften der Binomial-Verteilung 1. Symmetrie-Eigenschaft. Sei X ∼ B(n; p). F¨ ur die Zufallsvariable Y = n − X gilt: Y ∼ B(n; 1 − p) Insbesondere gilt f¨ ur p = 0, 5 : P (X = x) = P (X = n − x) 2. Additionseigenschaft. Sind X ∼ B(n; p) und Y ∼ B(m; p) unabh¨angig, so ist X + Y ∼ B(n + m; p). 176 10. Zufallsvariablen F¨ ur einige ausgew¨ahlte Werte von n und p werden die Werte der Verteilungsfunktion der B(n; p)-Verteilung P (X ≤ x) = F (x) = x ∑ k=0 ( n k ) p k (1 − p) n − k (10.35) tabelliert (Seite 291 - 295). Man kann diese Tabellen f¨ ur die Bestimmung der Wahrscheinlichkeiten verwenden. Als Beispiel bestimmen wir mit Hilfe der Tabelle 10.2 f¨ ur X ∼ B(10; 0, 4): P (X = 3) = P (X ≤ 3) − P (X ≤ 2) = 0, 3823 − 0, 1673 = 0, 215 P (4 ≤ X ≤ 7) = P (X ≤ 7) − P (X ≤ 3) = 0, 9877 − 0, 3823 = 0, 6054 Wegen der Symmetrie der Binomialverteilung werden die Werte nur f¨ ur p ≤ 0, 5 angegeben. F¨ ur p > 0, 5 n¨ utzt man f¨ ur die Ermittlung der Werte die Symmetrie-Eigenschaft aus. Als Beispiel berechnen wir P (Z = 3), wenn Z ∼ B(10; 0, 6). Es gilt: Z ∼ B(10; 0, 6) ⇒ Y = 10 − Z ∼ B(10; 0, 4) Somit ist P (Z = 3) = P (Y = 7) = P (Y ≤ 7) − P (Y ≤ 6) = 0, 9877 − 0, 9452 = 0, 0425. x P (X ≤ x) x P (X ≤ x) 0 0,0060 6 0,9452 1 0,0464 7 0,9877 2 0,1673 8 0,9983 3 0,3823 9 0,9999 4 0,6331 10 1,0000 5 0,8338 Tabelle 10.2.: Werte der Verteilungsfunktion f¨ ur n = 10 und p = 0, 4 10.6. Spezielle diskrete Verteilungen 177 10.6.3. Das Urnenmodell Das Urnenmodell ist ein einfaches und anschauliches Modell zur Visualisierung wahrscheinlichkeitstheoretischer Gesetzm¨aßigkeiten. Das Grundmodell besteht aus einer Urne (einem Gef¨aß) mit N ∈ N durchnummerierten Kugeln. Man zieht blind n Kugeln nacheinander und notiert nach jeder Ziehung die Nummer der Kugel. Dabei unterscheidet man, ob die Ziehung mit oder ohne Zur¨ ucklegen erfolgt. Bei der Ziehung mit Zur¨ ucklegen legt man nach jeder Ziehung und Notierung der Nummer die gezogene Kugel in die Urne zur¨ uck, w¨ahrend dies bei der Ziehung ohne Zur¨ ucklegen unterbleibt. Folglich bleibt bei der Ziehung mit Zur¨ ucklegen der Urneninhalt bei jeder Ziehung unver¨andert, w¨ahrend sich bei der Ziehung ohne Zur¨ ucklegen die Anzahl der Kugeln nach jeder Ziehung um eine reduziert. Weiter unterscheidet man bei der Ziehung ohne Zur¨ ucklegen, ob die Reihenfolge der gezogenen Kugeln eine Rolle spielt oder nicht. Im ersten Fall sagt man Ziehung ohne Zur¨ ucklegen mit Beachtung der Reihenfolge und im zweiten Fall Ziehung ohne Zur¨ ucklegen ohne Beachtung der Reihenfolge . Man sagt auch Ziehung mit einem Griffdazu. Beispiel 10.12 Aus einer Urne mit 3 Kugeln, die mit den Ziffern 0, 1, 2 gekennzeichnet sind, werden zwei Kugeln zuf¨allig hintereinander gezogen. Die Zufallsvariable X i , i = 1, 2 gibt das Ergebnis der i-ten Ziehung an. Tabelle 10.3 enth¨alt die m¨oglichen Ergebnisse verschiedener Ziehungsvorschriften. a) x 2 b) x 2 c) x 2 x 1 0 1 2 x 1 0 1 2 x 1 0 1 2 0 0,0 0,1 0,2 0 - 0,1 0,2 0 - 0,1 0,2 1 1,0 1,1 1,2 1 1,0 - 1,2 1 - - 1,2 2 2,0 2,1 2,2 2 2,0 2,1 - 2 - - - Tabelle 10.3.: a) Ziehung mit Zur¨ ucklegen, b) Ziehung ohne Zur¨ ucklegen und mit Reihenfolge, c) Ziehung ohne Zur¨ ucklegen und ohne Reihenfolge 178 10. Zufallsvariablen 10.6.4. Hypergeometrische Verteilung F¨ ur die Herleitung der hypergeometrischen Verteilung betrachten wir eine Urne mit M, 0 < M < N , schwarzen und N − M weißen Kugeln. Aus der Urne werden n Kugeln mit einem Griff, d. h. ohne Zur¨ ucklegen und ohne Beachtung der Reihenfolge, gezogen. Die Zufallsvariable X mit dem Wertebereich W X = { max(0, n − (N − M )), . . . , min(n, M ) } gibt die Anzahl der schwarzen unter den n gezogenen Kugeln an; also bedeutet X = x, dass sich in der Stichprobe x schwarze und n − x weiße Kugeln befinden. 1. Es gibt ( N n ) M¨oglichkeiten, n aus N Kugeln auszuw¨ahlen. 2. F¨ ur die Wahrscheinlichkeitsverteilung der Zufallsvariablen X gelten die folgenden ¨ Uberlegungen: a) Es gibt ( M x ) M¨oglichkeiten, x schwarze aus insgesamt M schwarzen Kugeln auszuw¨ahlen, und aus den restlichen (N − M ) weißen gibt es ( N − M n − x ) M¨oglichkeiten, (n − x) weiße Kugeln auszuw¨ahlen. b) Die ( M x ) schwarzen und ( N − M n − x ) weißen Kugeln sind miteinander frei kombinierbar, so dass nach dem Grundprinzip die Anzahl der M¨oglichkeiten ( M x ) · ( N − M n − x ) betr¨agt. Nach Laplace ist damit die Wahrscheinlichkeit, dass sich unter den n gezogenen x schwarze Kugeln befinden, gleich P (X = x) = ( M x )( N − M n − x ) ( N n ) . (10.36) 10.6. Spezielle diskrete Verteilungen 179 Eine Zufallsvariable X mit dem Wertebereich W X = { max(0, n − (N − M )), . . . , min(n, M ) } und der Wahrscheinlichkeitsfunktion P (X = x) = ⎧ ⎪ ⎪ ⎨ ⎪ ⎪ ⎩ ( M x )( N − M n − x ) ( N n ) f¨ ur x ∈ W X 0 sonst (10.37) heißt hypergeometrischverteilt mit den Parametern n, M und N . Man schreibt kurz X ∼ H(n; N ; M ). Der Erwartungswert und die Varianz einer hypergeometrischverteilten Zufallsgr¨oße sind: E(X) = n M N V (X) = n M N · ( 1 − M N ) · ( N − n N − 1 ) (10.38) Beispiel 10.13 Beim Lottospiel ”6 aus 49“ werden 6 Kugeln aus einer Trommel mit 49 durchnummerierten Kugeln blind und ohne Zur¨ ucklegen gezogen. Auf einem Lotto-Schein kann ein Spieler 6 aus 49 Feldern ankreuzen. F¨ ur die Zufallsvariable X: Anzahl der Richtigen gilt X ∼ H(6; 49; 6), d. h. die Wahrscheinlichkeit f¨ ur genau x Richtige berechnet sich gem¨aß P (X = x) = ( 6 x )( 49 − 6 6 − x ) ( 49 6 ) . So betr¨agt die Wahrscheinlichkeit f¨ ur sechs Richtige P (X = 6) = ( 6 6 )( 43 0 ) ( 49 6 ) = 1 13.983.816 , f¨ ur drei Richtige P (X = 3) = ( 6 3 )( 43 3 ) ( 49 6 ) = 246.820 13.983.816 = 0, 0177, 180 10. Zufallsvariablen f¨ ur keine Richtige P (X = 0) = ( 6 0 )( 43 6 ) ( 49 6 ) = 6.096.454 13.983.816 = 0, 436. 10.6.5. Poissonverteilung Eine Zufallsvariable mit der Wahrscheinlichkeitsfunktion P (X = x) = ⎧ ⎪ ⎪ ⎨ ⎪ ⎪ ⎩ λ x x! e − λ f¨ ur x = 0, 1, 2, . . . 0 sonst (10.39) heißt Poisson-verteilt 5 . Man schreibt kurz X ∼ P o(λ). Eine Poisson-verteilte Zufallsvariable z¨ahlt, wie oft ein bestimmtes Ereignis in einem festen, vorgegebenen Zeitintervall eintritt, wenn der Z¨ahlvorgang die folgenden Voraussetzungen erf¨ ullt: 1. Zwei Ereignisse k¨onnen nicht gleichzeitig auftreten. 2. Die Wahrscheinlichkeit f¨ ur das Eintreten des Ereignisses in einem Teilintervall h¨angt nur von dessen L¨ange, nicht aber von dessen Lage auf der Zeitachse ab. 3. Die Anzahlen der Ereignisse in zwei sich nicht ¨ uberlappenden Zeitintervallen sind unabh¨angig. Der Parameter λ (griechisch: Lambda) heißt Intensit¨atsrate und gibt die durchschnittliche Anzahl der Ereignisse in einem Einheitsintervall (Intervall der L¨ange eins) an. Der Erwartungswert und die Varianz einer Poisson-verteilten Zufallsgr¨oße sind: E(X) = λ und V (X) = λ (10.40) 5 Sim`eon Denis Poisson, franz¨osischer Mathematiker und Physiker 1781-1840 10.6. Spezielle diskrete Verteilungen 181 Beispiel 10.14 Die Anzahl der Bank¨ uberf¨alle an einem bestimmten Ort sei Poissonverteilt mit der Intensit¨atsrate 2 pro Woche. Mit X: Anzahl der Bank- ¨ uberfalle in einer Woche berechnen wir die Wahrscheinlichkeit, dass in einer Woche 1. kein ¨ Uberfall ver¨ ubt wird: P (X = 0) = 2 0 0! e − 2 = 0, 1353 2. genau 5 ¨ Uberf¨alle stattfinden: P (X = 5) = 2 5 5! e − 2 = 0, 0361 Die Poissonverteilung kann man auch als eine N¨aherung der Binomialverteilung ansehen. Das trifft dann genau zu, wenn das Bernoulli- Experiment sehr oft (n → ∞ ) wiederholt wird und die Erfolgswahrscheinlichkeit sehr klein (p → 0) ist. Dann ist die Anzahl der Erfolge P o(λ)-verteilt mit λ = np. (Faustregel: n ≥ 100 und p ≤ 0, 1. Vgl. [23, Abschnitt 11.5]). Die Summe zweier Poisson-verteilter unabh¨angiger Zufallsvariablen X ∼ P o(λ) und Y ∼ P o(μ) ist wieder Poisson-verteilt: X + Y ∼ P o(λ + μ) (10.41) Daraus folgt: Wenn X: Anzahl der Ereignisse in einem Einheitsintervall P o(λ)-verteilt ist, dann gilt f¨ ur Z: Anzahl der Ereignisse in einem Intervall der L¨ange t: Z ∼ P o(λt) Beispiel 10.15 (Fortsetzung des Beispiels 10.14). F¨ ur die Zufallsvariable Z: Anzahl der ¨ Uberf¨alle in vier Wochen gilt: Z ∼ P o(8). 182 10. Zufallsvariablen 10.7. Spezielle stetige Verteilungen 10.7.1. Stetige Gleichverteilung Eine Zufallsvariable X heißt auf einem Intervall [a, b] ( −∞ < a < b < ∞ ) stetig gleichverteilt, wenn eine konstante Dichtefunktion der Gestalt f(x) = ⎧ ⎪ ⎨ ⎪ ⎩ 1 b − a f¨ ur a ≤ x ≤ b 0 sonst (10.42) existiert. Wegen der Gestalt (Abbildung 10.3) der Dichtefunktion wird die stetige Gleichverteilung auch Rechteckverteilung genannt. Die Verteilungsfunktion einer stetigen Gleichverteilung ist bestimmt durch: F (x) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0 f¨ ur x ≤ a x − a b − a f¨ ur a ≤ x ≤ b 1 f¨ ur x ≥ b (10.43) x a b f(x) = 1 b − a Abbildung 10.3.: Dichtefunktion einer stetigen Gleichverteilung 10.7. Spezielle stetige Verteilungen 183 x 1 a b F (x) Abbildung 10.4.: Verteilungsfunktion einer Rechteckverteilung Denn F (x) = ∫ x −∞ f(u) du = ∫ x a 1 b − a du = x − a b − a . Die Verteilungsfunktion weist an den Stellen x = a und x = b Knickpunkte auf und ist dort nicht differenzierbar. Die Dichtefunktion hat an den genannten Stellen Sprungstellen. Der Erwartungswert und die Varianz (vgl. Beispiel 10.6 und Beispiel 10.9 ) einer auf dem Intervall [a, b] gleichverteilten Zufallsvariable X sind: E(X) = a + b 2 und V (X) = (b − a) 2 12 (10.44) Beispiel 10.16 An einer bestimmten Haltestelle in einer Stadt weiß ein Tourist lediglich, dass die Busse alle 40 Minuten fahren. Er geht aufs Geratewohl zur Haltestelle. Nehmen wir an, die Busse fahren st¨orungsfrei (d. h. kein Streik, kein Stau o. ¨a.). F¨ ur die Zufallsvariable X: Wartezeit, bis der n¨achste Bus kommt k¨onnen wir voraussetzen, dass X auf dem Zeitintervall [0; 40] gleichverteilt ist. Die Dichtefunktion von X (vgl. Abbildung 10.5) lautet: f(x) = ⎧ ⎪ ⎨ ⎪ ⎩ 1 40 f¨ ur 0 ≤ x ≤ 40 0 sonst 184 10. Zufallsvariablen x 0 40 1 40 Abbildung 10.5.: Dichtefunktion f(x) = 1 40 f¨ ur x ∈ [0; 40]. Außerhalb dieses Intervalls ist sie gleich Null. 0 x 1 0 40 F (x) = x 40 Abbildung 10.6.: Verteilungsfunktion F (x) zur Dichtefunktion in Abbildung 10.5 Die zugeh¨orige Verteilungsfunktion (vgl. Abbildung 10.6) lautet: F (x) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0 f¨ ur x ≤ 0 x 40 f¨ ur 0 ≤ x ≤ 40 1 f¨ ur x ≥ 40 Die Wahrscheinlichkeit, dass der Tourist zwischen 15 und 25 Minuten warten muss, betr¨agt P (15 ≤ X ≤ 25) = F (25) − F (15) = 25 40 − 15 40 = 0, 25. Die Wahrscheinlichkeit, dass er h¨ochstens f¨ unf Minuten wartet, ist P (X ≤ 5) = F (5) = 5 40 = 0, 125. 10.7. Spezielle stetige Verteilungen 185 Die Wahrscheinlichkeit, dass die Wartezeit l¨anger als 10 Minuten dauert, betr¨agt P (X ≥ 10) = 1 − P (X ≤ 10) = 1 − F (10) = 1 − 10 40 = 0, 75. Die mittlere Wartezeit (in Minuten), bis ein Bus kommt, betr¨agt E(X) = 0 + 40 2 = 20 und die Varianz V (X) = σ 2 = (40 − 0) 2 12 = 133, ¯3. Aus der Varianz ergibt sich die Standardabweichung σ = √ 133, ¯3 = 11, 547. 10.7.2. Normalverteilung Die Normal- oder Gauß 6 -Verteilung ist die bekannteste und wichtigste Verteilung in der Statistik. Sie findet in vielen Gebieten Anwendung: Zuf¨allige Abweichungen vom Sollwert in einer Produktion oder zuf¨allige Messfehler lassen sich durch Normalverteilungen modellieren; in finanzwirtschaftlichen Fragestellungen wie in der Portfoliotheorie geht man h¨aufig von normalverteilten Log-Renditen aus (siehe [21]). Eine stetige Zufallsvariable X mit der Dichtefunktion f(x) = 1 σ √ 2π e − 1 2 ( x − μ σ ) 2 (10.45) heißt normalverteilt. Daf¨ ur schreibt man kurz X ∼ N (μ; σ). (Gelesen: Die Zufallsvariable X ist normalverteilt mit den Parametern μ und σ.) 6 Carl Friedrich Gauß, 1777-1855 186 10. Zufallsvariablen Dabei bezeichnet μ den Erwartungswert und σ die Standardabweichung von X. Durch diese beiden Parameter wird die Dichtefunktion der Normalverteilung eindeutig bestimmt. Eine Ver¨anderung von μ bei konstantem σ bewirkt eine Verschiebung auf der x-Achse bei gleichbleibender Form der Verteilung. Je gr¨oßer σ ist, umso flacher ist die Glockenkurve (siehe Abbildung 10.7). Weitere Eigenschaften der Dichtefunktion 1. f(x) ist glockenf¨ormig. Deshalb nennt man sie auch Gauß-Glocke oder einfach Glockenkurve. 2. f(x) ist symmetrisch um μ (siehe Abbildung 10.8): f(μ − x) = f(μ + x) 3. Ihr Maximum befindet sich an der Stelle x = μ. 4. Ihre Wendepunkte befinden sich an den Stellen μ − σ und μ + σ. 0 N (0; 1) N (3; 1) 3 N (0; 2) N (0; 0, 5) x f(x) Abbildung 10.7.: Normalverteilungen mit unterschiedlichen Varianzen und unterschiedlichen Erwartungswerten 10.7. Spezielle stetige Verteilungen 187 μ + x μ − x μ Abbildung 10.8.: Dichtefunktion einer N (μ; σ)-verteilten Zufallsvariablen X x F (x) x Abbildung 10.9.: Verteilungsfunktion einer N (μ; σ)-verteilten Zufallsvariablen X Die Verteilungsfunktion lautet F (x) = P (X ≤ x) = ∫ x −∞ f(u)du. (10.46) Grafisch (siehe Abbildung 10.9) wird P (X ≤ x) = F (x) durch den Fl¨acheninhalt unter der Glockenkurve auf dem Intervall ] − ∞ ; x] dargestellt. Die Wahrscheinlichkeit, dass a ≤ X ≤ b, entspricht dem Fl¨acheninhalt unter der Glocke auf dem Intervall [a; b], denn es gilt (vgl. Abbildung 10.10): P (a ≤ X ≤ b) = ∫ b a f(x)dx = ∫ b −∞ f(x)dx − ∫ a −∞ f(x)dx = F (b) − F (a) 188 10. Zufallsvariablen F (b) b x F (a) a x μ a b F (b) − F (a) x Abbildung 10.10.: P (a ≤ X ≤ b) als die Differenz zwischen F (b) und F (a) kσ − Bereiche einer N (μ; σ)-verteilten Zufallsvariablen X: Im Ein-Sigma-Bereich [μ − σ; μ + σ] liegen ca. 68% der Werte von X (vgl. Abbildung 10.11). Im Zwei-Sigma-Bereich [μ − 2σ; μ + 2σ] liegen ca. 95% der Werte von X (vgl. Abbildung 10.12). Im Drei-Sigma-Bereich [μ − 3σ; μ+3σ] befinden sich fast alle Werte (99,74%) von X (vgl. Abbildung 10.13). μ − σ μ + σ ca. 68% x μ Abbildung 10.11.: Ein-Sigma-Bereich: P (μ − σ ≤ X ≤ μ + σ) = 0, 6826 10.7. Spezielle stetige Verteilungen 189 μ − 2σ μ + 2σ ca. 95% x μ Abbildung 10.12.: Zwei-Sigma-Bereich: P (μ − 2σ ≤ X ≤ μ + 2σ) = 0, 9544 μ − 3σ μ + 3σ ca. 99,7% x μ Abbildung 10.13.: Drei-Sigma-Bereich: P (μ − 3σ ≤ X ≤ μ + 3σ) = 0, 9974 Zusammengefasst gilt: P (μ − kσ ≤ X ≤ μ + kσ) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0, 6826 f¨ ur k = 1 0, 9544 f¨ ur k = 2 0, 9974 f¨ ur k = 3. (10.47) 10.7.3. Standardnormalverteilung Die Normalverteilung mit den Parametern μ = 0 und σ = 1 heißt Standardnormalverteilung. F¨ ur Z ∼ N (0; 1) bezeichnet φ (griechisch: kleines Phi) die Dichtefunktion bzw. Φ (großes Phi) die Verteilungsfunktion von Z. Also ist φ(z) = 1 √ 2π e − z 2 2 (10.48) 190 10. Zufallsvariablen bzw. Φ(z) = P (Z ≤ z) = ∫ z −∞ φ(u)du (10.49) Wegen der Symmetrie zur y-Achse gelten: Φ(0) = 1 2 und Φ( − z) = 1 − Φ(z) (10.50) Die Werte der Verteilungsfunktion Φ(z) = P (Z ≤ z) f¨ ur z ≥ 0 sind tabelliert (Seite 296). Einen Auschnitt davon zeigt die Tabelle 10.4. Ablesebeispiele: 1. P (Z ≤ 0, 30) = Φ(0, 30) = 0, 6179 2. P (Z ≤ 0, 32) = Φ(0, 32) = 0, 6255 3. P (Z ≤ − 0, 53) = Φ( − 0, 53) = 1 − Φ(0, 53) ︸ ︷︷ ︸ 0,7019 = 0, 2981 z 0,00 0,01 0,02 0,03 0,04 0,05 0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 Tabelle 10.4.: Ausschnitt der Standardnormalverteilungstabelle Da jede normalverteilte Zufallsvariable X mit den Parametern μ und σ > 0 sich gem¨aß der Standardisierung Z = X − μ σ ∼ N (0; 1) (10.51) 10.7. Spezielle stetige Verteilungen 191 auf die standardnormalverteilte Zufallsvariable Z zur¨ uckf¨ uhren l¨asst, kann man die Wertetabelle der Standardnormalverteilung auch f¨ ur jede (allgemeine) N (μ; σ)-verteilte Zufallsvariable anwenden. So k¨onnen wir beispielsweise f¨ ur die Zufallsvariable X ∼ N (2; 0, 5) die Wahrscheinlichkeit P (X ≤ 3) wie folgt bestimmen: P (X ≤ 3) = P ( Z ≤ 3 − 2 0, 5 ) = P (Z ≤ 2) = Φ(2) = 0, 9772 oder P (1 ≤ X ≤ 2, 5) = P (X ≤ 2, 5) − P (X ≤ 1) = P (Z ≤ 1) − P (Z ≤ − 2) = Φ(1) − Φ( − 2) = Φ(1) − (1 − Φ(2)) = 0, 8413 − (1 − 0, 9772) = 0, 8185 Beispiel 10.17 Die in Maßkr¨ uge eingeschenkte Biermenge auf dem Oktoberfest in M¨ unchen kann man als eine normalverteilte Zufallsvariable mit dem Erwartungswert 1 Liter und der Standardabweichung 10 ml ansehen. Wie groß ist die Wahrscheinlichkeit, dass ein Bierzeltbesucher eine Maß bekommt, die um h¨ochstens 15 ml vom Sollwert abweicht? Mit X: Biermenge ; X ∼ N (1000; 10) berechnen wir die gesuchte Wahrscheinlichkeit folgendermaßen: P ( | X − 1000 | ≤ 15) = P (985 ≤ X ≤ 1015) = P ( 985 − 1000 10 ≤ Z ≤ 1015 − 1000 10 ) = P ( − 1, 5 ≤ Z ≤ 1, 5) = Φ(1, 5) − Φ( − 1, 5) = Φ(1, 5) − ( 1 − Φ(1, 5) ) = 2 · Φ(1, 5) − 1 = 2 · 0, 9332 − 1 = 0, 8664 Der Bierschaum setzt sich im Krug in vier Minuten. Danach darf der Fl¨ ussigkeitsspiegel nicht mehr als 10 ml unter der Litermarkierung liegen. Andernfalls erh¨alt der Schankkellner eine Mahnung. Wie groß ist die Wahrscheinlichkeit, dass keine einzige Mahnung erteilt wird? 192 10. Zufallsvariablen Eine Mahnung wird erteilt, wenn die Biermenge weniger als 990 ml betr¨agt, d. h., wenn X ≤ 990. Dies geschieht mit einer Wahrscheinlichkeit von P (X ≤ 990) = P ( X − 1000 10 ≤ 990 − 1000 10 ) = P (Z ≤ − 1) = Φ( − 1) = 1 − Φ(1). Die Wahrscheinlichkeit, dass der Schankkellner keine Mahnung erh¨alt, betr¨agt somit P (X ≥ 990) = 1 − P (X ≤ 990) = 1 − (1 − Φ(1)) = Φ(1) = 0, 8413. Nach den Sigma-Regeln wissen wir außerdem, dass 1. ca. 68% der eingeschenkten Biermenge zwischen 990 ml und 1010 ml (im Ein-σ-Bereich) liegen, 2. ca. 95% der eingeschenkten Biermenge zwischen 980 ml und 1020 ml (im Zwei-σ-Bereich) liegen, 3. ca. 99,7% der eingeschenkten Biermenge zwischen 970 ml und 1030 ml (im Drei-σ-Bereich) liegen. Weitere Eigenschaften der Normalverteilung 1. Ist X ∼ N (μ; σ), dann gilt f¨ ur die lineartransformierte Zufallsvariable Y = a + bX: Y ∼ N (a + bμ; | b | σ) (10.52) 2. Seien X ∼ N (μ X ; σ X ) und Y ∼ N (μ Y ; σ Y ) voneinander unabh¨angig. Dann gilt: X + Y ∼ N ( μ X + μ Y ; √ σ 2 X + σ 2 Y ) (10.53) 10.7. Spezielle stetige Verteilungen 193 F¨ ur n unabh¨angige Zufallsvariablen X 1 , . . . , X n mit X i ∼ N (μ i ; σ i ), i = 1, . . . , n gilt f¨ ur jede Linearkombination Y = n ∑ i=1 a i X i : Y ∼ N ( n ∑ i=1 a i μ i ; √ √ √ √ n ∑ i=1 a 2i σ 2 i ) (10.54) 10.7.4. Quantile der Standardnormalvertelung Definition 10.7 F¨ ur 0 < p < 1 ist das p-Quantil oder p-Fraktil z p der Standardnormalverteilung derjenige Wert, f¨ ur den gilt: P (Z ≤ z p ) = Φ(z p ) = p (10.55) Wegen Φ(z p ) + Φ(z 1 − p ) = 1 gilt (vgl. Abbildung 10.15): Φ(z p ) = 1 − Φ(z 1 − p ) (10.56) Φ(z p ) = p z p z 0 Abbildung 10.14.: Das p-Quantil der N (0; 1)-Verteilung 194 10. Zufallsvariablen Φ(z p ) = p z p = − z 1 − p z 1 − p p = 1 − Φ(z 1 − p ) z 0 Abbildung 10.15.: Symmetrie: z p = − z 1− p bzw. Φ( − z 1− p ) = Φ(z p ) Wegen der Symmetrie zur y-Achse gilt: Φ(z 1 − p ) = 1 − Φ( − z 1 − p ) (10.57) Aus (10.56) und (10.57) folgt: Φ(z p ) = Φ( − z 1 − p ) (10.58) Einige h¨aufig verwendete Quantile der Standardnormalverteilung: p 0,90 0,95 0,975 0,99 0,995 z p 1,28 1,65 1,96 2,33 2,58 10.8. Zusammenfassung Vereinfacht ausgedr¨ uckt sind Zufallsvariablen numerische Ergebnisse eines Zufallsexperiments. Formal bildet eine Zufallsvariable X Ereignisse in R ab. Man unterscheidet zwischen diskreten und stetigen Zufallsvariablen. Eine Zufallsvariable X heißt diskret, wenn ihr Wertebereich abz¨ahlbar ist, ansonsten heißt sie stetig. Stetige Zufallsvariablen k¨onnen keinen einzelnen Wert annehmen. Ereignisse der Form { X = x } sind nicht m¨oglich. Wahrscheinlichkeitsaussagen sind nur f¨ ur Ereignisse der Art X = I sinnvoll. Dabei kann I ein offenes, abgeschlossenes oder halboffenes Intervall sein. Da Zufallsvariablen ihren 10.8. Zusammenfassung 195 Ursprung in Ereignissen haben, beh¨alt das Konzept des Wahrscheinlichkeitsbegriffes seine G¨ ultigkeit. Betrachtet man zwei Zufallsvariablen gemeinsam, so kann man gemeinsame und bedingte Wahrscheinlichkeiten untersuchen. Man spricht von zwei unabh¨angigen Zufallsvariablen X und Y , wenn ihre gemeinsame Wahrscheinlichkeit gleich dem Produkt der einzelnen Wahrscheinlichkeiten ist. Den Wert, den man im Mittel f¨ ur eine Zufallsvariable X erwartet, nennt man Erwartungswert. Die mittlere quadratische Abweichung von diesem heißt Varianz. F¨ ur zwei Zufallsvariablen X und Y gibt die Kovarianz das Ausmaß ihrer gemeinsamen Streuung an. Einige spezielle diskrete Verteilungsmodelle 1. Binomialverteilung B(n; p). Eine B(n; p)-verteilte Zufallsvariable X gibt die Anzahl der Erfolge bei n unabh¨angigen Wiederholungen eines Bernoulli-Experiments wieder. Ein Bernoulli- Experiment ist ein Zufallsexperiment, bei dem nur zwei m¨oglichen Ausg¨ange (Erfolg/ Misserfolg) m¨oglich sind. Dabei gibt p die Erfolgswahrscheinlichkeit wieder. Die Wahrscheinlichkeitsfunktion einer binomialverteilten Zufallsvariablen X lautet P (X = x) = ⎧ ⎪ ⎨ ⎪ ⎩ ( n x ) p x (1 − p) n − x f¨ ur x ∈ { 0, . . . , n } 0 sonst Der Erwartungswert und die Varianz einer binomialverteilten Zufallsgr¨oße sind E(X) = np und V (X) = np(1 − p). F¨ ur n = 1 heißt die Verteilung auch Bernoulli-Verteilung . 2. Hypergeometrische Verteilung H(n; N ; M ). Das hypergeometrische Verteilungsmodell ist das Ergebnis des Ziehens mit einem Griffvon n Kugeln aus einer Urne mit N Kugeln, wobei M davon eine uns interessierende Eigenschaft aufweisen. Eine hypergeometrischverteilte Zufallsvariable X gibt die Anzahl der Kugeln mit dieser Eigenschaft unter den n gezogenen Kugeln an. Die Parameter einer hypergeometrischen Verteilung sind n, M und N . Die Wahrscheinlichkeitsfunktion einer hypergeometisch 196 10. Zufallsvariablen verteilten Zufallsvariablen X ist gegeben durch P (X = x) = ⎧ ⎪ ⎨ ⎪ ⎩ ( M x )( N − M n − x ) ( N n ) f¨ ur x ∈ W X 0 sonst Dabei stellt W X = { max(0, n − (N − M )), . . . min(n, M ) } den Wertebereich von X dar. Der Erwartungswert und die Varianz einer hypergeometrischverteilten Zufallsgr¨oße sind E(X) = n M N und V (X) = n M N · ( 1 − M N ) · ( N − n N − 1 ) . 3. Poissonverteilung P o(λ). Die Poisson-Verteilung ist geeignet zur Modellierung von seltenen Ereignissen in einem bestimmten Zeitintervall. Eine Poisson-verteilte Zufallsvariable X besitzt eine Wahrscheinlichkeitsfunktion der Gestalt P (X = x) = ⎧ ⎪ ⎨ ⎪ ⎩ λ x x! e − λ f¨ ur x = 0, 1, 2, . . . 0 sonst Der Parameter λ gibt die durchschnittliche Anzahl der Ereignisse in einem Einheitsintervall an. Der Erwartungswert und die Varianz einer Poisson-verteilten Zufallsgr¨oße sind E(X) = λ und V (X) = λ. F¨ ur n → ∞ und p → 0 l¨asst sich die Binomialverteilung B(n; p) durch die Poissonverteilung P o(np) ann¨ahern. Einige spezielle stetige Verteilungen 1. Stetige Gleichverteilung oder Rechteckverteilung. Die Dichtefunktion einer auf einem Intervall [a, b] ( −∞ < a < b < ∞ , a, b ∈ R ) stetig gleichverteilten Zufallsvariablen X hat die Gestalt f(x) = ⎧ ⎪ ⎨ ⎪ ⎩ 1 b − a f¨ ur x ∈ [a, b] 0 sonst 10.8. Zusammenfassung 197 Die Verteilungsfunktion: F (x) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0 f¨ ur x ≤ a x − a b − a f¨ ur a ≤ x ≤ b 1 f¨ ur x ≥ b Der Erwartungswert und die Varianz sind: E(X) = a + b 2 und V (X) = (b − a) 2 12 2. Normal- oder Gauß-Verteilung. Viele Zufallsvorg¨ange in der Praxis lassen sich - zumindest n¨aherungsweise - durch die Normalverteilung beschreiben. Die Normalverteilung wird durch die Parameter μ und σ eindeutig bestimmt. Dabei bezeichnen μ den Erwartungswert und σ die Standardabweichung. Sind μ = 0 und σ = 1, dann heißt die Verteilung Standardnormalverteilung. Die Verteilungsfunktion der Standardnormalverteilung ist tabelliert. Jede N (μ; σ)-verteilte Zufallsvariable X l¨asst sich durch die Standardisierung Z = X − μ σ auf eine standardnormalverteilte Zufallsvariable Z zur¨ uckf¨ uhren. Notationen, Formeln und ihre Bedeutung P (X = x | Y = y) = P ( X = x,Y = y ) P ( Y = y ) Bedingte diskrete Wahrscheinlichkeit von X, gegeben { Y = y } P (X = x, Y = y) Gemeinsame diskrete Verteilung von X und Y E(X) = μ Erwartungswert V (X) = σ 2 Varianz σ = √ σ 2 Standardabweichung Cov(X, Y ) = E [ (X − μ X )(Y − μ Y ) ] Kovarianz zwischen X und Y ρ = Cov ( X,Y ) σ X · σ Y Korrelationskoeffizient zwischen X und Y 199 11. Die wichtigsten Grenzwerts¨atze In diesem Abschnitt werden die wichtigsten Grenzwerts¨atze knapp behandelt. F¨ ur eine ausf¨ uhrliche Beschreibung dieser Gesetze sei auf [11] oder [23] verwiesen. Außerdem wird die Ungleichung von Tschebyscheff 1 vorgestellt. Mit der Tschebyscheffschen Ungleichung kann man ohne Kenntnisse ¨ uber deren Verteilung die Wahrscheinlichkeit, mit der eine Zufallsvariable X innerhalb des kσ − Bereichs um ihren Mittelwert μ liegt, absch¨atzen. Das ist f¨ ur die Praxis nat¨ urlich sehr n¨ utzlich, weil man die Wahrscheinlichkeitsverteilung einer Zufallsvariablen h¨aufig nicht kennt. (F¨ ur eine normalverteilte Zufallsvariable X kann man die kσ − Bereiche, wie in (10.47) gezeigt wurde, genau angeben.) 11.1. Ungleichung von Tschebyscheff Wie bereits mehrfach erw¨ahnt, kann man f¨ ur eine N (μ; σ)-verteilte Zufallsvariable Y die Wahrscheinlichkeit, dass ihre Werte innerhalb des Intervalls [μ − kσ; μ + kσ] liegen, genau angeben. F¨ ur eine beliebig verteilte Zufallsvariable X kann man die Wahrscheinlichkeit, dass X um mindestens den Wert c > 0 von ihrem Erwartungswert abweicht, mit Hilfe ihrer Varianz absch¨atzen. Diese Absch¨atzung erfolgt durch die Ungleichung von Tschebyscheff: P ( | X − μ | ≥ c) ≤ σ 2 c 2 (11.1) Dabei ist c > 0 beliebig. Insbesondere gilt f¨ ur c = kσ P ( | X − μ | ≥ kσ ) ≤ σ 2 k 2 σ 2 = 1 k 2 . 1 Pafnuty Lwowitsch Tschebyscheff, 1821-1894, russischer Mathematiker 200 11. Die wichtigsten Grenzwerts¨atze Das heißt: Die Wahrscheinlichkeit, dass eine beliebige Zufallsvariable X um mehr als kσ von ihrem Erwartungswert μ abweicht, ist h¨ochstens gleich 1 k 2 . Folglich kann man mit der Ungleichung von Tschebyscheffdie Wahrscheinlichkeiten von kσ-Bereichen absch¨atzen: P ( X ∈ [μ − kσ; μ + kσ] ) ≥ 1 − 1 k 2 (11.2) F¨ ur k = 2 besagt die Tschebyscheff ’sche Ungleichung, dass mindestens 75% der Beobachtungen innerhalb der 2-Standardabweichungen vom Mittelwert liegen; f¨ ur k = 3 sind es 89%. Die Anteilswerte innerhalb der 2bzw. 3-Standardabweichungen sind hier niedriger als bei einer normalverteilten Zufallsvariablen. Die Unkenntnis der Verteilung bedeutet, dass weniger Information vorliegt. Dies schl¨agt sich in den geringeren Anteilswerten nieder. Mit den empirischen Regeln auf Seite 42 k¨onnen wir in der Praxis Anteilswerte der Daten, die innerhalb k-Standardabweichungen von ihrem arithmetischen Mittel liegen, angeben. Mit der Ungleichung von Tschebyscheffsind solche Angaben auch dann ohne die Symmetrie der Verteilung m¨oglich. So liegen bei einer Einkommensverteilung, die in der Regel linksschief ist, mit beispielsweise einem Mittelwert von 25.000 e und einer Standardabweichung von 2000 e mindestens 75% der Einkommenbetr¨age zwischen 21.000 e und 29.000 e . 11.2. Gesetz der großen Zahlen Wir erinnern uns, dass das Ergebnis einer n-maligen unabh¨angigen Wiederholung eines Bernoulli-Experiments die B(n, p)-Verteilung ergibt. Dabei haben die einzelnen Bernoulli-Versuche die gleichbleibende Wahrscheinlichkeit p f¨ ur das Eintreten eines bestimmten Ereignisses A. Wir haben das Bernoulli-Experiment als einen Zufallsvorgang, dessen Ergebnisse die Realisierungen der Zufallsvariablen X sind, beschrieben. Dabei ist X = ⎧ ⎪ ⎨ ⎪ ⎩ 1, wenn A erscheint 0 sonst 11.2. Gesetz der großen Zahlen 201 Somit ist X ∼ B(1, p) mit P (X = 1) = P (A) = p. Bei einer n-maligen unabh¨angigen Wiederholung dieses Experiments wurden die einzelnen Bernoulli-Versuche durch die Indikatorvariablen X i = ⎧ ⎪ ⎨ ⎪ ⎩ 1, wenn A im i-ten Versuch erscheint 0 sonst angegeben. Insbesondere gilt f¨ ur jedes i = 1, . . . , n: X i ∼ B(1, p). Das heißt: Die Zufallsvariablen X 1 , . . . , X n besitzen die gleiche Verteilung wie die Zufallsvariable X und sind unabh¨angig. Zufallsvariablen mit diesen Eigenschaften heißen unabh¨angig und identisch verteilt (independent and identically distributed, i.i.d.). Um uns den i.i.d.-Begriffklar zu machen, betrachten wir das Zufallsexperiment Dreimaliges Werfen einer Laplace-M¨ unze und definieren f¨ ur jedes i = 1, 2, 3 die Zufallsvariable X i = ⎧ ⎪ ⎨ ⎪ ⎩ 1 Kopf 0 sonst F¨ ur jedes i gilt P (X i = 1) = P (X i = 0) = 0, 5. Die Ergebnismenge ist gegeben durch Ω = { (0, 0, 0), (0, 0, 1), (0, 1, 0), (1, 0, 0), (0, 1, 1), (1, 0, 1), (1, 1, 0), (1, 1, 1) } . Weiter betrachten wir die Zufallsvariablen S 12 = X 1 + X 2 und S 23 = X 2 + X 3 . (S 12 und S 23 besitzen den gleichen Wertebereich, n¨amlich { 0, 1, 2 } .) Es gilt: • S 12 und S 23 sind identisch verteilt, aber nicht unabh¨angig. • S 12 und X 3 sind unabh¨angig, aber nicht identisch verteilt. • X 1 , X 2 und X 3 sind unabh¨angig und identisch verteilt. Sei X eine diskrete oder stetige Zufallsvariable mit E(X) = μ und V (X) = σ 2 , und seien X 1 , . . . , X n unabh¨angig und besitzen die gleiche Verteilung wie die Zufallsvariable X. Weiter sei ¯ X (n) = 1 n n ∑ i=1 X i . 202 11. Die wichtigsten Grenzwerts¨atze Gesetz der großen Zahlen F¨ ur beliebig kleines ε > 0 gilt: lim n →∞ P ( | ¯ X (n) − μ | ≤ ε) = 1 (11.3) Man sagt: ¯ X (n) konvergiert nach Wahrscheinlichkeit gegen μ. Die G¨ ultigkeit des Gesetzes der großen Zahlen kann man unter Anwendung von Tschebyscheffs Ungleichung zeigen. Sind die Stichprobenvariablen X 1 , . . . , X n Bernoulli-Variablen, dann ist ¯ X (n) die relative H¨aufigkeit f¨ ur A bei n-maliger Wiederholung des Bernoulli-Experiments und E( ¯ X (n) ) = p. Das Gesetz der großen Zahlen heißt in diesem Fall auch Theorem von Bernoulli. Theorem von Bernoulli Die relative H¨aufigkeit, mit der ein Ereignis A bei n unabh¨angigen Wiederholungen eines Zufallsexperiments eintritt, konvergiert nach Wahrscheinlichkeit gegen P (A). 11.3. Zentraler Grenzwertsatz W¨ahrend das Gesetz der großen Zahlen etwas ¨ uber das Verhalten des arithmetischen Mittels bei wachsendem n aussagt, besagt der zentrale Grenzwertsatz, dass die Verteilung der Summe X (n) = n ∑ i=1 X i von n i.i.d. Zufallsvariablen X 1 , . . . , X n mit wachsendem n der Normalverteilung mit dem Erwartungswert nμ und der Standardabweichung σ √ n immer ¨ahnlicher wird. Diese Verteilung h¨angt von der Anzahl n ab. F¨ ur n → ∞ existieren weder der Erwartungswert noch die Varianz. Als Grenzverteilung ist sie daher ungeeignet, weshalb der zentrale Grenzwertsatz von der standardisierten Zufallsvariablen ausgeht. Eine Zufallsvariable ist standardisiert, wenn ihr Erwartungswert gleich 11.3. Zentraler Grenzwertsatz 203 Null ist und ihre Varianz eins betr¨agt. Aus jeder Zufallsvariablen X mit E(X) < ∞ und V (X) < ∞ kann durch die Transformation Z = X − E(X) √ V (X) eine standardisierte Zufallsvariable gebildet werden. F¨ ur sie gilt: E(Z) = 0 und V (Z) = 1 Zentraler Grenzwertsatz Seien X 1 , . . . , X n unabh¨angig und identisch verteilte Zufallsvariablen mit E(X i ) = μ < ∞ und V (X i ) = σ 2 < ∞ f¨ ur i = 1, . . . , n. Weiter sei X (n) = n ∑ i=1 X i . F¨ ur X (n) gilt: E ( X (n) ) = n μ und V ( X (n) ) = n σ 2 Die Verteilungsfunktion F (n) (z) = P ( Z (n) ≤ z ) der standardisierten Summe Z (n) = X (n) − n μ σ √ n konvergiert f¨ ur n → ∞ gegen die Standardnormalverteilung Φ(z). Kurz: F (n) (z) → Φ(z) Man sagt: Z (n) ist asymptotisch (approximativ) standardnormalverteilt. Kurz: Z (n) ∼ a N (0 ; 1) 204 11. Die wichtigsten Grenzwerts¨atze F¨ ur X 1 , . . . , X n Bernoulli-Variablen ist die Summe X (n) = n ∑ i=1 X i B(n; p)-verteilt. Dabei sind E(X (n) ) = np und V (X (n) ) = np(1 − p). Wendet man den zentralen Grenzwertsatz auf diese Variablen an, dann erh¨alt man den Grenzwertsatz von de Moivre. Grenzwertsatz von de Moivre Die Verteilung der Zufallsgr¨oße X (n) − np √ np(1 − p) konvergiert f¨ ur n → ∞ gegen eine Standardnormalverteilung. Kurz: X (n) − np √ np(1 − p) ∼ a N (0 ; 1) F¨ ur großes n l¨asst sich also die B(n, p)-Verteilung durch die Normalverteilung mit μ = np und σ 2 = np(1 − p) approximieren. Insbesondere gilt f¨ ur die relative H¨aufigkeit ¯ X (n) = X ( n ) n : ¯ X (n) ∼ a N ( p ; √ p(1 − p) n ) 205 Teil III. Induktive Statistik 207 12. Statistische Sch¨atzverfahren 12.1. Grundgesamtheit, Stichproben Die induktive (schließende) Statistik besch¨aftigt sich mit Verfahren, die es uns erm¨oglichen, aus den Ergebnissen einer Stichprobe Aussagen ¨ uber die Grundgesamtheit zu treffen. Einige Beispiele: 1. Im Rahmen einer Studie zur Nutzung der Medien soll der Anteil der Jugendlichen zwischen 16 und 19 Jahren ermittelt werden, die Internet-Nachrichtenportale als erste Informationsquelle benutzen. 2. Die Krankenversicherungen interessieren sich f¨ ur die mittlere Krankheitsdauer von Arbeitnehmern in Deutschland. 3. Anleger interessieren sich f¨ ur mittlere Renditen und Risiken unterschiedlicher Anlageformen. 4. Unternehmer interessieren sich daf¨ ur, ob ihnen ihre Werbekampagne mehr Kunden einbringt. 5. Der Anteil der unbrauchbaren St¨ ucke einer Produktion ist f¨ ur die Qualit¨atssicherung von Bedeutung. Um all diese Werte zu ermitteln, kann man schwerlich alle Elemente der Grundgesamtheit untersuchen (Vollerhebung). Dies w¨ urde eine umfangreiche Organisation erforden, die nicht zuletzt mit sehr hohen Kosten verbunden w¨are. Man untersucht stattdessen einen Teil der Grundgesamtheit (Stichprobe). Mit Hilfe geeigneter statistischer Verfahren versucht man von den in dieser Teilmenge vorgefundenen Eigenschaften auf die Eigenschaften in der Grundgesamtheit zu schließen. F¨ ur Stichprobenarten und zur Datengewinnung sei unter anderem auf [11] und [6] verwiesen. Betrachten wir nun eine Grundgesamtheit mit N Einheiten, in der X ein uns interessierendes Merkmal darstellt. Aus dieser Grundgesamtheit werden zuf¨allig n Einheiten gezogen. 208 12. Statistische Sch¨atzverfahren Beispiel 12.1 Wir betrachten eine Grundgesamtheit, die aus f¨ unf Personen A, B, C, D und E besteht. Man interessiert sich f¨ ur das Merkmal X: Alter (in Jahren): Person A B C D E Alter 30 25 35 35 25 Aus dieser Grundgesamtheit wird eine Stichprobe vom Umfang n = 3 ohne Zur¨ ucklegen gezogen. Eine Stichprobe kann zum Beispiel aus Person A, Alter x A = 30; Person E, Alter x E = 25 und Person C, Alter x C = 35 bestehen. Insgesamt gibt es ( N n ) = ( 5 3 ) = 10 solcher Stichproben. Die folgende Tabelle listet alle m¨oglichen Stichproben auf. Stichprobe Nr. i Stichprobe (x i 1 , x i 2 , x i 3 ) 1 (A, B, C) (30, 25, 35) 2 (A, B, D) (30, 25, 35) 3 (A, B, E) (30, 25, 25) 4 (B, C, D) (25, 35, 35) 5 (B, C, E) (25, 35, 25) 6 (C, D, A) (35, 35, 30) 7 (C, D, E) (35, 35, 25) 8 (D, E, A) (35, 25, 30) 9 (D, E, B) (35, 25, 25) 10 (E, A, C) (25, 30, 35) Stichproben kann man durch Parameter (Kennzahlen) beschreiben, z. B. durch den Stichprobenmittelwert (das arithmetische Mittel) ¯ X = 1 n n ∑ i=1 X i und durch die empirische Varianz S 2¯ X = 1 n n ∑ i=1 (X i − ¯ X) 2 . 12.1. Grundgesamtheit, Stichproben 209 Als Beispiele geben wir f¨ ur einige Stichproben aus dem Beispiel 12.1 die Stichprobenmittelwerte an: 1. Stichprobe Nr. 1: (30, 25, 35): ¯ x 1 = 30+25+35 3 = 30 2. Stichprobe Nr. 3: (30, 25, 25): ¯ x 3 = 30+25+25 3 = 26, 67 3. Stichprobe Nr. 4: (25, 35, 35): ¯ x 4 = 25+35+35 3 = 31, 67 Ebenso kann man eine Grundgesamtheit durch Parameter beschreiben, zum Beispiel durch ihren Erwartungswert μ und ihre Varianz σ 2 . Im Beispiel 12.1 lauten sie μ = E(X) = 1 N N ∑ i=1 x i = 30 + 25 + 35 + 35 + 25 5 = 30 und σ 2 = V (X) = 30 2 + 25 2 + 35 2 + 35 2 + 25 2 5 − 30 2 = 20. (Das Durchschnittsalter in dieser Grundgesamtheit betr¨agt 30 Jahre. Im Mittel weichen die Werte um σ = √ 20, also um weniger als 5 Jahre, von ihrem Mittelwert ab.) Weitere Parameter der Grundgesamtheit sind Anteilswerte p; zum Beispiel betr¨agt der Anteil der 25-J¨ahrigen in der betrachteten Grundgesamtheit p = 2 5 (40%). Parameter einer Grundgesamtheit, wie Anteilswert, Erwartungswert und Varianz, sind in der Regel unbekannt. Sie m¨ ussen gesch¨atzt werden. Dazu bezeichnen wir sie allgemein 1 mit θ ∈ Θ ⊂ R . (F¨ ur θ = p ist Θ = [0, 1], f¨ ur den Erwartungswert μ ist Θ = R und f¨ ur die Varianz σ 2 ist Θ = R + .) Ist die Verteilung des Merkmals bekannt, so wollen wir θ als Parameter der Verteilung ansehen. Im Allgemeinen geht es in der induktiven Statistik darum, verl¨assliche Aussagen ¨ uber die Verteilung (oder zumindest ¨ uber den Erwartungswert oder die Varianz) eines bestimmten Merkmals X in einer Grundgesamtheit zu treffen. Im Folgenden lernen wir Verfahren zur Sch¨atzung eines unbekannten Parameters θ kennen. Erfolgt die Sch¨atzung durch einen einzigen Wert, handelt es sich um eine Punktsch¨atzung von θ. Gibt man zus¨atzlich zu dem Punktsch¨atzer Toleranzgrenzen an, so liegt ein Intervallsch¨atzer f¨ ur θ vor. 1 θ ist griechisch, gelesen: Theta; Θ: großes Theta 210 12. Statistische Sch¨atzverfahren 12.2. Punktsch¨atzer Um θ zu sch¨atzen, zieht man eine Stichprobe vom Umfang n. Diese l¨asst sich durch n Stichprobenvariablen X 1 , . . . , X n ausdr¨ ucken. Dabei sind X i unabh¨angig und identisch verteilt wie X. Eine Kennzahl, die eine Stichprobe beschreibt, kann man als eine Funktion dieser Variablen ansehen. Man nennt sie Stichprobenfunktion. Einige wichtige Stichprobenfunktionen gibt Tabelle 12.1 wieder. Stichprobenfunktion Bezeichnung ¯ X = 1 n ∑ n i=1 X i Stichprobenmittel S 2 μ = 1 n ∑ n i=1 (X i − μ) 2 mittlere quadratische Abweichung bzgl. μ S 2¯ X = 1 n ∑ n i=1 (X i − ¯ X) 2 mittlere quadratische Abweichung bzgl. ¯ X S 2 = 1 n − 1 ∑ n i=1 (X i − ¯ X) 2 Stichprobenvarianz S = √ S 2 Stichprobenstandardabweichung Tabelle 12.1.: Ausgew¨ahlte Stichprobenfunktionen Ein Punktsch¨atzer f¨ ur θ ist eine bestimmte Funktion der Stichprobenvariablen. Wir bezeichnen ihn kurz mit ˆ θ, also ist ˆ θ = f ( X 1 , . . . , X n ) . Als eine Funktion von Zufallsvariablen X 1 , . . . , X n ist ˆ θ ebenfalls eine Zufallsvariable. W¨ unschenswerte Eigenschaften eines Sch¨atzers: 1. Erwartungstreue. Ein Sch¨atzer ˆ θ f¨ ur den unbekannten Parameter θ heißt erwartungstreu, wenn E(ˆ θ) = θ gilt. E(ˆ θ) gibt an, welchen Wert man im Durchschnitt f¨ ur den Sch¨atzwert erwartet. Ein erwartungstreuer Sch¨atzer wird das unbekannte θ nicht systematisch ¨ uber- oder untersch¨atzen. Auf lange Sicht wird man im Durchschnitt θ erwarten. 12.2. Punktsch¨atzer 211 Ist E(ˆ θ) = θ, dann heißt ˆ θ verzerrt. Die Differenz B = E(ˆ θ) − θ nennt man Bias. 2. Effizienz. Sind ˆ θ 1 (n) und ˆ θ 2 (n) erwartungstreue Sch¨atzer f¨ ur θ, dann heißt ˆ θ 1 (n) effizienter als ˆ θ 2 (n) , wenn bei gleichem Stichprobenumfang V (ˆ θ 1 (n) ) < V (ˆ θ 2 (n) ) gilt. Das bedeutet: Unter s¨amtlichen erwartungstreuen Sch¨atzern f¨ ur θ heißt derjenige effizient, der bei gleichem Stichprobenumfang die kleinste Varianz aufweist. 3. Konsistenz. Eine Sch¨atzfunktion ˆ θ (n) heißt konsistent, wenn f¨ ur alle ε > 0 lim n →∞ P ( | ˆ θ (n) − θ | < ε) = 1 gilt. Die Konsistenz besagt, dass mit steigendem Stichprobenumfang n die Sch¨atzgenauigkeit steigt. Sie stellt eine Minimalanforderung an eine Sch¨atzfunktion dar. Wenn ein Sch¨atzer nicht erwartungstreu ist, dann sollte er mindestens konsistent sein. 12.2.1. Sch¨atzer f¨ ur den Mittelwert Sei X ein Merkmal in einer Grundgesamtheit mit einem unbekannten Mittelwert μ und der bekannten Varianz σ 2 . Sei X 1 , . . . , X n eine Stichprobe aus dieser Grundgesamtheit. Der Erwartungswert μ wird durch das Stichprobenmittel ˆ μ = ¯ X = 1 n n ∑ i=1 X i (12.1) gesch¨atzt. ¯ X ist erwartungstreu und konsistent. Denn: E ( ¯ X ) = μ und V ( ¯ X ) = σ 2 n (12.2) 212 12. Statistische Sch¨atzverfahren Der Erwartungswert des Stichprobenmittels ist also identisch mit dem Erwartungswert der Grundgesamtheit. Dies folgt aus der Additivit¨atseigenschaft des Erwartungswertes. Demnach gilt: E( ¯ X) = E ( 1 n n ∑ i=1 X i ) = 1 n · E ( n ∑ i=1 X i ) = 1 n · n ∑ i=1 E ( X i ) = 1 n · n ∑ i=1 μ = 1 n · n · μ = μ Die Konsistenz gilt, weil die Varianz V (ˆ μ) = σ 2 n mit wachsendem n verschwindet: lim n →∞ σ 2 n = 0 Das bedeutet: Mit steigendem Stichprobenumfang n konzentrieren sich die Werte der Zufallsvariablen ¯ X immer mehr um den Erwartungswert μ. Es bleibt noch zu zeigen, dass σ 2 n tats¨achlich die Varianz von ˆ μ = ¯ X ist. Diese ergibt sich aus der Eigenschaft der Varianz f¨ ur unabh¨angige Zufallsvariablen: V ( ¯ X ) = V ( 1 n n ∑ i=1 X i ) = 1 n 2 · V ( n ∑ i=1 X i ) = 1 n 2 · n ∑ i=1 V ( X i ) = 1 n 2 · n ∑ i=1 σ 2 = 1 n 2 · n · σ 2 = σ 2 n Beispiel 12.2 Wir greifen auf das Beispiel 12.1 zur¨ uck und berechnen f¨ ur jede Stichprobe den Stichprobenmittelwert (siehe Tabelle 12.2). Je nachdem, welche Stichprobe gezogen wird, nimmt ¯ X einen bestimmten Wert an. In diesem Fall kann ¯ X f¨ unf verschiedene Werte annehmen. Diese befinden sich zusammen mit der Wahrscheinlichkeitsverteilung in der folgenden Tabelle. ¯ x j 26,67 28,33 30,00 31,67 33,33 P ( ¯ X = ¯ x j ) 0,1 0,2 0,4 0,2 0,1 12.2. Punktsch¨atzer 213 Stichpr. Nr. i Stichprobe (x i 1 , x i 2 , x i 3 ) ¯ x i 1 (A, B, C) (30, 25, 35) 30,00 2 (A, B, D) (30, 25, 35) 30,00 3 (A, B, E) (30, 25, 25) 26,67 4 (B, C, D) (25, 35, 35) 31,67 5 (B, C, E) (25, 35, 25) 28,33 6 (C, D, A) (35, 35, 30) 33,33 7 (C, D, E) (35, 35, 25) 31,67 8 (D, E, A) (35, 25, 30) 30,00 9 (D, E, B) (35, 25, 25) 28,33 10 (E, A, C) (25, 30, 35) 30,00 Tabelle 12.2.: Verschiedene Stichproben und Stichprobenmittelwerte Die Erwartungstreue des Sch¨atzers ¯ X f¨ ur μ k¨onnen wir hier ganz deutlich sehen: E( ¯ X) = 5 ∑ j=1 ¯ x j · P ( ¯ X = ¯ x j ) = 26, 67 · 0, 1 + 28, 33 · 0, 2 + 30, 00 · 0, 4 + 31, 67 · 0, 2 + 33, 33 · 0, 1 = 30 = μ 12.2.2. Sch¨atzer f¨ ur die Varianz Da die Varianz die mittlere quadratische Abweichung vom Erwartungswert μ angibt, muss man bei der Varianzsch¨atzung unterscheiden, ob μ bekannt ist oder nicht. 1. Ist μ bekannt, dann wird man σ 2 durch S 2 μ = 1 n ∑ (X i − μ) 2 (12.3) sch¨atzen. S 2 μ ist ein erwartungstreuer Sch¨atzer f¨ ur σ 2 . 214 12. Statistische Sch¨atzverfahren 2. Bei unbekanntem μ ist die Stichprobenvarianz ˆ σ 2 = S 2 = 1 n − 1 ∑ (X i − ¯ X) 2 (12.4) ein erwartungstreuer Sch¨atzer f¨ ur σ 2 . Dagegen ist die empirische Varianz S 2¯ X = 1 n ∑ (X i − ¯ X) 2 (12.5) nicht erwartungstreu; ihr Erwartungswert ist E(S 2¯ X ) = n − 1 n σ 2 . (Den Beweis findet man zum Beispiel in [23].) S 2¯ X hat einen Bias von B = n − 1 n σ 2 − σ 2 = − σ 2 n . Mit wachsendem Stichprobenumfang n verschwindet jedoch der Bias. Beispiel 12.3 Im Rahmen der Kostenplanung wird die Standardabweichung der Zufallsvariablen X: Projektdauer (in Monaten) gesch¨atzt. Als Grundlage dienen 25 bereits abgeschlossene ¨ahnliche Projekte. Uns liegt die Summe der quadrierten Abweichungen ∑ 25 i=1 (x i − ¯ x) 2 = 47, 04 vor. Ein erwartungstreuer Sch¨atzer f¨ ur σ 2 ergibt sich gem¨aß (12.4): ˆ σ 2 = 1 n − 1 n ∑ i=1 (x i − ¯ x) 2 = 1 24 25 ∑ i=1 (x i − ¯ x) 2 = 1 24 · 47, 04 = 1, 96 Die gesch¨atzte Standardabweichung betr¨agt somit ˆ σ = √ 1, 96 = 1, 4. Das heißt: Im Mittel betr¨agt die Abweichung von der mittleren Projektdauer 1,4 Monate. 12.2. Punktsch¨atzer 215 12.2.3. Sch¨atzer f¨ ur den Anteilswert Sei p der unbekannte Anteilswert einer bestimmten Eigenschaft A in einer Grundgesamtheit. Um p zu sch¨atzen, wird eine Stichprobe vom Umfang n gezogen. Bei jeder Untersuchungseinheit wird festgestellt, ob A vorhanden ist oder nicht. Die relative H¨aufigkeit, mit der A in der Stichprobe vorkommt, verwendet man als Sch¨atzer f¨ ur p: ˆ p = 1 n n ∑ i=1 X i (12.6) Dabei bedeutet X i = ⎧ ⎪ ⎨ ⎪ ⎩ 1, wenn A beobachtet wird 0 sonst Der Sch¨atzer ˆ p ist erwartungstreu und konsistent f¨ ur den Anteilswert p. (Es ist leicht zu zeigen, dass diese Eigenschaften gelten. Der Leser m¨oge dies als ¨ Ubung selbst versuchen.) Beispiel 12.4 Ein Berufspolitiker m¨ochte vor einer Wahl gern wissen, mit wie viel Prozent der W¨ahlerstimmen er f¨ ur sich rechnen kann. Eine Befragung von 2000 zuf¨allig ausgew¨ahlten Wahlberechtigten hat ergeben, dass 600 von ihnen ihre Stimmen dem Politiker geben werden. Als Sch¨atzer f¨ ur seinen Stimmenanteil in der Bev¨olkerung verwendet man ˆ p = 600 2000 = 0, 3. Im Kapitel 10 haben wir Wahrscheinlichkeitsverteilungen kennengelernt, die zur mathematischen Modellierung von zuf¨alligen Ereignissen bzw. Zufallsexperimenten dienen. Die folgenden zwei Verteilungen werden aus der Normalverteilung hergeleitet und sind Verteilungen von Stichprobenfunktionen, die in der induktiven Statistik ben¨otigt werden. 216 12. Statistische Sch¨atzverfahren 12.3. Chi-Quadrat-Verteilung Seien die Zufallsvariablen Z 1 , . . . , Z n unabh¨angig und identisch standardnormalverteilt. Dann ist die Zufallsvariable Y (n) = n ∑ i=1 Z 2 i Chi-Quadrat-verteilt mit n Freiheitsgraden. Kurz: Y (n) ∼ χ 2 (n) Im Gegensatz zur Dichtefunktion der Normalverteilung ist die Dichtefunktion der χ 2 (n)-Verteilung nicht symmetrisch. Abh¨angig von n kann sie sehr unterschiedliche Gestalt annehmen (siehe Abbildung 12.1). F¨ ur kleine n ist sie linkssteil, und mit zunehmenden Freiheitsgraden n¨ahert sie sich der Gauß-Glockenkurve. Der Erwartungswert und die Varianz sind: E(Y (n) ) = n und V (Y (n) ) = 2n (12.7) x χ 2 (2) χ 2 (3) χ 2 (4) χ 2 (6) Abbildung 12.1.: Dichtefunktionen der χ 2 (n)-Verteilungen in Abh¨angigkeit von n. Mit steigendem n n¨ahern sie sich der Glockenkurve. 12.4. Student- oder t-Verteilung 217 F¨ ur das (1 − α)-Quantil der χ 2 (n)-Verteilung c 1 − α; n gilt: F (c 1 − α; n ) = P (X ≤ c 1 − α; n ) = 1 − α (12.8) Die Quantile der χ 2 (n)-Verteilungen mit verschiedenen Freiheitsgraden n werden tabelliert (Seite 298). Einen Ausschnitt davon gibt die Tabelle 12.3 wieder. Ablesebeispiele: 1. F¨ ur n = 4 und 1 − α = 0, 9 ist c 0,9; 4 = 7, 7794. 2. F¨ ur n = 6 und 1 − α = 0, 9 ist c 0,9; 6 = 10, 6446. 3. F¨ ur n = 6 und 1 − α = 0, 95 ist c 0,95; 6 = 12, 5916. n 0,01 0,025 0,05 0,1 0,5 0,9 0,95 1 0,0002 0,0010 0,0039 0,0158 0,4549 2,7055 3,8415 2 0,0201 0,0506 0,1026 0,2107 1,3863 4,6052 5,9915 3 0,1148 0,2158 0,3518 0,5844 2,3660 6,2514 7,8147 4 0,2971 0,4844 0,7107 1,0636 3,3567 7,7794 9,4877 5 0,5543 0,8312 1,1455 1,6103 4,3515 9,2364 11,0705 6 0,8721 1,2373 1,6354 2,2041 5,3481 10,6446 12,5916 Tabelle 12.3.: Ausschnitt einer Tabelle f¨ ur die Quantile der χ 2 (n)-Verteilung mit n Freiheitsgraden 12.4. Student- oder t-Verteilung Die Student- oder t-Verteilung wurde von William S. Gosset (1876- 1937), einem englischen Chemiker und Statistiker, eingef¨ uhrt. Er ver- ¨offentlichte mehrere Arbeiten unter dem Pseudonym ”Student“, wodurch die Verteilung ihren Namen erhielt. Seien die Zufallsvariablen Y ∼ N (0; 1) und Z ∼ χ 2 (n) voneinander unabh¨angig. Dann heißt die Verteilung der Zufallsvariablen X = Y √ Z n 218 12. Statistische Sch¨atzverfahren x 0 N (0; 1) Abbildung 12.2.: Dichte der t-Verteilung in Abh¨angigkeit von n. Mit wachsendem n n¨ahert sie sich der N (0, 1)-Dichtefunktion immer mehr an. Student- oder t-Verteilung mit n Freiheitsgraden. Man schreibt kurz: X ∼ t(n) Der Erwartungswert und die Varianz der t(n)-Verteilung lauten: E(X) = 0 und V (X) = n n − 2 f¨ ur n > 2 (12.9) Die Dichte der t-Verteilung ¨ahnelt der Dichte der N (0; 1)-Verteilung: Sie ist symmetrisch zur y-Achse und glockenf¨ormig. Jedoch besitzt sie f¨ ur kleinere n breitere Enden (heavy tails), d. h. die Fl¨achen unter der Dichtefunktion f¨ ur kleinere und gr¨oßere Werte von X sind gr¨oßer als die der Standardnormalverteilung. F¨ ur n ≥ 30 kann man sie durch die Standardnormalverteilung gut approximieren. (Siehe Abbildung 12.2.) F¨ ur das (1 − α)-Quantil der t(n)-Verteilung t 1 − α; n gilt: F (t 1 − α; n ) = P (X ≤ t 1 − α; n ) = 1 − α (12.10) Wegen der Symmetrie der t-Verteilung ist: t α; n = − t 1 − α; n (12.11) 12.5. Intervallsch¨atzer 219 Die Quantile der t-Verteilungen mit verschiedenen Freiheitsgraden werden tabelliert (Seite 297). Einen Ausschnitt davon gibt die Tabelle 12.4 wieder. Ablesebeispiele: 1. F¨ ur n = 2 und 1 − α = 0, 8 ist t 0,8; 2 = 1, 0607. 2. F¨ ur n = 2 und 1 − α = 0, 025 ist t 0,025; 2 = − t 0,975; 2 = − 4, 3027. 3. F¨ ur n = 6 und 1 − α = 0, 975 ist t 0,975; 6 = 2, 4469. n 0,8 0,85 0,9 0,95 0,975 0,99 0,995 1 1,3764 1,9626 3,0777 6,3138 12,7062 31,8205 63,6567 2 1,0607 1,3862 1,8856 2,9200 4,3027 6,9646 9,9248 3 0,9785 1,2498 1,6377 2,3534 3,1824 4,5407 5,8409 4 0,9410 1,1896 1,5332 2,1318 2,7764 3,7469 4,6041 5 0,9195 1,1558 1,4759 2,0150 2,5706 3,3649 4,0321 6 0,9057 1,1342 1,4398 1,9432 2,4469 3,1427 3,7074 7 0,8960 1,1192 1,4149 1,8946 2,3646 2,9980 3,4995 Tabelle 12.4.: Ausschnitt einer Tabelle f¨ ur die Quantile der t-Verteilung mit n = 1, . . . , 7 Freiheitsgraden 12.5. Intervallsch¨atzer In der Regel stimmt der Sch¨atzwert ˆ θ mit dem wahren Parameter θ nicht ¨ uberein. Aus diesem Grunde verwendet man h¨aufig statt eines Wertes (Punktes) ein Intervall als Sch¨atzer f¨ ur θ. Deshalb heißen solche Sch¨atzer Intervallsch¨atzer 2 . Den Ausgangspunkt f¨ ur einen Intervallsch¨atzer bildet ein erwartungstreuer Sch¨atzer ˆ θ von θ. Der Sch¨atzer [ ˆ θ u ; ˆ θ o ] wird so konstruiert, dass zu einer vorgegebenen Wahrscheinlichkeit 1 − α (¨ ublich: α = 0, 01; α = 0, 05; α = 0, 10) P ( ˆ θ u ≤ θ ≤ ˆ θ o ) = 1 − α 2 Im Allgemeinen, d. h. wenn θ ∈ R n , n ≥ 2, heißen diese Sch¨atzer Bereichssch¨atzer. 220 12. Statistische Sch¨atzverfahren gilt. Es ist somit klar, dass man, um ein Intervall [ ˆ θ u ; ˆ θ o ] zu konstruieren, die Wahrscheinlichkeitsverteilung von ˆ θ zumindest n¨aherungsweise kennen muss. 1 − α heißt ¨ Uberdeckungswahrscheinlichkeit, Vertrauens- oder Konfidenzniveau. Das Konfidenzniveau gibt die Wahrscheinlichkeit an, mit der das verwendete Verfahren ein Intervall [ ˆ θ u ; ˆ θ o ] liefert, das den festen, aber unbekannten Parameter θ enth¨alt. Zum Beispiel bedeutet 1 − α = 0, 95, dass wir, wenn wir 100 Stichproben ziehen und 100-mal nach dieser Vorschrift 100 Konfidenzintervalle bilden, in 95 von diesen 100 Stichproben Intervalle erhalten, die das unbekannte θ ¨ uberdecken. α heißt Irrtumswahrscheinlichkeit. α gibt die Wahrscheinlichkeit daf¨ ur an, dass man bei sehr h¨aufiger Anwendung des Verfahrens ein Intervall erh¨alt, das θ nicht ¨ uberdeckt. Das nach diesem Verfahren konstruierte Intervall heißt (1 − α)-Konfidenz- oder Vertrauensintervall mit ˆ θ u als Intervallunter- und ˆ θ o als Intervallobergrenze. (Ebenso wie ˆ θ sind auch sie Zufallsgr¨oßen.) Sind ˆ θ u > −∞ und ˆ θ o < ∞ , dann heißt das Konfidenzintervall zweiseitig. Ein zweiseitiges Konfidenzintervall [ ˆ θ u ; ˆ θ o ] f¨ ur θ heißt symmetrisch, wenn gilt: P ( θ < ˆ θ u ) = P ( ˆ θ o > θ ) Ist ˆ θ u = −∞ und ˆ θ o < ∞ , so heißt ] − ∞ ; ˆ θ o ] (einseitiges) oberes (1 − α) -Konfidenzintervall. Es gilt: P ( − ∞ < θ ≤ ˆ θ o ) = 1 − α Ist ˆ θ o = ∞ und ˆ θ u < ∞ , so heißt [ ˆ θ u ; ∞ [ (einseitiges) unteres (1 − α)-Konfidenzintervall. F¨ ur dieses Intervall gilt: P ( ˆ θ u ≤ θ < ∞ ) = 1 − α Zur Bestimmung von ˆ θ u bzw. ˆ θ o geht man von einem erwartungstreuen Punktsch¨atzer ˆ θ f¨ ur θ aus. Mit Hilfe der Wahrscheinlichkeitsverteilung der Sch¨atzfunktion ˆ θ werden die Intervallgrenzen festgelegt. 12.5. Intervallsch¨atzer 221 12.5.1. Konfidenzintervalle f¨ ur den Erwartungswert F¨ ur die Konstruktion eines Konfidenzintervalls f¨ ur den unbekannten Erwartungswert μ gehen wir von einer normalverteilten Zufallsvariablen X aus. Dabei setzen wir voraus, dass die Varianz σ 2 bekannt ist. F¨ ur den unbekannten Erwartungswert wollen wir die Herleitung des zweiseitigen und des unteren Konfidenzintervalls zum vorgegebenen Niveau 1 − α genauer anschauen. Wegen der Symmetrie der Normalverteilung kann man das Ergebnis entsprechend auf das obere Konfidenzintervall ¨ ubertragen. Aus Abschnitt 12.2.1 wissen wir, dass ¯ X = 1 n n ∑ i=1 X i ein erwartungstreuer und konsistenter Sch¨atzer f¨ ur μ ist. Da X ∼ N (μ; σ) und X 1 , . . . , X n i.i.d. Zufallsvariablen sind, gilt ¯ X ∼ N ( μ ; σ √ n ) bzw. ¯ X − μ σ/ √ n ∼ N (0 ; 1). Die Unterbzw. Obergrenze ˆ μ u bzw. ˆ μ o des zweiseitigen (1 − α)- Konfidenzintervalls wird so bestimmt, dass die Bedingung P ( ˆ μ u ≤ μ ≤ ˆ μ o ) = 1 − α (12.12) erf¨ ullt ist. Wegen ¯ X − μ σ/ √ n ∼ N (0 ; 1) und der Symmetrie der Normalverteilung gilt: P ( − z 1 − α/ 2 ≤ ¯ X − μ σ/ √ n ≤ z 1 − α/ 2 ) = 1 − α (12.13) Dabei bedeutet z 1 − α/ 2 das (1 − α 2 )-Quantil der N (0; 1)-Verteilung. Umformung der Ungleichungen zwischen den Klammern in (12.13) f¨ uhrt zur folgenden Form: P ( ¯ X − z 1 − α/ 2 σ √ n ≤ μ ≤ ¯ X + z 1 − α/ 2 σ √ n ) = 1 − α (12.14) Der Vergleich zwischen den Gleichungen (12.12) und (12.14) ergibt ˆ μ u = ¯ X − z 1 − α/ 2 σ √ n 222 12. Statistische Sch¨atzverfahren und ˆ μ o = ¯ X + z 1 − α/ 2 σ √ n. Zweiseitiges (1 − α)-Konfidenzintervall f¨ ur μ: [ ¯ X − z 1 − α/ 2 σ √ n ; ¯ X + z 1 − α/ 2 σ √ n ] (12.15) Beispiel 12.5 Eine Maschine f¨ ullt Joghurtbecher ab. Man kann davon ausgehen, dass der F¨ ullinhalt (in Gramm) normalverteilt ist mit einer Standardabweichung σ = 2. Um ein Konfidenzintervall zum Niveau 0,95 f¨ ur den Mittelwert der F¨ ullmenge zu bestimmen, wurden der Produktion 25 Becher entnommen und deren Inhalt gewogen. Daraus ergibt sich ein Durchschnittswert von 170, 39 g. Mit der Zufallsvariablen X: F¨ ullmenge schreiben wir X ∼ N (μ ; 2). Eine Stichprobe vom Umfang n = 25 liefert einen Mittelwert von ¯ x = 170, 39. F¨ ur das Konfidenzintervall zum Niveau 1 − α = 0, 95 brauchen wir das z 1 − α/ 2 -Fraktil der N (0, 1)-Verteilung, das wir aus der Tabelle ablesen: z 1 − α/ 2 = z 0,975 = 1, 96 Weiter berechnen wir • z 1 − α/ 2 σ √ n = 1, 96 · 2 √ 25 = 1, 96 · 0, 4 = 0, 784, • die Intervall-Untergrenze ¯ x − z 1 − α/ 2 σ √ n = 170, 39 − 0, 784 = 169, 61 • die Intervall-Obergrenze ¯ x + z 1 − α/ 2 σ √ n = 170, 39 + 0, 784 = 171, 17. 12.5. Intervallsch¨atzer 223 Damit ist das 0,95-Konfidenzintervall f¨ ur μ: [ 169, 61 ; 171, 17 ] Das bedeutet: Das mittlere F¨ ullgewicht liegt (zum Niveau 95%) zwischen 169,61 g und 171,17 g. Die L¨ange oder die Breite des Konfidenzintervalls L = 2 · z 1 − α/ 2 σ √ n (12.16) h¨angt von σ, α und n ab. L¨ost man diese Gleichung nach n auf, hat man den Stichprobenumfang in Abh¨angigkeit von L, α und σ: n = 4 · z 2 1 − α/ 2 σ 2 L 2 (12.17) Bei bekanntem σ und f¨ ur ein festes α kann man eine bestimmte Intervallbreite festlegen. F¨ ur diese drei Werte l¨asst sich den ben¨otigten Stichprobenumfang berechnen. Wir werden nun das untere (1 − α)-Konfidenzintervall herleiten. Die Bedingung f¨ ur das untere einseitige (1 − α)-Konfidenzintervall lautet: P ( μ ≥ ˆ μ u ) = 1 − α (12.18) Diese ist ¨aquivalent zu P ( ¯ X − μ σ/ √ n ≤ ¯ X − ˆ μ u σ/ √ n ) = 1 − α. (12.19) Da ¯ X − μ σ/ √ n ∼ N (0; 1) ist, gilt ¯ X − ˆ μ u σ/ √ n = z 1 − α . (12.20) Daraus folgt ˆ μ u = ¯ X − z 1 − α σ √ n. 224 12. Statistische Sch¨atzverfahren Unteres (1 − α)-Konfidenzintervall f¨ ur μ: [ ¯ X − z 1 − α σ √ n; ∞ [ (12.21) Wegen der Symmetrie kann man das Ergebnis entsprechend auf das obere Konfidenzintervall ¨ ubertragen. Oberes (1 − α)-Konfidenzintervall f¨ ur μ: ] − ∞ ; ¯ X + z 1 − α σ √ n ] (12.22) Die Konstruktion eines Konfidenzintervalls basiert u. a. auf der Existenz einer Zufallsvariablen, deren Verteilung bekannt und unabh¨angig von dem zu sch¨atzenden Parameter ist. Wie wir gesehen haben, erf¨ ullt die Zufallsvariable Z = ¯ X − μ σ/ √ n (12.23) diese Anforderung, solange σ bekannt ist. Sie ist N (0; 1)-verteilt. Ist die Standardabweichung σ jedoch unbekannt, so muss man auf einen Sch¨atzwert zur¨ uckgreifen. Man sch¨atzt σ durch S = √ ∑ (X i − ¯ X) 2 (n − 1) . (Die Stichprobenvarianz S 2 = 1 n − 1 ∑ (X i − ¯ X) 2 ist ein erwartungstreuer Sch¨atzer f¨ ur σ 2 .) Ersetzt man nun σ in (12.23) durch S, dann erh¨alt man die Zufallsvariable ¯ X − μ S/ √ n . (12.24) Diese Zufallsvariable ist unter dem Namen T -Statistik bekannt. Sie ist t-verteilt mit n − 1 Freiheitsgraden, d. h. T = ¯ X − μ S/ √ n ∼ t(n − 1), (12.25) 12.5. Intervallsch¨atzer 225 denn es gilt (siehe [11]): n − 1 σ 2 S 2 ∼ χ 2 (n − 1) (12.26) Zusammen mit der Definition der t-Verteilung (vgl. Abschnitt 12.4) folgt die Behauptung (12.25).) Da die t-Verteilung symmetrisch ist, kann man f¨ ur das zweiseitige Konfidenzintervall wie bei der Normalverteilung verfahren. Man gibt ein Intervall an, f¨ ur das gilt: P ( − t 1 − α/ 2 ; n − 1 ≤ ¯ X − μ S/ √ n ≤ t 1 − α/ 2 ; n − 1 ) = 1 − α (12.27) Dabei bezeichnet t 1 − α/ 2 ; n − 1 das (1 − α 2 )-Fraktil der t(n − 1)-Verteilung. Umformen der Ungleichungen zwischen den Klammern in (12.27) ergibt P ( ¯ X − t 1 − α/ 2 ; n − 1 S √ n ≤ μ ≤ ¯ X + t 1 − α/ 2 ; n − 1 S √ n ) = 1 − α. (12.28) Damit erhalten wir die Intervallgrenzen ˆ μ u = ¯ X − t 1 − α/ 2 ; n − 1 S √ n und ˆ μ o = ¯ X + t 1 − α/ 2 ; n − 1 S √ n. Zweiseitiges (1 − α)-Konfidenzintervall f¨ ur μ, σ unbekannt: [ ¯ X − t 1 − α/ 2 ; n − 1 S √ n ; ¯ X + t 1 − α/ 2 ; n − 1 S √ n ] (12.29) Beispiel 12.6 Wir betrachten die Situation im Beispiel 12.5, nehmen aber an, dass die Varianz unbekannt ist. Aus der Stichprobe vom Umfang n = 25 sei ein Sch¨atzwert f¨ ur die Standardabweichung s = 2 (Gramm) ermittelt worden. Das mittlere F¨ ullgewicht der 25 Joghurtbecher betr¨agt 170, 39 226 12. Statistische Sch¨atzverfahren Gramm. F¨ ur das gleiche Konfidenzniveau 1 − α = 0, 95 wie im Beispiel 12.5 bestimmen wir erneut das Konfidenzintervall. Dazu brauchen wir t 1 − α/ 2 ; 24 = t 0,975 ; 24 = 2, 064, abgelesen aus der Tabelle f¨ ur die t(24)-Verteilung. Weiter berechnen wir: • t 1 − α/ 2 ; 24 s √ n = 2, 064 · 2 √ 25 = 2, 064 · 0, 4 = 0, 8256, • die Intervall-Untergrenze ¯ x − t 1 − α/ 2 ; n − 1 s √ n = 170, 39 − 0, 8256 = 169, 56 • die Intervall-Obergrenze ¯ x + t 1 − α/ 2 ; n − 1 s √ n = 170, 39 + 0, 8256 = 171, 22. Damit ist das 0,95-Konfidenzintervall f¨ ur μ: [ 169, 56 ; 171, 22 ] Bemerkung: Das Intervall ist durch die Sch¨atzung der Standardabweichung l¨anger als das Konfidenzintervall bei bekanntem σ (vgl. Beispiel 12.5). Die gleichen ¨ Uberlegungen f¨ uhren zum folgenden oberen bzw. unteren Konfidenzintervall: Unteres (1 − α)-Konfidenzintervall f¨ ur μ bei unbekanntem σ: [ ¯ X − t 1 − α ; n − 1 S √ n ; ∞ [ (12.30) bzw. Oberes (1 − α)-Konfidenzintervall f¨ ur μ bei unbekanntem σ: ] − ∞ ; ¯ X + t 1 − α ; n − 1 S √ n ] (12.31) 12.5. Intervallsch¨atzer 227 Wegen der approximativen Normalverteilung kann man f¨ ur ein beliebig verteiltes Merkmal, wenn der Stichprobenumfang groß ist (n > 30), ein approximatives Konfidenzintervall angeben (siehe auch [11]): Approximatives (1 − α)-Konfidenzintervall f¨ ur μ bei beliebiger Verteilung von X, n > 30: [ ¯ X − z 1 − α/ 2 σ √ n ; ¯ X + z 1 − α/ 2 σ √ n ] (12.32) bei bekanntem σ 2 bzw. [ ¯ X − z 1 − α/ 2 S √ n ; ¯ X + z 1 − α/ 2 S √ n ] (12.33) bei unbekanntem σ 2 . 12.5.2. Konfidenzintervall f¨ ur die Varianz Wir haben im Zusammenhang mit dem Konfidenzintervall f¨ ur den Erwartungswert einer Normalverteilung bei unbekanntem σ bereits festgestellt, dass n − 1 σ 2 S 2 ∼ χ 2 (n − 1) (12.34) gilt (siehe (12.26)). Also stellt die Zufallsvariable n − 1 σ 2 S 2 einen geeigneten Ausgangspunkt f¨ ur die Bildung eines Konfidenzintervalls f¨ ur die Varianz σ 2 einer N (μ; σ)-Verteilung dar. F¨ ur diese Zufallsvariable gilt f¨ ur vorgegebenes α: P ( c α/ 2; n − 1 ≤ n − 1 σ 2 S 2 ≤ c 1 − α/ 2; n − 1 ) = 1 − α (12.35) Dabei bedeuten • c α/ 2; n − 1 das ( α 2 )-Quantil der χ 2 (n − 1)-Verteilung und • c 1 − α/ 2; n − 1 das (1 − α 2 )-Quantil der χ 2 (n − 1)-Verteilung. Nach dem gleichen Schema formen wir die Ungleichungen zwischen den Klammern in (12.35) so um, dass sie die folgende Gestalt annehmen: P ( (n − 1)S 2 c 1 − α/ 2; n − 1 ≤ σ 2 ≤ (n − 1)S 2 c α/ 2; n − 1 ) = 1 − α (12.36) 228 12. Statistische Sch¨atzverfahren Damit erhalten wir f¨ ur das Konfidenzintervall als Untergrenze (n − 1)S 2 c 1 − α/ 2; n − 1 und als Obergrenze (n − 1)S 2 c α/ 2; n − 1 . Zweiseitiges (1 − α)-Konfidenzintervall f¨ ur σ 2 : [ (n − 1)S 2 c 1 − α/ 2; n − 1 ; (n − 1)S 2 c α/ 2; n − 1 ] (12.37) Beispiel 12.7 Im Beipiel 12.3 haben wir einen Sch¨atzwert ˆ σ 2 = 1, 4 2 = 1, 96 f¨ ur die Varianz von X: Projektdauer (in Monaten) berechnet. Aus langj¨ahrigen Erfahrungen kann man davon ausgehen, dass X normalverteilt ist. Unter dieser Annahme wollen wir ein 0,95-Konfidenzintervall f¨ ur σ 2 angeben. Dazu ben¨otigen wir das α/ 2- und das 1 − α/ 2-Quantil der χ 2 (24)-Verteilung, die wir aus der Tabelle ablesen: • c α/ 2; n − 1 = c 0,025; 24 = 12, 4012 • c 1 − α/ 2; n − 1 = c 0,975; 24 = 39, 3641 Weiter berechnen wir • die Intervall-Untergrenze (n − 1)s 2 c 1 − α/ 2; n − 1 = 24 · 1, 96 39, 3641 = 1, 2, • die Intervall-Obergrenze (n − 1)s 2 c α/ 2; n − 1 = 24 · 1, 96 12, 4012 = 3, 8. 12.5. Intervallsch¨atzer 229 Das 0,95-Konfidenzintervall f¨ ur σ 2 lautet: [ 1, 2 ; 3, 8 ] Bemerkung: Mit ˆ σ = 1, 4 (Monate) hat man einen einzigen Sch¨atzwert f¨ ur die mittlere Abweichung der Projektdauer von ihrem Mittelwert. Mit dem Konfidenzintervall [ 1, 2 ; 3, 8 ] kann man einen Bereich, in dem die mittlere Abweichung der Projektdauer von ihrem Mittelwert liegt, angeben, n¨amlich zwischen √ 1, 2 ≈ 1, 1 und √ 3, 8 ≈ 2 Monaten. 12.5.3. Konfidenzintervalle f¨ ur den Anteilswert Ein erwartungstreuer und konsistenter Sch¨atzer f¨ ur den Anteilswert p in der Grundgesamtheit ist die relative H¨aufigkeit ˆ p (12.6). Nach dem Grenzwertsatz von de Moivre gilt: ˆ p ist f¨ ur großes n ann¨ahernd normalverteilt, d. h. ˆ p − p √ p(1 − p)/ n ∼ a N (0; 1). F¨ ur ein vorgegebenes Konfidenzniveau 1 − α leitet man entsprechend aus P ( − z 1 − α/ 2 ≤ ˆ p − p √ p(1 − p)/ n ≤ z 1 − α/ 2 ) ≈ 1 − α (12.38) das (1 − α)-Konfidenzintervall f¨ ur p her: [ ˆ p − z 1 − α/ 2 √ p(1 − p) n ; ˆ p + z 1 − α/ 2 √ p(1 − p) n ] (12.39) Da p unbekannt ist, ersetzt man es durch ˆ p. Die Ann¨aherung von √ p(1 − p) n durch √ ˆ p(1 − ˆ p) n ist immer noch gut genug, d. h. man kann immer noch davon ausgehen, dass P ( − z 1 − α/ 2 ≤ ˆ p − p √ ˆ p(1 − ˆ p)/ n ≤ z 1 − α/ 2 ) ≈ 1 − α (12.40) weiterhin gilt. Der Stichprobenumfang sollte allerdings groß genug sein (n ≥ 30). Das Ergebnis ist: 230 12. Statistische Sch¨atzverfahren Zweiseitiges (1 − α)-Konfidenzintervall f¨ ur p (n ≥ 30) [ ˆ p − z 1 − α/ 2 √ ˆ p(1 − ˆ p) n ; ˆ p + z 1 − α/ 2 √ ˆ p(1 − ˆ p) n ] (12.41) Beispiel 12.8 Eine Partei A m¨ochte ihren Stimmenanteil p in der Bev¨olkerung absch¨atzen. Zur Sicherheitswahrscheinlichkeit von 1 − α = 0, 95 soll ein Konfidenzintervall f¨ ur p bestimmt werden. Eine Umfrage von n = 300 Wahlberechtigten liefert einen Stimmenanteil von ˆ p = 144 300 = 0, 48 f¨ ur die Partei A. Aus der N (0; 1)-Verteilungstabelle lesen wir z 1 − α/ 2 = z 0,975 = 1, 96 ab. Das 0,95-Konfidenzintervall hat die Gestalt [ ˆ p − 1, 96 √ ˆ p(1 − ˆ p) n ; ˆ p + 1, 96 √ ˆ p(1 − ˆ p) n ] . Wir berechnen: • √ ˆ p(1 − ˆ p) n = √ 0,48(1 − 0,48) 300 = √ 0,2496 300 = 0, 0288, • 1, 96 · √ ˆ p(1 − ˆ p) n = 1, 96 · 0, 0288 = 0, 0565, • die Intervall-Untergrenze ˆ p − 1, 96 · √ ˆ p(1 − ˆ p) n = 0, 48 − 0, 0565 = 0, 42, • die Intervall-Obergrenze ˆ p + 1, 96 · √ ˆ p(1 − ˆ p) n = 0, 48 + 0, 0565 = 0, 54. Damit lautet das 0,95-Konfidenzintervall f¨ ur p: [ 0, 42 ; 0, 54 ] 12.5. Intervallsch¨atzer 231 Zum Vertrauensniveau von 95% kann die Partei A mit einem Stimmenanteil von ca. 42% bis ca. 54% rechnen. Wir erh¨ohen nun das Signifikanzniveau auf 99% (1 − α = 0, 99), d. h. wir m¨ochten jetzt, dass man bei Anwendung dieses Verfahrens in 99 von 100 Stichproben ein Intervall erh¨alt, das p enth¨alt. F¨ ur dieselbe Stichprobe bestimmen wir erneut das Konfidenzintervall f¨ ur p. Wir ermitteln z 1 − α/ 2 = z 0,995 = 2, 58. Das 0,99-Konfidenzintervall lautet nun [ ˆ p − 2, 58 √ ˆ p(1 − ˆ p) n ; ˆ p + 2, 58 √ ˆ p(1 − ˆ p) n ] . Dazu bestimmen wir • 2, 58 · √ ˆ p(1 − ˆ p) n = 2, 58 · 0, 0288 = 0, 074, • die Intervall-Untergrenze ˆ p − 2, 58 · √ ˆ p(1 − ˆ p) n = 0, 48 − 0, 074 = 0, 41, • die Intervall-Obergrenze ˆ p + 2, 58 · √ ˆ p(1 − ˆ p) n = 0, 48 + 0, 074 = 0, 55. Damit lautet das 0,99-Konfidenzintervall f¨ ur p: [ 0, 41 ; 0, 55 ] Das Erh¨ohen des Konfidenzniveaus bedeutet: Die Chance, ein Intervall ”mit p“ zu erhalten, ist gr¨oßer. Man muss jedoch in Kauf nehmen, dass das Intervall breiter wird. Die Breite des Intervalls wird durch L = 2 · z 1 − α/ 2 √ p(1 − p) n (12.42) 232 12. Statistische Sch¨atzverfahren gegeben. Daraus l¨asst sich der Stichprobenumfang n in Abh¨angigkeit von L, α und p darstellen: n = 4 · z 2 1 − α/ 2 p(1 − p) L 2 (12.43) Gibt man bei festem α die Intervallbreite L vor, h¨angt n nur noch von p ab. F¨ ur den unbekannten p setzen wir p = 0, 5 ein. Diese Sch¨atzung stellt den denkbar ung¨ unstigsten Fall dar. Denn f¨ ur p = 0, 5 wird die Varianz in der Grundgesamtheit maximal. Mit p = 0, 5 und vorgegebenen α und L l¨asst sich nun den ben¨otigten Stichprobenumfang wie folgt berechnen: n = z 2 1 − α/ 2 L 2 (12.44) Abschließend geben wir noch die einseitigen (1 − α)-Konfidenzintervalle f¨ ur p an. (Die Herleitung erfolgt nach dem gleichen Schema wie bei der Konstruktion der Konfidenzintervalle f¨ ur μ.) Einseitige (1 − α)-Konfidenzintervalle f¨ ur p: [ 0 ; ˆ p + z 1 − α √ ˆ p(1 − ˆ p) n ] (12.45) bzw. [ ˆ p − z 1 − α √ ˆ p(1 − ˆ p) n ; 1 ] (12.46) Beispiel 12.9 Die Partei A aus dem Beispiel 12.8 m¨ochte bei der Planung der Umfrage wissen, wie viele Wahlberechtigte befragt werden m¨ ussten, wenn das Konfidenzintervall eine maximale L¨ange von 0,04 haben soll. Dazu ist α = 0, 05 vorgegeben. F¨ ur diese Vorgabe m¨ ussen mindestens ( z 1 − α/ 2 L ) 2 = ( 1, 96 0, 04 ) 2 = 2401 Wahlberechtigte befragt werden. 12.6. Zusammenfassung 233 12.6. Zusammenfassung Eine der Hauptaufgaben in der Inferenzstatistik ist das Sch¨atzen von unbekannten Parametern einer Grundgesamtheit. Die wichtigsten solcher Parameter sind der Anteilswert p, der Mittelwert (Erwartungswert) μ und die Varianz σ 2 . Sch¨atzt man einen Parameter durch einen einzigen Wert, dann heißt die Sch¨atzung Punktsch¨atzung. Ber¨ ucksichtigt man zus¨atzlich die Ungenauigkeit, so erh¨alt man Intervallsch¨atzer. Ein Punktsch¨atzer heißt erwartungstreu, wenn dieser den Parameter weder unternoch ¨ ubersch¨atzt. Ein erwartungstreuer Sch¨atzer ist effizient, wenn er bei gleichem Stichprobenumfang die kleinste Varianz besitzt. Ein Sch¨atzer ist konsistent, wenn mit steigendem Stichprobenumfang die Sch¨atzgenauigkeit steigt. Den Ausgangspunkt f¨ ur Intervallsch¨atzer bilden erwartungstreue Sch¨atzer. Bei der Konstruktion eines Intervallsch¨atzers gibt man eine Sicherheitswahrscheinlichkeit, auch Konfidenz- oder Vertrauensniveau genannt, 1 − α vor. Das Konfidenzniveau 1 − α besagt, dass das verwendete Verfahren in (1 − α) · 100% der F¨alle ein Intervall liefert, das den zu sch¨atzenden Parameter enth¨alt. Wurde beispielsweise 1 − α = 0, 99 festgelegt, so wird man in 99 von 100 Stichproben Intervalle erhalten, die den unbekannten Parameter ¨ uberdecken. Je gr¨oßer 1 − α ist, umso eher erh¨alt man ein Intervall, das den zu sch¨atzenden Parameter enth¨alt. Allerdings muss man in Kauf nehmen, dass die Sch¨atzung dadurch (bei gleichem Stichprobenumfang n) ungenauer wird. (In dem Sinne, dass man ein l¨angeres Konfidenzintervall erh¨alt.) Die Intervallbreite oder -l¨ange h¨angt außer von der Varianz auch vom Konfidenzniveau und vom Stichprobenumfang n, genauer von 1 √ n , ab. Will man bei festem 1 − α und bekanntem σ 2 die Intervallbreite halbieren, so muss man den Stichprobenumfang vervierfachen. In vielen Verfahren der induktiven Statistik werden h¨aufig Wahrscheinlichkeitsverteilungen von Stichprobenfunktionen ben¨otigt. Zwei davon, die χ 2 - und die Student t-Verteilung, wurden hier vorgestellt. Beide Verteilungen haben ihren Ursprung in der Normalverteilung. 234 12. Statistische Sch¨atzverfahren Notationen und ihre Bedeutung Parameter der Grundgesamtheit Stichprobe Anzahl der Elemente N Stichprobenumfang n Mittelwert (Erwartungswert) Mittelwert (Arithmetisches Mittel) μ = 1 N ∑ N i =1 x i ¯ x = 1 n ∑ n i =1 x i Varianz Empirische Varianz σ 2 = 1 N ∑ N i =1 (x i − μ) 2 1 n ∑ n i =1 (x i − ¯ x) 2 Standardabweichung Empirische Standardabweichung σ = √ σ 2 √ 1 n ∑ n i =1 (x i − ¯ x) 2 Anteilswert p Relative H¨aufigkeit h ( n ) θ Allgemeine Darstellung der Parameter in einer Grundgesamtheit ˆ θ Punktsch¨atzung f¨ ur θ 1 − α Konfidenzniveau z 1 − α (1 − α)-Quantil (Fraktil) der N (0; 1)-Verteilung t 1 − α; n − 1 (1 − α)-Quantil (Fraktil) der t(n − 1)-Verteilung c α; n − 1 α-Quantil (Fraktil) der χ 2 (n − 1)-Verteilung 12.6. Zusammenfassung 235 Punktsch¨atzer Parameter Punktsch¨atzer Bezeichnung Eigenschaft μ ˆ μ = ¯ X = 1 n ∑ n i =1 X i Stichprobenmittel Erwartungstreu und konsistent σ 2 ˆ σ 2 = S 2 = 1 n −1 ∑ n i =1 (X i − ¯ X) 2 Stichprobenvarianz Erwartungstreu und konsistent σ ˆ σ = S = √ S 2 Stichprobenstandard- — abweichung σ 2 S 2 ¯ X = 1 n ∑ n i =1 (X i − ¯ X) 2 Empirische Varianz Verzerrt p ˆ p = 1 n ∑ n i =1 X i Relative H¨aufigkeit Erwartungstreu (X i : Bernoulli-Variable) und konsistent Intervallsch¨atzer (1 − α)-Konfidenzintervall (KI) f¨ ur den Erwartungswert μ einer N (μ; σ)-Verteilung: σ 2 bekannt: 1. Zweiseitiges KI: ¯ X ± z 1− α/ 2 σ √ n 2. Einseitig unteres KI: [ ¯ X − z 1− α σ √ n ; ∞ [ 3. Einseitig oberes KI: ] − ∞ ; ¯ X + z 1− α σ √ n ] σ 2 unbekannt: 1. Zweiseitiges KI: ¯ X ± t 1− α/ 2; n −1 S √ n 2. Einseitig unteres KI: [ ¯ X − t 1− α ; n −1 S √ n ; ∞ [ 3. Einseitig oberes KI: ] − ∞ ; ¯ X + t 1− α : n −1 S √ n ] 236 12. Statistische Sch¨atzverfahren (1 − α)-Konfidenzintervall (KI) f¨ ur den Erwartungswert μ einer beliebigen Verteilung, n > 30: 1. σ 2 bekannt: ¯ X ± z 1− α/ 2 σ √ n 2. σ 2 unbekannt: ¯ X ± z 1− α/ 2 S √ n Entsprechend lauten die einseitigen Konfidenzintervalle. (1 − α)-Konfidenzintervall (KI) f¨ ur den Anteilswert p, n ≥ 30: 1. Zweiseitiges KI: ˆ p ± z 1− α/ 2 √ ˆ p (1−ˆ p ) n 2. Einseitig unteres KI: [ ˆ p − z 1− α √ ˆ p (1−ˆ p ) n ; 1 ] 3. Einseitig oberes KI: [ 0; ˆ p + z 1− α √ ˆ p (1−ˆ p ) n ] (1 − α)-Konfidenzintervall f¨ ur die Varianz σ 2 einer N (μ; σ)-Verteilung: [ (n − 1)S 2 c 1− α/ 2; n −1 ; (n − 1)S 2 c α/ 2; n −1 ] 237 13. Statistische Testverfahren Neben Sch¨atzverfahren f¨ ur unbekannte Parameter einer Grundgesamtheit geh¨oren statistische Testverfahren zu den wichtigsten Instrumenten der empirischen Forschung. Mit Hilfe von Testverfahren kann man aufgrund eines Stichprobenergebnisses Hypothesen ¨ uber eine (teilweise oder vollst¨andig) unbekannte Verteilung eines Merkmals in einer Grundgesamtheit ¨ uberpr¨ ufen. Die zu ¨ uberpr¨ ufende Hypothese H 0 nennt man Nullhypothese; die Gegen- oder Alternativhypothese bezeichnet man mit H 1 . Die Hypothesen werden so formuliert, dass sie sich ¨ uberschneidungsfrei erg¨anzen. Beispiele: 1. Ein Anbieter behauptet, die Ausschussquote p seiner Ware betrage h¨ochstens 5%. Ein potentieller Abnehmer will diese Behauptung durch einen Signifikanztest ¨ uberpr¨ ufen. Die Hypothesen lauten: H 0 : p ≤ 0, 05 ”Ausschussanteil betr¨agt h¨ochstens 5% “ H 1 : p > 0, 05 ”Ausschussanteil ist h¨oher als 5% “ 2. Ein Hersteller von Abf¨ ullmaschinen behauptet, seine Maschinen f¨ ullten vorschriftsgem¨aß 400 g Gummib¨archen je Packung ab. a) Das Eichamt will ¨ uberpr¨ ufen, ob dies tats¨achlich eingehalten wird und formuliert die Hypothesen: H 0 : μ = 400 ”Maschine f¨ ullt korrekt ab “ H 1 : μ = 400 ”Maschine f¨ ullt nicht korrekt ab “ b) Eine Verbraucherzentrale, die sich daf¨ ur interessiert, dass nicht zu wenig abgef¨ ullt wird, w¨ urde bei gleicher Nullhypothese die Alternativhypothese H 1 : μ < 400 ”Es werden zu wenige Gummib¨archen abgef¨ ullt“ aufstellen. 238 13. Statistische Testverfahren c) Ein Gummib¨archenproduzent will nicht, dass systematisch zu viel abgef¨ ullt wird. Deshalb lautet seine Alternativhypothese: H 1 : μ > 400 ”Maschine f¨ ullt zu viele Gummib¨archen ab“ Wie im Beispiel gezeigt wird, kann die Alternativhypothese je nach Interessenlage unterschiedlich ausfallen. Eine Hypothese heißt einfach, wenn sie aus einem Punkt besteht. Andernfalls heißt sie zusammengesetzt. Die Testtheorie, die hier vorgestellt wird, geht auf J. Neyman und E.S. Pearson 1 zur¨ uck. Nach der Testtheorie von Neyman und Pearson bedeuten 1. ein Nein zu H 0 : ”H 0 wird abgelehnt, H 1 wird angenommen“, 2. ein Ja zu H 0 : ”H 0 wird nicht abgelehnt, gegen H 0 ist nichts einzuwenden“. Aus den Formulierungen der beiden m¨oglichen Entscheidungsalternativen erkennt man, dass die Hypothesen H 0 und H 1 nicht gleich behandelt werden. Die Aussagen sind nicht symmetrisch. (Die zweite Aussage lautet nicht: ”H 1 wird abgelehnt, H 0 wird angenommen.“) Bei der Entscheidung sind zwei Fehlerarten m¨oglich: Man lehnt H 0 ab, obwohl sie richtig ist; man begeht den Fehler 1. Art (α-Fehler), oder man lehnt H 0 nicht ab, obwohl sie falsch ist. Diesen Fehler nennt man Fehler 2. Art oder β-Fehler (vgl. Tabelle 13.1). (Unbekannte) Entscheidung f¨ ur Entscheidung f¨ ur Wirklichkeit H 0 H 1 H 0 ist wahr Richtige Entscheidung Falsche Entscheidung (Fehler 1. Art) H 1 ist wahr Falsche Entscheidung Richtige Entscheidung (Fehler 2. Art) Tabelle 13.1.: M¨ogliche Entscheidungen bei einem statistischen Test Die von Neyman und Pearson entwickelte Testtheorie behandelt die beiden Fehlerarten nicht gleich. F¨ ur die Wahrscheinlichkeit, den Fehler 1 Jerzy Neyman (1894-1981), polnisch-amerikanischer Mathematiker und Statistiker; Egon Sharpe Pearson (1895 - 1980), englischer Mathematiker und Statistiker 239 1. Art zu begehen, wird eine obere Schranke α (0 < α < 1) vorgegeben (¨ ublich: α = 0, 01; α = 0, 05 oder α = 0, 1): P (Fehler 1. Art) = P (H 0 ablehnen | H 0 wahr) ≤ α (13.1) Mit dieser Bedingung dr¨ uckt der Anwender aus: Bei seiner Entscheidung darf das Ergebnis ”H 0 wird irrt¨ umlich abgelehnt“ mit einer Wahrscheinlichkeit von h¨ochstens α eintreten. α heißt Signifikanzniveau, und den Test nennt man Signifikanztest. F¨ ur eine Entscheidung wird eine Stichprobe gezogen. Daraus werden Informationen, die eine Ablehnung der Nullhypothese erm¨oglichen, zu einer geeigneten Gr¨oße, Teststatistik, Testgr¨oße oder Pr¨ ufgr¨oße genannt, geb¨ undelt. Eine Pr¨ ufgr¨oße ist somit eine Stichprobenfunktion. In einem Signifikanztest wird der Wertebereich der Pr¨ ufgr¨oße in einen Ablehnungs- und einen Annahmebereich, die sich nicht ¨ uberschneiden, aufgeteilt. Liegt der konkrete Wert der Testgr¨oße (d. h. der aus der gezogenen Stichprobe errechnete Wert) in dem Ablehnungsbereich, dann wird die Nullhypothese abgelehnt. Dabei ist die Wahrscheinlichkeit, dass man sie irrt¨ umlich ablehnt, h¨ochstens gleich dem Wert des vorgegebenen α. Liegt der Wert in dem Annahmebereich, dann wird H 0 nicht abgelehnt. Dabei kann man den Fehler 2. Art begehen. Die Wahrscheinlichkeit, dass dies der Fall ist, kennt man aber nicht. Ein Signifikanztest ist mit einem gerichtlichen Indizienprozess vergleichbar. Die Unschuldsvermutung am Anfang der Verhandlung entspricht der Nullhypothese H 0 . Die Alternative zur Unschuldsvermutung lautet Schuld; im statistischen Test heißt sie ”Die Gegenhypothese H 1 liegt vor“. Der Justizirrtum ”Ein Unschuldiger wird schuldig gesprochen“ heißt im Signifikanztest α-Fehler, d. h. H 0 ist richtig, H 0 wird abgelehnt. In einer Gerichtsverhandlung werden Hinweise zur Schuld des Angeklagten gesammelt; im statistischen Test fasst man Informationen aus einer Stichprobe, die eine Ablehnung der Nullhypothese erm¨oglichen, zu einer Pr¨ ufgr¨oße zusammmen. Reichen die Indizien aus, so wird der Angeklagte verurteilt. Ansonsten wird er aus Mangel an Beweisen frei gesprochen. Im Signifikanztest bedeutet dies: Spricht die Pr¨ ufgr¨oße gegen H 0 , so wird H 0 abgelehnt. Ansonsten ist gegen H 0 nichts einzuwenden. 240 13. Statistische Testverfahren 13.1. Signifikanztest f¨ ur Parameter einer Verteilung Sei X eine Zufallsvariable in der Grundgesamtheit, deren Verteilung von einem Parameter θ abh¨angt. (θ kann den Anteilswert p, den Erwartungswert μ oder die Varianz σ 2 einer Grundgesamtheit darstellen.) ¨ Uber θ liegt ein Hypothesenpaar der Art (13.2), (13.3) oder (13.4) vor. Den Test f¨ ur das Hypothesenpaar (13.2) nennt man zweiseitig; f¨ ur das Hypothesenpaar (13.3) bzw. (13.4) heißt der Test einseitig. Allgemein kann man einen Signifikanztest in den folgenden sieben Schritten beschreiben: 1. Formulierung der Nullhypothese H 0 und der Alternative H 1 : H 0 : θ = θ 0 gegen H 1 : θ = θ 0 (13.2) H 0 : θ = θ 0 gegen H 1 : θ > θ 0 (13.3) H 0 : θ = θ 0 gegen H 1 : θ < θ 0 (13.4) 2. Das Signifikanzniveau α wird festgelegt. (Die Wahrscheinlichkeit f¨ ur den Fehler 1. Art soll h¨ochstens gleich α sein.) 3. Wahl einer geeigneten Testgr¨oße V . Geeignet bedeutet: Wenn H 0 vorliegt, muss die Verteilung von V zumindest asymptotisch bekannt sein. 4. Steht α fest, dann verwendet man die Ungleichung P (H 0 ablehnen | H 0 wahr) ≤ α (13.5) als Bestimmungsungleichung f¨ ur den Ablehnungsbereich B. Man schreibt sie in der folgenden Form um: P (V ∈ B | H 0 ) ≤ α (13.6) P (V ∈ B | H 0 ) nennt man auch Irrtumswahrscheinlichkeit und 1 − P (V ∈ B | H 0 ) Sicherheitswahrscheinlichkeit des Tests. 5. Man bestimmt B so, dass die Voraussetzung (13.6) erf¨ ullt wird. (Hier wird die Verteilung der Testgr¨oße V unter H 0 ben¨otigt.) 13.1. Signifikanztest f¨ ur Parameter einer Verteilung 241 6. Man berechnet aus der vorliegenden Stichprobe den Wert v der Testgr¨oße. (v ist eine Realisation der Zufallsvariablen V .) 7. Entscheidungskriterium: Lehne H 0 ab, wenn v ∈ B. Im Falle der Ablehnung von H 0 sagt man: ”Das Ergebnis ist (statistisch) signifikant (zum Niveau α)“, d. h. die Daten widersprechen der Nullhypothese so, dass diese Abweichung nicht mehr allein durch den Zufall zu erkl¨aren ist. Diese Entscheidung ist entweder richtig, oder H 0 wird mit einer Wahrscheinlichkeit von h¨ochstens α zu Unrecht abgelehnt. Eine Ablehnung der Nullhypothese bedeutet nicht, dass sie falsch ist. Bei Nichtablehnung der Nullhypothese sagt man: ”Das Ergebnis ist nicht (statistisch) signifikant (zum Niveau α)“. Hier gilt genauso: Entweder ist die Entscheidung richtig, oder man begeht den Fehler 2. Art (H 0 wird nicht abgelehnt, obwohl sie falsch ist). Nichtablehnung der Nullhypothese bedeutet nicht, dass sie best¨atigt wird. Der Fehler 2. Art h¨angt von H 1 ab; man hat ihn nicht unter Kontrolle. Der Fehler 2. Art wird beim Aufbau eines statistischen Tests nicht ber¨ ucksichtigt. Er spielt jedoch bei der Beurteilung von Testverfahren eine Rolle. (Dazu siehe u. a. [11], [2].) Aus der Ungleichbehandlung der beiden Fehlerarten zieht man Konsequenzen f¨ ur die Formulierung der Hypothesen: Eine Aussage, welche man widerlegen m¨ochte, stellt man als Nullhypothese auf, und eine Aussage, welche man statistisch absichern will, formuliert man als Alternative (vgl. Beispiele zu Beginn des Kapitels). Das Signifikanzniveau sagt etwas ¨ uber die Zuverl¨assigkeit des Verfahrens aus. Es macht keine Aussage dar¨ uber, ob die Nullhypothese richtig oder falsch ist, auch nicht mit einer gewissen Wahrscheinlichkeit. Ein Signifikanzniveau von zum Beispiel α = 0, 05 bedeutet: Wenn wir zu demselben Hypothesenpaar H 0 und H 1 100 gleichgroße Stichproben ziehen w¨ urden, dann w¨ urden wir bei der Anwendung dieses Verfahrens (Test zum Niveau α = 5%) in h¨ochstens 5 der 100 Versuche die Nullhypothese zu Unrecht ablehnen. Wir werden sp¨ater sehen, dass der Ablehnungsbereich des einseitigen Tests f¨ ur eine einfache Nullhypothese auch f¨ ur eine zusammengesetzte Nullhypothese H 0 : θ ≤ θ 0 oder H 0 : θ ≥ θ 0 g¨ ultig ist. Aus diesem Grund beschr¨ankt sich die Herleitung der folgenden Tests auf Tests f¨ ur H 0 : θ = θ 0 . 242 13. Statistische Testverfahren 13.2. Exakter Binomialtest Ein Binomialtest ist ein Instrument zur ¨ Uberpr¨ ufung der Frage, ob ein Anteilswert p eines Merkmals in der Grundgesamtheit von einem bestimmten Wert p 0 abweicht. Beispiel 13.1 Ein Obsth¨andler bietet ¨ Apfel in 10-kg-Kisten an. Er verspricht seinen Kunden einen Preisnachlass, wenn der Anteil der ¨ Apfel mit Wurm mehr als 10% betr¨agt. Um die Behauptung zu ¨ uberpr¨ ufen, will ein Kunde einen statistischen Test zum Signifikanzniveau 5% durchf¨ uhren. Dazu entnimmt er einer Kiste zuf¨allig n = 10 ¨ Apfel. Ab wie vielen wurmstichigen ¨ Apfeln in der Stichprobe kann man die Behauptung des Obsth¨andlers widerlegen? 1. Mit p = Anteil der ¨ Apfel mit Wurm formulieren wir den Test f¨ ur H 0 : p = 0, 10 gegen H 1 : p > 0, 10. 2. Signifikanzniveau: α = 0, 05 3. Sei X: Anzahl der ¨ Apfel mit Wurm in der Stichprobe (vom Umfang n = 10). Unter der Annahme, dass H 0 richtig (p = 0, 10) ist, gilt X ∼ B(10; 0, 1), da man X als Ergebnis einer 10-maligen Wiederholung eines Bernoulli-Experiments auffassen kann. Die i-te Durchf¨ uhrung des Experiments stellt man durch eine Bernoulli-Variable X i = ⎧ ⎨ ⎩ 1 Apfel mit Wurm 0 sonst dar. Somit besizt X = 10 ∑ i=1 X i den Wertebereich { 0, 1, · · · , 10 } . 13.2. Exakter Binomialtest 243 4. Unter der Voraussetzung, dass p = 0, 10 gilt, kann man die Wahrscheinlichkeit, dass X einen Wert x ∈ { 0, 1, · · · , 10 } annimmt, angeben. (Bedingte Wahrscheinlichkeit! ) Sie lautet: P (X = x | p = 0, 10) = ( 10 x ) 0, 10 x · 0, 90 10 − x Tabelle 13.2 gibt diese Wahrscheinlichkeiten (gerundet) wieder. 5. Die Nullhypothese wird man ablehnen, wenn die Anzahl der ¨ Apfel mit Wurm in der Stichprobe gr¨oßer als eine bestimmte Anzahl k (0 ≤ k ≤ 10) ist. Deshalb teilen wir den Wertebereich von X in den Ablehnungsbereich B = { k, k + 1, . . . , 10 } und den Annahmebereich ¯ B = { 0, 1, . . . , k − 1 } auf. Gem¨aß (13.6) wird k so bestimmt, dass P (X ≥ k | p = 0, 10) ≤ 0, 05 gilt. Aus Tabelle 13.2 entnehmen wir: P (4 ≤ X ≤ 10) = 0, 01 < 0, 05 und P (3 ≤ X ≤ 10) = 0, 07 > 0, 05 Die Grenze ist somit bei k = 4 zu ziehen. Damit werden der kritische Bereich B = { 4, 5, 6, 7, 8, 9, 10 } und der Annahmebereich ¯ B = { 0, 1, 2, 3 } festgelegt. Man wird sich f¨ ur die Alternativ- und gegen die Nullhypothese entscheiden, wenn sich in der Stichprobe vom Umfang n = 10 mindestens vier ¨ Apfel mit Wurm befinden. 244 13. Statistische Testverfahren X 0 1 2 3 4 5 . . . 10 P (X = x | p = 0, 10) 0,35 0,39 0,19 0,06 0,01 0. . . 0 Tabelle 13.2.: Die Wahrscheinlichkeiten f¨ ur X ∼ B(10; 0, 1) Im Falle der Ablehnung sagt man, H 1 sei signifikant, d. h. die Daten sprechen f¨ ur H 1 . Mit anderen Worten: Wenn H 0 richtig ist, ist es sehr unwahrscheinlich, dass man mehr als vier ¨ Apfel mit Wurm in der Stichprobe vorfindet. Nun wollen wir den im obigen Beispiel 13.1 durchgef¨ uhrten Test allgemein formulieren. Um die Hypothesen H 0 : p = p 0 gegen H 1 : p > p 0 (13.7) zu ¨ uberpr¨ ufen, wird eine Stichprobe vom Umfang n gezogen. Eine solche Stichprobe l¨asst sich durch unabh¨angig und identisch verteilte Zufallsvariablen X 1 , . . . , X n mit X i = ⎧ ⎨ ⎩ 1 Treffer 0 sonst darstellen. Als Testgr¨oße dient die Zufallsvariable X = n ∑ i=1 X i mit dem Wertebereich { 0, 1, · · · , n } . X gibt die Anzahl der Treffer in der Stichprobe wieder. Sind ”zu viele“ Treffer in der Stichprobe, dann wird man H 0 ablehnen. Das heißt: Liegt x = ∑ n i=1 x i (der konkrete, aus der vorliegenden Stichprobe errechnete Wert von X) im Ablehnungsbereich B = { k, k + 1, . . . , n } , (13.8) dann wird man H 0 ablehnen (0 ≤ k ≤ n). (Das Komplement ¯ B = { 0, 1, . . . , k − 1 } bildet entsprechend den Annahmebereich.) Mit X als Testgr¨oße bestimmt man B so, dass P (X ∈ B | p = p 0 ) ≤ α (13.9) 13.2. Exakter Binomialtest 245 gilt. Unter der Voraussetzung, dass p = p 0 gilt, ist X ∼ B(n; p 0 ). Das heißt: Die Wahrscheinlichkeit, dass X einen Wert x ∈ { 0, 1, · · · , n } annimmt, ergibt sich gem¨aß P (X = x | p = p 0 ) = ( n x ) p x 0 (1 − p 0 ) n − x . (Deshalb heißt der Test Binomialtest.) Somit kann man die Bedingung (13.9) in der Form n ∑ x=k ( n x ) p x 0 (1 − p 0 ) n − x ≤ α (13.10) schreiben. Die Grenze k wird dann so bestimmt, dass α nicht ¨ uberschritten wird. Da X eine diskrete Zufallsvariable ist, wird in der Regel k derjenige Wert sein, f¨ ur den P (X ≥ k | p = p 0 ) < α und P (X ≥ k − 1 | p = p 0 ) > α gelten. Zusammengefasst besteht der Binomialtest aus folgenden Schritten: 1. Festlegen der Hypothesen: H 0 : p = p 0 gegen H 1 : p > p 0 2. Festlegen des Signifikanzniveaus: α 3. Pr¨ ufgr¨oße X: Anzahl der Treffer in der Stichprobe 4. Wenn H 0 richtig ist, gilt X ∼ B(n; p 0 ). 5. Ablehnungsbereich: B = { k, k + 1, . . . , n } 6. Berechnung von x aus der gezogenen Stichprobe 7. Entscheidung: Ist x ∈ B, dann wird H 0 abgelehnt. H 1 ist signifikant. Andernfalls lehnt man H 0 nicht ab. 246 13. Statistische Testverfahren Aufgrund der gleichen ¨ Uberlegungen wie f¨ ur die Hypothesen in (13.7) und wegen der Symmetrieeigenschaft der Binomialverteilung erh¨alt man f¨ ur den Test f¨ ur die Hypothese H 0 : p = p 0 gegen H 1 : p < p 0 (13.11) als Ablehnungsbereich die Menge B = { 0, 1, . . . , k } . (13.12) (H 0 wird abgelehnt, wenn sich in der Stichprobe ”zu wenige“ Treffer befinden.) Der kritische Wert k wird entsprechend so festgelegt, dass die Bedingung P (X ∈ B | p = p 0 ) = k ∑ x=0 ( n x ) p x 0 (1 − p 0 ) n − x ≤ α (13.13) erf¨ ullt ist. Im Allgemeinen ist k derjenige Wert, f¨ ur den P (X ≤ k | p = p 0 ) < α und P (X ≤ k + 1 | p = p 0 ) > α gilt. Betrachten wir nun das kommende Beispiel als Einf¨ uhrung zum zweiseitigen Binomialtest. Beispiel 13.2 In einer Packung soll der Anteil der roten Gummib¨archen 25% sein. Man vermutet, dass dieser Anteilswert nicht eingehalten wird. Zur ¨ Uberpr¨ ufung werden einer zuf¨allig ausgew¨ahlten Packung n = 20 Gummib¨archen entnommen. Darunter befinden sich 13 rote. Als Entscheidungsinstrument dient ein Signifikanztest zum Niveau 0,01. 1. Hypothesen: H 0 : p = 0, 25 gegen H 1 : p = 0, 25 2. Signifikanzniveau: α = 0, 01; Stichprobenumfang: n = 20 3. Testgr¨oße X: Anzahl der roten Gummib¨archen in der Stichprobe 4. Unter H 0 (p = 0, 25) gilt: X ∼ B(20; 0, 25) Das heißt: P (X = x | p = 0, 25) = ( 20 x ) 0, 25 x · 0, 75 20 − x 13.2. Exakter Binomialtest 247 5. Man wird die Nullhypothese verwerfen, wenn man entweder ”zu wenige“ oder ”zu viele“ rote Gummib¨archen in der Stichprobe findet. Deshalb lautet der Ablehnungsbereich (k 0 < k 1 ) B = { 0, 1, . . . , k 0 } ∪ { k 1 , k 1 + 1 . . . , 20 } . Der Annahmebereich ist somit durch die Menge ¯ B = { k 0 + 1, . . . , k 1 − 1 } gegeben. Die Grenzen k 0 und k 1 werden so bestimmt, dass P (X ≤ k 0 | p = 0, 25) + P (X ≥ k 1 | p = 0, 25) ≤ 0, 01 gilt. Die Aussage ist ¨aquivalent zu k 0 ∑ x=0 ( 20 x ) 0, 25 x · 0, 75 20 − x + 20 ∑ x=k 1 ( 20 x ) 0, 25 x · 0, 75 20 − x ≤ 0, 01. Die Wahrscheinlichkeit α = 0, 01 teilt man so auf, dass P (X ∈ { 0, 1, . . . , k 0 } | p = 0, 25) ≤ 0, 005 und P (X ∈ { k 1 , k 1 + 1, . . . , 20 } | p = 0, 25) ≤ 0, 005 gelten. Aus der Binomialverteilungstabelle entnehmen wir P (X = 0 | p = 0, 25) = 0, 0032 < 0, 005 und P (X ≤ 1 | p = 0, 25) = 0, 0243 > 0, 005. Daraus folgt: k 0 = 0. ¨ Ahnlich erhalten wir k 1 = 11, da P (X ≥ 11 | p = 0, 25) = 0, 0039 < 0, 005 und P (X ≥ 10 | p = 0, 25) = 0, 0139 > 0, 005. Der Ablehnungsbereich lautet somit: B = { 0 } ∪ { 11, 12, . . . , 20 } 248 13. Statistische Testverfahren Das heißt: Wenn tats¨achlich 25% der Gummib¨archen rot sind, ist es unwahrscheinlich, dass man unter 20 zuf¨allig entnommenen Gummib¨archen kein rotes oder mehr als 11 rote erh¨alt. Da in der gezogenen Stichprobe sich x = 13 rote Gummib¨archen befinden, wird H 0 abgelehnt. Die Hypothesen im Beispiel 13.2 k¨onnen wir allgemein wie folgt hinschreiben: H 0 : p = p 0 H 1 : p = p 0 (13.14) In diesem Fall wird man H 0 ablehnen, wenn sich in der Stichprobe ”zu wenige“ oder ”zu viele“ Treffer befinden. Deshalb lautet der Ablehnungsbereich (k 0 < k 1 ): B = { 0, 1, . . . , k 0 } ∪ { k 1 , k 1 + 1, . . . , n } (13.15) Der Annahmebereich lautet: ¯ B = { k 0 , k 0 + 1, . . . , k 1 − 1 } (13.16) B bestimmt man so, dass k 0 ∑ x=0 ( n x ) p x 0 (1 − p 0 ) n − x + n ∑ x=k 1 ( n x ) p x 0 (1 − p 0 ) n − x ≤ α (13.17) gilt. Die Grenzen k 0 und k 1 werden so festgelegt, dass die Voraussetzungen P (X ∈ { 0, 1, . . . , k 0 }| p = p 0 ) ≤ α 2 und P (X ∈ { k 1 , k 1 + 1, . . . , n }| p = p 0 ) ≤ α 2 erf¨ ullt sind. 13.2. Exakter Binomialtest 249 Zusammengefasst hat man beim zweiseitigen Binomialtest die folgenden Arbeitsschritte: 1. Festlegen der Hypothesen: H 0 : p = p 0 gegen H 1 : p = p 0 2. Festlegen des Signifikanzniveaus: α 3. Pr¨ ufgr¨oße X: Anzahl der Treffer in der Stichprobe 4. Wenn H 0 richtig ist, gilt X ∼ B(n; p 0 ). 5. Ablehnungsbereich: B = { 0, 1, . . . , k 0 } ∪ { k 1 , k 1 + 1, . . . , n } 6. Berechnung von x aus der gezogenen Stichprobe 7. Entscheidung: Ist x ∈ B, dann wird H 0 abgelehnt. H 1 ist signifikant. Andernfalls beh¨alt man H 0 bei. Der Ablehnungsbereich (13.8) bleibt weiterhin f¨ ur den Signifikanztest H 0 : p ≤ p 0 gegen H 1 : p > p 0 (13.18) g¨ ultig, denn es gilt: P (k ≤ X ≤ n | p ≤ p 0 ) ≤ P (k ≤ X ≤ n | p = p 0 ) ≤ α (Je weniger ”Treffer“ sich in der Grundgesamtheit befinden, umso kleiner ist die Chance, ”viele Treffer“ in der Stichprobe zu erhalten.) Ebenso gilt nach den gleichen ¨ Uberlegungen der in (13.12) angegebene Ablehnungsbereich f¨ ur den Test H 0 : p ≥ p 0 gegen H 1 : p < p 0 . (13.19) F¨ ur die Bestimmung des Ablehnungsbereiches reicht somit die Verteilung der Testgr¨oße an der Stelle p = p 0 aus. 250 13. Statistische Testverfahren 13.3. Approximativer Binomialtest Im exakten Binomialtest ist die Testgr¨oße X: Anzahl der Erfolge in der Stichprobe an der Stelle p = p 0 binomialverteilt mit den Parametern n und p 0 . Insbesondere bedeutet dies: Wenn H 0 vorliegt, ist np 0 die erwartete Trefferzahl in der Stichprobe. Nach dem Grenzwertsatz von de Moivre l¨asst sich f¨ ur großes n (Faustregel: np ≥ 5 und n(1 − p) ≥ 5) die B(n, p)-Verteilung durch die Normalverteilung mit μ = np und σ 2 = np(1 − p) approximieren. F¨ ur großes n, falls p = p 0 , gilt somit: Z = X − np 0 √ np 0 (1 − p 0 ) ∼ a N (0; 1) (13.20) Folglich kann man mit Z als Pr¨ ufgr¨oße den Ablehnungsbereich des Binomialtests ¨ uber die Normalverteilung ann¨ahern. Bei dem einseitigen Test zum Niveau α f¨ ur H 0 : p ≤ p 0 gegen H 1 : p > p 0 (13.21) wird man H 0 ablehnen, wenn X ”zu groß“ ist, d. h., wenn X − np 0 > δ. Es gilt: X − np 0 > δ ⇔ Z > δ √ np 0 (1 − p 0 ) Also wird man H 0 ablehnen, wenn z ∈ B = { z : z > δ √ np 0 (1 − p 0 ) } . Den Ablehnungsbereich B bestimmt man so, dass P ( Z > δ √ np 0 (1 − p 0 ) | p = p 0 ) = α (13.22) gilt. Hier kann α wegen der Stetigkeit der Normalverteilung ganz ausgesch¨opft werden. Wegen P ( Z > δ √ np 0 (1 − p 0 ) | p = p 0 ) = 1 − P ( Z ≤ δ √ np 0 (1 − p 0 ) | p = p 0 ) 13.3. Approximativer Binomialtest 251 und P ( Z ≤ δ √ np 0 (1 − p 0 ) | p = p 0 ) = Φ ( δ √ np 0 (1 − p 0 ) ) ist (13.22) ¨aquivalent zu 1 − Φ ( δ √ np 0 (1 − p 0 ) ) = α ⇔ Φ ( δ √ np 0 (1 − p 0 ) ) = 1 − α. Diese Gleichung gilt genau dann, wenn δ √ np 0 (1 − p 0 ) = z 1 − α . Damit lautet der Ablehnungsbereich: B = { z : z > z 1 − α } =]z 1 − α ; ∞ [ (13.23) F¨ ur den Test (zum Niveau α) f¨ ur H 0 : p ≥ p 0 gegen H 1 : p < p 0 (13.24) lautet wegen der Symmetrie der Normalverteilung der Ablehnungsbereich B = { z : z < − z 1 − α } =] − ∞ ; − z 1 − α [. (13.25) F¨ ur den zweiseitigen Test (zum Niveau α) H 0 : p = p 0 gegen H 1 : p = p 0 (13.26) wird man H 0 ablehnen, wenn X ”zu weit“ von np 0 entfernt liegt, d. h., wenn | X − np 0 | > δ bzw. | Z | > δ √ np 0 (1 − p 0 ). Mit Z als Testgr¨oße bestimmt man den Ablehnungsbereich B so, dass P ( | Z | > δ √ np 0 (1 − p 0 ) | p = p 0 ) = α (13.27) gilt. 252 13. Statistische Testverfahren Die Gleichung (13.27) ist ¨aquivalent zu P ( Z < − δ √ np 0 (1 − p 0 ) | p = p 0 ) +P ( Z > δ √ np 0 (1 − p 0 ) | p = p 0 ) = α. Wegen der Symmetrie der Normalverteilung teilt man α in zwei H¨alften so, dass P ( Z < − δ √ np 0 (1 − p 0 ) | p = p 0 ) = α/ 2 (13.28) und P ( Z > δ √ np 0 (1 − p 0 ) | p = p 0 ) = α/ 2 (13.29) Gleichung (13.28) ist ¨aquivalent zu Φ ( − δ √ np 0 (1 − p 0 ) ) = α/ 2. Wegen Φ ( − δ √ np 0 (1 − p 0 ) ) = 1 − Φ ( δ √ np 0 (1 − p 0 ) ) ist δ √ np 0 (1 − p 0 ) = z 1 − α/ 2 . Der Ablehnungsbereich ist somit gegeben durch B =] − ∞ ; − z 1 − α/ 2 [ ∪ ]z 1 − α/ 2 ; ∞ [. (13.30) Beispiel 13.3 Ein Autor hat im Magazin der S¨ uddeutschen Zeitung (Nummer 35, 2. September 2011) geschrieben, 80% aller Geisterfahrer auf deutschen Radwegen seien Frauen. Er stellte im Sommer 2011 fest, dass 82% der Geisterfahrer auf Radwegen tats¨achlich Frauen sind. Nehmen wir an, er habe 100 Geisterfahrer beobachtet. Kann man seine Hypothese zum Signifikanzniveau von 5% verwerfen? 1. Hypothesen: H 0 : p = 0, 80 gegen H 1 : p < 0, 80. 2. Signifikanzniveau: α = 0, 05, Stichprobenumfang: n = 100. 13.3. Approximativer Binomialtest 253 3. Wegen np 0 = 100 · 0, 8 = 80 > 5 und n(1 − p 0 ) = 100(1 − 0, 8) = 20 > 5 kann man die B(100; 0, 8)durch die N (80; √ 16)-Verteilung ann¨ahern. F¨ ur die Testgr¨oße X: Anzahl der Frauen unter den beobachteten Geisterfahrern gilt unter H 0 somit: Z = X − 80 √ 16 ∼ a N (0; 1) 4. F¨ ur α = 0, 05 ist z 1 − α = z 0,95 = 1, 64. Somit lautet der Ablehnungsbereich B = { z : z < − 1, 64 } . 5. 82 von 100 beobachteten Geisterfahrern sind Frauen. Daraus ergibt sich z = 82 − 80 √ 16 = 0, 5. 6. Da z / ∈ B wird H 0 nicht abgelehnt. Die Vermutung, dass Falschfahrer auf deutschen Radwegen ¨ uberwiegend Frauen sind, wird nicht widerlegt. Das bedeutet jedoch nicht, dass sie best¨atigt wird. Der Fehler 2. Art, den man nicht kennt, k¨onnte sich eingeschlichen haben! 254 13. Statistische Testverfahren Die folgende ¨ Ubersicht fasst die Tests zusammen: Approximativer Binomialtest Voraussetzung: großes n (Faustregel: np ≥ 5 und n(1 − p) ≥ 5) 1. Hypothesen: a) H 0 : p ≤ p 0 H 1 : p > p 0 b) H 0 : p ≥ p 0 H 1 : p < p 0 c) H 0 : p = p 0 H 1 : p = p 0 2. Signifikanzniveau: α 3. Wenn p = p 0 , gilt f¨ ur X: Anzahl der Treffer in der Stichprobe : X = n ∑ i =1 X i ∼ a N ( np 0 ; √ np 0 (1 − p 0 ) ) bzw. Z = X − np 0 √ np 0 (1 − p 0 ) ∼ a N (0; 1). 4. Mit Z als Pr¨ ufgr¨oße lautet der Ablehnungsbereich in a) B = { z : z > z 1− α } . b) B = { z : z < − z 1− α } . c) B = ] − ∞ ; − z 1− α/ 2 [ ∪ ] z 1− α/ 2 ; ∞ [ . 5. Berechne z aus der vorliegenden Stichprobe. 6. Entscheidungsregel: Ist z ∈ B, dann wird H 0 abgelehnt. 13.4. Gauß-Test f¨ ur den Erwartungswert Der Name Gauß wird in der mathematischen Statistik stets mit der Normalverteilung verbunden. So handelt es sich in diesem Abschnitt um Tests f¨ ur Hypothesen ¨ uber den Erwartungswert einer N (μ; σ)- Verteilung. Dabei setzen wir voraus, dass die Varianz σ 2 bekannt ist. In einem Gauß-Test ist die Testgr¨oße (wie sollte es auch anders sein) unter H 0 normalverteilt. Die Stetigkeit der Normalverteilung erlaubt uns, α in der Bestimmungsungleichung (13.6) ganz auszusch¨opfen. (Das heißt: ”=“ ist m¨oglich.) 13.4. Gauß-Test f¨ ur den Erwartungswert 255 x μ 0 − δ μ 0 μ 0 + δ ¯ B B B Abbildung 13.1.: Ablehnungsbereich B bzw. Annahmebereich ¯ B Zu einem vorgegebenen Signifikanzniveau α will man die Nullhypothese H 0 : μ = μ 0 gegen H 1 : μ = μ 0 (13.31) testen. Aussagekr¨aftige Informationen ¨ uber den Erwartungswert gibt bekanntlich der Stichprobenmittelwert ¯ X = 1 n ∑ n i=1 X i . Deshalb wird man sich f¨ ur H 1 entscheiden, wenn ¯ X stark von μ 0 abweicht. Das heißt: Wenn ∣ ∣ ¯ X − μ 0 ∣ ∣ > δ ⇔ ¯ X ∈ ] − ∞ ; μ 0 − δ [ ∪ ] μ 0 + δ ; ∞ [ , (13.32) werden wir H 0 ablehnen. Die Intervalle ] − ∞ ; μ 0 − δ [ ∪ ] μ 0 + δ ; ∞ [ = B (13.33) bilden somit den Ablehnungsbereich, und das Intervall ¯ B = [ μ 0 − δ; μ 0 + δ ] (13.34) bildet den Annahmebereich des Tests (siehe Abbildung 13.1). B ist so zu bestimmen, dass P ( ¯ X ∈ B | μ = μ 0 ) = α (13.35) gilt. Wenn die Nullhypothese H 0 : μ = μ 0 richtig ist, gilt ¯ X ∼ N ( μ 0 ; σ √ n ) (13.36) bzw. Z = ¯ X − μ 0 σ/ √ n ∼ N (0; 1). (13.37) Um B zu bestimmen, schreiben wir die Bedingung (13.35) wie folgt um: P ( ¯ X < μ 0 − δ | μ = μ 0 ) + P ( ¯ X > μ 0 + δ | μ = μ 0 ) = α (13.38) 256 13. Statistische Testverfahren bzw. P ( Z < − δ σ/ √ n | μ = μ 0 ) + P ( Z > δ σ/ √ n | μ = μ 0 ) = α (13.39) Wegen der Symmetrie der Normalverteilung teilt man α in zwei H¨alften so, dass P ( Z < − δ σ/ √ n | μ = μ 0 ) = α/ 2 (13.40) und P ( Z > δ σ/ √ n | μ = μ 0 ) = α/ 2 (13.41) gelten. Aus (13.40) und wegen P ( Z < − δ σ/ √ n | μ = μ 0 ) = Φ ( − δ σ/ √ n ) gilt: − δ σ/ √ n = z α/ 2 ⇒ − δ = z α/ 2 σ √ n Aus (13.41) und wegen P ( Z > δ σ/ √ n | μ = μ 0 ) = 1 − Φ ( δ σ/ √ n ) ⇔ Φ ( δ σ/ √ n ) = 1 − α/ 2 folgt: δ σ/ √ n = z 1 − α/ 2 ⇒ δ = z 1 − α/ 2 σ √ n Mit z α/ 2 = − z 1 − α/ 2 lautet der Ablehnungsbereich B = ] − ∞ ; μ 0 − z 1 − α/ 2 σ √ n [ ∪ ] μ 0 + z 1 − α/ 2 σ √ n ; ∞ [ (13.42) bzw. der Annahmebereich ¯ B = [ μ 0 − z 1 − α/ 2 σ √ n; μ 0 + z 1 − α/ 2 σ √ n ] . (13.43) (Vgl. Abbildung 13.2.) 13.4. Gauß-Test f¨ ur den Erwartungswert 257 μ 0 − z 1 − α/ 2 σ √ n B α 2 1 − α μ 0 + z 1 − α/ 2 σ √ n B α 2 x μ 0 Abbildung 13.2.: Dichtefunktion von ¯ X unter H 0 mit dem Ablehnungsbereich B Zweiseitiger Gauß-Test 1. Festlegen der Hypothesen: H 0 : μ = μ 0 gegen H 1 : μ = μ 0 2. Festlegen des Signifikanzniveaus: α 3. Festlegen der Teststatistik ¯ X = 1 n ∑ n i =1 X i 4. Wenn H 0 richtig ist, gilt ¯ X ∼ N ( μ 0 ; σ √ n ) . 5. Bestimmung des Ablehnungsbereichs: B = ] − ∞ ; μ 0 − z 1− α/ 2 σ √ n [ ∪ ] μ 0 + z 1− α/ 2 σ √ n ; ∞ [ 6. Berechnung von ¯ x aus der gezogenen Stichprobe. 7. Entscheidung: Ist ¯ x ∈ B, dann wird H 0 abgelehnt; H 1 ist signifikant. Andernfalls lehnt man H 0 nicht ab. 258 13. Statistische Testverfahren − z 1 − α 2 α 2 1 − α z 1 − α 2 α 2 x 0 Abbildung 13.3.: Dichtefunktion von Z und der Ablehnungsbereich f¨ ur Z : { z : | z | ≥ z 1− α/ 2 } Man kann ebenso mit Hilfe von Z eine Entscheidung treffen (siehe Abbildung 13.3). Die Nullhypothese wird dann abgelehnt, wenn z = ¯ x − μ 0 σ/ √ n ∈ ] − ∞ ; − z 1 − α/ 2 [ ∪ ] z 1 − α/ 2 ; ∞ [ . Beispiel 13.4 In einer Molkerei f¨ ullen Maschinen Milch in 1-Liter-Flaschen ab. Bei einer der Abf¨ ullmaschinen besteht der Verdacht, dass diese nicht korrekt abf¨ ullt. Um die Vermutung zu ¨ uberpr¨ ufen, wird ein statistischer Test zum Signifikanzniveau 0,05 durchgef¨ uhrt. Die Abf¨ ullmenge kann man als eine normalverteilte Zufallsvariable mit einer Standardabweichung von 10 ml ansehen. Aus 16 abgef¨ ullten Flaschen, die zuf¨allig entnommen wurden, wurde ein Mittelwert von 992,5 ml gemessen. Kann man dieses Ergebnis f¨ ur zuf¨allig halten? 1. Hypothesen (in ml): H 0 : μ = 1000 H 1 : μ = 1000 2. Signifikanzniveau: α = 0, 05 3. Wenn H 0 richtig ist, gilt ¯ X ∼ N ( 1000; 10 √ 16 ) . 4. F¨ ur die Bestimmung des Ablehnungsbereichs ermitteln wir z 1 − α/ 2 = z 0,975 = 1, 96 13.4. Gauß-Test f¨ ur den Erwartungswert 259 und z 1 − α/ 2 σ √ n = 1, 96 · 10 √ 16 = 4, 9. Der Ablehnungsbereich lautet somit B = ] − ∞ ; 1000 − 4, 9 [ ∪ ] 1000 + 4, 9 ; ∞ [ = ] − ∞ ; 995, 1 [ ∪ ] 1004, 9 ; ∞ [ . 5. Da ¯ x = 992, 5 ∈ B, wird H 0 abgelehnt. H 1 ist signifikant. Die Abweichung ist deutlich genug, um sie nicht als zuf¨allig einstufen zu k¨onnen. Die Wahrscheinlichkeit, dass diese Entscheidung falsch ist, betr¨agt h¨ochstens 0,05. Eine Entscheidung ¨ uber Z f¨ uhrt selbstverst¨andlich zum selben Ergebnis: z = 992, 5 − 1000 10/ √ 16 = − 3 ∈ ] − ∞ ; − 1, 96 [ ∪ ] 1, 96 ; ∞ [ Betrachten wir nun den Gauß-Test f¨ ur die Hypothese H 0 : μ = μ 0 gegen H 1 : μ > μ 0 (13.44) Die Nullhypothese H 0 wird man ablehnen, wenn der Stichprobenmittelwert ”zu groß“ ist, d. h. wenn ¯ X − μ 0 > δ. (13.45) Folglich lehnt man H 0 ab, wenn ¯ x in den Ablehnungsbereich B = ] μ 0 + δ ; ∞ [ (13.46) f¨allt. B wird so bestimmt, dass P ( ¯ X ∈ B ∣ ∣ μ = μ 0 ) = α (13.47) gilt. Wegen ¯ X ∈ B ⇔ ¯ X − μ 0 > δ ist (13.47) ¨aquivalent zu P ( ¯ X − μ 0 > δ ∣ ∣ μ = μ 0 ) = P ( Z > δ σ/ √ n ∣ ∣ μ = μ 0 ) = 1 − Φ ( δ σ/ √ n ) = α 260 13. Statistische Testverfahren Daraus folgt: δ σ/ √ n = z 1 − α ⇒ δ = z 1 − α σ √ n H 0 wird dann abgelehnt, wenn ¯ x im Ablehnungsbereich B = ] μ 0 + z 1 − α σ √ n ; ∞ [ (13.48) liegt. (Siehe Abbildung 13.4.) Die alternative Entscheidungsregel mit Hilfe von Z lautet: Lehne H 0 ab, wenn z ∈ ] z 1 − α ; ∞ [ . Einseitiger Gauß-Test 1. Formulierung der Hypothesen: H 0 : μ = μ 0 H 1 : μ > μ 0 2. Festlegen des Signifikanzniveaus: α 3. Testgr¨oße: ¯ X = 1 n ∑ n i =1 X i 4. Wenn H 0 richtig ist, gilt ¯ X ∼ N ( μ 0 ; σ √ n ) . 5. Bestimmung des Ablehnungsbereichs: B = ] μ 0 + z 1− α σ √ n ; ∞ [ (Annahmebereich ¯ B = ] − ∞ ; μ 0 + z 1− α σ √ n ] ) 6. Berechnung von ¯ x aus der gezogenen Stichprobe. 7. Entscheidung: Ist ¯ x ∈ B ⇒ H 0 wird abgelehnt; H 1 ist signifikant. Andernfalls lehnt man H 0 nicht ab. 8. Entscheidung mit Hilfe von Z: Lehne H 0 ab, wenn z = ¯ x − μ 0 σ/ √ n ∈ ]z 1− α ; ∞ [. 13.4. Gauß-Test f¨ ur den Erwartungswert 261 Beispiel 13.5 Greifen wir auf das Beispiel 13.4 zur¨ uck und testen die Nullhypothese H 0 : μ = 1000 gegen H 1 : μ > 1000, d. h. ”Die Maschine f¨ ullt zu viel ab“. Dabei behalten wir das Signifikanzniveau α = 0, 05 bei. Aus der Stichprobe hat man ¯ x = 992, 5 ermittelt. 1. Hypothesen: H 0 : μ = 1000 H 1 : μ > 1000 2. Signifikanzniveau: α = 0, 05 3. Wenn H 0 richtig ist, gilt ¯ X ∼ N ( 1000; 10 √ 16 ) . 4. F¨ ur die Bestimmung des Ablehnungsbereichs ermitteln wir z 1 − α = z 0,95 = 1, 64 und μ 0 + z 1 − α σ √ n = 1000 + 1, 64 · 10 4 = 1004, 1. Der Ablehnungsbereich ist somit B =]1004, 1 ; ∞ [. 5. Da ¯ x = 992, 5 / ∈ B bzw. z = 992, 5 − 1000 10 · 4 = − 3 / ∈ ]1, 64 ; ∞ [ wird H 0 nicht abgelehnt. Dieses Ergebnis ist nicht signifikant; es besagt lediglich, dass gegen die Nullhypothese nichts einzuwenden ist. Wegen der Symmetrie k¨onnen wir f¨ ur das 3. Hypothesenpaar H 0 : μ = μ 0 H 1 : μ < μ 0 (13.49) den Ablehnungsbzw. Annahmebereich einfach angeben: B = ] − ∞ ; μ 0 − z 1 − α σ √ n [ (13.50) 262 13. Statistische Testverfahren bzw.: ¯ B = [ μ 0 − z 1 − α σ √ n ; ∞ [ (13.51) (Siehe Abbildung 13.4.) Man wird H 0 ablehnen, wenn sich ¯ X zu weit links von μ 0 befindet. Die Entscheidungsregel mit Hilfe von Z lautet: Lehne H 0 ab, wenn z ∈ ] − ∞ ; − z 1 − α [ . Beispiel 13.6 Im Anschluss an das Beispiel 10.17 betrachten wir X: Inhalt der Maßkr¨ uge auf dem Oktoberfest in M¨ unchen als eine normalverteilte Zufallsvariable mit dem Erwartungswert 1000 ml und der Standardabweichung 10 ml. Die Kontrollbeh¨orde der Stadt M¨ unchen ¨ uberpr¨ uft stichprobenartig, ob die Biermenge vorschriftm¨aßig eingeschenkt wird. Bei einer Kontrolle wurde aus 16 Bierkr¨ ugen ein Mittelwert von 992 ml ermittelt. Zum Signifikanzniveau von 1% wollen wir ¨ uberpr¨ ufen, ob dieses Ergebnis rein zuf¨allig ist. 1. Hypothesen: H 0 : μ = 1000 H 1 : μ < 1000 2. Signifikanzniveau: α = 0, 01 3. Wenn H 0 richtig ist, gilt ¯ X ∼ N ( 1000; 10 √ 16 ) . 4. F¨ ur die Bestimmung des Ablehnungsbereichs ermitteln wir z 1 − α = z 0,99 = 2, 33 und μ 0 − z 1 − α σ √ n = 1000 − 2, 33 · 10 4 = 994, 34. Der Ablehnungsbereich ist somit B =] − ∞ ; 994, 34[. 5. Da ¯ x = 992 ∈ B bzw. z = 992 − 1000 10 · 4 = − 3, 2 ∈ ] −∞ ; − 2, 33[ wird H 0 abgelehnt. 13.4. Gauß-Test f¨ ur den Erwartungswert 263 Das Ergebnis ist signifikant; die Daten sprechen daf¨ ur, dass zu wenig eingeschenkt wird. Die Wahrscheinlichkeit, dass man die Nullhypothese zu Unrecht ablehnt, betr¨agt h¨ochstens 0,01. F¨ ur die zusammengesetzte Nullhypothese H 0 : μ ≤ μ 0 gegen H 1 : μ > μ 0 gilt derselbe Ablehnungsbereich (13.48) wie f¨ ur den einfachen Fall (13.44), weil f¨ ur Z unter H 0 gilt (vgl. Abbildung 13.5): P ( Z > δ σ √ n | μ < μ 0 ) < P ( Z > δ σ √ n | μ = μ 0 ) = α (13.52) 1 − α α x μ 0 μ 0 + z 1 − α σ √ n B 1 − α α μ 0 − z 1 − α σ √ n x μ 0 B Abbildung 13.4.: Dichtefunktion von ¯ X unter H 0 mit dem Ablehnungsbereich B in den F¨allen H 1 : μ < μ 0 (obere Grafik) bzw. H 1 : μ > μ 0 (untere Grafik) 264 13. Statistische Testverfahren α x μ 0 μ Abbildung 13.5.: Die Wahrscheinlichkeit f¨ ur den Fehler 1. Art in Abh¨angigkeit von μ ≤ μ 0 Entsprechend besitzt der Test f¨ ur das Hypothesenpaar H 0 : μ ≥ μ 0 gegen H 1 : μ < μ 0 denselben Ablehnungsbereich (13.50) wie der Test (13.49). Ebenso wie bei den Binomialtests braucht man f¨ ur die Bestimmung des Ablehnungsbereiches nur den Parameter μ 0 am ”Rand“ der Nullhypothese. 13.5. t-Test f¨ ur den Erwartungswert Um den Gauß-Test anwenden zu k¨onnen, muss man die Varianz kennen. In der Regel kennt man sie jedoch nicht. Wie geht man nun vor, wenn man Hypothesen ¨ uber μ einer N (μ; σ)-Verteilung mit einem unbekannten σ ¨ uberpr¨ ufen will? Uns ist der erwartungstreue Sch¨atzer S 2 f¨ ur σ 2 bekannt, und aus der Intervallsch¨atzung im Abschnitt 12.5.1 wissen wir, dass f¨ ur eine N (μ; σ)-verteilte Zufallsvariable X mit unbekanntem σ gilt: T = ¯ X − μ S/ √ n ∼ t(n − 1) Diese Tatsache werden wir im Folgenden f¨ ur die bereits erw¨ahnte Testaufgabe auch nutzen. Wir formulieren zun¨achst die uns interessierenden Hypothesen: H 0 : μ = μ 0 gegen H 1 : μ = μ 0 (13.53) 13.5. t-Test f¨ ur den Erwartungswert 265 H 0 : μ ≤ μ 0 gegen H 1 : μ > μ 0 (13.54) H 0 : μ ≥ μ 0 gegen H 1 : μ < μ 0 (13.55) Als Testgr¨oße k¨onnen wir die T -Statistik T = ¯ X − μ 0 S/ √ n (13.56) verwenden. Wenn μ = μ 0 vorliegt, gilt: T ∼ t(n − 1) (13.57) Da die t-Verteilung wie die Standardnormalverteilung symmetrisch um Null ist, kann man den t-Test v¨ollig analog zum Gauß-Test herleiten. Im zweiseitigen Gauß-Test lehnt man H 0 ab, wenn | Z | > z 1 − α/ 2 . Dabei ist z 1 − α/ 2 das (1 − α/ 2)-Quantil (Fraktil) der N (0; 1)-Verteilung. Entsprechend wird H 0 im zweiseitigen Fall (13.53) abgelehnt, wenn | T | > t 1 − α/ 2; n − 1 , wobei t 1 − α/ 2; n − 1 das (1 − α/ 2)-Quantil der t(n − 1)-Verteilung bezeichnet. Somit erhalten wir den Ablehnungsbereich B = ] − ∞ ; − t 1 − α/ 2; n − 1 [ ∪ ] t 1 − α/ 2; n − 1 ; ∞ [ . (13.58) Auf die gleiche Art und Weise werden die Ablehnungsbereiche f¨ ur die einseitigen Tests konstruiert. F¨ ur das Hypothesenpaar (13.54) sprechen ”große“ T -Werte f¨ ur H 1 . Deshalb besteht der Ablehnungsbereich aus ”großen“ T -Werten; genauer lautet der Ablehnungsbereich B = ] t 1 − α; n − 1 ; ∞ [ . (13.59) F¨ ur das Hypothesenpaar (13.55) sprechen ”kleine“ T -Werte f¨ ur H 1 . Da die t-Verteilung symmetrisch ist, l¨asst sich der Ablehnungsbereich f¨ ur diesen Test sofort angeben. Er lautet: B = ] − ∞ ; − t 1 − α ; n − 1 [ (13.60) F¨ ur n ≥ 30 stimmen praktisch die t(n)- und die N (0; 1)-Verteilung ¨ uberein, dass man f¨ ur die Bestimmung des Ablehnungsbereichs eines t-Tests die Standardnormalverteilung anstelle dert t(n − 1)-Verteilung verwenden kann. Die folgende ¨ Ubersicht fasst die t-Tests zusammen. 266 13. Statistische Testverfahren t-Test f¨ ur den Erwartungswert 1. Hypothesen: a) H 0 : μ = μ 0 H 1 : μ = μ 0 b) H 0 : μ ≤ μ 0 H 1 : μ > μ 0 c) H 0 : μ ≥ μ 0 H 1 : μ < μ 0 2. Signifikanzniveau: α 3. Testgr¨oße: T = ¯ X − μ 0 S/ √ n 4. Wenn μ = μ 0 , gilt: T ∼ t(n − 1) 5. a) Ablehnungsbereich des zweiseitigen Tests: B = ] − ∞ ; − t 1− α/ 2; n −1 [ ∪ ] t 1− α/ 2; n −1 ; ∞ [ b) Ablehnungsbereich des einseitigen Tests: B = ] t 1− α ; n −1 ; ∞ [ c) Ablehnungsbereich des einseitigen Tests: B = ] − ∞ ; − t 1− α ; n −1 [ 6. Berechne t (die Realisierung von T ) aus der gezogenen Stichprobe 7. Entscheidungsregel: Ist t ∈ B, dann wird H 0 abgelehnt. Ist n ≥ 30, dann verwendet man die N (0; 1)anstelle der t(n − 1)-Verteilung. Beispiel 13.7 Wir greifen auf die Situation in Beispiel 13.4 zur¨ uck. Dort war ein Sollwert von einem Liter Milch mit Hilfe eines statistischen Tests zum Niveau α = 0, 05 zu ¨ uberpr¨ ufen. Diese Aufgabe wiederholen wir nun, setzen aber voraus, dass σ unbekannt ist. Als Grundlage der Entscheidung dient eine Stichprobe vom Umfang n = 16. Daraus wurden ein Mittelwert ¯ x = 992, 5 ml und eine Standardabweichung von s = 10 ml berechnet. Kann man mit diesem Ergebnis die Vermutung, die Maschine f¨ ulle korrekt ab, widerlegen? 13.6. Ein alternatives Entscheidungskriterium 267 1. Hypothesen: H 0 : μ = 1000 H 1 : μ = 1000 2. Signifikanzniveau: α = 0, 05 3. F¨ ur μ = 1000 gilt: T = ¯ X − 1000 S/ √ 16 ∼ t(15) 4. Ablehnungsbereich: B = ] − ∞ ; − t 0,975; 15 [ ∪ ] t 0,975; 15 ; ∞ [ Aus der t(15)-Verteilungstabelle lesen wir t 0,975; 15 = 2, 1314 ab. Der Ablehnungsbereich lautet somit B = ] − ∞ ; − 2, 1314 [ ∪ ] 2, 1314; ∞ [ 5. Berechnung von t: t = ¯ x − μ 0 s/ √ n = 992, 5 − 1000 10/ √ 16 = − 3 6. Entscheidung: H 0 wird abgelehnt, denn t = − 3 ∈ B. 13.6. Ein alternatives Entscheidungskriterium Das bisherige Entscheidungskriterium lautet: F¨allt der konkrete Wert der Pr¨ ufgr¨oße in den Ablehnungsbereich, dann lehne H 0 ab. Eine andere M¨oglichkeit der Entscheidung verwendet den sogenannten p-Wert. Was ein p-Wert besagt, l¨asst sich am einfachsten anhand eines Beispiels zeigen. 268 13. Statistische Testverfahren Betrachten wir den zweiseitigen Gauß-Test f¨ ur μ (13.31). Dort lautet das Entscheidungskriterium: Ist | z | > z 1 − α/ 2 , dann lehne H 0 ab. Nun k¨onnen wir - unter der Annahme, dass H 0 vorliegt - die Wahrscheinlichkeit, dass die Testgr¨oße Z Werte annimmt, die betragsm¨aßig gr¨oßer als der konkret aus der Stichprobe errechnete Wert z sind, berechnen. Kurz: Wir berechnen P ( | Z | > z | μ = μ 0 ). Diese Wahrscheinlickeit stellt den p-Wert f¨ ur den zweiseitigen Gauß- Test dar. F¨ ur den p-Wert gilt (vgl. Abbildung 13.6): p − Wert ≤ α ⇔ | z | > z 1 − α/ 2 (z ∈ B) bzw. (Abbildung 13.7) p − Wert > α ⇔ | z | < z 1 − α/ 2 (z ∈ ¯ B) Deshalb lautet die Entscheidungsregel: Lehne H 0 ab, wenn der p-Wert kleiner oder gleich α ist. Als Zahlenbeispiel geben wir den p-Wert des Gauß-Tests im Beispiel 13.4 an. Dort haben wir z = − 3 ausgerechnet. P (Z < − 3 | μ = 1000) ︸ ︷︷ ︸ 1 − Φ(3) + P (Z > 3 | μ = 1000) ︸ ︷︷ ︸ 1 − Φ(3) = 2(1 − Φ(3)) = 2(1 − 0, 9987) = 0, 0026 Der p-Wert betr¨agt 0,0026 und ist eindeutig kleiner als α = 0, 05. Deshalb wird H 0 abgelehnt. F¨ ur das einseitige Hypothesenpaar H 0 : μ ≤ μ 0 H 1 : μ > μ 0 ist der p-Wert die Wahrscheinlichkeit, dass die Zufallsvariable Z Werte gr¨oßer als z annimmt, wenn μ = μ 0 gilt, kurz P (Z > z | μ = μ 0 ). Der p-Wert berechnet sich f¨ ur Beispiel 13.5 (z = − 3) gem¨aß P (Z > − 3 | μ = 1000) = 1 − Φ( − 3) = 1 − (1 − Φ(3)) = Φ(3) = 0, 9987. 13.6. Ein alternatives Entscheidungskriterium 269 − z 1 − α 2 B α 2 z 1 − α 2 B α 2 0 − z p 2 z p 2 Abbildung 13.6.: Ablehnung der Nullhypothese (p-Wert < α) Er liegt deutlich ¨ uber α = 0, 05. Deshalb wird H 0 nicht abgelehnt. F¨ ur das Hypothesenpaar H 0 : μ ≥ μ 0 H 1 : μ < μ 0 , lautet der p-Wert: P (Z < z | μ = μ 0 ) Der p-Wert des Gauß-Tests im Beispiel 13.6 (z = − 3, 2) P (Z < − 3, 2 | μ = 1000) = 1 − Φ(3, 2) = 1 − 0, 9987 = 0, 0013 < 0, 05 = α f¨ uhrt zur Ablehnung von H 0 . Nach all diesen Beispielen k¨onnen wir den p-Wert wie folgt allgemein formulieren. Der p-Wert eines Tests ist die Wahrscheinlichkeit, dass die Pr¨ ufgr¨oße unter H 0 den aus der vorliegenden Stichprobe errechneten Wert oder noch weiter in Richtung H 1 liegende Werte annimmt. 270 13. Statistische Testverfahren − z 1 − α 2 ¯ B α 2 z 1 − α 2 α 2 0 − z p 2 z p 2 Abbildung 13.7.: Nichtablehnung der Nullhypothese (p-Wert > α) Wir haben oben nur die p-Werte der Gauß-Tests betrachtet. Das bedeutet jedoch nicht, dass die Anwendung dieser Methode sich nur auf Gauß-Tests besch¨ankt. Man kann p-Werte ebenfalls f¨ ur Binomial- und t-Tests bestimmen. Statistik-Software und Excel geben in ihren Testergebnissen standardm¨aßig p-Werte aus. 13.7. Chi-Quadrat-Test f¨ ur die Varianz In den letzten beiden Abschnitten wurden Tests f¨ ur Mittelwerte einer Normalverteilung vorgestellt. Dabei unterscheidet man, ob die Varianz bekannt ist oder nicht. Ist sie bekannt, dann verwendet man den Gauß- Test. Andernfalls wendet man bei kleinem Stichprobenumfang den t- Test an. Ist der Stichprobenumfang gr¨oßer als 30, dann kann man (bei unbekannter Varianz) f¨ ur die Bestimmung des Ablehnungsbereiches statt der tdie Normalverteilung verwenden. In diesem Fall ist die Testgr¨oße ann¨ahernd normalverteilt. In diesem Abschnitt wollen wir uns n¨aher mit der Varianz besch¨afti- 13.7. Chi-Quadrat-Test f¨ ur die Varianz 271 gen. Es steht außer Frage, dass die Varianz als Streuungsparameter in der Praxis eine große Rolle spielt; man denke an die Standardabweichung als Risikomaßzahl. Auch in der Industrie will man starke Qualit¨atsschwankungen (in Gr¨oße, Volumen, Lebensdauer o. ¨a.) vermeiden. Deshalb liegt es nahe, Hypothesen ¨ uber die Varianz aufzustellen und zu ¨ uberpr¨ ufen. Im Folgenden werden wir den Chi-Quadrat-Test f¨ ur die Varianz einer normalverteilten Zufallsvariablen kennenlernen. Dazu betrachten wir eine normalverteilte Zufallsvariable X mit dem Erwartungswert μ und der Varianz σ 2 . ¨ Uber σ 2 liegen die Hypothesen H 0 : σ 2 = σ 2 0 H 1 : σ 2 = σ 2 0 (13.61) vor. Zum vorgegebenen Niveau α will man nun dieses Hypothesenpaar ¨ uberpr¨ ufen. Dazu sei X 1 , . . . , X n eine Stichprobe vom Umfang n. Eine geeignete Teststatistik f¨ ur diese Testaufgabe stellt die Stichprobenfunktion n − 1 σ 2 S 2 (13.62) dar. Dabei ist S 2 = 1 n − 1 ∑ n i=1 (X i − ¯ X) 2 ein erwartungstreuer und konsistenter Sch¨atzer f¨ ur σ 2 . Wenn H 0 richtig ist, gilt: χ 2 = n − 1 σ 2 0 S 2 ∼ χ 2 (n − 1) (13.63) Man wird H 0 ablehnen, wenn χ 2 ”zu große“ oder ”zu kleine“ Werte annimmt, d. h., wenn χ 2 ∈ ]0 ; c u [ ∪ ]c 0 ; ∞ [ = B. Da die χ 2 -Verteilung nicht symmetrisch ist, m¨ ussen die Grenzen c u und c o einzeln bestimmt werden, und zwar so, dass P (χ 2 < c u | σ 2 = σ 2 0 ) = α/ 2 (13.64) und P (χ 2 > c o | σ 2 = σ 2 0 ) = α/ 2. (13.65) Die beiden Gleichungen werden genau dann erf¨ ullt, wenn c u = c α/ 2; n − 1 = α/ 2-Fraktil der χ 2 (n − 1)-Verteilung und c o = c 1 − α/ 2; n − 1 = (1 − α/ 2)-Fraktil der χ 2 (n − 1)-Verteilung. 272 13. Statistische Testverfahren Damit ist der Ablehnungsbereich gegeben durch: B = [0 ; c α/ 2; n − 1 [ ∪ ]c 1 − α/ 2; n − 1 ; ∞ [ (13.66) Die folgende ¨ Ubersicht fasst den χ 2 -Test f¨ ur σ 2 zusammen. χ 2 -Test f¨ ur die Varianz 1. Hypothesen: H 0 : σ 2 = σ 2 0 H 1 : σ 2 = σ 2 0 2. Signifikanzniveau: α 3. Pr¨ ufgr¨oße: χ 2 = n − 1 σ 2 0 S 2 ∼ χ 2 (n − 1) 4. Unter H 0 gilt: χ 2 ∼ χ 2 (n − 1) 5. Ablehnungsbereich: B = [0 ; c α/ 2; n −1 [ ∪ ]c 1− α/ 2; n −1 ; ∞ [ 6. Berechnung von χ 2 aus der gezogenen Stichprobe. 7. Entscheidungsregel: Ist χ 2 ∈ B, dann wird H 0 abgelehnt. Beispiel 13.8 Die Bearbeitungszeit X von Großauftr¨agen in einem Unternehmen kann als eine normalverteilte Zufallsvariable angesehen werden. Ein Qualit¨atsmerkmal des Unternehmens liegt darin, dass f¨ ur die Bearbeitungszeit eine Standardabweichung von 10 Monaten eingehalten wird. Zur Qualit¨atssicherung werden wiederholt Stichproben erhoben und Signifikanztests durchgef¨ uhrt. So wird die Hypothese nun zum Signifikanzniveau α = 0, 05 ¨ uberpr¨ uft. Eine Stichprobe von 16 zuf¨allig ausgew¨ahlten Auftr¨agen liefern die folgenden Bearbeitungszeiten (in Monaten): 24 28 23 34 39 28 30 30 25 22 20 19 13 52 45 41 13.7. Chi-Quadrat-Test f¨ ur die Varianz 273 Durchf¨ uhrung des Tests: 1. Hypothesen: H 0 : σ 2 = 100 H 1 : σ 2 = 100 2. Signifikanzniveau: α = 0, 05 3. F¨ ur den Ablehnungsbereich bestimmen wir c α/ 2; n − 1 = c 0,025; 15 = 6, 26 und c 1 − α/ 2; n − 1 = c 0,975; 15 = 27, 49. Der Ablehnungsbereich lautet somit: B = [0 ; 6, 26[ ∪ ]27, 49 ; ∞ [ 4. Aus der Stichprobe berechnen wir ¯ x = 29, 5625 und (vgl. Tabelle 13.3) s 2 = 1 15 16 ∑ i=1 (x i − ¯ x) 2 = 1615, 94 15 = 107, 73 (gerundet). i x i x i − ¯ x (x i − ¯ x) 2 i x i x i − ¯ x (x i − ¯ x) 2 1 13 -16,5625 274,316406 9 28 -1,5625 2,44140625 2 19 -10,5625 111,566406 10 30 0,4375 0,19140625 3 20 -9,5625 91,4414063 11 30 0,4375 0,19140625 4 22 -7,5625 57,1914063 12 34 4,4375 19,6914063 5 23 -6,5625 43,0664063 13 39 9,4375 89,0664063 6 24 -5,5625 30,9414063 14 41 11,4375 130,816406 7 25 -4,5625 20,8164063 15 45 15,4375 238,316406 8 28 -1,5625 2,44140625 16 52 22,4375 503,441406 473 0 1615,9375 Tabelle 13.3.: Arbeitstabelle f¨ ur die Berechnung von s 2 274 13. Statistische Testverfahren Die Pr¨ ufgr¨oße nimmt den Wert χ 2 = n − 1 σ 2 0 s 2 = 15 100 · 107, 73 = 16, 16 an. 5. 16, 16 / ∈ B ⇒ H 0 wird beibehalten. Das Nichtablehnen der Nullhypothese bedeutet keineswegs, dass diese best¨atigt ist. Es bedeutet nur: Gegen den bislang unterstellten Wert der Varianz von 100 ist nichts einzuwenden. 13.8. Zusammenfassung Ein statistischer Test ist ein Entscheidungskriterium zwischen zwei Hypothesen. Hypothesen sind Vermutungen ¨ uber die Grundgesamtheit. Der Ausgangspunkt eines statistischen Tests wird Nullhypothese genannt und mit H 0 bezeichnet. Die Gegenhypothese heißt Alternativhypothese H 1 . Die Null- und die Alternativhypothese schließen einander aus und erg¨anzen sich. Vor der Durchf¨ uhrung eines Tests wird das Signifikanzniveau α vorgegeben. Die Wahrscheinlichkeit, dass die Nullhypothese irrt¨ umlich abgelehnt wird, darf h¨ochstens gleich α. Aus einer Stichprobe werden Hinweise gesucht, die eine Ablehnung der Nullhypothese erm¨oglichen. Diese Hinweise werden in Form einer Testgr¨oße verdichtet. Mit Hilfe ihrer Verteilung unter H 0 und unter Einhaltung von α wird der Wertebereich der Testgr¨oße in den Annahme- und den Ablehnungsbereich aufgeteilt. F¨allt der aus der Stichprobe errechnete Wert der Testgr¨oße in den Ablehnungsbereich, so wird die Nullhypothese verworfen. Bei einer Ablehnung von H 0 ist H 1 (zum Niveau α) signifikant. Wird H 0 nicht abgelehnt, ist das Ergebnis nicht signifikant. Nicht-Ablehnung der Nullhypothese bedeutet nicht, dass H 0 wahr ist. (”Aus Mangel an Beweisen“ wird H 0 beibehalten.) Notationen und ihre Bedeutung H 0 Nullhypothese H 1 Alternativ- oder Gegenhypothese α Signifikanzniveau β Wahrscheinlichkeit f¨ ur den Fehler 2. Art 13.8. Zusammenfassung 275 Die Vorgehensweise bei einem Signifikanztest kann man in folgenden Schritten angeben: 1. Festlegen der Hypothesen H 0 und H 1 2. Festlegen des Signifikanzniveaus α 3. Festlegen der Teststatistik V 4. Weiter geht es nach der ”klassischen“ Methode: a) Bestimmung des Ablehnungsbereiches B b) Berechnung des Pr¨ ufgr¨oßenwertes v aus den vorliegenden Daten c) Entscheidung: Ist v ∈ B, dann lehne H 0 ab. 5. Bzw. nach der p-Wert-Methode: a) Berechnung des Pr¨ ufgr¨oßenwertes v aus der gezogenen Stichprobe b) Bestimmung des p-Wertes c) Entscheidung: Ist p ≤ α, dann lehne H 0 ab. Tests f¨ ur Anteilswerte Hypothesen: H 0 : p = p 0 H 1 : p = p 0 H 0 : p ≤ p 0 H 1 : p > p 0 H 0 : p ≥ p 0 H 1 : p < p 0 Exakter Binomialtest Testgr¨oße: X = Anzahl der Treffer ∼ B(n; p 0 ) Approximativer Binomialtest Testgr¨oße: Z = X − np 0 √ np 0 (1 − p 0 ) ∼ a N (0; 1) 276 13. Statistische Testverfahren Tests f¨ ur den Erwartungswert Hypothesen: H 0 : μ = μ 0 H 1 : μ = μ 0 H 0 : μ ≤ μ 0 H 1 : μ > μ 0 H 0 : μ ≥ μ 0 H 1 : μ < μ 0 Normalverteilungsannahme 1. σ 2 bekannt: Gauß-Test Pr¨ ufgr¨oße: Z = ¯ X − μ 0 σ √ n ∼ N (0; 1). 2. σ 2 unbekannt: t-Test Pr¨ ufgr¨oße: T = ¯ X − μ 0 S √ n ∼ t(n − 1). Beliebige Verteilung, n ≥ 30 1. σ 2 bekannt: approximativer Gauß-Test Pr¨ ufgr¨oße: Z = ¯ X − μ 0 σ √ n ∼ a N (0; 1) 2. σ 2 unbekannt: approximativer t-Test Pr¨ ufgr¨oße: T = ¯ X − μ 0 S √ n ∼ a N (0; 1) χ 2 -Test f¨ ur die Varianz Hypothesen: H 0 : σ 2 = σ 2 0 H 1 : σ 2 = σ 2 0 Pr¨ ufgr¨oße: χ 2 = n − 1 σ 2 0 S 2 ∼ χ 2 (n − 1) 277 14. Chi-Quadrat-Tests Im vorangegangenen Kapitel haben wir Hypothesen ¨ uber Parameter einer Grundgesamtheit mittels Signifikanztests ¨ uberpr¨ uft. Darin wurde u. a. der Chi-Quadrat-Test f¨ ur die Varianz behandelt. In diesem Kapitel werden zwei weitere statistische Methoden, die zur Familie der Chi-Quadrat-Tests geh¨oren, vorgestellt. Diese sind auch auf nominale Daten anwendbar. Die erste Methode ist der Chi-Quadrat-Anpassungstest, auch als Goodness-of-fit-Test bekannt. Diese Methode ist f¨ ur Daten geeignet, die aus einem Multinomial-Experiment stammen. Ein Multinomial- Experiment ist ein Zufallsexperiment mit k ≥ 2 m¨oglichen Ausg¨angen; es ist also eine Verallgemeinerung des Bernoulli-Experiments. (F¨ ur k = 2 ist das Multinomial-Experiment identisch mit dem Bernoulli- Experiment.) Die zweite Methode dient zur ¨ Uberpr¨ ufung der Hypothese ”Die Merkmale X und Y sind unabh¨angig“. Deshalb heißt die Methode Chi- Quadrat-Unabh¨angigkeitstest 1 . Die Grundlage f¨ ur diesen Test wurde bereits im Kapitel 4 gelegt. Dort haben wir u. a. den Pearson- Kontingenzkoefizienten, der auf Basis der Chi-Quadrat-Gr¨oße (4.12) definiert wird, kennengelernt. Wir werden im Abschnitt 14.2 sehen, dass die Chi-Quadrat-Gr¨oße als Testgr¨oße geeignet ist. 14.1. Chi-Quadrat-Anpassungstest Wie eingangs erw¨ahnt wurde, erhalten wir die Daten f¨ ur den Chi- Quadrat-Anpassungstest aus einem Multinomial-Experiment. Ein Multinomial-Experiment l¨asst sich durch die folgenden Eigenschaften charakterisieren: 1. Es gibt k ≥ 2 m¨ogliche Ausg¨ange x 1 , . . . , x k . Die Ausg¨ange werden auch Zellen genannt. 1 F¨ ur beide Tests stammt der Zusatz χ 2 (Chi-Quadrat) von der Verteilung der Pr¨ ufgr¨oße. 278 14. Chi-Quadrat-Tests 2. Die Wahrscheinlichkeit f¨ ur ein Ergebnis x j sei p j , j = 1, . . . , k, ∑ k j=1 p j = 1. Das Experiment wird n-mal unabh¨angig wiederholt. Die H¨aufigkeit, mit der x j dabei beobachtet wird, bezeichnen wir mit n j . Die H¨aufigkeiten addieren sich zu n: k ∑ j=1 n j = n Ein Beispiel: Es soll ¨ uberpr¨ uft werden, ob ein W¨ urfel fair ist. Bei einem W¨ urfelwurf sind k = 6 Ergebnisse (x 1 = 1, . . . , x 6 = 6) m¨oglich. Ist der W¨ urfel fair, so gilt p j = 1 6 f¨ ur jedes j = 1, . . . , 6. Somit wird man die Nullhypothese H 0 : p j = 1 6 f¨ ur j = 1, . . . , 6 (”Unschuldsvermutung“) und die Alternative H 1 : p j = 1 6 f¨ ur mindestens ein j aufstellen. Das Experiment W¨ urfelwurf wird nun, z. B. n = 600-mal unabh¨angig wiederholt. Nehmen wir an, es liege das folgende Ergebnis vor: x j 1 2 3 4 5 6 n j 104 125 80 98 108 85 600 Wie k¨onnen wir anhand dieses Ergebnisses entscheiden, ob der W¨ urfel fair ist? Anders gefragt: K¨onnen wir anhand dieses Ergebnisses die Nullhypothese ablehnen? Bevor wir die Frage beantworten, betrachten wir den Fall allgemeiner: Die H¨aufigkeiten n j (j = 1, . . . , k) lassen sich als Realisationen der Zufallsvariablen N j : Die H¨aufigkeit, mit der x j beobachtet wird, auffassen. Wenn H 0 vorliegt, dann gilt f¨ ur jedes j = 1, . . . , k: N j ∼ B(n; p j ) (14.1) 14.1. Chi-Quadrat-Anpassungstest 279 Insbesondere ist E(N j ) = np j . (E(N j ) stellt die erwartete Anzahl der Beobachtungen von x j unter H 0 dar.) Wenn H 0 vorliegt, ist die Zufallsvariable χ 2 = k ∑ j=1 (N j − np j ) 2 np j (14.2) f¨ ur großes n an¨ahernd χ 2 -verteilt mit k − 1 Freiheitsgraden (Faustregel np j ≥ 1 f¨ ur alle j, np j ≥ 5 f¨ ur mindestens 80% der k Zellen - siehe [11]). Mit χ 2 als Teststatistik wird man H 0 ablehnen, wenn die Stichprobe einen ”zu großen“ χ 2 -Wert hervorbringt. Mit anderen Worten: Der Ablehnungsbereich B des Tests besteht aus ”großen“ χ 2 -Werten; B wird so bestimmt, dass f¨ ur vorgegebenes α die Bedingung P (χ 2 > c o | H 0 ) = α (14.3) erf¨ ullt ist. Die Gleichung (14.3) ist ¨aquivalent zu 1 − P (χ 2 ≤ c o | H 0 ) = α ⇔ P (χ 2 ≤ c o | H 0 ) = 1 − α. F¨ ur c o = c 1 − α; k − 1 = (1 − α)-Fraktil der χ 2 (k − 1)-Verteilung wird die obige Gleichung erf¨ ullt. Somit lautet der Ablehnungsbereich B = ] c 1 − α; k − 1 ; ∞ [ . (14.4) Nun zur¨ uck zum Einf¨ uhrungsbeispiel: Falls der W¨ urfel fair ist, erwarten wir np j = 600 · 1 6 = 100 Beobachtungen in jeder Zelle j = 1, . . . , 6. F¨ ur α = 0, 01 werden wir die Hypothese ”Der W¨ urfel ist fair“ ablehnen, wenn der aus den Daten errechnete χ 2 -Wert gr¨oßer als c 1 − α; k − 1 = c 0,99; 5 = 15, 09 ist. Da (f¨ ur die Berechnung von χ 2 siehe nachfolgende Tabelle) χ 2 = 13, 34 / ∈ B =]15, 09 ; ∞ [, wird die Nullhypothese nicht abgelehnt. 280 14. Chi-Quadrat-Tests x j n j np j (n j − np j ) 2 (n j − np j ) 2 np j 1 104 100 16 0,16 2 125 100 625 6,25 3 80 100 400 4,00 4 98 100 4 0,04 5 108 100 64 0,64 6 85 100 225 2,25 600 600 13, 34 = χ 2 Die folgende ¨ Ubersicht fasst den Test zusammen. χ 2 -Anpassungstest 1. Hypothesen: H 0 : P (X = x j ) = p j j = 1, . . . , k H 1 : P (X = x j ) = p j f¨ ur mindestens ein j 2. Signifikanzniveau: α 3. Teststatistik: χ 2 = k ∑ j =1 (N j − np j ) 2 np j (Die Zufallsvariable N j gibt die H¨aufigkeit an, mit der x j beobachtet wird.) 4. Unter H 0 gilt: χ 2 ∼ a χ 2 (k − 1) (Faustregel np j ≥ 1 f¨ ur alle j, np j ≥ 5 f¨ ur mindestens 80% der k Zellen - siehe [11].) 5. Ablehnungsbereich: B = ] c 1− α ; k −1 ; ∞ [ Dabei ist c 1− α ; k −1 das (1 − α)-Fraktil der χ 2 (k − 1)-Verteilung. 6. Berechnung der Teststatistik ∑ k j =1 ( n j − np j ) 2 np j aus der Stichprobe. 7. Entscheidung: Lehne H 0 ab, wenn ∑ k j =1 ( n j − np j ) 2 np j ∈ B. 14.2. Chi-Quadrat-Unabh¨angigkeitstest 281 Beispiel 14.1 Der Marktanteil eines neu eingef¨ uhrten Kraftstoffes K1 betr¨agt 10%. Die zwei klassischen Kraftstoffe K2 und K3 teilen sich den restlichen Anteil zu 40% bzw. 50% auf. Um den Marktanteil des neuen Kraftstoffes zu erh¨ohen, wurde eine offensive Werbekampagne veranstaltet. Anschließend soll zum Signifikanzniveau α = 0, 05 ¨ uberpr¨ uft werden, ob die Marktanteile sich ver¨andert haben. Dazu wurden 200 zuf¨allig ausgew¨ahlte Autofahrer befragt. Das Ergebnis: 18 der befragten Autofahrer haben den neuen Kraftstoff K1, 78 den Kraftstoff K2 und die verbliebenen 104 Autofahrer haben den Kraftstoff K3 getankt. 1. Hypothesen: H 0 : p 1 = 0, 10; p 2 = 0, 40; p 3 = 0, 50 H 1 : F¨ ur mindestens ein j gilt die Annahme in H 0 nicht. 2. Signifikanzniveau: α = 0, 05 3. Teststatistik: χ 2 = ∑ 3 j=1 (N j − np j ) 2 np j 4. Unter H 0 gilt: χ 2 ∼ a χ 2 (2) 5. Ablehnungsbereich: B = ] c 0,95; 2 ; ∞ [ = ] 5, 99 ; ∞ [ 6. Arbeitstabelle f¨ ur die Berechnung der Teststatistik (n = 200): Kraftstoffn j np j (n j − np j ) 2 (n j − np j ) 2 np j K1 18 20 4 4 20 K2 78 80 4 4 80 K3 104 100 16 16 100 200 χ 2 =0,41 7. χ 2 = 0, 41 / ∈ B ⇒ H 0 wird nicht abgelehnt. Die Marktaufteilung in der Nullhypothese wird dadurch jedoch nicht best¨atigt. 14.2. Chi-Quadrat-Unabh¨angigkeitstest In vielen Anwendungen statistischer Methoden wird die Unabh¨angigkeit von Zufallsvariablen vorausgesetzt. In diesem Abschnitt werden 282 14. Chi-Quadrat-Tests wir einen Test, den χ 2 -Unabh¨angigkeitstest, kennenlernen, mit dessen Hilfe sich die Unabh¨angigkeitsannahme ¨ uberpr¨ ufen l¨asst. Wir betrachten die Zufallsvariablen X mit den Auspr¨agungen x 1 , . . . , x m und Y mit den Auspr¨agungen y 1 , . . . , y . F¨ ur j = 1, . . . , m und k = 1, . . . , sei p jk = P (X = x j , Y = y k ) die Wahrscheinlichkeit, dass die Ereignisse { X = x j } und { Y = y k } gemeinsam eintreten. Weiter bezeichnen p j = ∑ k=1 p jk die Wahrscheinlichkeit von X (ohne Y ) und p k = ∑ m j=1 p jk die Wahrscheinlichkeit von Y (ohne X). Nach Definition der (stochastischen) Unabh¨angigkeit sind zwei Zufallsvariablen X und Y genau dann unabh¨angig, wenn f¨ ur alle j = 1, . . . , m und f¨ ur alle k = 1, . . . , (vgl. (10.4)) p jk = p j · p k gilt. Somit k¨onnen wir die Nullhypothese: ”X und Y sind unabh¨angig“ wie folgt formulieren: H 0 : p jk = p j · p k (14.5) f¨ ur alle j = 1, . . . , m und f¨ ur alle k = 1, . . . , Diese Hypothese soll nun zum vorgegebenen Signifikanzniveau α ¨ uberpr¨ uft werden. Eine Stichprobe vom Umfang n wird dazu gezogen. F¨ ur jedes Auspr¨agungspaar (x j , y k ) bezeichnet n jk die beobachtete H¨aufigkeit von (x j , y k ) in der Stichprobe. Wie in der deskriptiven Statistik fassen wir die Ergebnisse in einer Kontingenztabelle zusammen (siehe Tabelle 14.1). Dabei bezeichnen n j = ∑ k=1 n jk und n k = m ∑ j=1 n jk . Wenn die Nullhypothese richtig ist, dann erwartet man, dass in jeder Zelle (j, k) der Kontingenztabelle e jk = n j · n k n 14.2. Chi-Quadrat-Unabh¨angigkeitstest 283 y 1 . . . y k . . . y x 1 n 11 . . . n 1k . . . n 1 n 1 ... ... ... ... ... x j n j1 . . . n jk . . . n j n j ... ... ... ... ... x m n m1 . . . n mk . . . n m n m n 1 . . . n k . . . n n Tabelle 14.1.: Kontingenztabelle f¨ ur die Anzahl der Beobachtungen Beobachtungen liegen. (Vergleiche dazu Abschnitt 4.3 im Zusammenhang mit dem Kontingenzkoeffizienten nach Pearson.) Die Idee besteht nun darin, n jk und e jk zu vergleichen. Weichen sie stark voneinander ab, dann wird man H 0 verwerfen. Die H¨aufigkeiten n jk kann man als Realisationen einer Zufallsvariablen N jk interpretieren. Dabei bedeutet N jk : Anzahl der Beobachtungen in der Zelle (j, k). Als Pr¨ ufgr¨oße geeignet ist die Stichprobenfunktion 2 χ 2 = m ∑ j=1 ∑ k=1 (N jk − e jk ) 2 e jk . (14.6) Unter der Nullhypothese ist χ 2 asymptotisch χ 2 -verteilt mit (m − 1)( − 1) Freiheitsgraden (siehe u. a. [11, Abschnitt 11.4.1]). Man schreibt kurz: χ 2 ∼ a χ 2 ((m − 1)( − 1)) (14.7) Sind die Abweichungen zwischen den Beobachtungen n jk und den theoretischen Werten e jk groß, dann wird χ 2 ebenfalls groß. Deshalb besteht der Ablehnungsbereich aus großen χ 2 -Werten, also hat der Ablehnungsbereich die Gestalt B =]c o ; ∞ [. 2 F¨ ur m = = 2 vereinfacht sich die Berechnung: χ 2 = n ( n 11 n 22 − n 12 n 21 ) 2 n 1 n 2 n 1 n 2 284 14. Chi-Quadrat-Tests Der Ablehnungsbereich B wird so bestimmt, dass die Bedingung P (χ 2 > c o | H 0 ) = α (14.8) erf¨ ullt ist. Analog dem χ 2 -Anpassungstest bestimmen wir c o = c 1 − α; (m − 1)( − 1) = (1 − α)-Fraktil der χ 2 ((m − 1)( − 1))-Verteilung. Somit lautet der Ablehnungsbereich: B =]c 1 − α; (m − 1)( − 1) ; ∞ [ (14.9) Die Nullhypothese lehnt man ab, wenn ∑ m j=1 ∑ k=1 (n jk − e jk ) 2 e jk ∈ B. Die folgende ¨ Ubersicht fasst den χ 2 -Unabh¨angigkeitstest zusammen. χ 2 -Unabh¨angigkeitstest 1. Nullhypothese: H 0 : p jk = p j · p k f¨ ur alle j = 1, . . . , m; k = 1, . . . , 2. Signifikanzniveau: α 3. Teststatistik: χ 2 = m ∑ j =1 ∑ k =1 (N jk − e jk ) 2 e jk = m ∑ j =1 ∑ k =1 N 2 jk e jk − n 4. Unter H 0 gilt: χ 2 ∼ a χ 2 ((m − 1)( − 1)) 5. Ablehnungsbereich: B =]c 1− α ; ( m −1)( −1) ; ∞ [ 6. Berechnung der Teststatistik ∑ m j =1 ∑ k =1 ( n jk − e jk ) 2 e jk aus der Stichprobe. 7. Entscheidung: Lehne H 0 ab, wenn ∑ m j =1 ∑ k =1 ( n jk − e jk ) 2 e jk ∈ B. Beispiel 14.2 Die Hypothese, die Merkmale X: Geschlecht und Y : Parteipr¨aferenz seien unabh¨angig, soll anhand eines Signifikanztests zum Niveau α = 14.2. Chi-Quadrat-Unabh¨angigkeitstest 285 0, 05 ¨ uberpr¨ uft werden. Dazu wurden n = 1000 Personen befragt. Tabelle 14.2 gibt das Ergebnis dieser Befragung wieder. Wenn die beiden Merkmale unabh¨angig w¨aren, dann w¨ urde die Kontingenztabelle 14.3 vorliegen. Diese theoretischen Werte e jk ergeben sich f¨ ur jedes j = 1, 2 und jedes k = 1, 2, 3 aus e jk = n j · n k n , z. B. e 11 = n 1 · n 1 n = 510 · 349 1000 = 177, 99, e 12 = n 1 · n 2 n = 510 · 336 1000 = 171, 36 usw. Partei A Partei B Partei C M¨annlich 129 196 185 510 Weiblich 220 140 130 490 349 336 315 1000 Tabelle 14.2.: Ergebnis der Befragung: ”Welche Partei w¨ urden Sie w¨ahlen? “ nach Geschlecht Partei A Partei B Partei C M¨annlich 177,99 171,36 160,65 510 Weiblich 171,01 164,64 154,35 490 349 336 315 1000 Tabelle 14.3.: Beobachtungen, wenn X: Geschlecht und Y : Parteipr¨aferenz unabh¨angig w¨aren Formal lautet die Nullhypothese: H 0 : p jk = p j · p k f¨ ur j = 1, 2 und f¨ ur k = 1, 2, 3 Unter H 0 ist die Pr¨ ufgr¨oße χ 2 = 2 ∑ j=1 3 ∑ k=1 (N jk − e jk ) 2 e jk 286 14. Chi-Quadrat-Tests χ 2 -verteilt mit (2 − 1)(3 − 1) = 2 Freiheitsgraden. F¨ ur den Ablehnungsbereich lesen wir c 1 − α; 2 = c 0,95; 2 = 5, 9915 aus der χ 2 (2)-Verteilungstabelle ab; Ablehnungsbereich: B =]5, 99 ; ∞ [ F¨ ur die Berechnung des χ 2 -Wertes χ 2 = 2 ∑ j=1 3 ∑ k=1 (n jk − e jk ) 2 e jk = 42, 281 siehe die unten stehende Arbeitstabelle. Da χ 2 = 42, 281 ∈ B wird H 0 abgelehnt. Man kann davon ausgehen, dass zwischen den Merkmalen Geschlecht und Parteipr¨aferenz ein Zusammenhang besteht. Das Ergebnis ist signifikant (zum Niveau 5%). Arbeitstabelle: j k n jk e jk (n jk − e jk ) 2 (n jk − e jk ) 2 e jk 1 1 129 177,99 2400,0201 13,484 1 2 196 171,36 607,1296 3,543 1 3 185 160,65 592,9225 3,691 2 1 220 171,01 2400,0201 14,034 2 2 140 164,64 607,1296 3,688 2 3 130 154,35 592,9225 3,841 1000 1000 42,281 14.3. Zusammenfassung Der Begriff Chi-Quadrat-Test umfasst eine Gruppe von statistischen Hypothesentests, deren Testgr¨oße χ 2 - oder n¨aherungsweise χ 2 -verteilt ist. In den vorangegangenen Abschnitten haben wir aus dieser Testgruppe den χ 2 -Anpassungs- und den χ 2 -Unabh¨angigkeitstest kennengelernt. 14.3. Zusammenfassung 287 In den Beispielen wurden χ 2 -Anpassungstests f¨ ur Merkmale mit endlich vielen Auspr¨agungen durchgef¨ uhrt. Die Anwendung des χ 2 -Anpassungstests beschr¨ankt sich jedoch nicht nur auf solche Merkmale. Man kann allgemein mit Hilfe des χ 2 -Anpassungstests ¨ uberpr¨ ufen, ob vorliegende Daten einer bestimmten (auch stetigen) Verteilung gehorchen. So kann man zum Beispiel feststellen, ob die h¨aufig angenommene Normalverteilung vorliegt. Diese Fragestellung wird beispielsweise in [11, Abschnitt 11.1.2], [23, Abschnitt 16.2] oder [15, Abschnitt 15.4] behandelt. Mit dem χ 2 -Unabh¨angigkeitstest ¨ uberpr¨ uft man, ob zwei Zufallsvariablen stochastisch unabh¨angig sind. Dieser Test l¨asst sich auf alle Skalenniveaus anwenden. χ 2 -Anpassungstest Hypothesen: H 0 : P (X = x j ) = p j j = 1, . . . , k H 1 : P (X = x j ) = p j f¨ ur mindestens ein j Pr¨ ufgr¨oße: χ 2 = k ∑ j =1 (N j − np j ) 2 np j ∼ a χ 2 (k − 1) χ 2 -Unabh¨angigkeitstest Nullhypothesen: H 0 : p jk = p j · p k j = 1, . . . , m; k = 1, . . . , Pr¨ ufgr¨oße: χ 2 = m ∑ j =1 ∑ k =1 (N jk − e jk ) 2 e jk ∼ a χ 2 ((m − 1)( − 1)) Anhang Summenzeichen F¨ ur eine Summe von n beliebigen Zahlen x 1 , x 2 , . . . , x n x 1 + x 2 + . . . + x n kann man kurz schreiben: n ∑ i=1 x i Gelesen wird: Die Summe von x i , i l¨auft von 1 bis n. Als Summenzeichen dient Σ, der griechische Großbuchstabe Sigma. Weitere Erkl¨arung zu den Bezeichnungen: Rechenregeln: 1. ∑ n i=1 x = n · x 2. ∑ n i=1 k · x i = k ∑ n i=1 x i 3. ∑ n i=1 (x i + y i ) = ∑ n i=1 x i + ∑ n i=1 y i 4. ∑ n i=1 (x i − y i ) = ∑ n i=1 x i − ∑ n i=1 y i 5. ∑ n i=1 x i+1 − ∑ n i=1 x i = x n+1 − x 1 290 Anhang Die Doppelsumme m ∑ j=1 ∑ k=1 x jk bedeutet m ∑ j=1 (x j1 + . . . + x j ) = m ∑ j=1 x j1 + . . . + m ∑ j=1 x j . Da die Addition kommutativ ist, gilt m ∑ j=1 ∑ k=1 x jk = ∑ k=1 m ∑ j=1 x jk . Tabellen Binomialverteilung Wertetabelle der Verteilungsfunktion: F (x) = P (X ≤ x) = x ∑ k=0 ( n k ) p k (1 − p) n − k n = 5 p x 0,01 0,05 0,10 0,20 0,25 0,30 0,40 0,50 0 0,9510 0,7738 0,5905 0,3277 0,2373 0,1681 0,0778 0,0313 1 0,9990 0,9774 0,9185 0,7373 0,6328 0,5282 0,3370 0,1875 2 1,0000 0,9988 0,9914 0,9421 0,8965 0,8369 0,6826 0,5000 3 1,0000 1,0000 0,9995 0,9933 0,9844 0,9692 0,9130 0,8125 4 1,0000 1,0000 1,0000 0,9997 0,9990 0,9976 0,9898 0,9688 5 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 n = 6 p x 0,01 0,05 0,10 0,20 0,25 0,30 0,40 0,50 0 0,9415 0,7351 0,5314 0,2621 0,1780 0,1176 0,0467 0,0156 1 0,9985 0,9672 0,8857 0,6554 0,5339 0,4202 0,2333 0,1094 2 1,0000 0,9978 0,9842 0,9011 0,8306 0,7443 0,5443 0,3438 3 1,0000 0,9999 0,9987 0,9830 0,9624 0,9295 0,8208 0,6563 4 1,0000 1,0000 0,9999 0,9984 0,9954 0,9891 0,9590 0,8906 5 1,0000 1,0000 1,0000 0,9999 0,9998 0,9993 0,9959 0,9844 6 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 292 Tabellen Binomialverteilung n = 7 p x 0,01 0,05 0,10 0,20 0,25 0,30 0,40 0,50 0 0,9321 0,6983 0,4783 0,2097 0,1335 0,0824 0,0280 0,0078 1 0,9980 0,9556 0,8503 0,5767 0,4449 0,3294 0,1586 0,0625 2 1,0000 0,9962 0,9743 0,8520 0,7564 0,6471 0,4199 0,2266 3 1,0000 0,9998 0,9973 0,9667 0,9294 0,8740 0,7102 0,5000 4 1,0000 1,0000 0,9998 0,9953 0,9871 0,9712 0,9037 0,7734 5 1,0000 1,0000 1,0000 0,9996 0,9987 0,9962 0,9812 0,9375 6 1,0000 1,0000 1,0000 1,0000 0,9999 0,9998 0,9984 0,9922 7 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 n = 8 p x 0,01 0,05 0,10 0,20 0,25 0,30 0,40 0,50 0 0,9227 0,6634 0,4305 0,1678 0,1001 0,0576 0,0168 0,0039 1 0,9973 0,9428 0,8131 0,5033 0,3671 0,2553 0,1064 0,0352 2 0,9999 0,9942 0,9619 0,7969 0,6785 0,5518 0,3154 0,1445 3 1,0000 0,9996 0,9950 0,9437 0,8862 0,8059 0,5941 0,3633 4 1,0000 1,0000 0,9996 0,9896 0,9727 0,9420 0,8263 0,6367 5 1,0000 1,0000 1,0000 0,9988 0,9958 0,9887 0,9502 0,8555 6 1,0000 1,0000 1,0000 0,9999 0,9996 0,9987 0,9915 0,9648 7 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9993 0,9961 8 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 n = 9 p x 0,01 0,05 0,10 0,20 0,25 0,30 0,40 0,50 0 0,9135 0,6302 0,3874 0,1342 0,0751 0,0404 0,0101 0,0020 1 0,9966 0,9288 0,7748 0,4362 0,3003 0,1960 0,0705 0,0195 2 0,9999 0,9916 0,9470 0,7382 0,6007 0,4628 0,2318 0,0898 3 1,0000 0,9994 0,9917 0,9144 0,8343 0,7297 0,4826 0,2539 4 1,0000 1,0000 0,9991 0,9804 0,9511 0,9012 0,7334 0,5000 5 1,0000 1,0000 0,9999 0,9969 0,9900 0,9747 0,9006 0,7461 6 1,0000 1,0000 1,0000 0,9997 0,9987 0,9957 0,9750 0,9102 7 1,0000 1,0000 1,0000 1,0000 0,9999 0,9996 0,9962 0,9805 8 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9997 0,9980 9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 Tabellen 293 Binomialverteilung n = 10 p x 0,01 0,05 0,10 0,20 0,25 0,30 0,40 0,50 0 0,9044 0,5987 0,3487 0,1074 0,0563 0,0282 0,0060 0,0010 1 0,9957 0,9139 0,7361 0,3758 0,2440 0,1493 0,0464 0,0107 2 0,9999 0,9885 0,9298 0,6778 0,5256 0,3828 0,1673 0,0547 3 1,0000 0,9990 0,9872 0,8791 0,7759 0,6496 0,3823 0,1719 4 1,0000 0,9999 0,9984 0,9672 0,9219 0,8497 0,6331 0,3770 5 1,0000 1,0000 0,9999 0,9936 0,9803 0,9527 0,8338 0,6230 6 1,0000 1,0000 1,0000 0,9991 0,9965 0,9894 0,9452 0,8281 7 1,0000 1,0000 1,0000 0,9999 0,9996 0,9984 0,9877 0,9453 8 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9983 0,9893 9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9990 10 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 n = 15 p x 0,01 0,05 0,10 0,20 0,25 0,30 0,40 0,50 0 0,8601 0,4633 0,2059 0,0352 0,0134 0,0047 0,0005 0,0000 1 0,9904 0,8290 0,5490 0,1671 0,0802 0,0353 0,0052 0,0005 2 0,9996 0,9638 0,8159 0,3980 0,2361 0,1268 0,0271 0,0037 3 1,0000 0,9945 0,9444 0,6482 0,4613 0,2969 0,0905 0,0176 4 1,0000 0,9994 0,9873 0,8358 0,6865 0,5155 0,2173 0,0592 5 1,0000 0,9999 0,9978 0,9389 0,8516 0,7216 0,4032 0,1509 6 1,0000 1,0000 0,9997 0,9819 0,9434 0,8689 0,6098 0,3036 7 1,0000 1,0000 1,0000 0,9958 0,9827 0,9500 0,7869 0,5000 8 1,0000 1,0000 1,0000 0,9992 0,9958 0,9848 0,9050 0,6964 9 1,0000 1,0000 1,0000 0,9999 0,9992 0,9963 0,9662 0,8491 10 1,0000 1,0000 1,0000 1,0000 0,9999 0,9993 0,9907 0,9408 11 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9981 0,9824 12 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9997 0,9963 13 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9995 14 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 294 Tabellen Binomialverteilung n = 20 p x 0,01 0,05 0,10 0,20 0,25 0,30 0,40 0,50 0 0,8179 0,3585 0,1216 0,0115 0,0032 0,0008 0,0000 0,0000 1 0,9831 0,7358 0,3917 0,0692 0,0243 0,0076 0,0005 0,0000 2 0,9990 0,9245 0,6769 0,2061 0,0913 0,0355 0,0036 0,0002 3 1,0000 0,9841 0,8670 0,4114 0,2252 0,1071 0,0160 0,0013 4 1,0000 0,9974 0,9568 0,6296 0,4148 0,2375 0,0510 0,0059 5 1,0000 0,9997 0,9887 0,8042 0,6172 0,4164 0,1256 0,0207 6 1,0000 1,0000 0,9976 0,9133 0,7858 0,6080 0,2500 0,0577 7 1,0000 1,0000 0,9996 0,9679 0,8982 0,7723 0,4159 0,1316 8 1,0000 1,0000 0,9999 0,9900 0,9591 0,8867 0,5956 0,2517 9 1,0000 1,0000 1,0000 0,9974 0,9861 0,9520 0,7553 0,4119 10 1,0000 1,0000 1,0000 0,9994 0,9961 0,9829 0,8725 0,5881 11 1,0000 1,0000 1,0000 0,9999 0,9991 0,9949 0,9435 0,7483 12 1,0000 1,0000 1,0000 1,0000 0,9998 0,9987 0,9790 0,8684 13 1,0000 1,0000 1,0000 1,0000 1,0000 0,9997 0,9935 0,9423 14 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9984 0,9793 15 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9997 0,9941 16 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9987 17 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9998 18 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 Tabellen 295 Binomialverteilung n = 25 p x 0,01 0,05 0,10 0,20 0,25 0,30 0,40 0,50 0 0,7778 0,2774 0,0718 0,0038 0,0008 0,0001 0,0000 0,0000 1 0,9742 0,6424 0,2712 0,0274 0,0070 0,0016 0,0001 0,0000 2 0,9980 0,8729 0,5371 0,0982 0,0321 0,0090 0,0004 0,0000 3 0,9999 0,9659 0,7636 0,2340 0,0962 0,0332 0,0024 0,0001 4 1,0000 0,9928 0,9020 0,4207 0,2137 0,0905 0,0095 0,0005 5 1,0000 0,9988 0,9666 0,6167 0,3783 0,1935 0,0294 0,0020 6 1,0000 0,9998 0,9905 0,7800 0,5611 0,3407 0,0736 0,0073 7 1,0000 1,0000 0,9977 0,8909 0,7265 0,5118 0,1536 0,0216 8 1,0000 1,0000 0,9995 0,9532 0,8506 0,6769 0,2735 0,0539 9 1,0000 1,0000 0,9999 0,9827 0,9287 0,8106 0,4246 0,1148 10 1,0000 1,0000 1,0000 0,9944 0,9703 0,9022 0,5858 0,2122 11 1,0000 1,0000 1,0000 0,9985 0,9893 0,9558 0,7323 0,3450 12 1,0000 1,0000 1,0000 0,9996 0,9966 0,9825 0,8462 0,5000 13 1,0000 1,0000 1,0000 0,9999 0,9991 0,9940 0,9222 0,6550 14 1,0000 1,0000 1,0000 1,0000 0,9998 0,9982 0,9656 0,7878 15 1,0000 1,0000 1,0000 1,0000 1,0000 0,9995 0,9868 0,8852 16 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9957 0,9461 17 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9988 0,9784 18 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9997 0,9927 19 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 0,9980 20 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9995 21 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,9999 22 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 296 Tabellen Standardnormalverteilung Wertetabelle der Verteilungsfunktion: Φ(z) = P (Z ≤ z), z > 0 z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359 0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753 0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141 0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517 0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879 0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224 0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549 0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852 0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133 0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389 1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621 1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830 1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015 1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177 1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319 1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441 1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545 1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633 1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706 1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767 2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817 2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857 2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890 2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916 2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936 2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952 2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964 2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974 2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981 2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986 3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990 Φ(3, 1) = 0, 9990, Φ(3, 2) = 0, 9993, Φ(3, 3) = 0, 9995, Φ(3, 4) = 0, 9997, Φ(3, 5) = 0, 9998, Φ(3, 6) = 0, 9998, Φ(3, 7) = 0, 9999, Φ(3, 8) = 0, 9999, Φ(3, 9) = 1, 0000 Tabellen 297 t-Verteilung Wertetabelle der Quantile der t(n)-Verteilung 1 − α n 0,8 0,85 0,9 0,95 0,975 0,99 0,995 1 1,3764 1,9626 3,0777 6,3138 12,7062 31,8205 63,6567 2 1,0607 1,3862 1,8856 2,9200 4,3027 6,9646 9,9248 3 0,9785 1,2498 1,6377 2,3534 3,1824 4,5407 5,8409 4 0,9410 1,1896 1,5332 2,1318 2,7764 3,7469 4,6041 5 0,9195 1,1558 1,4759 2,0150 2,5706 3,3649 4,0321 6 0,9057 1,1342 1,4398 1,9432 2,4469 3,1427 3,7074 7 0,8960 1,1192 1,4149 1,8946 2,3646 2,9980 3,4995 8 0,8889 1,1081 1,3968 1,8595 2,3060 2,8965 3,3554 9 0,8834 1,0997 1,3830 1,8331 2,2622 2,8214 3,2498 10 0,8791 1,0931 1,3722 1,8125 2,2281 2,7638 3,1693 11 0,8755 1,0877 1,3634 1,7959 2,2010 2,7181 3,1058 12 0,8726 1,0832 1,3562 1,7823 2,1788 2,6810 3,0545 13 0,8702 1,0795 1,3502 1,7709 2,1604 2,6503 3,0123 14 0,8681 1,0763 1,3450 1,7613 2,1448 2,6245 2,9768 15 0,8662 1,0735 1,3406 1,7531 2,1314 2,6025 2,9467 16 0,8647 1,0711 1,3368 1,7459 2,1199 2,5835 2,9208 17 0,8633 1,0690 1,3334 1,7396 2,1098 2,5669 2,8982 18 0,8620 1,0672 1,3304 1,7341 2,1009 2,5524 2,8784 19 0,8610 1,0655 1,3277 1,7291 2,0930 2,5395 2,8609 20 0,8600 1,0640 1,3253 1,7247 2,0860 2,5280 2,8453 21 0,8591 1,0627 1,3232 1,7207 2,0796 2,5176 2,8314 22 0,8583 1,0614 1,3212 1,7171 2,0739 2,5083 2,8188 23 0,8575 1,0603 1,3195 1,7139 2,0687 2,4999 2,8073 24 0,8569 1,0593 1,3178 1,7109 2,0639 2,4922 2,7969 25 0,8562 1,0584 1,3163 1,7081 2,0595 2,4851 2,7874 26 0,8557 1,0575 1,3150 1,7056 2,0555 2,4786 2,7787 27 0,8551 1,0567 1,3137 1,7033 2,0518 2,4727 2,7707 28 0,8546 1,0560 1,3125 1,7011 2,0484 2,4671 2,7633 29 0,8542 1,0553 1,3114 1,6991 2,0452 2,4620 2,7564 30 0,8538 1,0547 1,3104 1,6973 2,0423 2,4573 2,7500 298 Tabellen χ 2 ( n ) -Verteilung Wertetabelle der Quantile der χ 2 (n)-Verteilung 1 − α n 0,01 0,025 0,05 0,1 0,5 0,9 0,95 0,975 0,99 1 0,0002 0,0010 0,0039 0,0158 0,4549 2,7055 3,8415 5,0239 6,6349 2 0,0201 0,0506 0,1026 0,2107 1,3863 4,6052 5,9915 7,3778 9,2103 3 0,1148 0,2158 0,3518 0,5844 2,3660 6,2514 7,8147 9,3484 11,3449 4 0,2971 0,4844 0,7107 1,0636 3,3567 7,7794 9,4877 11,1433 13,2767 5 0,5543 0,8312 1,1455 1,6103 4,3515 9,2364 11,0705 12,8325 15,0863 6 0,8721 1,2373 1,6354 2,2041 5,3481 10,6446 12,5916 14,4494 16,8119 7 1,2390 1,6899 2,1673 2,8331 6,3458 12,0170 14,0671 16,0128 18,4753 8 1,6465 2,1797 2,7326 3,4895 7,3441 13,3616 15,5073 17,5345 20,0902 9 2,0879 2,7004 3,3251 4,1682 8,3428 14,6837 16,9190 19,0228 21,6660 10 2,5582 3,2470 3,9403 4,8652 9,3418 15,9872 18,3070 20,4832 23,2093 11 3,0535 3,8157 4,5748 5,5778 10,3410 17,2750 19,6751 21,9200 24,7250 12 3,5706 4,4038 5,2260 6,3038 11,3403 18,5493 21,0261 23,3367 26,2170 13 4,1069 5,0088 5,8919 7,0415 12,3398 19,8119 22,3620 24,7356 27,6882 14 4,6604 5,6287 6,5706 7,7895 13,3393 21,0641 23,6848 26,1189 29,1412 15 5,2293 6,2621 7,2609 8,5468 14,3389 22,3071 24,9958 27,4884 30,5779 16 5,8122 6,9077 7,9616 9,3122 15,3385 23,5418 26,2962 28,8454 31,9999 17 6,4078 7,5642 8,6718 10,0852 16,3382 24,7690 27,5871 30,1910 33,4087 18 7,0149 8,2307 9,3905 10,8649 17,3379 25,9894 28,8693 31,5264 34,8053 19 7,6327 8,9065 10,1170 11,6509 18,3377 27,2036 30,1435 32,8523 36,1909 20 8,2604 9,5908 10,8508 12,4426 19,3374 28,4120 31,4104 34,1696 37,5662 21 8,8972 10,2829 11,5913 13,2396 20,3372 29,6151 32,6706 35,4789 38,9322 22 9,5425 10,9823 12,3380 14,0415 21,3370 30,8133 33,9244 36,7807 40,2894 23 10,1957 11,6886 13,0905 14,8480 22,3369 32,0069 35,1725 38,0756 41,6384 24 10,8564 12,4012 13,8484 15,6587 23,3367 33,1962 36,4150 39,3641 42,9798 25 11,5240 13,1197 14,6114 16,4734 24,3366 34,3816 37,6525 40,6465 44,3141 26 12,1981 13,8439 15,3792 17,2919 25,3365 35,5632 38,8851 41,9232 45,6417 27 12,8785 14,5734 16,1514 18,1139 26,3363 36,7412 40,1133 43,1945 46,9629 28 13,5647 15,3079 16,9279 18,9392 27,3362 37,9159 41,3371 44,4608 48,2782 29 14,2565 16,0471 17,7084 19,7677 28,3361 39,0875 42,5570 45,7223 49,5879 30 14,9535 16,7908 18,4927 20,5992 29,3360 40,2560 43,7730 46,9792 50,8922 299 Literaturverzeichnis [1] Bamberg , G. ; Baur , F.: Statistik. R. Oldenbourg Verlag M¨ unchen Wien, 1989 [2] Bamberg , G. ; Baur , F. ; Krapp , M.: Statistik. Oldenbourg Verlag M¨ unchen, 2009 [3] Basieux , P.: Die Architektur der Mathematik. Denken in Strukturen. Rowohlt Taschenbuch Verlag GmbH, 2000 [4] Bergamini , D.: Die Mathematik. TIME-LIFE International (Nederland) N. V., 1971 [5] Bewersdorff , J.: STATISTIK wie und warum sie funktioniert. Ein mathematisches Lesebuch. Vieweg+Teubner Verlag, 2011 [6] Buttler , G. ; Fickel , N.: Statistik mit Stichproben. Rowohlt Taschenbuch Verlag, Reinbek bei Hamburg, 2002 [7] Chung , K.L.: Elementare Wahrscheinlichkeitstheorie und Stochastische Prozesse. Springer Verlag, 1978 [8] Cottin , C. ; D¨ ohler , S.: Risikoanalyse. Vieweg+Teubner, 2009 [9] Daume , P.: Finanzmathematik im Unterricht. Vieweg+Teubner, 2009 [10] Devlin , K.: Pascal, Fermat und die Berechnung des Gl¨ ucks. Verlag C.H.Beck M¨ unchen, 2009 [11] Fahrmeir , L. ; K¨ unstler , R. ; Pigeot , I. ; Tutz , G.: Statistik. Der Weg zur Datenanalyse. Springer, 2007 [12] Goldrian , G. (Hrsg.): ifo Beitr¨age zur Wirtschaftsforschung. Handbuch der umfragebasierten Konjunkturforschung. 2004 [13] Gonick , L. ; Smith , W.: The cartoon guide to statistics. HarperCollins Publishers, Inc., 2005 [14] Kaplan , E. ; Kaplan , M.: Eins zu Tausend. Die Geschichte der Wahrscheinlichkeitsrechnung. Campus Verlag GmbH, Frankfurt/ Main, 2007 [15] Keller , G.: Manegerial Statistics. 9th edition. International Edition. South- Western Cengage Learning, 2009 [16] Kr¨ amer , W.: So l¨ ugt man mit Statistik. Campus Verlag Frankfurt/ New York., 1992 [17] Kr¨ amer , W.: Statistik verstehen. Piper Verlag GmbH, M¨ unchen, 2001 [18] Nierhaus , W.: Zur Einf¨ uhrung der Vorjahrespreisbasis in der deutschen Statistik: Konsequenzen f¨ ur die Konjunkturanalyse (58. Jahrgang ifo Schnelldienst 5/ 2005). - Forschungsbericht. - 19 - 27 S. [19] Pimm , D. (Hrsg.): An Open University First Level Course. MU 120 Unit 2. Block A. For better, for worse. Prices. Henry Ling Ltd, The Dorset Press, Dorchester, 1996 [20] Pindyck , R. ; Rubinfeld , D.: Mikro¨okonomie. 7., aktualisierte Auflage. M¨ unchen: Pearson Studium, 2009 [21] Prexl , S. ; M.Bloss ; D.Ernst ; C.Haas ; J.H¨ acker ; B.R¨ ock : Financial Modeling. Sch¨afer-Poeschel Verlag Stutgart, 2010 [22] Randow , G. v.: Das Ziegenproblem. Denken in Wahrscheinlichkeiten. Rowohlt, Reinbek bei Hamburg, 2004 [23] Schira , J.: Statistische Methoden der VWL und BWL. 3., aktualisierte Auflage. M¨ unchen: Pearson Studium, 2009 [24] Walz , G. (Hrsg.): Lexikon der Statistik. Elsevier Spektrum akademischer Verlag, M¨ unchen, 2004 301 Index Ablehnungsbereich, 239 absolute H¨aufigkeit, 12 Additionssatz f¨ ur beliebige Ereignisse, 133 f¨ ur disjunkte Ereignisse, 133 Alternativhypothese, 237 Anfangskapital, 32 Annahmebereich, 239 arithmetisches Mittel, 25, 77, 208 gesamtes, 28 Ausgleichsgerade, 92 Auspr¨agung, 5, 63 Basisperiode, 100 bedingte Verteilung, 69 Berichtsperiode, 100 Bernoulli- Experiment, 171, 172 Kette, 171, 172 Variable, 171 Verteilung, 195 Besetzungszahl, 17 Bestimmtheitsmaß, 93, 96 Beziehungszahlen, 99 Bias, 211, 214 Binomialkoeffizient, 151 Binomialtest approximativer, 250 axakter, 242 Binomialverteilung, 173 Eigenschaften der, 175 Bravais-Pearson-Korrelationskoeffizient, 80 Chi-Quadrat-(χ 2 -) Anpassungstest, 277 Gr¨oße, 72 Test, 270 Chi-Quadrat-(χ 2 -)Unabh¨angigkeitstest, 282 Chi-Quadrat-(χ 2 -)Verteilung, 216 Daten, 6 eindimensionale, 11 gruppierte, 17 klassierte, 17 zweidimensionale, 63 de Moivre Grenzwertsatz von, 204, 250 de Morgan die Regeln von, 126 Deflationierung, 116 Dichtefunktion, 161 der Gleich- (Rechteck-)Verteilung, 196 der Normalverteilung, 185 diskrete Gleichverteilung, 170 durchschnittlicher Zinsfaktor, 32, 33 durchschnittlicher Zinssatz, 32, 33 effizient, 211 einfache Hypothese, 238 eingipfeilge Verteilung, 21 Elementarereignis, 124 empirische Varianz, 35, 36 empirische Verteilungsfunktion, 15, 24, 28 Ereignis, 124, 127 sicheres, 124 unm¨ogliches, 124 Ergebnis, 124 erwartungstreu, 210 Erwartungswert, 163, 209 Fakult¨at, 149 Fehler α-, 238 β-, 238 1. Art, 238 2. Art, 238 Gauß -Glocke, 186 -Test, 254 -Verteilung, 185 Gegenhypothese, 237 gemeinsame Verteilung, 67, 160 gemeinsame Wahrscheinlichkeitsverteilung, 160 geometrisches Mittel, 32 gesamte Varianz, 44 Gesetz der großen Zahlen, 202 Gewinn, 163 Gini-Koeffizient, 54 Gleichverteilung diskrete, 170 stetige, 182 Gliederungsszahlen, 99 Glockenkurve, 186 Goodness-of-fit-Test, 277 Grenzwertsatz von de Moivre, 204, 250 Grundgesamtheit, 5, 207 Gruppen, 17 H¨aufigkeit absolute, 12 gemeinsame, 65 relative, 12 kumulierte, 15 gemeinsame, 67 H¨aufigkeitstabelle, 12 H¨aufigkeitsverteilung bedingte, 69 gemeinsame, 67 Herfindahl-Index, 59 Histogramm, 19 hypergeometrische Verteilung, 179 Hypothese, 237 Alternativ-, 237 einfache, 238 Gegen-, 237 Null-, 237, 239 zusammengestezte, 238 i.i.d, 201 Index Aktien-, 102 Ausgaben-, 115 der Einzelhandelspreise, 102 Mengen-, 113 nach Laspeyres, 113 nach Paasche, 113 Preis-, 103 nach Laspeyres, 104, 105 nach Paasche, 104, 106 Produzentenpreis-, 102 Umsatz-, 115 Verbraucher-Preis-, 102 Wert-, 115 Indexverkettung, 110 Indizienprozess, 239 Intervallsch¨atzer, 219 Irrtumswahrscheinlichkeit, 220, 240 Justizirrtum, 239 kσ − Bereich, 188 kσ − Bereich, 199 Klassen, 17 Klassenbildung, 18 Klassenbreite, 19 Klassendichte, 19 Klassenh¨aufigkeit, 17 Klassenmitte, 19, 29 Klassenobergrenze, 17 Klassenuntergrenze, 17 Kombination, 150 Kombinatorik, 148 Konfidenintervall, 220 Konfidenzintervall approximatives, 227 einseitiges oberes, 220 einseitiges unteres, 220 f¨ ur den Anteilswert, 229 f¨ ur den Erwartungswert, 221 f¨ ur die Varianz, 228 zweiseitiges, 220 Konfidenzniveau, 220 konsistent, 211 Kontingenzkoeffizient, 73 korrigierter, 73 Kontingenztabelle, 65 Konzentration absolute, 51 relative, 51 Konzentrationsrate, 57 Korrelation, 75 negative, 75 positive, 75 Korrelationskoeffizient, 80, 168 korrigierter Kontingenzkoeffizient, 73 korrigierter Pearsons Kontingenzkoeffizient, 73 Kovarianz, 78, 168 KQ-(Kleinste-Quadrate-) Methode, 90 KQ-(Kleinstquadrat-) Sch¨atzer, 90 Kreisdiagramm, 13 Lageparameter, 21 Lageregel, 31 Laplace-Experiment, 129 Laplace-Wahrscheinlichkeit, 129, 178 Laplacescher D¨amon, 129 linearer Zusammenhang, 75, 89, 95 Liniendiagramm, 64 linksschiefe Verteilung, 31 linkssteile Verteilung, 31 Lorenzkurve, 52 M¨achtigkeit, 125 Median, 22, 24 Medianklasse, 28 mehrgipfelige Verteilung, 21 Menge, 125, 127 Mengenindex nach Laspeyres, 113 nach Paasche, 113 Mengenoperationen, 126 Mengenvektor, 102 Merkmal, 5 diskretes, 8 qualitatives, 7 quantitatives, 6 stetiges, 8 Merkmalsauspr¨agung, 5 Messzahlen, 99 Preis-, 105 mittlere quadratische Abweichung, 37 Modalklasse, 27 Modalwert, 21 Modus, 21, 22 Monty Hall Problem, 142 multimodale Verteilung, 21 Multinomial-Experiment, 277 Multiplikationssatz allgemeiner, 136 f¨ ur unabh¨angige Ereignisse, 137 f¨ ur zwei unabh¨angige Ereignisse, 137 Nominalgr¨oßen, 116 Normalgleichungen, 90 Normalverteilung, 185 approximative, 203, 227 asymptotische, 203 Standard-, 189 Nullhypothese, 237, 239 p-Wert, 267-269 Pass the pigs, 130 Pearsons Kontingenzkoeffizient, 73 korrigierter, 73 Permutation, 149 Poisson-Verteilung, 180 Population, 5 Potenzmenge, 125 Pr¨ ufgr¨oße, 239 Preisbereinigung, 116 Preisindex nach Laspeyres, 104, 105 nach Paasche, 104, 106 Preisvektor, 103 Punktewolke, 64, 75 Punktsch¨atzer, 210 Quantile der χ 2 -Verteilung, 217 der t-Verteilung, 219 der Standardnormalverteiung, 193 Randh¨aufigkeit absolue, 66 relative, 67 Randverteilung, 68 Rangkorrelationskoeffizientnach Spearman, 83 Realgr¨oßen, 116 Realisation, 153, 241 Realisierung, 153 Rechteckverteilung, 182 rechtsschiefe Verteilung, 31 rechtssteile Verteilung, 31 Regression lineare, 89 Regressionsanalyse, 89 Regressionsgerade, 92 relative H¨aufigkeit, 12 relative kumulierte H¨aufigkeit, 15 Rendite, 40 Risikomaß, 41 robust, 31 Rohdaten, 11 S¨aulendiagramm, 13 Satz von der totalen Wahrscheinlichkeit, 141 Scatterplot, 64 Sch¨atzer Intervall-, 219 Punkt-, 210 Sicherheitswahrcheinlichkeit, 240 signifikantes Ergebnis, 241 Signifikanzniveau, 239-241 Signifikanztest, 239 Skala Intervall-, 8 Kardinal-, 8 metrische-, 8 Nominal-, 8 Ordinal-, 8 Verh¨altnis-, 8 Spannweite, 35 Spearman-Rangkorrelationskoeffizient, 83 Sreudiagramm, 64 Stabdiagramm, 13 Standardabweichung, 38, 77, 167 Standardisierung, 190 Standardnormalverteilung, 189 Statistische Einheit, 5 stetige Gleichverteilung, 182 Stichprobe, 5, 207 Stichprobenfunktion, 210, 239 Stichprobenmittelwert, 208 Stichprobenstandardabweichung, 210 Stichprobenumfang, 5, 223 Stichprobenvariable, 210 Stichprobenvarianz, 210 Streudiagramm, 75 Streuungsparameter, 35 Streuungszerlegung, 93 Student-(t-)Verteilung, 217 symmetrische Verteilung, 31 t-Test, 264 Teilmenge, 125 Test t-, 264 approximativer Binomial-, 250 Chi-Quadrat-(χ 2 -), 270 Chi-Quadrat-(χ 2 -)Anpassungs-, 277 Chi-Quadrat-(χ 2 -)Unabh¨angigkeits- , 282 einseitiger, 240 exakter Binomial-, 242 Gauß-, 254 Goodness-of-fit, 277 Signifikanz-, 239 zweiseitiger, 240 Testgr¨oße, 239 Teststatistik, 239 Theorem von Bayes, 138, 140 von Bernoulli, 202 Tortendiagramm, 13 Tschebyscheff Ungleichung von, 199 Ueberdeckungswahrscheinlichkeit, 220 Umbasierung, 110 unabh¨angig, 70, 71 Unabh¨angigkeit statistische, 70, 71 stochastische, 160, 282 Ungleichung von Tschebyscheff, 199 unimodale Verteilung, 21 Unschuldvermutung, 239 Urliste, 11 Urnenmodell, 177, 178 Variable, 5 abh¨angige, 89 endogene, 89 exogene, 89 unabh¨angige, 89 Varianz, 39, 77, 166, 209 ¨außere, 44 empirische, 35, 36, 208 erk¨arte, 95 externe, 44 gesamte, 44 innere, 44 interne, 44 unerkl¨arte, 95 Varianzzerlegung, 93 Variation, 150 Variationskoeffizient, 43 Verh¨altniszahlen, 99 Verschiebungssatz f¨ ur die Kovarianz, 77 f¨ ur die Varianz, 38 Verteilung bedingte, 69 Bernoulli-, 195 Binomial-, 173, 181 Chi-Quadrat-(χ 2 -), 216 eingipfelige, 21 Gauß-, 185 gemeinsame, 67 Gleichdiskrete, 170 stetige, 170, 182, 196 hypergeometrische, 178, 179 linksschiefe, 31 linkssteile, 31 mehrgipfelige, 21 multimodale, 21 Normal-, 185 Standard-, 189 Poisson-, 180, 181 Rechteck-, 182 rechtsschiefe, 31 rechtssteile, 31 Student-(t-), 217 symmetrische, 31 unimodale, 21 Verteilungsfunktion diskrete, 156, 157 empirische, 15, 24, 28 stetige, 161 Vertrauensintervall, 220 Vertrauenswahrscheinlichkeit, 220 Volatilit¨at, 41 Vollerhebung, 5 W¨ urfelschwein, 130 Wachstumfaktor, 34 durchschnittlicher, 34 Wachstumrate, 34 durchschnittliche, 34 Wahrscheinlichkeit, 129, 155 A-posteriori-, 140 A-priori-, 140 bedingte, 135, 160 Laplace-, 129, 178 Satz von der totalen, 141 statistische, 131 Wahrscheinlichkeitsfunktion, 155 Warenkorb, 102 Zentraler Grenzwertsatz, 203 Zentralwert, 22 Ziegenproblem, 142 Ziehung mit einem Griff, 177, 178 mit Zur¨ ucklegen, 177 ohne Zur¨ ucklegen, 177, 178 mit Reihenfolge, 177 ohne Reihenfolge, 177 Zinsfaktor durchschnittlicher, 32, 33 Zinssatz, 32 durchschnittlicher, 32, 33 Zufallsexperiment, 124 Zufallsgr¨oße, 153 Zufallsvariable, 153 n-dimensionale, 154 diskrete, 154 eindimensionale, 153 stetige, 160, 161 zusammengesetzte Hypothese, 238 Zusammenhang, 71 linearer, 75 zweidimensionale Daten, 63 Dies ist ein utb-Band aus dem expert Verlag. utb ist eine Kooperation von Verlagen mit einem gemeinsamen Ziel: Lehrbücher und Lernmedien für das erfolgreiche Studium zu veröffentlichen. utb-shop.de ,! 7ID8C5-cfdfbg! ISBN 978-3-8252-5351-6 Ira Frost Statistik für Wirtschaftswissenschaftler 4. Auflage Verstehen und Anwenden statistischer Methoden gehören mittlerweile zum Alltag der Akteure der ökonomischen Welt. Der Relevanz des Faches Statistik in der Praxis stehen die Schwierigkeiten vieler Studierender gegenüber, Statistik zu verstehen. Dieses Buch bietet Studienanfängern insbesondere in den praxisorientierten wirtschaftswissenschaftlichen Fächern einen leichteren Zugang. Mathematische Ausdrücke werden durch Beschreibungen und Kommentare in einer klaren, einfachen Sprache ergänzt, Schulkenntnisse genügen völlig für das Verständnis. Sollte die Schule jedoch weit zurückliegen, so gibt ein Überblick im Anhang die Möglichkeit, Kenntnisse aufzufrischen. Viele Beispiele und Abbildungen unterstützen das Lernen. Zahlreiche Übungsaufgaben mit Lösungen sind zum Download verfügbar. Mathematik | Statistik | Wirtschaftswissenschaften Frost Statistik für Wirtschaftswissenschaftler QR-Code für mehr Infos und Bewertungen zu diesem Titel 53516 Frost_M-5351.indd 1 53516 Frost_M-5351.indd 1 07.02.20 09: 40 07.02.20 09: 40