eBooks

Inferenzmethoden und Multivariate Statistik

Grundlagen mit SPSS verstehen

0325
2019
978-3-8385-5121-0
978-3-8252-5121-5
UTB 
Veith Tiemann

Von der Stichprobe auf die Grundgesamtheit schließen - dabei hilft die Inferenzstatistik! Veith Tiemann vermittelt in seinem neuen Lehrbuch die Grundlagen der Inferenzstatistik und Multivariaten Statistik. Zu Beginn stellt er statistische Tests und den Ein-, Zwei- und C-Stichprobenfall vor. Abhängigkeitsstrukturen deckt er durch Korrelationen, Regressionen, Hauptkomponenten und Faktoranalysen auf. Er zeigt auch, wie sich Gruppenstrukturen bilden lassen. Den Stoff illustriert er durch zahlreiche Beispiele und SPSS-Anwendungen. Das Buch richtet sich an Studierende der Wirtschafts- und Sozialwissenschaften und ist darüber hinaus für das Selbststudium geeignet.

<?page no="0"?> Veith Tiemann Inferenzmethoden und Multivariate Statistik Grundlagen mit SPSS verstehen Inferenzmethoden und Multivariate Statistik Tiemann Von der Stichprobe auf die Grundgesamtheit schließen dabei hilft die Inferenzstatistik! Veith Tiemann vermittelt in seinem neuen Lehrbuch die Grundlagen der Inferenzstatistik und Multivariaten Statistik. Zu Beginn stellt er statistische Tests und den Ein-, Zwei- und C-Stichprobenfall vor. Abhängigkeitsstrukturen deckt er durch Korrelationen, Regressionen, Hauptkomponenten- und Faktoranalysen auf. Er zeigt auch, wie sich Gruppenstrukturen bilden lassen. Den Stoff illustriert er durch zahlreiche Beispiele und SPSS-Anwendungen. Das Buch richtet sich an Studierende der Wirtschafts- und Sozialwissenschaften und ist darüber hinaus für das Selbststudium geeignet. Wirtschafts- und Sozialwissenschaften ,! 7ID8C5-cfbcbf! ISBN 978-3-8252-5121-5 Dies ist ein utb-Band aus dem UVK Verlag. utb ist eine Kooperation von Verlagen mit einem gemeinsamen Ziel: Lehrbücher und Lernmedien für das erfolgreiche Studium zu veröffentlichen. utb-shop.de QR-Code für mehr Infos und Bewertungen zu diesem Titel 51215 Tiemann_L-5121.indd 1 20.02.19 14: 32 <?page no="1"?> Eine Arbeitsgemeinschaft der Verlage Böhlau Verlag · Wien · Köln · Weimar Verlag Barbara Budrich · Opladen · Toronto facultas · Wien Wilhelm Fink · Paderborn Narr Francke Attempto Verlag · Tübingen Haupt Verlag · Bern Verlag Julius Klinkhardt · Bad Heilbrunn Mohr Siebeck · Tübingen Ernst Reinhardt Verlag · München Ferdinand Schöningh · Paderborn Eugen Ulmer Verlag · Stuttgart UVK Verlag · München Vandenhoeck & Ruprecht · Göttingen Waxmann · Münster · New York wbv Publikation · Bielefeld utb UTB (L) Impressum_19.indd 1 UTB (L) Impressum_19.indd 1 20.02.19 12: 37 20.02.19 12: 3 : 377 <?page no="2"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite II — le-tex <?page no="3"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite III — le-tex Veith Tiemann Inferenzmethoden und Multivariate Statistik Grundlagen mit SPSS verstehen UVK Verlag · München <?page no="4"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite IV — le-tex Der Autor Prof. Dr. Veith Tiemann lehrt an der EBC Hochschule Hamburg. Online-Angebote oder elektronische Ausgaben sind erhältlich unter www.utb-shop.de Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über <http: / / dnb.ddb.de> abrufbar. Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. © UVK Verlag 2019 - ein Unternehmen der Narr Francke Attempto Verlag GmbH & Co. KG Lektorat: Rainer Berger, München Einbandgestaltung: Atelier Reichert, Stuttgart Einbandmotiv: © Stas_V - iStock Druck und Bindung: CPI - Clausen & Bosse, Leck UVK Verlag Nymphenburger Str. 48 80335 München Telefon: 089/ 452174-66 www.uvk.de Narr Francke Attempto Verlag GmbH & Co. KG Dischingerweg 5 72070 Tübingen Telefon: 07071/ 9797-0 www.narr.de UTB-Nr. 5121 ISBN 978-3-8252-5121-5 <?page no="5"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite V — le-tex Vorwort Das vorliegende Buch richtet sich an Studierende, die bereits eine Grundeinführung in die Statistik hinter sich haben. Datenanalyse, Wahrscheinlichkeiten, Verteilungen und das Konzept „der statistische Test“ sind keine völligen Fremdwörter. Das bedeutet, dass zum Beispiel die Normalverteilung, die Binomialverteilung aber auch Konzepte wie bedingte Wahrscheinlichkeiten schon einmal studiert wurden. Im Wesentlichen werden diese Themen aufgegriffen und weitergeführt bzw. zusammengeführt. Das Buch hat zum Ziel, ein grundsätzliches Handwerkszeug zusammenzustellen, welches Ihnen erlaubt, sich in Datensituationen zurechtzufinden und diese angemessen und furchtlos anzugehen. Sie werden zunächst Inferenzmethoden kennenlernen, die dann zu multivariaten Methoden erweitert werden. SPSS wird Sie als Software stets begleiten. Statistik macht ohne eine vernünftige Software nur bedingt Sinn. Ich möchte Ihnen noch einige Sätze zum Aufbau, zur Gestaltung und zu einigen Besonderheiten dieses Buches mit auf den Weg geben: Inferenzmethoden und multivariate Methoden werden in einem Lehrbuch behandelt. Multivariate Verfahren kommen ohne Testverfahren als Bewertungsinstrumente kaum aus. Die Testverfahren wiederum sind ohne Daten und Fragestellungen nutzlos. Diese entstehen meist in einem multivariaten Kontext. Man könnte also von einem kongenialen Team sprechen. Für jedes Verfahren, für jede statistische Methode, die im vorliegenden Buch behandelt wird, kann umgehend die Umsetzung und Anwendung in SPSS erfolgen. Das ist ein wichtiger Gleichschritt. Ohne eine gute Software kann man Statistik beobachten, aber niemals anwenden. Das Buch beginnt mit der ganz konkreten und umfangreichen Darstellung der Konstruktion zweier statistischer Tests, für stetige Daten und für diskrete Daten. Jeder statistische Test läuft prinzipiell gleich ab, argumentiert gleich und hat die gleichen Schwächen. Die Konstruktion eines Testes zu beobachten, ist sehr lehr- und hilfreich, um das Konzept wirklich zu verstehen. <?page no="6"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite VI — le-tex VI Vorwort Beginnen wird das Buch mit einer kleine Einführung in SPSS. Diese dient der Orientierung. Das vorliegende Buch ist nicht dazu gedacht, eine umfassende Einführung in die Software zu geben. Natürlich werden nicht alle Inferenz- und multivariaten Methoden behandelt. Aber Sie bekommen einen Überblick über die wichtigsten Werkzeuge. Und Sie werden sehen, dass alle Themen inhaltlich abgedeckt werden. Die Beispieldatensätze, die im Buch zum Einsatz kommen sowie weitere Aufgaben, finden Sie zum Download im Internet. <?page no="7"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite VII — le-tex Inhaltsverzeichnis I Statistiksoftware 1 1 Wofür braucht man das? 3 2 Klassen von Software 5 3 SPSS - eine Statistiksoftware 7 3.1 Vorstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3.2 Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.3 Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.4 Graphiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.5 Analysen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4 Aufgaben Teil I 31 II Inferenzstatistik 33 5 Einführung 35 5.1 Statistischer Test und multivariate Statistik . . . . . . . . . . . . . 35 5.2 Der statistische Test - Die Konstruktion eines Testes mit stetigen Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 5.2.1 Hypothesen werden benötigt . . . . . . . . . . . . . . . . . 37 5.2.2 Vereinfachung durch Differenzenbildung . . . . . . . . . . . 39 5.2.3 Die Prüfgröße . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.2.4 Die t-Verteilung kommt ins Spiel . . . . . . . . . . . . . . . 42 5.2.5 Ein Ablaufplan für den t-Test . . . . . . . . . . . . . . . . . 44 <?page no="8"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite VIII — le-tex VIII Inhaltsverzeichnis 5.2.6 Die Entscheidungsmatrix mit den beiden Fehlern . . . . . . 45 5.2.7 Die Überschreitungswahrscheinlichkeit . . . . . . . . . . . . 45 5.2.8 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . 46 5.3 Der statistische Test - Die Konstruktion eines Tests mit diskreten Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 5.3.1 Die Prüfgröße . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.3.2 Die Entscheidungsregel . . . . . . . . . . . . . . . . . . . . 48 5.3.3 Die Überschreitungswahrscheinlichkeit . . . . . . . . . . . . 50 5.3.4 Zweiseitig vs. Einseitig . . . . . . . . . . . . . . . . . . . . . 52 5.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 6 Der Einstichprobenfall 53 6.1 p-Test, Test auf Anteilswerte . . . . . . . . . . . . . . . . . . . . . 53 6.1.1 Das Konzept . . . . . . . . . . . . . . . . . . . . . . . . . . 53 6.1.2 SPSS - Der Binomialtest . . . . . . . . . . . . . . . . . . . 54 6.2 t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 6.2.1 Das Konzept . . . . . . . . . . . . . . . . . . . . . . . . . . 56 6.2.2 SPSS - Der t-Test . . . . . . . . . . . . . . . . . . . . . . . 58 6.2.3 Die Power eines Test . . . . . . . . . . . . . . . . . . . . . . 61 6.3 Vorzeichentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 6.3.1 Das Konzept . . . . . . . . . . . . . . . . . . . . . . . . . . 62 6.3.2 SPSS - Der Vorzeichentest . . . . . . . . . . . . . . . . . . 64 6.4 Der χ 2 -Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . 65 6.4.1 Das Konzept . . . . . . . . . . . . . . . . . . . . . . . . . . 65 6.4.2 SPSS - Der χ 2 -Anpassungstest . . . . . . . . . . . . . . . . 69 6.5 Der Kolmogorov-Smirnov-Test . . . . . . . . . . . . . . . . . . . . 71 6.5.1 Das Konzept . . . . . . . . . . . . . . . . . . . . . . . . . . 71 6.5.2 SPSS- und graphische Ansätze . . . . . . . . . . . . . . . . 72 6.5.3 Anmerkungen zu Zufallszahlen . . . . . . . . . . . . . . . . 79 6.5.4 SPSS - KS-Test . . . . . . . . . . . . . . . . . . . . . . . . 80 7 Der Zweistichprobenfall 83 7.1 Ein paar Hinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 7.2 Der χ 2 -Unabhängigkeitstest . . . . . . . . . . . . . . . . . . . . . . 85 7.2.1 Das Konzept . . . . . . . . . . . . . . . . . . . . . . . . . . 85 7.2.2 SPSS - χ 2 -Unabhängigkeitstest . . . . . . . . . . . . . . . . 87 <?page no="9"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite IX — le-tex Inhaltsverzeichnis IX 7.3 Lagetest verbunden . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 7.3.1 Das Konzept . . . . . . . . . . . . . . . . . . . . . . . . . . 89 7.3.2 SPSS - Lagetest verbunden . . . . . . . . . . . . . . . . . . 90 7.4 Lagetest unverbunden . . . . . . . . . . . . . . . . . . . . . . . . . 92 7.4.1 Das Konzept . . . . . . . . . . . . . . . . . . . . . . . . . . 92 7.4.2 t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 7.4.3 Varianztest . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 7.4.4 Welch-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 7.4.5 SPSS - das unverbundene Zweistichprobenproblem . . . . . 97 8 Der c-Stichprobenfall 101 8.1 Einfaktorielle univariate ANOVA . . . . . . . . . . . . . . . . . . . 101 8.1.1 Das Konzept . . . . . . . . . . . . . . . . . . . . . . . . . . 101 8.1.2 SPSS - einfaktorielle ANOVA . . . . . . . . . . . . . . . . . 105 8.2 Zweifaktorielle univariate ANOVA . . . . . . . . . . . . . . . . . . 108 8.2.1 Das Konzept . . . . . . . . . . . . . . . . . . . . . . . . . . 108 8.2.2 SPSS - zweifaktorielle ANOVA . . . . . . . . . . . . . . . . 108 9 Aufgaben Teil II 113 III Abhängigkeitsstrukturen 119 10 Korrelation 121 10.1 Kontingenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 10.1.1 Das Konzept . . . . . . . . . . . . . . . . . . . . . . . . . . 121 10.1.2 SPSS - Kontingenz und Profile . . . . . . . . . . . . . . . . 123 10.2 Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 10.3 Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 10.4 Scheinkorrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 10.5 SPSS - Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 11 Regression 135 11.1 Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . . 135 11.1.1 Das Konzept . . . . . . . . . . . . . . . . . . . . . . . . . . 135 11.1.2 SPSS - einfache lineare Regression . . . . . . . . . . . . . . 136 <?page no="10"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite X — le-tex X Inhaltsverzeichnis 11.2 Partielle Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . 140 11.2.1 Das Konzept . . . . . . . . . . . . . . . . . . . . . . . . . . 140 11.2.2 SPSS - partielle Korrelation . . . . . . . . . . . . . . . . . . 142 11.3 Autokorrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 11.3.1 Das Konzept . . . . . . . . . . . . . . . . . . . . . . . . . . 143 11.3.2 SPSS - Autokorrelation . . . . . . . . . . . . . . . . . . . . 148 11.4 Erweiterung - multiple Regression . . . . . . . . . . . . . . . . . . 151 11.4.1 Das Konzept . . . . . . . . . . . . . . . . . . . . . . . . . . 151 11.4.2 SPSS - Regression . . . . . . . . . . . . . . . . . . . . . . . 155 12 Hauptkomponentenanalyse 163 12.1 Hintergrund und worum es geht . . . . . . . . . . . . . . . . . . . . 163 12.2 Konkrete Durchführung einer HKA . . . . . . . . . . . . . . . . . . 166 12.3 Fahrplan einer HKA . . . . . . . . . . . . . . . . . . . . . . . . . . 172 12.4 Faktorenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 12.5 SPSS - HKA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 13 Aufgaben Teil III 183 IV Gruppenstrukturen 191 14 Worum geht es? 193 15 Klassifizieren 195 15.1 Diskriminanzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 195 15.2 SPSS - Diskriminanzanalyse . . . . . . . . . . . . . . . . . . . . . . 201 16 Segmentieren 211 16.1 Worum es geht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 16.2 Hierarchische Verfahren - Clusteranalyse . . . . . . . . . . . . . . . 212 16.3 Partitionierende Verfahren - K-Means . . . . . . . . . . . . . . . . 218 16.4 SPSS - Distanzen und Segmentierung . . . . . . . . . . . . . . . . 221 17 Aufgaben Teil IV 227 <?page no="11"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite XI — le-tex Inhaltsverzeichnis XI V Anhänge 229 18 Literatur 231 19 Tabellenverzeichnis 233 20 Abbildungsverzeichnis 235 21 Stichwortverzeichnis 241 <?page no="12"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite XII — le-tex <?page no="13"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 1 — le-tex Teil I Statistiksoftware Teil I Statistiksoftware <?page no="14"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 2 — le-tex <?page no="15"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 3 — le-tex Teil I Statistiksoftware Kapitel 1 Wofür braucht man das? Natürlich kann man Statistik erlernen, ohne jemals mit einer Software in Berührung zu kommen. Man kann sich mit Datenanalyse und Modellierung ebenfalls wunderbar ohne eine Software beschäftigen. Man kann sich in der Mathematik austoben und kann viele Tafeln füllen. Und das ist auch alles nicht unwichtig. Das Verständnis der Statistik, so könnte man sagen, ist allerdings ggf. ein anderes. Statistik ist eine Sprache, die uns hilft Probleme zu formulieren und Lösungen zu finden. Diese Probleme, und das ist die Stärke der Statistik, dürfen der echten Welt, einem echten Kontext entspringen. Dieser kann betriebswirtschaftlich sein, aus der angewandten Psychologie kommen, aus der Biologie, wenn dort munter sequenziert wird oder sich aus Sicherheitsfragen bei Handygesprächen rekrutieren. Alle diese Themen (und vermutlich auch alle nicht genannten) haben einen gemeinsamen Nenner: Daten, viele Daten. Wir kommen hier mit Schwamm und Tafel nicht weiter. Nicht dass wir uns falsch verstehen. Das statistische Arbeiten mit Schwamm und Tafel ist enorm wichtig, um die Disziplin voranzutreiben - Schwamm und Tafel soll stellvertretend gemeint sein für die mehr theoretische und abstrakte Herangehensweise, um der Methoden Willen. Hier soll es aber um die Anwendung gehen, um der Daten Willen. Und die braucht Daten und eine Software, um mit den Daten umgehen zu können. Die Datenvolumen, die fast in jedem Kontext eine Rolle spielen, haben zum Teil Größenordnungen erreicht, mit denen auch SPSS nichts anfangen kann. Aber auch wenn wir von diesen Big-Data-Szenarien einmal absehen, werden uns z. B. in der Wirtschaft nicht selten Datensätze jenseits der 10000 Fälle mit 20 Feldern begegnen. Das sind viele Datenpunkte. <?page no="16"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 4 — le-tex 4 Kapitel 1. Wofür braucht man das? Datenbanken: Grundbegriffe Daten werden typischerweise in einer Datenbank gehalten. Eine Datenbank besteht aus der physikalischen Einheit, z. B. eine Magnetplatte und dem Datenbankmanagementsystem. Die letztgenannte Software sorgt für Ordnung und Konsistenz. Man findet in einer Datenbank Datensätze - das entspricht so in etwa einer Zeile bei SPSS oder auch Excel. Die Spalten bei SPSS werden in der Datenbankwelt Felder genannt. Die Zeilen sind also objektorientiert, während die Spalten merkmalsorientiert sind. Um Daten aus einer Datenbank zu bekommen, verwendet man üblicherweise eine Abfragesprache, wahrscheinlich SQL (= Structured Query Language). Datenbanken kommen in allen möglichen Formen daher. Darum soll es hier nicht gehen. Ohne Datenbanken kommt heutzutage kaum ein Unternehmen aus. Vermutlich liegt jeder statistischen Analyse zunächst eine Datenbankabfrage zugrunde. <?page no="17"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 5 — le-tex Teil I Statistiksoftware Kapitel 2 Klassen von Software In der Regel ist es hilfreich, im Rahmen von Klassen über neue Konzepte nachzudenken. Auch bei Software ist das nützlich. Folgende Gliederungskriterien sind vermutlich sinnvoll: Proprietär vs. Open Source Es gibt einerseits Software, bei der der Quellcode geschützt ist, nicht verändert oder weitergegeben werden darf, und die Geld kostet. SPSS gehört in diese Klasse. Andererseits gibt es ganz bewusst Software, die (prinzipiell) nichts kostet, deren Quellcode man weitergeben und sogar verändern kann. Auch hier gibt es Spielregeln und manchmal auch Beschränkungen. Viele Open-Source-Anwendungen sind unter dem GNU-Projekt geregelt. GUI vs. Kommando Graphical User Interface bedeutet, dass man z. B. per Maus menügesteuert die Software bedienen kann. Das hat Vor- und Nachteile. Offensichtlich ist es einfacher, auf diese Art mit einer Software umzugehen. Es ist nicht notwendig, eine spezielle Steuerungssprache zu erlernen. Andererseits sind der Anwendung Grenzen gesetzt. Nur das, was der Programmierer in den Menüs hinterlegt hat, kann auch realisiert werden. Darüber hinaus kann es problematisch sein, dass jeder eine statistische Analyse durchführen kann, ein Ergebnis bekommt, aber nicht wirklich weiß, was man damit anfangen kann. Kommandoorientierte Software gibt einem die Freiheit, alles machen zu können. Allerdings muss man das Coding erlernen. Spreadsheet vs. Modellierung vs. wieder Kommando Hierbei geht es darum, wie eigentlich die Daten innerhalb der Software gehalten und visualisiert werden und wie diese mit den Methoden zusammengebracht werden. Excel ist eine klassische Spreadsheet-Software, d. h. die Daten sind in einer Matrix angeordnet und stets sichtbar. Die Vorteile sind offensichtlich, man <?page no="18"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 6 — le-tex 6 Kapitel 2. Klassen von Software sieht die Daten immer. Es ist wichtig, die Daten zu sehen. Die Nachteile sind deutliche Einbußen bei der Performance, wenn die Daten sehr umfangreich sind. Viele Statistikprogramme bieten eine Modellierungssuite an. Das heißt, wie in einem Flussdiagramm können Daten mit Methoden verknüpft werden. In der kommandoorientierten Welt sieht man die Daten und die Methoden nur, wenn man sie aufruft. Sie sind ansonsten im Hintergrund. <?page no="19"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 7 — le-tex Teil I Statistiksoftware Kapitel 3 SPSS - eine Statistiksoftware 3.1 Vorstellung SPSS war eine der ersten statistischen Softwareangebote. Bereits 1968 wurde es unter dem Namen Statistical Package for the Social Sciences (SPSS) veröffentlicht. Die Sozialwissenschaften waren auch zunächst die Hauptanwender. 1 SPSS wurde 2009 von IBM aufgekauft und wird nun unter dem Namen IBM SPSS Statistics vertrieben. SPSS fällt in die Klasse der proprietären Software, es gibt ein GUI und die Daten sind prinzipiell im Spreadsheet-Format dargestellt. Natürlich gibt es für SPSS die entsprechenden Ausbaumöglichkeiten, um z. B. auch per Coding Ergebnisse zu erzielen. Mit dem SPSS-Modeler hat man dann auch die vorhin erwähnte flussdiagrammartige sogenannte Workbench. Es gibt sehr (! ) viele Anbieter von statistischen Programmpaketen. 2 Genannt seien an dieser Stelle nur wenige, die aber sehr bedeutend sind: Proprietär: SAS, S-Plus, STATISTICA Open Source: R, PSPP R sei besonders hervorgehoben, da es sich mittlerweile zur wahrscheinlich bedeutendsten statistischen Programmiersprache entwickelt hat. 3 Diese Aussage gilt sowohl für Hochschulen als auch auch für Unternehmungen. R hat eine ganze Reihe von Vorzügen, die die Software so attraktiv macht. Die hohe Verarbeitungsgeschwindigkeit sowie die phantastischen graphischen und statistischen Möglichkeiten seien hier erwähnt. Dazu kommt die Freiheit, die eine Programmiersprache bietet. Zudem ist sie kostenfrei nutzbar und wird durch das große und professionelle Netzwerk stets erweitert. 1 PSPP ist die open source Variante zu SPSS. PSPP wird unter der GNU Lizenz vertrieben. 2 Diese Webseite gibt einen sehr guten Überblick: https: / / en.wikipedia.org/ wiki/ List_of_ statistical_packages 3 R finden Sie hier: https: / / cran.r-project.org/ <?page no="20"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 8 — le-tex 8 Kapitel 3. SPSS - eine Statistiksoftware Im Rahmen dieser Vorstellung und des Buches wird IBM SPSS Statistics 24 unter Windows verwendet. Wenn Sie SPSS starten, werden Sie diese leere Arbeitsfläche sehen: Abbildung 3.1: SPSS - Startscreen Unschwer erkennbar ist das Windows-Look-and-Feel. Andererseits sehen Sie auch sofort, dass es durchaus andere Menüpunkte gibt, als man es beispielsweise von den Office-Anwendungen kennt. Die nächsten Kapitel stellen die Software vor. Die Reihenfolge orientiert sich dabei an dem typischen Ablauf einer Analyse. Der Punkt Analyse bezieht sich dabei aber ausschließlich auf rein deskriptive Vorgehensweisen. 3.2 Daten Um mit SPSS arbeiten zu können, benötigen wir Daten. Die Oberfläche, das Spreadsheet, erlaubt natürlich eine direkte Dateneingabe. Es ist unwahrscheinlich, dass man seine Daten direkt in die Oberfläche eintippt. Vermutlich liegen die Daten in einer Datenbank oder stehen in einer Datei zur Verfügung. SPSS erwartet die Daten stets als einen multivariaten Datensatz. Das bedeutet, die Spalten sind die Merkmale oder Variablen. Die Zeilen die Objekte. Unter dem Menüpunkt Datei-> Öffnen-> Daten können Sie genau das tun. Der Dialog bietet ihnen verschiedene Schnittstellen also Dateitypen an. Sie werden alle gängigen finden. <?page no="21"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 9 — le-tex Teil I Statistiksoftware 3.2. Daten 9 Es soll beispielhaft eine sogenannte CSV-Datei eingelesen werden - z. B. eine Befragung von Erstsemestern: Abbildung 3.2: SPSS - Daten einlesen Eine CSV-Datei ist eine Textdatei, die ein paar Metainformationen mitbekommen hat z. B. das Semikolon (; ) als Trenner zwischen den verschiedenen Spalten. Wenn Sie den Dialog beenden, dann sieht das Datenfenster so aus: Abbildung 3.3: SPSS - Datenansicht <?page no="22"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 10 — le-tex 10 Kapitel 3. SPSS - eine Statistiksoftware Dies ist die sogenannte Datenansicht. Sie haben unten rechts die Möglichkeit, zur Variablenansicht zu wechseln: Abbildung 3.4: SPSS - Variablenansicht Die Variablenansicht erlaubt es, die notwendigen Einstellungen bei den Merkmalen zu prüfen und ggf. anzupassen z. B. das Skalenniveau oder den Typ. Es können bei kodierten Merkmalen auch entsprechende Label vergeben werden. Ihnen ist natürlich aufgefallen, dass sich ein weiteres Fenster geöffnet hat, der Statistics Viewer. Alles, was Sie im Dateneditor, also dem eigentlichen Fenster machen, wird im Viewer für Sie protokolliert, nichts geht verloren. <?page no="23"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 11 — le-tex Teil I Statistiksoftware 3.3. Transformationen 11 3.3 Transformationen Aus der Datenansicht werden die Daten bearbeitet. Transformationen sind wichtige Schritte, um die Daten so anzupassen, dass man mit ihnen die gewünschten Analysen durchführen kann. Zum Beispiel ist das Merkmal Geschlecht als sogenannte Zeichenfolge hinterlegt. Das ist ungünstig. Das sollte umcodiert werden: Transformieren-> Automatisch umcodieren Abbildung 3.5: SPSS - automatisches Umcodieren Nach Bestätigung des Dialogs wird eine neue Spalte mit dem gewählten Namen hinzugefügt. Unter Variablenansicht und Werte ist die Zuordnung hinterlegt: Abbildung 3.6: SPSS - labels <?page no="24"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 12 — le-tex 12 Kapitel 3. SPSS - eine Statistiksoftware Vielleicht soll ein stetiges Merkmal auf Klassen transformiert werden - Gewicht soll als Beispiel dienen: Transformieren-> Visuelle Klassierung Abbildung 3.7: SPSS - Klassen bilden Unter Trennwerte erstellen können Sie gerade dies tun und z. B. angeben, dass Sie 10 Klassen haben möchten usw: Abbildung 3.8: SPSS - Klassen bilden <?page no="25"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 13 — le-tex Teil I Statistiksoftware 3.3. Transformationen 13 Zum Abschluss soll eine neue Variable aus den existierenden berechnet werden. Das Merkmal Größe ist offenbar in Metern notiert worden, es soll in cm angepasst werden, Transformieren-> Variable berechnen: Abbildung 3.9: SPSS - neue Variable berechnen Wie man sieht, ist der Dialog ziemlich selbst erklärend. Die Klassen werden als neue Variable angehängt. Sie haben bei diesem Taschenrechner sehr viele Funktionen zur Verfügung, die Sie neben den Grundrechenarten ebenfalls verwenden können. Wir werden später sehen, wie man so Zufallszahlen erzeugt. <?page no="26"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 14 — le-tex 14 Kapitel 3. SPSS - eine Statistiksoftware 3.4 Graphiken Graphiken sind vielleicht das wichtigste Hilfsmittel, das uns zur Verfügung steht, um einen Datensatz zu verstehen. Eine Explorative Datenanalyse (EDA) gemäß Tukey muss jeder Analyse vorangehen. Dazu gehören Maßzahlen und eben Graphiken. SPSS bietet prinzipiell drei Möglichkeiten an, Graphiken zu erzeugen: 1. In einer Analysefunktion werden graphische Darstellungen der Daten oder des Ergebnisses der Analysefunktion angeboten. 2. Per Doppelklick in eine Ergebnistabelle im Viewer kann diese graphisch dargestellt werden. 3. Der Menüpunkt Graphik bietet zahlreiche Möglichkeiten. Den letzten Punkt wollen wir an dieser Stelle behandeln. Wählen Sie unter Graphik den ersten Eintrag Diagrammerstellung: Abbildung 3.10: SPSS - Graphik Dialog <?page no="27"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 15 — le-tex Teil I Statistiksoftware 3.4. Graphiken 15 Mit Hilfe des Dialoges können Sie sehr effizient Graphiken aus den vorhandenen Merkmalen erzeugen. Vielleicht suchen wir Merkmale, die gut zwischen den Geschlechtern diskriminieren - wir werden später dieses Beispiel umsetzen. Beginnen wir mit einer Verteilung des Merkmals Größe. Es soll ein Histogramm erstellt werden. Sie wählen aus den Vorlagen unten links das Histogramm aus und ziehen per Dragand-Drop zunächst das einfache Histogramm nach oben rechts. Dann ziehen Sie das gewünschte Merkmal auf die x-Achse: Abbildung 3.11: SPSS - Histogramm Dialog <?page no="28"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 16 — le-tex 16 Kapitel 3. SPSS - eine Statistiksoftware Das Ergebnis ist, natürlich, ein Histogramm. Per Doppelklick können Sie in den Editiermodus wechseln und die Graphik bearbeiten. Sie können Überschriften, Hilfslinien u. ä. hinzufügen oder auch Skalierungen ändern: Abbildung 3.12: SPSS - Histogramm Körpergröße <?page no="29"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 17 — le-tex Teil I Statistiksoftware 3.4. Graphiken 17 Entsprechend können alle anderen Graphiken erzeugt werden. Wir wollen nun die Körpergröße getrennt nach Geschlecht darstellen. Auf zwei Arten soll dies umgesetzt werden. Als Histogrammtyp soll nun die Populationspyramide gewählt werden. Als sogenannte Teilungsvariable wird das Geschlecht gewählt, als Verteilungsvariable die Körpergröße - Männer und Frauen sind offensichtlich unterschiedlich groß: Abbildung 3.13: SPSS - Histogramm Körpergröße Geschlecht <?page no="30"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 18 — le-tex 18 Kapitel 3. SPSS - eine Statistiksoftware Es soll noch ein vergleichender Box-Plot erstellt werden. Wählen Sie dazu bei der Vorlage Box-Plot den Einfacher Box-Plot. Auf die x-Achse ziehen Sie das Geschlecht, auf die y-Achse die Körpergröße. SPSS ist nicht immer vollständig konsistent bei den Bezeichnungen, daran muss man sich gewöhnen: Abbildung 3.14: SPSS - vergleichender Box-Plot SPSS fängt den Box-Plot gerne bei Null auf der y-Achse an. Das macht keinen Sinn hier. Also können Sie per Doppelklick in den Editiermodus wechseln und dann mit Doppelklick auf die y-Achse dort die Skalierung ändern. Zum Abschluss soll noch ein Scatter-Plot erstellt werden, Größe vs. Gewicht mit Kennzeichnung des Geschlechts. Wählen Sie dazu unter Streu-/ Punktdiagramm die Vorlage Gruppiertes Streudiagramm. x- und y-Achse sind dann Größe und Geschlecht. Für Farbe festlegen wählen Sie das Geschlecht. In den Scatter-Plot soll der Schwerpunkt hinzugefügt werden - im Editiermodus wählen Sie Bezugslinie zur y-Achse bzw. x-Achse hinzufügen und dann Mittelwert auswählen: <?page no="31"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 19 — le-tex Teil I Statistiksoftware 3.4. Graphiken 19 Abbildung 3.15: SPSS - Diagrammeditor Beenden Sie den Editiermodus. Alle Veränderungen, die Sie vorgenommen haben, werden dann natürlich übernommen. Das Ergebnis sieht dann so aus - Sie können an dieser Stelle auch eine Regression hinzufügen (Korrelation usw.), dazu später mehr: Abbildung 3.16: SPSS - Scatter-Plot Größe/ Gewicht <?page no="32"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 20 — le-tex 20 Kapitel 3. SPSS - eine Statistiksoftware 3.5 Analysen Dies ist natürlich der mächtigste, umfangreichste und wichtigste Menüpunkt bei SPSS. An dieser Stelle, wie erwähnt, werden wir nur einige deskriptive Analysen durchführen, um weiter mit SPSS vertraut zu werden. Um mit den Daten vernünftig arbeiten zu können, benötigt man in der Regel eine (numerische) Zusammenfassung. Unter Analysieren-> Deskriptive Statistiken finden Sie viele Möglichkeiten. Nehmen wir gleich den Punkt Deskriptive Statistik: Abbildung 3.17: SPSS - Deskriptive Statistiken Dialog Ziehen Sie die gewünschten Merkmale von links nach rechts. Unter Optionen können Sie dann bestimmen, welche Maßzahlen berechnet werden sollen. Das Ergebnis sieht dann so aus: Abbildung 3.18: SPSS - Deskriptive Statistiken <?page no="33"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 21 — le-tex Teil I Statistiksoftware 3.5. Analysen 21 Die Maßzahlen sollten alle bekannt sein, ggf. sind Schiefe und die Kurtosis neu. Die Schiefe ist das sogenannte dritte Moment, die Varianz das zweite. Wenn wir die Differenzen zum Mittelwert in die dritte Potenz heben, bleiben die Vorzeichen erhalten, daher lässt sich so die Schiefe bemessen. Ein Wert von Null entspricht einer symmetrischen Verteilung, ein Wert größer Null repräsentiert eine rechtsschiefe Verteilung und ein Wert kleiner Null entsprechend eine linksschiefe. Die Kurtosis ist das 4. Moment - also werden die Differenzen zum Mittelwert in die 4. Potenz gehoben. Jede Normalverteilung hat eine Kurtosis von 3. Daher wird die Kurtosis neben anderen Normierungen immer um 3 korrigiert, die Zahl wird abgezogen. Die Kurtosis gib an, wie die Daten an den Rändern aussehen. Ist die Zahl größer 3, dann befindet sich am Rand mehr Datenmasse als bei einer Normalverteilung. Ist sie kleiner 3, dann entsprechend weniger. Die Normalverteilung An dieser Stelle ist es sinnvoll, einen kurzen Überblick zur Normalverteilung zu geben. Carl Friedrich Gauß suchte eine Verteilung, die es ihm (u. a.) erlaubte, Messbzw. Modellfehler zu modellieren. Gauß war nicht der einzige, der sich auf die Suche gemacht hat. Der Gaußsche Vorschlag, die Normalverteilung, ist allerdings (in der Regel) der beste dieser Bemühungen. Gauß ist es gelungen, mit ein paar Annahmen umgesetzt in Mathematik, die Kurve zu finden: Fehler passieren symmetrisch um den wahren Wert, mal zu groß, mal zu klein - die Normalverteilung ist perfekt symmetrisch. Die meisten Fehler werden in der Nähe des Zentrums passieren Die Wahrscheinlichkeit, Fehler vom Zentrum entfernt zu beobachten, nimmt proportional zur Entfernung zum Zentrum ab. . . . Die rigorose Umsetzung dieser Annahmen führt zum typischen Aussehen der Normalverteilung. Die Bedeutung der Normalverteilung kann gar nicht überschätzt werden. Sie ist in Bezug auf Daten Voraussetzung für sehr viele statistische Verfahren. Sehr viele Datensituationen lassen sich mit der Normalverteilung modellieren. Und der zentrale Grenzwertsatz sagt, dass unter bestimmten Voraussetzungen Daten normalverteilt sind. Ohne zu technisch zu werden, sagt der Satz: Summen von Folgen von Zufallsvariablen streben gegen die Normalverteilung. Denken Sie einmal an Mittelwerte oder die Binomialverteilung, um nur zwei Beispiele zu nennen. Die Normalverteilung hat zwei Parameter, µ und σ 2 , also die Lage sowie die Varianz. Sollen z. B. Körpergrößen modelliert werden, dann werden die beiden Parameter durch die besten Schätzer festgelegt, ¯ x und s 2 x , bzw. spezifiziert. <?page no="34"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 22 — le-tex 22 Kapitel 3. SPSS - eine Statistiksoftware Es gibt eine besondere Normalverteilung, die sogenannte Standardnormalverteilung. Hierbei gilt µ = 0 und σ 2 = 1, sie sieht so aus: z Dichte f(z) −3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 Die Standardnormalverteilung Abbildung 3.19: Die Dichtefunktion der Standardnormalverteilung In diesem hier berücksichtigten sogenannten dreifachen Schwankungsintervall der Normalverteilung liegen immer > 99 % der Daten - vom Zentrum aus geht man 3-mal die Standardabweichung nach links und nach rechts. Im zweifachen liegen ca. 95 % und im einfachen 68 % der Daten bzw. Realisationen einer Normalverteilung. Prinzipiell verläuft die Normalverteilung entlang der gesamten Achse, von −∞ → +∞ Hier sind einmal verschiedene Spezifikationen graphisch abgebildet - die Skalierung der Achsen ist festgehalten, damit Sie die Änderungen besser sehen: <?page no="35"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 23 — le-tex Teil I Statistiksoftware 3.5. Analysen 23 x Dichte f(x) mu=0,sd=1 mu=1.5,sd=1 mu=−1.5,sd=2 mu=1,sd=1.6 −3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 Verschiedene Spezifikationen der Normalverteilung Abbildung 3.20: Verschiedene Normalverteilungen Für die Standardnormalverteilung wird üblicherweise der Buchstabe Z verwendet, für alle anderen X. Jede Normalverteilung kann in die Standardversion überführt werden, durch standardisieren. Sei X normalverteilt, also X ∼ NV (µ, σ 2 ) dann gilt: Z = X − µ σ mit Z ∼ NV (0, 1) Häufigkeitstabellen sind ein wichtiges Instrument, um kategoriale Daten zusammenzufassen. Wählen Sie also Analysieren-> Deskriptive Statistiken-> Häufigkeiten: Abbildung 3.21: SPSS - Häufigkeitstabelle Dialog <?page no="36"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 24 — le-tex 24 Kapitel 3. SPSS - eine Statistiksoftware Sie können wie üblich Einstellungen vornehmen. In diesem Fall können Sie auch ein Diagramm anzeigen lassen. Das Ergebnis sieht dann so aus - beispielhaft für TITANIC: Abbildung 3.22: SPSS - Häufigkeitstabelle TITANIC Und das Balkendiagramm: Abbildung 3.23: SPSS - Balkendiagramm TITANIC <?page no="37"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 25 — le-tex Teil I Statistiksoftware 3.5. Analysen 25 Wir wollen uns noch einmal bestätigen lassen, dass Männer und Frauen unterschiedlich groß sind und den Film TITANIC anders bewerten. Wählen Sie Analysieren-> Mittelwerte vergleichen-> Mittelwerte: Abbildung 3.24: SPSS - Mittelwerte nach Gruppen Abschließend soll eine Kreuztabelle bzw. Kontingenztabelle erzeugt werden: Analysieren-> Deskriptive Statistiken-> Kreuztabellen - unter Zellen können Sie auswählen, was in den Zellen dargestellt werden soll, zunächst die Häufigkeiten: Abbildung 3.25: SPSS - Kreuztabellen Dialog <?page no="38"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 26 — le-tex 26 Kapitel 3. SPSS - eine Statistiksoftware Die Kontingenztabelle stellt keine Überraschung oder Herausforderung dar. Das anschließende gruppierte Balkendiagramm ist eher unglücklich, da die relativen Häufigkeiten dargestellt werden - dieses konnten Sie im Dialog per Häkchen ankreuzen: Abbildung 3.26: SPSS - Kreuztabelle Geschlecht, TITANIC Eine bessere Darstellung wären die bedingten relativen Häufigkeiten, die sogenannten Profile. Dazu müssen Sie unter Zellen das entsprechende auswählen. Dann per Doppelklick in den Editormodus der Kontingenztabelle wechseln und mit rechtem Mausklick eine Graphik auswählen. Wir werden dies noch im Kapitel zum Chiquadrat-Unabhängigkeitstest sehen. SPSS: Mehrfachantworten Bei Befragungen kommt es häufig vor, dass es für eine Frage mehrere Antworten von einer Person gibt. Zum Beispiel könnte gefragt werden, welche Zeitschriften man liest. Dann wird einem eine Auswahl von zehn Zeitschriften angeboten und man kreuzt diejenigen an, die man liest. Das ist unschön, also zumindest aus Datenmodellsicht. Es gibt eigentlich nur zwei Möglichkeiten, das (in SPSS) zu modellieren: 1. Alle Befragten lesen maximal drei Zeitschriften. Dann kann man drei Merkmal generieren und pro Person gibt es drei Antworten, die jeweiligen Zeitschriften, die gelesen werden. 2. Wenn sehr viel mehr gelesen wird, dann kann man 10 sogenannte Dummyvariablen erzeugen. Für jede Zeitschrift eine Spalte. Dort stehen dann Nullen und Einsen. Eine 1, wenn die Zeitschrift gelesen wird. Im Folgenden sei in SPSS der zweite Fall an einem Beispiel vorgestellt. <?page no="39"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 27 — le-tex Teil I Statistiksoftware 3.5. Analysen 27 Die in SPSS eingegebenen Daten könnten dann für das Zeitschriftenbeispiel so aussehen: Abbildung 3.27: SPSS - Mehrfachantworten modellieren Wählen Sie dann Analysieren-> Mehrfachantworten-> Variablensets definieren: Abbildung 3.28: SPSS - Mehrfachantworten Dialog <?page no="40"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 28 — le-tex 28 Kapitel 3. SPSS - eine Statistiksoftware Sie ziehen alle fünf Dummyvariablen nach rechts in das Feld Variablen im Set. Die Variablen sind als Dichotomien definiert, die Eins ist der Wert, der gezählt werden soll - dann liest jemand die Zeitschrift. Sie müssen noch einen Namen vergeben und den hinzufügen. Dann entsteht das neue Mehrfachantwortenset Zeitschriften. Sie können dann über den Analysieren-> Mehrfachantworten-> Häufigkeiten bzw. Analysieren-> Mehrfachantworten-> Kreuztabellen die entsprechenden Auswertungen durchführen. Das Ergebnis der einfachen Häufigkeitsanalyse sieht dann folgendermaßen aus: Abbildung 3.29: SPSS - Mehrfachantworten Häufigkeitstabelle Beim Menüpunkt Kreuztabelle können Sie wie üblich die Zeilen und Spalten und auch eine dritte Dimension, die sogenannte Schicht festlegen. Allerdings muss Geschlecht vorher in ein numerisches Merkmal transformiert werden, sonst wird es Ihnen nicht als Möglichkeit angeboten - Sie wissen ja, wie das geht: Abbildung 3.30: SPSS - Mehrfachantworten Kreuztabelle Dialog <?page no="41"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 29 — le-tex Teil I Statistiksoftware 3.5. Analysen 29 Das Ergebnis sieht dann so aus: Abbildung 3.31: SPSS - Mehrfachantworten Kreuztabelle Gerade bei der Analyse von Fragebögen werden Sie es mit Mehrfachantworten zu tun haben. Es ist wichtig, sich vorher Gedanken darüber zu machen, wie man die Daten codieren, d. h. in eine Software übertragen, kann. <?page no="42"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 30 — le-tex <?page no="43"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 31 — le-tex Teil I Statistiksoftware Kapitel 4 Aufgaben Teil I 1. Zeigen Sie anhand der Fragebogendaten, ob die Merkmale Größe, Gewicht und Schuhgröße normalverteilt sind. Verwenden Sie graphische Methoden und nutzen Sie geeignete Maßzahlen. Ist eine Trennung nach Geschlecht sinnvoll? 2. Führen Sie eine Summary-Analyse aller metrischen Merkmale des Fragebogens durch. Wählen Sie auch geeignete Graphiken. 3. Erstellen Sie geeignete Häufigkeitsanalysen, ein-, zwei- und auch dreidimensionale. 4. Generieren Sie 500 normalverteilte Zufallszahlen. Vergleichen Sie diese mit den Daten in der 1. Aufgabe. 5. Werfen Sie 50-mal eine Münze und notieren Sie die Ergebnisse. Stellen Sie das Ergebnis geeignet dar. Passt die Binomialverteilung? 6. Werfen Sie 50-mal einen Würfel und notieren Sie die Ergebnisse. Stellen Sie das Ergebnis geeignet dar. Wie können Sie hier die Binomialverteilung verwenden? 7. Erzeugen Sie nun 1000 Münz- und Würfelwürfe mit SPSS. Vergleichen Sie die Ergebnisse mit denen aus der vorherigen Aufgabe. <?page no="44"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 32 — le-tex <?page no="45"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 33 — le-tex Teil II Inferenzstatistik Teil II Inferenzstatistik <?page no="46"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 34 — le-tex <?page no="47"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 35 — le-tex Teil II Inferenzstatistik Kapitel 5 Einführung 5.1 Statistischer Test und multivariate Statistik Es ist durchaus üblich, die beiden Themen, Inferenzstatistik und Multivariate Statistik, voneinander getrennt zu behandeln, als zwei verschiedene Vorlesungen, zwei verschiedene Lehrbücher usw. Natürlich ist das sinnvoll, wenn man bedenkt, wie groß und gewichtig beide Thematiken sind. Andererseits sind die Verfahren und behandelten Inhalte sehr stark voneinander abhängig bzw. bedingen sich gegenseitig. Wie weit kommt man schließlich bei einer multiplen Regression, ohne mit inferenzstatistischen Methoden die Güte zu überprüfen? Inferenzstatistik wiederum benötigt die relevanten Daten, Inhalte und Kontexte. Und die kommen nicht selten aus der multivariaten Statistik. In diesem Buch soll daher der Versuch unternommen werden, die beiden Themen gemeinsam zu behandeln und zusammenzuführen. Der Einstieg soll im Rahmen der Einführung ganz unvermittelt geschehen. Zwei statistische Tests sollen konstruiert werden - in einer stetigen sowie einer diskreten Datenlage. Im Zuge dessen wird das Konzept statistischer Test eingeführt. 5.2 Der statistische Test - Die Konstruktion eines Testes mit stetigen Daten Ein Kraftstoffhersteller wirbt mit seinem neuen Premiumbenzin und verspricht bis zu 100 km oder 10 % mehr Reichweite im Vergleich zu herkömmlichem Benzin. Wie kommt man zu so einer Aussage bzw. wie lässt sich das überprüfen? <?page no="48"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 36 — le-tex 36 Kapitel 5. Einführung Tatsächlich kommt nun die Inferenzstatistik ins Spiel - ein statistischer Test. Was ist ein statistischer Test: Definition 1: statistischer Test Ein statistischer Test ist eine Entscheidungsregel, mit der auf Grundlage einer Stichprobe über eine Hypothese H 0 gegenüber einer Alternativhypothese H 1 entschieden wird. Vulgo: Der statistische Test sagt mir, ob ich mich für oder gegen eine Hypothese entscheiden soll. Diese Entscheidung wird aufgrund der Datenlage getroffen. Offenbar werden drei Dinge für einen statistischen Test benötigt: Eine Vermutung über einen Zustand in der Welt. Daten, eine Stichprobe. Eine (wie auch immer) abgeleitete Entscheidungsregel über die Vermutung auf Basis der Daten. Wir haben eine Vermutung, nämlich dass Autos durch den Premiumkraftstoffweniger Benzin verbrauchen. Nun fehlen uns Daten, hier sind sie, zehn Datensätze, die Reichweite in km (vgl. Tabelle 5.1): i herkoemmlich (X) premium (Y) -------------------------------- 1 982 974 2 972 1000 3 964 995 4 1019 979 5 972 1024 6 975 997 7 1005 1029 8 974 1050 9 990 1009 10 983 1012 Tabelle 5.1: Datensatz: Reichweite Man spricht von einem verbundenen Zweistichprobenproblem. In jeder Zeile handelt es sich um das gleiche Auto. Einmal wurde es mit herkömmlichem und einmal mit Premiumkraftstoffbetankt und dann gefahren. Was nun? Fährt ein Auto mit Premiumkraftstoffweiter? Ein Blick in die Daten zeigt: Manchmal ja, manchmal nein. <?page no="49"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 37 — le-tex Teil II Inferenzstatistik 5.2. Der statistische Test - Die Konstruktion eines Testes mit stetigen Daten 37 5.2.1 Hypothesen werden benötigt Statistik kann keine absoluten Wahrheiten verkünden. Der Zufall spielt eine Rolle, es gibt Einflüsse auf das Experiment usw. Statistik kann uns aber sagen, ob die Daten für oder gegen die Vermutung sprechen. Genauer gesagt, bekommen wir mit dem statistischen Test Wahrscheinlichkeiten, um die Entscheidung zu quantifizieren. Hier ist ein Vorschlag für eine Hypothese (H 0 ) bzw. Gegenhypothese (H 1 ): H 0 : Es gibt keinen Unterschied zwischen herkömmlichem und Premiumkraftstoff H 1 : Die Kraftstoffe unterscheiden sich in Bezug auf die Reichweite Da wir es mit Daten zu tun haben, ist diese Formulierung ungenügend und muss entsprechend quantifiziert werden: H 0 : E(X) = E(Y ) H 1 : E(X) 6= E(Y ) Als Grundvermutung nehmen wir an, dass es keinen Unterschied in den erwarteten Reichweiten gibt. In der Alternativhypothese formulieren wir den Unterschied in den Erwartungen. X und Y seien Zufallsvariablen, mit denen die jeweiligen Reichweiten modelliert werden sollen. Bevor man sich aber auf eine Inferenzmethode einlässt, ist es zwingend notwendig, einen gründlichen Blick auf die Daten zu werfen. John Tukey hat das Konzept der Explorativen Datenanalyse (EDA) geprägt oder wie er einmal zu George Box gesagt hat: „Did you look at your data, George? “ 4 Die Idee ist, dass man sich vorurteilsfrei den Daten nähert und versucht zu verstehen, was sie einem sagen. Natürlich hat man immer gewisse Vorurteile im Kopf, z. B. die Forschungsfrage. Vor allem im Hinblick auf große Datenmengen ist es aber wichtig, sich die Daten aus verschiedenen Blickwinkeln anzuschauen. Maßzahlen und vor allem auch Graphiken kommen dabei zum Einsatz. In diesem Fall ist die Datenstruktur sehr einfach, daher sollen die folgenden beiden Graphiken genügen (vgl. Abb. 5.1): 4 So berichtete mein Doktorvater, Prof. Dr. Naeve, von einem Statistikkongress, als John Tukey Zweifel an einer von George Box vorgetragenen Analyse hatte. <?page no="50"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 38 — le-tex 38 Kapitel 5. Einführung º º º º º º º º º º Reichweiten herkömmlich Premium Reichweiten Scatter-Plot: Premium vs. herkömmlich Winkelhalbierende und Schwerpunkt 960 980 1000 1020 1040 1060 960 980 1000 1020 1040 1060 º Vergleichender Box-Plot 960 980 1000 1020 1040 1060 herkömmlich Premium Abbildung 5.1: Scatter-Plot und Box-Plot der Daten Die beiden gewählten Darstellungen unterstützen sehr deutlich die Gegenhypothese, dass der Premiumkraftstoffzu einer erhöhten Reichweite führt. In der linken Graphik ist zur besseren Interpretation die Winkelhalbierende eingezeichnet. Fast alle Punkte liegen oberhalb. Auch der Box-Plot zeigt, dass die Daten, die zum Premiumkraftstoffgehören, deutlich größer sind - der rechte Box-Plot liegt höher als der linke. Können wir uns auf diesen visuellen Eindruck verlassen? Führt uns vielleicht ein Zufallsphänomen in die Irre? Ein statistischer Test soll uns helfen, die Lage objektiv zu beurteilen. Insbesondere kann der Test uns sagen, wie wahrscheinlich die beobachteten Daten sind, wenn wir annehmen, dass es eben keinen Unterschied zwischen den Kraftstoffen gibt. Ist diese Wahrscheinlichkeit relativ groß, dann können wir die Hypothese H 0 nicht ablehnen, da die Daten ja ein typisches Ergebnis zu sein scheinen. Ist die Wahrscheinlichkeit aber relativ klein, dass die beobachteten Daten unter der Annahme von H 0 entstehen, dann lehnen wir die Hypothese ab und akzeptieren zunächst die Alternativhypothese H 1 . Dazu ein einfaches Beispiel: <?page no="51"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 39 — le-tex Teil II Inferenzstatistik 5.2. Der statistische Test - Die Konstruktion eines Testes mit stetigen Daten 39 Exkurs statistischer Test: Sechsen Werfen Ich gebe jemandem drei Würfel, die Person wirft sie und würfelt drei Sechsen. Ein typisches Zufallsexperiment mit genanntem Ausgang. Ich nehme an, die Würfel sind fair. Die Wahrscheinlichkeit, mit drei fairen Würfeln 3-mal eine Sechs zu werfen, ist ca. 0.005 (= (1/ 6) 3 ). Das ist nicht viel. Nun habe ich zwei Möglichkeiten. Entweder nehme ich an, dass ich gerade etwas sehr Seltenes, Unwahrscheinliches beobachtet habe und akzeptiere die Hypothese, dass die Würfel fair sind. Oder ich glaube nicht, dass ich einfach so etwas sehr Unwahrscheinliches beobachte. Ich nehme an, meine Hypothese ist falsch. Diese Information gibt uns ein statistischer Test. Idealerweise haben wir eine dritte Möglichkeit: mehr Daten. Nehmen wir weiter an, ich verteile in einem großen Hörsaal an alle Studierenden drei faire Würfel. Es wird gewürfelt. Ich erwarte, dass zwei bis drei Studierende 3-mal die Sechs werfen. Gemäß meiner Regel muss ich denen sagen, euer Würfel ist nicht fair. Allerdings habe ich vorher faire Würfel verteilt. Hier sehen wir die Grenzen eines statistischen Test bzw. haben schon einen kleinen Vorgeschmack auf den (Alpha-) Fehler, den wir machen können. 5.2.2 Vereinfachung durch Differenzenbildung Ein Test kann nicht alle Daten auf einmal und gleichzeitig verwenden. Wir benötigen eine KPI, eine Maßzahl. 5 Diese Maßzahl bekommt einen besonderen Namen, Prüfgröße. Mit ihrer Hilfe wollen wir prüfen, was uns die Daten in Bezug auf die Hypothesenkonstellation erzählen. Es handelt sich um ein verbundenes Zweistichprobenproblem, daher dürfen wir die Differenzen für jedes Paar i von Beobachtungen nehmen, also z. B. D i = y i − x i : -8 28 31 -40 52 22 24 76 19 29 Tabelle 5.2: Datensatz: Differenz der Reichweiten Nicht überraschend sind die Differenzen überwiegend positiv, was der folgende Dot-Plot noch einmal verdeutlicht - die gestrichelte Linie zeigt das arithmetische Mittel der Differenzen. 5 KPI = Key Performance Indicator. In der BWL gerne als Bezeichnung für wichtige Statistiken, also Maßzahlen genommen. <?page no="52"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 40 — le-tex 40 Kapitel 5. Einführung º º º º º º º º º º i Differenz 1 2 3 4 5 6 7 8 9 10 −40 −20 0 20 40 60 80 −40 −20 0 20 40 60 80 Dot-Plot der Differenzen der Reichweiten Abbildung 5.2: Dot-Plot der Differenzen der Reichweiten Wir können nun unsere Hypothese etwas umformulieren bzw. sie vereinfachen. Wenn auf Zufallsvariablenebene gilt D = Y − X dann gilt ebenso, da der Erwartungswert ein linearer Operator ist (genau wie das arithmetische Mittel): E(D) = E(Y ) − E(X) Also können wir äquivalent formulieren: 6 H 0 : E(D) = µ 0 = 0 H 1 : E(D) 6= µ 0 6= 0 5.2.3 Die Prüfgröße Die Prüfgröße muss maßgeschneidert sein und uns weiterhelfen. Hier ist ein Vorschlag: T = √n · (¯ x − µ 0 ) s x 6 µ ist der übliche griechische Buchstabe zur Bezeichnung des Erwartungswertes, sprich „müh“. <?page no="53"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 41 — le-tex Teil II Inferenzstatistik 5.2. Der statistische Test - Die Konstruktion eines Testes mit stetigen Daten 41 Je größer der absolute Wert der Prüfgröße, desto mehr sprechen die Daten gegen die Hypothese. Diese Aussage gilt, wie wir noch sehen werden, immer, sie ist daher wichtig. Die Differenz ist das Herzstück der Prüfgröße. Offensichlich gilt, je größer die Differenz (und damit die Prüfgröße) desto mehr sprechen die Daten gegen H 0 . Die Differenz bekommt nun zwei Betonungen: 1. Im Zähler wird die Differenz mit der Wurzel des Stichprobenumfangs multipliziert: Je größer die Stichprobe, desto mehr können wir uns auf die Differenz verlassen. Daher wird die Differenz und damit die Prüfgröße größer, wenn n größer wird. 2. Im Nenner steht die Stichprobenstandardabweichung. Je größer die Streuung der Daten, desto weniger können wir uns auf die Differenz, also den Mittelwert verlassen. Je größer also die Streuung desto kleiner wird die Prüfgröße und umgekehrt. In unserer Datensituation gilt: T = √10 · (23.3 − 0) 31.13 = 2.37 Und ist das nun ein großer Wert, der gegen die Hypothese spricht? Oder ist es ein kleiner? So können wir die Prüfgröße nicht interpretieren. Wir müssen noch einen kleinen Umweg gehen. Meist wird die Prüfgröße so geschrieben: T = (¯ x − µ 0 ) s x / √n Der Nenner ist nun der sogenannte Standardfehler bzw. die Standardabweichung des arithmetischen Mittels. Das arithmetische Mittel ist eine Zufallsvariable. Varianz arithmetisches Mittel, √n-Gesetz, Gesetz der großen Zahlen Die X i werden unabhängig aus derselben Grundgesamtheit gezogen, man sagt X i ∼ iid, independent and identically distributed: Var( ¯ X) = Var ( 1/ n n ∑ i=1 X i ) = 1/ n 2 · Var ( n ∑ i=1 X i ) <?page no="54"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 42 — le-tex 42 Kapitel 5. Einführung = 1/ n 2 · n ∑ i=1 Var(X i ) , gilt wegen der Unabhängigkeit = 1/ n 2 · n ∑ i=1 σ 2 , gilt wegen der identischen Verteilung = 1/ n 2 · n · σ 2 = 1/ n · σ 2 Damit gilt für die Standardabweichung des arithmetischen Mittels: σ ¯ X = σ √n Das ist das Gesetz der großen Zahlen oder √n-Gesetz. D. h. je größer der Stichprobenumfang, desto weniger streut der Mittelwert um den wahren Erwartungswert, desto kleiner ist der Fehler. Die Geschwindigkeit, mit der Fehler kleiner wird, ist aber nur √n. Der Standardfehler in der Prüfgröße verwendet s x , da wir den wahren Wert für σ in der Regel nicht kennen. An dieser Stelle nehmen wir an, dass die Daten aus einer Normalverteilung kommen mit uns unbekanntem σ. Für diese Art von Daten ist die Annahme in der Regel angemessen. Natürlich ist sie zu überprüfen. Für zehn Datenpunkte ist das nicht ganz so einfach. Wir werden sehen, es gibt graphische Verfahren und Tests auf Normalverteilung. 5.2.4 Die t-Verteilung kommt ins Spiel Angenommen, die Hypothese stimmt, dass also die Differenzen aus einer Normalverteilung (das ist nicht die Frage, das nehmen wir an) mit Erwartungswert Null kommen (das ist das Entscheidende), was wir aber nicht wissen, denn das ist ja gerade die Frage. Aber wenn es stimmt, dann folgt die Prüfgröße der sogenannten t-Verteilung mit neun Freiheitsgraden. Die Freiheitsgrade sind der einzige Parameter dieser Verteilung, hier n − 1. Die Normalverteilung hat zwei, µ und σ 2 . Wenn also die Hypothese stimmt, dann gilt T H 0 ∼ t 9 . Das bedeutet dann aber auch, dass der konkrete Wert unserer Prüfgröße, 2.37, für die vorliegenden Daten aus dieser Verteilung stammen muss. Die folgende Graphik fasst die Situation gut zusammen: <?page no="55"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 43 — le-tex Teil II Inferenzstatistik 5.2. Der statistische Test - Die Konstruktion eines Testes mit stetigen Daten 43 Abbildung 5.3: Dichte der t-Verteilung mit 9 FG <?page no="56"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 44 — le-tex 44 Kapitel 5. Einführung Wie man sieht, liegt 2.37 ziemlich weit am rechten Rand der Verteilung. Es sieht nicht so aus, als wäre 2.37 ein typischer Wert, aber es ist natürlich ein möglicher Wert - die Verteilung verteilt sich von minus unendlich bis plus unendlich. Wo lässt sich also die Grenze ziehen? In unserem Fall sprechen sowohl zu große als auch zu kleine Differenzen gegen die Hypothese, dass die Reichweiten gleich sind. Je größer die Differenzen werden, desto größer wird auch die Prüfgröße T - in beide Richtungen. Daher benötigen wir auch an beiden Seiten der Verteilung eine sogenannte kritische Stelle, die in Bezug auf H 0 einen Annahmebereich und einen Ablehnbereich definiert. Da ein statistischer Test keine Wahrheiten verkünden kann, ergibt sich die kritische Stelle aus der Überlegung, welchen Fehler wir bereit sind zu akzeptieren, den sogenannten Alpha-Fehler oder Fehler 1. Art. Üblicherweise wird dieser Fehler auf 5 % festgelegt, also α = 0.05. Rechts und links werden durch den 2.5 % bzw. 97.5 %-Punkt somit diese kritischen Stellen festgelegt. Stellen wir also fest, dass die Prüfgröße im dunkelgrauen Ablehnbereich liegt, dann lehnen wir die Hypothese ab, weil wir uns dagegen entschieden haben, dass die Prüfgröße ein typischer Vertreter der t-Verteilung ist. Ist die Entscheidung immer richtig? Nein. In 5 % der Fälle entscheiden wir uns bei korrekter Hypothese falsch. Liegt die Prüfgröße im hellgrauen Annahmebereich, dann können wir die Hypothese nicht ablehnen. Auch diese Entscheidung kann falsch sein. Man spricht vom sogenannten Beta-Fehler oder Fehler 2. Art. Diesen Fehler können wir zunächst nicht beziffern, da wir die Verteilung der Prüfgröße unter H 1 natürlich nicht kennen - dort steht ungleich Null, das ist eine ganze Menge. 5.2.5 Ein Ablaufplan für den t-Test Hier noch einmal die Argumentationskette, die zur Ablehnung der Hypothese in unserem Beispiel führt: 1. Gibt es einen Unterschied zwischen den beiden Reichweiten? 2. H 0 repräsentiert den Nicht-Unterschied. 3. Wir benötigen eine Entscheidung in Bezug auf H 0 , kommen die Daten aus einer Normalverteilung mit Zentrum Null? Wenn ja, gibt es keinen Unterschied. Der Premiumhersteller möchte H 0 natürlich gerne ablehnen. 4. Wenn H 0 gilt (was wir nicht wissen), dann ist die Prüfgröße t-verteilt mit 9 FG. 5. Wenn H 0 gilt, dann muss 2.37 ein typischer Vertreter der t-Verteilung sein. 6. Die Prüfgröße ist kein typischer Vertreter der Verteilung. Daher nehmen wir an, dass wir nicht eine seltene Realisation aus der t-Verteilung mit 9 FG beobachtet haben, sondern dass die 2.37 aus einer anderen Verteilung stammt. <?page no="57"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 45 — le-tex Teil II Inferenzstatistik 5.2. Der statistische Test - Die Konstruktion eines Testes mit stetigen Daten 45 7. Die Prüfgröße folgt nicht unserer t-Verteilung, damit stimmt die Hypothese aber auch nicht. Wir lehnen sie ab. 8. Wir müssen damit rechnen, den Alpha-Fehler begangen zu haben. 5.2.6 Die Entscheidungsmatrix mit den beiden Fehlern In der folgenden Tabelle ist die Entscheidungssituation einmal zusammengefasst dargestellt - die Zeilen sind die Entscheidungen, die Spalten stellen die Wahrheit dar: E↓ / R→ H 0 H 1 H 0 (1 − α) β H 1 α (1 − β) Tabelle 5.3: Die Entscheidungsmatrix mit Fehlerwahrscheinlichkeiten Die erste Spalte ist durch die Graphik in Abbildung 5.3 dargestellt. Die hellgraue Fläche entspricht 1 − α und die dunkelgraue Fläche α. Dies lässt sich dann auch durch die beiden bedingten Wahrscheinlichkeiten ausdrücken: P (H 0 |H 0 ) = 0.95 bzw. P (H 1 |H 0 ) = 0.05 Die 2. Spalte ist ein wenig komplizierter. Wir wollen sie zunächst außer Acht lassen. Viel mehr, als dass die beiden Fehler gegenläufig sind, können wir an dieser Stelle nicht aussagen. 5.2.7 Die Überschreitungswahrscheinlichkeit Die Entscheidungsregel hat ergeben, dass H 0 abzulehnen ist. Es gibt also einen signifikanten Unterschied zwischen den beiden Reichweiten. In der Statistik spricht man nur von einem signifikanten Ergebnis, wenn ein statistischer Test eine Hypothese ablehnt. Meist ist es auch so, dass in der Gegenhypothese das formuliert ist, was man zeigen möchte - so wie in unserem Beispiel. Wie groß ist die Fehlerwahrscheinlichkeit, wirklich 5 %? Wenn wir noch einmal einen Blick auf die Abbildung 5.3 wagen, dann sehen wir, dass unsere Prüfgröße ein Stück rechts vom 97.5 %-Punkt liegt. Wäre sie an genau jener Stelle, dann hätten wir 5 % Alpha-Fehler realisiert, so wird es weniger sein, da rechts von der Prüfgröße weniger als 2.5 % der Fläche unter der Dichte liegt. Hier kommen wir ohne geeignete Software natürlich nicht weiter. Es gilt: P (t 9 > T = 2.37) = 0.021 Die Wahrscheinlichkeit, dass bei einer t-Verteilung mit 9 FG sich Realisationen jenseits von 2.37 einstellen, ist also 2.1 %. Da wir es hier mit einem sogenannten <?page no="58"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 46 — le-tex 46 Kapitel 5. Einführung zweiseitigen Test zu tun haben (wir haben auf beiden Seiten kritische Bereiche), müssen wir den Wert mit zwei multiplizieren. Die sogenannte Überschreitungswahrscheinlichkeit beträgt daher 4.2 %. Diese wird auch als p-Wert oder p-value bezeichnet. 7 Diese Zahl ist kleiner als unser Alpha von 5 %. Wir lehnen die Hypothese ab. Aber wir haben nun eine genauere Vorstellung vom tatsächlichen Fehler bzw. Signifikanzniveau. Unser Alpha-Fehler beträgt 4.2 % unser Signifikanzniveau ist 95.8 %. 5.2.8 Zusammenfassung Aus einer konkreten Fragestellung ergab sich die Notwendigkeit, eine Entscheidungsregel zu entwickeln. Wir haben einen klassischen statistischen Test hergeleitet, einen sogenannten parametrischen Test. Wir haben auf einen Parameter der Normalverteilung getestet. Jeder statistische Test läuft gleich ab und hat folgenden Aufbau: Eine Hypothesenkonstellation - in der Regel wollen wir die Hypothese ablehnen, da dort das steht, was uns interessiert. Außerdem kennen wir nur dann den Fehler. Das Signifikanzniveau beträgt üblicherweise 95 % bzw. der Alpha-Fehler ist 5 %. Eine Prüfgröße wird benötigt. Die Verteilung der Prüfgröße unter H 0 ist zu eruieren. Wir benötigen Daten - je mehr desto besser, zunächst einmal. 8 Daraus errechnen wir den Wert der Prüfgröße. Eine Entscheidungsregel. Entweder werden über die Quantile kritische Bereiche definiert oder es wird die Überschreitungswahrscheinlichkeit herangezogen. Die Entscheidung treffen. Das war es! Jeder klassische Signifikanztest läuft so ab - mit anderen Daten, Hypothesen, Entscheidungsregeln und Verteilungen. 7 Verwirrender Weise werden wir sehen, dass im SPSS Output diese Zahl als Significance bezeichnet wird. 8 Wir werden noch sehen, dass eine zu große Datenmenge fast immer signifikante Ergebnisse produziert, allein wegen der Menge der Daten. <?page no="59"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 47 — le-tex Teil II Inferenzstatistik 5.3. Der statistische Test - Die Konstruktion eines Tests mit diskreten Daten 47 5.3 Der statistische Test - Die Konstruktion eines Tests mit diskreten Daten Es soll überprüft werden, ob eine Münze fair ist. Ist die Münze fair, so beträgt die Wahrscheinlichkeit 0.5, dass KOPF fällt. Wir bezeichnen die Wahrscheinlichkeit für KOPF mit p und erhalten folgendes Hypothesenpaar: H 0 : p = 0.5 gegen H 1 : p 6= 0.5 Um mit statistischen Verfahren zu überprüfen, ob die Hypothese oder die Gegenhypothese zutrifft, beobachtet man den Zufallsvorgang mehrmals. Dies kann bedeuten, dass man eine Stichprobe zieht. In unserem Fall muss gewürfelt werden, also ein Zufallsexperiment durchgeführt werden. Die Münze wird 5-mal geworfen. Wir bezeichnen KOPF mit K und ZAHL mit Z. Es ergibt sich folgende Stichprobe: K K K Z K Tabelle 5.4: Datensatz: Münzwurf Und wofür spricht dieses Ergebnis? Wir stehen vor der gleichen Situation wie eben mit den Reichweiten bzw. den daraus generierten Differenzen. Bei einem 5-maligen Wurf sprechen diese beiden Ergebnisse sicher gegen H 0 - was ist die Wahrscheinlichkeit dafür unter H 0 , das können Sie ausrechnen: K K K K K Z Z Z Z Z Tabelle 5.5: Datensatz: Münzwurf Exkurs: Viele Wiederholungen eines Zufallsexperiments Was passiert eigentlich, wenn man 100-mal das Experiment 5-maliger Würfelwurf durchführen? Wie sieht es dann aus mit der Wahrscheinlichkeit für KKKKK bzw. ZZZZZ? Bei einmaliger Durchführung ist die Wahrscheinlichkeit sehr gering: (1/ 2) 5 = 0.03125. Das bedeutet aber auch, dass wir im Durchschnitt das Experiment 32-mal durchführen müssen, um mit 5-mal Kopf rechnen zu können. 9 Bei 100-maliger Durchführung können wir mit großer Sicherheit davon ausgehen, dass wir mindestens einmal 5-mal Kopf realisieren werden. Übertragen Sie das Gedankenspiel einmal auf andere Situationen, abstrahieren Sie von dem konkreten Kontext: z. B. Lotto! <?page no="60"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 48 — le-tex 48 Kapitel 5. Einführung 5.3.1 Die Prüfgröße Wir benötigen nun eine Prüfgröße bzw. Teststatistik, die in diesem Kontext geeignet ist. Sie soll S heißen und eine Funktion der Stichprobe sein: S = g(X 1 , X 2 , . . . , X n ) In diesem Fall macht es Sinn, S z. B. als Anzahl K zu definieren. Für unsere Stichprobe bei n = 5 ergibt sich, S = 4. Bei den beiden Extremfällen gilt S = 5, bzw S = 0. 5.3.2 Die Entscheidungsregel Nun wird eine Entscheidungsregel auf Basis der Prüfgröße benötigt. Diese gibt an, bei welchen Werten von S wir uns für H 0 und bei welchen Werten von S wir uns für H 1 entscheiden. Man nennt die Menge der Werte von S, für die man sich für H 1 entscheidet, auch den kritischen Bereich oder Ablehnbereich C. Wir sind nicht bereit zu akzeptieren, dass die Münze fair ist, wenn bei allen 5 Würfen immer K oder immer Z auftritt. Wir erhalten also folgende Entscheidungsregel: Entscheidung für H 1 , wenn S = 0 oder S = 5 gilt. Entscheidung für H 0 , wenn 1 ≤ S ≤ 4 gilt. → Der kritische Bereich ist also C = {0, 5}. Natürlich kann es auch bei einem fairen Würfel passieren, dass wir 5-mal K beobachten. Unsere Entscheidungsregel würde also eine falsche Entscheidung treffen. Diese falsche Entscheidung haben wir bereits als Fehler 1. Art kennengelernt. Die Wahrscheinlichkeit hierfür hatten wir mit α bezeichnet. Wir wollen uns nun die Wahrscheinlichkeiten erarbeiten und die Entscheidungsmatrix, die Sie auf der Seite 45 kennengelernt haben, füllen. Beim 5-maligen Münzwurf handelt es sich um einen Bernoulli-Prozess der Länge n = 5. Es gilt p = P (K). Die Teststatistik S ist die Anzahl K. Sie ist binomialverteilt mit den Parametern n = 5 und p. Es gilt: P (S = s) = ( 5 s ) · p s · (1 − p) 5−s Trifft H 0 zu, so ist die Münze fair und es gilt p = 0.5: s : 0 1 2 3 4 5 P(S = s): 0.03125 0.15625 0.31250 0.31250 0.15625 0.03125 Tabelle 5.6: Wahrscheinlichkeitsfunktion der Binomialverteilung mit den Parametern n = 5 und p = 0.5 <?page no="61"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 49 — le-tex Teil II Inferenzstatistik 5.3. Der statistische Test - Die Konstruktion eines Tests mit diskreten Daten 49 #Würfe WS 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0 1 2 3 4 5 Binomialverteilung mit n=5 und p=0.5 0.031 0.156 0.312 0.312 0.156 0.031 Abbildung 5.4: Wahrscheinlichkeitsfunktion Binomialverteilung Das Bernoulli-Experiment Der Weg zur Binomialverteilung ist nicht weit und nicht schwer. Da die Binomialverteilung das wohl wichtigste diskrete Modell ist, ist es angebracht auch hier etwas zu verweilen. Ausgangspunkt ist das sogenannte Bernoulli-Experiment. Ein Zufallsexperiment, bei dem zwei Dinge passieren können, oder es wird dichotomisiert. Das bedeutet, dass ein sogar stetiger Ergebnisraum in zwei disjunkte (schnittleere) Ergebnisse eingeschränkt wird: Alle bis 180 cm werden auf eine 0 abgebildet, alle größer 180 cm bekommen die 1. Oder fällt eine 6, dann ist das die 1 alles andere die Null. Das, was einen interessiert, wird durch die 1 abgebildet. Die Zufallsvariable X hat somit 2 Ausgänge, X = 0 oder X = 1. Die Wahrscheinlichkeit P (X = 1) = p, die sogenannte Erfolgswahrscheinlichkeit ist bekannt. Somit gilt X ∼ BERN [p]. Wenn wir nun viele (n) Bernoulli-Experimente hintereinander durchführen und alle unabhängig voneinander sind, dann spricht man von einem Bernoulli-Prozess der Länge n. An diesen lassen sich nun viele Fragen richten. Was ist die Wahrscheinlichkeit, mehr als 5 Erfolge zu haben beim n = 10-maligen Wiederholen - 5-mal die 6 beim 10-maligen Würfelwurf? Wie viele Erfolge erwarte ich? <?page no="62"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 50 — le-tex 50 Kapitel 5. Einführung Diese Fragen lassen sich mit Hilfe der Binomialverteilung beantworten. Das Produkt n · p ergibt übrigens den Erwartungswert. Die Binomialverteilung strebt aufgrund des zentralen Grenzwertsatzes gegen die Normalverteilung. Wenn uns mehr interessiert, wie lange wir im Durchschnitt auf den ersten Erfolg warten müssen, dann sollten wir die geometrische Verteilung befragen. Die negative Binomialverteilung beschäftigt sich mit der Frage, wann der r-te Erfolg eintritt. Anwendungen dieser Warteverteilungen finden sich in der Versicherungsmathematik. 5.3.3 Die Überschreitungswahrscheinlichkeit Es ist nun einfach möglich, den p-Wert zu berechnen: Es gilt also α = P (S = 0) + P (S = 5) = 0.0625 Auch hier gilt, dass wir die Wahrscheinlichkeit des Fehlers 2. Art nicht angeben können, da p unendlich viele Werte annehmen kann, wenn H 1 zutrifft. Und wir wissen natürlich nicht, welcher der wahre Wert ist. 10 Nehmen Sie aber einmal an, dass p = 0.8 gilt. Rechnen Sie einmal für diesen Fall die entsprechenden Wahrscheinlichkeiten aus. Wir ändern die Entscheidungsregel von der Seite 48 und entscheiden uns nun für H 1 , wenn S ≤ 1 oder S ≥ 4 gilt. Der kritische Bereich ist nun also C = {0, 1, 4, 5}. Mit den Zahlen aus Tabelle 5.6 erhalten wir α = P (S = 0) + P (S = 1) + P (S = 4) + P (S = 5) = 0.375 Die Wahrscheinlichkeit für den Fehler 1. Art ist größer geworden. Macht das Sinn? Ja, denn wir entscheiden uns wesentlich häufiger gegen H 0 . Natürlich muß der Fehler 1. Art größer werden. Der Fehler 2. Art wird übrigens logischerweise entsprechend kleiner. Prüfen Sie das einmal nach mit p = 0.8. In praktisch allen Programmpaketen wird bei einem statistischen Test die sogenannte Überschreitungswahrscheinlichkeit ausgegeben. Man spricht, wie erwähnt, auch vom p-Wert. Definition 2: Überschreitungswahrscheinlichkeit Diese ist das größte Signifikanzniveau bzw. die kleinste Irrtumswahrscheinlichkeit, zu dem die Hypothese H 0 für den Datensatz abgelehnt wird. 10 Wir werden noch sehen: Die Bayessche Betrachtungsweise hilft hier weiter. <?page no="63"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 51 — le-tex Teil II Inferenzstatistik 5.3. Der statistische Test - Die Konstruktion eines Tests mit diskreten Daten 51 Zu Beginn hatten wir gesagt, dass meist α = 0.05 festgelegt wird. Die bessere, weil wesentlich aussagekräftigere Vorgehensweise, ist es, den p-Wert zu verwenden. Wir haben den Wert S = 4 beobachtet. Wie groß ist die Überschreitungswahrscheinlichkeit? Wir suchen unter allen kritischen Bereichen, in denen der Wert 4 liegt, den mit dem größten Signifikanzniveau bzw. der kleinsten Irrtumswahrscheinlichkeit - die Wahrscheinlichkeit, H 0 anzunehmen, wenn H 0 stimmt: P (H 0 |H 0 ) (vgl. Tabelle 5.6 auf der Seite 48). Wir lehnen H 0 ab, wenn S zu groß oder zu klein ist (zweiseitiger Test). Der kleinste kritische Bereich ist also C = {0, 5}. Bei diesem ist die Irrtumswahrscheinlichkeit gleich 0.03125 + 0.03125 = 0.0625 Da 4 aber nicht im kritischen Bereich liegt, lehnen wir zu diesem Signifikanzniveau nicht ab. Wir vergrößern den kritischen Bereich, indem wir 1 und 4 in den kritischen Bereich nehmen. Es gilt also C = {0, 1, 4, 5}. Bei diesem ist die Irrtumswahrscheinlichkeit gleich 0.03125 + 0.15625 + 0.15625 + 0.03125 = 0.375 Da 4 in diesem kritischen Bereich liegt, ist die Überschreitungswahrscheinlichkeit gleich 0.375. Vergrößern wir nämlich den kritischen Bereich, so lehnen wir H 0 zwar für S = 4 ab, das Signifikanzniveau wird aber entsprechend kleiner bzw. die Irrtumswahrscheinlichkeit größer. Der p-Wert kann auch durch folgende Überlegung hergeleitet werden: Wie wahrscheinlich ist es, die Stichprobe und Extremeres zu beobachten. In diesem Fall P (S = 4) + P (S = 5) = 0.15625 + 0.03125 = 0.1875 Da wir an beiden extremen Enden uns gleich verhalten, muss auch der symmetrische Fall berücksichtigt werden - zweiseitiger Test: P (S = 1) + P (S = 0) = 0.15625 + 0.03125 = 0.1875 Die Summe ist dann der bekannte p-Wert 0.375. Es lässt sich unter den gegebenen Umständen (5-maliger Münzwurf) kein Test generieren, der ein 95 %- Signifikanzniveau schaffen kann. Wie oft muss man die Münze mindestens werfen? Dieser Binomialtest ist ein sogenannter nicht-parametrischer Test. <?page no="64"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 52 — le-tex 52 Kapitel 5. Einführung 5.3.4 Zweiseitig vs. Einseitig Wir haben bisher Hypothesen dieser Form betrachtet H 0 : θ = θ 0 gegen H 1 : θ 6= θ 0 Bei diesen kann der Parameter θ (sprich „Theta“, wir hatten das p) Werte annehmen, die kleiner oder größer als θ 0 sind, wenn H 1 zutrifft. Man spricht von einem zweiseitigen Testproblem. Das traf auch weiter oben für den t-Test zu. Einseitige Testprobleme sind von der Form H 0 : θ = θ 0 gegen H 1 : θ > θ 0 H 0 : θ = θ 0 gegen H 1 : θ < θ 0 das bedeutet, dass der kritische Bereich eingeschränkt wird. Beim t-Test weiter oben hätten wir einen einseitigen Test gut anwenden können. 5.4 Zusammenfassung Ziel der beiden letzten Kapitel war es, das Konzept statistischer Test an zwei grundsätzlichen Beispielen herzuleiten. An der ausführlichen Konstruktion von zwei statistischen Tests sollte gut zu erkennen sein, was die Grundprinzipien eines jeden statistischen Tests sind. Mit dieser Basis können wir nun systematisch die verschiedenen statistischen Tests abarbeiten. <?page no="65"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 53 — le-tex Teil II Inferenzstatistik Kapitel 6 Der Einstichprobenfall 6.1 p-Test, Test auf Anteilswerte 6.1.1 Das Konzept Im Rahmen der Einführung haben wir den Binomialtest bereits kennengelernt. Als Exkurs soll ein weiteres Beispiel vorgestellt werden. Exkurs zur Motivation: Wähleranteil Eine Partei will überprüfen, ob ihr Wähleranteil mehr als 40 Prozent beträgt. Hierzu befragt sie 10 Personen, von denen 8 die Partei wählen würden: H 0 : p = 0.4 gegen H 1 : p > 0.4 Wir wählen als Teststatistik S die Anzahl der Wähler der Partei in der Stichprobe. Diese ist binomialverteilt mit den Parametern n = 10 und p = 0.4, NUR wenn H 0 zutrifft. In der folgenden Tabelle ist die Verteilung von S unter H 0 zu finden. s 0 1 2 3 4 5 6 7 P (S = s) 0.006 0.040 0.121 0.215 0.251 0.201 0.112 0.043 s 8 9 10 P (S = s) 0.0106 0.0016 0.0001 Tabelle 6.1: Verteilung von S unter H 0 <?page no="66"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 54 — le-tex 54 Kapitel 6. Der Einstichprobenfall Wir lehnen H 0 ab, wenn S zu groß ist. So hängt die Wahrscheinlichkeit α des Fehlers 1. Art vom kritischen Bereich C ab: C α C = {10} 0.0001 C = {9, 10} 0.0017 C = {8, 9, 10} 0.0123 C = {7, 8, 9, 10} 0.0548 Tabelle 6.2: α in Abhängigkeit vom Ablehnbereich C Wollen wir zum Signifikanzniveau 95 % (α = 0.05) testen, so ist der kritische Bereich C = {8, 9, 10}. Dies ist nämlich der größte kritische Bereich, bei dem die Wahrscheinlichkeit des Fehlers 1. Art kleiner gleich 0.05 ist. Der kritische Bereich C = {7, 8, 9, 10} enthält zwar auch den Wert 8. Aber bei diesem ist die Wahrscheinlichkeit des Fehlers 1. Art größer als 0.05. Die Überschreitungswahrscheinlichkeit beträgt 0.0123. Dies ist nämlich die kleinste Irrtumswahrscheinlichkeit, bei dem wir H 0 für den Wert S = 8 ablehnen. Wie man sieht, ist auch der einseitige Fall nicht weiter schwer. Diesmal ergibt sich die Überschreitungswahrscheinlichkeit nur aus dem rechten Rand der Verteilung - die spricht gegen die Hypothese. 6.1.2 SPSS - Der Binomialtest Die Daten können maximal einfach, wie in Abbildung 6.1 zu sehen, eingegeben werden. Abbildung 6.1: Wahldaten <?page no="67"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 55 — le-tex Teil II Inferenzstatistik 6.1. p-Test, Test auf Anteilswerte 55 Der Abbildung können Sie auch entnehmen, wie Sie den Binomialtest finden können. Wählen Sie ihn aus, dann wird Ihnen der Dialog in Abb. 6.2 präsentiert. Er ist entsprechend auszufüllen. Die Dichotomie ergibt sich aus den Daten, da wir es ja nur mit zwei Ausprägungen zu tun haben. Abbildung 6.2: Wahldaten - Binomialtest Dialog Wenn Sie den Test ausführen, wird das Ergebnis in einem neuen Fenster, dem Statistics Viewer, protokolliert. Es sieht so aus: Abbildung 6.3: Wahldaten - Binomialtest Ergebnis Die exakte Signifikanz ganz rechts kennen wir schon. Wir hatten diese bereits per Hand im letzten Kapitel auf Seite 54 ausgerechnet. Die restlichen Eintragungen sind selbsterklärend. Wie Sie sehen, gibt uns SPSS keinen Hinweis, wie nun mit der Hypothese umzugehen ist. <?page no="68"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 56 — le-tex 56 Kapitel 6. Der Einstichprobenfall 6.2 t-Test 6.2.1 Das Konzept Im letzten Kapitel haben wir mit dem Test auf p einen Test im Einstichprobenproblem kennen gelernt. Wir wollen uns in nun weitere Tests für das Einstichprobenproblem anschauen. Bei diesen geht man von den unabhängigen, identisch verteilten Zufallsvariablen X 1 , . . . , X n aus, wobei die Verteilung von X i von einem oder mehreren Parametern abhängt. Wir gehen davon aus, dass die Verteilung der X i zumindest am Median stetig ist, und wollen überprüfen, ob ein Lageparameter der Verteilung einen bestimmten Wert annimmt. Man spricht von Tests auf einen Lageparameter. Hier werden wir den t-Test 11 und den Vorzeichentest kennen lernen, der z-Test wird kurz erwähnt. Wir wollen überprüfen, ob ein Lageparameter der X i , i = 1, . . . , n einen speziellen Wert annimmt. Dabei kann der Lageparameter der Erwartungswert µ oder der Median M sein. Im zweiseitigen Testproblem lauten die Hypothesen also H 0 : µ = µ 0 gegen H 1 : µ 6= µ 0 oder H 0 : M = M 0 gegen H 1 : M 6= M 0 Für den t-Test gehen wir von folgenden Annahmen aus: Die Zufallsvariablen X 1 , . . . , X n (unsere Stichprobe) sind unabhängig und identisch mit den Parametern µ und σ 2 normalverteilt. Im Fall des t-Tests kennen wir die die Streuung, σ 2 , nicht. Sie wird, wie im Einführungskapitel gezeigt, abgeschätzt durch die Stichprobenstandardabweichung: s 2 x = 1 n − 1 n ∑ i=1 (x i − ¯ x) 2 Wir können an dieser Stelle wieder das Beispiel mit den Reichweiten verwenden. Wir haben das verbundene Zweistichprobenproblem auf ein Einstichprobenproblem durch paarweise Differenzen reduzieren können. 11 Der t-Test wurde von William Gosset entwickelt. Er hat die Arbeiten dazu unter dem Pseudonym Student veröffentlicht. Es heißt, dass seine Arbeit für die Guinness Brauerei in Dublin geheim bleiben sollte. Er hat die t-Verteilung und den Test für kleine Stichproben entwickelt. <?page no="69"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 57 — le-tex Teil II Inferenzstatistik 6.2. t-Test 57 Die folgenden drei Hypothesenkonstellationen stehen als zweibzw. einseitige Tests zur Verfügung: Fall A: H 0 : µ = µ 0 gegen H 1 : µ 6= µ 0 Fall B: H 0 : µ = µ 0 gegen H 1 : µ > µ 0 Fall C: H 0 : µ = µ 0 gegen H 1 : µ < µ 0 Wir kennen die Prüfgröße, der Vollständigkeit halber sei sie hier noch einmal gelistet: T = ¯ x − µ 0 s x / √n mit T H 0 ∼ t n−1 Tatsächlich wollen wir uns hier nicht mit Entscheidungsregeln auf Basis von Quantilen aufhalten. Jedes Statistiksoftware wird uns die Überschreitungswahrscheinlichkeit liefern und wir als Statistiker kennen dann das Signifikanzniveau. Exkurs zur Motivation: t-Verteilung und Normalverteilung Die t-Verteilung hat genau einen Parameter, die Freiheitsgrade (Degrees of Freedom). Auf den ersten Blick sieht die t-Verteilung genau so aus, wie die Standardnormalverteilung. Es gilt, mit größer werdenden Freiheitsgraden strebt die t-Verteilung gerade gegen die Standardnormalverteilung. Im Grenzfall sind sie identisch. Die Freiheitsgrade beim t-Test sind im Prinzip der Stichprobenumfang. Das heißt, je größer n desto unbedeutender wird die t-Verteilung und wir können stattdessen die Normalverteilung nehmen. Der 97.5 %-Punkt der Standardnormalverteilung ist 1.96. Für t 9 ist dieses Quantil bei 2.26, für t 99 schon bei 1.98. Das heißt bei großen Stichprobenumfängen ist es egal, welche der beiden Verteilungen genommen wird, um kritische Bereiche bzw. p-Werte zu ermitteln. Sollte σ 2 x bekannt sein, was in der Regel nicht zutrifft, dann kann die Prüfgröße T angepasst werden. Statt s x kann dann σ x verwendet werden. Die Prüfgröße Z ist dann unter H 0 standardnormalverteilt. Aber der Fall des Z-Test ist eher nicht typisch. <?page no="70"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 58 — le-tex 58 Kapitel 6. Der Einstichprobenfall 6.2.2 SPSS - Der t-Test Die beiden folgenden Abbildungen zeigen die eingegebenen Daten, den Pfad zum t-Test sowie den auszufüllenden Dialog: Abbildung 6.4: Differenzdaten Abbildung 6.5: Differenzdaten - t-Test Dialog <?page no="71"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 59 — le-tex Teil II Inferenzstatistik 6.2. t-Test 59 Wenn Sie den t-Test dann ausführen, erhalten Sie den nachstehenden Output: Abbildung 6.6: Differenzdaten - t-Test Ergebnis Die erste Tabelle ist zunächst eine zusammenfassende Darstellung unserer Daten. Den Standardfehler haben wir auf der Seite 41 kennengelernt, er wird immer kleiner je größer die Stichprobe wird. Wir können uns also immer besser auf den Mittelwert verlassen. Exkurs zur Motivation: Das arithmetische Mittel Der Mittelwert hat (mindestens) zwei herausragende Eigenschaften. Er wird immer genauer (Gesetz der großen Zahlen) und er zielt im Durchschnitt genau an die richtige Stelle, er ist erwartungstreu. Denn Folgendes gilt: Seien X i wieder iid verteilt mit Erwartungswert µ, dann ergibt sich: E( ¯ X) = E ( 1/ n n ∑ i=1 X i ) = 1/ n · E ( n ∑ i=1 X i ) = 1/ n · n ∑ i=1 E(X i ) , gilt wegen der Linearität = 1/ n · n ∑ i=1 µ , gilt wegen der identischen Verteilung = 1/ n · n · µ = µ <?page no="72"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 60 — le-tex 60 Kapitel 6. Der Einstichprobenfall Die untere Tabelle ist das Ergebnis des Tests. Die ersten 4 Zahlen kennen wir bereits. Die wichtigste ist natürlich die 2-seitige Significance, 0.042. Auf Seite 45 haben wir dieses Ergebnis hergeleitet und kennengelernt. Das heißt, wenn wir ein Signifikanzniveau von mindestens 95 % erreichen möchten, dann können wir das in diesem Fall gut schaffen - wir liegen leicht drunter. Die letzten beiden Spalten geben das sogenannte Konfidenzintervall an. Für (im Prinzip) jeden statistischen Test kann immer auch ein Konfidenzintervall berechnet werden. Es ist eine weitere Möglichkeit, den Test zu interpretieren. Dafür wird vorher ein Signifikanzniveau festgelegt, in der Regel 95 %. Das Intervall gib nun den Wertebereich für das wahre (unbekannte) µ (oder irgendein θ, also worauf man testet) an, der mit 95%iger Sicherheit überdeckt wird. Liegt nun µ 0 in dem Intervall, ist also µ 0 einer der wahrscheinlichen Werte, dann kann die Hypothese nicht abgelehnt werden. In unserem Fall liegt die Null NICHT im Intervall, folglich muss die These abgelehnt werden. Das Konfidenzintervall wird folgendermaßen berechnet - hier für den t-Test. Ausgangspunkt ist der Annahmebereich - wir akzeptieren H 0 , wenn die Prüfgröße zwischen den kritischen Werten liegt: −t 1−α/ 2,n−1 ≤ T ≤ t 1−α/ 2,n−1 ↔ −t 1−α/ 2,n−1 ≤ (¯ x − µ 0 ) s/ √n ≤ t 1−α/ 2,n−1 Nun Multiplizieren wir diese Ungleichung mit −s/ √n, so ergibt sich −t 1−α/ 2,n−1 · s √n ≤ µ 0 − ¯ x ≤ t 1−α/ 2,n−1 · s √n Nun addieren wir ¯ x. ¯ x − t 1−α/ 2,n−1 · s √n ≤ µ 0 ≤ ¯ x + t 1−α/ 2,n−1 · s √n Das ist unser Konfidenzintervall: [ ¯ x − t 1−α/ 2,n−1 · s √n , ¯ x + t 1−α/ 2,n−1 · s √n ] Wenn dieses Intervall µ 0 überdeckt, dann können wir die Hypothese nicht ablehnen. <?page no="73"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 61 — le-tex Teil II Inferenzstatistik 6.2. t-Test 61 6.2.3 Die Power eines Test Wir wissen, dass wir zwei Fehler machen können, den Alpha- und Beta-Fehler. Als sogenannte Trennschärfe oder Power wird 1 − β bezeichnet. Das ist die Wahrscheinlichkeit, dass ein signifikantes Ergebnis auch erkannt wird: Power = P (H 1 |H 1 ) In unserem Beispiel heißt das, dass die wahre Differenz eben gerade nicht Null ist. Wir nehmen im Gegenteil an, dass der Wert, den wir beobachtet haben, die wahre Differenz ist. Im Falle des t-Tests können wir die Power berechnen. Der kritische Bereich, also der Ablehnbereich, für den zweiseitigen t-Test sind diese beiden Quantile - für n = 10 wie im Beispiel: t 0.025,9 = −2.26 bzw. t 0.975,9 = 2.26 Zur Erinnerung die Prüfgröße ist, wenn H 0 gilt, gerade (zentral) t-verteilt mit n−1 Freiheitsgraden. Wie wahrscheinlich ist es, dass wir 23.3 als Mittelwert der Differenzen (und damit als Abstand zum Wert Null) beobachten, wenn wir annehmen, dass dies die wahre Differenz unter H 1 ist? Es soll die Frage beantwortet werden, wie groß die Wahrscheinlichkeit ist, den Ablehnbereich zu treffen, wenn der wahre Parameter, die wahren Differenzen dem beobachteten entsprechen. Unter H 0 gilt: P (T 9 > 2.26|H 0 ) + P (T 9 < −2.26|H 0 ) = 0.05 Das haben wir so festgelegt, das ist unser Alpha-Fehler. Wie groß ist nun diese Wahrscheinlichkeit: P (T 9 > 2.26|H 1 ) + P (T 9 < −2.26|H 1 ) = Power Wir müssen nun die nicht zentrale t-Verteilung befragen, wir schieben die Verteilung in Richtung unsere (standardisierten) beobachteten mittleren Differenz: P (T 9 > 2.26|H 1 ) = 0.5602 und P (T 9 < −2.26|H 1 ) ≈ 0 → Power = 1 − β = 0.5602 Das ist etwas dürftig. Man sagt, dass die Power wenigstens 80 % betragen sollte, da vorgeschlagen wird, dass der Beta-Fehler bis zu 4-mal so groß sein sollte wie der Alpha-Fehler. Um das zu erreichen, müsste n erhöht werden. Hier das Ergebnis für n = 15: P (T 14 > 2.26|H 1 ) = 0.769 und P (T 14 < −2.26|H 1 ) ≈ 0 → Power = 1 − β = 0.769 Tatsächlich lässt sich ausrechnen, wie groß n mindestens sein muß, um mindestens 80 % Power zu erreichen. Wir müssen n = 17 wählen. <?page no="74"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 62 — le-tex 62 Kapitel 6. Der Einstichprobenfall 6.3 Vorzeichentest 6.3.1 Das Konzept Der t-Test (und auch der z-Test) ist ein Test auf den Erwartungswert einer normalverteilten Grundgesamtheit. Die Annahme der Normalverteilung muss aber nicht immer gerechtfertigt sein. Liegt keine Normalverteilung vor, sollte man einen anderen Test anwenden. Eine Alternative zum t-Test ist der Vorzeichentest. Dieser ist ein Test auf den Median M . Er beruht auf folgenden Annahmen: Wir beobachten die Realisationen x 1 , . . . , x n der Zufallsvariablen X 1 , . . . , X n , die unabhängig und identisch verteilt sind mit Verteilungsfunktion F X (x), die im Median M stetig ist. Das Testproblem lautet H 0 : M = M 0 gegen H 1 : M 6= M 0 Wenn M 0 der wahre Wert des Medians M in der Grundgesamtheit ist, so erwarten wir, dass die Hälfte der Beobachtungen größer als M 0 ist. Auf diesem Tatbestand beruht der Vorzeichentest. Wir zählen also, wie viele der Beobachtungen größer als M 0 sind. Ist diese Anzahl zu groß oder zu klein, so spricht dies dagegen, dass M 0 der Wert des Medians in der Grundgesamtheit ist. Welche der folgenden drei Verteilungen der Beobachtungen spricht dafür, welche dagegen, dass der Median der Grundgesamtheit, aus der die Stichprobe gezogen wurde, gleich 0 ist: 1: x x x 0 x x x 2: x 0 x x x x x 3: x x x x x 0 x Tabelle 6.3: Datensatz: stilisiert VZ-Test Die Teststatistik S des Vorzeichentests ist gleich der Anzahl der Beobachtungen, die größer als M 0 sind. Es gilt also formal gesprochen: S = n ∑ i=1 s(X i − M 0 ) mit s(x) = { 1 , für x > 0 0 , sonst <?page no="75"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 63 — le-tex Teil II Inferenzstatistik 6.3. Vorzeichentest 63 Um den kritischen Bereich bestimmen zu können, benötigt man die Verteilung von S unter H 0 . Beim Vorzeichentest können wir diese leicht herleiten. Auf Grund der Stetigkeit der Verteilungsfunktion in M 0 ist die Wahrscheinlichkeit gleich 0, den Wert M 0 zu beobachten. Also ist eine Beobachtung entweder größer als M 0 oder kleiner als M 0 . Wenn H 0 : M = M 0 zutrifft, ist die Wahrscheinlichkeit gleich 0.5, dass eine Beobachtung größer als M 0 ist. Auf Grund der Unabhängigkeit der X i beobachten wir einen Bernoulli-Prozess der Länge n mit Erfolgswahrscheinlichkeit p = 0.5. Also ist die Anzahl S der Beobachtungen, die größer als M 0 sind, mit den Parametern n und p = 0.5 binomialverteilt, wenn H 0 zutrifft. Es gilt also P (S = s) = ( n s ) · 0.5 s · 0.5 n−s = ( n s ) · 0.5 n Wir wollen auch hier darauf verzichten, kritische Bereiche etc. zu definieren. In unserem Fall gilt, dass acht Beobachtungen (die bekannten Differenzen) größer als Null sind. Hier noch einmal die Binomialverteilung für diesen Fall: Sie können nun den p-Wert für den zwei- und einseitigen Fall leicht addieren, also 0.044 + 0.01 + 0.001 = 0.055 für den einseitigen Fall. Im zweiseitigen mal zwei: #Würfe WS 0.00 0.05 0.10 0.15 0.20 0.25 0 1 2 3 4 5 6 7 8 9 10 Binomialverteilung mit n=10 und p=0.5 0.001 0.01 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.01 0.001 Abbildung 6.7: Wahrscheinlichkeitsfunktion Binomialverteilung <?page no="76"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 64 — le-tex 64 Kapitel 6. Der Einstichprobenfall Das heißt, die Hypothese kann nicht abgelehnt werden. Dies ist ein anderes Ergebnis als beim t-Test. Offensichtlich büßen wir Signifikanz ein. Wir bezahlen sozusagen dafür, dass wir nicht mehr mit der (starken) Annahme der Normalverteilung der Daten arbeiten können. Diese Unsicherheit bezahlen wir beim VZ-Test mit geringerer Signifikanz bzw. einem größeren Alpha-Fehler. Bei n > 20 ist die Prüfgröße S übrigens aufgrund des zentralen Grenzwertsatzes normalverteilt mit Erwartungswert 0.5 · n und Varianz 0.25 · n. Die folgende Prüfgröße Z ist daher standardnormalverteilt: Z = S − 0.5 · n 0.5 · √n Ihnen ist natürlich aufgefallen, dass der VZ-Test nichts Anderes ist als der Binomialtest, den wir als Test auf p auf den Seiten 47 ffbzw. 53 kennengelernt haben. 6.3.2 SPSS - Der Vorzeichentest Abbildung 6.8: Differenzdaten Der Dialog ist im Prinzip identisch mit dem für den Binomialtest auf der Seite 55 bereits kennengelernt haben. Allerdings müssen wir hier einen Punkt bestimmen, um die Daten zu dichotomisieren. Das ist natürlich unser Hypothesenwert Null: <?page no="77"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 65 — le-tex Teil II Inferenzstatistik 6.4. Der χ 2 -Anpassungstest 65 Abbildung 6.9: Differenzdaten - VZ-Test Dialog Der Output sollte uns auch keine weiteren Schwierigkeiten bereiten. Die Überschreitungswahrscheinlichkeit für den zweiseitigen Test haben wir mit Hilfe der Wahrscheinlichkeitsfunktion in Abbildung 6.7 bereits ausgezählt. Es ist das gleiche Ergebnis, bis auf ein paar Rundungsungenauigkeiten. Abbildung 6.10: Differenzdaten - VZ-Test Ergebnis 6.4 Der χ 2 -Anpassungstest 6.4.1 Das Konzept Viele der Tests, die wir betrachtet haben, gehen davon aus, dass in der Grundgesamtheit eine spezielle Verteilung vorliegt. So unterstellen wir beim t-Test im Einstichprobenproblem, dass die Grundgesamtheit normalverteilt ist. Im Einzelfall stellt sich natürlich die Frage, ob diese Annahme erfüllt ist. Wir wollen im Folgenden einen Test betrachten, mit dem man überprüfen kann, ob eine Zufallsstichprobe aus einer speziellen Verteilung stammt. Dies ist der Chiquadrat-Anpassungstest. <?page no="78"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 66 — le-tex 66 Kapitel 6. Der Einstichprobenfall Um herauszufinden, ob ein Würfel fair ist, wirft ein Statistiker ihn 30-mal. Er erhält folgende Stichprobe: 5 5 6 3 4 5 1 1 4 5 1 3 1 3 5 4 6 6 4 1 4 3 5 6 5 2 1 5 2 4 Tabelle 6.4: 30-maliges Würfeln Bei einem Anpassungstest betrachten wir eine Zufallsvariable X und wollen überprüfen, ob diese eine spezielle Verteilung F 0 besitzt. Das Testproblem lautet also H 0 : Die Zufallsvariable X besitzt die Verteilungsfunktion F 0 H 1 : Die Zufallsvariable X besitzt nicht die Verteilungsfunktion F 0 Abbildung 6.11: Hypothese Anpassungstest Sei X die Augenzahl beim einmaligen Wurf eines Würfels. Das Testproblem lautet hier: H 0 : P (X = i) = 1/ 6 für i = 1, 2, . . . , 6 H 1 : P (X = i) 6= 1/ 6 für mindestens ein i Abbildung 6.12: Hypothese Anpassungstest Würfelwurf Nun müssen wir Realisationen der Zufallsvariable betrachten. Ist X diskret, bestimmen wir die absoluten Häufigkeiten. Ist X stetig, bilden wir zunächst Klassen und bestimmen dann die absoluten Häufigkeiten pro Klasse. Die folgende Tabelle zeigt die n i für das Würfelbeispiel: i 1 2 3 4 5 6 n i 6 2 4 6 8 4 Tabelle 6.5: Häufigkeitstabelle Würfelbeispiel Die absoluten Häufigkeiten n i sind Realisationen der Zufallsvariablen N i . Es liegt nahe, die Hypothese H 0 auf Basis dieser absoluten Häufigkeiten zu überprüfen. Beim zweiseitigen t-Test haben wir den Mittelwert mit dem Erwartungswert, wenn H 0 zutrifft verglichen. Wir wollen hier analog vorgehen. Wir benötigen also den Erwartungswert der N i unter H 0 . Ist p i0 die Wahrscheinlichkeit, dass X die i-te Merkmalsausprägung bzw. einen Wert in der i-ten Klasse annimmt, wenn H 0 zutrifft, so gilt E(N i ) = n · p i0 Wir wollen diese Größe (unter H 0 erwartete Häufigkeit) mit ˜ n i bezeichnen. <?page no="79"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 67 — le-tex Teil II Inferenzstatistik 6.4. Der χ 2 -Anpassungstest 67 Wenn H 0 zutrifft, gilt beim Würfelbeispiel p i = 1/ 6 ∀i Mit n = 30 gilt also ˜ n i = 5 ∀i Die Prüfgröße heißt χ 2 und ist folgendermaßen definiert: χ 2 = k ∑ i=1 (n i − ˜ n i ) 2 ˜ n i k ist die Anzahl der Klassen bzw. verschiedenen Realisationsmöglichkeiten. Wenn H 0 nicht zutrifft, so werden sich die beobachteten Häufigkeiten stark von den erwarteten Häufigkeiten unterscheiden. Die quadrierten Differenzen werden also groß sein. Also wird auch der Wert von χ 2 groß sein. Wir lehnen also H 0 ab, wenn χ 2 zu groß ist. Der kritische Wert hängt wie immer vom Signifikanzniveau α und der Verteilung der Teststatistik unter H 0 ab. Für kleine Stichprobenumfänge ist es sehr mühselig, diese Verteilung zu bestimmen. Gilt aber ˜ n i ≥ 5, so ist χ 2 approximativ chiquadratverteilt mit (k − 1) Freiheitsgraden: χ 2 · ∼ χ 2 k−1 Die Entscheidungsregel ist: Wir lehnen H 0 also zum Signifikanzniveau α ab, wenn gilt X 2 ≥ χ 2 1−α,k−1 Dabei ist χ 2 1−α,k−1 das 1 − α-Quantil der Chiquadratverteilung mit (k − 1) Freiheitsgraden. Für das Würfelbeispiel gilt: X 2 = (6 − 5) 2 5 + (2 − 5) 2 5 + (4 − 5) 2 5 + (6 − 5) 2 5 + (8 − 5) 2 5 + (4 − 5) 2 5 = 4.4 Wir können nicht ablehnen, denn es gilt: χ 2 0.95,5 = 11.07 > 4.4 In Abbildung 6.13 ist die Entscheidungslage einmal anhand der Dichte der Chiquadratverteilung dargestellt. Was meinen Sie, ist ein zweiseitiger Test hier sinnvoll? <?page no="80"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 68 — le-tex 68 Kapitel 6. Der Einstichprobenfall 0 5 10 15 20 0.00 0.05 0.10 0.15 Dichte der Chiquadratverteilung mit 5 FG PG=4.4 95%−Punkt 11.07 p−Wert: P(X>4.4)= 0.493 Abbildung 6.13: Entscheidung χ 2 -Anpassungstest Aber auch hier wollen wir in der tatsächlichen Anwendung nicht mit den Quantilen argumentieren, sondern dem p-Wert. Bisher sind wir davon ausgegangen, dass alle Parameter der hypothetischen Verteilung bekannt sind. Ist dies nicht der Fall, so schätzt man diese und bestimmt die erwarteten Häufigkeiten, indem man die geschätzten Parameter in die Verteilungsfunktion einsetzt. Man erhält also geschätzte erwartete Häufigkeiten. Bei der Entscheidungsregel wird nun berücksichtigt, dass Parameter geschätzt wurden. Für jeden geschätzten Parameter wird die Anzahl der Freiheitsgrade um 1 vermindert. H 0 wird also abgelehnt, wenn gilt X 2 ≥ χ 2 1−α,k−1−m → m ist die Anzahl der geschätzten Parameter. <?page no="81"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 69 — le-tex Teil II Inferenzstatistik 6.4. Der χ 2 -Anpassungstest 69 6.4.2 SPSS - Der χ 2 -Anpassungstest Es folgen die inzwischen bekannten dreiteiligen SPSS-Darstellungen. Abbildung 6.14: Würfeldaten Abbildung 6.15: Würfeldaten - χ 2 -Test Dialog <?page no="82"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 70 — le-tex 70 Kapitel 6. Der Einstichprobenfall Die Prüfgröße haben wir bereits per Hand ausgerechnet. Wir wissen auch, dass wir die Hypothese nicht ablehnen können. Das wird durch den p-Wert deutlich bestätigt. Wenn wir ablehnen würden, wäre der Alpha-Fehler mit fast 50 % sehr groß. SPSS weist uns ferner darauf hin, dass in allen Zellen die erwarteten Häufigkeiten von mindestens 5 erreicht werden. Abbildung 6.16: Würfeldaten - χ 2 -Test Ergebnis <?page no="83"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 71 — le-tex Teil II Inferenzstatistik 6.5. Der Kolmogorov-Smirnov-Test 71 6.5 Der Kolmogorov-Smirnov-Test 6.5.1 Das Konzept Der Kolmogorov-Smirnov-Test (kurz: KS-Test) leistet ganz ähnliche Dienste, wie der Anpassungstest aus dem letzten Kapitel. Die Idee ist allerdings eine grundsätzlich andere. Während der χ 2 -Test beobachtete Häufigkeiten mit den unter Annahme der Hypothese zu erwartenden vergleicht, verwendet der KS-Test die empirische Verteilungsfunktion und vergleicht diese mit theoretischen Verteilungsfunktion, die wir unter der Hypothese annehmen. Exkurs zur Motivation: Hauptsatz der mathematischen Stochastik Der KS-Test basiert auf dem Satz von Gliwenko-Cantelli (Hauptsatz der mathematischen Statistik). Dieser ist ein weiterer Grenzwertsatz für Folgen von Zufallsvariablen. Er besagt (einfach formuliert), dass die Folge von empirischen Verteilungsfunktionen basierend auf Stichproben aus einer Grundgesamtheit mit zunehmendem Stichprobenumfang n gegen die tatsächliche zugrundeliegende theoretische Verteilung der Grundgesamtheit strebt. Diese Verteilung wird unter H 0 angenommen. Genaugenommen ist die Statistik des KS-Tests das Supremum für die Folge von Abständen zwischen der empirischen und der angenommenen theoretischen Verteilungsfunktion. Der Satz von Gliwenko-Cantelli sagt nun, dass diese Folge der (maximalen) Abstände gegen Null konvergiert. Die Hypothese H 0 nimmt also eine bestimmte Verteilung an. In diesem Fall wollen wir H 0 nicht ablehnen. Für stetige Daten bzw. Daten, von denen wir annehmen, dass sie aus einer stetigen Verteilung wie der Normalverteilung gezogen wurden, ist es etwas umständlich, den χ 2 -Test anzuwenden. Es müsste zunächst eine stetige Klassierung vorgenommen werden. Die dann beobachteten relativen Häufigkeiten können mit den Wahrscheinlichkeiten in den Klassen verglichen werden. Neben Tests auf eine bestimmte Verteilungsannahme ist es sinnvoll, auch graphische Hilfsmittel zu berücksichtigen. Im folgenden sollen wieder die Differenzdaten genommen werden. Die Stichprobe, die wir auf Seite 39 kennengelernt haben, waren nur die ersten 10 Datensätze aus einer Stichprobe vom Umfang n = 300. Diese gesamte Stichprobe sollen verwendet werden. <?page no="84"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 72 — le-tex 72 Kapitel 6. Der Einstichprobenfall 6.5.2 SPSS- und graphische Ansätze Die einfachsten Graphiken sind Darstellungen der Verteilung der Daten, z. B. Box- Plot oder Histogramm. Graphiken mit SPSS sind einfach zu erstellen. Das Histogramm zeigt die Verteilung der Daten. Das Histogramm lässt sich gut mit einer Dichtefunktion vergleichen. Bei SPSS werden Graphiken über den Menüpunkt Graphik angesteuert. Die folgende Abbildung zeigt die Daten sowie den Histogramm-Dialog. Abbildung 6.17: Differenzdaten - Histogramm-Dialog <?page no="85"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 73 — le-tex Teil II Inferenzstatistik 6.5. Der Kolmogorov-Smirnov-Test 73 Das Ergebnis ist in der nächsten Abbildung dargestellt. Man erkennt sehr deutlich die Nähe zur Dichte der Normalverteilung, das Histogramm eignet sich sehr gut zum Vergleich: Abbildung 6.18: Differenzdaten - Histogramm-Dialog Der folgende Box-Plot bestätigt den Eindruck, eines sehr symmetrischen Datensatzes, der um die durchschnittliche Differenz von 46 zentriert ist (was gegen die Hypothese spricht, wir erinnern uns): <?page no="86"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 74 — le-tex 74 Kapitel 6. Der Einstichprobenfall Abbildung 6.19: Differenzdaten - Box-Plot Der sogenannte QQ-Plot geht nun einen Schritt weiter. Eine Stichprobe wird direkt mit der angenommenen Verteilung verglichen. QQ-Plot steht für Quantil- Quantil-Plot. Es werden die empirischen Quantile einer Stichprobe mit den entsprechenden aus der theoretischen Verteilung per Scatter-Plot verglichen. 12 Wenn die empirische Verteilung tatsächlich aus der angenommenen stammt, dann sollte der Scatter-Plot zufällig und möglichst dicht um die Winkelhalbierende streuen, da die empirischen Quantile mit den theoretischen bis auf Zufallsstörungen übereinstimmen. Eine einfache aber gute Idee. Sie finden den QQ-Plot unter dem Menüpunkt Analysen-> Deskriptive Statistiken. Die folgende Abbildung zeigt den Dialog: 12 Die Quantile ergeben sich dabei z. B. aus dem Stichprobenumfang, so dass alle Punkte Berücksichtigung finden können. <?page no="87"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 75 — le-tex Teil II Inferenzstatistik 6.5. Der Kolmogorov-Smirnov-Test 75 Abbildung 6.20: Differenzdaten - QQ-Plot-Dialog Der QQ-Plot bestätigt die Annahme, dass die Daten aus einer Normalverteilung stammen können. Die Punkte scheinen zufällig und sehr dicht um die Winkelhalbierende zu streuen. Abbildung 6.21: Differenzdaten - QQ-Plot <?page no="88"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 76 — le-tex 76 Kapitel 6. Der Einstichprobenfall Mit Hilfe des Residuen-Plots, also der Abstände der Punkte zur Geraden 13 , kann man etwas genauer hinschauen. Hier können wir erkennen, dass noch eine leichte Struktur vorhanden ist, was bedeutet, dass die Punkte doch nicht einfach nur zufällig um die Winkelhalbierende streuen. Abbildung 6.22: Differenzdaten - QQ-Plot-Residuendarstellung Insgesamt scheinen die Daten für eine Normalverteilung zu sprechen. Allerdings zeigen alle drei Darstellungen auch durchaus leichte Abweichungen. Mal schauen, was der Test sagt. SPSS erlaubt es Ihnen, Zufallszahlen aus verschiedenen Verteilungen zu ziehen, Transformieren-> Variable berechnen: 13 SPSS nennt das trendbereinigte Darstellung, was natürlich das Gleiche ist. <?page no="89"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 77 — le-tex Teil II Inferenzstatistik 6.5. Der Kolmogorov-Smirnov-Test 77 Abbildung 6.23: Zufallszahlen ziehen - Dialog Sie bekommen dann eine neue Spalte in das Datenblatt eingefügt: Abbildung 6.24: Zufallszahlen ziehen - Ergebnis Der QQ-Plot und das Histogramm sehen nun folgendermaßen aus: <?page no="90"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 78 — le-tex 78 Kapitel 6. Der Einstichprobenfall Abbildung 6.25: Zufallszahlen ziehen - Histogramm Abbildung 6.26: Zufallszahlen ziehen - QQ-Plot <?page no="91"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 79 — le-tex Teil II Inferenzstatistik 6.5. Der Kolmogorov-Smirnov-Test 79 6.5.3 Anmerkungen zu Zufallszahlen Zufallszahlen sind für sehr viele Fragestellungen enorm wichtig. Die Sicherheit von Kryptosystemen hängt maßgeblich davon ab, wie zufällig die Zufallszahlen tatsächlich sind. Unter bestimmten Bedingungen und wenn wir es mit echten Zufallszahlen als Schlüssel zu tun haben, ist ein Verschlüsselungssystem nicht zu knacken. Simulationen benötigen eine Unmenge an Zufallszahlen. Simulationen sind sehr mächtig, da im Prinzip jedes (numerische) Problem damit gelöst werden kann. Es ist zum Beispiel nicht so einfach, die Fläche unter der Normalverteilung zu bestimmen. Der übliche Weg über die Integralrechnung funktioniert nicht, da es prinzipiell keine Stammfunktion zu der Dichtefunktion gibt. Man kann aber die Fläche mit Zufallszahlen aus dem entsprechenden Intervall bewerfen und den Anteil bestimmen, der im gewünschten Bereich liegt. Diese relative Häufigkeit konvergiert gegen die tatsächliche Fläche, also die Wahrscheinlichkeit. Mit dieser sogenannten Monte-Carlo-Simulation lassen sich viele Probleme lösen. Wo kommen nun die Zufallszahlen her? Es handelt sich um sogenannte Pseudozufallszahlen. D. h. eine mathematische Funktion bestimmt die Zufallszahlen. Es ist also kein echter Zufall, sondern ein konstruierter. Üblicherweise dient als eine solche Funktion im weitesten Sinne die Betrachtung der Reste bei bestimmten Divisionen. Das funktioniert so, dass man einen Startwert in die Funktion einsetzt. Das Ergebnis wird dann wieder in die Funktion eingesetzt usw. So kann man im Prinzip beliebig viele Zufallszahlen erzeugen. Wenn die erzeugende Funktion gut ist, verhalten sich die Pseudozufallszahlen wie echte Zufallszahlen. Ist die Funktion nicht gut, und verhalten sich die Zufallszahlen eben nicht zufällig, sondern sind z. B. korreliert, dann kommen auch die entsprechenden Anwendungen, für die man die Zufallszahlen benötigt, zu falschen Ergebnissen. Es gibt (natürlich) Tests, die das überprüfen können. Bei SPSS können Sie diesen Startpunkt setzen. Der große Vorteil ist, dass Sie immer dieselben Zufallszahlen bekommen bei jeder erneuten Durchführung. Das ist sehr nützlich, wenn Sie tatsächlich mit Simulationen arbeiten, da Sie die Ergebnisse des Algorithmus so besser bewerten können, Transformieren-> Zufallszahlengeneratoren: <?page no="92"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 80 — le-tex 80 Kapitel 6. Der Einstichprobenfall Abbildung 6.27: SPSS - Zufallszahlengenrator Hier können Sie einen fixen Startwert eingeben und prinzipiell auch auswählen, welche Funktion, also welcher Generator die Zahlen erstellen soll. 6.5.4 SPSS - KS-Test Die Hypothese lautet, dass die Daten normalverteilt sind. Sie finden den KS-Test unter dem Menüpunkt Analysieren-> Nicht parametrische Tests-> Alte Dialogfelder-> KS bei einer Stichprobe mit dem folgenden Dialog: Abbildung 6.28: Differenzdaten - KS-Test-Dialog <?page no="93"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 81 — le-tex Teil II Inferenzstatistik 6.5. Der Kolmogorov-Smirnov-Test 81 Das Ergebnis sieht dann folgendermaßen aus: Abbildung 6.29: Differenzdaten - KS-Test Die berechnete Überschreitungswahrscheinlichkeit liegt bei 0.2. Wir können also die Hypothese zum üblichen Niveau von 95 % nicht ablehnen. Hier können wir maximal ein Signifikanzniveau von 80 % erreichen. Das ist zu wenig. Wir akzeptieren die Hypothese. Für die eben erstellten normalverteilten Zufallszahlen ergibt sich übrigens auch eine Signifikanz von 0.2. <?page no="94"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 82 — le-tex <?page no="95"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 83 — le-tex Teil II Inferenzstatistik Kapitel 7 Der Zweistichprobenfall 7.1 Ein paar Hinweise Zweistichprobenproblem heißt zunächst einmal, dass zwei Beobachtungen in einer Grundgesamtheit gemacht wurden: Zwei Merkmale wurden erhoben. Beim Zweistichprobenproblem geht es darum, das gemeinsame Auftreten von zwei Merkmalen im Hinblick auf Abhängigkeiten, Wechselwirkungen, Lageunterschiede usw. zu betrachten. Wir können grundsätzlich zwei verschiedene Situationen unterscheiden: 1. verbundenes Zweistichprobenproblem Es werden am selben Objekt, an derselben Person, zwei Beobachtungen gemacht, zwei Reaktionen notiert oder auch zwei Messungen durchgeführt. Die Stichproben sind durch den Umstand verbunden, dass sie von der selben Quelle stammen. → Der Merkmalsträger ist also derselbe. Korrelation Es werden Körpergröße und -gewicht von allen Studierenden gemessen. Besteht ein Zusammenhang (im Sinne von groß entspricht schwer)? Ist das individuelle Konsumverhalten abhängig vom persönlichen Einkommen? → Besteht eine (kausale? ) Beziehung zwischen zwei Merkmalen? Vorher-/ Nachheranalyse Die Wirkung eines Schlafmittels soll untersucht werden. Die Probanden bekommen das Schlafmittel verabreicht. Schließlich wird die Schlafzeit der Probanden notiert. <?page no="96"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 84 — le-tex 84 Kapitel 7. Der Zweistichprobenfall Von denselben Probanden wird ein paar Tage später gemessen, wie lange diese ohne das Schlafmittel schlafen können. → Zu jeder Person existieren nun zwei Beobachtungen. → Hat eine (gezielte) Maßnahme einen Einfluss auf die Lage eines Merkmales auf der Merkmalsachse? 2. unverbundenes Zweistichprobenproblem Es werden nun Beobachtungen an verschieden Personen/ Objekten gemacht, weil es technisch (oder aus welchen Gründen auch immer) nicht möglich ist, die Messungen (man spricht oft auch von Behandlungen) am selben Objekt durchzuführen, oder weil eben verschiedene Dinge miteinander verglichen werden sollen. Eine neue Operationsmethode soll ausprobiert und mit einer alten verglichen werden. Man bildet zwei Gruppen von Patienten. Die eine bekommt die erste Behandlung, die andere die zweite (hier: neue und alte Operationsmethode). Zwei Produktionsprozesse sollen miteinander verglichen werden in Bezug auf die Produktionsleistung. Laufen Männer im Durchschnitt langsamer als Frauen? Bewerten Männer einen bestimmten Film anders als Frauen? Wenn man die Reaktion auf zwei unterschiedliche Behandlungen (im weitesten Sinne) vergleichend messen möchte, empfiehlt es sich offensichtlich, einen verbundenen Versuchsaufbau zu wählen. Eigenarten oder persönliche Besonderheiten der Probanden gleichen sich dann nämlich aus, weil diese in beiden Experimenten zur Geltung kommen. Genauso offensichtlich ist es aber auch, dass der verbundene Aufbau nicht immer gewählt werden kann. Vgl. das Beispiel mit der Operation oder auch Situationen, in denen eine Qualitätskontrolle durchgeführt werden soll, die aber die Zerstörung des Produkts nach sich zieht. <?page no="97"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 85 — le-tex Teil II Inferenzstatistik 7.2. Der χ 2 -Unabhängigkeitstest 85 7.2 Der χ 2 -Unabhängigkeitstest 7.2.1 Das Konzept Ein Statistikdozent verteilt zu Beginn des Semesters zwecks Datengenerierung einen Fragebogen. Neben den üblichen soziodemographischen Daten wird unter anderem nach der Bewertung des Films TITANIC 14 gefragt. Das Ergebnis ist in der folgenden Kreutabelle bzw. Kontingenztabelle dargestellt - es wurden 83 Studierende befragt. Noten Geschlecht 1 2 3 4 5 m 1 4 6 9 3| 23 w 12 22 16 7 3| 60 -------------+ 13 26 22 16 6 ->83 Tabelle 7.1: Datensatz: Bewertung des Films TITANIC Die Frage, die sich stellt, bewerten männliche Studierende den Film (signifikant) anders als weibliche Studierende. Das lässt sich als Hypothesenkonstellation formulieren: H 0 : Die beiden Merkmale sind unabhängig. H 1 : Die beiden Merkmale sind nicht unabhängig Wir kennen mittlerweile den Ablauf statistischer Tests. Wir benötigen einen Prüfgröße, die unsere empirischen Daten, also die Kontingenztabelle, mit den unter H 0 zu erwartenden vergleicht. Welche Häufigkeiten darf man also unter Annahme der Unabhängigkeit erwarten? Häufigkeiten unter Unabhängigkeit Wenn man einen Würfel 2-mal wirft, dann ist die Wahrscheinlichkeit, 2-mal eine 6 zu bekommen gerade 1 6 · 1 6 = 1 36 Der Multiplikationssatz der Unabhängigkeit erlaubt uns diese Berechnung. Ferner können wir mit dieser Wahrscheinlichkeit abschätzen, wie oft wir eine Doppelsechs erwarten, wenn wir das Zufallsexperiment 100-mal durchführen, etwa 3-mal: 100 · 1 36 ' 3 14 Ein Hollywood-Blockbuster (11 Oscars) mit Leonardo DiCaprio und Kate Winslet. <?page no="98"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 86 — le-tex 86 Kapitel 7. Der Zweistichprobenfall Nun ist es so, dass wir den Satz auch in die andere Richtung benutzen dürfen. Wir können Unabhängigkeit erzeugen. In unserem Beispiel möchten wir z. B. wissen, wie viele männliche Studenten den Film sehr gut bewerten würden, wenn H 0 gilt. Dazu nehmen wir einfach die Einzelwahrscheinlichkeiten miteinandermal, also die relativen Häufigkeiten als Schätzer für die Wahrscheinlichkeiten, also 23/ 83, dass man zufällig einen männlichen Studenten zieht bzw. 13/ 83 für eine sehr gute Bewertung: P H 0 (m ∩ 1) = 23 83 · 13 83 = 0.043 Das ist die Wahrscheinlichkeit, dass ein männlicher Student den Film super findet, wenn Unabhängigkeit gelten würde. Insgesamt wurden 83 Studierende befragt. Damit ergibt sich als Formel für die erwartete Anzahl (1. Zeile, 1. Spalte, die Tilde zeigt an, dass eine erwartete Häufigkeit ist): ˜ n (1,1) = 23 83 · 13 83 · 83 = 23 · 13 83 = 3.6 Diese Zahl können wir nun mit der tatsächlich beobachteten vergleichen: n (1,1) = 1 Das ist ein großer Unterschied, das spricht gegen die Hypothese der Unabhängigkeit. Die folgende Prüfgröße macht dann auch gerade das, was sie tun soll. Sie vergleicht die beobachteten Häufigkeiten mit den unter H 0 zu erwartenden - der dicke Punkt bedeutet, dass die Randhäufigkeiten zu nehmen sind: PG χ 2 = k ∑ i=1 l ∑ j=1 (n ij − ˜ n ij ) 2 ˜ n ij , mit ˜ n ij = n i• · n •j n Wenn H 0 gilt, dann ist die Prüfgröße approximativ χ 2 -verteilt mit den Freiheitsgraden (k − 1) · (l − 1), wobei k und l die Anzahl Ausprägungen in den beiden Dimensionen sind. <?page no="99"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 87 — le-tex Teil II Inferenzstatistik 7.2. Der χ 2 -Unabhängigkeitstest 87 In unserem Fall ergibt sich als Prüfgröße 12.56 - rechnen Sie gerne einmal nach. Diese Prüfgröße könnte nun z. B. mit 95 % Punkt der χ 2 -Verteilung mit Parameter 4 verglichen werden, χ 2 0.95; 4 = 9.5 mit dem Ergebnis, dass wir H 0 ablehnen. Mit einer Software können wir den aussagekräftigeren p-Wert berechnen. 7.2.2 SPSS - χ 2 -Unabhängigkeitstest Die Daten müssen bei SPSS immer in der üblichen Form vorliegen. Jede Zeile ist ein so genannter Datensatz, während die Spalten die sogenannten Felder bzw. die Variablen oder Merkmale sind. In jeder Zeile stehen also die Merkmalsausprägungen zu einem Objekt, einer Person. Die folgende Abbildung zeigt die Daten und den Menüpunkt zur Erstellung der Kreuztabelle: Abbildung 7.1: TITANIC-Daten - Kontingenztabelle Menüpunkt <?page no="100"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 88 — le-tex 88 Kapitel 7. Der Zweistichprobenfall Wenn sich der Dialog öffnet, wählen Sie als Zeilenmerkmal das Geschlecht, als Gruppierungsvariable. Unter Zellen können Sie auswählen, was in den Zellen der Tabelle angezeigt werden soll. Standardmäßig die beobachteten Häufigkeiten. Sie können z. B. die erwarteten hinzufügen. Unter Statistiken können Sie dann Chiquadrat auswählen, das ist unser Test. Abbildung 7.2: TITANIC-Daten - Kontingenztabelle-Dialog SPSS stellt die Kontingenztabelle sehr kompakt dar, man sollte nicht zu viele Einträge auf einmal in den Zellen zulassen: Abbildung 7.3: TITANIC-Daten - Kontingenztabelle Wie man sieht, rechnet SPSS dieselbe erwartete Anzahl aus, nämlich 3.6 männliche Studenten müssten unter Unabhängigkeit den Film sehr gut finden. <?page no="101"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 89 — le-tex Teil II Inferenzstatistik 7.3. Lagetest verbunden 89 Der Output für den Chiquadrat-Unabhängigkeitstest finden Sie in der 1. Zeile des entsprechenden Outputs: Abbildung 7.4: TITANIC-Daten - Chiquadrat-Test Den Wert der Prüfgröße kennen wir bereits, 12.56, ebenso die Anzahl Freiheitsgrade, 4. Der p-Wert steht in der letzten Spalte. Er ist mit 0.014 sehr klein. Wir können also zum Signifikanzniveau 98.6 % die Hypothese der Unabhängigkeit ablehnen. Wir können uns recht sicher sein, dass männliche und weibliche Studierenden den Film unterschiedlich bewerten. Die Prüfgröße ist nur asymptotisch χ 2 -verteilt. Asymptotiken sind umso präziser, je größer die dahinter stehenden Werte sind, in diesem Fall die unter H 0 erwarteten Häufigkeiten. Diese sollten mindestens 5 betragen. So ist der Hinweis von SPSS im Output zu verstehen. 7.3 Lagetest verbunden 7.3.1 Das Konzept Im verbundenen Zweistichprobenproblem haben wir zu jedem Merkmalsträger genau zwei Merkmalsausprägungen. Dies könnte man als Vorher-Nachher-Analyse bezeichnen (vgl. Seite 83). Da die Stichproben über den Merkmalsträger verbunden sind, ist es meist möglich Differenzen D zu bilden. Gibt es keinen Lageunterschied, dann sollten die Differenzen zufällig und dicht um Null streuen. Damit sind wir im Grunde im Einstichprobenproblem angelangt, denn wir können D mit den dort kennengelernten Methoden auf die Lage Null untersuchen. Es ist nun eine Frage der Annahmen, welchen Test wir verwenden können. Wenn wir annehmen können, dass die Daten einer Normalverteilung folgen, dann können wir den t-Test durchführen. Ist das nicht gegeben, steht uns der Vorzeichentest zur Verfügung. <?page no="102"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 90 — le-tex 90 Kapitel 7. Der Zweistichprobenfall 7.3.2 SPSS - Lagetest verbunden Den Vorzeichentest bietet SPSS nicht als verbundenen Test an. Hier sind also Differenzen zu bilden. Wir haben das bereits auf den Seiten 64 ffdurchgeführt. Den verbundenen t-Test haben wir als Differenzversion und damit als Einstichprobentest ebenfalls bereits auf der Seite 58 durchgeführt. SPSS bietet aber den verbundenen t-Test an. Die folgenden Abbildungen demonstrieren das Vorgehen, das Ergebnis ist natürlich dasselbe als würden wir Differenzen bilden: Abbildung 7.5: Reichweitendaten - t-Test verbunden Menü Abbildung 7.6: Reichweitendaten - t-Test verbunden Dialog Vergleichen Sie das Ergebnis einmal mit dem auf der Seite 59. Es ist etwas andes dargestellt, die Zahlen sind identisch. <?page no="103"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 91 — le-tex Teil II Inferenzstatistik 7.3. Lagetest verbunden 91 Abbildung 7.7: Reichweitendaten - t-Test verbunden Ergebnis <?page no="104"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 92 — le-tex 92 Kapitel 7. Der Zweistichprobenfall 7.4 Lagetest unverbunden 7.4.1 Das Konzept Im unverbundenen Fall sind wir im Grunde an den gleichen Fragestellungen interessiert. Der Unterschied ist nun, dass die beiden Stichproben sich auf verschiedene Gruppen beziehen. Exkurs zur Motivation: PISA-Studie Im Rahmen der PISA-Studie wurde auch der Zeitaufwand der Schüler für Hausaufgaben während der Schulzeit erhoben. Dort wird unterschieden zwischen sehr geringem, geringem, mittlerem, großem und sehr großem Aufwand. Wir fassen die Schulen mit sehr geringem und geringem Aufwand und die Schulen mit großem und sehr großem Aufwand zusammen. Somit liegen drei Gruppen vor. Von diesen betrachten wir zunächst die Schulen mit geringem und die mit hohem Zeitaufwand. Wir wollen untersuchen, ob sich die Punkte im Bereich Lesekompetenz zwischen den Schulen mit geringem Aufwand und den Schulen mit hohem Aufwand unterscheiden. In den 10 Schulen mit geringem Aufwand wurden folgende Punktezahlen erzielt: 416 498 453 441 501 502 494 492 411 426 In den 12 Schulen mit hohem Aufwand wurden folgende Punktezahlen erzielt: 514 523 527 487 458 482 489 462 493 490 515 495 (Quelle: Deutsches PISA-Konsortium (Hrsg.)) Sei X die Punktezahl einer Schule mit geringem Aufwand und Y die Punktezahl einer Schule mit hohem Aufwand, so lautet das zweiseitige Testproblem: H 0 : E(X) = E(Y ) gegen H 1 : E(X) 6= E(Y ) Es werden N = m+n Personen bzw. Objekte zufällig ausgewählt und dann zufällig auf eine Gruppe mit m Personen bzw. Objekten und eine Gruppe mit n Personen bzw. Objekten aufgeteilt. Auf die Personen bzw. Objekte der ersten Gruppe wird dann das erste Verfahren und auf die Personen bzw. Objekte der zweiten Gruppe das zweite Verfahren angewendet. Die den Beobachtungen x 1 , . . . , x m der ersten Stichprobe zugrundeliegenden Zufallsvariablen sind X 1 , . . . , X m und die den Beobachtungen y 1 , . . . , y n der zweiten Stichprobe zugrundeliegenden Zufallsvariablen sind Y 1 , . . . , Y n . Wir gehen davon aus, dass die Zufallsvariablen X 1 , . . . , X m , Y 1 , . . . , Y n unabhängig sind. <?page no="105"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 93 — le-tex Teil II Inferenzstatistik 7.4. Lagetest unverbunden 93 7.4.2 t-Test Die klassische Annahme ist, dass die Zufallsvariablen X 1 , . . . , X m normalverteilt sind mit den Parametern µ X und σ 2 X und die Zufallsvariablen Y 1 , . . . , Y n normalverteilt mit den Parametern µ Y und σ 2 Y sind. Das zweiseitige Testproblem lautet dann H 0 : µ X = µ Y gegen µ X 6= µ Y Zunächst unterstellen wir, dass σ 2 x = σ 2 y = σ 2 gilt. Die Varianz ist allerdings (wie immer beim t-Test) unbekannt, sie muss abgeschätzt werden. Dann ergibt sich die Teststatistik - wieder ist der Unterschied entscheidend. Diesmal nicht zwischen Empirie und Theorie, sondern zwischen zwei Stichproben: T = ¯ x − ¯ y ̂ σ √ 1 m + 1 n mit ̂ σ 2 = 1 m + n − 2   m ∑ i=1 (x i − ¯ x) 2 + n ∑ j=1 (y j − ¯ y) 2   = m − 1 m + n − 2 · s 2 x + n − 1 m + n − 2 · s 2 y Die Schätzfunktion ist eine Linearkombination der Stichprobenvarianzen. Bedenken Sie, dass gilt ¯ X − ¯ Y ∼ N ( µ X − µ Y , σ 2 m + σ 2 n ) Die nächsten Schritte kennen wir: Wenn H 0 gilt, dann ist die Prüfgröße t-verteilt mit Parameter m + n − 2 - wir schätzen zwei Parameter diesmal, 2-mal µ. Der Wert der Prüfgröße ist zu ermitteln, sei X die Punktezahl mit geringem Aufwand: T = 436.4 − 494.6 30.15 · √ 1 10 + 1 12 = −2.42 Diesen Wert können wir nun mit dem 97.5 %-Punkt der entsprechenden t-Verteilung vergleichen - genaugenommen müssen wir den 2.5 %-Punkt nehmen oder den absoluten Wert von T : t 20; 0.975 = 2.09 → t 20; 0.025 = −2.09 <?page no="106"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 94 — le-tex 94 Kapitel 7. Der Zweistichprobenfall In jedem Fall stellen wir fest, dass T im kritischen Bereich liegt. Wir lehnen die Hypothese ab. Es gibt einen signifikanten Unterschied zwischen den Schulen. Im SPSS-Kapitel wird wie üblich mit dem p-Wert argumentiert. 7.4.3 Varianztest Eine wichtige Annahme ist die der Varianzgleichheit. Ist diese Annahme gerechtfertigt? Die Frage nach der Gleichheit der Varianz von zwei Stichproben kann mit Hilfe des F-Tests beantwortet werden. Das Testproblem lautet: H 0 : σ 2 X = σ 2 y gegen H 0 : σ 2 X 6= σ 2 y Es liegt nahe, die Stichprobenvarianzen zu vergleichen: s 2 x = 1 m − 1 m ∑ i=1 (x i − ¯ x) 2 bzw. s 2 y = 1 n − 1 n ∑ j=1 (y j − ¯ y) 2 Die Teststatistik des F-Tests ist gerade der Quotient dieser beiden Stichprobenvarianzen: F = s 2 x s 2 y H 0 ∼ F m−1,n−1 Unter H 0 ist die Teststatistik F F -verteilt mit m − 1 und n − 1 Freiheitsgraden. Das Verhältnis von zwei Chiquadratverteilten, die durch die FG dividiert werden, ist F-verteilt. Die Summe von n quadrierten (unabhängigen) Standardnormalverteilten ist chiquadratverteilt mit n FG. Hinweis: In der Stichprobenvarianz werden zwar n Terme aufsummiert, aber die sind nicht unabhängig, da ¯ x sich ergibt, es können nur n − 1 frei gewählt werden! Die Prüfgröße ist also F = 1428.5 483.9 = 2.95 Der 95 %-Punkt der entsprechenden F-Verteilung ist 3.1. Wie man sieht ein recht knappes Ergebnis. Aber wir können die Hypothese der Varianzgleichheit nicht ablehnen. Die folgende Graphik verdeutlicht einmal die Situation, auch warum es nur auf der rechten Seite einen Ablehnbereich geben kann - Dichte der F-Verteilung mit F und Quantil, knappe Entscheidung: <?page no="107"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 95 — le-tex Teil II Inferenzstatistik 7.4. Lagetest unverbunden 95 Dichte 0 1 2 3 4 0.0 0.2 0.4 0.6 Dichte der F−Verteilung mit Parametern 11 und 9 95%−Punkt PG Abbildung 7.8: F-Test - F-Verteilung Noch ein Hinweis: es gibt verschiedene Möglichkeiten, auf Varianzgleichheit zu testen. Der F-Test benötigt (streng genommen) die Normalverteilung der Daten. Levene’s benötigt diese Annahme so nicht. Die Prüfgröße behandelt nicht (nur) die Varianz der Beobachtungen, sondern auch einer Transformation. Es wird berücksichtigt, wie weit die Gruppenmittel vom Gesamtmittel entfernt sind, ist es der Median, so spricht man vom Brown-Forsythe-Test. Die Hypothesen und die Interpretation der p-Werte sind natürlich identisch. <?page no="108"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 96 — le-tex 96 Kapitel 7. Der Zweistichprobenfall 7.4.4 Welch-Test Wenn die Annahme der Varianzgleichheit nun nicht gegeben ist, dann gilt ¯ X − ¯ Y ∼ N ( µ X − µ Y , σ 2 X m + σ 2 y n ) Daraus ergibt sich die folgende Prüfgröße: T ′ = ¯ x − ¯ y √ s 2 x m + s 2 y n Diese ist dann unter H 0 nicht mehr t-verteilt Durch ein Anpassen der Freiheitsgrade, kann aber eine approximative t-Verteilung erreicht werden: df = ( s 2 x m + s 2 y n ) 2 1 m−1 ( s 2 x m ) 2 + 1 n−1 ( s 2 y n ) 2 Das sieht kompliziert aus, ist es aber nicht: Die Rechenarbeit nimmt Ihnen Ihr Computer ab. Der Welch-Test (nach B. L. Welch, 1947) ist also ein approximierter t-Test für unverbundene Stichproben bei denen die Annahme der Varianzgleichheit nicht zutrifft. Dadurch, dass wir die Annahme der Varianzgleichheit (= Homoskedastizität) nicht mehr aufrecht halten können, verlieren wir Freiheitsgrade, die Quantile wandern sozusagen ein Stück nach außen und somit verlieren wir auch Signifikanz. Wir werden das beim SPSS-Output gut beobachten können. Das Gegenteil von Homoskedastizität nennt man übrigens Heteroskedastizität. <?page no="109"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 97 — le-tex Teil II Inferenzstatistik 7.4. Lagetest unverbunden 97 7.4.5 SPSS - das unverbundene Zweistichprobenproblem Wir haben ja bereits gesehen, dass die Hypothese der Lagegleichheit (also kein Wirkung auf die PISA-Punkte durch den unterschiedlichen Hausaufgabeneinsatz) ablehnen können. Ferner haben wir gesehen, dass die Hypothese der Varianzgleichheit nur knapp aufrecht erhalten werden kann. Dazu sollten wir uns einen vergleichenden Box-Plot ansehen. Die folgende Abbildung zeigt zunächst, wie die Daten in SPSS einzugeben sind (mit einer Gruppierungsvariable) und wie der Box-Plot auszuwählen ist (Graphik -> einfache Box-Plot): Abbildung 7.9: Vergleichender Box-Plot - Dialog Der vergleichende Box-Plot gibt uns gute Hinweise auf beide Fragestellungen. Die Varianzgleichheit ist in der Tat fraglich, die beiden Boxen sehen ziemlich unterschiedlich aus. Es gibt offensichtlich einen Lageunterschied, der durch die starke Streuung der Daten in der 1. Gruppe (=X) aber überlagert wird. <?page no="110"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 98 — le-tex 98 Kapitel 7. Der Zweistichprobenfall Abbildung 7.10: Vergleichender Box-Plot SPSS führt mit unter einem Menüpunkt alle drei eben kennengelernten Tests durch. Der folgende Dialog ergibt das Ergebnis (Analysieren-> Mittelwerte vergleichen-> t-Test bei unabhängigen Stichproben): 15 Abbildung 7.11: t-Test bei unverbundenen Stichproben - Dialog Das Ergebnis ist umfangreich. Wir gehen es Zeile für Zeile durch: 15 Probieren Sie im genannten Menü auch einmal den Punkt Mittelwerte aus. <?page no="111"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 99 — le-tex Teil II Inferenzstatistik 7.4. Lagetest unverbunden 99 Abbildung 7.12: t-Test bei unverbundenen Stichproben <?page no="112"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 100 — le-tex 100 Kapitel 7. Der Zweistichprobenfall Der erste Kasten gibt uns Maßzahlen zur Lage und Streuung der Daten in den beiden Gruppen. Es wird bestätigt, was wir im Box-Plot bereits gesehen haben. Nun zum eigentlichen Test. Die ersten beiden Spalten spiegeln das Ergebnis des Levene-Tests auf Varianzgleichheit wider. Im Grunde ist nur die Zahl unter Signifikanz bedeutsam. Das ist die Überschreitungswahrscheinlichkeit, der p-Wert. Er ist mit 0.005 sehr klein. Wir sind gezwungen, die Hypothese der Varianzgleichheit abzulehnen. Wir bekommen ein etwas anderes Ergebnis als beim F-Test, wobei es dort auch schon eher knapp war. Damit ist für uns die zweite Zeile der Tabelle relevant, Varianzen sind nicht gleich. Hier finden Sie das Ergebnis für den Welch-Test. Wir wollen damit beginnen. Der Wert der Prüfgröße ist mit -2.304 etwas kleiner (absolut) als beim t-Test. Auch die Freiheitsgrade (df = degrees of freedom) sind mit 13.9 nun deutlich geringer als die 20 vorher. All das führt dazu, dass der Unterschied nicht mehr so signifikant ist, was sich in den p-Werten widerspiegelt. Beim Welch-Test liegt dieser bei 0.037, beim t-Test ist er mit 0.025 deutlich kleiner und damit signifikanter. Wir haben, wie angekündigt, Signifikanz eingebüßt. Der Welch-Test erlaubt uns das Ablehnen von H 0 zum Signifikanzniveau von 96.3 %. Hätten wir Homoskedastizität dann könnten wir zum Niveau 97.5 % ablehnen. Die mittleren Differenzen müssen natürlich identisch sein, da es sich um dieselben Daten handelt. Der Standardfehler der (mittleren) Differenzen ist beim Welch-Test wieder etwas größer - wir verlieren an Präzision. Die letzten beiden Spalten geben das Konfidenzintervall an. Also das Intervall, welches die wahre Varianz mit 95%iger Sicherheit überdeckt. Wie man sieht, ist das Welch Intervall deutlich größer. <?page no="113"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 101 — le-tex Teil II Inferenzstatistik Kapitel 8 Der c-Stichprobenfall Im Zweistichprobenproblem soll überprüft werden, ob sich zwei Behandlungen hinsichtlich ihrer Wirkung unterscheiden. Sollen mehr als zwei Behandlungen verglichen werden, so spricht man vom c-Stichprobenproblem. Auch hier kann man auf zwei Arten vorgehen: Man kann N = n 1 +. . .+n c Objekte auswählen, diese auf c Gruppen der Umfänge n i , i = 1, . . . , c aufteilen und alle Objekte einer Gruppe mit einer der Behandlungen versehen. Man spricht in diesem Fall vom unverbundenen c-Stichprobenproblem Die andere Vorgehensweise besteht darin, n Blöcke zu bilden, die aus jeweils c ähnlichen Objekten bestehen. Jede Behandlung wird dann genau einem Objekt innerhalb eines Blockes zugeordnet, so dass innerhalb eines Blockes alle Behandlungen vorliegen. Dabei kann ein Block natürlich ein einzelnes Objekt sein, zum Beispiel eine Person, der die Behandlungen zu unterschiedlichen Zeitpunkten zugeordnet werden. In diesem Fall spricht man vom verbundenen c-Stichprobenproblem. 8.1 Einfaktorielle univariate ANOVA 8.1.1 Das Konzept Exkurs zur Motivation: PISA-Studie Im Rahmen der PISA-Studie wurde auch der Zeitaufwand der Schüler für Hausaufgaben erhoben (vgl. S. 92). Dort wird unterschieden zwischen sehr geringem, geringem, mittlerem, großem und sehr großem Aufwand. Wir fassen die Schulen mit sehr geringem und geringem Aufwand und die Länder mit großem und sehr großem Aufwand zusammen. Somit liegen drei Gruppen vor. Die Gruppe der Schulen mit wenig Zeitaufwand nennen wir im Folgenden Gruppe 1, <?page no="114"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 102 — le-tex 102 Kapitel 8. Der c-Stichprobenfall die Gruppe der Schulen mit mittlerem Zeitaufwand Gruppe 2 und die Gruppe der Schulen mit großem Zeitaufwand Gruppe 3. Wir wollen vergleichen, ob sich die Verteilung des Merkmals „mathematische Grundbildung“ in den drei Gruppen unterscheidet. Die Beobachtungen in den einzelnen Gruppen sind: Gruppe 1: 416 498 453 441 501 502 494 492 411 426 Gruppe 2: 428 514 467 456 515 516 507 504 426 438 475 481 461 Gruppe 3: 514 523 527 487 458 482 489 462 493 490 515 495 Wird untersucht, ob sich die Verteilung eines Merkmals in mehreren Gruppen unterscheidet, so spricht man von univariater Varianzanalyse sowie einfaktorieller ANOVA (Analysis of Variance). Wir haben einen Faktor - die Gruppenzugehörigkeit. Der Faktor hat c = 3 > 2 Ausprägungen. Das univariate Merkmal sind die PISA-Punkte. Ausgangspunkt sind die Realisationen y ij der unabhängigen Zufallsvariablen Y ij , i = 1, . . . , c, j = 1, . . . , n i , die mit Erwartungswert µ i , i = 1, . . . , c und Varianz σ 2 normalverteilt sind. Die Erwartungswerte der Gruppen können sich also unterscheiden, während die Varianz identisch sein muss. Das kennen wir bereits vom t-Test aus dem letzten Kapitel. Wenn übrigens c = 2, dann sind wir beim t-Test. Dabei bezieht sich der Index i auf die i-te Gruppe, während der Index j sich auf die j-te Beobachtung bezieht. In der i-ten Gruppe liegen also n i Beobachtungen vor. Die einzelnen Gruppen können unterschiedlich groß sein. Die Gesamtzahl aller Beobachtungen bezeichnen wir mit N . Es ist zu testen: H 0 : µ 1 = . . . = µ c gegen H 1 : µ i 6= µ j für mind. ein Paar (i, j) mit i = j Es liegt nahe, zur Überprüfung die Mittelwerte heranzuziehen: ¯ y i = 1 n i n i ∑ j=1 y ij ¯ y 1 = 463.4 , ¯ y 2 = 476 , ¯ y 3 = 494.6 Offensichtlich unterscheiden sich die Mittelwerte. Aber ist der Unterschied signifikant? Bei zwei Gruppen könnten wir den t-Test anwenden, bei c = 3 Gruppen geht das nicht so einfach. Wir könnten alle Paare bilden und die Vergleiche durchführen, aber dann hätten wir keine globale Aussage. Und die Zahl der Paare wächst quadratisch. <?page no="115"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 103 — le-tex Teil II Inferenzstatistik 8.1. Einfaktorielle univariate ANOVA 103 Exkurs zur Motivation: Paare bilden Wie viele verschiedene Paarungen n kann man aus N verschiedenen Objekten bilden? Wir ziehen aus einer Urne mit N Elementen zwei ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge. Wenn wir zwei Elemente ziehen, können wir das auf so viele Arten tun: n = N · (N − 1) Nun müssen wir noch die Reihenfolge entfernen. Zwei Objekte lassen sich auf 2 · 1 Art anordnen. Daher gilt: n = N · (N − 1) 2 Und das wächst quadratisch. Bei drei Gruppen gibt es daher so viele Vergleich: n = 3 · (3 − 1) 2 = 3 Das nennt man auch den Binomialkoeffizienten (N über 2): n = ( N 2 ) Der Trick: Wir fassen die Mittelwerte der einzelnen Gruppen als Stichprobe auf, und wir prüfen, wie stark diese um das Gesamtmittel streuen: ¯ y = 1 N c ∑ i=1 n i ∑ j=1 y ij Es liegt nahe, die Streuung der Mittelwerte ¯ y i um das Gesamtmittel ¯ y folgendermaßen zu bestimmen - als SS B bezeichnet man die Streuung zwischen den Gruppen (B für between): SS B = c ∑ i=1 n i · (¯ y i − ¯ y) 2 Offensichtlich gilt, je größer die Streuung zwischen den Gruppen ist, desto mehr spricht das gegen die Hypothese der identischen Mittelwerte, also der Nicht-Wirkung der Behandlung oder des Nicht vorhandenen Einflusses der Gruppen. SS B ist aber noch keine geeignete Teststatistik. Falls die Streuung innerhalb der Gruppen recht groß ist, kann SS B nicht mehr angemessen interpretiert werden, da der Unterschied bei den mittleren allein durch die hohe innere Varianz erklärt werden kann. <?page no="116"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 104 — le-tex 104 Kapitel 8. Der c-Stichprobenfall Wir müssen also neben der Streuung zwischen den Gruppen die Streuung innerhalb der Gruppen berücksichtigen. Die Streuung innerhalb der i-ten Gruppe messen wir durch n i ∑ j=1 (y ij − ¯ y i ) 2 Summieren wir über alle Gruppen, so erhalten wir - SS W heißt Streuung innerhalb der Gruppen (W für within): SS W = c ∑ i=1 n i ∑ j=1 (y ij − ¯ y i ) 2 Die Gesamtstreuung unseres Merkmals ist SS T : SS T = c ∑ i=1 n i ∑ j=1 (y ij − ¯ y) 2 = SS B + SS W Das nennt man auch Streuungszerlegung. Die Varianzanalyse (=Analysis of Variance, also ANOVA) lebt davon, dass man die Streuung eines Merkmals in geeignete Teile zerlegen kann. Warum streuen die beobachteten PISA-Punkte so stark? Vielleicht liegt es daran, dass sie aus drei unterschiedlichen Gruppen stammen. Die Gruppenzugehörigkeit ist damit das erklärende Merkmal. Also ist SS B die erklärte Streuung. Die können wir erklären, da sie ja durch die Gruppenzugehörigkeit begründet ist. Was wir nicht erklären können ist die SS W . Wir wissen nicht warum z. B. in Gruppe 1 die Punkte noch so unterschiedlich sind. Zufall? Gibt es andere Gründe? Vielleicht wird ein zweiter Faktor benötigt. Das wäre dann die zweifaktorielle ANOVA. SS W ist also die nicht-erklärte oder Residualstreuung. Ohne auf das Kapitel Regression vorgreifen zu wollen, erkennt man, dass die Regression auch eine ANOVA- Methode ist. In der Regel mit einem stetigen erklärenden Merkmal. Beim ANOVA- Modell hier ist das erklärende Merkmal ein Faktor. Nun haben wir alle Größen beisammen. Jetzt muss noch die geeignete Teststatistik daraus gebildet werden. Dazu wollen wir die mittleren Streuungen ausrechnen: MSS B = SS B c − 1 bzw. MSS W = SS W N − c Der Quotient aus den beiden Größen ist F-verteilt, so dass wir folgenden Prüfgröße für den F-Test haben: F = MSS B MSS W H 0 ∼ F c−1,N−c <?page no="117"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 105 — le-tex Teil II Inferenzstatistik 8.1. Einfaktorielle univariate ANOVA 105 Natürlich gilt, wie üblich, je größer der Wert der Prüfgröße, desto mehr spricht es gegen die Hypothese. Wir könnten, wie bei jedem Test, die Prüfgröße mit dem 95 %-Punkt der entsprechenden F-Verteilung vergleichen. Wie schon beim Varianztest gibt es auch hier nur einen Ablehnbereich. Wir werden uns stattdessen gleich den Output der Software anschauen. 8.1.2 SPSS - einfaktorielle ANOVA Zunächst lohnt sich ein Blick auf den vergleichenden Box-Plot: Abbildung 8.1: Vergleichender Box-Plot Man sieht wieder deutlich, dass es einen Lageunterschied gibt. Aber auch die unterschiedlichen Streuungen sind gut erkennbar. Die einfaktorielle ANOVA können Sie über den Menüpunkt Analysieren-> Mittelwerte vergleichen-> Einfaktorielle Varianzanalyse ansteuern - wählen Sie unter dem Punkt post hoc auch einmal den Eintrag LSD (Least Significant Difference) aus: <?page no="118"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 106 — le-tex 106 Kapitel 8. Der c-Stichprobenfall Abbildung 8.2: Einfaktorielle ANOVA - Dialog Es werden zwei verschiedene Outputs generiert. Fangen wir mit der ANOVA an: Abbildung 8.3: Einfaktorielle ANOVA Eine ANOVA-Tabelle ist im Prinzip immer gleich aufgebaut. Sie informiert uns über die Verhältnisse von erklärter Streuung zu nicht erklärter Streuung des Merkmals, das wir zum Aufzeigen möglicher Gruppenunterschiede verwendet haben, hier PISA. Die erste Spalte ist daher die quadrierte Summe der Streuungen: erklärte, nicht-erklärte (=Residual) und gesamt. Die ersten beiden Zahlen ergeben addiert natürlich gerade die Gesamtsumme. Als nächstes die Freiheitsgrade. Die Streuung zwischen den Stichproben setzt sich aus c Summanden zusammen, von denen aber nur c − 1 frei wählen kann, aus der letzten Stichprobe ergibt sich der Mittelwert. Die Streuung innerhalb der Stichproben setzt sich aus N Summanden zusammen. Es sind aber N − c frei wählbar, da sich in jeder Gruppe der letzte Mittelwert wieder ergibt. Somit ergeben sich (c − 1) + (N − c) = N − 1 Freiheitsgrade. Der Stichprobenumfang beträgt N = 35 und wir haben c = 3 Gruppen. Den Anteil der erklärten Streuung zu betrachten, macht an dieser Stelle nicht viel Sinn, er ist klein. Die Streuung zwischen den Gruppen (erklärt) kann natürlich i. d. R. nicht so einen großen Anteil ausmachen wie die Streuung innerhalb (=nicht-erklärt) der Gruppen. Erstere setzt sich aus nur drei Summanden zusam- <?page no="119"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 107 — le-tex Teil II Inferenzstatistik 8.1. Einfaktorielle univariate ANOVA 107 men. Innerhalb der Gruppen aber wirkt der gesamte Stichprobenumfang. Daher müssen die Streuungen über die Freiheitsgrade normiert werden. Das ist die Spalte Mittel der Quadrate. In den Zähler kommt nun die erklärte mittlere Streuung. Im Nenner steht die mittlere Residual-Streuung. Wie man sieht, gilt dann auch hier, je größer die Prüfgröße desto eher bekommen wir ein signifikantes Ergebnis. Die Prüfgröße beträgt 2.77, die Überschreitungswahrscheinlichkeit ist mit 0.077 zwar klein, aber nicht so klein, dass wir H 0 ablehnen können. Woran liegt das? Es könnte an den starken Streuungen innerhalb der Gruppen liegen. Dies deutet oft darauf hin, dass wir einen zweiten erklärenden Faktor benötigen. Schauen wir uns zunächst das Ergebnis der Post-hoc-Analyse an - im Grunde werden für alle Paarungen die t-Tests durchgeführt: Abbildung 8.4: Einfaktorielle ANOVA - post hoc Lassen Sie uns nur in die Spalte Signifikanz schauen: Es gibt lediglich ein signifikantes Ergebnis zwischen Gruppe 1 und 3. Oder 3 und 1. SPSS baut das gespiegelt auf, so dass alle Paarungen doppelt vorkommen, damit man auch die Richtung des Zusammenhangs gut sehen kann. Im Dialog von eben kann unter Optionen noch der Eintrag Welch gewählt werden. Das kennen wir bereits. Hier ist die Annahme der Varianzgleichheit nicht mehr gegeben. Hier der Output: Abbildung 8.5: Einfaktorielle ANOVA - Welch <?page no="120"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 108 — le-tex 108 Kapitel 8. Der c-Stichprobenfall Mit einem p-Wert von 0.067 ist das Ergebnis etwas signifikanter. Allerdings führt es immer noch nicht zu einem Ablehnen der Hypothese. Wir müssen einen Schritt weiter gehen und einen zweiten erklärenden Faktor finden. 8.2 Zweifaktorielle univariate ANOVA 8.2.1 Das Konzept Vor allem in der ersten Gruppe ist die Streuung (innerhalb) auffallend groß. Diese Gruppe scheint in sich nicht sehr geschlossen zu sein, sie ist nicht homogen, sondern heterogen in Bezug auf das Merkmal. Aber darum geht es gerade. Die Ausprägungen des Faktors sollen uns homogene Gruppen bescheren, die sich ähnlich verhalten, was die Ausprägungen des Merkmals betrifft. Mindestens in der 1. Gruppe trifft das nicht zu. Es könnte sein, dass sich die Schulen eben nicht homogen verhalten, weil noch weitere Strukturen zu Grunde liegen, die die PISA-Punkte beeinflussen. Wir müssen versuchen, die Residualstreuung zu verkleinern, indem wir einen weiteren erklärenden Faktor finden. Dieser könnte z. B. das durchschnittliche Bildungsniveau der Haushalte im Einzugsgebiet der jeweiligen Schule sein. Nehmen wir an, wir haben zwei Ausprägungen - niedrig bis mittel sowie mittel bis hoch. D. h. wir wissen zu jeder PISA-Punktezahl (Schule) nun zwei Dinge: Wie sieht es mit der Hausaufgabenbetreuung aus (dreistufiger Faktor) und wie ist das Bildungsniveau im Einzugsgebiet der Schule (zweistufiger Faktor). An dieser Stelle soll gar nicht noch einmal auf die Mathematik und das konkrete Aussehen der Prüfgröße eingegangen werden. Wichtig ist, wir haben einen zweiten Faktor gefunden, der ggf. signifikant die Residualstreuung weiter zerlegen kann in erklärte und wieder eine Residualstreuung, die aber kleiner ist. Noch ein Hinweis sei gemacht. Die beiden Faktoren können (getrennte) Einzeleffekte aufweisen oder sogenannte Wechselwirkungen. Also z. B. kann es eine besonders starke Rolle spielen, wenn keine Hausaufgabenbetreuung vorliegt und die Schulen in Haushalten mit geringem Bildungsniveau liegen. Während das Bildungsniveau vielleicht nicht ganz so wichtig ist, wenn Hausaufgabenbetreuung sehr stark umgesetzt ist, vielleicht. Vielleicht reicht das auch noch nicht aus. 8.2.2 SPSS - zweifaktorielle ANOVA Schauen wir uns doch zunächst einmal einen erweiterten Box-Plot an. Wählen Sie dazu den gruppierten Box-Plot unter Graphik-> Diagrammerstellung aus. Je nachdem, wie Sie die beiden Faktoren platzieren, entstehen diese beiden Box-Plots. Man kann sehr deutlich sehen, wie groß der Einfluss des Bildungsniveaus vor allem bei Schulen mit geringem Hausaufgabenaufwand ist. <?page no="121"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 109 — le-tex Teil II Inferenzstatistik 8.2. Zweifaktorielle univariate ANOVA 109 Abbildung 8.6: Zweifaktorielle ANOVA - Box-Plot Abbildung 8.7: Zweifaktorielle ANOVA - noch ein Box-Plot <?page no="122"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 110 — le-tex 110 Kapitel 8. Der c-Stichprobenfall Um die mehrfaktorielle und somit auch die zweifaktorielle univariate ANOVA durchzuführen, müssen Sie folgenden Menüpunkt auswählen Analysieren-> Allgemeines lineares Modell-> Univariat: Abbildung 8.8: Zweifaktorielle ANOVA - Dialog Es sollen erst mal keine vom Standard abweichenden Einstellungen vorgenommen werden. SPSS setzt grundsätzlich ein sogenanntes gesättigtes Modell um (Modell). Das bedeutet lediglich, dass sämtliche Haupteffekte und Wechselwirkungen durchgeführt werden. Abbildung 8.9: Zweifaktorielle ANOVA <?page no="123"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 111 — le-tex Teil II Inferenzstatistik 8.2. Zweifaktorielle univariate ANOVA 111 SPSS liefert uns in der ANOVA-Tabelle alle Informationen, die wir benötigen. Man kann gut erkennen, dass die beiden Haupteffekte nun sehr signifikant sind, genauso wie der Interaktionseffekt. Interaktionen werden üblicherweise durch eine multiplikative Verknüpfung dargestellt. Unter Optionen können Sie sich noch Mittelwerte für die verschiedenen Faktorstufen anzeigen lassen: Abbildung 8.10: Zweifaktorielle ANOVA - Mittelwerte der Faktorstufen Es ist immer wichtig, sich Graphiken und numerische Zusammenfassungen Ihrer Daten anzuschauen. In diesem Fall bekommen Sie auch noch alle Konfidenzintervalle zu jeder Faktor- und Interaktionsstufe. Diese lassen sich sehr gut miteinander vergleichen. <?page no="124"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 112 — le-tex <?page no="125"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 113 — le-tex Teil II Inferenzstatistik Kapitel 9 Aufgaben Teil II 1. Die Firma MFSL stellte bis Anfang des Jahres audiophile CDs mit Goldbeschichtung her. Nachdem die Firma Konkurs anmelden musste, wurden diese CDs zu begehrten Sammlerstücken. Ein Statistiker beschließt, seine MFSL GOLD-CD von DARK SIDE OF THE MOON von PINK FLOYD in eBay zu versteigern. Um eine Vorstellung vom realisierbaren Preis zu erhalten, beobachtet er den Markt. In der zweiten Februarwoche wurden 9 CDs zu folgenden Höchstgeboten in Dollar ersteigert: 51 56 57 48 45 61 46 53 59 Der Statistiker will seine CD nur dann versteigern, wenn der erwartete Höchstpreis mehr als 50 Dollar beträgt. 2. Die Schmuckstücke an den Kleidungsstücken der Schoschonen sind rechteckig. Ein Forscher will nun untersuchen, ob diese Rechtecke nach dem goldenen Schnitt gefertigt wurden. Ein Rechteck weist den goldenen Schnitt auf, wenn gilt b l = l b + l wobei b die Länge der kürzeren und l die Länge der längeren Seite ist. Die Schoschonen hatten sicherlich eine Vorstellung von einem ästhetischen Verhältnis von Breite zu Länge bei den Rechtecken und wollten dieses Verhältnis auch erreichen. Aufgrund der Unvollkommenheit der Fertigung werden sie das im Einzelfall aber nicht immer erreicht haben. Die einzelnen Rechtecke streuen um diesen Zielwert. Es soll überprüft werden, ob dieser Wert 0.618 ist. Hierzu bestimmt der Forscher von 20 rechteckigen Schmuckstücken der Schoschonen das Verhältnis von b zu l. Es ergaben sich folgende Zahlen: <?page no="126"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 114 — le-tex 114 Kapitel 9. Aufgaben Teil II 0.693 0.662 0.690 0.606 0.570 0.749 0.672 0.628 0.609 0.844 0.654 0.615 0.668 0.601 0.576 0.670 0.606 0.611 0.553 0.933 (a) Zeigen Sie, dass beim goldenen Schnitt gilt: b/ l = 0.618. Verwenden Sie dazu die eben vorgestellte Definition. (b) Stellen Sie angemessene Hypothesenkonstellation auf. (c) Überprüfen Sie die Hypothese mit Hilfe geeigneter statistischer Tests. Begründen Sie Ihr Vorgehen. 3. Ein Student bestimmt an 25 Tagen die Wartezeit in Sekunden auf die U-Bahn. Er erhält folgende Werte 474 513 360 10 405 12 147 89 287 586 524 412 90 64 355 129 467 186 450 110 325 464 444 342 125 (a) Bilden Sie fünf gleich große Klassen. Die Untergrenze der i-ten Klasse ist 120˙ (i − 1) und die Obergrenze 120 · i. (b) Bestimmen Sie die Häufigkeiten. (c) Testen Sie, ob die Wartezeit im Intervall [0, 600] gleichverteilt ist. 4. Im ersten ZDF-Politbarometer im Februar 2003 wurden 1308 Personen befragt, welche Partei sie wählen würden, wenn am nächsten Sonntag Bundestagswahl wäre. Von den 1308 Personen würden 288 SPD wählen. Was bedeutet das? Versuchen Sie einmal ein Konfidenzintervall für den wahren Parameter p mit Hilfe des zentralen Grenzwertsatzes aufzustellen. 5. Es soll überprüft werden, ob die Körpergröße von 186 männlichen Studienanfängern normalverteilt ist. Verwenden Sie dazu die Daten in Tabelle 9.1. (a) Verifizieren Sie die erwarteten Häufigkeiten, die in der Tabelle angegeben sind. Schätzen Sie dazu die notwendigen Parameter der Normalverteilung aus den klassierten Daten. (b) Führen Sie einen geeigneten Test durch, um die Normalverteilungsannahme zu prüfen. <?page no="127"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 115 — le-tex Teil II Inferenzstatistik Kapitel 9. Aufgaben Teil II 115 Alter n i ˜ n i ni − ˜ n i (ni − ˜ n i ) 2 (ni − ˜ n i ) 2 / ˜ n i von 165 bis unter 170 5 4.24 0.76 0.5776 0.136 von 170 bis unter 175 12 14.51 -2.51 6.3001 0.434 von 175 bis unter 180 32 35.34 -3.34 11.1556 0.316 von 180 bis unter 185 65 51.71 13.29 176.6241 3.416 von 185 bis unter 190 35 45.94 -10.94 119.6836 2.605 von 190 bis unter 195 25 24.55 0.45 0.2025 0.008 von 195 bis unter 200 12 9.67 2.33 5.4289 0.561 Tabelle 9.1: Häufigkeitstabelle der Körpergröße der Männer 6. Überprüfen Sie, ob die Rechtecke der Schoschonen (vgl. Aufgabe 2 von Seite 113) aus einer Normalverteilung stammen. Bilden Sie vier Klassen und zwar so, dass in jeder Klasse die gleichen Häufigkeiten erwartet werden. 7. In der Süddeutschen Zeitung vom 1.7.2013 wird über eine Studie berichtet, in der die Nebenwirkungen von Hormonbehandlungen untersucht wurden. Hier findet sich folgender Text Insgesamt hatten in der Studie 8506 Frauen zwischen 50 und 80 Hormone genommen, weitere 8102 ein Scheinmedikament (Placebo). Nach im Durchschnitt 5.6 Jahren waren 199 Frauen unter der Hormontherapie an aggressivem Brustkrebs erkrankt, von den Frauen der Placebo-Gruppe nur 150. Die Studie wird im Journal of the American Medical Association, Bd. 289 beschrieben. Es soll getestet werden, ob die Wahrscheinlichkeit, an aggressivem Brustkrebs zu erkranken, in beiden Gruppen identisch ist. (a) Erstellen Sie die Kontingenztabelle. (b) Stellen Sie Kontingenztabelle hinsichtlich des Forschungsgegenstandes graphisch dar. (c) Führen Sie einen geeigneten statistischen Test durch. <?page no="128"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 116 — le-tex 116 Kapitel 9. Aufgaben Teil II 8. Von den Passagieren auf der Titanic waren 337 in der ersten Klasse, 285 in der zweiten Klasse und 721 in der dritten Klasse. Es waren 885 Besatzungsmitglieder an Bord. Von den Passagieren der ersten Klasse wurden nach dem Unglück 135 vermisst, von denen der zweiten Klasse 160, von denen der dritten Klasse 541 und von der Besatzung 674. (a) Erstellen Sie eine Kontingenztabelle. (b) Bestimmen Sie die korrespondierenden bedingten relativen Häufigkeiten, interpretieren Sie diese, und stellen Sie sie graphisch dar. (c) Führen Sie einen geeigneten statistischen Test durch. 9. Auf dem Fragebogen wurden Studierende nach Ihrer Parteienvorliebe sowie nach Ihrer Anreise zur Hochschule gefragt. In der folgenden Tabelle sind die Antworten zusammengefasst. Auto öffentl. ---------------------- CDU 14 20 FDP 4 7 GRÜNE 1 6 keine 2 7 LINKE 0 2 SONST 1 1 SPD 2 18 (a) Bestimmen Sie die korrespondierenden bedingten relativen Häufigkeiten, interpretieren Sie diese und stellen Sie sie graphisch dar. (b) Sind die Merkmale unabhängig? 10. Es soll untersucht werden, ob der Zustand eines Patienten nach einer Operation vom Krankenhaus abhängt, in dem er operiert wird. Außerdem soll noch der gesundheitliche Zustand des Patienten bei der Einlieferung ins Krankenhaus berücksichtigt werden. Es wurden die Krankenhäuser A und B betrachtet. Es ergaben sich folgende Daten: Für Patienten mit gutem Zustand bei der Einlieferung: Krankenhaus A Krankenhaus B gestorben 6 8 überlebt 594 592 Für Patienten mit schlechtem Zustand bei der Einlieferung: Krankenhaus A Krankenhaus B gestorben 57 8 überlebt 1443 192 <?page no="129"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 117 — le-tex Teil II Inferenzstatistik Kapitel 9. Aufgaben Teil II 117 (a) Bestimmen Sie die relativen Überlebenshäufigkeiten der Patienten in den beiden Krankenhäusern für die beiden Zustände der Patienten bei der Einlieferung. (b) Bestimmen Sie die aggregierte Kontingenztabelle mit den Variablen Zustand nach der Operation und Krankenhaus. (c) Bestimmen Sie die relativen Überlebenshäufigkeiten in den beiden Krankenhäusern. (d) Fällt Ihnen etwas auf? (e) Dieses Phänomen bezeichnet man auch als Simpson-Paradox. Versuchen Sie, darüber etwas herauszufinden. 11. Es soll untersucht werden, ob ein Medikament zur Senkung des diastolischen Blutdrucks führt. Zunächst wir der Blutdruck von 10 Patienten bestimmt. Dann erhält jeder der Patienten das Medikament. Nach zwei Stunden wird bei jedem der Patienten der diastolische Blutdruck bestimmt. Es ergaben sich folgende Werte: Patient Blutdruck vorher Blutdruck nachher 1 130 125 2 122 121 3 124 121 4 104 106 5 112 101 6 102 98 7 98 90 8 119 98 9 106 110 10 107 103 Tabelle 9.2: Blutdruck vorher/ nachher (a) Stellen Sie die Situation vor dem Hintergrund der Fragestellung geeignet dar. (b) Führen Sie einen angemessenen statistischen Test durch. 12. 237 Personen werden vor und nach einer Kampagne gegen das Rauchen befragt, ob sie rauchen. Vor der Kampagne waren 132 Nicht-Raucher und nach der Kampagne 145 Nicht-Raucher. Raucher vor und nach der Kampagne waren 80. (a) Fassen Sie das Problem in einer Kreuztabelle zusammen. (b) Führen Sie einen angemessenen Test durch, um zu überprüfen, ob die Kampagne erfolgreich war. <?page no="130"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 118 — le-tex 118 Kapitel 9. Aufgaben Teil II 13. Wenn man ein neugeborenes Kind so hochhält, dass seine Füße eine flache Oberfläche berühren, so werden die Füße Gehbewegungen machen. Man spricht vom Gehreflex. Wenn die Fußrücken des Neugeborenen gegen den Rand einer flachen Oberfläche gehalten werden, so führt das Kind eine Platzierungsbewegung wie ein junges Kätzchen durch. Man spricht vom Platzierungsreflex. Diese Reflexe verschwinden nach acht Wochen. Sie können aber durch aktives Einüben beibehalten werden. Es soll nun untersucht werden, ob dieses Einüben dazu führt, dass die Kinder früher laufen lernen. Hierzu wurde eine Gruppe von zwölf männlichen Kleinkindern, die eine Woche alt waren, zufällig auf zwei Gruppen mit jeweils sechs Kleinkindern aufgeteilt. In der ersten Gruppe wurden die Reflexe aktiv eingeübt, in der zweiten Gruppe nicht. Bei jedem Kind wurde das Alter (in Monaten) bestimmt, in dem es laufen konnte. Die Zeiten in der ersten Gruppe sind: 9 9.5 9.75 10 13 9.5 Die Zeiten in der zweiten Gruppe sind: 11.5 12 9 11.5 13.25 13 (Quelle: Zelzano, Zelzano & Kolb (1972)) (a) Handelt es sich um ein verbundenes oder unverbundenes Problem? (b) Stellen Sie die Situation angemessen graphisch dar. (c) Versuchen Sie, die im Text gestellte Frage mit Hilfe eines statistischen Tests zu beantworten. 14. Drei Maschinen sollen hinsichtlich ihrer stündlichen Ausbringungsmenge verglichen werden. Da die stündliche Ausbringungsmenge Zufallsschwankungen unterliegt, wird überprüft, ob die durchschnittlichen Ausbringungsmengen der Maschinen gleich sind. Dazu werden bei jeder Maschine die Ausbringungsmengen von fünf unterschiedlichen Stunden bestimmt. Sei x ij die Ausbringungsmenge an Maschine i zum Zeitpunkt j, i = 1, 2, 3, j = 1, 2, 3, 4, 5. Es ergaben sich folgende Werte: Maschine Ausbringungsmenge 1 47 53 49 50 46 2 55 54 58 61 52 3 52 50 51 53 49 15. Zeigen Sie, dass bei der einfaktoriellen ANOVA immer gilt: SS T = SS B + SS W <?page no="131"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 119 — le-tex Teil III Abhängigkeitsstrukturen Teil III Abhängigkeitsstrukturen <?page no="132"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 120 — le-tex <?page no="133"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 121 — le-tex Teil III Abhängigkeitsstrukturen Kapitel 10 Korrelation Natürlich kann man so tun, als könnte man die Statistik in schöne disjunkte Stücke, also Kapitel, aufteilen. Das stimmt offensichtlich nicht, auch wenn die Gliederung dies so erscheinen lässt. Es ging eben auch selbstverständlich schon um Abhängigkeiten. In diesem Kapitel sollen nun zunächst Maßzahlen aufgezeigt werden, die den Zusammenhang zwischen zwei Merkmalen aufzeigen. Ist dieser dann auch kausal, folgt natürlicherweise die Modellierung via Regression. Wie eben erwähnt, ist die Regression ein Verfahren der Varianzanalyse mit in der Regel stetigen erklärenden Variablen. 10.1 Kontingenz 10.1.1 Das Konzept Auch in einer Kontingenztabelle lassen sich Zusammenhänge und damit Abhängigkeiten aufzeigen. Mehr der Vollständigkeit halber soll also der Kontingenzkoeffizient auch kurz vorgestellt werden. Im Kapitel 7.2 ging es exakt um diese Fragestellung: Gibt es einen Zusammenhang zwischen zwei nominalskalierten Merkmalen? Wir haben lediglich zweidimensionale Häufigkeiten. Der χ 2 -Unabhängigkeitstest hat hier gute Dienste geleistet. Wir können aus der Prüfgröße χ 2 eine Maßzahl für den Zusammenhang zwischen zwei Merkmalen in einer Kontingenztabelle berechnen. Hier wird als Maßzahl für den Zusammenhang der Kontingenzkoeffizient K von Pearson vorgeschlagen: K = √ χ 2 χ 2 + n , mit K ∈ [0, 1] <?page no="134"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 122 — le-tex 122 Kapitel 10. Korrelation Bei Null herrscht völlige Unabhängigkeit - dann waren ja gerade alle Differenzen bei χ 2 gleich Null. Aber: K ist in hohem Maße abhängig von der Dimension der zugrundeliegenden Kontingenztabelle und wird daher den Wert 1 eher selten annehmen. Im Beispiel: K = √ 12.56 12.564 + 83 = 0.363 Definition 3: Der korrigierte Kontingenzkoeffizient Der korrigierte Kontingenzkoeffizient K ∗ berücksichtigt die Dimensionen: K ∗ = K · √ c c − 1 , mit c = min (k, l) → Je größer K ∗ desto größer ist das Ausmaß des Zusammenhangs. Im Beispiel: K ∗ = 0.363 · √ 2 2 − 1 = 0.513 Das ist nun ein relativ hoher Wert, der darauf hinweist, dass zwischen Geschlecht und TITANIC ein Zusammenhang besteht. Hinweis: Test und K ∗ können durchaus einmal unterschiedlicher Auffassung sein. Wenn z. B. die Stichprobengröße sehr groß ist, hat das offensichtlich einen nicht unerheblichen Einfluss auf den Wert des Koeffizienten. In diesem Zusammenhang ist es interessant, sich die bedingten relativen Häufigkeiten einmal anzuschauen, die sogenannten Zeilenbzw. Spaltenprofile. Weder der χ 2 -Test noch der Kontingenzkoeffizient verraten uns etwas über die Richtung des Zusammenhangs. Hier noch einmal kurz die zugrundeliegende Tabelle: Noten Geschlecht 1 2 3 4 5 m 1 4 6 9 3| 23 w 12 22 16 7 3| 60 -------------+ 13 26 22 16 6 ->83 Tabelle 10.1: Datensatz: TITANIC-Bewertung Der Anteil Frauen beträgt 60/ 83 = 72.3 %, der der Männer entsprechend 23/ 83 = 27.7 %. Wenn wir nun an die Ränder der Verteilung schauen, stellen wir fest, dass von allen, die den Film als sehr gut bewertet haben, 12/ 13 = 92 % Frauen sind. Es gibt aber nur 72 % Frauen in der Stichprobe. <?page no="135"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 123 — le-tex Teil III Abhängigkeitsstrukturen 10.1. Kontingenz 123 Von allen guten und sehr guten Bewertungen sind 34/ 39 = 87 % Frauen, von allen schlechten und sehr schlechten Bewertungen sind 12/ 22 = 54 % Männer. Diese sogenannten Spaltenprofile weichen sehr(! ) stark von der Grundverteilung der Geschlechter ab. Zufall? Kann sein, aber wahrscheinlich nicht, wie uns der χ 2 -Test ja schon verraten hat. 10.1.2 SPSS - Kontingenz und Profile Den Kontingenzkoeffizient liefert SPSS uns an der gleichen Stelle wie auch den χ 2 -Test. Bitte dort unter Statistik auch den Kontingenzkoeffizient auswählen: Abbildung 10.1: Kontingenzkoeffizient Wie Sie sehen, rechnet SPSS nicht den korrigierten Kontingenzkoeffizienten aus. Die zusätzliche Spalte Signifikanz verrät uns immerhin, dass die Kontingenz signifikant verschieden von Null ist. Die Profile und dann die Graphiken sind ein wenig komplizierter zu erzeugen. Fangen wir mit den Tabellen an. Im bekannten Dialog zu Kreuztabellen sollten Sie unter Zellen nun einmal unter Prozentwerte sowohl zeilenweise als auch spaltenweise ankreuzen. Diese Profile entstehen: Abbildung 10.2: TITANIC-Daten - Zeilenprofil <?page no="136"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 124 — le-tex 124 Kapitel 10. Korrelation Abbildung 10.3: TITANIC-Daten - Spaltenprofil Wir finden auch unsere 92 % wieder: Von allen die den Film sehr gut fanden, sind 92 % Frauen, und das ist wesentlich mehr als der gesamte Anteil Frauen. Aus dem Zeilenprofil erfahren wir, dass 4.3 % aller Männer den Film sehr gut fanden und 20 % aller Frauen fanden den Film sehr gut. Hier noch eine graphische Darstellung des Zeilenprofils. Dazu müssen Sie per Doppelklick die Tabelle aktivieren und den Bereich markieren, den Sie darstellen möchten. Dann mit rechtem Mausklick die entsprechende Graphik auswählen. Dieses vergleichende Balkendiagramm erlaubt es sehr gut, den Zusammenhang aufzudecken: Abbildung 10.4: TITANIC-Daten - Zeilenprofil Graphik <?page no="137"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 125 — le-tex Teil III Abhängigkeitsstrukturen 10.2. Pearson 125 10.2 Pearson In der folgenden Graphik sehen Sie einen Scatter-Plot. Für 50 Firmen aus einer bestimmten Branche ist dargestellt, welches Google-AdWords-Budget zu welcher Anzahl Klicks hin zur beworbenen Webseite geführt hat: Budget Klicks 1000 2000 3000 4000 5000 2000 4000 6000 8000 10000 12000 14000 SEA-Budget und generierte Klicks Abbildung 10.5: Scatter-Plot - SEA-Budget vs. Klicks Man erkennt sehr gut, dass gilt: Je größer das Budget, desto mehr Traffic kann man auf seiner Webseite generieren. Es gibt einen positiven Zusammenhang, eine positive Korrelation. Weiterhin ist auffällig, dass man eine Gerade mit positiver Steigung durch die Punktewolke zeichnen kann. Man spricht von einem positiven linearen Zusammenhang. Man sieht, dass die Mehrzahl der Paarungen oben rechts oder unten links liegt. Das ist typisch bei einer positiven und linearen Korrelation. Ferner scheint auch Kausalität vorzuliegen: Weil ein Unternehmen (aus derselben Branche) ein höheres Budget in AdWords investiert, generiert es mehr Traffic auf seiner Webseite, es liegt also auch ein kausaler Zusammenhang im Sinne einer Ursache-Wirkungskette vor. Falls wir es mit metrisch skalierten Daten zu tun haben, die in einem linearen Zusammenhang stehen, dann ist der Korrelationskoeffizient nach Pearson (auch Bravais-Pearson) die geeignete Maßzahl für den Zusammenhang: <?page no="138"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 126 — le-tex 126 Kapitel 10. Korrelation Definition 4: Korrelationskoeffizient von Bravais-Pearson r xy = 1 n n ∑ i=1 (x i − ¯ x) · (y i − ¯ y) √√ √ √ 1 n n ∑ i=1 (x i − ¯ x) 2 · 1 n n ∑ i=1 (y i − ¯ y) 2 = d xy √ d 2 x · d 2 y Im Zähler findet sich die sogenannte empirische Kovarianz. Für die einzelnen Summanden gilt, dass sie genau dann positiv sind, wenn die Punkte oben rechts oder eben unten links liegen. So entsteht dann nach der Summierung eine positive Kovarianz. Diese Zahl kann allerdings beliebig groß werden und sie hat noch eine Einheit, hier € × Klicks. Daher wird sie durch die Einzelvarianzen normiert und zwischen -1 und +1 gepresst, die Einheiten kürzen sich auch raus. Man kann Korrelationen also gut miteinander vergleichen. Sollte die Korrelation die Extremwerte annehmen, dann liegen alle Punkte auf einer Geraden mit positiver Steigung (r xy = 1) bzw. auf einer mit negativer Steigung (r xy = −1). Und welche Steigung? Nun das ist die Regressionsgerade. Wenn sich die Korrelation um Null bewegt, dann haben wir es eher nicht mit einem linearen Zusammenhang zu tun. In unserem Beispiel gilt übrigens r xy = 0.92, was einer sehr großen Korrelation entspricht. Wenn wir einer echten Fragestellung nachgehen, dann sind wir in der Regel natürlich an einem Zusammenhang, also einer Korrelation interessiert. Ein statistischer Test kann uns nun sagen, ob die Korrelation auch signifikant ist oder eher zufälliger Natur. Können wir für die Daten eine (wenigstens annähernd) gemeinsame, bivariate Normalverteilung unterstellen, dann steht uns folgender Signifikanztest zur Verfügung: Hypothese (zweiseitig): H 0 : r xy = 0 gegen H 1 : H 0 6= 0 Prüfgröße: PG r = r xy √n − 2 √ 1 − r 2 xy Ablehnbereich zum Niveau α: |PG r | > t 1−α/ 2,n−2 Die einseitigen Versionen können Sie entsprechend herleiten. <?page no="139"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 127 — le-tex Teil III Abhängigkeitsstrukturen 10.3. Spearman 127 Offensichtlich wollen wir die Hypothese dann stets ablehnen! Es handelt sich wieder um einen t-Test, da die Prüfgröße bei Gültigkeit von H 0 t-verteilt ist mit (n − 2). Da wir am p-Wert interessiert sind, sparen wir uns hier den Weg zu Fuß und warten auf das SPSS-Kapitel. 10.3 Spearman Der folgende Scatter-Plot zeigt Ihnen für 53 gebrauchte Autos einer bestimmten Marke den Wiederverkaufswert in Euro in Abhängigkeit vom Alter des Autos. Alter in Jahren Preis in Euro 1 2 3 4 5 6 7 8 9 10 0 5000 10000 15000 20000 25000 Alter des Autos und Wiederverkaufswert Abbildung 10.6: Scatter-Plot - Alter des Autos vs. Wiederverkaufswert Wie man sieht, handelt es sich um einen negativen Zusammenhang, eine negative Korrelation. Auch ist der Zusammenhang kausal gut begründbar. Allerdings scheint es sich nicht um einen linearen Zusammenhang zu handeln, was inhaltlich ebenfalls Sinn macht. Stellen Sie sich vor, Sie legen eine Gerade durch die Punktwolke und verwenden diese als Prognosemodell für den Wiederverkaufswert, das geht schief. <?page no="140"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 128 — le-tex 128 Kapitel 10. Korrelation Natürlich könnten wir hier die eben kennengelernte Korrelation von Pearson verwenden, das Ergebnis ist r xy = −0.84, was zunächst einmal sinnvoll erscheint. Das Problem mit den nicht-linearen Daten ist, dass systematisch (also nicht nur zufällig) Punktepaare im Quadranten unten links liegen. Punktepaarungen unten links bedeuten aber einen positiven Zusammenhang. In der Formel entstehen so lauter positive Summanden, welche die starke negative Korrelation schmälern. Wir sollten also nicht die Korrelation von Pearson verwenden, da diese ggf. den wahren Zusammenhang unterschätzt. Spearman hat folgende Maßzahl zum monotonen Zusammenhang vorgeschlagen. Man bilde in beiden Stichproben jeweils die Ränge, also die Position jeder Beobachtung in der geordneten Stichprobe, der sogenannten Rangwertreihe. Bei Mehrfachbeobachtungen (=Bindungen) werden Durchschnittsränge vergeben. Diese so transformierten Daten steckt man in die Formel von Pearson. Das ist der Rangkorrelationskoeffizient nach Spearman. Die nächste Graphik zeigt Ihnen einmal, wie der Scatter-Plot aussieht, wenn man nicht mehr die echten Beobachtungen nimmt, sondern die auf die Ränge transformierten Daten. rank(alter) rank(preis) 0 10 20 30 40 50 0 10 20 30 40 50 Alter des Autos und Wiederverkaufswert Ränge Abbildung 10.7: Scatter-Plot - Ränge <?page no="141"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 129 — le-tex Teil III Abhängigkeitsstrukturen 10.4. Scheinkorrelation 129 Die Transformation hat linearisierend gewirkt, d. h. die Geschwindigkeit, mit der der Preis abnimmt, ist irrelevant geworden. Für diese Rangdaten können wir nun die Formel anwenden, das Ergebnis ist die Korrelation nach Spearman, r s = −0.97 Wie man sieht, ist der Zusammenhang noch mal deutlich stärker ausgewiesen. Sehr oft liegen die Werte von zwei Merkmalsträgern bereits als Ränge vor. In diesem Fall kann man mit dem Rangkorrelationskoeffizienten überprüfen, wie sehr die beiden Merkmalsträger in ihrer Bewertung übereinstimmen. Beispiel: Zwei Personen werden gebeten, sechs Paare von Politikern der Ähnlichkeit nach zu ordnen. Dem Paar, bei dem sich die beiden Politiker am ähnlichsten sind, sollten sie eine 1, dem zweitähnlichsten eine 2,. . . usw. geben. Die folgende Graphik (aus Wikipedia) zeigt Ihnen einige stilisierte Scatter-Plots und welchen Wert die Korrelation (von Pearson) annehmen würde. Abbildung 10.8: Scatter-Plot - Beispiele aus Wikipedia 10.4 Scheinkorrelation Schuhgröße und Einkommen, Haardichte und Einkommen sowie Anzahl Storchpaare und menschliche Geburtenrate haben als Datenpaarungen eines gemeinsam: Sie sind alle sehr stark korreliert. 16 Da der Storch aber nicht die Babys bringt, stellt sich die Frage, wie das sein kann. Die aufgezählten Korrelationen sind keine kausalen Korrelationen, es handelt sich um Scheinkorrelationen. In der Regel gibt es eine (mind.) Dreiecksbeziehung, d. h. ein drittes, nicht genanntes Merkmal, ist mit den beiden Merkmalen kausal korreliert. Nehmen wir Schuhgröße und Einkommen. Immer noch ist es so, dass Frauen im Durchschnitt 16 Sie finden wesentlich mehr Beispiele und Datensätze im Internet, z. B. unter Wikipedia. <?page no="142"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 130 — le-tex 130 Kapitel 10. Korrelation weniger Geld im Beruf verdienen als Männer, aus den verschiedensten Gründen. Frauen haben im Durchschnitt aber auch kleinere Füße. Was fällt Ihnen zu den Störchen ein? Im Kapitel 11.2.1 werden wir uns dieses Phänomens noch einmal genauer ansehen. 10.5 SPSS - Korrelation Einen Scatter-Plot mit SPSS erzeugen Sie über Graphik-> Digrammerstellung. Dort dann Streu-/ Punktdiagramm wählen und die einfachste Vorlage wählen. Wenn Sie die Daten entsprechend auf die Achsen ziehen, bekommen Sie folgenden Scatter-Plot: Abbildung 10.9: Scatter-Plot - SPSS Also fast, den sogenannten Schwerpunkt der Daten müssen Sie noch hinzufügen. Mit einem Doppelklick auf die Graphik kommen Sie in den Editor. Dort können Sie alles mögliche mit der Graphik machen. U. a. können Sie horizontale und vertikale Bezugslininen hinzufügen. <?page no="143"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 131 — le-tex Teil III Abhängigkeitsstrukturen 10.5. SPSS - Korrelation 131 Um die Korrelationskoeffizienten zu bekommen, wählen Sie den entsprechenden Menüpunkt: Abbildung 10.10: Korrelation - Menü Den folgenden Dialog müssen Sie dann ausfüllen - Sie können also sofort beide Koeffizienten ausrechnen lassen: Abbildung 10.11: Korrelation - Dialog <?page no="144"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 132 — le-tex 132 Kapitel 10. Korrelation Als Ergebnis bekommen Sie dann zwei sogenannte Korrelationsmatrizen. Fangen wir mit der von Pearson an: Abbildung 10.12: Korrelation Pearson - lineares Beispiel Den Wert des Korrelationskoeffizienten kennen wir bereits, r xy = 0.92, also ein sehr hoher Wert. SPSS hat für uns auch schon gleich den statistischen Test durchgeführt. In der Korrelationsmatrix ist unter Signifikanz der p-Wert angegeben. Dieser ist mit gerundet 0.000 ziemlich klein. Wir haben es also ziemlich sicher mit einer signifikant von Null verschiedenen Korrelation zu tun. Im Dialog war das Häkchen gesetzt, dass signifikante Korrelationen markiert werden sollen. Das ist geschehen. Sie sehen zwei Sternchen hinter der Korrelation, die in der Fußnote erklärt werden. Abbildung 10.13: Korrelation Spearman - lineares Beispiel Diese Korrelation ist als nicht-parametrische bezeichnet worden. Das Verhältnis ist ähnlich wie zwischen t- und VZ-Test oder auch arithmetischem Mittel und Median. <?page no="145"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 133 — le-tex Teil III Abhängigkeitsstrukturen 10.5. SPSS - Korrelation 133 Der Output ist natürlich strukturgleich. Der Wert der Korrelation ist sehr ähnlich. Wenn die Daten mehr oder weniger linear sind, dann werden beide Koeffizienten ähnliche Werte liefern. Die beiden letzten Tabellen zeigen dann noch einmal den Output für den nichtlinearen Fall, also Alter und Preis des Autos. Hier sieht man den Unterschied deutlich. Abbildung 10.14: Korrelation Pearson - nicht lineares Beispiel Abbildung 10.15: Korrelation Spearman - nicht lineares Beispiel <?page no="146"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 134 — le-tex <?page no="147"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 135 — le-tex Teil III Abhängigkeitsstrukturen Kapitel 11 Regression Das Konzept Regression kommt aus der mathematischen Logik. Regression bedeutet zurückführen und zwar ursächlich. Im einfachsten Fall heißt das, ein Merkmal, das wir verstehen möchten, kann ursächlich auf ein anderes zurückgeführt werden, welches wir verstanden haben bzw. beeinflussen und verändern können. Diese Veränderung wirkt dann wie ein Hebel auf das andere Merkmal. Fangen wir mit dem einfachsten Fall an. 11.1 Einfache lineare Regression 11.1.1 Das Konzept Der lineare Zusammenhang zwischen zwei (metrischen) Merkmalen soll durch die bestmögliche Gerade approximiert werden. Die Varianz der erklärenden Variable oder exogenen Variable (X) erklärt die Streuung der endogenen oder zu erklärenden Variable (Y ). Damit ist alle Bewegung auf der Geraden durch das Modell erklärt: x wird größer → y wird auch größer (+) oder y wird kleiner (−). Warum nicht alle Punkte auf der Geraden liegen, kann das Modell nicht erklären. Genau wie bei der ANOVA nicht erklärt werden kann, warum innerhalb der Gruppen noch (große) Streuung vorliegt. Einfach bedeutet in diesem Zusammenhang, ein Faktor, also ein erklärendes Merkmal. Das (vereinfachte) lineare Modell für die Paare (x i / y i ) haben Sie sicherlich so kennengelernt: ̂ y i = ̂ a + ̂ b · x i <?page no="148"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 136 — le-tex 136 Kapitel 11. Regression Die sogenannten Residuen d i bilden die Abstände zur Geraden: d i = y i − ̂ y i = y i − ( ̂ a + ̂ b · x i ) Durch Lösen des folgenden Minimierungsproblems erhalten Sie die optimalen Schätzer: n ∑ i=1 d 2 i = n ∑ i=1 (y i − ̂ a − ̂ b · x i ) 2 → min a,b ̂ a = ¯ y − ̂ b · ¯ x ̂ b = xy − ¯ x · ¯ y x 2 − ¯ x 2 Die Regression so durchzuführen, ist im Grunde eine rein deskriptive Methode. Wir haben nicht besonders viele Möglichkeiten, unser Modell zu begutachten. Uns steht lediglich das Bestimmtheitsmaß R 2 zur Verfügung, also der Anteil der durch das Modell erklärten Streuung des Merkmals Y . Im einfachen linearen Fall, einfach Pearsons Korrelation quadrieren, also R 2 = r 2 xy . Ferner ist der Residuen-Plot zu betrachten. Er kann uns aufzeigen, ob die Annahme der Linearität als funktionaler Zusammenhang zwischen X und Y eigentlich gerechtfertigt ist. Die Interpretation ist dann die Übliche. Der eben erwähnte Hebel ist durch die Steigung der Regressionsgeraden quantifiziert - je steiler die Gerade desto größer der Hebel. Den y-Achsenabschnitt oder auch autonomen Wert kann man nicht immer interpretieren, es kommt auf den Kontext an. Manchmal ist dieser auch künstlich auf Null zu setzen. Die Konzepte einfach und linear können dann im Folgenden erweitert werden. 11.1.2 SPSS - einfache lineare Regression Zunächst einmal kann in einen Scatter-Plot einfach die Regressionsgerade hinzugefügt werden. Per Doppelklick in die Graphik aktivieren Sie den Editor. Dort dann den Menüpunkt Anpassungslinie bei Gesamtsumme hinzufügen wählen. Für unseren bekannten Scatter-Plot Budget vs. Klicks von Seite 130 sieht das Ergebnis so aus: <?page no="149"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 137 — le-tex Teil III Abhängigkeitsstrukturen 11.1. Einfache lineare Regression 137 Abbildung 11.1: Scatter-Plot mit Regressionsgeraden- SPSS SPSS liefert uns die Geradengleichung sowie den Wert des Bestimmtheitsmaßes. Leicht nachzurechnen: 0.921 2 = 0.848. Es werden also gut 85 % der Gesamtstreuung von Klicks durch das Budget erklärt. Das ist nicht unsinnvoll, da es sich um Unternehmungen einer Branche handelt, also mit denselben CPC (Cost per Click) konfrontiert sind. Das Modell erlaubt uns noch mehr. Wir können nun Was-wäre-wenn-Szenarien durchspielen. Was wäre denn, wenn wir das Budget um 1 € erhöhen würden? Laut Modell ergeben sich im Schnitt gut 2 Klicks mehr. Also haben wir es mit einem CPC von 0.5 € zu tun. <?page no="150"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 138 — le-tex 138 Kapitel 11. Regression Wie viele Klicks können wir erwarten, wenn wir 1000 € Budget einsetzen? Antwort laut Modell 22.67 + 1000 · 2.11 = 2132.67, also etwas über 2000 Klicks. Viel mehr können wir an dieser Stelle nicht herausholen. Wie Sie sehen, würde es uns auch nicht gelingen, ein allgemeingültiges Modell zu erstellen. Dazu reicht das Budget alleine nicht aus. Über den Menüpunkt Analysieren-> Regression-> Linear bekommen Sie diesen Dialog: Abbildung 11.2: Lineare Regression - SPSS-Dialog Unter Speichern können Sie die vorhergesagten Werte sowie die Residuen z. B. nicht standardisiert speichern. Wir wollen uns den Output an dieser Stelle noch nicht anschauen, da wir erst eine Erweiterung in unser Modell integrieren müssen. Aber wir können den Residual- Plot erstellen. Sie werden feststellen, dass im Dateneditor zwei neue Spalten hinzugefügt wurden. Hier ist der Scatter-Plot Budget vs. RES_1: <?page no="151"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 139 — le-tex Teil III Abhängigkeitsstrukturen 11.1. Einfache lineare Regression 139 Abbildung 11.3: Lineare Regression - SPSS-Dialog Die Residuen scheinen mehr oder weniger zufällig um Null zu streuen, was wünschenswert ist. Ist noch Struktur im Residuen-Plot, dann ist das Modell falsch gewählt. <?page no="152"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 140 — le-tex 140 Kapitel 11. Regression 11.2 Partielle Korrelation 11.2.1 Das Konzept Bevor wir das Regressionsmodell erweitern, wollen wir noch einmal einen Blick auf die Scheinkorrelation werfen. Exkurs zur Motivation: Studierendenbefragung Bei einer Befragung von Erstsemestern wurden unter anderem die Merkmale Körpergröße x, Körpergewicht y und Schuhgröße z erhoben. Die Werte von 20 Studenten sind folgende: Student i x i y i z i Student i x i y i z i 1 171 58 40 11 201 93 48 2 180 80 44 12 180 67 42 3 178 80 42 13 183 73 42 4 171 60 41 14 176 65 42 5 182 73 44 15 170 65 41 6 180 70 41 16 182 85 40 7 180 77 43 17 180 80 41 8 170 55 42 18 190 83 44 9 163 50 37 19 180 67 39 10 169 51 38 20 183 75 45 Wir bestimmen die empirische Korrelationsmatrix, R = 1 0.882 0.796 0.882 1 0.712 0.796 0.712 1 → Zwischen allen Merkmalen besteht eine hohe Korrelation. r yz = 0.712, macht das Sinn? Sicherlich hätten wir erwartet, dass zwischen allen Variablen außer Gewicht und Schuhgröße ein Zusammenhang besteht. Warum sollten meine Füße größer werden, wenn ich schwerer werde und umgekehrt? Wie kann das also sein? Im Kapitel 10.4 haben Sie noch merkwürdigere Beispiele kennengelernt. Das Prinzip ist aber immer das gleiche: Zwei Merkmale sind über ein drittes miteinander verbunden. Um zu überprüfen, ob das Merkmal Körpergröße den Zusammenhang zwischen den Merkmalen Körpergewicht und Schuhgröße bedingt, müssen wir es kontrollieren. <?page no="153"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 141 — le-tex Teil III Abhängigkeitsstrukturen 11.2. Partielle Korrelation 141 Hierzu haben wir zwei Möglichkeiten: Wir betrachten nur Personen, die die gleiche Ausprägung des Merkmals Körpergröße besitzen, und bestimmen bei diesen den Zusammenhang zwischen den Merkmalen Körpergewicht und Schuhgröße. Besteht bei Personen, die die gleiche Ausprägung des Merkmals Körpergröße besitzen, kein Zusammenhang zwischen den Merkmalen Körpergewicht und Schuhgröße, so sollte der Wert des empirischen Korrelationskoeffizienten gleich 0 sein. Wir können den Effekt des Merkmals Körpergröße auf die Merkmale Körpergewicht und Schuhgröße statistisch bereinigen und den Zusammenhang zwischen den bereinigten Merkmalen bestimmen. Bereinigt man die die Korrelation zwischen den Merkmalen Y und Z um den Effekt des Merkmals X, so erhält man r Y Z.X , den partiellen Korrelationskoeffizienten. Dieser ist folgendermaßen definiert: r Y Z.X = r Y Z − r XY · r XZ √ (1 − r 2 XY ) · (1 − r 2 XZ ) Ist der Wert von r Y Z.X in der Nähe von 0, so deutet dies darauf hin, dass die Korrelation zwischen Y und Z gleich 0 ist, wenn man beide um den linearen Effekt von X bereinigt. Im Beispiel: r Y Z.X 0.712 − 0.882 · 0.796 √ (1 − 0.882 2 ) · (1 − 0.796 2 ) = 0.035 Es handelte sich in der Tat um eine Scheinkorrelation, da der partielle Korrelationskoeffizient nah bei Null liegt. Die Formel kommt übrigens durch die folgenden Überlegungen zustande, daher mussten wir uns einmal kurz die lineare Regression in Erinnerung rufen: Annahme: X und Y werden beide von Z beeinflusst. 1. Bereinigung von x um den Einfluss von z: Vorhersage der x-Werte als Linearfunktion von z: ̂ x = a + b · z Der Anteil erklärter Varianz lässt sich auf z zurückführen. Der Anteil nicht erklärter Varianz ist frei vom Einfluss von z, d. h. er kann nicht durch z erklärt werden. Er ergibt sich aus der Summe der Residuen: x ∗ i = x i − ̂ x i mit x ∗ i als Residuen <?page no="154"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 142 — le-tex 142 Kapitel 11. Regression 2. Bereinigung von y um den Einfluss von z: Vorhersage der y-Werte als Linearfunktion von z: ̂ y = a + b · z Der Anteil erklärter Varianz lässt sich wieder auf z zurückführen. Der Anteil nicht erklärter Varianz ist frei vom Einfluss von z, d. h. er kann nicht durch z erklärt werden. Er ergibt sich auch hier wieder aus der Summe der Residuen: y ∗ i = y i − ̂ y i mit y ∗ i als Residuen Korrelation der beiden Regressionsresiduen: r xy.z = r x ∗ y ∗ = r x− ̂ x,y− ̂ y = Cov(x ∗ , y ∗ ) s ∗x · s ∗y Umformung = r xy − r xz · r yz √ 1 − r 2 xz · √ 1 − r 2 yz Es wird also nicht mehr die Korrelation zwischen X und Y berechnet. Stattdessen wird die Korrelation zwischen den Residuen der Regression X und Z sowie den Residuen der Regression Y und Z berechnet. Wir kennen also bereits drei Anwendungen für die Formel von Pearson: Die Daten selber Die Transformation auf die Ränge Die Transformation auf die Residuen nach Regression auf eine Moderatorvariable 11.2.2 SPSS - partielle Korrelation Über den Menüpunkt Analysieren-> Korrelation-> partiell erreichen Sie folgenden Dialog: Abbildung 11.4: Partielle Korrelation - SPSS-Dialog <?page no="155"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 143 — le-tex Teil III Abhängigkeitsstrukturen 11.3. Autokorrelation 143 Das Ergebnis kennen wir bereits, Sie sehen es hier als SPSS-Output. Die Signifikanz ist mit 0.883 so groß, dass wir offensichtlich H 0 nicht ablehnen können. Abbildung 11.5: Partielle Korrelation - SPSS-Dialog 11.3 Autokorrelation 11.3.1 Das Konzept Der Name ist Programm, es geht um die Korrelation eines Datensatzes mit sich selber. 17 Macht das Sinn? Das macht es, wenn man sich die Daten als eine Art Signal vorstellt, das regelmäßig aufeinanderfolgende Ausprägungen bzw. Beobachtungen, also Daten produziert. Am besten kann man sich die Autokorrelation vorstellen, wenn man an Zeitreihen denkt. Eine (univariate) Zeitreihe besteht aus einer durch die Zeit bedingte Abfolge von Beobachtungen, Messungen usw. Die statistische Disziplin der Zeitreihenanalyse beschäftigt sich mit Fragestellungen rund um die Zeitreihe: Gibt es einen Trend, gibt es Saisonmuster, Zufallsstörungen usw. Insbesondere möchte man Fragen nach dem weiteren zukünftigen und damit unbekannten Verlauf beantworten: Die Arbeitslosenquote ist bis zum Zeitpunkt T bekannt, X 1 . . . X T . Wo wird die Quote bei T + 1 liegen? Der CO 2 -Gehalt in der Atmosphäre wird seit vielen Jahren gemessen. Wo wird er in einem Jahr liegen? Ein Onlineshop für Gartenbedarf kennt seine Traffic-Statistiken tagesaktuell. Insbesondere auch die Nachfrage nach Rollrasen scheint sehr vielen Schwankungen zu unterliegen, wie soll diese abgeschätzt und damit planbar gemacht werden? . . . 17 Griechisch autos bedeutet selbst, persönlich, allein. <?page no="156"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 144 — le-tex 144 Kapitel 11. Regression Die Beispiele ließen sich beliebig lange fortführen. Um Prognosen erstellen zu können, muss man verstehen, wie die Werte entstehen und warum sie entstehen. Man muss die Ursache-Wirkungskette aufdecken, ein Modell wird gesucht. Modelle sind sehr bedeutsame Konzepte in der Statistik, aber natürlich nicht nur dort. Denken Sie an Klimamodelle oder Modelle, die das Wirtschaftswachstum vorhersagen. Eine Zeitreihe besteht aus den folgenden Komponenten: Trendkomponente Als Trend wird die mittlere (systematische) Veränderung des mittleren Niveaus der Zeitreihe bezeichnet. Es kann steigen, sinken oder stagnieren. Saisonkomponente Dies sind zyklische, also regelmäßig wiederkehrende, im Prinzip unveränderte Schwankungen in den Werten der Zeitreihe. Restkomponente Dies sind nicht systematische, zufällige Veränderungen in den Werten. Um nun eine Zeitreihe zu modellieren, muss man sich mit diesen drei Komponenten befassen und sie verstehen. Anhand des Onlineshop Beispiels soll dies versucht werden. Wir wollen dazu lediglich die Analysekonzepte verwenden, die wir kennen, die einfache lineare Regression und die Korrelation. Der folgende Linienzug zeigt Ihnen den Verlauf der Nachfrage nach Rollrasen: Views 201602 201604 201606 201608 201610 201612 201702 201704 201706 201708 201710 201712 201802 201804 201806 0 500 1000 1500 0 500 1000 1500 Nachfragen im Onlineshop zum Suchbegriff Rollrasen Abbildung 11.6: Zeitreihenanalyse - Linienzug der Daten <?page no="157"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 145 — le-tex Teil III Abhängigkeitsstrukturen 11.3. Autokorrelation 145 Menschen sind recht gut darin, Muster in Graphiken zu erkennen. Offenbar gibt es Trend, der Traffic, also die Nachfrage, fällt. Es gibt eine eindeutige Saisonkomponente, im April scheint es jedes Jahr die größte Nachfrage zu geben. Zufallsschwankungen gibt es sowieso. Stellen Sie sich nun vor, Sie haben zehntausend oder mehr Keywords, die Sie an Google für Ihre AdWord-Kampagne übergeben haben. Sie möchten für jedes Keyword genau diese Informationen vorliegen haben: Trend und Saisonkomponente. Sie benötigen diese (und weitere) Informationen, um Ihren Shop optimal und gewinnbringend zu betreiben. Offensichtlich kann man sich nicht für jedes Keyword den Verlauf anschauen. Dies muss automatisch gehen. Zunächst einmal wollen wir uns mit dem Trend beschäftigen. Das übliche vorgehen ist, eine einfache lineare Regression in die Kurve zu legen: Views 201602 201604 201606 201608 201610 201612 201702 201704 201706 201708 201710 201712 201802 201804 201806 0 500 1000 1500 0 500 1000 1500 Nachfragen im Onlineshop zum Suchbegriff Rollrasen Abbildung 11.7: Zeitreihenanalyse - Linienzug der Daten mit Trend Offenbar ist der Trend negativ, d. h. die Nachfrage scheint zurückzugehen - warum auch immer. Dieser Trend lässt sich natürlich leicht quantifizieren durch die entsprechende Regressionsgleichung: Trend = 850.34253 − 21.05651 · Zeitverlauf Das bedeutet, im Durchschnitt verringert sich die Nachfrage pro Monat um 21 Views. Über den gesamten zur Verfügung stehenden Zeitraum von 30 Monaten sind das immerhin mehr als 600 Views. <?page no="158"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 146 — le-tex 146 Kapitel 11. Regression Wenn also ein Automatismus uns nun für alle 10000 Keywords diese Trendkomponente bereitstellt, sind wir schon ein gutes Stück weiter. Es kann durchaus sinnvoll sein, die Trendkomponente auf den autonomen Wert zu beziehen, also −21/ 850 = −0.025, d. h. dann das auf das mittlere Niveau bezogen die Zeitreihe pro Monat 2.5 % Nachfrage verliert. Durch diesen relativen Trend lassen sich die Zeitreihen besser vergleichen. Damit wir uns nun der Saison widmen können, müssen wir die Zeitreihe zunächst trendbereinigen. Man sieht ja schon, dass sich die Werte durch den Trend so stark verändern, dass dies die Saisonfigur überlagern würde. Die Trendbereinigung ist nichts anderes als die Darstellung der Residuen, also die Schwankung um das Trendmodell, die Regressionsgerade: Views −− trendbereinigt 201602 201604 201606 201608 201610 201612 201702 201704 201706 201708 201710 201712 201802 201804 201806 −600 −400 −200 0 200 400 600 800 −600 −400 −200 0 200 400 600 800 Nachfragen im Onlineshop zum Suchbegriff Rollrasen −− trendbereinigt Abbildung 11.8: Zeitreihenanalyse - Linienzug der Daten mit Trendbereinigung Wie man sieht, ist die Zeitreihe nun stationär. Nun wollen wir uns der Idee der Autokorrelation widmen. Man sieht, dass alle Werte, die um zwölf Monate verschoben sind, stark positiv miteinander korreliert sind. Dagegen sind die Werte, die um sechs Monate gegeneinander verschoben negativ korreliert. Wir haben es natürlich mit Saisonschwankungen mit einer sogenannten Periode von 12 zu tun. D. h. es ist eine monatliche Saisonfigur. Bei der Autokorrelation wird die Zeitreihe als doppelter Datensatz verwendet. Wenn man die Korrelation zwischen dem Datensatz und sich selbst berechnet, dann ergibt sich natürlich 1 - wir nehmen einfach die Korrelation von Pearson: r X t ; X t = 1 <?page no="159"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 147 — le-tex Teil III Abhängigkeitsstrukturen 11.3. Autokorrelation 147 Nun wollen wir nicht 201602 mit dem Wert von 201602 vergleichen und 201603 mit 201603, sondern die Zeitreihe durch sogenannte Lags verschieben. Lag = 1 bedeutet, dass der Wert für 201602 mit dem von 201603 verglichen wird und der von 201603 mit dem für 201604 usw. Dann wird die Korrelation berechnet - τ (Tau) bezeichnet das Ausmaß der Verschiebung: r X t ; X t+τ = ? Je mehr Beobachtungen wir haben, je länger die Zeitreihe ist, desto größer kann man den Lag wählen. Die folgende Graphik zeigt Ihnen die Berechnung der Autokorrelation bis zum Lag 18: 0 5 10 15 −0.5 0.0 0.5 1.0 Lag ACF Series residuals Abbildung 11.9: Zeitreihenanalyse - Autokorrelation Diese Autokorrelationsfunktion zeigt sehr schön die monatliche Saisonkomponente. Zum lag 5-8 liegt eine deutlich negative Korrelation vor. Diese steigt dann an, so dass die lags 11-13 stark positive Korrelationen aufweisen. Es fällt dann wieder bis zum lag 18, was natürlich der 6 entspricht. Jede Zeitreihe, die dieses Muster aufweist, hat eine monatliche Saisonkomponente. Es ist natürlich auch leicht, dann die nachfragestarke Zeit zu bestimmen. D. h. es ist möglich, mit einfachen Mitteln automatisch die Zeitreihe in ihre Komponenten zu zerlegen. Natürlich kann man noch sehr viel mehr machen. An dieser Stelle soll das genügen. <?page no="160"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 148 — le-tex 148 Kapitel 11. Regression 11.3.2 SPSS - Autokorrelation Über den Dialog Analysieren-> Vorhersage-> Autokorrelationen können Sie diese durchführen: Abbildung 11.10: SPSS - Autokorrelation Dialog Unter Optionen können Sie die Anzahl der lags einstellen, in diesem Fall 18. Der Output besteht aus im wesentlichen zwei Teilen, den Werten der Autokorrelation und der graphischen Darstellung. Die folgende Abbildung zeigt die Tabelle mit den Werten: Abbildung 11.11: SPSS - Autokorrelation Werte <?page no="161"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 149 — le-tex Teil III Abhängigkeitsstrukturen 11.3. Autokorrelation 149 Die Autokorrelationen verhalten sich, wie wir es eben bereits gesehen haben. Sie bewegen sich regelmäßig und rhythmisch von positiv nach negativ. Die Autokorrelationen sind auch alle hochsignifikant, wie die letzte Spalte eindruckvoll zeigt. Alle Hypothesen, die die Autokorrelationen zu einem lag auf Null setzen, werden abgelehnt, deutlich. In der folgenden Graphik werden diese Werte nun graphisch dargestellt: Abbildung 11.12: SPSS - Autokorrelation graphische Darstellung Die Graphik lässt sich wesentlich besser interpretieren. Die beiden Geraden deuten die Konfidenzbänder an. Insgesamt lässt sich sagen, dass die einfache lineare Regression und das Konzept der Autokorrelation hier gute Dienste leistet, um die Nachfrage nach Rollrasen zu verstehen. Ihnen ist sicherlich aufgefallen, dass nicht die trendbereinigten Werte verwendet wurden, sondern die Original-Views. Vergleichen Sie einmal die Werte der Autokorrelationen mit denen, als weiter oben die trendbereinigten eingesetzt wurden. Dort waren die Korrelationen größer. Der Trend überlagert die Saisonfigur. Daher ist stets die stationäre Zeitreihe zu verwenden. <?page no="162"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 150 — le-tex 150 Kapitel 11. Regression Insofern führen Sie zunächst die einfache lineare Regression durch, wie wir es eben kennengelernt haben. Speichern Sie die nicht standardisierten Residuen. Führen Sie mit dieser neuen Spalte die Autokorrelation durch: Abbildung 11.13: SPSS - Autokorrelation Werte (stationär) Auch die Graphik zeigt eine deutliche Verbesserung. Die Balken sind wesentlich weiter jenseits der Konfidenzbänder, was einen größeren Zusammenhang bedeutet (siehe Abb. 11.14). Noch ein letzter Hinweis zur sogenannten partiellen Autokorrelation soll gemacht werden: Diese wurde als Menüpunkt im SPSS-Dialog angeboten. Der partielle Autokorrelationskoeffizient ist im Prinzip ein Spezialfall des partiellen Korrelationskoeffizienten. Auch hier werden Einflüsse dritter Größen auf den Zusammenhang zwischen zwei Merkmalen eliminiert. In diesem Fall geht es um den Zusammenhang zwischen X T und X T +τ . Um diesen direkt zu messen, werden durch die partielle Autokorrelation die Einflüsse von X T +1 , X T +2 usw. durch eine Regression herauspartialisiert. <?page no="163"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 151 — le-tex Teil III Abhängigkeitsstrukturen 11.4. Erweiterung - multiple Regression 151 Abbildung 11.14: SPSS - Autokorrelation graphische Darstellung (stationär) 11.4 Erweiterung - multiple Regression 11.4.1 Das Konzept Im Prinzip war das Wiederholung. Wir haben die Regression als eine deskriptive Methode zur Modellierung eines einfachen Zusammenhangs verwendet. Wir wollen nun einen Schritt weitergehen. Das Modell soll verallgemeinert werden: y = f(x) + ε Allgemein lässt sich die Beziehung zwischen X und Y als Funktion von f() aufschreiben. Im vorigen Kapitel war f() eine lineare Funktion. Natürlich kann f() jede beliebige Funktion annehmen. Das kommt auf den Kontext und die Natur des Zusammenhangs an. Man nimmt sehr gerne lineare Regressionen, da diese besonders gut nachvollziehbar und interpretierbar sind. <?page no="164"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 152 — le-tex 152 Kapitel 11. Regression Sie finden daher oft logarithmierte Werte in Regressionsmodellen. Der Logarithmus hat linearisierende Eigenschaften. Natürlich muss man dann mit den Interpretationen aufpassen. 18 X muss kein 1-dimensionaler Vektor sein, eben war das der Fall. In der Regel wird es sein, dass eine monokausale Beziehung unrealistisch ist und wir mehr als eine erklärende Variable benötigen. In ε (sprich „epsilon“) sollen alle anderen Einflussgrößen zusammengefasst werden. Es wird niemals so sein, dass Sie ein Bestimmtheitsmaß von 100 % im Zusammenhang mit echten Daten antreffen werden. Sie werden sozusagen immer auch Streuung um die Gerade (oder ihr komplexeres Modell) herum haben. Also benötigen wir eine Störgröße. Bei der rein deskriptiven Vorgehensweise ergaben sich die Abweichungen sozusagen mehr oder weniger implizit als Differenz zwischen beobachtetem y i -Wert und der dazugehörigen Prognose durch das Modell ̂ y i . Wir wollen die Störgröße nun ganz explizit in das Modell mitaufnehmen, als eigenständige Zufallsvariable. Wir werden sehen, dass wir dadurch ganz neue Möglichkeiten haben, das Regressionsmodell zu interpretieren und zu bewerten. Es gilt E(ε) = 0, d. h. es wird kein systematischer Einfluss durch die Residuen ausgeübt. Unser lineares Modell sieht also so aus - das sind Zufallsvariablen: Y = a + b · x + ε Für den i-ten Datenpunkt gilt dann natürlich: y i = a + b · x i + ε i Allgemein wird unterstellt, dass gilt: ε i ∼ N (0, σ 2 ) Damit sind a, b und σ 2 die unbekannten Parameter des Modells, die zu schätzen sind. Die Schätzfunktionen für a und b haben wir bereits auf der Seite 136 kennengelernt. Aufgrund der Annahme in Bezug auf die Residuen, gilt für die beiden geschätzten Parameter folgende Verteilung: ̂ a ∼ N (a, σ 2 a ) , ̂ b ∼ N (b, σ 2 b ) 18 Unter dem Stichwort Box-Cox-Transformation finden Sie einen Menge Hinweise, z. B. unter Wikipedia. <?page no="165"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 153 — le-tex Teil III Abhängigkeitsstrukturen 11.4. Erweiterung - multiple Regression 153 Dabei gilt: σ 2 ̂ a = σ 2 · x 2 n · (x 2 − ¯ x 2 ) σ 2 ̂ b = σ 2 n · (x 2 − ¯ x 2 ) Die unbekannte Varianz σ 2 schätzen wir durch: ̂ σ 2 = 1 n − 2 n ∑ i=1 ε 2 i Damit können wir Signifikanztests für die geschätzten Parameter der Geraden durchführen bzw. Konfidenzintervalle berechnen. Die Frage ist: Hat x einen Einfluss auf y? Hypothese (zweiseitig) H 0 : b = 0 vs. H 1 : b 6= 0 Prüfgröße T = ̂ b ̂ σ ̂ b H 0 ∼ t n−2 Ablehnbereich: Der übliche beim t-Test |T | > t 1−α/ 2,n−2 Um einen anderen Wert zu testen: H 0 : b = b 0 vs. H 1 : b 6= b 0 Dann ist die Prüfgröße: T = ̂ b − b 0 √ ̂ σ 2 ∑ n I=1 (x i −¯ x) 2 H 0 ∼ t n−2 Sie können auch die Konfidenzintervalle für die beiden Parameter berechnen: ̂ a : [ ̂ a − t 1−α/ 2,n−2 · ̂ σ ̂ a ; , ̂ a + t 1−α/ 2,n−2 · ̂ σ ̂ a ] ̂ b : [ ̂ b − t 1−α/ 2,n−2 · ̂ σ ̂ b , ̂ b + t 1−α/ 2,n−2 · ̂ σ ̂ b ] Nun fehlt nur die letzte Erweiterung. Wir haben es mit mehr als einer erklärenden Variable zu tun. Also ändert sich das Modell lediglich dahingehend, dass es nun mehrere erklärende Variablen gibt - mit a und b kommen wir jetzt nicht mehr weiter, daher wird üblicherweise die β i Notation verwendet: Y = β 0 + β 1 X 1 + β 2 X + . . . + β p Xp + ε Setzt man die beobachteten Daten ein, so ergibt sich: y i = β 0 + β 1 x i1 + β 2 x i2 + . . . + β p x ip + ε i mit i = 1, . . . , n <?page no="166"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 154 — le-tex 154 Kapitel 11. Regression Nun muss geschätzt werden, es können Signifikanztests durchgeführt werden usw. Das macht die Software. Wir wollen dazu noch einmal das Beispiel von der Seite 125 betrachten. Verschiedene Budgets haben zu verschiedenen Traffic-Zahlen (sogenannte Click-in auf die beworbene Webseite) geführt. Das macht Sinn. Der Zusammenhang hat sich als stark linear erwiesen. Auch das macht prinzipiell Sinn aufgrund des AdWords- Bezahlmodells. Es wurde schon die Einschränkung verraten, dass es sich um Unternehmen derselben Branche handelt. Darüberhinaus haben alle diese Firmen einen relativ ähnlichen sogenannten Qualitätsindex. Google misst damit, wie gut die Seite aufgebaut ist, ob sie regelmäßig aktualisiert wird etc. Je besser (höher) der Qualitätsindex ist, desto (einfachst formuliert) weniger kostet die AdWord- Schaltung bei Google bzw. je weiter oben wird man gelistet. Die Daten sollen nun um zwei zusätzliche Gruppen erweitert werden. Die folgende Graphik fasst die Lage zusammen: Budget Klicks 1000 2000 3000 4000 5000 5000 10000 15000 SEA Budget und generierte Klicks Budget Klicks 1000 2000 3000 4000 5000 5000 10000 15000 SEA Budget und generierte Klicks Qualität Klicks 30 40 50 60 70 80 5000 10000 15000 Qualitätsindex und generierte Klicks Qualität Budget 30 40 50 60 70 80 1000 2000 3000 4000 5000 Qualitätsindex und Budget Abbildung 11.15: Google-AdWords-Beispiel zur Regression <?page no="167"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 155 — le-tex Teil III Abhängigkeitsstrukturen 11.4. Erweiterung - multiple Regression 155 Sehr eindrucksvoll kann man erkennen, welchen Einfluss der Qualitätsindex auf das Zusammenspiel von Budget und Traffic hat. Wir können nicht mehr nur eine einzige Gerade durch die Graphik links oben legen. Durch das farbliche Hinzufügen der drei verschiedenen Qualitätsgruppen (rechts oben) sehen wir, dass wir ein zweites erklärendes Merkmal benötige. Idealerweise nicht das Merkmal Gruppen, da dies nur ein ordinales Messniveau aufweist. Links unten sehen wir, dass Klicks und Qualität stark miteinander korreliert sind, wohingegen (rechts unten) Qualität und Budget keinen Zusammenhang aufweisen. 11.4.2 SPSS - Regression Sie können mit SPSS ein gruppiertes Streudiagramm erstellen. Für den Bereich Farbe festlegen wählen Sie dann eine kategoriale Gruppierungsvariable. Hier die drei verschiedenen Qualitätsbereiche, die zusammengefasst wurden. Nun zur Regression. Steuern Sie wieder den Menüpunkt zur linearen Regression an. Dieser Dialog ergibt sich: Abbildung 11.16: Google-AdWords-Beispiel zur multiplen Regression - Dialog Unter Speichern können Sie wieder die Prognosen und Residuen speichern. Unter Statistiken können Sie sich u. a. Konfidenzintervalle und die Güte zur Anpassung ausgeben lassen. <?page no="168"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 156 — le-tex 156 Kapitel 11. Regression Der Output ist in der Regel dreigeteilt. Fangen wir mit der Modellzusammenfassung an: Abbildung 11.17: Multiple Regression - Modellzusammenfassung Hier sind R, R-Quadrat und Korrigiertes R-Quadrat wichtig. Das erst genannte ist der multiple Korrelationskoeffizient. Dieser ist nichts anderes als die Korrelation zwischen beobachtetem Wert für Klicks und dem Prognosewert. Den können Sie selber nachrechnen, da wir uns die Prognose ja gespeichert haben. Der Wert ist ziemlich groß. Das zweitgenannte ist offensichtlich der erklärte Anteil der Streuung von Klicks durch das Modell. Mit rund 79 % ist diese Zahl ziemlich groß. Wenn man die Qualität aus diesem Modell entfernt, dann fällt R 2 übrigens auf nur noch 40 %. Die letzte Zahl korrigiert R 2 um den Umfang der erklärenden Variablen. Man muss sich das folgendermaßen vorstellen. Jede weitere erklärende Variable, die in das Modell aufgenommen wird, wird dazu führen, dass der Anteil der erklärten Streuung steigt, das geht gar nicht anders. Andererseits bezahlt man einen Preis, die Freiheitsgrade werden kleiner. Das bedeutet, dass es schwieriger wird, signifikante Ergebnisse mit dem Modell zu erhalten. Wenn R 2 und korrigiertes R 2 immer dicht beieinander sind, so wie in diesem Beispiel, dann sind die erklärenden Variablen zu Recht im Modell. Wenn eine weitere Variable als erklärendes Merkmal aufgenommen wird und das korrigierte R 2 mit einem deutlich kleineren Wert reagiert, dann sollte man dringend einen Blick auf die erklärenden Merkmale werfen. Das korrigierte R 2 kann sogar negativ werden. 19 Soweit scheint alles in Ordnung mit dem Modell. 19 Die Formel hilft uns an dieser Stelle nicht unbedingt weiter. Man findet sie an entsprechender Stelle. <?page no="169"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 157 — le-tex Teil III Abhängigkeitsstrukturen 11.4. Erweiterung - multiple Regression 157 Als nächstes schauen wir uns die ANOVA-Tabelle an. Wie bereits erwähnt, ist die Regression ein Verfahren der Varianzanalyse. Abbildung 11.18: Multiple Regression - ANOVA-Tabelle Das Aussehen der Tabelle kennen wir bereits. Wir können aus der Tabelle z. B. das R 2 bestimmen. Die Tabelle zeigt uns die Summe der erklärten sowie der nichterklärten Streuung. Die Prüfgröße wird so berechnet, wie im Kapitel zur ANOVA beschrieben. Die Signifikanz ist gerundet Null. Es wird also die Hypothese deutlich abgelehnt, dass wir höchstens soviel erklären wie wir nicht erklären. Diese Modell erklärt den Zusammenhang zwischen Klicks und den erklärenden Merkmalen. Zum Schluss wird das geschätzte Modell ausgegeben: Abbildung 11.19: Multiple Regression - das Modell Wir sind an den nicht standardisierten Koeffizienten interessiert. Das Modell ist dann folgendermaßen abgeschätzt worden: Klicks Modell = −5328 + 2.086 · Budget + 109.8 · Qualität <?page no="170"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 158 — le-tex 158 Kapitel 11. Regression Die multiple lineare Regression isoliert den Einfluss der Faktoren und man kann die Koeffizienten folgendermaßen interpretieren: Für jeden Euro mehr Budget gibt es, ceteris paribus, rund 2 Klicks mehr. Für jeden Qualitätspunkt mehr sogar 110 Klicks. Nun kann man überlegen, ob ein autonomer Wert von -5328 Sinn macht. Eher nicht, denn ohne Budget keine Klicks. Er kann aus dem Modell entfernt werden. Unter Optionen können Sie das Häkchen bei Konstante in Gleichung einschließen entfernen. Probieren Sie das einmal. Das Ergebnis überzeugt. Die erklärenden Merkmale Budget und Qualität sind beide hoch signifikant. Unter Sig finden Sie den p-Wert, unter T den Wert der Prüfgröße. Wir lehnen die Hypothesen ab, dass der wahre Koeffizient für die beiden Merkmale im Modell Null ist. Am Ende bekommen Sie noch die Konfidenzintervalle. Also diejenigen Intervalle, die mit 95%iger Sicherheit den wahren (uns natürlich unbekannten) Wert der Koeffizienten überdecken, also den wahren Beitrag zu Klicks. Keines der Intervalle schließt die Null ein, natürlich nicht! Wir wollen noch einen Blick auf die Residuen werfen. Mindestens die folgenden zwei Dinge sind wichtig. Die Residuen sollen normalverteilt sein, das lässt sich überprüfen. Um sogenannte Endogenitäten in der Regression zu vermeiden, ist zu prüfen, ob die unabhängigen Variablen mit den Residuen korreliert sind. Wenn ja, ist das nicht gut. Wir haben im Rahmen des einfachen linearen Modells den Residuen-Plot angeschaut. Die Residuen schwankten zufällig um Null. Sie waren nicht korreliert mit dem erklärenden Merkmal. Schauen wir uns die Korrelationsmatrix an: Abbildung 11.20: Multiple Regression - Residuen Endogenität <?page no="171"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 159 — le-tex Teil III Abhängigkeitsstrukturen 11.4. Erweiterung - multiple Regression 159 Es ist gut zu sehen, dass die Residuen nicht mit den beiden erklärenden Merkmalen korrelieren. Die Korrelationen sind Null. Hier wäre es sinnvoll, noch einmal die nicht-parametrischen Korrelationen nach Spearman anzuschauen. Probieren Sie das einmal. Die Normalverteilungsannahme sollte auch nicht außer Acht gelassen werden. Die folgende Abbildung zeigt ein Histogramm der Residuen. Was meinen Sie? Welche Möglichkeiten kennen Sie noch? Abbildung 11.21: Multiple Regression - Residuen Histogramm SPSS bietet noch unter dem Menüpunkt Analysieren-> Regression-> Automatische lineare Modellierung die Möglichkeit, aus einer Menge von Prädiktoren, die besten für das Modell zusammenzustellen. Ungefähr sollten Sie sich vorstellen können, wie das funktionieren kann. Wir haben eine Reihe von KPI kennengelernt, anhand derer man eine Regression im Prinzip automatisch bewerten lassen kann. Welche würden Sie wählen? <?page no="172"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 160 — le-tex 160 Kapitel 11. Regression Wenn Sie einmal den Menüpunkt Regression durchgehen, werden Sie feststellen, dass SPSS Ihnen eine ganze Reihe weiterer Möglichkeiten anbietet. Unter anderem finden Sie dort die nicht lineare Regression. Denn selbstverständlich können alle möglichen funktionalen Zusammenhänge abgebildet werden. Die Mathematik und die Interpretationen sind prinzipiell analog zu denen bei der linearen Regression - minimiere die Abstände von der Empirie zum Modell. Ein Beispiel: Die Länge des Bremsweges eines Autos in ft (dist) soll erklärt werden durch die Geschwindigkeit in mph (speed), dieser Zusammenhang ist nun einmal aus physikalischen Gründen nicht linear sondern quadratisch: dist = β 0 + β 1 · speed + β 2 · speed 2 Diese Anpassungen haben sich ergeben linear, Polynom 1. Grades - und was sagen Sie zum Output (mal aus einer anderen Software, R, lm steht allgemein für lineares Modell): Call: lm(formula = dist ~ speed) Coefficients: (Intercept) speed -17.579 3.932 Multiple R-squared: 0.6511, Adjusted R-squared: 0.6438 Tabelle 11.1: Datensatz: Ausgabe Regression und quadratisch, Polynom 2. Grades: Call: lm(formula = dist ~ speed + I(speed^2)) Coefficients: (Intercept) speed I(speed^2) 2.47014 0.91329 0.09996 Multiple R-squared: 0.6673, Adjusted R-squared: 0.6532 Tabelle 11.2: Datensatz: Ausgabe Regression quadratisch <?page no="173"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 161 — le-tex Teil III Abhängigkeitsstrukturen 11.4. Erweiterung - multiple Regression 161 speed dist 5 10 15 20 25 0 20 40 60 80 100 120 Lineare und quadrtaische Anpassung Abbildung 11.22: Lineare und nicht-lineare Anpassung Falls Sie es mit Sättigunsgsphänomenen zu tun haben, dann bietet sich der Logarithmus als funktionales Modell an. Sie könnten die Daten auch logarithmieren und dann eine einfache lineare Regression durchführen. Manchmal (gerade im Marketing) muss man auch eine binäre Regression durchführen. Zum Beispiel könnte man sich die Frage stellen, welche Variablen einen Einfluss darauf haben, ob in einem Haushalt ein Auto vorhanden ist oder nicht. Die Zielvariable Y i ∈ [0, 1] ist kategorial, sogar nur binär: ja oder nein bzw. 1 oder Null. Die Zielvariable ist dann bernoulliverteilt mit p i = P (Y i = 1) und 1 − p i = P (Y i = 0) Das (multiple) lineare Regressionsmodell sieht formal erst einmal ganz genau so aus, wie im metrischen Fall der Zielvariable: Y i = β 0 + β 1 x i1 + β 2 x i2 + . . . + β p x ip + ε i mit i = 1, . . . , n <?page no="174"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 162 — le-tex 162 Kapitel 11. Regression Das Modell soll das Folgende abbilden - der Erwartungswert der Störgröße ist Null: E(Y i ) = p i Das ist problematisch, da gelten muss p i ∈ [0, 1]. Am Ende des Tages wird eine logistische Regression durchgeführt und diese liefert die gewünschten Ergebnisse. Die finden Sie auch unter der Bezeichnung logit, diese bezeichnen die logarithmierten Chancen (odds) als p i / (1 − p i ). Der Rechner übernimmt dies für Sie. <?page no="175"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 163 — le-tex Teil III Abhängigkeitsstrukturen Kapitel 12 Hauptkomponentenanalyse 12.1 Hintergrund und worum es geht Ab hier wird die Mathematik, d. h. Formeln sowie Berechnungen per Hand, deutlich in den Hintergrund treten. Das hat verschiedene Gründe. Zum einen wird die Mathematik nun relativ kompliziert - Stichworte: Spektralzerlegung, Eigenwertproblem, Varianz-Kovarianzmatrix usw. Zum anderen mag man das auch nicht mehr per Hand rechnen bzw. macht das einfach keinen Sinn. Der Rechner erledigt das. Sie sollten aber trotzdem in der Lage sein, eine solche Analyse durchzuführen und die Ergebnisse zu verstehen. Ihre Fähigkeiten sollten dabei auch nicht ausschließlich an eine bestimmte Software gebunden sein. Ziel: Sie können das mit jeder Software, weil Sie das Prinzip verstanden haben. Die HKA (englisch: Principal Components Analysis = PCA) wird an einem umfangreichen Datenbeispiel vorgestellt. Abschließend bekommen Sie einen Fahrplan zur Durchführung und Auswertung einer Hauptkomponentenanalyse - kurz: HKA. Fangen wir zunächst mit der Zielsetzung an, was bringt uns eine HKA? <?page no="176"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 164 — le-tex 164 Kapitel 12. Hauptkomponentenanalyse Ausgangspunkt ist immer eine mehrdimensionale, (m × p)-Datenmatrix mit metrischen Merkmalen, z. B. diese: pop.dens. Income Illiteracy Life Exp. Murder HS Grad Frost Alabama 71.3 3624 2.1 69.05 15.1 41.3 20 Alaska 0.6 6315 1.5 69.31 11.3 66.7 152 ...... Wisconsin 84.3 4468 0.7 72.48 3.0 54.5 149 Wyoming 3.9 4566 0.6 70.29 6.9 62.9 173 Dem.Party Unempl. bl.pop. 55.7 6.8 26.2 42.1 8.0 3.0 49.4 5.6 2.9 40.7 4.1 0.8 Quelle: www.census.gov Tabelle 12.1: Datensatz: USA-Daten Dies ist eine (50 × 10)-Matrix, d. h. wir haben es mit 500 Einträgen zu tun. Einen Teil der Daten haben wir bereits kennengelernt. Sind das viele Daten? Es kommt wohl darauf an. Im Vergleich zu den Datenmengen, die typischerweise auf amazon.com anfallen ist das nichts. Aber es sind viel zu viele, um grundlegende Fragen in Bezug auf die Staaten der USA zu beantworten: Welche Staaten sind sich ähnlich? Und warum? Kann man eine Rangfolge der Staaten in Bezug auf die Variablen Unempl., HS Grad und Illiteracy bilden? Können Sie eine Graphik erstellen, auf der alle Staaten zu sehen sind und bei der alle Merkmale (=Variablen) berücksichtigt werden und die uns etwas über die Beziehung der Staaten verrät? Welche Variablen sind am geeignetsten, um zwischen den Staaten zu diskriminieren? Kann man Variablen zusammenfassen, da sie im Grunde dasselbe aussagen? . . . Das Problem liegt in den vielen Dimensionen. Sobald wir den R 1 verlassen, gehen sämtliche Ordnungsstrukturen verloren, außer Sie haben überall strenge Monotonie vorliegen, was natürlich in der Regel nie der Fall ist. <?page no="177"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 165 — le-tex Teil III Abhängigkeitsstrukturen 12.1. Hintergrund und worum es geht 165 Folgendes möchten wir erreichen mit der HKA bzw. der Faktorenanalyse, beide Verfahren sind sich sehr ähnlich, die HKA werden wir deutlich ausführlicher behandeln: Die HKA ist ein so genanntes dimensionsreduzierendes Verfahren. Das heißt, es wird versucht die p-Variablen mit möglichst wenig Informationsverlust auf sogenannte Hauptkomponenten oder auch Faktoren zu reduzieren. → Im Idealfall sind das zwei Merkmale, denn im R 2 stehen uns viele Auswertungs- und Darstellungsmöglichkeiten zur Verfügung. Mathematisch gesprochen ist das Ziel, die Datenpunkte aus dem R p so in einen q-dimensionalen Unterraum R q<p zu projizieren, dass dabei möglichst wenig Information verloren geht und vorliegende Redundanz in Form von Korrelation in den Datenpunkten zusammengefasst wird. Das klingt kompliziert, ist es auch, denn es ist eine Spektralzerlegung der empirischen Varianz-Kovarianz-Matrix durchzuführen, was zu einer Bestimmung der Eigenwerte und Eigenvektoren dieser Matrix führt. Aber das soll uns nicht weiter stören. Übrigens stammt dieses Verfahren ursprünglich von Karl Pearson, den kennen Sie bereits. Was ist die grundsätzliche Idee, um dieses Ziel zu erreichen: Mit der HKA wird die Linearkombination der p-Merkmale gesucht, welche die maximale Varianz annimmt. Es werden so viele Linearkombinationen (Hauptkomponenten) gebildet, dass die gesamte Streuung der Daten berücksichtigt wird. Zu jeder Linearkombination (HK = Eigenvektor) wissen wir, wie viel Streuung erklärt wird (= Eigenwert). Die Summe der Eigenwerte ist also 1. Idealerweise sind die Daten annähernd normalverteilt, denn dann ist das Ziel der Unkorreliertheit erreicht. Warum maximale Streuung, sonst wollen wir doch immer eine kleine Streuung? Varianz bedeutet Information. Wenn alle 180 cm groß wären, dann ist zwar die Varianz Null, aber der Informationsgehalt in Bezug auf eine mögliche Einteilung oder Klassifizierung ist eben auch gleich Null. Die sinnvolle Annahme ist, dass je mehr ein Merkmal streut, wir umso mehr die Möglichkeit haben, die Objekte, die durch die Merkmale beschrieben werden, zu unterscheiden, zu klassifizieren. Darauf beruhen viele Verfahren. Schauen wir uns das einmal an. <?page no="178"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 166 — le-tex 166 Kapitel 12. Hauptkomponentenanalyse 12.2 Konkrete Durchführung einer HKA Ausgangspunkt ist der auf Seite 164 vorgestellte Datensatz, welcher Ihnen natürlich per Download zur Verfügung steht. Gesucht sind nun verschiedene Linearkombinationen unserer 10 eigentlichen Variablen mit dem Ziel, die Objekte möglichst gut zu charakterisieren und zu differenzieren. Wir wollen uns im Folgenden die Ergebnisse einer solchen HKA anschauen. Wie sehen die optimalen Linearkombinationen, die Hauptkomponenten aus und wie viel der Gesamtstreuung der Daten wird dadurch abgedeckt? Wie viele HK sollten wir in Betracht ziehen? Für die ersten vier Linearkombinationen ist der Anteil der erklärten Streuung abgebildet - nach absteigender Varianz sortiert, die letzten sechs haben also keine Bedeutung zu Erklärung der 50 Staaten durch die zehn Merkmale: Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 613.246443 204.9952218 50.22344774 8.798643865 Proportion of Variance 0.893851 0.0998809 0.00599526 0.000184003 Cumulative Proportion 0.893851 0.9937325 0.99972781 0.999911820 Tabelle 12.2: Datensatz: USA-HK-Analyse Die ersten beiden HKA erklären 99 % der Streuung der Daten, die erste alleine 89 %. D. h., die erste Linearkombination der zehn Merkmale kann die Unterschiedlichkeit, die Besonderheiten der Staaten fast vollständig erklären, anscheinend zumindest. Formal gibt es mehrere Möglichkeiten, die Anzahl der notwendigen HKA zu bestimmen - nur dass Sie wissen, was Sie da eigentlich bei einer Software auswählen. Es gilt: Mit möglichst wenigen HK möglichst viel der Gesamtstreuung der Objekte zu erklären: Die Varianz-Kovarianz-Matrix und auch die Korrelationsmatrix sind sogenannte symmetrische Matrizen. Auf der Hauptdiagonale stehen die Varianzen, auf den Nebendiagonalen die Kovarianzen. Diese ist BASIS der gesamten Analyse. Bei einer symmetrischen Matrix gilt: Die Summe der Hauptdiagonale (=Spur) ist gleich der Summe ihrer Eigenwerte. Die Eigenwerte sind aber HIER die Varianzen der HK. Also gilt: Die Summe der Eigenwerte einer Varianz-Kovarianz-Matrix ist gleich der Summe der Gesamtstreuung. <?page no="179"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 167 — le-tex Teil III Abhängigkeitsstrukturen 12.2. Konkrete Durchführung einer HKA 167 pop.dens. Income Illiteracy Life Exp. Murder HS Grad Frost Dem.Party Unempl. bl.pop. pop.dens. 48843 44810 1 27 -151 -158 26 239 191 99 Income 44810 377573 -164 281 -522 3077 7228 -1027 269 -2138 Illiteracy 1 -164 0 0 2 -3 -21 2 0 4 Life Exp. 27 281 0 2 -4 6 18 -3 0 -9 Murder -151 -522 2 -4 14 -15 -103 7 1 26 HS Grad -158 3077 -3 6 -15 65 154 -30 2 -54 Frost 26 7228 -21 18 -103 154 2702 -112 -35 -261 Dem.Party 239 -1027 2 -3 7 -30 -112 29 2 25 Unempl. 191 269 0 0 1 2 -35 2 4 1 bl.pop. 99 -2138 4 -9 26 -54 -261 25 1 86 1. Anteil der erklärten Streuung - also soviel Eigenwerte nehmen, dass die kumulierte Streuung größer als ein bestimmter Wert α ist. Typische Werte sind α = 0.75, 0.8, 0.85. → Hier würde man nur die erste HK in Betracht ziehen. 2. Scree-Plot - nur das links vom Knick nehmen: → Hier würde man wohl die ersten beiden wählen . . . Scree−Plot Wichtigkeit der HK Variances 0e+00 1e+05 2e+05 3e+05 4e+05 Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8 Comp.9 Comp.10 Abbildung 12.1: Scree-Plot <?page no="180"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 168 — le-tex 168 Kapitel 12. Hauptkomponentenanalyse 3. Kaiser-Kriterium - nur die Eigenwerte nehmen, die größer als der Mittelwert sind. Die folgenden sind (absteigend sortiert) die Wurzeln der Eigenwerte, also die Stichprobenstandardabweichung der HK, der Mittelwert ist 89. → man würde also auch die ersten beiden auswählen: 613.25 205.00 50.22 8.80 4.66 2.95 2.22 1.14 0.58 0.31 Tabelle 12.3: Datensatz: USA-HK-Analyse-Eigenwerte 4. Jolliffe-Kriterium - die auswählen, die größer als 70 % des Mittelwertes sind: 0.7 · 89 = 62.2 → also auch die ersten beiden Schauen wir uns die Linearkombinationen der Variablen einmal an - das sind die Eigenvektoren zum jeweiligen Eigenwert, das wird auch als Loadings bezeichnet - kein Eintrag heißt, Beitrag bzw. Gewicht kleiner als 0.1: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8 Comp.9 pop.dens. -0.13 0.99 Income -0.99 -0.13 Illiteracy Life Exp. 0.10 0.22 0.18 0.94 Murder -0.24 -0.16 -0.14 -0.81 0.44 0.15 HS Grad 0.52 -0.44 -0.69 0.13 0.16 Frost 0.99 -0.10 Dem.Party -0.26 0.72 -0.61 0.10 0.12 Unempl. -0.26 -0.36 -0.84 0.26 bl.pop. -0.75 -0.49 -0.22 0.33 Comp.10 0.99 Tabelle 12.4: Datensatz: USA-HK-Analyse-Eigenvektoren <?page no="181"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 169 — le-tex Teil III Abhängigkeitsstrukturen 12.2. Konkrete Durchführung einer HKA 169 pop.dens. Income Illiteracy Life Exp. Murder HS Grad Frost Dem.Party Unempl. bl.pop. −0.8 −0.6 −0.4 −0.2 0.0 1. HK pop.dens. Income Illiteracy Life Exp. Murder HS Grad Frost Dem.Party Unempl. bl.pop. 0.0 0.2 0.4 0.6 0.8 2. HK pop.dens. Income Illiteracy Life Exp. Murder HS Grad Frost Dem.Party Unempl. bl.pop. 0.0 0.2 0.4 0.6 0.8 3. HK Abbildung 12.2: Eigenvektoren, Loadings, Linearkombination Die erste HK sagt, wie man für jeden Staat, jedes Objekt, den Score, also die gewichtete Summe der Merkmal berechnen kann, über diesen kann man dann die Objekte vergleichen: Score Objekti = −0.133 · pop.dens i − 0.991 · Income i usw. Und was sagen Sie dazu? Die ersten beiden Linearkombinationen erklären ja 99 %! Die HKA bringt uns so gar nichts. Denn eigentlich wird alles über Income (1. HK) bzw. pop.dens. (2. HK) erklärt. Woran liegt das? Es liegt an den Varianzen - hier ist einmal nach Größe sortiert das s 2 x aufgelistet: Income pop.dens. Frost bl.pop. HS Grad Dem.Party Murder 377573.3 48842.7 2702.0 85.5 65.2 29.3 13.6 Unempl. Life Exp. Illiteracy 3.7 1.8 0.4 Tabelle 12.5: Datensatz: USA-HK-Analyse-Varianzen <?page no="182"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 170 — le-tex 170 Kapitel 12. Hauptkomponentenanalyse Völlig zurecht werden eigentlich nur die ersten beiden Merkmale gewählt, die machen zusammen nämlich gerade 99 % der Gesamtstreuung aus! Wenn die Varianzen sehr heterogen sind, dann muss man die Analyse auf Basis der Korrelationsmatrix durchführen - alles wird zwischen −1 und +1 gepresst. Denn stellen Sie sich vor, eine Prozentangabe wird auf einmal in Promille angegeben, aus Kilometer wird Meter usw. All das verändert die Varianzen, bedeutet aber keinen Mehrwert in Bezug auf die Informationslage. Nun haben wir folgendes Ergebnis: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Standard deviation 2.173190 1.327532 1.0627709 0.9069127 0.7306748 Proportion of Variance 0.472275 0.176234 0.1129482 0.0822490 0.0533885 Cumulative Proportion 0.472275 0.648509 0.7614580 0.8437070 0.8970956 Comp.6 Comp.7 Comp.8 Comp.9 Comp.10 Standard deviation 0.6879815 0.4818635 0.35030836 0.3395696 0.29241 Proportion of Variance 0.0473318 0.0232192 0.01227159 0.0115307 0.00855 Cumulative Proportion 0.9444274 0.9676467 0.97991832 0.9914490 1.00000 Tabelle 12.6: Datensatz: USA-HK-Analyse-Faktoren Das Kaiser-Kriterium führt dazu, die ersten drei HK zu wählen - hier sortiert nach absoluter Größe, je länger die Balken sind, desto größer ist natürlich der Einfluss: bl.pop. Illiteracy HS Grad Murder Life Exp. Frost Dem.Party Income Unempl. pop.dens. −0.2 0.0 0.2 0.4 1. HK Unempl. pop.dens. Income Frost Dem.Party HS Grad Life Exp. Illiteracy bl.pop. Murder −0.6 −0.4 −0.2 0.0 2. HK Dem.Party pop.dens. Murder HS Grad Income Life Exp. Frost Unempl. Illiteracy bl.pop. −0.4 −0.2 0.0 0.2 0.4 3. HK Abbildung 12.3: Loadings auf Basis der Cor-Matrix <?page no="183"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 171 — le-tex Teil III Abhängigkeitsstrukturen 12.2. Konkrete Durchführung einer HKA 171 Diese Faktoren oder HK sind zu interpretieren - alle drei bilden Kontraste zwischen den Merkmalen: 1. Hauptkomponente: Diese ist ein Kontrast zwischen den Variablen bl.pop., Illiteracy, Murder, Dem.Party, unempl. vs. HS Grad, Life Exp., Frost, Income. Wenn die erste Gruppe einen hohen Wert annimmt, dann nimmt die zweite einen niedrigen an. Das ist kein rühmliches Bild für ein Land. Die anderen sind ähnlich zu interpretieren. Schauen wir uns Bilder dazu an. Die folgende Abbildung zeigt 3-mal den im Prinzip gleichen Scatter-Plot der 50 Staaten, gebildet über die ersten beiden HK - immerhin fast 2/ 3 der Unterschiedlichkeit ist darüber erklärt. 20 1. HK 2. HK −2 0 2 4 −4 −3 −2 −1 0 1 2 Score der ersten beiden HK 1. HK 2. HK AL AK AZ AR CA CO CT DE FL GA HI ID IL IN IA KS KY LA ME MD MA MI MN MS MO MT NE NV NH NJ NM NY NC ND OH OK OR PA RI SC SD TN TX UT VT VA WA WV WI WY −2 0 2 4 −4 −3 −2 −1 0 1 2 Score der ersten beiden HK 1. HK 2. HK S W W S W W NE S S S W W NC NC NC NC S S NE S NE NC NC S NC W NC W NE NE W NE S NC NC S W NE NE S NC S S W NE S W S NC W −2 0 2 4 −4 −3 −2 −1 0 1 2 Score der ersten beiden HK AL AK AZ AR CA CO CT DE FL GA HI ID IL IN IA KS KY LA ME MD MA MI MN MS MO MT NE NV NH NJ NM NY NC ND OH OK OR PA RI SC SD TN TX UT VT VA WA WV WI WY −120 −110 −100 −90 −80 −70 30 35 40 45 50 ? Abbildung 12.4: Scatter-Plot der Scores der ersten beiden HK Wir haben eine ganze Menge über die Ähnlichkeit bzw. Unähnlichkeit der Staaten zueinander gelernt, wir wissen warum die Staaten unterschiedlich sind. Wir konnten neue Variablen bilden, zusammengesetzt aus den alten und diese sind auch noch unkorreliert (ganz streng genommen, nur wenn die NV-Annahme gilt). Wir haben erklärende Faktoren gefunden. 20 Was stellt der Scatter-Plot rechts unten dar? <?page no="184"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 172 — le-tex 172 Kapitel 12. Hauptkomponentenanalyse Sie können sich noch einen Bi-Plot z. B. in Bezug auf die ersten beiden HK erstellen lassen. Neben dem Score werden auch die Eigenvektoren für jede Variable eingezeichnet. So können Sie direkt ein Objekt in Bezug auf ein Merkmal bewerten. Abschließend noch ein paar Sätze zur Güte der HKA. 1. Wie gut ist die Projektion vom R 10 in den R 2 , passen die Konstellationen noch? Idee: Objekte (Staaten), die im R 10 dicht beieinander liegen, sollten dies auch im R 2 tun und umgekehrt. Letzteres ist leicht zu realisieren, ein Blick in den Scatter-Plot genügt. Den R 3 würde man wohl auch noch schaffen, aber nicht zehn Dimensionen. Lösung: Man berechnet die Entfernungen aller Objekte in Bezug auf die zehn Merkmale zueinander. Dann rechnet man den sogenannten minimal spannenden Baum aus. Das ist ein Linienzug, bei dem alle Objekte miteinander verbunden sind, und zwar auf die kürzeste Art und Weise. Diesen Baum projeziert man in den Scatter-Plot. Wenn im R 2 Objekte ganz dicht beieinander liegen, aber nicht durch den Linienzug miteinander verbunden sind bzw. der umgekehrte Fall, dann ist der Scatter-Plot keine gute Darstellung . . . nur dass Sie das mal gehört haben. 2. Man kann sich das anschauen oder eine Maßzahl dazu berechnen, den sogenannten STRESS-Wert. Dieser ist in unserem Fall recht hoch, das liegt an der Konstellation der Daten und daran, dass wir nicht die Varianz-Kovarianz- Matrix verwandt haben. 3. Grundsätzlich ist es besser, die Varianz-Kovarianz-Matrix zu nehmen, wenn das Sinn macht, da stecken natürlich mehr Informationen drin. Das ist ähnlich wie der Vergleich arithmetisches Mittel vs. Median. 12.3 Fahrplan einer HKA Die folgenden sieben Punkte sind ein guter Wegweiser, um eine HKA durchzuführen - die Software nimmt Ihnen vieles ab. Aber an der ein oder anderen Stelle sind Entscheidungen durch Sie zu treffen, dann sollten Sie wissen, was Sie tun: 1. Liegt ein hoch dimensionaler Datensatz vor, der in einem niedrig dimensionalen Raum dargestellt werden soll? Man möchte verstehen, warum die Objekte unterschiedlich bzw. sich ähnlich sind? 2. Erfüllen die Daten die Voraussetzungen? Mindestens einer der beiden folgenden Punkte muss erfüllt sein. Alle Merkmale sind quantitativ. Die Daten liegen als Varianz-Kovarianz-Matrix oder Korrelationsmatrix vor. <?page no="185"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 173 — le-tex Teil III Abhängigkeitsstrukturen 12.4. Faktorenanalyse 173 Sind die Voraussetzungen nicht erfüllt, so sollte man Distanzen zwischen den Objekten bestimmen und eine mehrdimensionale Skalierung durchführen. Hiermit beschäftigen wir uns nicht - höchstens ganz kurz am Rande. 3. Soll die Hauptkomponentenanalyse auf Basis der Varianz-Kovarianz-Matrix oder auf Basis der Korrelationsmatrix durchgeführt werden? Man muss überprüfen, ob sich die Varianzen der Merkmale stark unterscheiden. Ist dies der Fall, so sollte man die Hauptkomponentenanalyse auf Basis der Korrelationsmatrix durchführen. 4. Die Eigenwerte und Eigenvektoren der Varianz-Kovarianz-Matrix bzw. der Korrelationsmatrix werden bestimmt. 5. Wie viele Hauptkomponenten benötigt man? Kriterien sind: Anteil der Gesamtstreuung, die durch die Hauptkomponenten erklärt wird. Kaiser-Kriterium Jolliffe-Kriterium Scree-Plot 6. Wird eine Darstellung im R 2 gewählt, so sollte man den minimal spannenden Baum erstellen. 7. Die Hauptkomponenten werden interpretiert. 12.4 Faktorenanalyse Abschließend seien noch ein paar Worte zur Faktorenanalyse gesagt. Die Faktorenanalyse ist grundsätzlich in der Nähe der HKA anzusiedeln. Beide Verfahren sind dimensionsreduzierende Verfahren. Beide Verfahren basieren auf Analysen der Varianz-Kovarianzbzw. Korrelationsmatrix. Beide Verfahren sind lineare Modelle zwischen den Komponenten/ Faktoren und Variablen. Und schlussendlich kommen beide Verfahren zu in der Regel sehr ähnlichen Ergebnissen. Offensichtlich gibt es Unterschiede, der Ansatz ist etwas anders gewählt. Bei der Faktorenanalyse geht der Modellierungsansatz, also die Idee, auf die der partiellen Korrelation zurück. Wir haben das bereits im Kapitel 11.2 auf den Seiten 140 ff. kennengelernt. Die Korrelation zwischen zwei Merkmalen wird durch ein drittes beobachtetes erklärt - die Korrelation zwischen Gewicht (Y) und Schuhgröße (Z) konnte eindeutig auf die Größe (X) zurückgeführt werden. Der partielle Korrelationskoeffizient r Y Z.X nahm den Wert 0.035 an. Erzielt wurde das durch die Regressionen Y auf X und Z auf X und anschließende Korrelationsbetrachtung der jeweiligen Residuen. Das Problem ist: Ein solches Merkmal muss nicht notwendigerweise beobachtbar sein. Es ist etwas da, aber wir können es nicht greifen. <?page no="186"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 174 — le-tex 174 Kapitel 12. Hauptkomponentenanalyse Ziel der Faktorenanalyse ist es, diese latenten Variablen oder auch Faktoren zu eruieren. Und das wird genau über den geschilderten Regressionsansatz erreicht, die einzelnen Variablen werden auf alle anderen regressiert. Das Modell sieht dann, ganz grundsätzlich, so aus: Die Korrelationen zwischen den Variablen Y 1 . . . Y p sollen durch einen Faktor F erklärt werden. Wenn also z. B. ein Faktor F die Korrelation zwischen Y 1 (Gewicht) und Y 2 (Schuhgröße) erklärt, dann sollten die Variablen Y 1 und Y 2 linear von F abhängen: Y 1 = µ 1 + l 1 F + ε 1 , Y 2 = µ 2 + l 2 F + ε 2 µ 1 , l 1 usw sind Parameter, ε i ist eine Zufallsvariable. Wenn F aber den Zusammenhang zwischen Y 1 und Y 2 erklärt, dann: r 12.F = 0 daraus ergibt sich natürlich Cov(ε 1 , ε 2 ) = 0 allgemein gilt damit folgendes Modell: Y i = µ i + l i F + ε i dabei ist l i die Faktorladung (Loadings), ε i ist der Zufallsfehler, auch spezifischer Faktor genannt. Es gilt E(F ) = 0 und Var(F ) = 1 sowie Cov(ε, F ) = 0 d. h. Zufallsfehler und Faktor sind unkorreliert. Bei der HKA wird die varianzmaximale Linearkombination gesucht, die 1. HK erklärt am meisten usw. Man entscheidet dann, wie viele Faktoren man berücksichtigt. Bei der Faktorenanalyse gibt man vor, wie viele Faktoren man haben möchte. Häufig wird dieser Auswahlprozess im Prinzip über die HKA geregelt. In der Faktorenanalyse wird zunächst die Dimension des Faktorraums festgelegt und alle Vektoren stehen gleichberechtigt nebeneinander. Und das Ziel ist es, die Korrelationen optimal zu modellieren. Im Rahmen der Modellierung gilt dann: Var(Y i ) = l 2 i + ψ i <?page no="187"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 175 — le-tex Teil III Abhängigkeitsstrukturen 12.5. SPSS - HKA 175 Dabei ist l 2 i die sogenannte Kommunalität, d. h. der Anteil des Faktors an der Varianz von Y i . Der Summand ψ i (psi) heißt spezifische Varianz und ist die Varianz des spezifischen Faktors (Zufallsfehler): Var(ε i ) = ψ i 12.5 SPSS - HKA Für die konkrete Durchführung wollen wir den USA-Datensatz verwenden. Über diesen Menüpunkt können Sie die HKA starten: Abbildung 12.5: HKA - Menü Im Dialog zur HKA können Sie ein ganze Reihe an Einstellungen vornehmen. Unter Extraktion bestimmen Sie die Methode, mit der die Hauptkomponenten erstellt werden. Wählen Sie hier Hauptkomponenten. Die Analyse soll, wie wir bereits wissen, auf Basis der Korrelationsmatrix durchgeführt werden, da die Varianzen der einzelnen Merkmale sehr heterogen sind. Wir haben die Möglichkeit, festzulegen, wie viele Faktoren (HK) extrahiert werden sollen. Wir wollen hier zwei wählen, da wir die Analyse bereits kennen. Wir wissen, dass drei Eigenwerte (also die normierte Streuung) größer sind als 1. Wir wollen mit der nicht rotierten Faktorlösung beginnen. Dazu gleich mehr. Und der Scree-Plot soll erstellt werden. Unter Rotation ist entsprechend keine zu wählen. die Ladungsdiagramme möchten wir sehen. <?page no="188"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 176 — le-tex 176 Kapitel 12. Hauptkomponentenanalyse Unter Scores können wir die Scores für jedes Objekt speichern. Wählen Sie hier Regression. 21 Abbildung 12.6: HKA - Menü Der Output ist nun relativ umfangreich. Fangen wir mit der Varianz bzw. den Eigenwerten an. Zur Erinnerung: Das Ziel war es, Faktoren zu finden (möglichst nur zwei), mit denen für jedes Objekt zwei neue Datenpunkte (Scores) berechnet werden können. Statt der ursprünglich zehn Merkmale mit einer Gesamtstreuung σ 2 verwenden wir nur zwei Merkmale, die Scores. Die Frage ist: Wie viel der Gesamtstreuung werden dadurch abgebildet. Die Antwort in der Tabelle lautet knapp 65 %. Das ist nicht schlecht. Der erste Faktor, die erste Hauptkomponente erklärt über 47 % der Gesamtstreuung von zehn Merkmalen! Abbildung 12.7: HKA - Ergebnis erklärte Varianz/ Eigenwerte 21 Die verschiedenen Methoden spiegeln verschiedene mathematische Ansätze wider. Dabei werden (i. d. R.) leichte Unterschiede in Bezug auf Eigenschaften wie Validität oder Korrelation zwischen Faktoren realisiert. <?page no="189"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 177 — le-tex Teil III Abhängigkeitsstrukturen 12.5. SPSS - HKA 177 Es gibt grundsätzlich immer gerade so viele Faktoren, wie es Merkmale gibt. Alle zehn Faktoren erklären dann natürlich 100 %. Da wir vorher bestimmt haben, dass wir nur zwei Faktoren extrahieren wollen, sind für die rechten Spalten nur die ersten beiden Zeilen gefüllt. Das Kaiser-Kriterium hätte dazu geführt, drei Faktoren/ Hauptkomponenten zu wählen. Der Mittelwert der Eigenwerte (=normierte Varianz) ist immer 1. Schauen wir uns kurz den Scree-Plot an, der eine weitere Möglichkeit bietet, die Anzahl der Faktoren zu wählen. Der Scree-Plot ist ein Linienzug der Eigenwerte. Hier sieht es so aus, also sollte man vier oder sogar fünf Faktoren wählen. Fünf Faktoren erklären fast 90 % der Streuung. Das ist gut. Aber fünf Faktoren sind zu viele. Abbildung 12.8: HKA - Scree-Plot Die folgende Abbildung zeigt die Kommunalitäten vor und nach der Extraktion. Alle zehn Faktoren erklären natürlich 100 % (=1) der Varianz jedes Merkmals. Nach der Extraktion der zwei Faktoren werden die Anteile der Varianzen angegeben, die von jeder Variable durch die beiden Faktoren erklärt werden - in der gewichteten Mischung sind das dann die 64.851 %: <?page no="190"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 178 — le-tex 178 Kapitel 12. Hauptkomponentenanalyse Abbildung 12.9: HKA - Kommunalität Die Eigenvektoren sind nun die eigentlichen Gewichtungen für die gesuchte Linearkombination der zehn Merkmale. Wie Sie sehen, ergeben sich die bekannten Kontraste zwischen den Merkmalen. Abbildung 12.10: HKA - Ergebnis-Eigenvektoren <?page no="191"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 179 — le-tex Teil III Abhängigkeitsstrukturen 12.5. SPSS - HKA 179 Per Doppelklick in die Tabelle aktivieren Sie den Bearbeitungsmodus. Sie können dann die beiden Spalten mit den Namen markieren und per Rechtsklick die Graphik Balkendiagramm wählen: Abbildung 12.11: HKA - Ergebnis-Eigenvektoren als Balkendiagramm Die letzte Darstellung des Ergebnisses ist das Komponentendiagramm. Alle Gewichte werden hier dargestellt. Auf der x-Achse die 1. HKA, auf der y-Achse die 2. HKA. Die Darstellung ist im Prinzip ähnlich des Score-Plots. Nur dass hier nicht die Objekte, sondern die Merkmale dargestellt sind. Diese Graphik ist eine sehr gute Darstellung, um die HK zu interpretieren. Man kann sehr gut erkennen, welche Merkmale ähnlich und welche als Kontrast zueinander eingestuft wurden. <?page no="192"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 180 — le-tex 180 Kapitel 12. Hauptkomponentenanalyse Abbildung 12.12: HKA - Komponentendiagramm Zum Abschluss noch ein Hinweis zu den Rotationsverfahren. Die Eigenvektoren (Faktoren, Hauptkomponenten, Ladungen) spannen einen Raum im R 10 auf. Mit Hilfe von Rotatiosnverfahren wird das Koordinatensystem solange gedreht, bis ein bestimmtes Kriterium erfüllt ist, z. B. soll die Varianz der quadrierten Ladungen maximiert werden. Der aufgeklärte Varianzanteil wird natürlich nicht erhöht dadurch. Oft sind aber die ersten errechneten Faktorlösungen nur schwer interpretierbar. Die Rotation soll helfen, die Interpretationssiutation deutlicher zu machen. Schauen Sie sich hier einmal das Ergebnis der HKA mit der Varimax-Rotation an: <?page no="193"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 181 — le-tex Teil III Abhängigkeitsstrukturen 12.5. SPSS - HKA 181 Abbildung 12.13: HKA - Eigenwerte rotiert <?page no="194"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 182 — le-tex 182 Kapitel 12. Hauptkomponentenanalyse Wie Sie sehen, haben sich die Eigenwerte nur sehr leicht verändert. Die 2. HK hat einen etwas höheren Anteil, die 1. HK einen niedrigeren bekommen. Die Summe bleibt gleich. Die Veränderungen sind in diesem Fall vernachlässigbar. Auch das folgende Komponentendiagramm der rotierten Lösung sieht genau so aus, wie das der Anfangslösung. Abbildung 12.14: HKA - Komponentendiagramm rotiert. <?page no="195"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 183 — le-tex Teil III Abhängigkeitsstrukturen Kapitel 13 Aufgaben Teil III 1. Im Webservice finden Sie eine große Excel-Tabelle mit verschiedenen multivariaten Datensätzen. Schaue Sie sich diese je nach Kontext in Bezug auf die vorgestellten Themen in diesem Abschnitt an. Wählen Sie angemessene Methoden und Darstellungen aus. 2. Die Erkenntnis, dass jeder Mensch seine Lieblingszahl hat, wird von der niederländischen Finanzverwaltung neben anderen Methoden bei Außenprüfungen genutzt, um Hinweise über den Wahrheitsgehalt von Buchführungen zu erhalten. Dabei wird die Verteilung der letzten oder der vorletzten Ziffer vor dem Komma analysiert. Bei größeren Zahlenkolonnen sollte man erwarten, dass ungefähr 10 % der Ziffern eine 0 sind, 10 % der Ziffern eine 1, 10 % eine 2, usw. Mit anderen Worten sind die Ziffern 0 bis 9 gleichverteilt. Bucht nun ein Unternehmer nicht die tatsächlichen Zahlen, sondern will er seinem Glück nachhelfen und trägt erfundene Zahlen z. B. ins Kassenbuch ein, spielen psychologische Faktoren eine große Rolle. Jeder Mensch hat unterbewusst seine Lieblingsziffern. Bei einer größeren Anzahl von fingierten Buchungen sind somit systematische Abweichungen zu erwarten. Die bevorzugten Zahlen sollten deutlich öfter als erwartet vorkommen und die Zahlen, gegen die der Unternehmer eine gewisse Abneigung hegt, deutlich seltener. So war das Geschäft des Einzelhändlers R im Jahre 1998 an 336 Tagen geöffnet. Das Kassenbuch umfasst 336 Eintragungen von Tageseinnahmen. Als beobachtete Endzifferverteilung ergab sich (J. Wiethölter, Der Bezirk, 4-2001, S. 14 ff.): Ziffer 0 1 2 3 4 5 6 7 8 9 tatsächl.Anzahl 67 19 38 15 29 25 63 31 29 20 Was meinen Sie dazu? <?page no="196"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 184 — le-tex 184 Kapitel 13. Aufgaben Teil III 3. Die American Mathematical Society (AMS) veröffentlichte folgende Statistik über den Anteil der Frauen unter den US-Bürgern mit Doktortiteln (in Prozent) (= X) und den Anteil der Frauen in den Herausgebergremien für Zeitschriften der Gesellschaft (= Y ). Jahr 76 77 78 79 80 81 82 83 84 85 ----------------------------------x 12 13 14 16 15 18 17 20 20 20 y 5 5 4 5 6 7 7 7 9 8 Welche Zusammenhänge sehen Sie? Modellieren Sie diese angemessen. 4. Für 25 Unternehmen wurden zufällig ausgewählte Mitarbeiter nach ihren Anfangsgehältern befragt. Dabei wurde jedes Unternehmen jeweils ein Einsteiger mit FHbzw. Universitätsabschluss und einer ohne Abschluss erfasst. Die Werte sind in der Datei graduates.csv zusammengefasst. Haben Akademiker im Durchschnitt höhere Einstiegsgehälter? 5. Für eine Untersuchung zum Sprechverhalten wurden Professoren einer amerikanischen Universität von drei verschiedenen Fachbereichen (Englisch, Mathematik, Politik) beobachtet. Dabei wurde gezählt, wie oft sie Füllwörter wie ah pro Minute verwenden. Die Beobachtungen sind in fuellwoerter.csv zusammengefasst. (a) Unterscheiden sich die Fakultäten signifikant? (b) Unterscheiden sich die Anglisten signifikant von den anderen Fakultäten? 6. Der folgende Datensatz gibt die Preise (in Singapur Dollar) für Diamantringe für Damen an. Die Ringe sind aus 20 karätigem Gold gefertigt und haben alle einen einzelnen Diamanten. Die Werte stammen aus einer Zeitungsanzeige. Die Daten legen eine Preisgestaltung in der Form nahe, dass einfach der Preis proportional zu dem Gewicht des Diamanten ist. Um diesen Eindruck zu überprüfen, soll ein linearer Regressionsansatz aufgestellt werden. Die Koeffizienten sind zu schätzen und es sind geeignete Tests durchzuführen. Gegen den unterstellten Preisfindungsmechanismus würden eine nicht positive Steigung sowie ein Achsenabschnitt kleiner oder gleich Null sprechen. <?page no="197"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 185 — le-tex Teil III Abhängigkeitsstrukturen Kapitel 13. Aufgaben Teil III 185 Gewicht Preis Gewicht Preis Gewicht Preis Gewicht Preis 0.17 355 0.18 462 0.18 468 0.17 350 0.16 328 0.28 823 0.16 345 0.32 918 0.17 350 0.16 336 0.17 352 0.32 919 0.18 325 0.20 498 0.16 332 0.15 298 0.25 642 0.23 595 0.17 353 0.16 339 0.16 342 0.29 860 0.18 438 0.16 338 0.15 322 0.12 223 0.17 318 0.23 595 0.19 485 0.26 663 0.18 419 0.23 553 0.21 483 0.25 750 0.17 346 0.17 345 0.15 323 0.27 720 0.15 315 0.33 945 0.15 316 0.15 287 0.25 678 0.35 1086 0.26 693 0.25 675 0.18 443 0.25 655 7. Im Rahmen einer Untersuchung verschiedener Magazine wurde auch die Frage gestellt, wie sich die Werbung in verschiedenen Magazintypen unterscheidet. Es wurden drei Gruppen von Magazinen gebildet, wobei die der Gruppe 1 die Leserschaft mit dem höchsten Bildungsabschluss hatte und die der Gruppe 3 die mit dem niedrigsten. Eine der untersuchten Charakteristiken war die Anzahl X der Wörter pro Anzeige. Aus verschiedenen Magazinen wurden Anzeigen zufällig ausgewählt und ihre Wörter ausgezählt. Wenn man unterstellt, dass die Wortanzahlen approximativ normalverteilt ist, ist dann der Unterschied zum Niveau α = 0.05 signifikant? Woher rührt er gegebenenfalls? Gruppe 1 Gruppe 2 Gruppe 3 205 80 215 191 94 82 162 97 68 203 208 153 219 206 88 31 169 32 229 89 205 205 197 39 85 78 50 208 49 34 57 68 139 111 195 208 146 93 39 105 44 72 88 111 81 230 46 88 109 203 67 60 208 83 8. In einem Beratungszentrum einer bayerischen Kleinstadt soll eine Stelle für telefonische Seelsorge eingerichtet werden. Es wird vermutet, dass der Dialekt eine wesentliche Rolle beim Beratungsgespräch spielt, was sich in längeren Beratungsgesprächen äußert. Zur Klärung dieser Frage wurde eine Studie mit drei Beratern durchgeführt, die unterschiedliche Dialektausprägungen hatten. (Berater 1: hochdeutsch, Berater 2: hochdeutsch mit mundartlicher Färbung, Berater 3: bayerisch) <?page no="198"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 186 — le-tex 186 Kapitel 13. Aufgaben Teil III Die ankommenden Anrufe wurden zufällig auf die drei Berater verteilt. Für jedes Beratungsgespräch wurde dessen Dauer in Minuten erhoben. Die Gesprächsdauer kann dabei als approximativ normalverteilte Zufallsvariable angesehen werden. Berater 1 Berater 2 Berater 3 8 4 10 10 14 15 14 6 7 12 18 11 20 15 6 16 18 12 Hat der Dialekt einen Einfluss? 9. Teenager verschiedener Altersgruppen wurden befragt, wie oft sie pro Jahr ins Kino gehen (teenage_moviegoers.csv). Sind signifikante altersbedingte Unterschiede festzustellen? 10. Erstellen Sie eine Hauptkomponentenanalyse anhand der Daten der Ergebnisse der PISA-Studie (Datensatz: pisa.csv). Stellen Sie die Ergebnisse grafisch dar. Gehen Sie insbesondere auf die Fragen ein, wie viele Hauptkomponente benötigt werden, und ob die Analyse aufgrund der Varianz-Kovarianz-Matrix oder aufgrund der Korrelationsmatrix erstellt werden sollte. 11. Der Datensatz banknoten.csv enthält sechs verschiedene Abmaße (Länge, linke bzw. rechte Höhe, Abstand Rahmen zu unterem bzw. oberem Rand, Diagonallänge) von 100 echten (1 . . . 100) und 100 gefälschten 100-Franken- Banknoten (101 . . . 200). (a) Stellen Sie die Daten graphisch dar. Erkennen Sie Auffälligkeiten? (b) Führen Sie eine Hauptkomponentenanalyse durch. i. Wie viele Hauptkomponenten benötigt man? (Verwenden Sie zumindest zwei unterschiedliche Kriterien, um diese Frage zu beantworten! ) ii. Erstellen Sie ein Streudiagramm der ersten beiden HK. Was ist auffällig? iii. Stellen Sie die Komponentenladungen der benötigten HK grafisch dar und interpretieren Sie die Resultate. iv. Welchen Prozentsatz der Gesamtstreuung erklärt die erste Hauptkomponente? <?page no="199"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 187 — le-tex Teil III Abhängigkeitsstrukturen Kapitel 13. Aufgaben Teil III 187 12. Bei den Vereinen der ersten Fußballbundesliga steigt tendenziell mit der Größe der Stadien auch die Anzahl der im Abonnement verkauften Plätze (jeweils in 1000). Für die Beziehung wird der Ansatz Abo i = a + b · Platz i + u i , (i = 1, . . . , 18) unterstellt. Verein Abo Platz Verein Abo Platz Bayern München 35.0 66.0 Hannover 96 16.0 49.0 Schalke 04 44.0 61.5 FSVMainz05 15.0 20.5 Werder Bremen 24.0 42.5 1.FC Kaiserslautern 18.5 48.5 Hertha BSC 18.0 74.4 Arminia Bielefeld 8.0 26.5 VfB Stuttgart 16.0 48.5 1. FCNürnberg 8.0 44.5 Bayer Leverkusen 17.0 22.5 Borussia Mönchengl. 26.0 53.5 Borussia Dortmund 44.0 83.0 1.FC Köln 25.5 50.5 Hamburger SV 25.0 55.0 MSV Duisburg 12.0 31.5 VfL Wolfsburg 7.0 30.0 Eintracht Frankfurt 18.5 50.5 13. Als die US-Armee noch eine Pflichtarmee war, wurde jedes Jahr ein Teil eines Jahrganges zum Militärdienst eingezogen (= Draft). Nur ein Teil, da alle in Frage kommenden eine zu große Anzahl darstellte. Bis einschließlich 1969 war es Aufgabe gewisser lokaler Kommitees, diese Auserwählten zu bestimmen. Dieses Verfahren war sehr anrüchig, und es haftete ihm der Vorwurf der Vetternwirtschaft an. Mit anderen Worten die Ziehung war nicht gerecht. Was heißt gerecht? In diesem Zusammenhang wohl, dass jeder in Frage kommende junge Mann die gleiche Wahrscheinlichkeit hat, gezogen zu werden bzw. vom Dienst verschont zu bleiben. Für die Ziehung im Jahre 1970 entschied man sich nun für ein landesweites Losverfahren, welches folgendermaßen durchgeführt wurde. In einem Behälter wurden 366 beschriftete Kugeln platziert, die jeden möglichen Geburtstag des Jahres 1952 repräsentierten. 22 Es wurde ohne Zurücklegen gezogen. Die erste Kugel, die dem Behälter entnommen wurde, kennzeichnete den Tag des Jahres 1952, der bei der Einberufung zuerst berücksichtigt wurde. Wurde also, wie gleich zu sehen, der 14. September zuerst gezogen, wurden alle an diesem Tag geborenen Männer zuerst eingezogen. Es wurde so fortgefahren, bis alle Kugeln entnommen waren. 22 Es sind 366 Tage, weil 1952 ein Schaltjahr war. 1952 ist das entscheidende Jahr, weil die Männer, die 1970 zum Militärdienst müssen, eben 1952 geboren wurden <?page no="200"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 188 — le-tex 188 Kapitel 13. Aufgaben Teil III Wie bereits erwähnt, war die Gesamtzahl der potentiellen neuen Soldaten zu hoch. D. h., Geburtstage, die erst sehr spät gezogen wurden, bedeutet für die an einem solchen Geborenen, dass sie vielleicht nicht für einen Draft berücksichtigt wurden - je später gezogen, desto größer die Wahrscheinlichkeit. Nach dem Losverfahren wurde nämlich - in der gezogenen Reihenfolge - nur solange einberufen, bis die benötigte Anzahl erreicht wurde. Wenn z. B. die ersten 200 Geburtstage ausreichen, müssen die restlichen 166 nicht zum Militärdienst. Das Ergebnis der Ziehung ist in der folgenden Kontingenztabelle zusammengefaßt. In den Zellen steht wann welcher Tag gezogen wurde; als erster also der 14. September, als letzter der 8. Juni - ist dieses Losverfahren fair? draft70 Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 1 306 86 108 32 330 249 93 111 205 359 19 129 2 159 144 29 271 298 228 350 45 161 125 34 328 3 251 297 267 83 40 301 115 261 49 244 348 157 4 215 210 275 81 276 20 279 145 232 202 260 165 5 101 214 293 269 364 28 188 54 82 240 310 56 6 224 347 139 253 155 110 327 114 6 87 76 10 7 305 91 122 147 35 85 50 168 8 234 51 12 8 199 181 213 312 321 366 13 48 184 283 97 105 9 194 338 317 219 197 335 277 107 263 342 80 43 10 325 216 323 218 65 206 284 21 71 220 282 41 11 329 150 136 14 37 134 248 324 158 237 46 39 12 221 68 300 346 133 272 15 142 242 72 66 314 13 318 152 259 124 295 69 42 307 175 138 126 163 14 238 3 354 231 178 356 331 198 1 294 127 26 15 17 89 169 273 130 180 322 102 113 171 131 320 16 121 212 166 148 55 274 120 44 207 254 106 96 17 235 189 33 266 112 73 98 154 255 288 143 304 18 140 292 332 90 278 341 190 141 246 5 146 128 19 58 25 200 336 75 104 227 311 177 241 203 24 20 280 302 239 345 183 360 187 344 63 192 185 135 21 186 363 334 62 250 60 27 291 204 243 156 70 22 337 290 265 316 326 247 153 339 160 117 9 53 23 118 57 256 252 319 109 172 116 119 201 182 162 24 59 236 258 2 31 358 23 36 195 196 230 95 25 52 179 343 351 361 137 67 286 149 176 132 84 26 92 365 170 340 357 22 303 245 18 7 309 173 27 355 225 268 74 296 64 289 352 233 264 47 78 28 77 299 223 262 308 222 88 167 257 94 281 123 29 349 285 362 191 226 353 270 61 151 229 99 16 30 164 NA 217 208 103 209 287 333 315 38 174 4 31 211 NA 30 NA 313 NA 193 11 NA 79 NA 100 <?page no="201"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 189 — le-tex Teil III Abhängigkeitsstrukturen Kapitel 13. Aufgaben Teil III 189 14. Am 20. Januar 1986, kaum zwei Minuten nach ihrem Start, explodierte die Spaceshuttle Challenger. Ein oder mehrere Dichtungsringe versagten, so dass heiße Gase ausströmen konnten. Eine (positive) Reaktion der Dichtungsringe auf warme Außentemperaturen war wohl bekannt, d. h. warme Temperaturen sind unproblematisch. Die Wettervorhersage für diesen 24. Start im NASA Spaceshuttle-Programm lag bei 31 F (knapp unter dem Gefrierpunkt). So kalt war es noch nie vor einem Start. Um einen möglichen Einfluss der Kälte zu bestimmen, wurden von den vorher stattgefundenen Flügen diejenigen betrachtet, bei denen ein oder mehrere Dichtungsringe nicht korrekt funktioniert haben. Dazu wurden bei diesen insgesamt sieben Flügen die Bodentemperatur beim Start mit der Anzahl der undichten Ringe verglichen. Bei den anderen 16 Flügen ging alles glatt, diese Informationen wurden also nicht berücksichtigt. Hier die Datenlage zu den sieben Flügen (Temperaturen in Fahrenheit, Anzahl defekte Dichtungsringe bei der Temperatur): 53 57 58 63 70 70 75 2 1 1 1 1 1 2 (a) Stellen Sie die Daten in einem Scatter-Plot dar. Was sehen Sie? (b) Bestimmen Sie den Korrelationskoeffizienten. (c) Bestimmen die Regressionsgerade. (d) Zeichnen Sie diese in das Streudiagramm ein. (e) Interpretieren Sie Ihr Ergebnis. (f) Berechnen Sie den Wert ̂ Y , den das Modell für X = 32 vorhersagt, also die Anzahl der defekten Dichtungsringe In der folgenden Tabelle sind die vollständigen Daten aller bisherigen 23 Flüge zusammengetragen: Temperatur Dichtungsringe 1 53 2 2 57 1 3 58 1 4 63 1 5 66 0 6 67 0 7 67 0 8 67 0 9 68 0 10 69 0 11 70 0 12 70 0 Temperatur Dichtungsringe 13 70 1 14 70 1 15 72 0 16 73 0 17 75 0 18 75 2 19 76 0 20 76 0 21 78 0 22 79 0 23 81 0 Es gilt temperatur 2 = 4886.957. <?page no="202"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 190 — le-tex 190 Kapitel 13. Aufgaben Teil III (g) Wiederholen Sie die Schritte 14a-14f mit den gesamten Daten. (h) Zu welcher Einschätzung kommen Sie nun? (i) Bewerten Sie den Umstand, dass ein Teil der Daten nicht berücksichtigt wurde. <?page no="203"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 191 — le-tex Teil IV Gruppenstrukturen Teil IV Gruppenstrukturen <?page no="204"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 192 — le-tex <?page no="205"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 193 — le-tex Teil IV Gruppenstrukturen Kapitel 14 Worum geht es? Man kann Statistik auch als eine Suche nach homogenen Gruppen erklären. Allerdings bedeutet, Objekte (Personen) in homogene Gruppen aufzuteilen, nichts Anderes als kleine interne Varianzen zu schaffen und große externe. Innerhalb der Gruppe sind sich die Objekte ähnlich, die Variablen streuen wenig. Zwischen den Gruppen sind sich die Objekte unähnlich (es herrscht eine große Streuung zwischen den Gruppen). Das klingt nach ANOVA. Wir werden im Kapitel zum Segmentieren sehen, dass es noch eine andere Möglichkeit gibt, Ähnlichkeit zu quantifizieren. Wir wollen uns in diesem Kapitel also auf die Merkmalsträger konzentrieren und der Frage nachgehen, kommen wirklich alle aus einer Grundgesamtheit? Es soll versucht werden, Segmente bzw. Klassen herauszuarbeiten. Innerhalb der Klassen soll dann Homogenität bezüglich des erhobenen Merkmals herrschen, zwischen den Klassen erwarten wir Heterogenität in Bezug auf das Merkmal (die Merkmale). Die Unterschiede sollen ursächlich auf diese Gruppenzugehörigkeit zurückgeführt werden. Es gibt grundsätzlich drei verschiedene Problemstellungen: 1. Die Gruppen oder Klassen sind bekannt und es ist auch bekannt, welcher Merkmalsträger in welcher liegt. → Das haben wir (im Prinzip) mit der (univariaten) Varianzanalyse behandelt. 2. Die Gruppen sind bekannt, aber es ist nicht klar, welcher Merkmalsträger in welcher Klasse liegt. → diskriminierende/ klassifizierende Verfahren 3. Die Gruppen sind nicht bekannt, es werden Segmente gesucht → segmentierende Verfahren <?page no="206"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 194 — le-tex <?page no="207"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 195 — le-tex Teil IV Gruppenstrukturen Kapitel 15 Klassifizieren 15.1 Diskriminanzanalyse Die (interessierenden) Gruppen sind bekannt. Ziel ist es, Objekte, Merkmalsträger auf die Klasse aufzuteilen. Gesucht ist also eine Entscheidungsregel, die es erlaubt, ein Objekt einer der Gruppen zuzuweisen: Diskriminanzanalyse. Ein Beispiel wäre die Einschätzung der Kreditwürdigkeit eines Neukunden einer Bank, das Scoring. Eine solche Entscheidung muss natürlich auf Basis der Daten getroffen werden und sie muss objektiv, also reproduzierbar sein. Die Mathematik hier ist grundsätzlich nicht trivial. Es gibt eine Reihe von Annahmen, die getroffen werden, z. B. die Normalverteilung. Das Prinzip lässt sich aber ganz gut veranschaulichen. Die Bayes-Entscheidungsregel spielt hier eine entscheidende Rolle. Nehmen wir einmal an, wir wollen den Merkmalsträger i einer bestimmten Gruppe zuweisen, diese soll der Einfachheit halber aus zwei disjunkten Klassen bestehen, die mit 0 und 1 bezeichnet werden, zum Beispiel kreditwürdig oder eben nicht. Y i = 1 heißt dann, die Person i ist kreditwürdig, Y i = 0 heißt, sie ist es nicht. Da wir nicht wissen, in welche der beiden Gruppen ein Merkmalsträger gehört, müssen wir mit Wahrscheinlichkeiten operieren. Die Entscheidung soll gestützt auf den erhobenen Daten X erfolgen. Daher ist diese bedingte Wahrscheinlichkeit entscheidend: P (Y i = 1|x) und P (Y i = 0|x) Die Interpretation: Wenn wir x kennen, also die erhobenen Daten berücksichtigen, was können wir dann über die Wahrscheinlichkeit für eine Gruppenzugehörigkeit sagen. Diese Wahrscheinlichkeit nennt man auch a-posteriori-Wahrscheinlichkeit. <?page no="208"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 196 — le-tex 196 Kapitel 15. Klassifizieren Man ordnet dann Objekt/ Merkmalsträger i derjenigen Gruppe zu, für die die Wahrscheinlichkeit a posteriori größer ist. Das nennt man Bayes-Entscheidungsregel. Die Bayes-Entscheidungsregel besitzt unter allen Entscheidungsregeln die kleinste Fehlerrate. Was hat es damit nun auf sich? Schauen wir uns das einmal genauer an: Dazu müssen wir uns zunächst einmal den Satz von Bayes anschauen. Benannt übrigens nach Thomas Bayes (1702-1761), der zwar vor allem ein englischer Pfarrer war, dessen Name aber unsterblich mit dem Bayes-Theorem verbunden ist. 23 Grundsätzlich geht es um die Frage, inwiefern neu gewonnene Erkenntnisse, bereits bekannte Wahrscheinlichkeiten für Ereignisse beeinflussen. Die Frage nach der Wahrscheinlichkeit, eine Sechs zu würfeln, wird natürlich trivialerweise durch die Information beeinflusst, dass auf jeden Fall eine ungerade Augenzahl gewürfelt wurde. Die sogenannte a-priori Wahrscheinlichkeit P (6) = 1/ 6 kann dann durch die a-posteriori Wahrscheinlichkeit P (6|ungerade Augenzahl) = 0 ersetzt werden. Letztere ist eine bedingte Wahrscheinlichkeit. Der Strich trennt die Bedingung (rechts vom Strich), also das, was eingetreten ist (ungerade Augenzahl), von der Wahrscheinlichkeit, die interessiert (eine Sechs würfeln). Der Satz von Bayes kann aber noch mehr. Die Zutaten sind bedingte Wahrscheinlichkeiten und der Satz von der totalen Wahrscheinlichkeit. Eine wichtige Anwendung des Satzes von Bayes findet sich in der Medizin. Beim sogenannten Screening kommen Tests zum Einsatz, die anzeigen sollen, ob ein Mensch eine bestimmte Krankheit hat oder nicht, sich in einem bestimmten Zustand befindet oder eben nicht. Sollte sich z. B. die gesamte Bevölkerung verpflichtend einem Test zu einer bestimmten Krankheit XYZ unterziehen? Aus vielen Gründen ist die klare Antwort NEIN. Ein wichtiges Argument liefert die Wahrscheinlichkeitsrechnung mit dem Satz von Bayes. Die Wahrscheinlichkeit für das Ereignis A, nämlich, dass ein zufällig ausgewählter Mensch an der Krankheit XYZ leide, betrage: P (A) = 0.0002 also im Schnitt 1 von 5000. Ein Screening-Test soll zutage bringen, wer Krankheitsträger ist. 23 Sein somit wichtigstes Werk Essay Towards Solving a Problem in the Doctrine of Chances wurde erst zwei Jahre nach seinem Tod veröffentlicht. <?page no="209"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 197 — le-tex Teil IV Gruppenstrukturen 15.1. Diskriminanzanalyse 197 Das Ereignis B tritt ein, falls der Screening-Test bei einer Person positiv ausgefallen ist, die Krankheit laut Test also vorliegt. Der Hersteller des Tests versichert, dass jener das Vorliegen einer Krankheit zu 99 % erkennt, also die sogenannte Sensitivität: P (B|A) = 0.99 Lediglich in 1 % der Fälle produziert der Test einen Fehlalarm: P (B|A) = 0.01 Die sogenannte Spezifizität 1 − P (B|A) liegt damit ebenfalls bei 99 %, also die richtige Beurteilung der Gesunden. Nun ist es allerdings so, dass Sie gerade nicht wissen, wer gesund ist und wer nicht. Dafür wollen Sie den Test schließlich durchführen. Das bedeutet, die folgende Wahrscheinlichkeit ist die interessante - der Test ist positiv, wie wahrscheinlich ist es, dass die Person krank ist: P (A|B) = ? Der Satz von Bayes erlaubt gewissermaßen das Umkehren von Schlussfolgerungen unter Ausnutzung der vorhandenen Informationen: Definition 5: Satz von Bayes P (A|B) = P (B|A) · P (A) P (B) mit P (B) = P (B|A) · P (A) + P (B|A) · P (A) Diese Formel fällt natürlich nicht vom Himmel. Sie ergibt sich aus den Definitionen zur bedingten Wahrscheinlichkeit und zur totalen Wahrscheinlichkeit. Bedingte Wahrscheinlichkeit: P (A|B) = P (A ∩ B) P (B) Weil aber P (A ∩ B) = P (B ∩ A) und P (B|A) : = P (B ∩ A) P (A) gilt, gelangen Sie zur folgenden Beziehung: P (A|B) = P (B|A) · P (A) P (B) <?page no="210"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 198 — le-tex 198 Kapitel 15. Klassifizieren Die Wahrscheinlichkeit für das Eintreten des Ereignisses B (ein positiver Test), P (B), wird über die totale Wahrscheinlichkeit berechnet, da dies in der Praxis meist nicht anders möglich ist. Die Wahrscheinlichkeit wird dann über die beiden möglichen Zustände A und A, also eine Person ist krank oder gesund, errechnet: B = (B ∩ A) ∪ (B ∩ ¯ A) Die beiden Mengen sind aber disjunkt, daher gilt: P (B) = P (B ∩ A) + P (B ∩ ¯ A) = P (B|A) · P (A) + P (B| ¯ A) · P ( ¯ A) Nun soll gerechnet werden - wie gut sind die Aussagen des Tests im tatsächlichen Einsatzfall, also bei Nichtkenntnis darüber, ob die getestete Person krank oder gesund ist: P (A|B) = 0.99 · 0.0002 0.99 · 0.0002 + 0.01 · 0.9998 = 0.019 Das Ergebnis ist gleichermaßen überraschend wie erschreckend. Wahrscheinlich ist die getestete Person nicht krank (>98 %), obwohl der Test positiv ausgefallen ist. Lediglich in knapp 2 % der Fälle ist die positiv getestete Person auch wirklich krank. Damit ist klar, dass ein solches Screening niemals generell für eine gesamte Population zum Einsatz kommen darf. Wie kann das sein? Das Verhältnis zweier Zahlen ist entscheidend: P (A) ist mit 0.0002 sehr viel kleiner als die Wahrscheinlichkeit, einen Fehlalarm zu produzieren, P (B|A) = 0.01. Die Spezifizität zu verbessern, ist eine Frage der Technik und ggf. eine Kostenfrage. Der größte Hebel ist fraglos, P (A) zu erhöhen. Konkret bedeutet das, z. B. lediglich Risikogruppen zu berücksichtigen. Die Graphik 15.1 zeigt eindrucksvoll die große Wirkung, die eine Erhöhung von P (A) auf die gesuchte Wahrscheinlichkeit ausübt. Man beachte, dass in der Graphik lediglich Werte bis maximal 5 % für P (A) berücksichtigt sind. Dennoch führt sie zu einer sehr signifikanten Verbesserung der Testergebnisse. In der Graphik 15.2 ist das Phänomen, das der Satz von Bayes per Formel offenlegt, noch einmal graphisch als sogenanntes Baumdiagramm dargestellt. In diesem dichotomen Fall ist das eine gute und angemessene Darstellung. 24 Diese Beziehung ist maßgeblicher Bestandteil der nach Bayes benannten Entscheidungsregel. 24 Darstellung in Anlehnung an den entsprechenden Wikipedia-Eintrag. <?page no="211"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 199 — le-tex Teil IV Gruppenstrukturen 15.1. Diskriminanzanalyse 199 Abbildung 15.1: Satz von Bayes - Einfluss P (A) Abbildung 15.2: Baumdarstellung - Satz von Bayes <?page no="212"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 200 — le-tex 200 Kapitel 15. Klassifizieren Objekt i wird derjenigen Klasse zugeordnet, für die die folgende Wahrscheinlichkeit größer ist: P (Y i = 1|x) und P (Y i = 0|x) Gemäß Satz von Bayes können wir das umschreiben zu: P (Y = 1|X) = P (X|Y = 1) · P (Y = 1) P (X) Dabei P (Y = 1) die a-priori Wahrscheinlichkeit, die kann aufgrund der Erfahrung, einer vorhandenen Historie zu Y abgeschätzt werden. P (X|Y = 1) ist das statistische Modell, das man aufstellen und trainieren kann, wenn die historischen Daten zu Y und die damit verknüpften z. B. soziodemographischen Daten vorhanden sind. Zum Nenner: Dieser ist über die totale Wahrscheinlichkeit zu bestimmen: P (X) = P (X|Y = 1) · P (Y = 1) + P (X|Y = 0) · P (Y = 0) Die Wahrscheinlichkeiten sind ebenfalls alle bekannt bzw. abschätzbar. Damit haben Sie die Grundidee der Diskriminanzanalyse/ des Klassifizierens kennengelernt: Die Bayes-Entscheidungsregel. Den Rest übernimmt im Prinzip die Software. Natürlich stellt sich auch hier wieder die Frage, ist X normalverteilt? Aber das kennen wir ja bereits. Bei nicht normalverteilter Grundgesamtheit, spricht auch von Fishers linearer Diskriminanzanalyse. Bei der Diskriminanzanalyse werden alle Merkmal aus X gleichzeitig genutzt. Beim sogenannten Klassifikationsbaum wird sequentiell vorgegangen. Nacheinander werden Ja/ Nein-Fragen gestellt, welche sich aus den vorherigen Antworten ergeben. Durch die Antworten gelangt man auf unterschiedliche Pfade durch den Baum. <?page no="213"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 201 — le-tex Teil IV Gruppenstrukturen 15.2. SPSS - Diskriminanzanalyse 201 15.2 SPSS - Diskriminanzanalyse Ziel ist es, Objekte einer bestimmten und bekannten Klasse zuzuordnen und das auf Basis der erhobenen Merkmale. Offensichtlich müssen die Merkmale dazu in der Lage sein. Als Beispiel soll die Studierendenbefragung genutzt werden, die wir bereits im Zusammenhang mit dem χ 2 -Unabhängigkeitstest kennengelernt haben. Dabei kam heraus, dass Frauen den Film besser finden. Das Merkmal scheint also geeignet zu sein, zwischen Männern und Frauen zu diskriminieren. Das soll das Ziel der Klassifikation sein. Der Stichprobenumfang der Daten beträgt n = 101. Wenn man eine Diskriminanzanalyse durchführt, erstellt man ein Modell, das Wahrscheinlichkeiten (Scores) produziert, die dann für die Klassifikation gemäß Bayes-Entscheidungsregel genutzt werden. Um ein solches Modell zu trainieren, verwendet man stets nur einen Teil der Daten, niemals alle. Mindestens die folgenden beiden Probleme treten ein, wenn man alle Daten nimmt, um das Modell aufzustellen: Das Modell kann übertrainiert werden. Das bedeutet, dass das Modell die Eigenarten der Daten überbewertet und eine perfekte Voraussage für die Stichprobe schafft. Das muss aber nicht notwendigerweise bedeuten, dass das Modell insgesamt geeignet ist, die Klassen vorherzusagen. Vor allem weil es dann keinerlei Möglichkeit gibt, das Modell zu testen. Es gibt keinen Datensatz mehr, bei dem wir wissen, welchen Wert die Klassifikationsvariable annimmt und den das Modell nicht kennt. Wir können also den Klassifikationsfehler nicht bestimmen. Das ist nicht gut. Wir wählen daher zufällig(! ) 70 % Trainingsdaten und 30 % Testdaten, also Daten, die wir zunächst beiseite legen, mit denen wir dann aber das aufgestellte Modell testen können. Wichtig ist, dass die Trainingsdaten wirklich zufällig gewählt werden. Dazu erzeugen wir eine Selektionsvariable. Hier bietet sich die Bernoulli-Verteilung an. Die folgende Abbildung zeigt die Daten und die Erzeugung der passenden Zufallszahlen - Bernoulli-Experiment mit p = 0.7: <?page no="214"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 202 — le-tex 202 Kapitel 15. Klassifizieren Abbildung 15.3: Bernoulli-Zufallszahlen <?page no="215"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 203 — le-tex Teil IV Gruppenstrukturen 15.2. SPSS - Diskriminanzanalyse 203 Es wird eine Spalte hinzugefügt mit lauter Nullen und Einsen. Dort wo eine 1 steht, wird der Datensatz zum Trainieren des Modells benutzt. Wo eine 0 steht, wird der Datensatz zum Testen verwendet. Bevor wir loslegen können, muss das Merkmal Geschlecht in ein numerisches Merkmal umgewandelt werden, 0 und 1, es soll schließlich gerechnet werden. Das geht in SPSS folgendermaßen - Transformieren-> Umcodieren in andere Variable: Abbildung 15.4: Variable umcodieren Sie müssen auf Ändern drücken, um den Namen der neuen Variable zu bestätigen. Wenn Sie dann auf Alte und neue Werte... drücken, können Sie die Umcodierung festlegen: Abbildung 15.5: Variable umcodieren <?page no="216"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 204 — le-tex 204 Kapitel 15. Klassifizieren Wenn Sie den Dialog beenden, wird das neue Merkmal an die Daten angehängt. Um die Diskriminanzanalyse durchzuführen, wählen Sie den Menüpunkt Analysieren-> Klassifizieren-> Diskriminanzanalyse: Abbildung 15.6: Diskriminanzanalyse - Dialog Hier sind einige Einstellungen vorzunehmen. Die Gruppierungsvariable ist festzulegen, die erklärenden Merkmale, hier Größe, Gewicht, Schuhgröße, TITANIC, Bücher. Letztere stellt die Anzahl Bücher dar, die die Studierenden (geschätzt) besitzen. Die anderen Merkmale sind eher nicht geeignet, zwischen den Geschlechtern zu diskriminieren. Offensichtlich ist vorher eine Zusammenhangsanalyse durchzuführen, welche Merkmale in Frage kommen. Die folgende Abbildung zeigt das Ergebnis Analysieren-> Mittelwerte vergleichen-> Mittelwerte - man sieht sehr gut die Unterschiede, prinzipiell scheinen die Merkmale geeignet: Abbildung 15.7: Diskriminanzanalyse - Mittelwerte vergleichen <?page no="217"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 205 — le-tex Teil IV Gruppenstrukturen 15.2. SPSS - Diskriminanzanalyse 205 Die Auswahlvariable ist bernoulliverteilt mit dem Wert 1. Unter Speichern wählen Sie bitte alle drei Punkte, Vorhergesagte Gruppenzugehörigkeit, Scores der Diskriminanzfunktion und Wahrscheinlichkeit der Gruppenzugehörigkeit aus. Unter Klassifizieren können Sie festlegen, wie die a-priori Wahrscheinlichkeit für Geschlecht festgelegt werden soll. Hier können Sie zwischen Alle Gruppen gleich und Aus der Gruppengröße berechnen. In der Stichprobe sind 69 % der befragten Frauen. Nun wäre zu überlegen, ob das Ungleichgewicht dem Zustand in der Grundgesamtheit entspricht, ob ein Ziehungsfehler vorliegt oder ob die Stichprobe eine Verzerrung aufweist. Wählen wir zunächst die Gleichgewichtung aus. Wir wählen alle drei Diagramme und die Zusammenfassungstabelle. Unter Statistiken lassen wir uns noch die nicht standardisierten Koeffizienten der Diskriminanzfunktion ausgeben. Auch hier wird eine ganze Reihe an Output produziert. Fangen wir mit der Zusammenfassung an: Abbildung 15.8: Diskriminanzanalyse - Zusammenfassung Die generierte Diskriminanzfunktion ist nicht unähnlich einer multiplen Regressionsformel. Nur dass hier die Trennung in zwei Gruppen durch die (metrischen) unabhängigen Merkmale das Ziel ist. Der Eigenwert λ ist das Verhältnis von Streuung zwischen den Gruppen zu Streuung innerhalb der Gruppen, also erklärte zu nicht erklärter. Das kennen wir natürlich: Das ist das Optimierungskriterium. <?page no="218"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 206 — le-tex 206 Kapitel 15. Klassifizieren Wir können daraus das Bestimmtheitsmaß berechnen: λ 1 + λ = erklärte Streuung Gesamtstreuung = 2.753 1 + 2.753 = 0.733 Das heißt, das 73 % der Gesamtvarianz durch die Diskriminanzfunktion erklärt werden. Die Wurzel aus diese Zahl ist die kanonische Korrelation: √ 0.733 = 0.856 Die kanonische Korrelation gibt die Korrelation zwischen Sätzen von Variablen an, z. B. latenten Variablen. Diese Werte sind alle sehr hoch, so dass davonauszugehen ist, dass die Analyse erfolgreich sein sollte. Wilks’ Lambda (Λ) ist eine einfache Transformation des Eigenwertes, so das eine (annähernd) χ 2 -verteilte Zufallsvariable entsteht: Λ = 1 1 + λ = 1 1 + 2.753 = 0.266 Wir können nun einen Signifikanztest durchführen, bei dem H 0 wieder den Nicht- Unterschied diesmal der Mittelwerte bei der Diskriminanzfunktion postuliert, H 1 den Unterschied. Offensichtlich wollen und können wir die Hypothese ablehnen. Die Überschreitungswahrscheinlichkeit liegt gerundet bei 0. Die folgende Tabelle zeigt die (nicht standardisierten) Koeffizienten für die lineare Diskriminanzfunktion. Damit können die Diskriminanz-Scores pro Objekt berechnet werden. Abbildung 15.9: Diskriminanzanalyse - nicht standardisierte Koeffizienten <?page no="219"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 207 — le-tex Teil IV Gruppenstrukturen 15.2. SPSS - Diskriminanzanalyse 207 Aus den Standardisierten lässt sich die Bedeutung der einzelnen Variablen ablesen - die Schuhgröße hat den mit Abstand größten Einfluss auf das Modell: Abbildung 15.10: Diskriminanzanalyse - standardisierte Koeffizienten Die Strukturmatrix in der folgenden Abbildung gibt die Korrelation zwischen Diskriminanzfunktion und der jeweiligen Variable wider. Abbildung 15.11: Diskriminanzanalyse - Strukturmatrix Die standardmäßige Ausgabe der Verteilung der Scores innerhalb der beiden Gruppen ist dürftig. Unter Graphik-> Diagrammerstellung wählen Sie die Populationspyramide. Hier das Ergebnis, wenn Sie Geschlecht als Teilungsvariable verwenden - offensichtlich erfüllt die Funktion ihre Aufgabe ganz gut: <?page no="220"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 208 — le-tex 208 Kapitel 15. Klassifizieren Abbildung 15.12: Diskriminanzanalyse - Histogramm der Diskriminanzfunktion In der Datenansicht werden Sie feststellen, dass Sie vier neue Spalten bzw. Merkmale bekommen haben. Per Mouse-over bekommen Sie diese erklärt. Wir können nun die vorhergesagte Gruppe Dis 1 mit den tatsächlichen Geschlechtern vergleichen. Der Output wird ebenfalls als Kreuztabelle erzeugt: Abbildung 15.13: Diskriminanzanalyse - Klassifikationsergebnis <?page no="221"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 209 — le-tex Teil IV Gruppenstrukturen 15.2. SPSS - Diskriminanzanalyse 209 Offensichtlich hat das gut funktioniert. 2-mal wurde das Geschlecht w bei den Trainingsdaten fälschlicherweise als m eingestuft. Wenn man sich diese beiden Fälle anschaut, dann stellt man fest, dass die Wahrscheinlichkeiten, dass die Personen zur Gruppe m gehören mit 66 % bzw. 60 % auch nicht so üppig ausfallen. Beide Male handelte es sich um relativ große Damen, denen der Film TITANIC nicht so gut gefiel. Die letzte Graphik, ein Scatter-Plot, zeigt noch einmal ganz schön, wie das Verhältnis von Wert der Diskriminanzfunktion (y-Achse) und Wahrscheinlichkeit, in die Gruppe w (=1) zu gehören. Das tatsächliche Geschlecht sorgt für die beiden Farben: Abbildung 15.14: Diskriminanzanalyse - WS vs. Diskriminanzfunktion Abschließend bleibt noch zu sagen, dass (wie üblich) die unabhängigen Variablen auf Korrelation zu prüfen sind. Im Beispiel liegt der Verdacht nah, dass die drei Körpermerkmale korreliert sind. <?page no="222"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 210 — le-tex <?page no="223"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 211 — le-tex Teil IV Gruppenstrukturen Kapitel 16 Segmentieren 16.1 Worum es geht Dies ist nun der 3. Fall von den auf der Seite 193 genannten. Wir suchen Gruppen, kennen diese aber noch nicht. Ausgangspunkt ist also eine Datenmatrix mit mehreren Objekten/ Personen usw. Zu jedem Objekt stehen Ausprägungen verschiedener (quantitativer) Merkmale zur Verfügung. Ziel muss es dabei sein, dass Folgendes gilt: 1. Die Objekte innerhalb einer Klasse sollen homogen sein: → Die Klasse ist intern kohärent. 2. Die Objekte verschiedener Klassen sollen heterogen sein: → Die Klassen sind extern isoliert. Haben wir nur ein Merkmal vorliegen, dann ist diese Einteilung in der Regel sehr einfach - wir betrachten das Alter von sechs Personen: 1 2 3 4 5 6 43 38 6 47 37 9 Tabelle 16.1: Alter in Jahren von sechs Personen Das kann man aufmalen, aber man sieht sofort, es können zwei Klassen gebildet werden, die den genannten Anforderungen entsprechen: → Erste Klasse: 1, 2, 4 und 5 → Zweite Klasse: 3, 6 Das Ganze wird schwieriger, wenn man es mit mehr als einem Merkmal zu tun hat. Schauen wir uns also ein Verfahren zur Segmentierung an, die Clusteranalyse. <?page no="224"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 212 — le-tex 212 Kapitel 16. Segmentieren 16.2 Hierarchische Verfahren - Clusteranalyse Die Clusteranalyse basiert auf der sogenannten Distanzmatrix. Man kann ausrechnen, wie weit ein Objekt i von einem Objekt j entfernt ist, auf Basis der Merkmale. Im Beispiel von Seite 211 ist zum Beispiel Person 1 von Person 2 genau fünf Jahre entfernt. Diese Entfernung ist die euklidische Entfernung, hier einfach die Differenz, denn wir haben es nur mit einem Merkmal zu tun. Die Distanz zwischen zwei Objekten ist das entscheidende Kriterium für die Segmentierung. Nicht die Varianz, die sich dann innerhalb und zwischen den Gruppen ergibt. Hat man mehr als ein Merkmal, dann wird die Summe der Entfernungen genommen - nehmen wir folgende drei Personen A, B, C und die Merkmale Größe und Gewicht: A: 180 75 B: 181 77 C: 165 66 Tabelle 16.2: Datensatz: Clusteranalyse Größe/ Gewicht Dann ist dies die sogenannte euklidische Entfernung: A B C A 0.00 2.24 17.49 B 2.24 0.00 19.42 C 17.49 19.42 0.00 Tabelle 16.3: Datensatz: Distanzmatrix euklidisch Und dies die sogenannte Manhattan-Distanz: A B C A 0 3 24 B 3 0 27 C 24 27 0 Tabelle 16.4: Datensatz: Distanzmatrix Manhattan Die Bezeichnung Manhattan orientiert sich daran, was der kürzeste Weg zwischen zwei Punkten ist, wenn sich sozusagen durch New York zu Fuß bewegt, also den Straßen folgt. Die euklidische Distanz ist der kürzeste Weg, wenn man fliegen könnte, die Hypothenuse. Die folgende Abbildung zeigt wie es geht: <?page no="225"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 213 — le-tex Teil IV Gruppenstrukturen 16.2. Hierarchische Verfahren - Clusteranalyse 213 Größe Gewicht A B C 165 170 175 180 66 68 70 72 74 76 1 2 2.24 15 9 17.49 Entfernungen von A − B und A − C Euklidisch Manhattan Abbildung 16.1: Darstellung der Berechnung von Distanzmaßen Es gibt noch ein paar mehr Maße zur Distanzmessung, die euklidische ist sicherlich die wichtigste. Die folgende Tabelle zeigt die Distanzmatrix für unser einfaches Beispiel von der Seite 211: Person 1 Person 2 Person 3 Person 4 Person 5 Person 6 Person 1 0 5 37 4 6 34 Person 2 5 0 32 9 1 29 Person 3 37 32 0 41 31 3 Person 4 4 9 41 0 10 38 Person 5 6 1 31 10 0 28 Person 6 34 29 3 38 28 0 Tabelle 16.5: Datensatz: Distanzmatrix Alter Können Sie die Matrix interpretieren? Die Idee ist nun, dass Objekte mit geringer Entfernung sich zueinander ähnlich sein müssen. Beim agglomerativen Verfahren sind zunächst alle Objekte isoliert und für sich. D. h., wir haben zunächst n = 6 Klassen, bestehend aus genau einer Person. Nach und nach werden sie zu Klassen zusammengeführt und zwar in Bezug auf die Entfernung: → Mit der kleinsten wird begonnen. <?page no="226"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 214 — le-tex 214 Kapitel 16. Segmentieren Person 2 und Person 5 haben die Entfernung 1. Sie werden zuerst zu einer Gruppe verschmolzen. Die Frage ist nun, wie weit ist diese neue Gruppe entfernt von den anderen Objekten. Zum Beispiel ist Person 1 von Person 2 fünf Einheiten und von Person 5 sechs Einheiten entfernt. Was ist aber insgesamt die Entfernung von Person 1 zur Gruppe {2,5}? Hier gibt es drei Vorschläge - je nach Art der Lage der Objekte: 1. Single Linkage: Das Minimum der Entfernungen wird als Gesamtentfernung zur Gruppe angenommen. → im Beispiel: 5 2. Complete Linkage: Das Maximum der Entfernungen wird als Gesamtentfernung zur Gruppe angenommen. → im Beispiel: 6 3. Average Linkage: Der Durchschnitt der Entfernungen wird als Gesamtentfernung zur Gruppe angenommen. → im Beispiel: 5.5 Beim Single Linkage ergibt sich Folgendes: {2,5} Person 1 Person 3 Person 4 Person 6 {2,5} 0 Person 1 5 0 Person 3 31 37 0 Person 4 9 4 41 0 Person 6 28 34 3 38 0 Tabelle 16.6: Datensatz: Distanzmatrix 1. Agglomeration Nun wird wieder die kleinste Entfernung gesucht. Als nächstes sind daher die Personen 3 und 6 an der Reihe. Sie sind drei Einheiten voneinander entfernt. Sie bilden die nächste Gruppe. Damit ergibt sich diese Distanzmatrix: {2,5} {3,6} {1} {4} {2,5} 0 {3,6} 28 0 {1} 5 34 0 {4} 9 38 4 0 Tabelle 16.7: Datensatz: Distanzmatrix 2. Agglomeration <?page no="227"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 215 — le-tex Teil IV Gruppenstrukturen 16.2. Hierarchische Verfahren - Clusteranalyse 215 Die kleinste Entfernung ist nun die vier, das ist die Entfernung von Objekt {4} und {1}. {2,5} {3,6} {1,4} {2,5} 0 {3,6} 28 0 {1,4} 5 34 0 Tabelle 16.8: Datensatz: Distanzmatrix 3. Agglomeration Nun geht es weiter mit der Entfernung fünf zwischen {1,4} und {2,5}: {1,2,4,5} {3,6} {1,2,4,5} 0 {3,6} 28 0 Tabelle 16.9: Datensatz: Distanzmatrix 4. Agglomeration Damit ist das Ende erreicht. Beim Abstand von 28 werden die Klassen {1,2,4,5} und {3,6} miteinander verschmolzen. Wir kommen damit u. a. zum selben Ergebnis, wie auf der Seite 211. Damit ist aus der sogenannten Partition mit sechs Klassen {{1}, {2}, {3}, {4}, {5}, {6}} nun eine Partition mit einer Klasse geworden, was das Ziel ist: {1, 2, 3, 4, 5, 6} Dies kann nun mit Hilfe eines sogenannten Dendrogramms dargestellt werden - am Rechner: <?page no="228"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 216 — le-tex 216 Kapitel 16. Segmentieren 1 2 3 4 5 6 0 10 20 30 40 50 3 6 2 5 1 4 0 5 10 15 20 25 Cluster Dendrogram hclust (*, "single") x.dist Height 3 6 2 5 1 4 0 10 20 30 40 Cluster Dendrogram hclust (*, "complete") x.dist Height 3 6 2 5 1 4 0 5 10 15 20 25 30 35 Cluster Dendrogram hclust (*, "average") x.dist Height Abbildung 16.2: Dendrogramme zum Beispiel Alter Aus dem Dendrogramm kann nun wiederum eine Distanzmatrix generiert werden. Die sogenannte kophenetische Matrix. Es werden die Distanzen gewählt, die sich aufgrund der Clusterung ergeben haben. Mit Hilfe dieser kann die Güte der Segmentierung bestimmt werden. Dazu kann der Korrelationskoeffizient zwischen der Originaldistanzmatrix und der kophenetischen betrachtet werden. 1 2 3 4 5 2 5 3 37 32 4 4 9 41 5 6 1 31 10 6 34 29 3 38 28 Tabelle 16.10: Distanzmatrix - d <?page no="229"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 217 — le-tex Teil IV Gruppenstrukturen 16.2. Hierarchische Verfahren - Clusteranalyse 217 1 2 3 4 5 2 7.50 3 33.75 33.75 4 4.00 7.50 33.75 5 7.50 1.00 33.75 7.50 6 33.75 33.75 3.00 33.75 33.75 Tabelle 16.11: Kophenetische Distanzmatrix - d koph Wir können nun den Korrelationskoeffizienten ausrechnen zwischen den beiden Matrizen, den sogenannten kophenetischen Korrelationskoeffizienten. Dieser misst, wie gut das Dendrogramm die tatsächlichen Entfernung in den Ursprungsdaten abbildet: cor d_d koph = 0.974 Der Wert ist ziemlich groß. Das Dendrogramm ist eine verlässliche Abbildung der Distanzen der Objekte. Die Distanzmatrix kann relativ groß werden. Im Beispiel hatten wir n = 6 Objekte. Das bedeutet, dass man ( 6 2 ) = 15 verschiedene Paarungen und damit auch Distanzen berechnen kann. Die Distanzmatrix war eine 6 × 6 Matrix mit also 36 Zellen. Die Matrix ist symmetrisch. Oberhalb und unterhalb der Hauptdiagonalen stehen die gleichen Werte. Wenn wir also die sechs Elemente auf der Hauptdiagonalen abziehen, bleiben 30. Die Hälfte davon ist 15. Wenn z. B. n = 1000 gilt, dann sind das bereits 499500 Paarungen. Und 1000 Objekte sind immer noch nicht sehr viele. Der Algorithmus hat also seine Grenzen, wenn n zu groß wird, da irgendwann die Distanzen nicht mehr (effizient) berechnet werden können. Das folgende Verfahren beschreibt einen anderen Weg, die Segmente zu finden. Allerdings ist es dabei erforderlich zu wissen, wie viele Gruppen man haben möchte. Daher ggf. erst mit einer Stichprobe eine Clusteranalyse durchführen und dann das folgende Verfahren in Betracht ziehen. <?page no="230"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 218 — le-tex 218 Kapitel 16. Segmentieren 16.3 Partitionierende Verfahren - K-Means Der Ansatz bzw. die Grundidee ist hier eine andere, wenn auch das Ziel der Gruppenfindung dasselbe ist. Bei den hierarchischen Verfahren bleiben zwei Objekte in einer Klasse sobald sie verschmolzen sind. Bei den partitionierenden Verfahren ist dies nicht Fall. K-Means bzw. K-Medoids sind bekannte Vertreter dieser Klasse, mit dem ersten werden wir uns beschäftigen. Wieder sollen für n Objekte homogene Klassen gefunden werden. Wir gehen davon aus, dass wir p quantitative Merkmale erhoben haben: y 1 , . . . , y p . Bei K-Means gibt man die Anzahl K der Klassen vor. Man muss eine Startlösung angeben, bei der man jedes Objekt einer Klasse zuweist. Wir wollen für unser Beispiel mit den sechs Personen diese beiden Klassen als Startlösung bilden: Klasse 1: 43, 38, 6 Klasse 2: 47, 37, 9 Tabelle 16.12: Daten: K-Means In beiden Klassen sind drei Objekte: n 1 = 3, n 2 = 3. Der Name ist Programm, die Mittelwerte der Gruppen sind zu bestimmen: ¯ y 1 = 29 , ¯ y 2 = 31 Alter Gruppe 47 37 9 43 38 6 5 10 15 20 25 30 35 40 45 1 2 Ø1 Ø2 Abbildung 16.3: K-Means: Startkonfiguration <?page no="231"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 219 — le-tex Teil IV Gruppenstrukturen 16.3. Partitionierende Verfahren - K-Means 219 Wir können nun die Distanzen zwischen jedem Objekt und dem Zentrum der jeweiligen Klasse bestimmen - beispielhaft: (43 − 29) 2 = 196 Insgesamt beträgt die Entfernung (Summe Spalte dist) 1582: x gr mean dist 43 1 29 196 38 1 29 81 6 1 29 529 47 2 31 256 37 2 31 36 9 2 31 484 Tabelle 16.13: Daten: K-Means Distanzen Ziel von K-Means ist es nun, die n Beobachtungen so auf die K Klassen zu verteilen, dass diese Summe minimal wird! Um diese Partition zu finden, wird der Reihe nach für jedes der Objekte bestimmt, wie sich die quadrierte Summe der Abstände verändert, wenn das Objekt von seiner Klasse in eine andere wechselt. Lohnt sich die Verschiebung nicht mehr, hört man auf. In der Tat findet der Algorithmus die erwartete und uns bereits bekannte Aufteilung zu den Daten: K-means clustering with 2 clusters of sizes 2, 4 Cluster means: 1 7.50 2 41.25 Clustering vector: [1] 2 2 1 2 2 1 Within cluster sum of squares by cluster: [1] 4.50 64.75 Tabelle 16.14: Daten: K-Means Ergebnis <?page no="232"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 220 — le-tex 220 Kapitel 16. Segmentieren Alter Gruppe 47 37 9 43 38 6 5 10 15 20 25 30 35 40 45 1 2 Ø1 Ø2 x 5 10 15 20 25 30 35 40 45 Abbildung 16.4: K-Means: Startkonfiguration und Endkonfiguration Prinzipiell ist das Vorgehen analog zur ANOVA. Bei der ANOVA sind die Gruppen vorgegeben, es ist klar, welches Objekt in welche Gruppe liegt. Die Frage ist nun, unterscheiden sich die Gruppen signifikant. Beim K-Means könnte man nun sagen, dass wenn die Gruppenanzahl bekannt ist, das Ziel ist, die Objekte so in die Gruppen einzuordnen, dass eine ANOVA den größtmöglichen signifikanten Unterschied bestätigt. Sie sehen, die Statistik ist, wie zu Beginn erwähnt, nicht in disjunkte, einzelne Inseln aufgeteilt, die unterschiedliche Verfahren anbieten. Es gibt ständig Brücken, Abkürzungen und leicht veränderte Blickwinkel auf dasselbe Problem. Je mehr man diesen Verbindungen kennt, desto erfolgreicher wird man vermutlich bei der Analyse und Modellierung sein. <?page no="233"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 221 — le-tex Teil IV Gruppenstrukturen 16.4. SPSS - Distanzen und Segmentierung 221 16.4 SPSS - Distanzen und Segmentierung Unter dem Menüpunkt Analysieren-> Korrelation-> Distanzen finden Sie den Dialog, um Distanzmatrizen zu berechnen: Abbildung 16.5: Distanzmatrix - Dialog Das Ergebnis kennen wir natürlich bereits: Abbildung 16.6: Distanzmatrix - Ergebnis Um die eigentliche Clusteranalyse durchzuführen, ist es nicht notwendig, vorher die Distanzen zu bestimmen. Wählen Sie Analysieren-> Klassifizieren-> Hierarchische Cluster: <?page no="234"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 222 — le-tex 222 Kapitel 16. Segmentieren Abbildung 16.7: Clusteranalyse - Dialog Unter Statistiken lassen wir uns alles ausgeben. Als Clusterzahl wählen wir 2 - muss man aber nicht! Unter dem Menüpunkt Diagramme das Dendrogramm. Bei Methode wählen Sie Nächstgelegener Nachbar (= Single Linkage) und Euklidische Distanz - in unserem einfachen Fall ist das natürlich prinzipiell egal. Speichern wollen wir die einzelne Lösung mit zwei Clustern. Abbildung 16.8: Clusteranalyse - Ergebnis Tabelle Die Zahlen geben an, wann welche Segmente, also bei welcher Entfernung, zusammengefasst werden. Die Zahlen haben wir im Beispiel weiter oben bereits zu Fuß erarbeitet. <?page no="235"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 223 — le-tex Teil IV Gruppenstrukturen 16.4. SPSS - Distanzen und Segmentierung 223 Das Dendrogramm ist ebenfalls keine Überraschung, es ist gedreht: Abbildung 16.9: Clusteranalyse - Dendrogramm Als letztes noch der Blick auf die Datenansicht. Hier sind die Cluster als neues Merkmal eingefügt worden - hat funktioniert: Abbildung 16.10: Clusteranalyse - Cluster als neues Merkmal <?page no="236"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 224 — le-tex 224 Kapitel 16. Segmentieren Auch drei Gruppen klappt ganz gut: Abbildung 16.11: Clusteranalyse - 3 Cluster als neues Merkmal Das K-Means Verfahren findet sich unter demselben Menüpunkt, dort bitte K-Means Cluster wählen: Abbildung 16.12: K-Means - Dialog Unter Speichern und Optionen einfach alles auswählen. Beim K-Means muss die Anzahl Gruppen angegeben werden. Beim Clusterverfahren vorher war das lediglich optional. <?page no="237"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 225 — le-tex Teil IV Gruppenstrukturen 16.4. SPSS - Distanzen und Segmentierung 225 Das K-Means Verfahren kommt natürlich zur gleichen Einteilung wie das Clusterverfahren. In den Daten sehen Sie auch noch die Entfernung des jeweiligen Objekts zum Clusterzentrum: Abbildung 16.13: K-Means - Ergebnis Auf der Seite 219 haben wir bereits die Summe der quadrierten Entfernungen gesehen. Für die Gruppe 2 gilt 4.5, was wir weiter oben ebenfalls finden, auch die 64.75 lässt sich nachstellen: 1.5 2 + 1.5 2 = 4.5 bzw. 1.75 2 + 3.25 2 + 5.75 2 + 4.25 2 = 64.75 Die ANOVA Tabelle bestätigt abschließend noch, dass die beiden Gruppen sich signifikant voneinander unterscheiden: Abbildung 16.14: k-means - ANOVA <?page no="238"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 226 — le-tex <?page no="239"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 227 — le-tex Teil IV Gruppenstrukturen Kapitel 17 Aufgaben Teil IV 1. Die Datei OnlineShopping.csv enthält Angaben von Studenten zu ihrer Einstellung gegenüber Onlineshopping in verschiedenen Bereichen. (a) Bestehen Unterschiede zwischen den Geschlechtern hinsichtlich der Shoppingerfahrungen? (b) Führen Sie eine angemessene Klassifizierung durch: Lässt sich auf das Geschlecht schließen? (c) Auf Basis der Antworten auf die Onlineerfahrungen, lassen sich die Teilnehmer in verschiedene zwei bzw. drei Cluster einteilen? Wie interpretieren Sie diese Cluster? 2. Die Datei TechnologieEU.csv enthält Angaben zur Internetverfügbarkeit sowie zum Anteil am BIP für Forschung und Entwicklung. Zusätzlich ist bekannt, ob ein Land erst jüngst beigetreten oder schon länger Mitglied ist. (a) Kann auf die Zugehörigkeit zu den Mitgliedschaftsdauer-Gruppen durch die beiden Merkmale zum BIP bzw. zur Internetverfügbarkeit geschlossen werden? (b) Teilen Sie die Länder mittels K-Means-Algorithmus in zwei Cluster ein und versuchen Sie, diese beiden Cluster zu charakterisieren. Hängen diese Ergebnisse mit der Dauer der Mitgliedschaft zusammen? (c) Zu welchem Ergebnis kommt eine hierarchische Clusteranalyse? <?page no="240"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 228 — le-tex 228 Kapitel 17. Aufgaben Teil IV 3. Beantworten Sie folgende Fragen mit Hilfe des Datensatzes Steuern.csv, in dem Einnahmen aus verschiedenen Steuerarten erfasst sind. (a) Lassen sich die Kantone in Cluster einteilen, wenn Sie als Merkmale die Steuereinnahmen auf Einkommen, Vermögen, Ertrag und Kapital heranziehen? (b) Welche Cluster lassen sich finden, wenn die drei Steuerarten Vermögensgewinn, Vermögensverkehr und Erbschaft als relevanteMerkmale verwendet werden? Wie können diese Cluster interpretiert werden? (c) Wie lassen sich die Cluster graphisch darstellen, wenn in beiden Fällen jeweils ein hierarchisches und ein partitionierendes Verfahren eingesetzt werden soll? 4. Die Datei EBureau.csv enthält Angaben für EU-Staaten, welcher Anteil der Bevölkerung E-Government im Jahr 2007 genutzt hat (EGov) und welcher Anteil der Bevölkerung Breitband-Internet (Breitband) hatte. Zusätzlich ist erfasst, ob der Beitritt vor mehr als zehn Jahren erfolgte oder nicht (Beitritt). (a) Bestehen Unterschiede zwischen den Gruppen hinsichtlich der einzelnen Merkmale? (b) Wie kann mit Hilfe der Merkmale EGov und Breitband darauf geschlossen werden, ob ein Staat zu den alten oder den neueren Beitrittsländern zählt? Wie viele Staaten werden richtig, wie viele falsch zugeordnet? (c) Können die Staaten auf Basis der Merkmale EGov und Breitband in Gruppen eingeteilt werden? Wie viele Gruppen lassen sich dabei sinnvollerweise unterscheiden? Wie können diese Gruppen interpretiert werden? <?page no="241"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 229 — le-tex Teil V Anhänge Teil V Anhänge <?page no="242"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 230 — le-tex <?page no="243"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 231 — le-tex Teil V Anhänge Kapitel 18 Literatur Backhaus, Erichson: Multivariate Analysemethoden: Eine anwendungsorientierte Einführung, Springer Gabler, 2016. Fahrmeir, Heumann: Statistik: Der Weg zur Datenanalyse, Springer Spektrum, 2016. Handl, Kuhlenkasper: Grundlagen der Datenanalyse mit R: Eine anwendungsorientierte Einführung, Springer Spektrum, 2017. Handl, Kuhlenkasper: Multivariate Analysemethoden: Theorie und Praxis mit R, Springer Spektrum, 2017. Janssen, Laatz: Statistische Datenanalyse mit SPSS, Springer Gabler, 2017. Horst Rinne: Taschenbuch der Statistik, Harri Deutsch, 2008. Veith Tiemann: Statistik: für Studienanfänger, UTB, 2011. Tiemann, et.al.: Statistik aktiv mit R, UTB, 2006. Charles Wheelan: Naked Statistics: Stripping the Dread from the Data, Norton & Company, 2014. <?page no="244"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 232 — le-tex <?page no="245"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 233 — le-tex Teil V Anhänge Kapitel 19 Tabellenverzeichnis 5.1 Datensatz: Reichweite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 5.2 Datensatz: Differenz der Reichweiten . . . . . . . . . . . . . . . . . . . . . . . 39 5.3 Die Entscheidungsmatrix mit Fehlerwahrscheinlichkeiten . . . . . . . . . . . . . 45 5.4 Datensatz: Münzwurf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 5.5 Datensatz: Münzwurf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 5.6 Wahrscheinlichkeitsfunktion der Binomialverteilung mit den Parametern n = 5 und p = 0.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 6.1 Verteilung von S unter H 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 6.2 α in Abhängigkeit vom Ablehnbereich C . . . . . . . . . . . . . . . . . . . . . 54 6.3 Datensatz: stilisiert VZ-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 6.4 30-maliges Würfeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 6.5 Häufigkeitstabelle Würfelbeispiel . . . . . . . . . . . . . . . . . . . . . . . . . 66 7.1 Datensatz: Bewertung des Films TITANIC . . . . . . . . . . . . . . . . . . . . 85 9.1 Häufigkeitstabelle der Körpergröße der Männer . . . . . . . . . . . . . . . . . 115 9.2 Blutdruck vorher/ nachher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 10.1 Datensatz: TITANIC-Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . 122 11.1 Datensatz: Ausgabe Regression . . . . . . . . . . . . . . . . . . . . . . . . . . 160 11.2 Datensatz: Ausgabe Regression quadratisch . . . . . . . . . . . . . . . . . . . 160 12.1 Datensatz: USA-Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 12.2 Datensatz: USA-HK-Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 12.3 Datensatz: USA-HK-Analyse-Eigenwerte . . . . . . . . . . . . . . . . . . . . . 168 <?page no="246"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 234 — le-tex 234 Kapitel 19. Tabellenverzeichnis 12.4 Datensatz: USA-HK-Analyse-Eigenvektoren . . . . . . . . . . . . . . . . . . . 168 12.5 Datensatz: USA-HK-Analyse-Varianzen . . . . . . . . . . . . . . . . . . . . . . 169 12.6 Datensatz: USA-HK-Analyse-Faktoren . . . . . . . . . . . . . . . . . . . . . . 170 16.1 Alter in Jahren von sechs Personen . . . . . . . . . . . . . . . . . . . . . . . . 211 16.2 Datensatz: Clusteranalyse Größe/ Gewicht . . . . . . . . . . . . . . . . . . . . 212 16.3 Datensatz: Distanzmatrix euklidisch . . . . . . . . . . . . . . . . . . . . . . . 212 16.4 Datensatz: Distanzmatrix Manhattan . . . . . . . . . . . . . . . . . . . . . . . 212 16.5 Datensatz: Distanzmatrix Alter . . . . . . . . . . . . . . . . . . . . . . . . . . 213 16.6 Datensatz: Distanzmatrix 1. Agglomeration . . . . . . . . . . . . . . . . . . . 214 16.7 Datensatz: Distanzmatrix 2. Agglomeration . . . . . . . . . . . . . . . . . . . 214 16.8 Datensatz: Distanzmatrix 3. Agglomeration . . . . . . . . . . . . . . . . . . . 215 16.9 Datensatz: Distanzmatrix 4. Agglomeration . . . . . . . . . . . . . . . . . . . 215 16.10 Distanzmatrix - d . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 16.11 Kophenetische Distanzmatrix - d koph . . . . . . . . . . . . . . . . . . . . . . . 217 16.12 Daten: K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 16.13 Daten: K-Means Distanzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 16.14 Daten: K-Means Ergebnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 <?page no="247"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 235 — le-tex Teil V Anhänge Kapitel 20 Abbildungsverzeichnis 3.1 SPSS - Startscreen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.2 SPSS - Daten einlesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.3 SPSS - Datenansicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.4 SPSS - Variablenansicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.5 SPSS - automatisches Umcodieren . . . . . . . . . . . . . . . . . . . . . . . . 11 3.6 SPSS - labels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.7 SPSS - Klassen bilden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.8 SPSS - Klassen bilden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.9 SPSS - neue Variable berechnen . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.10 SPSS - Graphik Dialog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.11 SPSS - Histogramm Dialog . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.12 SPSS - Histogramm Körpergröße . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.13 SPSS - Histogramm Körpergröße Geschlecht . . . . . . . . . . . . . . . . . . 17 3.14 SPSS - vergleichender Box-Plot . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.15 SPSS - Diagrammeditor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.16 SPSS - Scatter-Plot Größe/ Gewicht . . . . . . . . . . . . . . . . . . . . . . . 19 3.17 SPSS - Deskriptive Statistiken Dialog . . . . . . . . . . . . . . . . . . . . . . 20 3.18 SPSS - Deskriptive Statistiken . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.19 Die Dichtefunktion der Standardnormalverteilung . . . . . . . . . . . . . . . . 22 3.20 Verschiedene Normalverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.21 SPSS - Häufigkeitstabelle Dialog . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.22 SPSS - Häufigkeitstabelle TITANIC . . . . . . . . . . . . . . . . . . . . . . . 24 3.23 SPSS - Balkendiagramm TITANIC . . . . . . . . . . . . . . . . . . . . . . . . 24 3.24 SPSS - Mittelwerte nach Gruppen . . . . . . . . . . . . . . . . . . . . . . . . 25 3.25 SPSS - Kreuztabellen Dialog . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 <?page no="248"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 236 — le-tex 236 Kapitel 20. Abbildungsverzeichnis 3.26 SPSS - Kreuztabelle Geschlecht, TITANIC . . . . . . . . . . . . . . . . . . . . 26 3.27 SPSS - Mehrfachantworten modellieren . . . . . . . . . . . . . . . . . . . . . 27 3.28 SPSS - Mehrfachantworten Dialog . . . . . . . . . . . . . . . . . . . . . . . . 27 3.29 SPSS - Mehrfachantworten Häufigkeitstabelle . . . . . . . . . . . . . . . . . . 28 3.30 SPSS - Mehrfachantworten Kreuztabelle Dialog . . . . . . . . . . . . . . . . . 28 3.31 SPSS - Mehrfachantworten Kreuztabelle . . . . . . . . . . . . . . . . . . . . . 29 5.1 Scatter-Plot und Box-Plot der Daten . . . . . . . . . . . . . . . . . . . . . . . 38 5.2 Dot-Plot der Differenzen der Reichweiten . . . . . . . . . . . . . . . . . . . . 40 5.3 Dichte der t-Verteilung mit 9 FG . . . . . . . . . . . . . . . . . . . . . . . . . 43 5.4 Wahrscheinlichkeitsfunktion Binomialverteilung . . . . . . . . . . . . . . . . . 49 6.1 Wahldaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 6.2 Wahldaten - Binomialtest Dialog . . . . . . . . . . . . . . . . . . . . . . . . . 55 6.3 Wahldaten - Binomialtest Ergebnis . . . . . . . . . . . . . . . . . . . . . . . . 55 6.4 Differenzdaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 6.5 Differenzdaten - t-Test Dialog . . . . . . . . . . . . . . . . . . . . . . . . . . 58 6.6 Differenzdaten - t-Test Ergebnis . . . . . . . . . . . . . . . . . . . . . . . . . 59 6.7 Wahrscheinlichkeitsfunktion Binomialverteilung . . . . . . . . . . . . . . . . . 63 6.8 Differenzdaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 6.9 Differenzdaten - VZ-Test Dialog . . . . . . . . . . . . . . . . . . . . . . . . . 65 6.10 Differenzdaten - VZ-Test Ergebnis . . . . . . . . . . . . . . . . . . . . . . . . 65 6.11 Hypothese Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 6.12 Hypothese Anpassungstest Würfelwurf . . . . . . . . . . . . . . . . . . . . . . 66 6.13 Entscheidung χ 2 -Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . 68 6.14 Würfeldaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 6.15 Würfeldaten - χ 2 -Test Dialog . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 6.16 Würfeldaten - χ 2 -Test Ergebnis . . . . . . . . . . . . . . . . . . . . . . . . . 70 6.17 Differenzdaten - Histogramm-Dialog . . . . . . . . . . . . . . . . . . . . . . . 72 6.18 Differenzdaten - Histogramm-Dialog . . . . . . . . . . . . . . . . . . . . . . . 73 6.19 Differenzdaten - Box-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 6.20 Differenzdaten - QQ-Plot-Dialog . . . . . . . . . . . . . . . . . . . . . . . . . 75 6.21 Differenzdaten - QQ-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 6.22 Differenzdaten - QQ-Plot-Residuendarstellung . . . . . . . . . . . . . . . . . . 76 6.23 Zufallszahlen ziehen - Dialog . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 6.24 Zufallszahlen ziehen - Ergebnis . . . . . . . . . . . . . . . . . . . . . . . . . . 77 6.25 Zufallszahlen ziehen - Histogramm . . . . . . . . . . . . . . . . . . . . . . . . 78 6.26 Zufallszahlen ziehen - QQ-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . 78 <?page no="249"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 237 — le-tex Teil V Anhänge Kapitel 20. Abbildungsverzeichnis 237 6.27 SPSS - Zufallszahlengenrator . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 6.28 Differenzdaten - KS-Test-Dialog . . . . . . . . . . . . . . . . . . . . . . . . . 80 6.29 Differenzdaten - KS-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 7.1 TITANIC-Daten - Kontingenztabelle Menüpunkt . . . . . . . . . . . . . . . . 87 7.2 TITANIC-Daten - Kontingenztabelle-Dialog . . . . . . . . . . . . . . . . . . . 88 7.3 TITANIC-Daten - Kontingenztabelle . . . . . . . . . . . . . . . . . . . . . . . 88 7.4 TITANIC-Daten - Chiquadrat-Test . . . . . . . . . . . . . . . . . . . . . . . . 89 7.5 Reichweitendaten - t-Test verbunden Menü . . . . . . . . . . . . . . . . . . . 90 7.6 Reichweitendaten - t-Test verbunden Dialog . . . . . . . . . . . . . . . . . . . 90 7.7 Reichweitendaten - t-Test verbunden Ergebnis . . . . . . . . . . . . . . . . . . 91 7.8 F-Test - F-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 7.9 Vergleichender Box-Plot - Dialog . . . . . . . . . . . . . . . . . . . . . . . . . 97 7.10 Vergleichender Box-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 7.11 t-Test bei unverbundenen Stichproben - Dialog . . . . . . . . . . . . . . . . . 98 7.12 t-Test bei unverbundenen Stichproben . . . . . . . . . . . . . . . . . . . . . . 99 8.1 Vergleichender Box-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 8.2 Einfaktorielle ANOVA - Dialog . . . . . . . . . . . . . . . . . . . . . . . . . . 106 8.3 Einfaktorielle ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 8.4 Einfaktorielle ANOVA - post hoc . . . . . . . . . . . . . . . . . . . . . . . . . 107 8.5 Einfaktorielle ANOVA - Welch . . . . . . . . . . . . . . . . . . . . . . . . . . 107 8.6 Zweifaktorielle ANOVA - Box-Plot . . . . . . . . . . . . . . . . . . . . . . . . 109 8.7 Zweifaktorielle ANOVA - noch ein Box-Plot . . . . . . . . . . . . . . . . . . . 109 8.8 Zweifaktorielle ANOVA - Dialog . . . . . . . . . . . . . . . . . . . . . . . . . 110 8.9 Zweifaktorielle ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 8.10 Zweifaktorielle ANOVA - Mittelwerte der Faktorstufen . . . . . . . . . . . . . 111 10.1 Kontingenzkoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 10.2 TITANIC-Daten - Zeilenprofil . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 10.3 TITANIC-Daten - Spaltenprofil . . . . . . . . . . . . . . . . . . . . . . . . . . 124 10.4 TITANIC-Daten - Zeilenprofil Graphik . . . . . . . . . . . . . . . . . . . . . . 124 10.5 Scatter-Plot - SEA-Budget vs. Klicks . . . . . . . . . . . . . . . . . . . . . . 125 10.6 Scatter-Plot - Alter des Autos vs. Wiederverkaufswert . . . . . . . . . . . . . . 127 10.7 Scatter-Plot - Ränge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 10.8 Scatter-Plot - Beispiele aus Wikipedia . . . . . . . . . . . . . . . . . . . . . . 129 10.9 Scatter-Plot - SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 10.10 Korrelation - Menü . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 10.11 Korrelation - Dialog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 <?page no="250"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 238 — le-tex 238 Kapitel 20. Abbildungsverzeichnis 10.12 Korrelation Pearson - lineares Beispiel . . . . . . . . . . . . . . . . . . . . . . 132 10.13 Korrelation Spearman - lineares Beispiel . . . . . . . . . . . . . . . . . . . . . 132 10.14 Korrelation Pearson - nicht lineares Beispiel . . . . . . . . . . . . . . . . . . . 133 10.15 Korrelation Spearman - nicht lineares Beispiel . . . . . . . . . . . . . . . . . . 133 11.1 Scatter-Plot mit Regressionsgeraden- SPSS . . . . . . . . . . . . . . . . . . . 137 11.2 Lineare Regression - SPSS-Dialog . . . . . . . . . . . . . . . . . . . . . . . . 138 11.3 Lineare Regression - SPSS-Dialog . . . . . . . . . . . . . . . . . . . . . . . . 139 11.4 Partielle Korrelation - SPSS-Dialog . . . . . . . . . . . . . . . . . . . . . . . . 142 11.5 Partielle Korrelation - SPSS-Dialog . . . . . . . . . . . . . . . . . . . . . . . . 143 11.6 Zeitreihenanalyse - Linienzug der Daten . . . . . . . . . . . . . . . . . . . . . 144 11.7 Zeitreihenanalyse - Linienzug der Daten mit Trend . . . . . . . . . . . . . . . 145 11.8 Zeitreihenanalyse - Linienzug der Daten mit Trendbereinigung . . . . . . . . . 146 11.9 Zeitreihenanalyse - Autokorrelation . . . . . . . . . . . . . . . . . . . . . . . . 147 11.10 SPSS - Autokorrelation Dialog . . . . . . . . . . . . . . . . . . . . . . . . . . 148 11.11 SPSS - Autokorrelation Werte . . . . . . . . . . . . . . . . . . . . . . . . . . 148 11.12 SPSS - Autokorrelation graphische Darstellung . . . . . . . . . . . . . . . . . 149 11.13 SPSS - Autokorrelation Werte (stationär) . . . . . . . . . . . . . . . . . . . . 150 11.14 SPSS - Autokorrelation graphische Darstellung (stationär) . . . . . . . . . . . 151 11.15 Google-AdWords-Beispiel zur Regression . . . . . . . . . . . . . . . . . . . . . 154 11.16 Google-AdWords-Beispiel zur multiplen Regression - Dialog . . . . . . . . . . . 155 11.17 Multiple Regression - Modellzusammenfassung . . . . . . . . . . . . . . . . . 156 11.18 Multiple Regression - ANOVA-Tabelle . . . . . . . . . . . . . . . . . . . . . . 157 11.19 Multiple Regression - das Modell . . . . . . . . . . . . . . . . . . . . . . . . . 157 11.20 Multiple Regression - Residuen Endogenität . . . . . . . . . . . . . . . . . . . 158 11.21 Multiple Regression - Residuen Histogramm . . . . . . . . . . . . . . . . . . . 159 11.22 Lineare und nicht-lineare Anpassung . . . . . . . . . . . . . . . . . . . . . . . 161 12.1 Scree-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 12.2 Eigenvektoren, Loadings, Linearkombination . . . . . . . . . . . . . . . . . . . 169 12.3 Loadings auf Basis der Cor-Matrix . . . . . . . . . . . . . . . . . . . . . . . . 170 12.4 Scatter-Plot der Scores der ersten beiden HK . . . . . . . . . . . . . . . . . . 171 12.5 HKA - Menü . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 12.6 HKA - Menü . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 12.7 HKA - Ergebnis erklärte Varianz/ Eigenwerte . . . . . . . . . . . . . . . . . . . 176 12.8 HKA - Scree-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 12.9 HKA - Kommunalität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 12.10 HKA - Ergebnis-Eigenvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . 178 <?page no="251"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 239 — le-tex Teil V Anhänge Kapitel 20. Abbildungsverzeichnis 239 12.11 HKA - Ergebnis-Eigenvektoren als Balkendiagramm . . . . . . . . . . . . . . . 179 12.12 HKA - Komponentendiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . 180 12.13 HKA - Eigenwerte rotiert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 12.14 HKA - Komponentendiagramm rotiert. . . . . . . . . . . . . . . . . . . . . . . 182 15.1 Satz von Bayes - Einfluss P (A) . . . . . . . . . . . . . . . . . . . . . . . . . 199 15.2 Baumdarstellung - Satz von Bayes . . . . . . . . . . . . . . . . . . . . . . . . 199 15.3 Bernoulli-Zufallszahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 15.4 Variable umcodieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 15.5 Variable umcodieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 15.6 Diskriminanzanalyse - Dialog . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 15.7 Diskriminanzanalyse - Mittelwerte vergleichen . . . . . . . . . . . . . . . . . . 204 15.8 Diskriminanzanalyse - Zusammenfassung . . . . . . . . . . . . . . . . . . . . . 205 15.9 Diskriminanzanalyse - nicht standardisierte Koeffizienten . . . . . . . . . . . . 206 15.10 Diskriminanzanalyse - standardisierte Koeffizienten . . . . . . . . . . . . . . . 207 15.11 Diskriminanzanalyse - Strukturmatrix . . . . . . . . . . . . . . . . . . . . . . 207 15.12 Diskriminanzanalyse - Histogramm der Diskriminanzfunktion . . . . . . . . . . 208 15.13 Diskriminanzanalyse - Klassifikationsergebnis . . . . . . . . . . . . . . . . . . 208 15.14 Diskriminanzanalyse - WS vs. Diskriminanzfunktion . . . . . . . . . . . . . . . 209 16.1 Darstellung der Berechnung von Distanzmaßen . . . . . . . . . . . . . . . . . 213 16.2 Dendrogramme zum Beispiel Alter . . . . . . . . . . . . . . . . . . . . . . . . 216 16.3 K-Means: Startkonfiguration . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 16.4 K-Means: Startkonfiguration und Endkonfiguration . . . . . . . . . . . . . . . 220 16.5 Distanzmatrix - Dialog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 16.6 Distanzmatrix - Ergebnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 16.7 Clusteranalyse - Dialog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 16.8 Clusteranalyse - Ergebnis Tabelle . . . . . . . . . . . . . . . . . . . . . . . . . 222 16.9 Clusteranalyse - Dendrogramm . . . . . . . . . . . . . . . . . . . . . . . . . . 223 16.10 Clusteranalyse - Cluster als neues Merkmal . . . . . . . . . . . . . . . . . . . 223 16.11 Clusteranalyse - 3 Cluster als neues Merkmal . . . . . . . . . . . . . . . . . . 224 16.12 K-Means - Dialog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 16.13 K-Means - Ergebnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 16.14 k-means - ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 <?page no="252"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 240 — le-tex <?page no="253"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 241 — le-tex Teil V Anhänge Kapitel 21 Stichwortverzeichnis Ablehnbereich, 44 Alpha-Fehler, 39, 44 Alternativhypothese, 36 Annahmebereich, 44 ANOVA, einfaktoriell, 101 ANOVA, post hoc, 105 ANOVA, Tabelle, 106, 157 ANOVA, Welch, 107 ANOVA, zweifaktoriell, 108 arithmetisches Mittel, 59 Autokorrelation, 143 Autokorrelation, partiell, 150 Average Linkage, 214 Baumdiagramm, 198 Bayes, Satz von, 196 Bayes, Thomas, 196 Bayes-Entscheidungsregel, 195 Bayes-Theorem, 196 Bernoulli-Experiment, 49 Bernoulli-Prozess, 48, 49 Bernoulli-Verteilung, 201 Bestimmtheitsmaß, 136, 156 Bestimmtheitsmaß, korrigiertes, 156 Beta-Fehler, 44 Big Data, 3 Bindungen, 128 Binomialkoeffizient, 103 Binomialtest, 51 Binomialverteilung, 48, 50, V Binomialverteilung, negative, 50 Bi-Plot, 172 Box, George, 37 Box-Cox-Transformation, 152 Box-Plot, 38, 72 Box-Plot, vergleichend, 18, 38, 97 Chiquadrat-Anpassungstest, 65 Clusteranalyse, 212 Clusteranalyse, agglomerativ, 213 Clusteranalyse, Dendrogramm, 215 Clusteranalyse, Linkage, 214 Complete Linkage, 214 Datenanalyse, explorativ, 37 Datenbank, 4 Datenbankmanagementsystem, 4 Datensatz, 4, 87 Degrees of Freedom, 100 Dendrogramm, 215 df, 100 dichotom, 198 dichotomisieren, 49 Dichte, χ 2 -Verteilung, 67 Dichte, t-Verteilung, 42 Dimensionsreduktion, 165 disjunkt, 49 Diskriminanzanalyse, 195 Diskriminanzanalyse, Eigenwert, 205 Distanz, euklidisch, 212 Distanz, Manhattan, 212 Distanzmatrix, 212 Dot-Plot, 39 <?page no="254"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 242 — le-tex 242 Kapitel 21. Stichwortverzeichnis EDA, 14, 37 Effekte, getrennt, 108 Effekte, interaktion, 108 Eigenvektoren, 178 Endogenität, 158 Entscheidungsmatrix, 45 Entscheidungsregel, 48 Epsilon, 152 erwartungstreu, 59 Extraktion, 175 Faktoren, latent, 174 Faktorenanalyse, 165, 173 Faktorlösung, nicht rotiert, 175 Fehler, 1. Art, 44 Fehler, 2. Art, 44 Fehler, Alpha, 39, 44, 48 Fehler, Beta, 44 Feld, 4, 87 Freiheitsgrade, 42 F-Test, 94 Gauß, Carl Friedrich, 21 Gegenhypothese, 36 geometrische Verteilung, 50 Gesetz der großen Zahlen, 41 Google, AdWords, 145 Grenzwertsatz, zentral, 21 Gruppe, heterogen, 108 Gruppe, homogen, 108, 193 Hauptkomponentenanalyse, 163 Hauptsatz der mathematischen Statistik, 71 Heterogenität, 193 Heteroskedastizität, 96 Histogramm, 72 HKA, 163 HKA, Eigenvektoren, 178 HKA, Extraktion, 175 HKA, Kommunalität, 177 HKA, Komponentendiagramm, 179 HKA, Rotation, 180 HKA, Scores, 176 Homogenität, 193 Homoskedastizität, 96 Hypothese, 36 Jolliffe-Kriterium, 168 Kaiser-Kriterium, 168 K-Means, 218 K-Means, ANOVA, 225 Kommunalität, 177 Konfidenzintervall, 60, 158 Kontingenzkoeffizient, 121 Kontingenztabelle, 25, 85 Korrelation, Autokorrelation, 143 Korrelation, kanonisch, 206 Korrelation, kophenetische, 217 Korrelation, negativ, 127 Korrelation, partiell, 140 Korrelation, positiv, 125 Korrelation, Schein, 129, 140 Korrelationskoeffizient, multipler, 156 Korrelationskoeffizient, Pearson, 125 Korrelationskoeffizient, Spearman, 127 Korrelationsmatrix, 132, 170 Kovarianz, empirisch, 126 KPI, 39, 159 Kreuztabelle, 25, 85 kritische Stelle, 44 KS-Test, 71 Kurtosis, 21 Ladungsdiagramm, 175 Lag, 147 Loadings, 175 Matrix, kophenetisch, 216 Merkmal, 87 Merkmal, Dummy, 26 Merkmal, kontrollieren, 140 Merkmalsausprägung, 87 Messniveau, ordinal, 155 Mittelwert, 59 Modell, gesättigt, 110 Modell, linear, 135 Modell, statistisch, 144 Modell, trainiere, 201 Monte-Carlo-Simulation, 79 Multiplikationssatz der Unabhängigkeit, 85 √n-Gesetz, 41 nominalskaliert, 121 Normalverteilung, 57, 71, 159, V Normalverteilung, bivariat, 126 Normalverteilung, Kurtosis, 21 Normalverteilung, Überblick, 21 <?page no="255"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 243 — le-tex Teil V Anhänge Kapitel 21. Stichwortverzeichnis 243 Open Source, GNU, 5 Pearson, Karl, 121, 125, 165 post hoc, LSD, 105 Power, 61 Profil, 26 Prüfgröße, 39, 48 Prüfgröße, t-Test, 40 Pseudozufallszahlen, 79 PSPP, 7 p-Wert, 46, 50 QQ-Plot, 74 R, 7 Rang, 128 Rangkorrelationskoeffizient, 127 Rangwertreihe, 128 Regression, ANOVA-Tabelle, 157 Regression, einfache lineare, 135 Regression, Endogenität, 158 Regression, Konfidenzintervall, 153 Regression, multiple, 153 Regression, nicht standardisierte Koeffizienten, 157 relative Häufigkeit, bedingte, 26, 122 Residuen, Korrelation, 158 Residuen-Plot, 76, 136 Restkomponente, 144 Rotation, 175 Rotation, Varimax, 180 Saisonkomponente, 144 Satz von Gliwenko-Cantelli, 71 Scatter-Plot, 18, 38, 74, 125 Scheinkorrelation, 129, 140 Schiefe, 21 Schwankungsintervall, 22 Schwerpunkt, 18, 130 Scoring, 195 Scree-Plot, 167, 175, 177 Segmentierung, hierarchisch, 212 Segmentierung, partitionierend, 218 Sensitivität, 197 signifikant, 45 Signifikanzniveau, 46 Simpson-Paradox, 117 Simulation, 79 Single linkage, 214 Software, open source, 5 Software, proprietär, 5 Software, R, 7 Spaltenprofil, 122 Spearman, Charles, 127 Spezifizität, 197 SPSS, 7, VI SPSS, χ 2 -Anpassungstest, 68 SPSS, χ 2 -Unabhängigkeitstest, 87 SPSS, Analysen, 20 SPSS, ANOVA einfaktoriell, 105 SPSS, ANOVA zweifaktoriell, 108 SPSS, Binomialtest, 54 SPSS, Clusteranalyse, 221 SPSS, Daten einlesen, 8 SPSS, Datenansicht, 10 SPSS, Dateneditor, 10 SPSS, Diagrammeditor, 18 SPSS, Diskriminanzanalyse, 201 SPSS, Distanzmatrix, 221 SPSS, Eigenschaften, 7 SPSS, Graphiken, 14 SPSS, Hauptkomponentenanalyse, 175 SPSS, Klassierung, 12 SPSS, K-Means, 221 SPSS, Kontingenz, 123 SPSS, Korrelation, 130 SPSS, Korrelation partiell, 142 SPSS, KS-Test, 80 SPSS, Mehrfachantworten, 26 SPSS, Profile, 123 SPSS, Regression einfach, 136 SPSS, Regression multiple, 155 SPSS, Streudiagramm gruppiert, 155 SPSS, Transformieren, 11 SPSS, t-Test, 58 SPSS, t-Test unverbunden, 97 SPSS, t-Test verbunden, 90 SPSS, umcodieren, 11 SPSS, Variable berechnen, 13 SPSS, Variablenansicht, 10 SPSS, Viewer, 10 SPSS, Vorzeichentest, 64 SPSS, Zufallszahlen, 76 SPSS, Zufallszahlen Startwert, 79 SPSS, Zufallszahlengenerator, 79 SQL, 4 <?page no="256"?> Prof. Dr. Veith Tiemann: Inferenzmethoden und Multivariate Statistik — 2019/ 2/ 18 — Seite 244 — le-tex 244 Kapitel 21. Stichwortverzeichnis standardisieren, 23 Standardnormalverteilung, 22 Statistiksoftware, 3, VI Statistiksoftware, PSPP, 7 Statistiksoftware, SPSS, 7 Störgröße, 152 Streudiagramm, gruppiert, 155 Streuung, erklärte, 104 Streuung, maximieren, 165 Streuung, residual, 104 Streuungszerlegung, 104 Test, auf Korrelation, 126 Test, Brown-Forsythe, 95 Test, F, 94 Test, KS, 71 Test, Levene, 95, 100 Test, nicht parametrisch, 51 Test, parametrisch, 46 Test, Power, 61 Test, t, 56 Test, Trennschärfe, 61 Test, Welch, 96 Test, z, 57 Testdaten, 201 Trainingsdaten, 201 Trendbereinigung, 146 Trendkomponente, 144 Trennschärfe, 61 t-Test, Power, 61 t-Test, unverbunden, 93 t-Test, verbunden, 90 Tukey, John, 14, 37 t-Verteilung, 42 Überschreitungswahrscheinlichkeit, 46, 50 Unabhängigkeit, 85 Unabhängigkeit, Multiplikationssatz, 85 Variable, 87 Variable, endogen, 135 Variable, erklärend, 135 Variable, exogen, 135 Variable, zu erklären, 135 Varianz arithmetisches Mittel, 41 Varianzanalyse, 104, 157 Varianzgleichheit, 96 Varianztest, 94 Verfahren, klassifizierende, 193 Verfahren, segmentierende, 193 Verschlüsselung, 79 Verteilung, linksschief, 21 Verteilung, rechtsschief, 21 Verteilung, symmetrisch, 21 Verteilung, t, 42 Verteilungsfunktion, empirisch, 71 Verteilungsfunktion, theoretisch, 71 Vorzeichentest, 62 Wahrscheinlichkeit, a posteriori, 195, 196 Wahrscheinlichkeit, a priori, 196 Wahrscheinlichkeit, bedingte, 195 Wahrscheinlichkeit, totale, 198 Welch-Test, 96 Wilks’ Lambda, 206 Winkelhalbierende, 38, 74 Würfel, fair, 39 Würfelexperiment, 39 Zeilenprofil, 122 Zeitreihe, 143 Zeitreihe, lag, 147 Zeitreihe, stationär, 146 Zeitreihen, Komponenten, 144 Zeitreihen, Restkomponente, 144 Zeitreihen, Saisonkomponente, 144 Zeitreihen, Trendbereinigung, 146 Zeitreihen, Trendkomponente, 144 Zeitreihenanalyse, 143 zentraler Grenzwertsatz, 64 Zufallsexperiment, 47 Zufallsvariable, 37, 152 Zufallszahlen, 76 Zufallszahlen, Eigenschaften, 79 Zusammenhang, kausal, 121, 125 Zusammenhang, linear, 125 Zusammenhang, negativ, 127 Zusammenhang, nicht linear, 127 Zusammenhang, positiv, 125 Zweistichprobenproblem, 36, 83 Zweistichprobenproblem, unverbunden, 84 Zweistichprobenproblem, verbunden, 36, 39, 83 <?page no="257"?> Veith Tiemann Inferenzmethoden und Multivariate Statistik Grundlagen mit SPSS verstehen Inferenzmethoden und Multivariate Statistik Tiemann Von der Stichprobe auf die Grundgesamtheit schließen dabei hilft die Inferenzstatistik! Veith Tiemann vermittelt in seinem neuen Lehrbuch die Grundlagen der Inferenzstatistik und Multivariaten Statistik. Zu Beginn stellt er statistische Tests und den Ein-, Zwei- und C-Stichprobenfall vor. Abhängigkeitsstrukturen deckt er durch Korrelationen, Regressionen, Hauptkomponenten- und Faktoranalysen auf. Er zeigt auch, wie sich Gruppenstrukturen bilden lassen. Den Stoff illustriert er durch zahlreiche Beispiele und SPSS-Anwendungen. Das Buch richtet sich an Studierende der Wirtschafts- und Sozialwissenschaften und ist darüber hinaus für das Selbststudium geeignet. Wirtschafts- und Sozialwissenschaften ,! 7ID8C5-cfbcbf! ISBN 978-3-8252-5121-5 Dies ist ein utb-Band aus dem UVK Verlag. utb ist eine Kooperation von Verlagen mit einem gemeinsamen Ziel: Lehrbücher und Lernmedien für das erfolgreiche Studium zu veröffentlichen. utb-shop.de QR-Code für mehr Infos und Bewertungen zu diesem Titel 51215 Tiemann_L-5121.indd 1 20.02.19 14: 32