Grundwissen Deskriptive Statistik
mit Aufgaben, Klausuren und Lösungen
1007
2019
978-3-8385-5321-4
978-3-8252-5321-9
UTB
Andreas Behr
Mit R-Code!
Kenntnisse der Deskriptiven Statistik gehören für Bachelorstudierende der BWL und VWL zu den Kernkompetenzen.
Auf kompakte Art und Weise stellt diese zweite, überarbeitete Auflage die relevanten Fachtermini vor und vermittelt das Wichtigste zur Verteilung, Kerndichteschätzung, zu Maßzahlen sowie zur Korrelations- und Regressionsrechnung. Auch die Konzentrationsmessung sowie Preis- und Mengenindizes werden erklärt. Übungen mit Lösungen, Musterklausuren und ein Formelteil runden das Buch ab.
<?page no="1"?> Eine Arbeitsgemeinschaft der Verlage Böhlau Verlag · Wien · Köln · Weimar Verlag Barbara Budrich · Opladen · Toronto facultas · Wien Wilhelm Fink · Paderborn Narr Francke Attempto Verlag · Tübingen Haupt Verlag · Bern Verlag Julius Klinkhardt · Bad Heilbrunn Mohr Siebeck · Tübingen Ernst Reinhardt Verlag · München Ferdinand Schöningh · Paderborn Eugen Ulmer Verlag · Stuttgart UVK Verlag · München Vandenhoeck & Ruprecht · Göttingen Waxmann · Münster · New York wbv Publikation · Bielefeld utb 4825 UTB (S) Impressum_19.indd 1 20.02.19 12: 37 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 1 03.09.2019 13: 55: 14 <?page no="2"?> 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 2 03.09.2019 13: 55: 14 <?page no="3"?> Andreas Behr Grundwissen Deskriptive Statistik mit Aufgaben, Klausuren und Lösungen 2., überarbeitete Auflage UVK Verlag · München 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 3 03.09.2019 13: 55: 15 <?page no="4"?> Prof. Dr. Andreas Behr lehrt Statistik an der Universität Duisburg-Essen. Online Angebote oder elektronische Ausgaben sind erhältlich unter www.utb-shop.de Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über <http: / / dnb.ddb.de> abrufbar. Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. © UVK Verlag 2019 - ein Unternehmen der Narr Francke Attempto Verlag GmbH & Co. KG Lektorat: Rainer Berger, München Einbandgestaltung: Atelier Reichert, Stuttgart Einbandmotiv: © gremlin - iStock Druck und Bindung: CPI - Clausen & Bosse, Leck UVK Verlag Nymphenburger Str. 48 80335 München Telefon: 089/ 452174-66 Narr Francke Attempto Verlag GmbH & Co. KG Dischingerweg 5 72070 Tübingen Telefon: 07071/ 9797-0 www.narr.de UTB-Nr. 4825 ISBN 978-3-8252-5321-9 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 4 03.09.2019 13: 55: 15 <?page no="5"?> Vorwort zur zweiten Auflage Für die zweite Auflage wurden alle beispielhaften empirischen Analysen mit Daten der Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften 2018 (ALLBUS) angefertigt. (GESIS - Leibniz- Institut für Sozialwissenschaften (2019): Allgemeine Bevölkerungsumfrage der Sozialwissenschaften ALLBUS 2018. GESIS Datenarchiv, Köln. ZA5270 Datenfile Version 2.0.0, doi: 10.4232/ 1.13250.) Die empirischen Aufgaben und deren Lösungshinweise beziehen sich nun ebenfalls durchgängig auf Daten das ALLBUS. Das verwendete Datenfile steht für die Leserinnen und Leser des Buches zum Download bereit. Zudem wurden im Text, in den Übungsaufgaben und den Lösungshinweisen in der ersten Auflage verbliebene Fehler und Ungenauigkeiten für die zweite Auflage korrigiert. Alle Ergebnisse wurden in R berechnet. Bei der Angabe von Zwischenergebnissen im Text ist zu beachten, dass durchgängig mit nicht gerundeten Zwischenergebnissen gerechnet wurde. Hierdurch ergeben sich mitunter geringfügige Abweichungen der dargestellten Ergebnisse von den Ergebnissen, die bei Verwendung gerundeter Zwischenergebnisse resultieren. Auch bei der zweiten Auflage gilt mein besonderer Dank Christoph Schiwy für seine Unterstützung bei der Erstellung des Buches mit L A TEXund knitr. Für die Durchsicht des Manuskriptes möchte ich mich bei Gerald Fugger, Marco Giese, Donald Teguim Kamdjou, Fiona Ewald, Lucy Hong und Erik Berns bedanken. Andreas Behr August 2019 Digitale Zusatzmaterialien Die im Text verwendeten Daten können Sie unter www.utbshop.de auf Titelebene des Buches unter dem Reiter Zusatzmaterial herunterladen. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 5 03.09.2019 13: 55: 15 <?page no="6"?> Vorwort zur ersten Auflage Der vorliegende Text soll Einblicke in die Grundlagen der Deskriptiven Statistik vermitteln. Er ist entstanden auf der Grundlage von Vorlesungsfolien und Skripten meiner Lehrveranstaltungen an den Universitäten in Frankfurt/ M., Münster und Essen. Als didaktisches Konzept wurde versucht, die vorgestellten Methoden mit Hilfe einfachster Zahlenbeispiele transparent darzustellen, bevor sie auf einen Datensatz, der Informationen über 1000 Personen enthält und aus der Panel Study of Income Dynamics (USA) stammt, angewendet werden. Der Text enthält neben der Darstellung der ausgewählten statistischen Methoden jeweils am Kapitelende kurze Blöcke, in denen Code zur Berechnung der numerischen Ergebnisse und zur Erstellung der Graphiken der statistischen Programmierumgebung R präsentiert wird. Die dargestellten und besprochenen Ergebnisse lassen sich damit recht einfach reproduzieren. Ein einführender Text in die statistische Analyse mit R ist Behr, Andreas / Pötter, Ulrich, Einführung in die Statistik mit R, 2. Auflage, Vahlen Verlag, München, 2011. Aus Platzgründen wurde in der Regel ein etwas vereinfachter R-Code angegeben, so dass die im Text enthaltenen Graphiken nicht mit den aus dem angegeben R-Code resultierenden identisch sind. Zu beachten ist, dass die dargestellten Ergebnisse gerundet wurden, wodurch sich u.U. geringfügige Abweichungen von exakten oder weniger stark gerundeten Ergebnissen - etwa bei Verwendung des angegebenen R-Codes - erklären. In Anlehnung an die übliche Darstellung in statistischer Software wird im gesamten Text als 1000er Trennzeichen ein Komma und als Dezimaltrennzeichen ein Punkt verwendet. Am Ende jedes Kapitels befinden sich Übungsaufgaben, mit deren Hilfe die in dem jeweiligen Kapitel besprochenen Inhalte vertieft und deren Anwendung geübt werden kann. Am Ende des Buches finden sich gekürzte Lösungen der Übungsaufgaben. Zudem enthält das Buch eine Formelsammlung, in der die wichtigsten Formeln des Textes zusammengestellt sind. Üblich ist die Bereitstellung derartiger Formelsammlungen als Hilfe in Klausuren. Formeln, die in der Formelsammlung enthalten sind, sind im Text grau hinterlegt, womit auf deren herausgehobene Bedeutung verwiesen wird. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 6 03.09.2019 13: 55: 15 <?page no="7"?> 7 Für die eigenständige Überprüfung des Kenntnisstands sind zudem zwei Klausuren im Text enthalten. Auch für diese finden sich am Ende des Buches kurze Lösungshinweise. Bedanken möchte ich mich bei Götz Rohwer für Hinweise und Beiträge, insbesondere zu den Kapiteln 2 und 11; und bei Christoph Schiwy, ohne dessen Unterstützung in L A T E Xund knitr das Buch nicht entstanden wäre. Zudem danke ich Katja Theune, Lucy Hong, Neele Daun, Jurij Weinblat, Gerald Fugger und Kevin Gründker für die Durchsicht des Manuskripts. Andreas Behr 2017 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 7 03.09.2019 13: 55: 16 <?page no="8"?> 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 8 03.09.2019 13: 55: 16 <?page no="9"?> Inhaltsverzeichnis 1 Einführung 15 1.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 16 1.1.1 Ziele . . . . . . . . . . . . . . . . . . . . . . 16 1.1.2 Motivation . . . . . . . . . . . . . . . . . . 16 1.2 Variablen und Häufigkeiten . . . . . . . . . . . . . 17 1.2.1 Variablen und Daten . . . . . . . . . . . . . 17 1.2.2 Merkmalsarten und Skalenniveaus . . . . . 18 1.2.3 Absolute und relative Häufigkeiten . . . . . 18 1.2.4 Stabdiagramme . . . . . . . . . . . . . . . . 19 1.2.5 Klassierung . . . . . . . . . . . . . . . . . . 20 1.3 Ein Beispiel mit Einkommensdaten . . . . . . . . . 20 1.3.1 Datenquelle: Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) . 21 1.3.2 Die Variablen im Datensatz . . . . . . . . . 21 1.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 24 1.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 27 2 Darstellung von Häufigkeitsverteilungen 29 2.1 Histogramme . . . . . . . . . . . . . . . . . . . . . 30 2.1.1 Beschreibung der Methode . . . . . . . . . 30 2.1.2 Bestimmung der Klassen . . . . . . . . . . . 31 2.2 Kerndichteschätzung . . . . . . . . . . . . . . . . . 33 2.2.1 Die grundlegende Idee der Kerndichteschätzung . . . . . . . . . . . . . . . . . . . . . . 34 2.2.2 Kernfunktionen . . . . . . . . . . . . . . . . 34 2.2.3 Berechnung für Stützstellen . . . . . . . . . 37 2.2.4 Verfahren der Bandweitenwahl . . . . . . . 38 2.2.5 Auswirkung von Bandweiten- und Kernfunktionswahl . . . . . . . . . . . . . . . . . . . 38 2.2.6 Bestimmung des Modus . . . . . . . . . . . 39 2.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 41 2.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 42 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 9 03.09.2019 13: 55: 16 <?page no="10"?> 10 Inhaltsverzeichnis 3 Charakterisierungen von Häufigkeitsverteilungen 45 3.1 Verteilungsfunktion . . . . . . . . . . . . . . . . . . 46 3.2 Quantilsfunktion . . . . . . . . . . . . . . . . . . . 47 3.3 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . 49 3.3.1 Lagemaße . . . . . . . . . . . . . . . . . . . 50 3.3.2 Streuungsmaße . . . . . . . . . . . . . . . . 53 3.3.3 Schiefe- und Wölbungsmaße . . . . . . . . . 55 3.4 Approximationen mit klassierten Daten . . . . . . 59 3.4.1 Approximation des Modus . . . . . . . . . . 59 3.4.2 Approximation des Zentralwerts . . . . . . 59 3.4.3 Approximation des arithmetischen Mittels . 61 3.4.4 Approximation der Standardabweichung . . 61 3.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 63 3.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 66 4 Konzentrationsmessung 71 4.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 72 4.2 Maßzahlen der absoluten Konzentration . . . . . . 72 4.2.1 Die Konzentrationsrate . . . . . . . . . . . 72 4.2.2 Die Konzentrationskurve . . . . . . . . . . . 73 4.2.3 Der Rosenbluth-Koeffizient . . . . . . . . . 74 4.2.4 Der Hirschman-Herfindahl-Koeffizient . . . 75 4.3 Maßzahlen der relativen Konzentration . . . . . . . 76 4.3.1 Der Variationskoeffizient . . . . . . . . . . . 77 4.3.2 Die Lorenzkurve und der Gini-Koeffizient . 77 4.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 83 4.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 85 5 Strukturanalysen 89 5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 90 5.2 Maßzahlen für Strukturunterschiede . . . . . . . . 90 5.2.1 Strukturdifferenz und normierte Strukturdifferenz . . . . . . . . . . . . . . . . . . . . . 91 5.2.2 Euklidische Norm . . . . . . . . . . . . . . . 92 5.3 Additive Komponentenzerlegung . . . . . . . . . . 92 5.3.1 Standardisierung . . . . . . . . . . . . . . . 94 5.3.2 Niveau- und Struktureffekt . . . . . . . . . 95 5.3.3 Niveau-, Struktur- und Mischeffekt . . . . . 96 5.4 Multiplikative Komponentenzerlegung . . . . . . . 99 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 10 03.09.2019 13: 55: 16 <?page no="11"?> Inhaltsverzeichnis 11 5.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 101 5.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 103 6 Preis- und Mengenindizes 107 6.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 108 6.2 Transaktionen, Mengen und Preise . . . . . . . . . 108 6.3 Preisindizes auf Basis von Warenkorbvergleichen . 109 6.4 Messziffernmittelung . . . . . . . . . . . . . . . . . 112 6.5 Repräsentativgewichtung: Einzelpreise und Ausgabenanteile . . . . . . . . . . . . . . . . . . . . . . . 114 6.6 Konstruktion von Indexziffern . . . . . . . . . . . . 115 6.6.1 Der Verbraucherpreisindex . . . . . . . . . 116 6.6.2 Entwicklung der Verbraucherpreise seit 1881 119 6.7 Kettenindizes . . . . . . . . . . . . . . . . . . . . . 121 6.7.1 Definition von Kettenindizes . . . . . . . . 122 6.7.2 Vor- und Nachteile von Kettenindizes . . . 122 6.7.3 Deflationierung mit Kettenindizes . . . . . 123 6.8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 125 6.9 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 127 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und Streuungszerlegung 129 7.1 Mehrdimensionale Variablen . . . . . . . . . . . . . 130 7.2 Bedingte Häufigkeiten . . . . . . . . . . . . . . . . 131 7.3 Streuungszerlegung . . . . . . . . . . . . . . . . . . 133 7.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 136 7.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 138 8 Korrelation: Metrische Variablen 141 8.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 142 8.2 Eine zweidimensionale Variable . . . . . . . . . . . 142 8.3 Die Kovarianz . . . . . . . . . . . . . . . . . . . . . 143 8.3.1 Ein Zahlenbeispiel . . . . . . . . . . . . . . 144 8.3.2 Eigenschaften der Kovarianz . . . . . . . . . 144 8.4 Der Korrelationskoeffizient von Pearson . . . . . . 146 8.4.1 Eigenschaften des Korrelationskoeffizienten 147 8.4.2 Die Kovarianz standardisierter Variablen . . 148 8.4.3 Ausbildungsjahre und Einkommen . . . . . 149 8.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 150 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 11 03.09.2019 13: 55: 17 <?page no="12"?> 12 Inhaltsverzeichnis 8.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 152 9 Korrelation: Ordinale und nominale Variablen 155 9.1 Spearmans Rangkorrelationskoeffizient . . . . . . . 156 9.1.1 Ordinale Variablen und Ränge . . . . . . . 156 9.1.2 Ein Rangkorrelationskoeffizient . . . . . . . 157 9.1.3 Eigenschaften . . . . . . . . . . . . . . . . . 157 9.1.4 Eine vereinfachte Rechenmethode . . . . . . 158 9.2 Zusammenhangsmaße für nominale Variablen . . . 158 9.2.1 Empirische und hypothetische Häufigkeiten 159 9.2.2 Kontingenzkoeffizient . . . . . . . . . . . . 161 9.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 163 9.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 165 10 Einfache Regressionsrechnung 169 10.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 170 10.2 Methode der kleinsten Quadrate . . . . . . . . . . 171 10.2.1 Grundlagen . . . . . . . . . . . . . . . . . . 171 10.2.2 Berechnung der Parameter . . . . . . . . . 172 10.2.3 Achsentransformation . . . . . . . . . . . . 174 10.2.4 Varianzzerlegung und Bestimmtheitsmaß . 175 10.2.5 Ausbildungsjahre und Stundenlöhne . . . . 176 10.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 178 10.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 181 11 Multiple Regressionsanalyse 183 11.1 Das multiple Regressionsmodell . . . . . . . . . . . 184 11.1.1 Anpassungskriterium und Zielfunktion . . . 184 11.2 Das multiple Regressionsmodell in Matrixnotation 186 11.3 Eine multiple Lohnregression . . . . . . . . . . . . 189 11.4 Partielle Regressionskoeffizienten und Residuenregressionen . . . . . . . . . . . . . . . . . . . . . . . 190 11.5 Interaktionen erklärender Variablen . . . . . . . . . 191 11.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 193 11.7 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 194 12 Zeitreihen 197 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 198 12.2 Komponenten von Zeitreihen . . . . . . . . . . . . 200 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 12 03.09.2019 13: 55: 17 <?page no="13"?> Inhaltsverzeichnis 13 12.3 Trendermittlung . . . . . . . . . . . . . . . . . . . 201 12.3.1 Trendfunktionen . . . . . . . . . . . . . . . 202 12.3.2 Gleitende Durchschnitte . . . . . . . . . . . 203 12.4 Saisonbereinigung . . . . . . . . . . . . . . . . . . . 205 12.4.1 Periodogrammverfahren . . . . . . . . . . . 206 12.4.2 Census- und Berliner Verfahren . . . . . . . 209 12.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 211 12.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 214 Formelsammlung 219 Probeklausuren 227 Lösungshinweise 233 Index 253 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 13 03.09.2019 13: 55: 17 <?page no="14"?> 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 14 03.09.2019 13: 55: 17 <?page no="15"?> 1 1 1 Einführung Mit Hilfe der Methoden der Deskriptiven Statistik sollen Daten, die für eine Anzahl an Einheiten (Personen, Unternehmen, etc.) gewonnen wurden, so dargestellt und beschrieben werden, dass ihr Informationsgehalt einfach und anschaulich sichtbar wird. Ausgangspunkt sind Werte einer oder mehrerer statistischer Variablen, mit denen Eigenschaften der Einheiten erfasst sind. In diesem einleitenden Kapitel erläutern wir dies Ziel, geben einige grundlegende Definitionen an sowie ein Beispiel, das auch in späteren Kapiteln verwendet wird. 1.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.1 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . 14 1.2 Variablen und Häufigkeiten . . . . . . . . . . . . . . . . . 15 1.2.1 Variablen und Daten . . . . . . . . . . . . . . . . 15 1.2.2 Merkmalsarten und Skalenniveaus . . . . . . . . . . 16 1.2.3 Absolute und relative Häufigkeiten . . . . . . . . . 16 1.2.4 Stabdiagramme . . . . . . . . . . . . . . . . . . . 17 1.2.5 Klassierung . . . . . . . . . . . . . . . . . . . . . 18 1.3 Ein Beispiel mit Einkommensdaten . . . . . . . . . . . . . 18 1.3.1 Datenquelle: Panel Study of Income Dynamics (PSID) 19 1.3.2 Die Variablen im Datensatz . . . . . . . . . . . . . 19 1.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1 1 1 Einführung Mit Hilfe der Methoden der Deskriptiven Statistik sollen Daten, die für eine Anzahl an Einheiten (Personen, Unternehmen, etc.) gewonnen wurden, so dargestellt und beschrieben werden, dass ihr Informationsgehalt einfach und anschaulich sichtbar wird. Ausgangspunkt sind Werte einer oder mehrerer statistischer Variablen, mit denen Eigenschaften der Einheiten erfasst sind. In diesem einleitenden Kapitel erläutern wir dies Ziel, geben einige grundlegende Definitionen an sowie ein Beispiel, das auch in späteren Kapiteln verwendet wird. 1.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.1.1 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . 16 1.2 Variablen und Häufigkeiten . . . . . . . . . . . . . . . . . 17 1.2.1 Variablen und Daten . . . . . . . . . . . . . . . . 17 1.2.2 Merkmalsarten und Skalenniveaus . . . . . . . . . . 18 1.2.3 Absolute und relative Häufigkeiten . . . . . . . . . 18 1.2.4 Stabdiagramme . . . . . . . . . . . . . . . . . . . 19 1.2.5 Klassierung . . . . . . . . . . . . . . . . . . . . . 20 1.3 Ein Beispiel mit Einkommensdaten . . . . . . . . . . . . . 20 1.3.1 Datenquelle: Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) . . . . . . . . . . . . 21 1.3.2 Die Variablen im Datensatz . . . . . . . . . . . . . 21 1.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 15 03.09.2019 13: 55: 17 <?page no="16"?> 16 1 Einführung 1.1 Einleitung In diesem Buch beschäftigen wir uns mit der deskriptiven (beschreibenden) Statistik. Vordringlich geht es darum, Methoden zu besprechen, mit denen vorliegende Daten anschaulich dargestellt und wesentliche Charakteristika der Verteilung der Daten herausgearbeitet werden können. Methoden der Wahrscheinlichkeitsrechnung und der Inferenzstatistik werden in einem anderen Buch (Grundwissen: Induktive Statistik) dargestellt. 1.1.1 Ziele Das Ziel besteht darin, Einblicke in die Methoden und die Probleme der statistischen Begriffsbildung, der Datengewinnung und der Datenauswertung zu geben. Obwohl Fragen der Operationalisierung in der empirischen Wirtschaftsforschung von ganz zentraler Bedeutung sind, wird im Rahmen dieser Einführung nur in begrenztem Umfang darauf eingegangen und der Schwerpunkt auf die statistische Auswertung von Daten gelegt. Fragen der Operationalisierung müssen in der Praxis jeweils gesondert für das aktuelle Forschungsprojekt behandelt werden und sind nur eingeschränkt einer allgemeinen Behandlung zugänglich. Ein Grundwissen über statistische Methoden der Datenanalyse in Form von tabellarischen und grafischen Darstellungen und der Charakterisierung durch Kennzahlen sollte jedoch jeder Wirtschafts- und Sozialwissenschaftler besitzen. 1.1.2 Motivation Die Statistik kann zwar einerseits als eine Hilfswissenschaft für die Wirtschaftswissenschaften verstanden werden, sie hat jedoch andererseits eine zentrale Funktion. Die meisten Phänomene, die in den Wirtschaftswissenschaften interessieren, sind einer unmittelbaren Beobachtung oder Erfahrung nicht zugänglich. Erst durch eine adäquate Begriffsbildung und Datenerhebung werden diese Phänomene empirisch zugänglich. Zu denken ist hier z. B. an das Niveau der Arbeitslosigkeit, die allgemeine Entwicklung von Verbraucherpreisen, die Mietpreisentwicklung und dergleichen mehr. In diesem Sinne kann die Statistik als ein „Sinnesorgan“ der Wirtschaftswissenschaften verstanden werden. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 16 03.09.2019 13: 55: 18 <?page no="17"?> 1 E i n f ü h r u n g M i t H i l f e d e r M e t h o d e n d e r D e s k r i p t i v e n S t a t i s t i k s o l l e n D a t e n , d i e f ü r e i n e A n z a h l a n E i n h e i t e n ( P e r s o n e n , U n t e r n e h m e n , e t c . ) g e w o n n e n w u r d e n , s o d a r g e s t e l l t u n d b e s c h r i e b e n w e r d e n , d a s s i h r I n f o r m a t i o n s g e h a l t e i n f a c h u n d a n s c h a u l i c h s i c h t b a r w i r d . A u s g a n g s p u n k t s i n d W e r t e e i n e r o d e r m e h r e r e r s t a t i s t i s c h e r V a r i a b l e n , m i t d e n e n E i g e n s c h a f t e n d e r E i n h e i t e n e r f a s s t s i n d . I n d i e s e m e i n l e i t e n d e n K a p i t e l e r l ä u t e r n w i r d i e s Z i e l , g e b e n e i n i g e g r u n d l e g e n d e D e fin i t i o n e n a n s o w i e e i n B e i s p i e l , d a s a u c h i n s p ä t e r e n K a p i t e l n v e r w e n d e t w i r d . 1 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 4 1 . 1 . 1 Z i e l e . . . . . . . . . . . . . . . . . . . . . . . . . 1 4 1 . 1 . 2 M o t i v a t i o n . . . . . . . . . . . . . . . . . . . . . . 1 4 1 . 2 V a r i a b l e n u n d H ä u fig k e i t e n . . . . . . . . . . . . . . . . . 1 5 1 . 2 . 1 V a r i a b l e n u n d D a t e n . . . . . . . . . . . . . . . . 1 5 1 . 2 . 2 M e r k m a l s a r t e n u n d S k a l e n n i v e a u s . . . . . . . . . . 1 6 1 . 2 . 3 A b s o l u t e u n d r e l a t i v e H ä u fig k e i t e n . . . . . . . . . 1 6 1 . 2 . 4 S t a b d i a g r a m m e . . . . . . . . . . . . . . . . . . . 1 7 1 . 2 . 5 K l a s s i e r u n g . . . . . . . . . . . . . . . . . . . . . 1 8 1 . 3 E i n B e i s p i e l m i t E i n k o m m e n s d a t e n . . . . . . . . . . . . . 1 8 1 . 3 . 1 D a t e n q u e l l e : P a n e l S t u d y o f I n c o m e D y n a m i c s ( P S I D ) 1 9 1 . 3 . 2 D i e V a r i a b l e n i m D a t e n s a t z . . . . . . . . . . . . . 1 9 1 . 4 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1 1 . 5 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 4 1 1 1 Einführung Mit Hilfe der Methoden der Deskriptiven Statistik sollen Daten, die für eine Anzahl an Einheiten (Personen, Unternehmen, etc.) gewonnen wurden, so dargestellt und beschrieben werden, dass ihr Informationsgehalt einfach und anschaulich sichtbar wird. Ausgangspunkt sind Werte einer oder mehrerer statistischer Variablen, mit denen Eigenschaften der Einheiten erfasst sind. In diesem einleitenden Kapitel erläutern wir dies Ziel, geben einige grundlegende Definitionen an sowie ein Beispiel, das auch in späteren Kapiteln verwendet wird. 1.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.1 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . 14 1.2 Variablen und Häufigkeiten . . . . . . . . . . . . . . . . . 15 1.2.1 Variablen und Daten . . . . . . . . . . . . . . . . 15 1.2.2 Merkmalsarten und Skalenniveaus . . . . . . . . . . 16 1.2.3 Absolute und relative Häufigkeiten . . . . . . . . . 16 1.2.4 Stabdiagramme . . . . . . . . . . . . . . . . . . . 17 1.2.5 Klassierung . . . . . . . . . . . . . . . . . . . . . 18 1.3 Ein Beispiel mit Einkommensdaten . . . . . . . . . . . . . 18 1.3.1 Datenquelle: Panel Study of Income Dynamics (PSID) 19 1.3.2 Die Variablen im Datensatz . . . . . . . . . . . . . 19 1.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1 1 1.2 Variablen und Häufigkeiten 17 Als eine weitere Motivation lässt sich die zunehmende Datenverfügbarkeit und damit einhergehend die zunehmende Bedeutung von Datenanalysen anführen. Die Fähigkeit, Ergebnisse von Datenanalysen verstehen und interpretieren und die dabei verwendeten Methoden kritisch hinterfragen zu können, ist sicherlich von herausragender Bedeutung. 1.2 Variablen und Häufigkeiten In diesem Abschnitt erläutern wir einige Begriffe, die für alle weiteren Kapitel von grundlegender Bedeutung sind. 1.2.1 Variablen und Daten Deskriptive Statistik beginnt mit Daten. Diese Daten sind fast immer in der Form einer Datenmatrix gegeben, deren Schema folgendermaßen verdeutlicht werden kann: i x i y i z i 1 x 1 y 1 z 1 2 x 2 y 2 z 2 ... ... ... ... n x n y n z n Jede Zeile bezieht sich auf eine Einheit (z. B. eine Person oder ein Unternehmen). Die erste Spalte enthält eine Nummer, die die jeweilige Einheit angibt. Die Anzahl der Einheiten wird durch die Zahl n angegeben. Die weiteren Spalten enthalten die Werte von Variablen. Im obigen Schema gibt es drei Variablen: X , Y und Z . Dies ist eine allgemeine Konvention: Variablen werden durch kursive Großbuchstaben bezeichnet, ihre Werte durch entsprechende Kleinbuchstaben. So ist x i der Wert, den die Variable X bei der Einheit i annimmt; und entsprechend sind y i und z i zu verstehen. Diese Werte sind die eigentlichen Daten, aber wir betrachten sie nicht isoliert, sondern als Werte von Variablen, die für die jeweilige Gesamtheit der Einheiten definiert sind. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 17 03.09.2019 13: 55: 18 <?page no="18"?> 18 1 Einführung Dementsprechend kann der Begriff ,Variable‘ in zwei Bedeutungen verwendet werden. Einerseits bezieht er sich auf die Spalten einer Datenmatrix; bei einer formalen Betrachtung handelt es sich dann um Spaltenvektoren. Andererseits kann man mit dem Begriffeine Abbildung bezeichnen, die jeder Einheit einen bestimmten Wert in einem Merkmalsraum zuordnet, d.h. in einer Menge möglicher Merkmalsausprägungen. 1.2.2 Merkmalsarten und Skalenniveaus In der Statistik ist es allgemein üblich, Merkmalswerte durch Zahlen zu repräsentieren (so dass man mit ihnen rechnen kann). Natürlich muss ihre Bedeutung angegeben werden, z. B. dass es sich um Monatslöhne in Euro handelt. Merkmale haben ein bestimmtes Skalenniveau . Bei nominalen Merkmalen kann lediglich die Unterschiedlichkeit festgestellt werden, aber verschiedene Ausprägungen können nicht sinnvoll angeordnet werden und Abstände zwischen den Ausprägungen haben keine bestimmte Bedeutung. Nominale Merkmale sind z. B. das Geschlecht oder der Beruf. Bei einem ordinalen Merkmal lassen sich die verschiedenen Ausprägungen in eine sinnvoll interpretierbare Reihenfolge bringen, jedoch haben auch in diesem Fall die Abstände keine bestimmte Bedeutung. Insbesondere bei subjektiven intensitätsmäßigen Auskünften findet oft die Ordinalskala Anwendung, etwa bei Wertungen wie ,gut‘, ,mittel‘, ,schlecht‘ o.ä. Ein Merkmal ist kardinal skalierbar , oft auch metrisches Merkmal genannt, wenn die verschiedenen Ausprägungen unterscheidbar sind, in eine Rangfolge gebracht werden können und die Abstände eine bestimmte Bedeutung haben. Bei einer Intervallskala existiert kein absoluter Nullpunkt, so dass zwar Abstände aber nicht sinnvoll Verhältnisse interpretiert werden können, wie etwa bei der Temperatur. Bei einer Verhältnisskala existiert ein absoluter Nullpunkt, etwa bei Gewichten oder Längenangaben. 1.2.3 Absolute und relative Häufigkeiten Mit den Methoden der deskriptiven Statistik interessiert man sich nicht für die Merkmalswerte bestimmter (identifizierbarer) Einheiten, sondern nur dafür, mit welchen Häufigkeiten Merkmalswerte 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 18 03.09.2019 13: 55: 18 <?page no="19"?> 1 E i n f ü h r u n g M i t H i l f e d e r M e t h o d e n d e r D e s k r i p t i v e n S t a t i s t i k s o l l e n D a t e n , d i e f ü r e i n e A n z a h l a n E i n h e i t e n ( P e r s o n e n , U n t e r n e h m e n , e t c . ) g e w o n n e n w u r d e n , s o d a r g e s t e l l t u n d b e s c h r i e b e n w e r d e n , d a s s i h r I n f o r m a t i o n s g e h a l t e i n f a c h u n d a n s c h a u l i c h s i c h t b a r w i r d . A u s g a n g s p u n k t s i n d W e r t e e i n e r o d e r m e h r e r e r s t a t i s t i s c h e r V a r i a b l e n , m i t d e n e n E i g e n s c h a f t e n d e r E i n h e i t e n e r f a s s t s i n d . I n d i e s e m e i n l e i t e n d e n K a p i t e l e r l ä u t e r n w i r d i e s Z i e l , g e b e n e i n i g e g r u n d l e g e n d e D e fin i t i o n e n a n s o w i e e i n B e i s p i e l , d a s a u c h i n s p ä t e r e n K a p i t e l n v e r w e n d e t w i r d . 1 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 4 1 . 1 . 1 Z i e l e . . . . . . . . . . . . . . . . . . . . . . . . . 1 4 1 . 1 . 2 M o t i v a t i o n . . . . . . . . . . . . . . . . . . . . . . 1 4 1 . 2 V a r i a b l e n u n d H ä u fig k e i t e n . . . . . . . . . . . . . . . . . 1 5 1 . 2 . 1 V a r i a b l e n u n d D a t e n . . . . . . . . . . . . . . . . 1 5 1 . 2 . 2 M e r k m a l s a r t e n u n d S k a l e n n i v e a u s . . . . . . . . . . 1 6 1 . 2 . 3 A b s o l u t e u n d r e l a t i v e H ä u fig k e i t e n . . . . . . . . . 1 6 1 . 2 . 4 S t a b d i a g r a m m e . . . . . . . . . . . . . . . . . . . 1 7 1 . 2 . 5 K l a s s i e r u n g . . . . . . . . . . . . . . . . . . . . . 1 8 1 . 3 E i n B e i s p i e l m i t E i n k o m m e n s d a t e n . . . . . . . . . . . . . 1 8 1 . 3 . 1 D a t e n q u e l l e : P a n e l S t u d y o f I n c o m e D y n a m i c s ( P S I D ) 1 9 1 . 3 . 2 D i e V a r i a b l e n i m D a t e n s a t z . . . . . . . . . . . . . 1 9 1 . 4 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1 1 . 5 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 4 1 1 1 Einführung Mit Hilfe der Methoden der Deskriptiven Statistik sollen Daten, die für eine Anzahl an Einheiten (Personen, Unternehmen, etc.) gewonnen wurden, so dargestellt und beschrieben werden, dass ihr Informationsgehalt einfach und anschaulich sichtbar wird. Ausgangspunkt sind Werte einer oder mehrerer statistischer Variablen, mit denen Eigenschaften der Einheiten erfasst sind. In diesem einleitenden Kapitel erläutern wir dies Ziel, geben einige grundlegende Definitionen an sowie ein Beispiel, das auch in späteren Kapiteln verwendet wird. 1.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.1 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . 14 1.2 Variablen und Häufigkeiten . . . . . . . . . . . . . . . . . 15 1.2.1 Variablen und Daten . . . . . . . . . . . . . . . . 15 1.2.2 Merkmalsarten und Skalenniveaus . . . . . . . . . . 16 1.2.3 Absolute und relative Häufigkeiten . . . . . . . . . 16 1.2.4 Stabdiagramme . . . . . . . . . . . . . . . . . . . 17 1.2.5 Klassierung . . . . . . . . . . . . . . . . . . . . . 18 1.3 Ein Beispiel mit Einkommensdaten . . . . . . . . . . . . . 18 1.3.1 Datenquelle: Panel Study of Income Dynamics (PSID) 19 1.3.2 Die Variablen im Datensatz . . . . . . . . . . . . . 19 1.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1 1 1.2 Variablen und Häufigkeiten 19 in der jeweiligen Gesamtheit der n Einheiten (oder in Teilgesamtheiten) auftreten. Man unterscheidet absolute und relative Häufigkeiten. Die absolute Häufigkeit, mit der eine Variable einen Wert x annimmt, ist die Anzahl der Einheiten, die diesen Merkmalswert aufweisen. Die relative Häufigkeit ist der entsprechende Anteil, also die absolute Häufigkeit geteilt durch n . Wenn einfach von Häufigkeiten gesprochen wird, sind in diesem Buch stets relative Häufigkeiten gemeint. Als grundlegende Notation verwenden wir P( X = x ), womit die Häufigkeit gemeint ist, mit der die Variable X den Wert x annimmt. Ganz analog bedeutet P ( X = x, Y = y ) die Häufigkeit, mit der X den Wert x und Y den Wert y annimmt. Zur Illustration betrachten wir eine Gesamtheit von n = 8 Einheiten. Für die Variable X gibt es folgende Merkmalswerte (z. B. Altersjahre): x 1 = 1, x 2 = 2, x 3 = 2, x 4 = 4, x 5 = 4, x 6 = 4, x 7 = 7 und x 8 = 16. Dann kann man bespielsweise folgende Häufigkeiten ermitteln: P( X = 1) = 1 / 8 , P( X = 4) = 3 / 8 , P( X = 9) = 0 . Offenbar kann man auch x -Werte verwenden, die bei den Einheiten nicht vorkommen; dann ist die Häufigkeit Null. Schließlich verwenden wir auch manchmal eine Notation, die sich auf mehrere mögliche Merkmalswerte bezieht: P( X ∈ A ), womit die Häufigkeit dafür gemeint ist, dass X irgendeinen Wert in der Menge A annimmt. Beispielsweise findet man mit den eben angegebenen Werten, dass P( X ∈ { 1 , 4 } ) = 1 / 2 ist. Beziehen wir uns auf die Elemente eines explizit definierten Merkmalsraums, bezeichnen wir diese mit ˜ x j ( j = 1 , . . . , J ) und ihre Häufigkeiten mit f j = P ( X = ˜ x j ). Mit n j = f j n bezeichnen wir die absolute Häufigkeit. 1.2.4 Stabdiagramme Durch die Häufigkeiten P( X = x ) wird die Verteilung der Variablen X beschrieben. Viele Methoden der deskriptiven Statistik haben das Ziel, anschauliche und informative Bilder solcher Verteilungen zu liefern. Wenn es nicht zu viele unterschiedliche Merkmalswerte gibt, kann man Stabdiagramme verwenden, bei denen die X-Achse die möglichen Merkmalswerte und die Y-Achse die zugehörigen 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 19 03.09.2019 13: 55: 18 <?page no="20"?> 20 1 Einführung 0.0 0.1 0.2 0.3 x P (X = x) 1 2 4 7 16 Abbildung 1.1: Relative Häufigkeiten des Zahlenbeispiels. Häufigkeiten angibt. Abbildung 1.1 zeigt das Stabdiagramm für die 8 Beispielswerte. R-1-1 1.2.5 Klassierung Wenn es sehr viele unterschiedliche Merkmalswerte gibt, ist es oft hilfreich, Merkmalsklassen zu verwenden. Wenn z. B. eine Variable die monatlichen Einkommen von Haushalten erfasst, könnten Einkommensklassen gebildet werden, und die klassierte Variable erfasst dann nur, in welcher Einkommensklasse sich ein Haushalt befindet. In dem oben angeführten Zahlenbeispiel könnten vier Klassen gebildet werden: ˜ x ∗ 1 = { 1 , 2 } , ˜ x ∗ 2 = { 3 , 4 } , ˜ x ∗ 3 = { 5 , 6 } , ˜ x ∗ 4 = { 7 , 8 } . Die klassierte Variable X ∗ nimmt dann einen dieser vier Werte an, und es gilt: P( X ∗ = ˜ x ∗ j ) = P( X ∈ ˜ x ∗ j ); zum Beispiel P( X ∗ = ˜ x ∗ 1 ) = 3 / 8. 1.3 Ein Beispiel mit Einkommensdaten In diesem Abschnitt erläutern wir einen Beispielsdatensatz, der dann in den meisten folgenden Kapiteln zur Illustration von Konzepten und Methoden verwendet wird. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 20 03.09.2019 13: 55: 18 <?page no="21"?> 1 E i n f ü h r u n g M i t H i l f e d e r M e t h o d e n d e r D e s k r i p t i v e n S t a t i s t i k s o l l e n D a t e n , d i e f ü r e i n e A n z a h l a n E i n h e i t e n ( P e r s o n e n , U n t e r n e h m e n , e t c . ) g e w o n n e n w u r d e n , s o d a r g e s t e l l t u n d b e s c h r i e b e n w e r d e n , d a s s i h r I n f o r m a t i o n s g e h a l t e i n f a c h u n d a n s c h a u l i c h s i c h t b a r w i r d . A u s g a n g s p u n k t s i n d W e r t e e i n e r o d e r m e h r e r e r s t a t i s t i s c h e r V a r i a b l e n , m i t d e n e n E i g e n s c h a f t e n d e r E i n h e i t e n e r f a s s t s i n d . I n d i e s e m e i n l e i t e n d e n K a p i t e l e r l ä u t e r n w i r d i e s Z i e l , g e b e n e i n i g e g r u n d l e g e n d e D e fin i t i o n e n a n s o w i e e i n B e i s p i e l , d a s a u c h i n s p ä t e r e n K a p i t e l n v e r w e n d e t w i r d . 1 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 4 1 . 1 . 1 Z i e l e . . . . . . . . . . . . . . . . . . . . . . . . . 1 4 1 . 1 . 2 M o t i v a t i o n . . . . . . . . . . . . . . . . . . . . . . 1 4 1 . 2 V a r i a b l e n u n d H ä u fig k e i t e n . . . . . . . . . . . . . . . . . 1 5 1 . 2 . 1 V a r i a b l e n u n d D a t e n . . . . . . . . . . . . . . . . 1 5 1 . 2 . 2 M e r k m a l s a r t e n u n d S k a l e n n i v e a u s . . . . . . . . . . 1 6 1 . 2 . 3 A b s o l u t e u n d r e l a t i v e H ä u fig k e i t e n . . . . . . . . . 1 6 1 . 2 . 4 S t a b d i a g r a m m e . . . . . . . . . . . . . . . . . . . 1 7 1 . 2 . 5 K l a s s i e r u n g . . . . . . . . . . . . . . . . . . . . . 1 8 1 . 3 E i n B e i s p i e l m i t E i n k o m m e n s d a t e n . . . . . . . . . . . . . 1 8 1 . 3 . 1 D a t e n q u e l l e : P a n e l S t u d y o f I n c o m e D y n a m i c s ( P S I D ) 1 9 1 . 3 . 2 D i e V a r i a b l e n i m D a t e n s a t z . . . . . . . . . . . . . 1 9 1 . 4 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1 1 . 5 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 4 1 1 1 Einführung Mit Hilfe der Methoden der Deskriptiven Statistik sollen Daten, die für eine Anzahl an Einheiten (Personen, Unternehmen, etc.) gewonnen wurden, so dargestellt und beschrieben werden, dass ihr Informationsgehalt einfach und anschaulich sichtbar wird. Ausgangspunkt sind Werte einer oder mehrerer statistischer Variablen, mit denen Eigenschaften der Einheiten erfasst sind. In diesem einleitenden Kapitel erläutern wir dies Ziel, geben einige grundlegende Definitionen an sowie ein Beispiel, das auch in späteren Kapiteln verwendet wird. 1.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.1 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . 14 1.2 Variablen und Häufigkeiten . . . . . . . . . . . . . . . . . 15 1.2.1 Variablen und Daten . . . . . . . . . . . . . . . . 15 1.2.2 Merkmalsarten und Skalenniveaus . . . . . . . . . . 16 1.2.3 Absolute und relative Häufigkeiten . . . . . . . . . 16 1.2.4 Stabdiagramme . . . . . . . . . . . . . . . . . . . 17 1.2.5 Klassierung . . . . . . . . . . . . . . . . . . . . . 18 1.3 Ein Beispiel mit Einkommensdaten . . . . . . . . . . . . . 18 1.3.1 Datenquelle: Panel Study of Income Dynamics (PSID) 19 1.3.2 Die Variablen im Datensatz . . . . . . . . . . . . . 19 1.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1 1 1.3 Ein Beispiel mit Einkommensdaten 21 1.3.1 Datenquelle: Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) Als Beispieldatensatz verwenden wir Daten der Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) des Jahres 2018. 1 Der ALLBUS wird seit 1980 in der Regel alle zwei Jahre durchgeführt und enthält Daten über Einstellungen, Verhaltensweisen und Sozialstruktur der Bevölkerung in der Bundesrepublik Deutschland. 2 Der ALLBUS ist angelehnt an den General Social Survey (GSS), der in den USA seit 1972 regelmäßig durchgeführt wird. Die Anzahl der Befragten in den veröffentlichten Daten liegt zwischen 2,800 und 3,500, in 2018 liegen Informationen für 3,477 Befragte vor. Das Untersuchungsgebiet des ALLBUS ist Deutschland und die Grundgesamtheit sind alle Personen, die zum Befragungszeitpunkt in Privathaushalten lebten und vor dem 01.01.2000 geboren sind. Die Auswahl erfolgt als zweistufige, disproportional geschichtete Zufallsauswahl in Westdeutschland (inkl. West-Berlin) und Ostdeutschland (inkl. Ost-Berlin). In der ersten Auswahlstufe wurden Gemeinden in Westdeutschland und in Ostdeutschland mit einer Wahrscheinlichkeit proportional zur Zahl ihrer erwachsenen Einwohner ausgewählt. In der zweiten Auswahlstufe wurden Personen aus den Einwohnermeldekarteien zufällig gezogen. Die einzelnen Querschnittsdatensätze, haben neben einem Kernfrageprogramm wechselnde inhaltliche Schwerpunkte und dienen der Untersuchung von Einstellungen und Verhaltensweisen der deutschen Bevölkerung. 1.3.2 Die Variablen im Datensatz Der Datensatz enthält für n = 1 , 747 Personen die folgenden Variablen: • id: Identifizierer der Personen, laufende Nummer von 1 bis 1 , 747 1 GESIS - Leibniz-Institut für Sozialwissenschaften (2019): Allgemeine Bevölkerungsumfrage der Sozialwissenschaften ALLBUS 2018. GESIS Datenarchiv, Köln. ZA5270 Datenfile Version 2.0.0, doi: 10.4232/ 1.13250. 2 Informationen finden sich auf der folgenden Webseite: https: / / www.gesis.org/ allbus/ allbus/ . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 21 03.09.2019 13: 55: 19 <?page no="22"?> 22 1 Einführung • geschlecht: Geschlecht der Person, 0 Mann, 1 Frau • alter: Das Lebensalter der Person • ostwest: Indikator für die Region, 0 Westdeutschland, 1 Ostdeutschland • land: Das Bundesland, BW (Baden-Württemberg), BY (Bayern), BE (Berlin), BB (Brandenburg), HB (Bremen), HH (Hamburg), HE (Hessen), MV (Mecklenburg-Vorpommern), NI (Niedersachsen), NW (Nordrhein-Westfalen), RP (Rheinland-Pfalz), SL (Saarland), SN (Sachsen), ST (Sachsen-Anhalt), SH (Schleswig-Holstein), TH (Thüringen) • bildung: Die Anzahl der Ausbildungsjahre 3 wurde aus der Summe der Schul- und Ausbildungsjahre gebildet. Die Schuljahre wurden ausgehend von Angaben zur Schulausbildung berechnet (Kein Abschluss 7, Hauptschulabschluss 9, Realschulabschluss 10, Fachhochschulabschluss 12, Abitur 13, Andere 10). Die Ausbildungsjahre wurden ausgehend von Angaben zur Berufsausbildung berechnet (Lehre 1,5, Berufsfachschule/ Gesundheitswesen 2, Beamtenausbildung 1,5, Fachhochschule 3, Universtität 5) • beruf: Der Beruf wurde aus den Angaben der Berufsklassifikation nach ISCO 08 gewonnen (1 Fuehrungskraefte, 2 Akademiker, 3 Techniker, 4 Buerokraefte, 5 Dienstleister, 6 Bauern, 7 Handwerker, 8 Monteure, 9 Hilfsarbeiter • stunden: Anzahl der monatlichen Arbeitsstunden (ermittelt als gerundeter Wert der 4,3-fachen wöchentlichen Arbeitszeit) • einkommen: Das zusammengefasste monatliche Netto-Einkommen des Befragten. • stlohn: Aus Monatseinkommen und monatlichen Arbeitsstunden berechneter Netto-Stundenlohn. 3 Die Variable wurde entsprechend der Vorgehensweise beim Sozioökonomischen Panel gebildet. Vgl. John P. Haisken-DeNew und Joachim R. Frick, DTC Desktop Companionto the GermanSocio-Economic Panel (SOEP), Version 8.0 - Dec 2005, S. 69. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 22 03.09.2019 13: 55: 19 <?page no="23"?> 1 E i n f ü h r u n g M i t H i l f e d e r M e t h o d e n d e r D e s k r i p t i v e n S t a t i s t i k s o l l e n D a t e n , d i e f ü r e i n e A n z a h l a n E i n h e i t e n ( P e r s o n e n , U n t e r n e h m e n , e t c . ) g e w o n n e n w u r d e n , s o d a r g e s t e l l t u n d b e s c h r i e b e n w e r d e n , d a s s i h r I n f o r m a t i o n s g e h a l t e i n f a c h u n d a n s c h a u l i c h s i c h t b a r w i r d . A u s g a n g s p u n k t s i n d W e r t e e i n e r o d e r m e h r e r e r s t a t i s t i s c h e r V a r i a b l e n , m i t d e n e n E i g e n s c h a f t e n d e r E i n h e i t e n e r f a s s t s i n d . I n d i e s e m e i n l e i t e n d e n K a p i t e l e r l ä u t e r n w i r d i e s Z i e l , g e b e n e i n i g e g r u n d l e g e n d e D e fin i t i o n e n a n s o w i e e i n B e i s p i e l , d a s a u c h i n s p ä t e r e n K a p i t e l n v e r w e n d e t w i r d . 1 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 4 1 . 1 . 1 Z i e l e . . . . . . . . . . . . . . . . . . . . . . . . . 1 4 1 . 1 . 2 M o t i v a t i o n . . . . . . . . . . . . . . . . . . . . . . 1 4 1 . 2 V a r i a b l e n u n d H ä u fig k e i t e n . . . . . . . . . . . . . . . . . 1 5 1 . 2 . 1 V a r i a b l e n u n d D a t e n . . . . . . . . . . . . . . . . 1 5 1 . 2 . 2 M e r k m a l s a r t e n u n d S k a l e n n i v e a u s . . . . . . . . . . 1 6 1 . 2 . 3 A b s o l u t e u n d r e l a t i v e H ä u fig k e i t e n . . . . . . . . . 1 6 1 . 2 . 4 S t a b d i a g r a m m e . . . . . . . . . . . . . . . . . . . 1 7 1 . 2 . 5 K l a s s i e r u n g . . . . . . . . . . . . . . . . . . . . . 1 8 1 . 3 E i n B e i s p i e l m i t E i n k o m m e n s d a t e n . . . . . . . . . . . . . 1 8 1 . 3 . 1 D a t e n q u e l l e : P a n e l S t u d y o f I n c o m e D y n a m i c s ( P S I D ) 1 9 1 . 3 . 2 D i e V a r i a b l e n i m D a t e n s a t z . . . . . . . . . . . . . 1 9 1 . 4 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1 1 . 5 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 4 1 1 1 Einführung Mit Hilfe der Methoden der Deskriptiven Statistik sollen Daten, die für eine Anzahl an Einheiten (Personen, Unternehmen, etc.) gewonnen wurden, so dargestellt und beschrieben werden, dass ihr Informationsgehalt einfach und anschaulich sichtbar wird. Ausgangspunkt sind Werte einer oder mehrerer statistischer Variablen, mit denen Eigenschaften der Einheiten erfasst sind. In diesem einleitenden Kapitel erläutern wir dies Ziel, geben einige grundlegende Definitionen an sowie ein Beispiel, das auch in späteren Kapiteln verwendet wird. 1.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.1 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . 14 1.2 Variablen und Häufigkeiten . . . . . . . . . . . . . . . . . 15 1.2.1 Variablen und Daten . . . . . . . . . . . . . . . . 15 1.2.2 Merkmalsarten und Skalenniveaus . . . . . . . . . . 16 1.2.3 Absolute und relative Häufigkeiten . . . . . . . . . 16 1.2.4 Stabdiagramme . . . . . . . . . . . . . . . . . . . 17 1.2.5 Klassierung . . . . . . . . . . . . . . . . . . . . . 18 1.3 Ein Beispiel mit Einkommensdaten . . . . . . . . . . . . . 18 1.3.1 Datenquelle: Panel Study of Income Dynamics (PSID) 19 1.3.2 Die Variablen im Datensatz . . . . . . . . . . . . . 19 1.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1 1 1.3 Ein Beispiel mit Einkommensdaten 23 Tabelle 1.1: Ein Ausschnitt des Datensatzes. id geschlecht alter land beruf stlohn 1 0 62 BY 3 13.50 2 1 64 ST 3 6.98 3 0 22 NI 7 7.22 ... ... ... ... ... ... 1745 1 60 HH 5 1.80 1746 0 54 BY 2 6.30 1747 0 49 NI 2 55.56 Tabelle 1.1 zeigt einen Ausschnitt des Datensatzes. Die erste Spalte ( id ) enthält eine durchgängige Nummerierung aller n = 1 , 747 Personen. Für die ersten und letzten drei Personen sind in diesem Ausschnitt jeweils in einer Zeile die Ausprägungen der aufgeführten Merkmale angegeben. R-1-2 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 23 03.09.2019 13: 55: 19 <?page no="24"?> 24 1 Einführung 1.4 Aufgaben 1. Mit dieser Aufgabe soll der Umgang mit Summen und Produkten, die in der Statistik sehr häufig verwendet werden, in Erinnerung gerufen werden. Gegeben sind: i 1 2 3 4 x i 6 4 1 3 y i 1 3 4 2 Berechnen Sie: a) 4 ∑ i =1 x i b) 4 ∑ i =1 x i y i c) 4 ∏ i =1 x i d) 4 ∏ i =1 x i y i e) 4 ∏ i =1 x 2 i y 0 . 5 i 2. Berechnen Sie möglichst einfach (Hinweise zu Summen finden Sie in der Formelsammlung S. 219): a) 20 ∑ i =1 (6 − 4 i ) + 20 ∑ i =1 (2 i + 2) + 20 ∑ i =1 ( − 4 − 4 i ) b) 30 ∑ i =1 ( i 2 + 2 i − 3 ) + 30 ∑ i =1 ( 3 i 2 + 5 i + 8 ) + 30 ∑ i =1 ( 4 i 2 + 6 i − 10 ) c) 40 ∑ i =1 (1 + i ) 2 + 40 ∑ i =1 (1 − i ) 2 3. Gegeben ist folgende Matrix B = ( b ij ); i = 1 , . . . , I ist der Zeilenindex und j = 1 , . . . , J der Spaltenindex: B = 1 4 4 7 8 4 2 3 6 6 2 3 6 9 7 6 7 2 5 7 8 8 9 6 4 6 2 3 4 5 3 5 2 3 7 7 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 24 03.09.2019 13: 55: 19 <?page no="25"?> 1 E i n f ü h r u n g M i t H i l f e d e r M e t h o d e n d e r D e s k r i p t i v e n S t a t i s t i k s o l l e n D a t e n , d i e f ü r e i n e A n z a h l a n E i n h e i t e n ( P e r s o n e n , U n t e r n e h m e n , e t c . ) g e w o n n e n w u r d e n , s o d a r g e s t e l l t u n d b e s c h r i e b e n w e r d e n , d a s s i h r I n f o r m a t i o n s g e h a l t e i n f a c h u n d a n s c h a u l i c h s i c h t b a r w i r d . A u s g a n g s p u n k t s i n d W e r t e e i n e r o d e r m e h r e r e r s t a t i s t i s c h e r V a r i a b l e n , m i t d e n e n E i g e n s c h a f t e n d e r E i n h e i t e n e r f a s s t s i n d . I n d i e s e m e i n l e i t e n d e n K a p i t e l e r l ä u t e r n w i r d i e s Z i e l , g e b e n e i n i g e g r u n d l e g e n d e D e fin i t i o n e n a n s o w i e e i n B e i s p i e l , d a s a u c h i n s p ä t e r e n K a p i t e l n v e r w e n d e t w i r d . 1 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 4 1 . 1 . 1 Z i e l e . . . . . . . . . . . . . . . . . . . . . . . . . 1 4 1 . 1 . 2 M o t i v a t i o n . . . . . . . . . . . . . . . . . . . . . . 1 4 1 . 2 V a r i a b l e n u n d H ä u fig k e i t e n . . . . . . . . . . . . . . . . . 1 5 1 . 2 . 1 V a r i a b l e n u n d D a t e n . . . . . . . . . . . . . . . . 1 5 1 . 2 . 2 M e r k m a l s a r t e n u n d S k a l e n n i v e a u s . . . . . . . . . . 1 6 1 . 2 . 3 A b s o l u t e u n d r e l a t i v e H ä u fig k e i t e n . . . . . . . . . 1 6 1 . 2 . 4 S t a b d i a g r a m m e . . . . . . . . . . . . . . . . . . . 1 7 1 . 2 . 5 K l a s s i e r u n g . . . . . . . . . . . . . . . . . . . . . 1 8 1 . 3 E i n B e i s p i e l m i t E i n k o m m e n s d a t e n . . . . . . . . . . . . . 1 8 1 . 3 . 1 D a t e n q u e l l e : P a n e l S t u d y o f I n c o m e D y n a m i c s ( P S I D ) 1 9 1 . 3 . 2 D i e V a r i a b l e n i m D a t e n s a t z . . . . . . . . . . . . . 1 9 1 . 4 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1 1 . 5 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 4 1 1 1 Einführung Mit Hilfe der Methoden der Deskriptiven Statistik sollen Daten, die für eine Anzahl an Einheiten (Personen, Unternehmen, etc.) gewonnen wurden, so dargestellt und beschrieben werden, dass ihr Informationsgehalt einfach und anschaulich sichtbar wird. Ausgangspunkt sind Werte einer oder mehrerer statistischer Variablen, mit denen Eigenschaften der Einheiten erfasst sind. In diesem einleitenden Kapitel erläutern wir dies Ziel, geben einige grundlegende Definitionen an sowie ein Beispiel, das auch in späteren Kapiteln verwendet wird. 1.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.1 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . 14 1.2 Variablen und Häufigkeiten . . . . . . . . . . . . . . . . . 15 1.2.1 Variablen und Daten . . . . . . . . . . . . . . . . 15 1.2.2 Merkmalsarten und Skalenniveaus . . . . . . . . . . 16 1.2.3 Absolute und relative Häufigkeiten . . . . . . . . . 16 1.2.4 Stabdiagramme . . . . . . . . . . . . . . . . . . . 17 1.2.5 Klassierung . . . . . . . . . . . . . . . . . . . . . 18 1.3 Ein Beispiel mit Einkommensdaten . . . . . . . . . . . . . 18 1.3.1 Datenquelle: Panel Study of Income Dynamics (PSID) 19 1.3.2 Die Variablen im Datensatz . . . . . . . . . . . . . 19 1.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1 1 1.4 Aufgaben 25 Berechnen Sie: a) 2 ∑ i =1 3 ∑ j =1 b ij b) 2 ∑ i =2 J ∑ j =1 b ij c) J ∑ j =1 b 2 j d) I ∑ i =1 2 ∑ j =1 b ij e) 4 ∑ i =3 6 ∑ j =5 b ij 4. Informieren Sie sich im Internet über den ALLBUS und versuchen Sie, folgende Fragen zu beantworten: a) Was ist eine Querschnitts-, was eine Panelerhebung? b) Wie werden die befragten Haushalte ausgewählt? c) Hat jeder Haushalt in Deutschland die gleiche Chance ausgewählt zu werden? d) Welche Informationen liefert der ALLBUS? e) Welche Schwerpunkte hat das Frageprogramm des ALLBUS im Jahr 2018? 5. Geben Sie bei den nachfolgenden Variablen an, welches Skalenniveau sie besitzen: Geschlecht, Beruf, Warengruppe, Immobilienbesitz, Bonität, Einkommen, Vermögen. 6. Ermitteln Sie für die folgenden Werte einer Variablen X 1 , 4 , 5 , 4 , 5 , 4 , 5 , 4 , 6 , 1 , 2 , 1 , 1 , 2 , 1 die vorkommenden Merkmalsausprägungen ( ˜ x j ) und deren absolute ( n j ) und relative ( f j ) Häufigkeiten. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 25 03.09.2019 13: 55: 19 <?page no="26"?> 26 1 Einführung 7. Die folgende Tabelle enthält die Häufigkeiten der ALLBUS Monatslöhne (in Euro) von Personen in Westdeutschland für 6 Lohnklassen unterschiedlicher Klassenbreite. Klasse von bis unter abs. Häuf. ˜ x ∗ 1 0 500 22 ˜ x ∗ 2 500 1000 142 ˜ x ∗ 3 1000 1500 183 ˜ x ∗ 4 1500 2500 454 ˜ x ∗ 5 2500 5000 369 ˜ x ∗ 6 5000 20000 68 Ermitteln Sie für die Lohnklassen die Häufigkeiten P( X ∗ = ˜ x ∗ j ). 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 26 03.09.2019 13: 55: 20 <?page no="27"?> 1 E i n f ü h r u n g M i t H i l f e d e r M e t h o d e n d e r D e s k r i p t i v e n S t a t i s t i k s o l l e n D a t e n , d i e f ü r e i n e A n z a h l a n E i n h e i t e n ( P e r s o n e n , U n t e r n e h m e n , e t c . ) g e w o n n e n w u r d e n , s o d a r g e s t e l l t u n d b e s c h r i e b e n w e r d e n , d a s s i h r I n f o r m a t i o n s g e h a l t e i n f a c h u n d a n s c h a u l i c h s i c h t b a r w i r d . A u s g a n g s p u n k t s i n d W e r t e e i n e r o d e r m e h r e r e r s t a t i s t i s c h e r V a r i a b l e n , m i t d e n e n E i g e n s c h a f t e n d e r E i n h e i t e n e r f a s s t s i n d . I n d i e s e m e i n l e i t e n d e n K a p i t e l e r l ä u t e r n w i r d i e s Z i e l , g e b e n e i n i g e g r u n d l e g e n d e D e fin i t i o n e n a n s o w i e e i n B e i s p i e l , d a s a u c h i n s p ä t e r e n K a p i t e l n v e r w e n d e t w i r d . 1 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 4 1 . 1 . 1 Z i e l e . . . . . . . . . . . . . . . . . . . . . . . . . 1 4 1 . 1 . 2 M o t i v a t i o n . . . . . . . . . . . . . . . . . . . . . . 1 4 1 . 2 V a r i a b l e n u n d H ä u fig k e i t e n . . . . . . . . . . . . . . . . . 1 5 1 . 2 . 1 V a r i a b l e n u n d D a t e n . . . . . . . . . . . . . . . . 1 5 1 . 2 . 2 M e r k m a l s a r t e n u n d S k a l e n n i v e a u s . . . . . . . . . . 1 6 1 . 2 . 3 A b s o l u t e u n d r e l a t i v e H ä u fig k e i t e n . . . . . . . . . 1 6 1 . 2 . 4 S t a b d i a g r a m m e . . . . . . . . . . . . . . . . . . . 1 7 1 . 2 . 5 K l a s s i e r u n g . . . . . . . . . . . . . . . . . . . . . 1 8 1 . 3 E i n B e i s p i e l m i t E i n k o m m e n s d a t e n . . . . . . . . . . . . . 1 8 1 . 3 . 1 D a t e n q u e l l e : P a n e l S t u d y o f I n c o m e D y n a m i c s ( P S I D ) 1 9 1 . 3 . 2 D i e V a r i a b l e n i m D a t e n s a t z . . . . . . . . . . . . . 1 9 1 . 4 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1 1 . 5 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 4 1 1 1 Einführung Mit Hilfe der Methoden der Deskriptiven Statistik sollen Daten, die für eine Anzahl an Einheiten (Personen, Unternehmen, etc.) gewonnen wurden, so dargestellt und beschrieben werden, dass ihr Informationsgehalt einfach und anschaulich sichtbar wird. Ausgangspunkt sind Werte einer oder mehrerer statistischer Variablen, mit denen Eigenschaften der Einheiten erfasst sind. In diesem einleitenden Kapitel erläutern wir dies Ziel, geben einige grundlegende Definitionen an sowie ein Beispiel, das auch in späteren Kapiteln verwendet wird. 1.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.1 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . 14 1.2 Variablen und Häufigkeiten . . . . . . . . . . . . . . . . . 15 1.2.1 Variablen und Daten . . . . . . . . . . . . . . . . 15 1.2.2 Merkmalsarten und Skalenniveaus . . . . . . . . . . 16 1.2.3 Absolute und relative Häufigkeiten . . . . . . . . . 16 1.2.4 Stabdiagramme . . . . . . . . . . . . . . . . . . . 17 1.2.5 Klassierung . . . . . . . . . . . . . . . . . . . . . 18 1.3 Ein Beispiel mit Einkommensdaten . . . . . . . . . . . . . 18 1.3.1 Datenquelle: Panel Study of Income Dynamics (PSID) 19 1.3.2 Die Variablen im Datensatz . . . . . . . . . . . . . 19 1.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1 1 1.5 R-Code 27 1.5 R-Code R-1-1 # Vektor a mit Merkmalswerten erstellen x <c(1,2,2,4,4,4,7,16) # Anzahl an Merkmalswerten n <length(x) # absolute Häufigkeiten table(x) # relative Häufigkeiten f.x <table(x) / n f.x # Stabdiagramm der relativen Häufigkeiten plot(f.x) R-1-2 # Daten einlesen d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) # Übersicht: Erste und letzte 6 Beobachtungen anzeigen head(d) tail(d) # Anzahl an Beobachtungen n <nrow(d) n 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 27 03.09.2019 13: 55: 20 <?page no="28"?> 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 28 03.09.2019 13: 55: 20 <?page no="29"?> 2.1 Histogramme 27 x Dichte 0 5 10 15 20 0.00 0.02 0.04 0.06 0.08 0.10 Abbildung 2.1: Histogramm für 20 Beispielwerte. 2.1.2 Bestimmung der Klassen Das Erscheinungsbild eines Histogramms hängt davon ab, wie die Klassen gewählt werden. Oft wird für alle Klassen die gleiche Breite a j − a j − 1 verwendet; dann ist nur noch die Anzahl der Klassen ( m ) zu wählen. Werden zu wenige Klassen gewählt, werden Verdichtungsstellen in den Daten verschmiert. Fasst man z. B. zwei Klassen, eine mit hoher und eine mit geringer Dichte zu einer Klasse zusammen, dann erhält diese eine mittlere Dichte und der Unterschied in den Dichten der beiden Klassen ist nicht mehr zu erkennen. Werden zu viele Klassen gewählt, wird die Verteilung zu rau und sehr hohe Dichten (Spitzen) können sich zufällig ergeben. Prinzipiell gibt es zwei Möglichkeiten, die Anzahl der Klassen zu wählen. Entweder man probiert verschiedene Klassenzahlen und entscheidet nach Augenschein, oder man versucht mittels formaler Kriterien eine optimale Anzahl zu berechnen. Zur Illustration betrachten wir die Lohnangaben in unserem PSID-File, das in der Einleitung erläutert wurde. Dabei beschränken wir uns auf die n = 986 Merkmalswerte der Lohnvariable, die 2 2 2 Darstellung von Häufigkeitsverteilungen Eine wichtige Aufgabe der deskriptiven Statistik besteht darin, anschauliche und informative Beschreibungen von Häufigkeitsverteilungen zu liefern. In diesem Kapitel besprechen wir Histogramme und Methoden zur Berechnung von Dichtefunktionen. 2.1 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . 30 2.1.1 Beschreibung der Methode . . . . . . . . . . . . . 30 2.1.2 Bestimmung der Klassen . . . . . . . . . . . . . . 31 2.2 Kerndichteschätzung . . . . . . . . . . . . . . . . . . . . 33 2.2.1 Die grundlegende Idee der Kerndichteschätzung . . . 34 2.2.2 Kernfunktionen . . . . . . . . . . . . . . . . . . . 34 2.2.3 Berechnung für Stützstellen . . . . . . . . . . . . . 37 2.2.4 Verfahren der Bandweitenwahl . . . . . . . . . . . 38 2.2.5 Auswirkung von Bandweiten- und Kernfunktionswahl 38 2.2.6 Bestimmung des Modus . . . . . . . . . . . . . . . 39 2.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 29 03.09.2019 13: 55: 20 <?page no="30"?> 30 2 Darstellung von Häufigkeitsverteilungen Tabelle 2.1: Histogramm mit Beispieldaten Klasse von bis b j f j h j ˜ x 1 0 3 3 0.05 0.0167 ˜ x 2 3 7 4 0.25 0.0625 ˜ x 3 7 13 6 0.55 0.0917 ˜ x 4 13 20 7 0.15 0.0214 2.1 Histogramme 2.1.1 Beschreibung der Methode Sei X eine Variable mit den Werten x 1 , . . . , x n für n Einheiten. Um die Häufigkeitsverteilung von X durch ein Histogramm graphisch darzustellen, geht man folgendermaßen vor. Man bestimmt zunächst den kleinsten Merkmalswert x min und den größten Merkmalswert x max , so dass alle vorkommenden Merkmalswerte im Intervall [ x min , x max ] liegen. Dann werden Zahlen a 0 < a 1 < · · · < a m bestimmt, wobei a 0 ≤ x min und a m > x max ist, wodurch m Klassen (Intervalle) entstehen: ˜ x ∗ j = [ a j − a j − 1 [. Diese Klassen bilden die X -Achse des Historgramms. Für die Breite b j eines Intervalls gilt b j = a j − a j − 1 . Für jede Klasse wird dann ein Rechteck gebildet, so dass die Fläche des Rechtecks der Häufigkeit entspricht, mit der X einen Wert in der Klasse annimmt. Die Höhe h j = f j / b j für die Klasse ˜ x ∗ j , die auch als Dichte bezeichnet wird, wird also so bestimmt, dass gilt h j ( a j − a j − 1 ) = P( X ∈ ˜ x ∗ j ) . Wir betrachten als Zahlenbeispiel die Werte 1 , 3 , 5 , 5 , 5 , 6 , 8 , 8 , 8 , 8 , 8 , 10 , 10 , 10 , 11 , 12 , 12 , 14 , 17 , 19 . Wir wählen a 0 = 0 , a 1 = 3 , a 2 = 7 , a 3 = 13 , a 4 = 20, wodurch m = 4 Klassen (Intervalle) entstehen. Die resultierenden Klassenbreiten, Häufigkeiten und Dichten sind in Tabelle 2.1 und das resultierende Histogramm ist in Abbildung 2.1 dargestellt. R-2-1 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 30 03.09.2019 13: 55: 21 <?page no="31"?> 2.1 Histogramme 27 x Dichte 0 5 10 15 20 0.00 0.02 0.04 0.06 0.08 0.10 Abbildung 2.1: Histogramm für 20 Beispielwerte. 2.1.2 Bestimmung der Klassen Das Erscheinungsbild eines Histogramms hängt davon ab, wie die Klassen gewählt werden. Oft wird für alle Klassen die gleiche Breite a j − a j − 1 verwendet; dann ist nur noch die Anzahl der Klassen ( m ) zu wählen. Werden zu wenige Klassen gewählt, werden Verdichtungsstellen in den Daten verschmiert. Fasst man z. B. zwei Klassen, eine mit hoher und eine mit geringer Dichte zu einer Klasse zusammen, dann erhält diese eine mittlere Dichte und der Unterschied in den Dichten der beiden Klassen ist nicht mehr zu erkennen. Werden zu viele Klassen gewählt, wird die Verteilung zu rau und sehr hohe Dichten (Spitzen) können sich zufällig ergeben. Prinzipiell gibt es zwei Möglichkeiten, die Anzahl der Klassen zu wählen. Entweder man probiert verschiedene Klassenzahlen und entscheidet nach Augenschein, oder man versucht mittels formaler Kriterien eine optimale Anzahl zu berechnen. Zur Illustration betrachten wir die Lohnangaben in unserem PSID-File, das in der Einleitung erläutert wurde. Dabei beschränken wir uns auf die n = 986 Merkmalswerte der Lohnvariable, die 2 2 2.1 Histogramme 31 x Dichte 0 5 10 15 20 0.00 0.02 0.04 0.06 0.08 0.10 Abbildung 2.1: Histogramm für 20 Beispielwerte. 2.1.2 Bestimmung der Klassen Das Erscheinungsbild eines Histogramms hängt davon ab, wie die Klassen gewählt werden. Oft wird für alle Klassen die gleiche Breite a j − a j − 1 verwendet; dann ist nur noch die Anzahl der Klassen ( m ) zu wählen. Werden zu wenige Klassen gewählt, werden Verdichtungsstellen in den Daten verschmiert. Fasst man z. B. zwei Klassen, eine mit hoher und eine mit geringer Dichte zu einer Klasse zusammen, dann erhält diese eine mittlere Dichte und der Unterschied in den Dichten der beiden Klassen ist nicht mehr zu erkennen. Werden zu viele Klassen gewählt, wird die Verteilung zu rau und sehr hohe Dichten (Spitzen) können sich zufällig ergeben. Prinzipiell gibt es zwei Möglichkeiten, die Anzahl der Klassen zu wählen. Entweder man probiert verschiedene Klassenzahlen und entscheidet nach Augenschein, oder man versucht mittels formaler Kriterien eine optimale Anzahl zu berechnen. Zur Illustration betrachten wir die Netto-Monatseinkommen in Westdeutschland in unserem ALLBUS-File, das in der Einleitung erläutert wurde. Dabei beschränken wir uns auf die n = 1 , 234 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 31 03.09.2019 13: 55: 21 <?page no="32"?> 32 2 Darstellung von Häufigkeitsverteilungen Tabelle 2.2: Klassierte Einkommensdaten in 1 , 000 Euro Klasse von bis f j h j Klasse von bis f j h j ˜ x 1 0 1 0.133 0.133 ˜ x 6 5 6 0.026 0.026 ˜ x 2 1 2 0.333 0.333 ˜ x 7 6 7 0.015 0.015 ˜ x 3 2 3 0.302 0.302 ˜ x 8 7 8 0.003 0.003 ˜ x 4 3 4 0.133 0.133 ˜ x 9 8 9 0.007 0.007 ˜ x 5 4 5 0.047 0.047 ˜ x 10 9 10 0.001 0.001 Tabelle 2.3: Klassierte Einkommensdaten in 1 , 000 Euro Klasse von bis f j h j Klasse von bis f j h j ˜ x 1 0.0 0.5 0.018 0.036 ˜ x 6 2.5 3.0 0.119 0.238 ˜ x 2 0.5 1.0 0.115 0.230 ˜ x 7 3.0 4.0 0.133 0.133 ˜ x 3 1.0 1.5 0.148 0.297 ˜ x 8 4.0 5.0 0.047 0.047 ˜ x 4 1.5 2.0 0.185 0.370 ˜ x 9 5.0 7.5 0.042 0.017 ˜ x 5 2.0 2.5 0.183 0.366 ˜ x 10 7.5 10.0 0.010 0.004 Merkmalswerte der Einkommensvariable von Personen aus Westdeutschland, die kleiner als 10 , 000 Euro sind, da sich so die Charakteristika der Verteilung der Einkommen unter 10 , 000 Euro besser erkennen lassen. Wählen wir m = 10 Klassen der Breite 1 , 000 Euro, resultiert die Häufigkeitstabelle 2.2. Dabei ist f j = P( X ∈ ˜ x j ) und h j = f j / 1, da die Klassenbreite gerade 1 ist. R-2-2 Für die graphische Darstellung in Abbildung 2.2a werden die Höhen h j verwendet, die gesamte Histogrammfläche ist dann ∑ j h j · b j = ∑ j f j = 1. R-2-3 Alternativ haben wir ein zweites Histogramm mit m = 25 Klassen gezeichnet (Abbildung 2.2b). Man sieht, dass bei diesem die Stelle der höchsten Verdichtung besser zu bestimmen ist, jedoch bei den oberen Klassen die Dichten zu- und abnehmen und die Verteilung etwas rau dargestellt wird. Für eine dritte Variante des Histogramms (Abbildung 2.2c) bilden wir erneut m = 10 Klassen, wählen jedoch unterschiedliche Klassenbreiten. Wir wählen nun für die Einkommen unter 3 , 000 , eine Klassenbreite von 500, für die Einkommen zwischen 3 , 000 und 5 , 000 eine Klassenbreite von 1 , 000 und abschließend zwei Klassen der Breite von 2 , 500 . Es resultiert die Häufigkeitstabelle 2.3. Die Höhen h j der Säulen in der graphischen Darstellung ergeben sich wiederum dadurch, dass die Häufigkeit f j durch die Breite der j .ten Klasse dividiert wird. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 32 03.09.2019 13: 55: 22 <?page no="33"?> 2.1 Histogramme 27 x Dichte 0 5 10 15 20 0.00 0.02 0.04 0.06 0.08 0.10 Abbildung 2.1: Histogramm für 20 Beispielwerte. 2.1.2 Bestimmung der Klassen Das Erscheinungsbild eines Histogramms hängt davon ab, wie die Klassen gewählt werden. Oft wird für alle Klassen die gleiche Breite a j − a j − 1 verwendet; dann ist nur noch die Anzahl der Klassen ( m ) zu wählen. Werden zu wenige Klassen gewählt, werden Verdichtungsstellen in den Daten verschmiert. Fasst man z. B. zwei Klassen, eine mit hoher und eine mit geringer Dichte zu einer Klasse zusammen, dann erhält diese eine mittlere Dichte und der Unterschied in den Dichten der beiden Klassen ist nicht mehr zu erkennen. Werden zu viele Klassen gewählt, wird die Verteilung zu rau und sehr hohe Dichten (Spitzen) können sich zufällig ergeben. Prinzipiell gibt es zwei Möglichkeiten, die Anzahl der Klassen zu wählen. Entweder man probiert verschiedene Klassenzahlen und entscheidet nach Augenschein, oder man versucht mittels formaler Kriterien eine optimale Anzahl zu berechnen. Zur Illustration betrachten wir die Lohnangaben in unserem PSID-File, das in der Einleitung erläutert wurde. Dabei beschränken wir uns auf die n = 986 Merkmalswerte der Lohnvariable, die 2 2 2.2 Kerndichteschätzung 33 Einkommen Dichte 0 2 4 6 8 10 0.0 0.1 0.2 0.3 0.4 0.5 (a) 10 Klassen Einkommen Dichte 0 2 4 6 8 10 0.0 0.1 0.2 0.3 0.4 0.5 (b) 25 Klassen Einkommen Dichte 0 2 4 6 8 10 0.0 0.1 0.2 0.3 0.4 0.5 (c) 10 Klassen (variable Klassenbreite) Abbildung 2.2: Auswirkungen unterschiedlicher Klassenbildung. Einkommen unter 10 Tsd. Euro (in Tsd. Euro). 2.2 Kerndichteschätzung Eine exakte Dichtefunktion für eine Variable X ist eine (stückweise) stetige Funktion f ( x ), die für beliebige Intervalle [ a, b ] die Bedingung P( X ∈ [ a, b ]) = ∫ b a f ( x ) d x erfüllt. Für empirische Verteilungen begnügt man sich meistens mit Dichtefunktionen, die eine Approximation liefern, also P( X ∈ [ a, b ]) ≈ ∫ b a ˆ f ( x ) d x. Die Notation ˆ f ( x ) soll anzeigen, dass es sich um eine approximative Dichtefunktion handelt. Auch Histogramme sind approximative Dichtefunktionen. In diesem Abschnitt besprechen wir Methoden der Kerndichteschätzung, mit denen stetige und mehr oder weniger glatte approximative Dichtefunktionen konstruiert werden können. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 33 03.09.2019 13: 55: 22 <?page no="34"?> 34 2 Darstellung von Häufigkeitsverteilungen 2.2.1 Die grundlegende Idee der Kerndichteschätzung Methoden der Kerndichteschätzung verwenden zur Konstruktion von ˆ f ( x ) alle Werte von X , die in einer symmetrischen Umgebung von x liegen. Die Idee lässt sich so veranschaulichen: Auf jeden Wert x i wird eine Kernfunktion (z. B. ein Rechteck oder ein Dreieck) mit der Fläche 1 / n gestellt, und die Flächen werden abschließend vertikal aufsummiert. Abbildung 2.3 veranschaulicht das Vorgehen. Für n = 5 Einheiten liegen die x i -Werte 2 , 3 , 3 . 3 , 4 . 5 und 7 vor. Wir wählen Dreiecke mit einer Grundbreite von 4. D.h. die Breite des Fensters, in welchem die darin liegenden Beobachtungen berücksichtigt werden, beträgt b = 4. Die Bandweite w ist die halbe Fensterbreite, also w = 2. Die Fläche der n Dreiecke insgesamt ist auf 1 normiert. Um jeweils eine Fläche von 1 / n = 1 / 5 = 0 . 2 zu haben, müssen die n = 5 Dreiecke eine Höhe von 0 . 1 haben, da 0 . 5 · 4 · 0 . 1 = 0 . 2 (die Fläche ergibt sich als halbe Grundseite mal Höhe). Betrachten wir als Beispiel ein Dreieck auf dem Wert x 2 = 3, dessen Grundfläche von 1 bis 5 reicht, dann hat dieses Dreieck an der Stelle x = 4 eine Höhe von 0 . 05. Dies ist der Beitrag des Datenpunktes x 2 = 3 zur Dichte an dieser Stelle x = 4. R-2-4 2.2.2 Kernfunktionen Die Dichte an der Stelle x , also ˆ f ( x ), lässt sich auch als eine Funktion der Abstände zwischen x und den x i -Werten ausdrücken. Dafür definiert man zunächst eine so genannte Kernfunktion K ( u ). Für einen Dreieck-Kern lautet diese Definition K ( u i ) = { 1 − | u i | falls | u i | ≤ 1 0 sonst , wobei u i = x − x i w . Der Wert u i gibt also den Abstand von x i zu x in Einheiten der Bandweite w an. Wenn x i = x ist, liefert die Funktion den maximalen Wert 1. Mit zunehmendem Abstand zwischen x i und x nimmt der Funktionswert linear ab. Liegt x i z. B. eine halbe Bandweite von x entfernt, liefert die Funktion den Wert 0.5. Die 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 34 03.09.2019 13: 55: 22 <?page no="35"?> 2.1 Histogramme 27 x Dichte 0 5 10 15 20 0.00 0.02 0.04 0.06 0.08 0.10 Abbildung 2.1: Histogramm für 20 Beispielwerte. 2.1.2 Bestimmung der Klassen Das Erscheinungsbild eines Histogramms hängt davon ab, wie die Klassen gewählt werden. Oft wird für alle Klassen die gleiche Breite a j − a j − 1 verwendet; dann ist nur noch die Anzahl der Klassen ( m ) zu wählen. Werden zu wenige Klassen gewählt, werden Verdichtungsstellen in den Daten verschmiert. Fasst man z. B. zwei Klassen, eine mit hoher und eine mit geringer Dichte zu einer Klasse zusammen, dann erhält diese eine mittlere Dichte und der Unterschied in den Dichten der beiden Klassen ist nicht mehr zu erkennen. Werden zu viele Klassen gewählt, wird die Verteilung zu rau und sehr hohe Dichten (Spitzen) können sich zufällig ergeben. Prinzipiell gibt es zwei Möglichkeiten, die Anzahl der Klassen zu wählen. Entweder man probiert verschiedene Klassenzahlen und entscheidet nach Augenschein, oder man versucht mittels formaler Kriterien eine optimale Anzahl zu berechnen. Zur Illustration betrachten wir die Lohnangaben in unserem PSID-File, das in der Einleitung erläutert wurde. Dabei beschränken wir uns auf die n = 986 Merkmalswerte der Lohnvariable, die 2 2 2.2 Kerndichteschätzung 35 0 2 4 6 8 10 0.00 0.05 0.10 0.15 0.20 0.25 0.30 x Dichte Abbildung 2.3: Idee des Kerndichteschätzers. Über jede Beobachtung des Zahlenbeispiels ist ein Dreieck-Kern gelegt. Der resultierende Kerndichteschätzer ist als graue Linie eingezeichnet. Bandweite w gibt den maximalen Abstand der berücksichtigten Werte von x an. Das Integral der Kernfunktion hat den Wert 1. Der Kerndichteschätzer kann also folgendermaßen definiert werden ˆ f ( x ) = 1 nw n ∑ i =1 K ( u i ) = 1 nw n ∑ i =1 K ( x − x i w ) . Eine unterschiedliche Wahl von Kernfunktionen K ( u ) führt zu unterschiedlichen Kerndichteschätzern (siehe Tabelle 2.4 und Abbildung 2.4). Nur bei Rechteck-Kernen (gleitenden Histogrammen) gehen die benachbarten x i -Werte gleich gewichtet in die Bestimmung der Dichte ein. Bei anderen üblicherweise verwendeten Kernfunktionen, etwa dem dargestellten Dreieck-Kern, nimmt das Gewicht mit dem Abstand zu x ab. Betrachten wir als Beispiel erneut den Datenpunkt x 2 = 3 und die Stelle x = 4. Als Kernfunktion wählen wir erneut den Dreieck- Kern. Wir erhalten u 2 = ( x − x 2 ) / w = (4 − 3) / 2 = 0 . 5. Der Wert der Kernfunktion ist dann K ( u 2 ) = 1 − | u 2 | = 1 − 0 . 5 = 0 . 5 . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 35 03.09.2019 13: 55: 23 <?page no="36"?> 36 2 Darstellung von Häufigkeitsverteilungen Tabelle 2.4: Definition alternativer Kernfunktionen Kernfunktion Definition Rechteck-Kern K ( u ) = { 0 . 5 falls | u | ≤ 1 , 0 sonst Dreieck-Kern K ( u ) = { 1 − | u | falls | u | ≤ 1 , 0 sonst Normal-Kern K ( u ) = 1 √ 2 π e − 0 . 5 u 2 Epanechnikov-Kern K ( u ) = { 3 4 (1 − u 2 ) falls | u | ≤ 1 , 0 sonst -2 -1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 x Dichte Dreieck Epanechnikov Rechteck Normal Abbildung 2.4: Verschiedene Kernfunktionen. Die Normierung, d.h. die Division durch nw , führt dann zu dem Beitrag von x 2 zur Dichte an der Stelle x = 4 von K ( u 2 ) / ( nw ) = 0 . 5 / (5 · 2) = 0 . 05 . Die Kerndichte f ( x = 4) ergibt sich aus der Summation der Beiträge aller n = 5 x -Werte, von denen wir hier nur einen, den von x 2 = 3, zur Veranschaulichung ermittelt haben. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 36 03.09.2019 13: 55: 23 <?page no="37"?> 2.1 Histogramme 27 x Dichte 0 5 10 15 20 0.00 0.02 0.04 0.06 0.08 0.10 Abbildung 2.1: Histogramm für 20 Beispielwerte. 2.1.2 Bestimmung der Klassen Das Erscheinungsbild eines Histogramms hängt davon ab, wie die Klassen gewählt werden. Oft wird für alle Klassen die gleiche Breite a j − a j − 1 verwendet; dann ist nur noch die Anzahl der Klassen ( m ) zu wählen. Werden zu wenige Klassen gewählt, werden Verdichtungsstellen in den Daten verschmiert. Fasst man z. B. zwei Klassen, eine mit hoher und eine mit geringer Dichte zu einer Klasse zusammen, dann erhält diese eine mittlere Dichte und der Unterschied in den Dichten der beiden Klassen ist nicht mehr zu erkennen. Werden zu viele Klassen gewählt, wird die Verteilung zu rau und sehr hohe Dichten (Spitzen) können sich zufällig ergeben. Prinzipiell gibt es zwei Möglichkeiten, die Anzahl der Klassen zu wählen. Entweder man probiert verschiedene Klassenzahlen und entscheidet nach Augenschein, oder man versucht mittels formaler Kriterien eine optimale Anzahl zu berechnen. Zur Illustration betrachten wir die Lohnangaben in unserem PSID-File, das in der Einleitung erläutert wurde. Dabei beschränken wir uns auf die n = 986 Merkmalswerte der Lohnvariable, die 2 2 2.2 Kerndichteschätzung 37 0 2 4 6 8 10 0.00 0.05 0.10 0.15 0.20 0.25 0.30 x Dichte x 0 = Abbildung 2.5: Darstellung von Stützstellen. Für die Stützstelle x 0 = 6 wird im Text vorgeführt wie man die Höhe der Dichte für den Kerndichteschätzer berechnet. 2.2.3 Berechnung für Stützstellen Eine Dichtefunktion ˆ f ( x ) ist für beliebige reelle Zahlenwerte definiert. Praktisch wird sie nur für eine endliche Anzahl beliebig gewählter Stützstellen berechnet. Dafür wird die oben angegebene Formel verwendet. Zur Illustration verwenden wir erneut das in Abbildung 2.3 angegebene Beispiel. In diesem Beispiel hat die Dichtefunktion die Gestalt ˆ f ( x ) = 1 5 · 2 5 ∑ i =1 K ( x − x i 2 ) = 1 10 5 ∑ i =1 ( 1 − ∣∣∣ x − x i 2 ∣∣∣) . Z. B. für x = 6 findet man ˆ f (6) = 1 10 [( 1 − ∣∣∣ 6 − 4 . 5 2 ∣∣∣) + ( 1 − ∣∣∣ 6 − 7 2 ∣∣∣)] = 1 10 [( 1 − 1 . 5 2 ) + ( 1 − 1 2 )] = 0 . 075 . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 37 03.09.2019 13: 55: 24 <?page no="38"?> 38 2 Darstellung von Häufigkeitsverteilungen 2.2.4 Verfahren der Bandweitenwahl Das Ergebnis ist weniger von der Wahl der Kernfunktion als von der gewählten Bandweite abhängig. Die Bandweiten können naiv gebildet werden, also durch einfache Variation und intuitive Beurteilung des Ergebnisses. Gesucht ist ein Kompromiss, so dass einerseits ein möglichst glatter Verlauf erreicht wird und andererseits noch alle wichtigen Charakteristika der Verteilung sichtbar sind. Es gibt auch Ansätze zur Bestimmung einer optimalen Bandweite, die sich als Funktion bestimmter Stichprobenmaßzahlen ergibt. Dafür muß allerdings eine maßgebliche Dichtefunktion vorausgesetzt (angenommen) werden, die man nicht kennt. Oft wird eine Normalverteilung angenommen. Wir begnügen uns damit, zwei gebräuchliche Regeln anzugeben. Eine Regel von Silverman schlägt die Bandweite w = 0 . 9 · min ( σ, (˜ x 0 . 75 − ˜ x 0 . 25 ) · 1 . 34 − 1 ) n − 1 / 5 vor, wobei σ und ˜ x 0 . 75 − ˜ x 0 . 25 aus den Daten ermittelt werden. 1 Bei einer sehr ähnlichen Regel von Scott wird anstelle des Faktors 0.9 der Faktor 1.06 verwendet, so dass man eine etwas glattere Dichtefunktion erhält. 2.2.5 Auswirkung von Bandweiten- und Kernfunktionswahl Die Auswirkungen der Wahl des Kerns lassen sich in einer Graphik veranschaulichen (Abbildung 2.6). Als Daten verwenden wir wieder die ALLBUS-Einkommensdaten bis 10 , 000 Euro. Die Bandweite wählen wir entsprechend der Regel von Silverman (s.o.). Für einen Vergleich der Auswirkungen verschiedener Bandweiten wählen wir einen Dreieck-Kern (vgl. Abbildung 2.7). 2 1 Die Symbole σ, ˜ x 0 . 25 und ˜ x 0 . 75 bezeichnen die Standardabweichung, das 25 %- und das 75 %-Quantil. Vergleiche hierzu Kapitel 3. 2 In R können mit der Funktion density() Kerndichten berechnet werden. Beim Aufruf der Funktion kann mit dem Argument bw die Bandweite festgelegt werden. Zu beachten ist, dass diese Bandweite die Bandweite in Einheiten der Standardabweichung σ der Kernfunktion ( σ = √ 1 / 6 im Falle des Dreieck-Kerns) angibt. D.h. in unserer Notation mit w für die Bandweite ergibt sich die R-Bandweite bw als bw = w · σ . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 38 03.09.2019 13: 55: 24 <?page no="39"?> 2.1 Histogramme 27 x Dichte 0 5 10 15 20 0.00 0.02 0.04 0.06 0.08 0.10 Abbildung 2.1: Histogramm für 20 Beispielwerte. 2.1.2 Bestimmung der Klassen Das Erscheinungsbild eines Histogramms hängt davon ab, wie die Klassen gewählt werden. Oft wird für alle Klassen die gleiche Breite a j − a j − 1 verwendet; dann ist nur noch die Anzahl der Klassen ( m ) zu wählen. Werden zu wenige Klassen gewählt, werden Verdichtungsstellen in den Daten verschmiert. Fasst man z. B. zwei Klassen, eine mit hoher und eine mit geringer Dichte zu einer Klasse zusammen, dann erhält diese eine mittlere Dichte und der Unterschied in den Dichten der beiden Klassen ist nicht mehr zu erkennen. Werden zu viele Klassen gewählt, wird die Verteilung zu rau und sehr hohe Dichten (Spitzen) können sich zufällig ergeben. Prinzipiell gibt es zwei Möglichkeiten, die Anzahl der Klassen zu wählen. Entweder man probiert verschiedene Klassenzahlen und entscheidet nach Augenschein, oder man versucht mittels formaler Kriterien eine optimale Anzahl zu berechnen. Zur Illustration betrachten wir die Lohnangaben in unserem PSID-File, das in der Einleitung erläutert wurde. Dabei beschränken wir uns auf die n = 986 Merkmalswerte der Lohnvariable, die 2 2 2.2 Kerndichteschätzung 39 Einkommen (in Tsd. Euro) 0 2 4 6 8 10 Dichte ˜ x M = 1.6 (a) Rechteck-Kern Einkommen (in Tsd. Euro) 0 2 4 6 8 10 Dichte ˜ x M = 2 (b) Dreieck-Kern Einkommen (in Tsd. Euro) 0 2 4 6 8 10 Dichte ˜ x M = 1.89 (c) Epanechnikov-Kern Einkommen (in Tsd. Euro) 0 2 4 6 8 10 Dichte ˜ x M = 1.93 (d) Normal-Kern Abbildung 2.6: Auswirkungen der Wahl des Kernes. Einkommen unter 10 Tsd. Euro (in Tsd. Euro). Bandweite nach der Regel von Silverman. Es ist ersichtlich, dass die Wahl der Bandweite im Vergleich zur Wahl der Kernfunktion die geschätzten Kerndichten weit stärker beeinflusst. 2.2.6 Bestimmung des Modus Der Modus ˜ x M einer Dichtefunktion ˆ f ( x ), auch dichtester Wert genannt, ist derjenige x -Wert, bei dem die Dichtefunktion den höchsten Wert hat. 3 Da die berechnete Dichte sowohl von der gewählten Kernfunktion als auch von der gewählten Bandweite abhängt, ist auch die numerische Bestimmung des Modus davon 3 Vergleiche auch Abschnitt 3.3.1. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 39 03.09.2019 13: 55: 25 <?page no="40"?> 40 2 Darstellung von Häufigkeitsverteilungen Einkommen (in Tsd. Euro) 0 2 4 6 8 10 Dichte ˜ x M = 2 (a) bw = 400 Euro Einkommen (in Tsd. Euro) 0 2 4 6 8 10 Dichte ˜ x M = 1.99 (b) bw = 600 Euro Einkommen (in Tsd. Euro) 0 2 4 6 8 10 Dichte ˜ x M = 1.85 (c) bw = 1000 Euro Einkommen (in Tsd. Euro) 0 2 4 6 8 10 Dichte ˜ x M = 1.82 (d) bw = 1500 Euro Abbildung 2.7: Auswirkungen der Wahl der Bandweite. Einkommen unter 10 Tsd. Euro (in Tsd. Euro). Jeweils mit Dreieck-Kern. abhängig. Als Beispiel verwenden wir eine Kerndichteschätzung mit Normalkern und automatisch gewählter Bandweite nach der Regel von Silverman (vgl. die Darstellung in Abbildung 2.6). In diesem Fall resultiert ˜ x M = 1 . 93. In den Abbildungen 2.6 und 2.7 sind jeweils die aus der Wahl von Kernfunktion und Bandweite resultierenden Modalwerte eingetragen. R-2-5 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 40 03.09.2019 13: 55: 25 <?page no="41"?> 2.1 Histogramme 27 x Dichte 0 5 10 15 20 0.00 0.02 0.04 0.06 0.08 0.10 Abbildung 2.1: Histogramm für 20 Beispielwerte. 2.1.2 Bestimmung der Klassen Das Erscheinungsbild eines Histogramms hängt davon ab, wie die Klassen gewählt werden. Oft wird für alle Klassen die gleiche Breite a j − a j − 1 verwendet; dann ist nur noch die Anzahl der Klassen ( m ) zu wählen. Werden zu wenige Klassen gewählt, werden Verdichtungsstellen in den Daten verschmiert. Fasst man z. B. zwei Klassen, eine mit hoher und eine mit geringer Dichte zu einer Klasse zusammen, dann erhält diese eine mittlere Dichte und der Unterschied in den Dichten der beiden Klassen ist nicht mehr zu erkennen. Werden zu viele Klassen gewählt, wird die Verteilung zu rau und sehr hohe Dichten (Spitzen) können sich zufällig ergeben. Prinzipiell gibt es zwei Möglichkeiten, die Anzahl der Klassen zu wählen. Entweder man probiert verschiedene Klassenzahlen und entscheidet nach Augenschein, oder man versucht mittels formaler Kriterien eine optimale Anzahl zu berechnen. Zur Illustration betrachten wir die Lohnangaben in unserem PSID-File, das in der Einleitung erläutert wurde. Dabei beschränken wir uns auf die n = 986 Merkmalswerte der Lohnvariable, die 2 2 2.3 Aufgaben 41 2.3 Aufgaben 1. Betrachten Sie die beiden folgenden Darstellungen der ALLBUS- Einkommensverteilung mit Hilfe eines Histogramms und mit Hilfe einer Kerndichteschätzung. Zur Verbesserung der Übersichtlichkeit werden nur Einkommen bis 10,000 Euro betrachtet. Welches sind die Vor- und Nachteile der beiden Darstellungsweisen? Einkommen (in Tsd. Euro) Dichte 0 2 4 6 8 10 0.0 0.1 0.2 0.3 0.4 0.5 Vergleich von Histogramm und Kerndichteschätzung. 2. Gehen Sie von folgenden Werten aus: 1 , 5 , 6 , 6 , 8, und berechnen Sie für die Stützstelle x = 4 . 5 die Kerndichte bei einer Bandweite von w = 3 und einem Rechteck-Kern. 3. Berechnen Sie für die Stützstelle x = 4 . 5 und die Bandweite w = 3 die Kerndichte auch mit (a) einem Dreieck-Kern und (b) einem Normalkern. 4. Berechnen Sie mit einem Dreieck-Kern für die Stützstelle x = 4 . 5 die Kerndichte mit den Bandweiten (a) w = 2 . 5 und (b) w = 3 . 5. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 41 03.09.2019 13: 55: 25 <?page no="42"?> 42 2 Darstellung von Häufigkeitsverteilungen 2.4 R-Code R-2-1 # Histogramm - Zahlenbeispiel x <c(1,3,5,5,5,6,8,8,8,8,8,10,10,10,11,12,12,14,17,19) n <length(x) # Klassengrenzen breaks1 <c(0,3,7,13,20) # Anzahl an Grenzen b <length(breaks1) # Beobachtungen in Klassen einteilen lc <cut(x = x, breaks = breaks1, right = FALSE) # Klassenuntergrenzen cu <breaks1[-b] # Klassenobergrenzen co <breaks1[-1] # Dichten bj <co-cu fj <table(lc) / n hj <fj / bj # Histogramm (4 Klassen) hist(x = x, breaks = breaks1, prob = TRUE, right = FALSE, xlim = c(0,20), ylim = c(0,0.1), xlab = "x", ylab = "Dichte") R-2-2 ## Daten einlesen d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) d <d[d$ostwest==0,] # Einkommen in Vektor e speichern e <d$einkommen/ 1000 ## Nur Eink. < 10000 Euro w <e[e < 10] # Anzahl an Eink. < 10000 Euro n <length(w) n# Klassengrenzen breaks1 <seq(from = 0, to = 10, by = 1) # Anzahl an Grenzen b <length(breaks1) # Beobachtungen (Einkommen) in Klassen einteilen lc <cut(x = w, breaks = breaks1, right = FALSE) # Klassenuntergrenzen cu <breaks1[-b] # Klassenobergrenzen co <breaks1[-1] # relative Klassenhäufigkeiten fj <table(lc) / n fj 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 42 03.09.2019 13: 55: 26 <?page no="43"?> 2.1 Histogramme 27 x Dichte 0 5 10 15 20 0.00 0.02 0.04 0.06 0.08 0.10 Abbildung 2.1: Histogramm für 20 Beispielwerte. 2.1.2 Bestimmung der Klassen Das Erscheinungsbild eines Histogramms hängt davon ab, wie die Klassen gewählt werden. Oft wird für alle Klassen die gleiche Breite a j − a j − 1 verwendet; dann ist nur noch die Anzahl der Klassen ( m ) zu wählen. Werden zu wenige Klassen gewählt, werden Verdichtungsstellen in den Daten verschmiert. Fasst man z. B. zwei Klassen, eine mit hoher und eine mit geringer Dichte zu einer Klasse zusammen, dann erhält diese eine mittlere Dichte und der Unterschied in den Dichten der beiden Klassen ist nicht mehr zu erkennen. Werden zu viele Klassen gewählt, wird die Verteilung zu rau und sehr hohe Dichten (Spitzen) können sich zufällig ergeben. Prinzipiell gibt es zwei Möglichkeiten, die Anzahl der Klassen zu wählen. Entweder man probiert verschiedene Klassenzahlen und entscheidet nach Augenschein, oder man versucht mittels formaler Kriterien eine optimale Anzahl zu berechnen. Zur Illustration betrachten wir die Lohnangaben in unserem PSID-File, das in der Einleitung erläutert wurde. Dabei beschränken wir uns auf die n = 986 Merkmalswerte der Lohnvariable, die 2 2 . 1 H i s t o g r a m m e 2 7 x D i c h t e 0 5 1 0 1 5 2 0 0 . 0 0 0 . 0 2 0 . 0 4 0 . 0 6 0 . 0 8 0 . 1 0 A b b i l d u n g 2 . 1 : H i s t o g r a m m f ü r 2 0 B e i s p i e l w e r t e . 2 . 1 . 2 B e s t i m m u n g d e r K l a s s e n D a s E r s c h e i n u n g s b i l d e i n e s H i s t o g r a m m s h ä n g t d a v o n a b , w i e d i e K l a s s e n g e w ä h l t w e r d e n . O f t w i r d f ü r a l l e K l a s s e n d i e g l e i c h e B r e i t e a j − a j − 1 v e r w e n d e t ; d a n n i s t n u r n o c h d i e A n z a h l d e r K l a s s e n ( m ) z u w ä h l e n . W e r d e n z u w e n i g e K l a s s e n g e w ä h l t , w e r d e n V e r d i c h t u n g s s t e l l e n i n d e n D a t e n v e r s c h m i e r t . F a s s t m a n z . B . z w e i K l a s s e n , e i n e m i t h o h e r u n d e i n e m i t g e r i n g e r D i c h t e z u e i n e r K l a s s e z u s a m m e n , d a n n e r h ä l t d i e s e e i n e m i t t l e r e D i c h t e u n d d e r U n t e r s c h i e d i n d e n D i c h t e n d e r b e i d e n K l a s s e n i s t n i c h t m e h r z u e r k e n n e n . W e r d e n z u v i e l e K l a s s e n g e w ä h l t , w i r d d i e V e r t e i l u n g z u r a u u n d s e h r h o h e D i c h t e n ( S p i t z e n ) k ö n n e n s i c h z u f ä l l i g e r g e b e n . P r i n z i p i e l l g i b t e s z w e i M ö g l i c h k e i t e n , d i e A n z a h l d e r K l a s s e n z u w ä h l e n . E n t w e d e r m a n p r o b i e r t v e r s c h i e d e n e K l a s s e n z a h l e n u n d e n t s c h e i d e t n a c h A u g e n s c h e i n , o d e r m a n v e r s u c h t m i t t e l s f o r m a l e r K r i t e r i e n e i n e o p t i m a l e A n z a h l z u b e r e c h n e n . Z u r I l l u s t r a t i o n b e t r a c h t e n w i r d i e L o h n a n g a b e n i n u n s e r e m P S I D - F i l e , d a s i n d e r E i n l e i t u n g e r l ä u t e r t w u r d e . D a b e i b e s c h r ä n k e n w i r u n s a u f d i e n = 9 8 6 M e r k m a l s w e r t e d e r L o h n v a r i a b l e , d i e 2 2.4 R-Code 43 # Dichten bj <co cu hj <fj / bj hj # zu 1 normierte Dichte sum(hj*1) R-2-3 # Histogramm (10 Klassen gleicher Breite) hist(x = w, breaks = breaks1, prob = TRUE, right = FALSE, xlim = c(0,10), ylim = c(0,0.4), xlab = "Monatseinkommen in 1000 Euro", ylab = "Dichte") R-2-4 (Siehe hier auch die Fußnote auf Seite 38) # Vektor mit Beispielwerten erstellen x <c(2,3,3.3,4.5,7) ## Kerndichte mit Dreieck-Kern darstellen # Bandweite (w = b/ 2) bw <- 2 # Stad.abw. des Dreieck-Kerns s <sqrt(1/ 6) # Darstellung plot(density(x = x, kernel = "triangular", bw = bw*s)) # Alternativ mit automatischer Wahl der Bandweite plot(density(x = x, kernel = "triangular")) R-2-5 ## Objekt der Klasse 'density' # um den Modus genauer zu bestimmen wird hier die Anzahl an Punkten an # denen die Dichte geschätzt wird erhöht auf 1024 dn <density(x = w, kernel = "gaussian", n = 2*512) # Modus xM <dn$x[dn$y == max(dn$y)] xM 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 43 03.09.2019 13: 55: 26 <?page no="44"?> 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 44 03.09.2019 13: 55: 26 <?page no="45"?> 3.2 Quantilsfunktion 43 0.0 0.1 0.2 0.3 ˜ x Pr[X](˜ x) 1 4 7 16 (a) Relative Häufigkeiten 0 5 10 15 0.0 0.4 0.8 ˜ x Pr[X](˜ x) (b) Verteilungsfunktion Abbildung 3.1: Relative Häufigkeiten und Verteilungsfunktion für das Zahlenbeispiel. Beschreibung der Lohnverteilung verwenden wir eine Dichtefunktion ˆ f ( x ), die mit der Methode der Kerndichteschätzung (hier mit einem Normalkern und einer automatisch gewählten Bandweite nach der Regel von Silverman) ermittelt wird. Die Graphik 3.2 zeigt auf der linken Seite diese Dichtefunktion. Auf der rechten Seite wird die daraus abgeleitete approximative Verteilungsfunktion ˆ F ( x ) = ∫ x −∞ ˆ f ( u ) d u gezeigt. Die Dichtefunktion hat ihr Maximum an der Stelle 28 , 475 US-Dollar. In diesem Bereich weist die Verteilungsfunktion die höchste Steigung auf. Ab 75 , 000 US-Dollar finden sich nur noch recht geringe Dichten, entsprechend verläuft die Verteilungsfunktion rechts davon relativ flach. R-3-2 3.2 Quantilsfunktion Während wir bei der Verteilungsfunktion von einem bestimmten x - Wert ausgehen und fragen, welcher Anteil der Daten eine höchstens so große Ausprägung aufweist, wird bei der Quantilsfunktion die Blickrichtung umgedreht. Wir gehen von einem Anteilswert p aus, der zwischen 0 und 1 liegt, und fragen: welches ist der kleinste x -Wert für den die Verteilungsfunktion mindestens den 3 3 3 Charakterisierungen von Häufigkeitsverteilungen In diesem Kapitel besprechen wir Methoden und unterschiedliche Maßzahlen, mit denen die Häufigkeitsverteilung einer Variablen beschrieben werden kann. 3.1 Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . 46 3.2 Quantilsfunktion . . . . . . . . . . . . . . . . . . . . . . 47 3.3 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.3.1 Lagemaße . . . . . . . . . . . . . . . . . . . . . . 50 3.3.2 Streuungsmaße . . . . . . . . . . . . . . . . . . . 53 3.3.3 Schiefe- und Wölbungsmaße . . . . . . . . . . . . . 55 3.4 Approximationen mit klassierten Daten . . . . . . . . . . . 59 3.4.1 Approximation des Modus . . . . . . . . . . . . . . 59 3.4.2 Approximation des Zentralwerts . . . . . . . . . . . 59 3.4.3 Approximation des arithmetischen Mittels . . . . . 61 3.4.4 Approximation der Standardabweichung . . . . . . 61 3.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 45 03.09.2019 13: 55: 27 <?page no="46"?> 46 3 Charakterisierungen von Häufigkeitsverteilungen 3.1 Verteilungsfunktion Wir beziehen uns auf eine Variable X mit Werten x 1 , . . . , x n für n Einheiten. Die Verteilung von X wird zunächst durch die Häufigkeitsfunktion P( X = x ) beschrieben, wobei x irgendein möglicher Wert von X ist (vgl. Abschnitt 1.2.3). Nun fragen wir, welcher Anteil an den Einheiten einen Merkmalswert aufweist, der nicht größer ist als irgendein vorgegebener x -Wert. Die Frage wird durch die Funktion F ( x ) = P( X ≤ x ) beantwortet, die als Verteilungsfunktion von X bezeichnet wird. Als einfaches Zahlenbeispiel nehmen wir an, dass es n = 8 Einheiten mit den Werten x 1 = 1 , x 2 = 2 , x 3 = 2 , x 4 = 4 , x 5 = 4 , x 6 = 4 , x 7 = 7 , x 8 = 16 gibt. Man findet: x P( X = x ) F ( x ) 1 1 / 8 1 / 8 2 2 / 8 3 / 8 4 3 / 8 6 / 8 7 1 / 8 7 / 8 16 1 / 8 8 / 8 Die Häufigkeits- und die Verteilungsfunktion werden in der Graphik 3.1 dargestellt. Man beachte, dass die Verteilungsfunktion nicht nur für die jeweils vorkommenden x -Werte, sondern für alle reellen Zahlen definiert ist. Es handelt sich um eine Treppenfunktion mit Sprungstellen an den vorkommenden Merkmalsausprägungen. Die Höhen der Sprungstellen entsprechen dabei gerade den jeweiligen Häufigkeiten. Offenbar hat die Verteilungsfunktion bei allen x -Werten, die kleiner als der kleinste x i -Wert sind, den Wert 0; und sie hat den Wert 1 bei allen x -Werten, die größer oder gleich dem größten x i -Wert sind. R-3-1 Für eine weitere Illustration verwenden wir die Einkommensangaben im ALLBUS-File (West), wobei wir uns auf n = 1 , 234 Personen beschränken, deren Einkommen kleiner als 10 , 000 Euro 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 46 03.09.2019 13: 55: 27 <?page no="47"?> 3.2 Quantilsfunktion 43 0.0 0.1 0.2 0.3 ˜ x Pr[X](˜ x) 1 4 7 16 (a) Relative Häufigkeiten 0 5 10 15 0.0 0.4 0.8 ˜ x Pr[X](˜ x) (b) Verteilungsfunktion Abbildung 3.1: Relative Häufigkeiten und Verteilungsfunktion für das Zahlenbeispiel. Beschreibung der Lohnverteilung verwenden wir eine Dichtefunktion ˆ f ( x ), die mit der Methode der Kerndichteschätzung (hier mit einem Normalkern und einer automatisch gewählten Bandweite nach der Regel von Silverman) ermittelt wird. Die Graphik 3.2 zeigt auf der linken Seite diese Dichtefunktion. Auf der rechten Seite wird die daraus abgeleitete approximative Verteilungsfunktion ˆ F ( x ) = ∫ x −∞ ˆ f ( u ) d u gezeigt. Die Dichtefunktion hat ihr Maximum an der Stelle 28 , 475 US-Dollar. In diesem Bereich weist die Verteilungsfunktion die höchste Steigung auf. Ab 75 , 000 US-Dollar finden sich nur noch recht geringe Dichten, entsprechend verläuft die Verteilungsfunktion rechts davon relativ flach. R-3-2 3.2 Quantilsfunktion Während wir bei der Verteilungsfunktion von einem bestimmten x - Wert ausgehen und fragen, welcher Anteil der Daten eine höchstens so große Ausprägung aufweist, wird bei der Quantilsfunktion die Blickrichtung umgedreht. Wir gehen von einem Anteilswert p aus, der zwischen 0 und 1 liegt, und fragen: welches ist der kleinste x -Wert für den die Verteilungsfunktion mindestens den 3 3 3.2 Quantilsfunktion 47 0.0 0.1 0.2 0.3 x Pr(X = x) 1 4 7 16 (a) Relative Häufigkeiten 0 5 10 15 0.0 0.4 0.8 x Pr(X ≤ x) (b) Verteilungsfunktion Abbildung 3.1: Relative Häufigkeiten und Verteilungsfunktion für das Zahlenbeispiel. ist. Zur approximativen Beschreibung der Einkommensverteilung verwenden wir eine Dichtefunktion ˆ f ( x ), die mit der Methode der Kerndichteschätzung (hier mit einem Normalkern und einer automatisch gewählten Bandweite nach der Regel von Silverman) ermittelt wird. Die Graphik 3.2 zeigt auf der linken Seite diese Dichtefunktion. Auf der rechten Seite wird die daraus abgeleitete approximative Verteilungsfunktion ˆ F ( x ) = ∫ x −∞ ˆ f ( u ) d u gezeigt. Die Dichtefunktion hat ihr Maximum an der Stelle 1 , 929 Euro. In diesem Bereich weist die Verteilungsfunktion die höchste Steigung auf. Ab 5 , 000 Euro finden sich nur noch recht geringe Dichten, entsprechend verläuft die Verteilungsfunktion rechts davon relativ flach. R-3-2 3.2 Quantilsfunktion Während wir bei der Verteilungsfunktion von einem bestimmten x - Wert ausgehen und fragen, welcher Anteil der Daten eine höchstens so große Ausprägung aufweist, wird bei der Quantilsfunktion die Blickrichtung umgedreht. Wir gehen von einem Anteilswert p aus, der zwischen 0 und 1 liegt, und fragen: welches ist der kleinste x -Wert für den die Verteilungsfunktion mindestens den 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 47 03.09.2019 13: 55: 28 <?page no="48"?> 48 3 Charakterisierungen von Häufigkeitsverteilungen 0 2 4 6 8 10 0.0 0.1 0.2 0.3 0.4 Einkommen in 1000 Euro ˆ f(x) (a) Dichtefunktion 0 2 4 6 8 10 0.0 0.4 0.8 Einkommen in 1000 Euro ˆ F (x) (b) Verteilungsfunktion Abbildung 3.2: Dichtefunktion (links) und Verteilungsfunktion (rechts) der Einkommen (in Tsd. Euro.) Wert p aufweist, so dass also der Anteil der Einheiten mit x i ≤ x mindestens p ist. Wir verwenden die Definition Q ( p ) = min { x | F ( x ) ≥ p } , die als Quantilsfunktion bezeichnet wird. Wenn die Verteilungsfunktion eine Treppenfunktion ist, führt diese Definition dazu, dass nur vorkommende Merkmalsausprägungen als Quantilswerte erscheinen können. Wir bezeichnen Quantilswerte durch ˜ x p . Eine alternative Definition geht unmittelbar von den aufsteigend sortierten x i -Werten aus: ˜ x p = { x np falls np ganzzahlig, x [ np ]+1 sonst. Die eckigen Klammern im Index ([ np ]) bedeuten, dass np auf die nächste Ganzzahl abgerundet wird. Zur Illustration verwenden wir wieder das Zahlenbeispiel aus dem vorangegangenen Abschnitt. Gesucht ist der Quantilswert für p = 0 . 5, der auch als Median oder Zentralwert bezeichnet wird. Mit der ersten Definition finden wir den Wert 4, denn F (2) = 3 / 8 < 0 . 5 und F (4) = 6 / 8 ≥ 0 . 5. Mit der zweiten Definition finden wir n p = 8 · 0 . 5 = 4, und somit hat der Median ebenfalls den Wert x 4 = 4. Wenn die Verteilungsfunktion eine Treppenfunktion ist, wie in diesem Beispiel, ist auch die Quantilsfunktion eine Treppenfunktion. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 48 03.09.2019 13: 55: 28 <?page no="49"?> 3.2 Quantilsfunktion 43 0.0 0.1 0.2 0.3 ˜ x Pr[X](˜ x) 1 4 7 16 (a) Relative Häufigkeiten 0 5 10 15 0.0 0.4 0.8 ˜ x Pr[X](˜ x) (b) Verteilungsfunktion Abbildung 3.1: Relative Häufigkeiten und Verteilungsfunktion für das Zahlenbeispiel. Beschreibung der Lohnverteilung verwenden wir eine Dichtefunktion ˆ f ( x ), die mit der Methode der Kerndichteschätzung (hier mit einem Normalkern und einer automatisch gewählten Bandweite nach der Regel von Silverman) ermittelt wird. Die Graphik 3.2 zeigt auf der linken Seite diese Dichtefunktion. Auf der rechten Seite wird die daraus abgeleitete approximative Verteilungsfunktion ˆ F ( x ) = ∫ x −∞ ˆ f ( u ) d u gezeigt. Die Dichtefunktion hat ihr Maximum an der Stelle 28 , 475 US-Dollar. In diesem Bereich weist die Verteilungsfunktion die höchste Steigung auf. Ab 75 , 000 US-Dollar finden sich nur noch recht geringe Dichten, entsprechend verläuft die Verteilungsfunktion rechts davon relativ flach. R-3-2 3.2 Quantilsfunktion Während wir bei der Verteilungsfunktion von einem bestimmten x - Wert ausgehen und fragen, welcher Anteil der Daten eine höchstens so große Ausprägung aufweist, wird bei der Quantilsfunktion die Blickrichtung umgedreht. Wir gehen von einem Anteilswert p aus, der zwischen 0 und 1 liegt, und fragen: welches ist der kleinste x -Wert für den die Verteilungsfunktion mindestens den 3 3 3.3 Maßzahlen 49 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 15 p Q(p) (a) Zahlenbeispiel 0.0 0.2 0.4 0.6 0.8 1.0 0 2 4 6 8 10 p Q(p) (b) Einkommen Abbildung 3.3: Quantilsfunktion Zahlenbeispiel und Quantilsfunktion der Einkommen. Das wird in der linken Hälfte von Abbildung 3.3 illustriert. Anders verhält es sich, wenn die Verteilungsfunktion stetig und streng monoton steigend ist. In diesem Fall kann man die Quantilsfunktion als Umkehrfunktion der Verteilungsfunktion definieren. Zur Illustration verwenden wir die im vorangegangenen Abschnitt erläuterte Verteilungsfunktion ˆ F ( x ) für die Einkommensdaten im ALLBUS- File. Die daraus gebildete Quantilsfunktion ˆ Q ( p ) = ˆ F − 1 ( p ) wird in der rechten Hälfte von Abbildung 3.3 illustriert. Natürlich könnte man auch in diesem Beispiel die zweite der obigen Definitionen verwenden. Die n = 1 , 234 Einkommenswerte im ALLBUS-File (West), die kleiner als 10 , 000 Euro sind, werden zunächst aufsteigend sortiert. Dann nimmt man den Wert an der mittleren Stelle n p = 1 , 234 · 0 . 5 = 617, der 2 Tsd. Euro beträgt. R-3-3 3.3 Maßzahlen Maßzahlen dienen der Charakterisierung von Häufigkeitsverteilungen. Die Kenntnis einiger wichtiger Maßzahlen erlaubt es, auch ohne graphische Darstellung, eine Vorstellung der Verteilung zu erlangen. Wir betrachten im Folgenden Maßzahlen des Niveaus, der Streuung, der Schiefe und der Wölbung. Denken wir an die Einkommen, dann sollen diese Maßzahlen einen Eindruck davon vermitteln, wie hoch die Einkommen sind (Niveau), wie unterschiedlich die Einkommen sind (Streuung), wie asymmetrisch die Einkommens- 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 49 03.09.2019 13: 55: 29 <?page no="50"?> 50 3 Charakterisierungen von Häufigkeitsverteilungen verteilung ist (Schiefe), und ob sich bei starker Konzentration der Werte im Zentrum der Verteilung nach oben und unten sehr große Abweichungen finden (Wölbung). Wie bisher beziehen wir uns auf eine Variable X mit Werten x 1 , . . . , x n für n Einheiten. 3.3.1 Lagemaße Der Modus (dichtester Wert) ist bei einem diskreten Merkmal der am häufigsten vorkommende Wert. So finden wir z.B. für das Alter der Personen in Westdeutschland in unserem Beispieldatensatz, dass das Alter 51 am häufigsten vorkommt. Bei stetigem Merkmal bezeichnet der Modus die Stelle der höchsten Dichte. Mit Hilfe eines Histogramms kann näherungsweise die Mitte der Klasse mit der höchsten Dichte als Wert für den Modus gewählt werden. Alternativ kann bei Verwendung einer geschätzten Kerndichte die Stelle mit der höchsten Dichte gewählt werden. Offenkundig hängt der genaue numerische Wert somit von der Wahl der Klassengrenzen bzw. der Wahl der Kernfunktion und der Bandweite ab. Die Ermittlung des dichtesten Wertes mit Hilfe einer Kerndichteschätzung wurde bereits in Abschnitt 2.2.6 besprochen. Der Zentralwert (Median) wurde bereits im vorigen Abschnitt erläutert. In diesem Abschnitt werden nur das arithmetische Mittel, das geometrische Mittel und das harmonische Mittel betrachtet, jeweils in der ungewichteten und der gewichteten Form. Arithmetisches Mittel Das arithmetische Mittel in der ungewichteten Form wird folgendermaßen definiert: ¯ x = 1 n n ∑ i =1 x i . Mit dem Zahlenbeispiel aus Abschnitt 3.1 findet man ¯ x = 1 8 (1 + 2 + 2 + 4 + 4 + 4 + 7 + 16) = 5 . In der gewichteten Form verwendet man die vorkommenden Merkmalswerte ˜ x j ( j = 1 , . . . , J ) und ihre Häufigkeiten f j = P( X = ˜ x j ); die Definition lautet dann 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 50 03.09.2019 13: 55: 29 <?page no="51"?> 3.2 Quantilsfunktion 43 0.0 0.1 0.2 0.3 ˜ x Pr[X](˜ x) 1 4 7 16 (a) Relative Häufigkeiten 0 5 10 15 0.0 0.4 0.8 ˜ x Pr[X](˜ x) (b) Verteilungsfunktion Abbildung 3.1: Relative Häufigkeiten und Verteilungsfunktion für das Zahlenbeispiel. Beschreibung der Lohnverteilung verwenden wir eine Dichtefunktion ˆ f ( x ), die mit der Methode der Kerndichteschätzung (hier mit einem Normalkern und einer automatisch gewählten Bandweite nach der Regel von Silverman) ermittelt wird. Die Graphik 3.2 zeigt auf der linken Seite diese Dichtefunktion. Auf der rechten Seite wird die daraus abgeleitete approximative Verteilungsfunktion ˆ F ( x ) = ∫ x −∞ ˆ f ( u ) d u gezeigt. Die Dichtefunktion hat ihr Maximum an der Stelle 28 , 475 US-Dollar. In diesem Bereich weist die Verteilungsfunktion die höchste Steigung auf. Ab 75 , 000 US-Dollar finden sich nur noch recht geringe Dichten, entsprechend verläuft die Verteilungsfunktion rechts davon relativ flach. R-3-2 3.2 Quantilsfunktion Während wir bei der Verteilungsfunktion von einem bestimmten x - Wert ausgehen und fragen, welcher Anteil der Daten eine höchstens so große Ausprägung aufweist, wird bei der Quantilsfunktion die Blickrichtung umgedreht. Wir gehen von einem Anteilswert p aus, der zwischen 0 und 1 liegt, und fragen: welches ist der kleinste x -Wert für den die Verteilungsfunktion mindestens den 3 3 . 2 Q u a n t i l s f u n k t i o n 4 3 0 . 0 0 . 1 0 . 2 0 . 3 ˜ x P r [ X ] ( ˜ x ) 1 4 7 1 6 ( a ) R e l a t i v e H ä u fig k e i t e n 0 5 1 0 1 5 0 . 0 0 . 4 0 . 8 ˜ x P r [ X ] ( ˜ x ) ( b ) V e r t e i l u n g s f u n k t i o n A b b i l d u n g 3 . 1 : R e l a t i v e H ä u fig k e i t e n u n d V e r t e i l u n g s f u n k t i o n f ü r d a s Z a h l e n b e i s p i e l . B e s c h r e i b u n g d e r L o h n v e r t e i l u n g v e r w e n d e n w i r e i n e D i c h t e f u n k t i o n ˆ f ( x ) , d i e m i t d e r M e t h o d e d e r K e r n d i c h t e s c h ä t z u n g ( h i e r m i t e i n e m N o r m a l k e r n u n d e i n e r a u t o m a t i s c h g e w ä h l t e n B a n d w e i t e n a c h d e r R e g e l v o n S i l v e r m a n ) e r m i t t e l t w i r d . D i e G r a p h i k 3 . 2 z e i g t a u f d e r l i n k e n S e i t e d i e s e D i c h t e f u n k t i o n . A u f d e r r e c h t e n S e i t e w i r d d i e d a r a u s a b g e l e i t e t e a p p r o x i m a t i v e V e r t e i l u n g s f u n k t i o n ˆ F ( x ) = ∫ x − ∞ ˆ f ( u ) d u g e z e i g t . D i e D i c h t e f u n k t i o n h a t i h r M a x i m u m a n d e r S t e l l e 2 8 , 4 7 5 U S - D o l l a r . I n d i e s e m B e r e i c h w e i s t d i e V e r t e i l u n g s f u n k t i o n d i e h ö c h s t e S t e i g u n g a u f . A b 7 5 , 0 0 0 U S - D o l l a r fin d e n s i c h n u r n o c h r e c h t g e r i n g e D i c h t e n , e n t s p r e c h e n d v e r l ä u f t d i e V e r t e i l u n g s f u n k t i o n r e c h t s d a v o n r e l a t i v fla c h . R - 3 - 2 3 . 2 Q u a n t i l s f u n k t i o n W ä h r e n d w i r b e i d e r V e r t e i l u n g s f u n k t i o n v o n e i n e m b e s t i m m t e n x - W e r t a u s g e h e n u n d f r a g e n , w e l c h e r A n t e i l d e r D a t e n e i n e h ö c h s t e n s s o g r o ß e A u s p r ä g u n g a u f w e i s t , w i r d b e i d e r Q u a n t i l s f u n k t i o n d i e B l i c k r i c h t u n g u m g e d r e h t . W i r g e h e n v o n e i n e m A n t e i l s w e r t p a u s , d e r z w i s c h e n 0 u n d 1 l i e g t , u n d f r a g e n : w e l c h e s i s t d e r k l e i n s t e x - W e r t f ü r d e n d i e V e r t e i l u n g s f u n k t i o n m i n d e s t e n s d e n 3 3.3 Maßzahlen 51 ¯ x = J ∑ j =1 ˜ x j f j . Mit dem Zahlenbeispiel findet man den gleichen Wert ¯ x = 1 · 1 / 8 + 2 · 2 / 8 + 4 · 3 / 8 + 7 · 1 / 8 + 16 · 1 / 8 = 5 . Das arithmetische Mittel, auch Durchschnitt genannt, ist der gebräuchlichste Mittelwert. Es kann einen Wert annehmen, der in den Daten nicht vorkommt (z. B. wenn man im obigen Beispiel einen Wert x 9 = 1 hinzufügt). Zudem hängt es sehr stark von extremen Merkmalswerten (sog. Ausreißern) ab. Zum Beispiel findet man für die n = 1 , 238 Personen im ALLBUS-File (West) das Durchschnittseinkommen 2 , 284 . 65 Euro. Würde eine weitere Person mit einem Einkommen von einer Milliarde Euro hinzukommen, würde das Durchschnittseinkommen 809 , 385 . 31 Euro betragen. R-3-4 Andererseits hat das arithmetische Mittel jedoch zwei Eigenschaften, die in vielen Zusammenhängen sehr nützlich sind. Zunächst die sog. Nulleigenschaft: 1 n n ∑ i =1 ( x i − ¯ x ) = 0 . Dies bedeutet, dass die Summe der Abstände aller Werte vom arithmetischen Mittel 0 ist. Das arithmetische Mittel besitzt zudem die Minimumeigenschaft: Die Summe der quadrierten Abstände aller Werte vom arithmetischen Mittel ist kleiner als von jedem anderen Wert. Das sieht man, indem man die Funktion S ( a ) = n ∑ i =1 ( x i − a ) 2 betrachtet. Um ihr Minimum zu bestimmen, wird die Ableitung nach a , also ∂S ( a ) ∂a = 2 n ∑ i =1 ( x i − a )( − 1) verwendet. Sie nimmt den Wert 0 gerade dann an, wenn man für a den Mittelwert ¯ x einsetzt. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 51 03.09.2019 13: 55: 30 <?page no="52"?> 52 3 Charakterisierungen von Häufigkeitsverteilungen Harmonisches Mittel Das harmonische Mittel wird durch ¯ x H = 1 1 n n ∑ i =1 1 x i = 1 J ∑ j =1 1 ˜ x j f j definiert (zunächst in der ungewichteten, dann in der mit Häufigkeiten gewichteten Form). Es ist das reziproke arithmetische Mittel der reziproken Merkmalswerte. In unserem Zahlenbeispiel finden wir ¯ x H = 1 18 ( 1 1 + 12 + 12 + 14 + 14 + 14 + 17 + 1 16 ) = 2 . 7069 . Für die n = 1 , 238 Einkommenswerte im ALLBUS-File (West) findet man ¯ x H = 1 , 553 . 68 Euro. R-3-5 Das harmonische Mittel wird meist nur als vereinfachtes Rechenprogramm für das arithmetische Mittel verwendet, wenn die Gewichte aus dem Zähler der Merkmalsausprägung stammen (z. B. Geschwindigkeit mit der Dimension km/ h und Gewichte in km). Ein anschauliches Beispiel: Sie radeln einen Berg 5 km lang mit 10 km/ h hinauf und 5 km lang mit 40 km/ h hinunter. Ihre Durchschnittsgeschwindigkeit beträgt dann nur 16 km/ h, da 10 1 10 · 5 + 1 40 · 5 = 10 · 30 37 . 5 + 40 · 7 . 5 37 . 5 = 16 . Sie fahren daher 80 % der Zeit (d.h. 30 der insgesamt 37 . 5 Minuten) bergauf. Geometrisches Mittel Das geometrische Mittel ¯ x G = ( n ∏ i =1 x i ) 1 n = J ∏ j =1 ˜ x f j j wird verwendet, wenn es sich um multiplikative Verknüpfungen, z. B. relatives Wachstum handelt. Zum Beispiel wird das geometrische Mittel oft zur Berechnung mittlerer Veränderungsraten 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 52 03.09.2019 13: 55: 30 <?page no="53"?> 3.2 Quantilsfunktion 43 0.0 0.1 0.2 0.3 ˜ x Pr[X](˜ x) 1 4 7 16 (a) Relative Häufigkeiten 0 5 10 15 0.0 0.4 0.8 ˜ x Pr[X](˜ x) (b) Verteilungsfunktion Abbildung 3.1: Relative Häufigkeiten und Verteilungsfunktion für das Zahlenbeispiel. Beschreibung der Lohnverteilung verwenden wir eine Dichtefunktion ˆ f ( x ), die mit der Methode der Kerndichteschätzung (hier mit einem Normalkern und einer automatisch gewählten Bandweite nach der Regel von Silverman) ermittelt wird. Die Graphik 3.2 zeigt auf der linken Seite diese Dichtefunktion. Auf der rechten Seite wird die daraus abgeleitete approximative Verteilungsfunktion ˆ F ( x ) = ∫ x −∞ ˆ f ( u ) d u gezeigt. Die Dichtefunktion hat ihr Maximum an der Stelle 28 , 475 US-Dollar. In diesem Bereich weist die Verteilungsfunktion die höchste Steigung auf. Ab 75 , 000 US-Dollar finden sich nur noch recht geringe Dichten, entsprechend verläuft die Verteilungsfunktion rechts davon relativ flach. R-3-2 3.2 Quantilsfunktion Während wir bei der Verteilungsfunktion von einem bestimmten x - Wert ausgehen und fragen, welcher Anteil der Daten eine höchstens so große Ausprägung aufweist, wird bei der Quantilsfunktion die Blickrichtung umgedreht. Wir gehen von einem Anteilswert p aus, der zwischen 0 und 1 liegt, und fragen: welches ist der kleinste x -Wert für den die Verteilungsfunktion mindestens den 3 3 . 2 Q u a n t i l s f u n k t i o n 4 3 0 . 0 0 . 1 0 . 2 0 . 3 ˜ x P r [ X ] ( ˜ x ) 1 4 7 1 6 ( a ) R e l a t i v e H ä u fig k e i t e n 0 5 1 0 1 5 0 . 0 0 . 4 0 . 8 ˜ x P r [ X ] ( ˜ x ) ( b ) V e r t e i l u n g s f u n k t i o n A b b i l d u n g 3 . 1 : R e l a t i v e H ä u fig k e i t e n u n d V e r t e i l u n g s f u n k t i o n f ü r d a s Z a h l e n b e i s p i e l . B e s c h r e i b u n g d e r L o h n v e r t e i l u n g v e r w e n d e n w i r e i n e D i c h t e f u n k t i o n ˆ f ( x ) , d i e m i t d e r M e t h o d e d e r K e r n d i c h t e s c h ä t z u n g ( h i e r m i t e i n e m N o r m a l k e r n u n d e i n e r a u t o m a t i s c h g e w ä h l t e n B a n d w e i t e n a c h d e r R e g e l v o n S i l v e r m a n ) e r m i t t e l t w i r d . D i e G r a p h i k 3 . 2 z e i g t a u f d e r l i n k e n S e i t e d i e s e D i c h t e f u n k t i o n . A u f d e r r e c h t e n S e i t e w i r d d i e d a r a u s a b g e l e i t e t e a p p r o x i m a t i v e V e r t e i l u n g s f u n k t i o n ˆ F ( x ) = ∫ x − ∞ ˆ f ( u ) d u g e z e i g t . D i e D i c h t e f u n k t i o n h a t i h r M a x i m u m a n d e r S t e l l e 2 8 , 4 7 5 U S - D o l l a r . I n d i e s e m B e r e i c h w e i s t d i e V e r t e i l u n g s f u n k t i o n d i e h ö c h s t e S t e i g u n g a u f . A b 7 5 , 0 0 0 U S - D o l l a r fin d e n s i c h n u r n o c h r e c h t g e r i n g e D i c h t e n , e n t s p r e c h e n d v e r l ä u f t d i e V e r t e i l u n g s f u n k t i o n r e c h t s d a v o n r e l a t i v fla c h . R - 3 - 2 3 . 2 Q u a n t i l s f u n k t i o n W ä h r e n d w i r b e i d e r V e r t e i l u n g s f u n k t i o n v o n e i n e m b e s t i m m t e n x - W e r t a u s g e h e n u n d f r a g e n , w e l c h e r A n t e i l d e r D a t e n e i n e h ö c h s t e n s s o g r o ß e A u s p r ä g u n g a u f w e i s t , w i r d b e i d e r Q u a n t i l s f u n k t i o n d i e B l i c k r i c h t u n g u m g e d r e h t . W i r g e h e n v o n e i n e m A n t e i l s w e r t p a u s , d e r z w i s c h e n 0 u n d 1 l i e g t , u n d f r a g e n : w e l c h e s i s t d e r k l e i n s t e x - W e r t f ü r d e n d i e V e r t e i l u n g s f u n k t i o n m i n d e s t e n s d e n 3 3.3 Maßzahlen 53 verwendet. Hier ist darauf zu achten, dass Vervielfachungskoeffizienten als x -Werte in die Rechenvorschrift eingehen müssen. Nehmen wir an, eine Bankeinlage verzinst sich drei Jahre lang mit 1 % und zwei Jahre lang mit 3 %. Dann zeigt ¯ x G = (1 . 01 · 1 . 01 · 1 . 01 · 1 . 03 · 1 . 03) 15 = 1 . 01 35 · 1 . 03 25 = 1 . 018 , dass die Verzinsung im Mittel über die 5 Jahre 1 . 8 % beträgt. 3.3.2 Streuungsmaße Streuungsmaße sollen darüber Auskunft geben, in welchem Ausmaß sich die Werte einer Variablen unterscheiden, bzw. von einem Mittelwert der Variablen abweichen. Quartilsabstand Als Streuungsmaß zum Zentralwert (Median) wird üblicherweise der Quartilsabstand QA verwendet, der die Differenz zwischen dem 0 . 75 -Quantil (3. Quartil) und dem 0 . 25 -Quantil (1. Quartil) angibt. In unserem Zahlenbeispiel findet man für die acht x i -Werte: QA = 4 − 2 = 2. Für die n = 1 , 238 Einkommenswerte im ALLBUS- File (West) findet man QA = 2 , 875 − 1 , 313 = 1 , 562 Euro . D.h. in einem Einkommensintervall der Breite 1 , 562 Euro befinden sich die mittleren 50 % der Einkommenswerte. R-3-6 Mittlere absolute Abweichung Die mittlere absolute Abweichung wird durch MA = 1 n n ∑ i =1 | x i − ¯ x | definiert. Bei dieser Definition werden die Abweichungen vom arithmetischen Mittel verwendet. Stattdessen können auch Abweichungen vom Zentralwert (Median) verwendet werden. Für unser Zahlenbeispiel mit dem Zentralwert 4 findet man dann: MA = 2 . 75. R-3-7 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 53 03.09.2019 13: 55: 30 <?page no="54"?> 54 3 Charakterisierungen von Häufigkeitsverteilungen Varianz und Standardabweichung Die zwei gebräuchlichsten Streuungsmaße sind die Standardabweichung und deren Quadrat, die Varianz . Die Varianz ist der Mittelwert der quadrierten Abweichungen der x i -Werte vom arithmetischen Mittel σ 2 = 1 n n ∑ i =1 ( x i − ¯ x ) 2 = J ∑ j =1 (˜ x j − ¯ x ) 2 f j . Wird die Variable X additiv um eine Konstante verändert, bleibt ihre Varianz unverändert 1 n n ∑ i =1 (( x i + a ) − (¯ x + a )) 2 = σ 2 . Wird die Variablen X mit einer Konstanten multipliziert, verändert sich die Varianz um den quadrierten Wert der Konstanten 1 n n ∑ i =1 ( ax i − a ¯ x ) 2 = a 2 σ 2 . Die folgende Umformung (der sog. Verschiebungssatz ) ist für die Berechnung hilfreich σ 2 = 1 n n ∑ i =1 x 2 i − ¯ x 2 Für unser Zahlenbeispiel mit ¯ x = 5 finden wir σ 2 = 362 8 − 25 = 45 . 25 − 25 = 20 . 25 . Die Standardabweichung ist die Quadratwurzel der Varianz σ = √ σ 2 . Für das Zahlenbeispiel finden wir σ = √ 20 . 25 = 4 . 5. Für die n = 1 , 238 Einkommenswerte im ALLBUS-File (West) findet man die Standardabweichung σ = 1 , 462 . 06 Euro. R-3-8 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 54 03.09.2019 13: 55: 30 <?page no="55"?> 3.2 Quantilsfunktion 43 0.0 0.1 0.2 0.3 ˜ x Pr[X](˜ x) 1 4 7 16 (a) Relative Häufigkeiten 0 5 10 15 0.0 0.4 0.8 ˜ x Pr[X](˜ x) (b) Verteilungsfunktion Abbildung 3.1: Relative Häufigkeiten und Verteilungsfunktion für das Zahlenbeispiel. Beschreibung der Lohnverteilung verwenden wir eine Dichtefunktion ˆ f ( x ), die mit der Methode der Kerndichteschätzung (hier mit einem Normalkern und einer automatisch gewählten Bandweite nach der Regel von Silverman) ermittelt wird. Die Graphik 3.2 zeigt auf der linken Seite diese Dichtefunktion. Auf der rechten Seite wird die daraus abgeleitete approximative Verteilungsfunktion ˆ F ( x ) = ∫ x −∞ ˆ f ( u ) d u gezeigt. Die Dichtefunktion hat ihr Maximum an der Stelle 28 , 475 US-Dollar. In diesem Bereich weist die Verteilungsfunktion die höchste Steigung auf. Ab 75 , 000 US-Dollar finden sich nur noch recht geringe Dichten, entsprechend verläuft die Verteilungsfunktion rechts davon relativ flach. R-3-2 3.2 Quantilsfunktion Während wir bei der Verteilungsfunktion von einem bestimmten x - Wert ausgehen und fragen, welcher Anteil der Daten eine höchstens so große Ausprägung aufweist, wird bei der Quantilsfunktion die Blickrichtung umgedreht. Wir gehen von einem Anteilswert p aus, der zwischen 0 und 1 liegt, und fragen: welches ist der kleinste x -Wert für den die Verteilungsfunktion mindestens den 3 3 3.3 Maßzahlen 55 -3 -2 -1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 x Dichte Abbildung 3.4: Veranschaulichung der Standardabweichung bei der Standardnormalverteilung Der deskriptive Gehalt der Standardabweichung ist gering. Eine besondere Bedeutung hat die Standardabweichung bei symmetrischen Verteilungen, insbesondere bei der Normalverteilung. In Abbildung 3.4 ist die Standardnormalverteilung dargestellt. Der zentrale Bereich der Verteilung (grau hevorgehoben) mit einer Breite von zwei Standardabweichungen hat eine Fläche von 68.27 %. 3.3.3 Schiefe- und Wölbungsmaße Schiefemaße und Wölbungsmaße sollen neben den Lage- und Streuungsmaßen in komprimierter Weise Auskunft über die Gestalt der Häufigkeitsverteilung geben. Je stärker eine Verteilung von einer symmetrischen Verteilung abweicht, desto deutlicher sollte sich dies in den Schiefemaßen widerspiegeln. Wölbungsmaße sollen darüber Auskunft geben, ob eine Verteilung eher flach ( platykurtisch ) oder eher steil aufgewölbt ist (leptokurtisch). Die gebräuchlichen Schiefe- und Wölbungsmaße beruhen auf Zentralmomenten. Das k -te Zentralmoment µ k = 1 n n ∑ i =1 ( x i − ¯ x ) k 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 55 03.09.2019 13: 55: 31 <?page no="56"?> 56 3 Charakterisierungen von Häufigkeitsverteilungen ist definiert als Mittelwert der zur k -ten Potenz erhobenen Abweichungen vom Mittelwert. Mit der Varianz ( σ 2 ) haben wir das zweite Zentralmoment bereits kennengelernt, d.h. σ 2 = µ 2 . Als Schiefemaß zum arithmetischen Mittel wird oft das Verhältnis von drittem Zentralmoment zur Standardabweichung in der dritten Potenz verwendet (skewness). Beim Zentralmoment bleibt durch Bildung der dritten Potenz zum einen das Vorzeichen der Abweichungen erhalten, zum anderen erhalten wenige große Abweichungen gegenüber vielen kleinen ein höheres Gewicht. Dies führt dazu, dass bei einer linkssteilen bzw. rechtsflachen Verteilung auch rechtsschiefe Verteilung genannt die positiven Summanden überwiegen und entsprechend ein positiver Wert des Schiefemaßes resultiert. Weil das dritte Zentralmoment ins Verhältnis zur dritten Potenz der Standardabweichung gesetzt wird, erfolgt eine Relativierung der Schiefe bezüglich der Streuung der Variable X . Somit ist die Maßzahl streuungsunabhängig und dadurch leichter zu interpretieren. Das Schiefemaß lässt sich folgendermaßen berechnen µ 3 σ 3 = 1 n n ∑ i =1 ( x i − ¯ x σ ) 3 = 1 n n ∑ i =1 ( x i − ¯ x ) 3 (√ 1 n n ∑ i =1 ( x i − ¯ x ) 2 ) 3 . Für unser kleines Zahlenbeispiel mit 8 Werten und ¯ x = 5 finden wir für das dritte Zentralmoment µ 3 µ 3 = 1 8 ( (1 − 5) 3 + (2 − 5) 3 + (2 − 5) 3 + (4 − 5) 3 +(4 − 5) 3 + (4 − 5) 3 + (7 − 5) 3 + (16 − 5) 3 ) = 1 , 218 8 = 152 . 25 . Und damit unter Verwendung der bereits berechneten Standardabweichung ( σ = 4 . 5) µ 3 σ 3 = 152 . 25 4 . 5 3 = 152 . 25 91 . 125 = 1 . 6708 . Für unsere n = 1 , 238 Einkommenswerte finden wir µ 3 / σ 3 = 2 . 65 Euro. Da das Schiefemaß in beiden Fällen positiv ist, deutet dies jeweils auf eine rechtsschiefe Verteilung hin. Offenkundig liegen rechts vom arithmetischen Mittel besonders große Abweichungen. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 56 03.09.2019 13: 55: 31 <?page no="57"?> 3.2 Quantilsfunktion 43 0.0 0.1 0.2 0.3 ˜ x Pr[X](˜ x) 1 4 7 16 (a) Relative Häufigkeiten 0 5 10 15 0.0 0.4 0.8 ˜ x Pr[X](˜ x) (b) Verteilungsfunktion Abbildung 3.1: Relative Häufigkeiten und Verteilungsfunktion für das Zahlenbeispiel. Beschreibung der Lohnverteilung verwenden wir eine Dichtefunktion ˆ f ( x ), die mit der Methode der Kerndichteschätzung (hier mit einem Normalkern und einer automatisch gewählten Bandweite nach der Regel von Silverman) ermittelt wird. Die Graphik 3.2 zeigt auf der linken Seite diese Dichtefunktion. Auf der rechten Seite wird die daraus abgeleitete approximative Verteilungsfunktion ˆ F ( x ) = ∫ x −∞ ˆ f ( u ) d u gezeigt. Die Dichtefunktion hat ihr Maximum an der Stelle 28 , 475 US-Dollar. In diesem Bereich weist die Verteilungsfunktion die höchste Steigung auf. Ab 75 , 000 US-Dollar finden sich nur noch recht geringe Dichten, entsprechend verläuft die Verteilungsfunktion rechts davon relativ flach. R-3-2 3.2 Quantilsfunktion Während wir bei der Verteilungsfunktion von einem bestimmten x - Wert ausgehen und fragen, welcher Anteil der Daten eine höchstens so große Ausprägung aufweist, wird bei der Quantilsfunktion die Blickrichtung umgedreht. Wir gehen von einem Anteilswert p aus, der zwischen 0 und 1 liegt, und fragen: welches ist der kleinste x -Wert für den die Verteilungsfunktion mindestens den 3 3 3.3 Maßzahlen 57 (a) linkssteil (b) symmetrisch (c) rechtssteil Abbildung 3.5: Verteilungen: Symmetrie und Schiefe. Ein negativer Wert würde darauf hindeuten, dass links vom arithmetischen Mittel große Abweichungen liegen und es sich um eine linksschiefe Verteilung handelt. Da das Schiefemaß nicht auf einen Wertebereich normiert ist, ist eine genaue Aussage über den Grad der Schiefe schwierig. R-3-9 Auch die Abfolge der drei Lagemaße Modus ( ˜ x M ), Zentralwert ( ˜ x 0 . 5 ) und arithmetisches Mittel ( ¯ x ) gibt einen Hinweis auf die vorliegende Schiefe. Bei rechtsschiefen Verteilungen findet man üblicherweise ˜ x M < ˜ x 0 . 5 < ¯ x . Grafik 3.5 zeigt eine linkssteile (rechtsschiefe), eine symmetrische und eine rechtssteile (linksschiefe) Verteilung. Die Kurtosis µ 4 σ 4 − 3 = 1 n n ∑ i =1 ( x i − ¯ x σ ) 4 − 3 = 1 n n ∑ i =1 ( x i − ¯ x ) 4 (√ 1 n n ∑ i =1 ( x i − ¯ x ) 2 ) 4 − 3 stellt ein Maß der Wölbung der Verteilung dar, das auf dem vierten Zentralmoment beruht. Durch die vierte Potenz erhalten wenige große Abweichungen ein deutlich stärkeres Gewicht als viele kleinere Abweichungen. Entsprechend deutet eine hohe Kurtosis auf eine steil aufgewölbte Verteilung hin. Mit der Division durch die vierte Potenz der Standardabweichung erfolgt eine Bereinigung um die Streuung der X -Werte. Um die Interpretation zu erleichtern, wird in der Definition der Kurtosis die Wölbung der Verteilung mit der Wölbung der Normalverteilung verglichen. Für die Normalverteilung hat der Quotient 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 57 03.09.2019 13: 55: 32 <?page no="58"?> 58 3 Charakterisierungen von Häufigkeitsverteilungen (a) gering (b) normal (c) stark Abbildung 3.6: Verteilungen: Wölbung. µ 4 / σ 4 den Wert 3. Ein positiver Wert der Kurtosis deutet auf eine im Vergleich zur Normalverteilung steiler aufgewölbte Verteilung hin. Ist die Kurtosis positiv, heißt die Verteilung leptokurtisch , bei einer negativen Kurtosis platykurtisch und bei einer Kurtosis von (ungefähr) 0 mesokurtisch. Lediglich bei annähernd symmetrischen Verteilungen ist die Kurtosis aussagekräftig. Wir haben für unsere 8 Beispielswerte als auch für die Einkommensdaten mit Hilfe des Schiefemaßes eine Rechtsschiefe diagnostiziert. Daher sind die Ergebnisse für das Wölbungsmaß nur sehr eingeschränkt interpretierbar. Der Vollständigkeit halber präsentieren wir beide Ergebnisse des Wölbungsmaßes. Für unser kleines Zahlenbeispiel mit 8 Werten und ¯ x = 5 finden wir für das vierte Zentralmoment µ 4 = 1 8 ( (1 − 5) 4 + (2 − 5) 4 + (2 − 5) 4 + (4 − 5) 4 +(4 − 5) 4 + (4 − 5) 4 + (7 − 5) 4 + (16 − 5) 4 ) = 15 , 078 8 = 1 , 884 . 75 . Und damit finden wir unter Verwendung der bereits berechneten Standardabweichung ( σ = 4 . 5) µ 3 σ 3 − 3 = 1 , 884 . 75 4 . 5 4 − 3 = 4 . 5963 − 3 = 1 . 5963 . Grafik 3.6 zeigt eine platykurtische (gering aufgewölbte), eine mesokurtische (normal aufgewölbte) und eine leptokurtische (stark aufgewölbte) Verteilung. Für unsere n = 1 , 238 Einkommenswerte finden wir µ 4 / σ 4 − 3 = 15 . 45 Euro. R-3-10 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 58 03.09.2019 13: 55: 33 <?page no="59"?> 3.2 Quantilsfunktion 43 0.0 0.1 0.2 0.3 ˜ x Pr[X](˜ x) 1 4 7 16 (a) Relative Häufigkeiten 0 5 10 15 0.0 0.4 0.8 ˜ x Pr[X](˜ x) (b) Verteilungsfunktion Abbildung 3.1: Relative Häufigkeiten und Verteilungsfunktion für das Zahlenbeispiel. Beschreibung der Lohnverteilung verwenden wir eine Dichtefunktion ˆ f ( x ), die mit der Methode der Kerndichteschätzung (hier mit einem Normalkern und einer automatisch gewählten Bandweite nach der Regel von Silverman) ermittelt wird. Die Graphik 3.2 zeigt auf der linken Seite diese Dichtefunktion. Auf der rechten Seite wird die daraus abgeleitete approximative Verteilungsfunktion ˆ F ( x ) = ∫ x −∞ ˆ f ( u ) d u gezeigt. Die Dichtefunktion hat ihr Maximum an der Stelle 28 , 475 US-Dollar. In diesem Bereich weist die Verteilungsfunktion die höchste Steigung auf. Ab 75 , 000 US-Dollar finden sich nur noch recht geringe Dichten, entsprechend verläuft die Verteilungsfunktion rechts davon relativ flach. R-3-2 3.2 Quantilsfunktion Während wir bei der Verteilungsfunktion von einem bestimmten x - Wert ausgehen und fragen, welcher Anteil der Daten eine höchstens so große Ausprägung aufweist, wird bei der Quantilsfunktion die Blickrichtung umgedreht. Wir gehen von einem Anteilswert p aus, der zwischen 0 und 1 liegt, und fragen: welches ist der kleinste x -Wert für den die Verteilungsfunktion mindestens den 3 3 . 2 Q u a n t i l s f u n k t i o n 4 3 0 . 0 0 . 1 0 . 2 0 . 3 ˜ x P r [ X ] ( ˜ x ) 1 4 7 1 6 ( a ) R e l a t i v e H ä u fig k e i t e n 0 5 1 0 1 5 0 . 0 0 . 4 0 . 8 ˜ x P r [ X ] ( ˜ x ) ( b ) V e r t e i l u n g s f u n k t i o n A b b i l d u n g 3 . 1 : R e l a t i v e H ä u fig k e i t e n u n d V e r t e i l u n g s f u n k t i o n f ü r d a s Z a h l e n b e i s p i e l . B e s c h r e i b u n g d e r L o h n v e r t e i l u n g v e r w e n d e n w i r e i n e D i c h t e f u n k t i o n ˆ f ( x ) , d i e m i t d e r M e t h o d e d e r K e r n d i c h t e s c h ä t z u n g ( h i e r m i t e i n e m N o r m a l k e r n u n d e i n e r a u t o m a t i s c h g e w ä h l t e n B a n d w e i t e n a c h d e r R e g e l v o n S i l v e r m a n ) e r m i t t e l t w i r d . D i e G r a p h i k 3 . 2 z e i g t a u f d e r l i n k e n S e i t e d i e s e D i c h t e f u n k t i o n . A u f d e r r e c h t e n S e i t e w i r d d i e d a r a u s a b g e l e i t e t e a p p r o x i m a t i v e V e r t e i l u n g s f u n k t i o n ˆ F ( x ) = ∫ x − ∞ ˆ f ( u ) d u g e z e i g t . D i e D i c h t e f u n k t i o n h a t i h r M a x i m u m a n d e r S t e l l e 2 8 , 4 7 5 U S - D o l l a r . I n d i e s e m B e r e i c h w e i s t d i e V e r t e i l u n g s f u n k t i o n d i e h ö c h s t e S t e i g u n g a u f . A b 7 5 , 0 0 0 U S - D o l l a r fin d e n s i c h n u r n o c h r e c h t g e r i n g e D i c h t e n , e n t s p r e c h e n d v e r l ä u f t d i e V e r t e i l u n g s f u n k t i o n r e c h t s d a v o n r e l a t i v fla c h . R - 3 - 2 3 . 2 Q u a n t i l s f u n k t i o n W ä h r e n d w i r b e i d e r V e r t e i l u n g s f u n k t i o n v o n e i n e m b e s t i m m t e n x - W e r t a u s g e h e n u n d f r a g e n , w e l c h e r A n t e i l d e r D a t e n e i n e h ö c h s t e n s s o g r o ß e A u s p r ä g u n g a u f w e i s t , w i r d b e i d e r Q u a n t i l s f u n k t i o n d i e B l i c k r i c h t u n g u m g e d r e h t . W i r g e h e n v o n e i n e m A n t e i l s w e r t p a u s , d e r z w i s c h e n 0 u n d 1 l i e g t , u n d f r a g e n : w e l c h e s i s t d e r k l e i n s t e x - W e r t f ü r d e n d i e V e r t e i l u n g s f u n k t i o n m i n d e s t e n s d e n 3 3.4 Approximationen mit klassierten Daten 59 3.4 Approximationen mit klassierten Daten Liegen keine Einzeldaten vor, sondern lediglich klassierte Daten, können Maßzahlen zur Beschreibung der Häufigkeitsverteilung nur noch approximativ berechnet werden. Im Folgenden betrachten wir Approximationen für den Zentralwert, das arithmetische Mittel und die Standardabweichung. Als Beispiel betrachten wir klassierte Daten der Einkommensverteilung (in 1,000 Euro) von 540 Frauen in Westdeutschland (v.: von, b. u.: bis unter). R-3-11 Klasse v. b. u. abs. Häuf. rel. Häuf. kum.r.H. Dichte ˜ x ∗ 1 0.0 1.0 124 0.230 0.230 0.22963 ˜ x ∗ 2 1.0 1.5 136 0.252 0.481 0.50370 ˜ x ∗ 3 1.5 2.0 114 0.211 0.693 0.42222 ˜ x ∗ 4 2.0 3.0 107 0.198 0.891 0.19815 ˜ x ∗ 5 3.0 5.0 53 0.098 0.989 0.04907 ˜ x ∗ 6 5.0 9.0 6 0.011 1.000 0.00278 3.4.1 Approximation des Modus Der Modus (auch dichtester oder Modalwert genannt) ist die Merkmalsausprägung, bei der die Häufigkeitsfunktion ihr Maximum hat. Bei einem Histogramm wird allen Ausprägungen innerhalb eines Intervalls die gleiche Häufigkeit zugeordnet, so dass der Modus nicht genau bestimmt werden kann. Als pragmatische Lösung kann vereinfacht die Mitte der Klasse mit der höchsten Dichte als Approximation für den Modus verwendet werden. Zu beachten ist, dass bei Klassen unterschiedlicher Breite nicht die relativen Häufigkeiten, sondern die Dichten, d.h. die durch die Intervallbreiten dividierten Häufigkeiten zu verwenden sind. Im Beispiel der oben angegebenen klassierten Einkommensdaten mit 6 Klassen hat die Klasse ˜ x 2 die höchste Dichte (0 . 5037). Die Klassenmitte 1 . 25 (Tsd. Euro) wäre dann eine mögliche Approximation für den Modus. R-3-12 3.4.2 Approximation des Zentralwerts Ausgangspunkt ist die Bestimmung der Klasse, in der die kumulierte relative Häufigkeit den Wert 0 . 5 erreicht. In den klassierten Einkommensdaten ist dies die dritte Klasse (siehe Abbildung 3.7). 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 59 03.09.2019 13: 55: 33 <?page no="60"?> 60 3 Charakterisierungen von Häufigkeitsverteilungen Einkommen in 1,000 Euro kum. rel. Häufigk. 0 1 2 3 5 9 0 0.1 0.3 0.5 0.7 0.9 1 Abbildung 3.7: Relative Häufigkeiten der Einkommen. Um die Approximation an einer Stelle x zu berechnen, muss zunächst die Klasse bestimmt werden, in der x enthalten ist. Zur Bezeichnung der unteren und oberen Klassengrenze dieser Klasse verwenden wir x u bzw. x o . Der Wert der Verteilungsfunktion F ( x ) an der Stelle x , wobei x u ≤ x < x o ist, kann linear approximiert werden durch F ( x ) ≈ F ( x u ) + ( x − x u ) F ( x o ) − F ( x u ) x o − x u . Daraus gewinnt man: x ≈ x u + x o − x u F ( x o ) − F ( x u ) ( F ( x ) − F ( x u )) . Wählen wir als zu bestimmende Stelle den Zentralwert ˜ x 0 . 5 , dann gilt F ( x ) = F ( ˜ x 0 . 5 ) = 0 . 5. Setzen wir dies ein, erhalten wir die folgende lineare Approximation für den Zentralwert: ˜ x 0 . 5 ≈ x u + x o − x u F ( x o ) − F ( x u ) ( F (˜ x 0 . 5 ) − F ( x u )) . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 60 03.09.2019 13: 55: 33 <?page no="61"?> 3.2 Quantilsfunktion 43 0.0 0.1 0.2 0.3 ˜ x Pr[X](˜ x) 1 4 7 16 (a) Relative Häufigkeiten 0 5 10 15 0.0 0.4 0.8 ˜ x Pr[X](˜ x) (b) Verteilungsfunktion Abbildung 3.1: Relative Häufigkeiten und Verteilungsfunktion für das Zahlenbeispiel. Beschreibung der Lohnverteilung verwenden wir eine Dichtefunktion ˆ f ( x ), die mit der Methode der Kerndichteschätzung (hier mit einem Normalkern und einer automatisch gewählten Bandweite nach der Regel von Silverman) ermittelt wird. Die Graphik 3.2 zeigt auf der linken Seite diese Dichtefunktion. Auf der rechten Seite wird die daraus abgeleitete approximative Verteilungsfunktion ˆ F ( x ) = ∫ x −∞ ˆ f ( u ) d u gezeigt. Die Dichtefunktion hat ihr Maximum an der Stelle 28 , 475 US-Dollar. In diesem Bereich weist die Verteilungsfunktion die höchste Steigung auf. Ab 75 , 000 US-Dollar finden sich nur noch recht geringe Dichten, entsprechend verläuft die Verteilungsfunktion rechts davon relativ flach. R-3-2 3.2 Quantilsfunktion Während wir bei der Verteilungsfunktion von einem bestimmten x - Wert ausgehen und fragen, welcher Anteil der Daten eine höchstens so große Ausprägung aufweist, wird bei der Quantilsfunktion die Blickrichtung umgedreht. Wir gehen von einem Anteilswert p aus, der zwischen 0 und 1 liegt, und fragen: welches ist der kleinste x -Wert für den die Verteilungsfunktion mindestens den 3 3 . 2 Q u a n t i l s f u n k t i o n 4 3 0 . 0 0 . 1 0 . 2 0 . 3 ˜ x P r [ X ] ( ˜ x ) 1 4 7 1 6 ( a ) R e l a t i v e H ä u fig k e i t e n 0 5 1 0 1 5 0 . 0 0 . 4 0 . 8 ˜ x P r [ X ] ( ˜ x ) ( b ) V e r t e i l u n g s f u n k t i o n A b b i l d u n g 3 . 1 : R e l a t i v e H ä u fig k e i t e n u n d V e r t e i l u n g s f u n k t i o n f ü r d a s Z a h l e n b e i s p i e l . B e s c h r e i b u n g d e r L o h n v e r t e i l u n g v e r w e n d e n w i r e i n e D i c h t e f u n k t i o n ˆ f ( x ) , d i e m i t d e r M e t h o d e d e r K e r n d i c h t e s c h ä t z u n g ( h i e r m i t e i n e m N o r m a l k e r n u n d e i n e r a u t o m a t i s c h g e w ä h l t e n B a n d w e i t e n a c h d e r R e g e l v o n S i l v e r m a n ) e r m i t t e l t w i r d . D i e G r a p h i k 3 . 2 z e i g t a u f d e r l i n k e n S e i t e d i e s e D i c h t e f u n k t i o n . A u f d e r r e c h t e n S e i t e w i r d d i e d a r a u s a b g e l e i t e t e a p p r o x i m a t i v e V e r t e i l u n g s f u n k t i o n ˆ F ( x ) = ∫ x − ∞ ˆ f ( u ) d u g e z e i g t . D i e D i c h t e f u n k t i o n h a t i h r M a x i m u m a n d e r S t e l l e 2 8 , 4 7 5 U S - D o l l a r . I n d i e s e m B e r e i c h w e i s t d i e V e r t e i l u n g s f u n k t i o n d i e h ö c h s t e S t e i g u n g a u f . A b 7 5 , 0 0 0 U S - D o l l a r fin d e n s i c h n u r n o c h r e c h t g e r i n g e D i c h t e n , e n t s p r e c h e n d v e r l ä u f t d i e V e r t e i l u n g s f u n k t i o n r e c h t s d a v o n r e l a t i v fla c h . R - 3 - 2 3 . 2 Q u a n t i l s f u n k t i o n W ä h r e n d w i r b e i d e r V e r t e i l u n g s f u n k t i o n v o n e i n e m b e s t i m m t e n x - W e r t a u s g e h e n u n d f r a g e n , w e l c h e r A n t e i l d e r D a t e n e i n e h ö c h s t e n s s o g r o ß e A u s p r ä g u n g a u f w e i s t , w i r d b e i d e r Q u a n t i l s f u n k t i o n d i e B l i c k r i c h t u n g u m g e d r e h t . W i r g e h e n v o n e i n e m A n t e i l s w e r t p a u s , d e r z w i s c h e n 0 u n d 1 l i e g t , u n d f r a g e n : w e l c h e s i s t d e r k l e i n s t e x - W e r t f ü r d e n d i e V e r t e i l u n g s f u n k t i o n m i n d e s t e n s d e n 3 3.4 Approximationen mit klassierten Daten 61 Für das Beispiel der klassierten Einkommensdaten erhalten wir als Approximation des Zentralwerts 1 . 5 + 2 − 1 . 5 0 . 693 − 0 . 481 (0 . 5 − 0 . 481) = 1 . 544 . Mit den nicht klassierten Daten ergibt sich mit 1 . 5 Tsd. Euro ein geringfügig niedrigerer Wert. R-3-13 3.4.3 Approximation des arithmetischen Mittels Sind die einzelnen Einkommenswerte nicht bekannt, können die Klassenmitten als Approximationen für die Klassenmittelwerte angenommen werden. Der Näherungswert für das arithmetische Mittel resultiert dann aus einem gewichteten Mittelwert dieser Klassenmitten (˜ x ∗ , m j ) ¯ x ≈ J ∑ j =1 ˜ x ∗ , m j · f j . Für die Einkommen der Frauen resultiert als Näherung des arithmetischen Mittels der Wert ¯ x ≈ 0 . 5 · 0 . 23 + 1 . 25 · 0 . 252 + 1 . 75 · 0 . 211 + 2 . 5 · 0 . 198 + 4 · 0 . 098 + 7 · 0 . 011 = 1 . 765 . Mit den nicht klassierten Daten ergibt sich mit 1 . 686 Tsd. Euro ein etwas geringerer Wert. 1 R-3-14 3.4.4 Approximation der Standardabweichung Für eine Approximation der Standardabweichung kann ebenfalls mit der Annahme gearbeitet werden, dass alle Werte einer Klasse der Klassenmitte entsprechen. Die Streuung in den Klassen ist dann 1 Wenn die exakten Klassenmittel bekannt sind, ist die exakte Berechnung auch ausgehend von klassierten Daten möglich: ¯ x = J ∑ j =1 ¯ x j · f j . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 61 03.09.2019 13: 55: 34 <?page no="62"?> 62 3 Charakterisierungen von Häufigkeitsverteilungen 0, und es wird lediglich die Streuung zwischen den Klassen, d.h. die Streuung der Klassenmitten um das approximative Gesamtmittel ¯ x ∗ , berücksichtigt. Für die Einkommen der Frauen resultiert folgende Approximation (in Tsd. Euro): σ ≈ (0 . 5 − 1 . 765) 2 · 0 . 23 + (1 . 25 − 1 . 765) 2 · 0 . 252 + (1 . 75 − 1 . 765) 2 · 0 . 211 + (2 . 5 − 1 . 765) 2 · 0 . 198 + (4 − 1 . 765) 2 · 0 . 098 + (7 − 1 . 765) 2 · 0 . 011 = 1 . 156 . Obwohl die Streuung in den Klassen unberücksichtigt bleibt, wird die Standardabweichung leicht überschätzt ( σ = 0 . 986). Dies liegt daran, dass tatsächlich die individuellen Werte etwas näher an den dem arithmetischen Mittel näherliegenden Klassengrenzen liegen. R-3-15 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 62 03.09.2019 13: 55: 34 <?page no="63"?> 3.2 Quantilsfunktion 43 0.0 0.1 0.2 0.3 ˜ x Pr[X](˜ x) 1 4 7 16 (a) Relative Häufigkeiten 0 5 10 15 0.0 0.4 0.8 ˜ x Pr[X](˜ x) (b) Verteilungsfunktion Abbildung 3.1: Relative Häufigkeiten und Verteilungsfunktion für das Zahlenbeispiel. Beschreibung der Lohnverteilung verwenden wir eine Dichtefunktion ˆ f ( x ), die mit der Methode der Kerndichteschätzung (hier mit einem Normalkern und einer automatisch gewählten Bandweite nach der Regel von Silverman) ermittelt wird. Die Graphik 3.2 zeigt auf der linken Seite diese Dichtefunktion. Auf der rechten Seite wird die daraus abgeleitete approximative Verteilungsfunktion ˆ F ( x ) = ∫ x −∞ ˆ f ( u ) d u gezeigt. Die Dichtefunktion hat ihr Maximum an der Stelle 28 , 475 US-Dollar. In diesem Bereich weist die Verteilungsfunktion die höchste Steigung auf. Ab 75 , 000 US-Dollar finden sich nur noch recht geringe Dichten, entsprechend verläuft die Verteilungsfunktion rechts davon relativ flach. R-3-2 3.2 Quantilsfunktion Während wir bei der Verteilungsfunktion von einem bestimmten x - Wert ausgehen und fragen, welcher Anteil der Daten eine höchstens so große Ausprägung aufweist, wird bei der Quantilsfunktion die Blickrichtung umgedreht. Wir gehen von einem Anteilswert p aus, der zwischen 0 und 1 liegt, und fragen: welches ist der kleinste x -Wert für den die Verteilungsfunktion mindestens den 3 3 . 2 Q u a n t i l s f u n k t i o n 4 3 0 . 0 0 . 1 0 . 2 0 . 3 ˜ x P r [ X ] ( ˜ x ) 1 4 7 1 6 ( a ) R e l a t i v e H ä u fig k e i t e n 0 5 1 0 1 5 0 . 0 0 . 4 0 . 8 ˜ x P r [ X ] ( ˜ x ) ( b ) V e r t e i l u n g s f u n k t i o n A b b i l d u n g 3 . 1 : R e l a t i v e H ä u fig k e i t e n u n d V e r t e i l u n g s f u n k t i o n f ü r d a s Z a h l e n b e i s p i e l . B e s c h r e i b u n g d e r L o h n v e r t e i l u n g v e r w e n d e n w i r e i n e D i c h t e f u n k t i o n ˆ f ( x ) , d i e m i t d e r M e t h o d e d e r K e r n d i c h t e s c h ä t z u n g ( h i e r m i t e i n e m N o r m a l k e r n u n d e i n e r a u t o m a t i s c h g e w ä h l t e n B a n d w e i t e n a c h d e r R e g e l v o n S i l v e r m a n ) e r m i t t e l t w i r d . D i e G r a p h i k 3 . 2 z e i g t a u f d e r l i n k e n S e i t e d i e s e D i c h t e f u n k t i o n . A u f d e r r e c h t e n S e i t e w i r d d i e d a r a u s a b g e l e i t e t e a p p r o x i m a t i v e V e r t e i l u n g s f u n k t i o n ˆ F ( x ) = ∫ x − ∞ ˆ f ( u ) d u g e z e i g t . D i e D i c h t e f u n k t i o n h a t i h r M a x i m u m a n d e r S t e l l e 2 8 , 4 7 5 U S - D o l l a r . I n d i e s e m B e r e i c h w e i s t d i e V e r t e i l u n g s f u n k t i o n d i e h ö c h s t e S t e i g u n g a u f . A b 7 5 , 0 0 0 U S - D o l l a r fin d e n s i c h n u r n o c h r e c h t g e r i n g e D i c h t e n , e n t s p r e c h e n d v e r l ä u f t d i e V e r t e i l u n g s f u n k t i o n r e c h t s d a v o n r e l a t i v fla c h . R - 3 - 2 3 . 2 Q u a n t i l s f u n k t i o n W ä h r e n d w i r b e i d e r V e r t e i l u n g s f u n k t i o n v o n e i n e m b e s t i m m t e n x - W e r t a u s g e h e n u n d f r a g e n , w e l c h e r A n t e i l d e r D a t e n e i n e h ö c h s t e n s s o g r o ß e A u s p r ä g u n g a u f w e i s t , w i r d b e i d e r Q u a n t i l s f u n k t i o n d i e B l i c k r i c h t u n g u m g e d r e h t . W i r g e h e n v o n e i n e m A n t e i l s w e r t p a u s , d e r z w i s c h e n 0 u n d 1 l i e g t , u n d f r a g e n : w e l c h e s i s t d e r k l e i n s t e x - W e r t f ü r d e n d i e V e r t e i l u n g s f u n k t i o n m i n d e s t e n s d e n 3 3.5 Aufgaben 63 3.5 Aufgaben 1. Berechnen Sie für die Werte x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 1 3 3 3 4 4 5 7 folgende Maßzahlen: a) Modus (dichtester Wert), b) Zentralwert, c) arithmetisches Mittel, in ungewichteter und gewichteter Form, d) harmonisches Mittel, in ungewichteter und gewichteter Form, e) geometrisches Mittel, in ungewichteter und gewichteter Form, f) Varianz, in ungewichteter und gewichteter Form, g) Standardabweichung, h) mittlere absolute Abweichung vom arithm. Mittel, i) Schiefe, j) Wölbung. k) Wie vermuten Sie, würden sich die von Ihnen berechneten Maßzahlen verändern, wenn x 8 den Wert 27 hätte? 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 63 03.09.2019 13: 55: 34 <?page no="64"?> 64 3 Charakterisierungen von Häufigkeitsverteilungen 2. Sie sind leidenschaftliche(r) Jogger(in) und stellen ein paar Berechnungen an: a) Nach einer halben Stunde mit einer Geschwindigkeit von 9 km/ h haben Sie die letzten 20 Minuten Ihre Geschwindigkeit auf 12 km/ h erhöht. Wie schnell sind Sie im Durchschnitt gelaufen? b) Eine andere Joggingstrecke schließt in dem mittleren Abschnitt recht hügeliges Gelände ein. Daher sind Sie die ersten 3 und die letzten 2 Kilometer mit einer Geschwindigkeit von 11 km/ h gelaufen, auf den mittleren 5 Kilometern jedoch nur 9 km/ h. Wie schnell sind Sie im Mittel gelaufen? c) Dank des kontinuierlichen Trainings haben Sie die für Ihre Joggingstrecke benötigte Zeit in den letzten drei Jahren um 12 %, 9 % und 4 % senken können. Wie hoch war Ihre mittlere jährliche prozentuale Verbesserung? 3. Die folgende Tabelle enthält die Häufigkeiten der ALLBUS- Einkommen (West) für 12 Einkommensklassen unterschiedlicher Klassenbreite (v.: von, b. u.: bis unter). Klasse v. b. u. rel. Häuf. Klasse v. b. u. rel. Häuf. ˜ x ∗ 1 0.0 0.5 0.018 ˜ x ∗ 7 3.0 4.0 0.132 ˜ x ∗ 2 0.5 1.0 0.115 ˜ x ∗ 8 4.0 5.0 0.047 ˜ x ∗ 3 1.0 1.5 0.148 ˜ x ∗ 9 5.0 7.0 0.040 ˜ x ∗ 4 1.5 2.0 0.184 ˜ x ∗ 10 7.0 10.0 0.011 ˜ x ∗ 5 2.0 2.5 0.183 ˜ x ∗ 11 10.0 15.0 0.002 ˜ x ∗ 6 2.5 3.0 0.119 ˜ x ∗ 12 15.0 20.0 0.001 a) Ermitteln Sie für die Einkommensklassen die kumulierten relativen Häufigkeiten. b) Bestimmen Sie die modale Klasse und einen Näherungswert für den Modus (dichtesten Wert). c) Bestimmen Sie die Einfallsklasse des Zentralwertes ( ˜ x 0 . 5 ) und einen Näherungswert für den Zentralwert. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 64 03.09.2019 13: 55: 34 <?page no="65"?> 3.2 Quantilsfunktion 43 0.0 0.1 0.2 0.3 ˜ x Pr[X](˜ x) 1 4 7 16 (a) Relative Häufigkeiten 0 5 10 15 0.0 0.4 0.8 ˜ x Pr[X](˜ x) (b) Verteilungsfunktion Abbildung 3.1: Relative Häufigkeiten und Verteilungsfunktion für das Zahlenbeispiel. Beschreibung der Lohnverteilung verwenden wir eine Dichtefunktion ˆ f ( x ), die mit der Methode der Kerndichteschätzung (hier mit einem Normalkern und einer automatisch gewählten Bandweite nach der Regel von Silverman) ermittelt wird. Die Graphik 3.2 zeigt auf der linken Seite diese Dichtefunktion. Auf der rechten Seite wird die daraus abgeleitete approximative Verteilungsfunktion ˆ F ( x ) = ∫ x −∞ ˆ f ( u ) d u gezeigt. Die Dichtefunktion hat ihr Maximum an der Stelle 28 , 475 US-Dollar. In diesem Bereich weist die Verteilungsfunktion die höchste Steigung auf. Ab 75 , 000 US-Dollar finden sich nur noch recht geringe Dichten, entsprechend verläuft die Verteilungsfunktion rechts davon relativ flach. R-3-2 3.2 Quantilsfunktion Während wir bei der Verteilungsfunktion von einem bestimmten x - Wert ausgehen und fragen, welcher Anteil der Daten eine höchstens so große Ausprägung aufweist, wird bei der Quantilsfunktion die Blickrichtung umgedreht. Wir gehen von einem Anteilswert p aus, der zwischen 0 und 1 liegt, und fragen: welches ist der kleinste x -Wert für den die Verteilungsfunktion mindestens den 3 3 . 2 Q u a n t i l s f u n k t i o n 4 3 0 . 0 0 . 1 0 . 2 0 . 3 ˜ x P r [ X ] ( ˜ x ) 1 4 7 1 6 ( a ) R e l a t i v e H ä u fig k e i t e n 0 5 1 0 1 5 0 . 0 0 . 4 0 . 8 ˜ x P r [ X ] ( ˜ x ) ( b ) V e r t e i l u n g s f u n k t i o n A b b i l d u n g 3 . 1 : R e l a t i v e H ä u fig k e i t e n u n d V e r t e i l u n g s f u n k t i o n f ü r d a s Z a h l e n b e i s p i e l . B e s c h r e i b u n g d e r L o h n v e r t e i l u n g v e r w e n d e n w i r e i n e D i c h t e f u n k t i o n ˆ f ( x ) , d i e m i t d e r M e t h o d e d e r K e r n d i c h t e s c h ä t z u n g ( h i e r m i t e i n e m N o r m a l k e r n u n d e i n e r a u t o m a t i s c h g e w ä h l t e n B a n d w e i t e n a c h d e r R e g e l v o n S i l v e r m a n ) e r m i t t e l t w i r d . D i e G r a p h i k 3 . 2 z e i g t a u f d e r l i n k e n S e i t e d i e s e D i c h t e f u n k t i o n . A u f d e r r e c h t e n S e i t e w i r d d i e d a r a u s a b g e l e i t e t e a p p r o x i m a t i v e V e r t e i l u n g s f u n k t i o n ˆ F ( x ) = ∫ x − ∞ ˆ f ( u ) d u g e z e i g t . D i e D i c h t e f u n k t i o n h a t i h r M a x i m u m a n d e r S t e l l e 2 8 , 4 7 5 U S - D o l l a r . I n d i e s e m B e r e i c h w e i s t d i e V e r t e i l u n g s f u n k t i o n d i e h ö c h s t e S t e i g u n g a u f . A b 7 5 , 0 0 0 U S - D o l l a r fin d e n s i c h n u r n o c h r e c h t g e r i n g e D i c h t e n , e n t s p r e c h e n d v e r l ä u f t d i e V e r t e i l u n g s f u n k t i o n r e c h t s d a v o n r e l a t i v fla c h . R - 3 - 2 3 . 2 Q u a n t i l s f u n k t i o n W ä h r e n d w i r b e i d e r V e r t e i l u n g s f u n k t i o n v o n e i n e m b e s t i m m t e n x - W e r t a u s g e h e n u n d f r a g e n , w e l c h e r A n t e i l d e r D a t e n e i n e h ö c h s t e n s s o g r o ß e A u s p r ä g u n g a u f w e i s t , w i r d b e i d e r Q u a n t i l s f u n k t i o n d i e B l i c k r i c h t u n g u m g e d r e h t . W i r g e h e n v o n e i n e m A n t e i l s w e r t p a u s , d e r z w i s c h e n 0 u n d 1 l i e g t , u n d f r a g e n : w e l c h e s i s t d e r k l e i n s t e x - W e r t f ü r d e n d i e V e r t e i l u n g s f u n k t i o n m i n d e s t e n s d e n 3 3.5 Aufgaben 65 d) Bestimmen Sie einen Näherungswert für das arithmetische Mittel. e) Vergleichen Sie die Lage dieser drei Mittelwerte. Weist die Lage der Mittelwerte auf eine links- oder rechtsschiefe Verteilung hin? f) Ermitteln Sie näherungsweise den totalen Quartilsabstand. g) Ermitteln Sie näherungsweise die Standardabweichung. h) Dürften Sie mit Ihrer Schätzung die wahre Standardabweichung über- oder unterschätzt haben? Tatsächlich wird die Standardabweichung ausgehend von den klassierten Daten leicht überschätzt. Haben Sie dafür eine Erklärung? 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 65 03.09.2019 13: 55: 35 <?page no="66"?> 66 3 Charakterisierungen von Häufigkeitsverteilungen 3.6 R-Code R-3-1 # Vektor x mit Merkmalswerten erstellen x <c(1,2,2,4,4,4,7,16) n.x <length(x) # relative Häufigkeiten f.x <table(x) / n.x f.x plot(f.x) # Verteilungsfunktion F.x <cumsum(x = f.x) F.x Fun.x <ecdf(x = x) plot(Fun.x) R-3-2 ## Daten einlesen (West) d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) d <d[d$ostwest==0,] ## Nur Einkommen < 10000 Euro in Tsd. Euro w <sort(d$einkommen[d$einkommen < 10000] / 1000) # relative Häufigkeiten (Darstellung über Kerndichte) dens <density(w) kdens <cumsum(dens$y)/ sum(dens$y) plot(dens, xlab = "Einkommen in 1000 Euro", ylab = "Dichte") # Verteilungsfunktion plot(dens$x,kdens, xlab = "Einkommen in 1000 Euro", ylab = "F(x)", type = "l") R-3-3 ## Quantilsfunktion Zahlenbeispiel # ma: Vektor der sortierten Merkmalsausprägungen ma.x <as.numeric(names(f.x)) Q.x <stepfun(x = Fun.x(ma.x), y = c(ma.x,20), right = TRUE) plot(Q.x, bty = "l", xlim = c(0,1), ylim = c(0,16.5), xlab = "p", ylab = "Q(p)", verticals = FALSE) ## Quantilsfunktion der Einkommen plot(kdens,dens$x, main="", bty="l", xlim = c(0,1), ylim = c(0,10), xlab = "p", ylab = "Q(p)", type="l") 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 66 03.09.2019 13: 55: 35 <?page no="67"?> 3.2 Quantilsfunktion 43 0.0 0.1 0.2 0.3 ˜ x Pr[X](˜ x) 1 4 7 16 (a) Relative Häufigkeiten 0 5 10 15 0.0 0.4 0.8 ˜ x Pr[X](˜ x) (b) Verteilungsfunktion Abbildung 3.1: Relative Häufigkeiten und Verteilungsfunktion für das Zahlenbeispiel. Beschreibung der Lohnverteilung verwenden wir eine Dichtefunktion ˆ f ( x ), die mit der Methode der Kerndichteschätzung (hier mit einem Normalkern und einer automatisch gewählten Bandweite nach der Regel von Silverman) ermittelt wird. Die Graphik 3.2 zeigt auf der linken Seite diese Dichtefunktion. Auf der rechten Seite wird die daraus abgeleitete approximative Verteilungsfunktion ˆ F ( x ) = ∫ x −∞ ˆ f ( u ) d u gezeigt. Die Dichtefunktion hat ihr Maximum an der Stelle 28 , 475 US-Dollar. In diesem Bereich weist die Verteilungsfunktion die höchste Steigung auf. Ab 75 , 000 US-Dollar finden sich nur noch recht geringe Dichten, entsprechend verläuft die Verteilungsfunktion rechts davon relativ flach. R-3-2 3.2 Quantilsfunktion Während wir bei der Verteilungsfunktion von einem bestimmten x - Wert ausgehen und fragen, welcher Anteil der Daten eine höchstens so große Ausprägung aufweist, wird bei der Quantilsfunktion die Blickrichtung umgedreht. Wir gehen von einem Anteilswert p aus, der zwischen 0 und 1 liegt, und fragen: welches ist der kleinste x -Wert für den die Verteilungsfunktion mindestens den 3 3 . 2 Q u a n t i l s f u n k t i o n 4 3 0 . 0 0 . 1 0 . 2 0 . 3 ˜ x P r [ X ] ( ˜ x ) 1 4 7 1 6 ( a ) R e l a t i v e H ä u fig k e i t e n 0 5 1 0 1 5 0 . 0 0 . 4 0 . 8 ˜ x P r [ X ] ( ˜ x ) ( b ) V e r t e i l u n g s f u n k t i o n A b b i l d u n g 3 . 1 : R e l a t i v e H ä u fig k e i t e n u n d V e r t e i l u n g s f u n k t i o n f ü r d a s Z a h l e n b e i s p i e l . B e s c h r e i b u n g d e r L o h n v e r t e i l u n g v e r w e n d e n w i r e i n e D i c h t e f u n k t i o n ˆ f ( x ) , d i e m i t d e r M e t h o d e d e r K e r n d i c h t e s c h ä t z u n g ( h i e r m i t e i n e m N o r m a l k e r n u n d e i n e r a u t o m a t i s c h g e w ä h l t e n B a n d w e i t e n a c h d e r R e g e l v o n S i l v e r m a n ) e r m i t t e l t w i r d . D i e G r a p h i k 3 . 2 z e i g t a u f d e r l i n k e n S e i t e d i e s e D i c h t e f u n k t i o n . A u f d e r r e c h t e n S e i t e w i r d d i e d a r a u s a b g e l e i t e t e a p p r o x i m a t i v e V e r t e i l u n g s f u n k t i o n ˆ F ( x ) = ∫ x − ∞ ˆ f ( u ) d u g e z e i g t . D i e D i c h t e f u n k t i o n h a t i h r M a x i m u m a n d e r S t e l l e 2 8 , 4 7 5 U S - D o l l a r . I n d i e s e m B e r e i c h w e i s t d i e V e r t e i l u n g s f u n k t i o n d i e h ö c h s t e S t e i g u n g a u f . A b 7 5 , 0 0 0 U S - D o l l a r fin d e n s i c h n u r n o c h r e c h t g e r i n g e D i c h t e n , e n t s p r e c h e n d v e r l ä u f t d i e V e r t e i l u n g s f u n k t i o n r e c h t s d a v o n r e l a t i v fla c h . R - 3 - 2 3 . 2 Q u a n t i l s f u n k t i o n W ä h r e n d w i r b e i d e r V e r t e i l u n g s f u n k t i o n v o n e i n e m b e s t i m m t e n x - W e r t a u s g e h e n u n d f r a g e n , w e l c h e r A n t e i l d e r D a t e n e i n e h ö c h s t e n s s o g r o ß e A u s p r ä g u n g a u f w e i s t , w i r d b e i d e r Q u a n t i l s f u n k t i o n d i e B l i c k r i c h t u n g u m g e d r e h t . W i r g e h e n v o n e i n e m A n t e i l s w e r t p a u s , d e r z w i s c h e n 0 u n d 1 l i e g t , u n d f r a g e n : w e l c h e s i s t d e r k l e i n s t e x - W e r t f ü r d e n d i e V e r t e i l u n g s f u n k t i o n m i n d e s t e n s d e n 3 3.6 R-Code 67 ## Median # durch 'type = 1' korrespondierend zur Rechenvorschrift quantile(x = w, probs = 0.5, type = 1) # mittels Index n.w <length(w) n.w np <n.w * 0.5 # Einkommen an Stelle np w[np] R-3-4 # Mittelwert aller Einkommen mean(e) # um eine Person mit einem Einkommen von 1 Mrd. erweitert mean(c(e, 10^9)) R-3-5 # Harmonisches Mittel aller Einkommen 1 / mean(1/ e) R-3-6 # Quartilsabstand Zahlenbeispiel IQR(x, type = 1) # Quartilsabstand 1238 Einkommen IQR(e, type = 1) # oder quantile(x = e, probs = 0.75, type = 1) quantile(x = e, probs = 0.25, type = 1) R-3-7 # Mittlere absolute Abweichung mean(abs(x-quantile(x = x, probs = 0.5, type = 1))) R-3-8 ## Zahlenbeispiel # empirische Varianz var.x.emp <- 1/ n.x * sum( (x mean(x))^2 ) var.x.emp # Standardabweichung sa.x.emp <sqrt(var.x.emp) sa.x.emp ## Merke: R berechnet mit der Funktion var() die Stichprobenvarianz var(x) # diese kann wieder in die empirische Varianz umgerechnet werden (n.x-1)/ n.x * var(x) # analog die Standardabweichung sqrt((n.x-1)/ n.x) * sd(x) 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 67 03.09.2019 13: 55: 35 <?page no="68"?> 68 3 Charakterisierungen von Häufigkeitsverteilungen ## Empirische Varianz und Standardabweichung der Einkommen n.e <length(e) var.e.emp <- (n.e-1)/ n.e * var(e); var.e.emp sa.e.emp <sqrt(var.e.emp); sa.e.emp R-3-9 ## Schiefe # Zahlenbeispiel (1/ n.x * sum( (x-mean(x))^3 )) / sqrt( 1/ n.x * sum( (x mean(x))^2 ))^3 # Einkommen (1/ n.e * sum( (e-mean(e))^3 )) / sqrt( 1/ n.e * sum( (e mean(e))^2 ))^3 R-3-10 ## Kurtosis # Zahlenbeispiel (1/ n.x * sum( (x-mean(x))^4 )) / sqrt( 1/ n.x * sum( (x mean(x))^2 ))^4 - 3 # Einkommen (1/ n.e * sum( (e-mean(e))^4 )) / sqrt( 1/ n.e * sum( (e mean(e))^2 ))^4 - 3 R-3-11 # Einkommen von Frauen in Tsd. Euro ef <d$einkommen[d$geschlecht == 1] / 1000 # Einkommen sortieren und Objekt ef überschreiben ef <sort(ef, decreasing = FALSE) # Anzahl an Einkommenn n.ef <length(ef) # Klassengrenzen hist(ef) breaks <c(0,1,1.5,2,3,5,9) # Anzahl an Grenzen b <length(breaks) # Beobachtungen (Einkommen) in Klassen einteilen lc <cut(x = ef, breaks = breaks, right = FALSE) # Klassenuntergrenzen cu <breaks[-b] # Klassenobergrenzen co <breaks[-1] # absolute Klassenhäufigkeiten nj <table(lc); nj # relative Klassenhäufigkeiten fj <table(lc) / n.ef; fj 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 68 03.09.2019 13: 55: 36 <?page no="69"?> 3.2 Quantilsfunktion 43 0.0 0.1 0.2 0.3 ˜ x Pr[X](˜ x) 1 4 7 16 (a) Relative Häufigkeiten 0 5 10 15 0.0 0.4 0.8 ˜ x Pr[X](˜ x) (b) Verteilungsfunktion Abbildung 3.1: Relative Häufigkeiten und Verteilungsfunktion für das Zahlenbeispiel. Beschreibung der Lohnverteilung verwenden wir eine Dichtefunktion ˆ f ( x ), die mit der Methode der Kerndichteschätzung (hier mit einem Normalkern und einer automatisch gewählten Bandweite nach der Regel von Silverman) ermittelt wird. Die Graphik 3.2 zeigt auf der linken Seite diese Dichtefunktion. Auf der rechten Seite wird die daraus abgeleitete approximative Verteilungsfunktion ˆ F ( x ) = ∫ x −∞ ˆ f ( u ) d u gezeigt. Die Dichtefunktion hat ihr Maximum an der Stelle 28 , 475 US-Dollar. In diesem Bereich weist die Verteilungsfunktion die höchste Steigung auf. Ab 75 , 000 US-Dollar finden sich nur noch recht geringe Dichten, entsprechend verläuft die Verteilungsfunktion rechts davon relativ flach. R-3-2 3.2 Quantilsfunktion Während wir bei der Verteilungsfunktion von einem bestimmten x - Wert ausgehen und fragen, welcher Anteil der Daten eine höchstens so große Ausprägung aufweist, wird bei der Quantilsfunktion die Blickrichtung umgedreht. Wir gehen von einem Anteilswert p aus, der zwischen 0 und 1 liegt, und fragen: welches ist der kleinste x -Wert für den die Verteilungsfunktion mindestens den 3 3 . 2 Q u a n t i l s f u n k t i o n 4 3 0 . 0 0 . 1 0 . 2 0 . 3 ˜ x P r [ X ] ( ˜ x ) 1 4 7 1 6 ( a ) R e l a t i v e H ä u fig k e i t e n 0 5 1 0 1 5 0 . 0 0 . 4 0 . 8 ˜ x P r [ X ] ( ˜ x ) ( b ) V e r t e i l u n g s f u n k t i o n A b b i l d u n g 3 . 1 : R e l a t i v e H ä u fig k e i t e n u n d V e r t e i l u n g s f u n k t i o n f ü r d a s Z a h l e n b e i s p i e l . B e s c h r e i b u n g d e r L o h n v e r t e i l u n g v e r w e n d e n w i r e i n e D i c h t e f u n k t i o n ˆ f ( x ) , d i e m i t d e r M e t h o d e d e r K e r n d i c h t e s c h ä t z u n g ( h i e r m i t e i n e m N o r m a l k e r n u n d e i n e r a u t o m a t i s c h g e w ä h l t e n B a n d w e i t e n a c h d e r R e g e l v o n S i l v e r m a n ) e r m i t t e l t w i r d . D i e G r a p h i k 3 . 2 z e i g t a u f d e r l i n k e n S e i t e d i e s e D i c h t e f u n k t i o n . A u f d e r r e c h t e n S e i t e w i r d d i e d a r a u s a b g e l e i t e t e a p p r o x i m a t i v e V e r t e i l u n g s f u n k t i o n ˆ F ( x ) = ∫ x − ∞ ˆ f ( u ) d u g e z e i g t . D i e D i c h t e f u n k t i o n h a t i h r M a x i m u m a n d e r S t e l l e 2 8 , 4 7 5 U S - D o l l a r . I n d i e s e m B e r e i c h w e i s t d i e V e r t e i l u n g s f u n k t i o n d i e h ö c h s t e S t e i g u n g a u f . A b 7 5 , 0 0 0 U S - D o l l a r fin d e n s i c h n u r n o c h r e c h t g e r i n g e D i c h t e n , e n t s p r e c h e n d v e r l ä u f t d i e V e r t e i l u n g s f u n k t i o n r e c h t s d a v o n r e l a t i v fla c h . R - 3 - 2 3 . 2 Q u a n t i l s f u n k t i o n W ä h r e n d w i r b e i d e r V e r t e i l u n g s f u n k t i o n v o n e i n e m b e s t i m m t e n x - W e r t a u s g e h e n u n d f r a g e n , w e l c h e r A n t e i l d e r D a t e n e i n e h ö c h s t e n s s o g r o ß e A u s p r ä g u n g a u f w e i s t , w i r d b e i d e r Q u a n t i l s f u n k t i o n d i e B l i c k r i c h t u n g u m g e d r e h t . W i r g e h e n v o n e i n e m A n t e i l s w e r t p a u s , d e r z w i s c h e n 0 u n d 1 l i e g t , u n d f r a g e n : w e l c h e s i s t d e r k l e i n s t e x - W e r t f ü r d e n d i e V e r t e i l u n g s f u n k t i o n m i n d e s t e n s d e n 3 3.6 R-Code 69 # kum.r.H. Fj <cumsum(fj); Fj # Dichten hj <co cu dj <fj / hj; dj R-3-12 ## Approximation des Modus # Klasse mit höchster Dichte dk <which(dj == max(dj)); dk # Klassenmitte als Approximation modus <- (co[dk] + cu[dk]) / 2; modus R-3-13 ## Approximation des Zentralwerts # Abbildung plot(x = breaks, y = c(0,Fj), xlab = "Einkommen in 1000 Euro", ylab = "kum. rel. Häufigk.") lines(x = breaks, y = c(0,Fj)) # Ausgangspunkt: Klasse, in der die kum. rel. Hfg. # den Wert 0.5 erreicht k <which(Fj >= 0.5)[1]; k cu[k] + (co[k] cu[k]) / (Fj[k] - Fj[k-1]) * (0.5 - Fj[k-1]) R-3-14 # Approximation des arithmetischen Mittels mitten <- 0.5 * (cu+co); mitten # approx. Mittel x.approx <sum(mitten * fj); x.approx # mit Individualdaten mean(ef) R-3-15 # Approximation der Standardabweichung sqrt(sum((mitten-x.approx)^2 * fj)) # Standardabweichung aus unklassierten Daten sd(ef) 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 69 03.09.2019 13: 55: 36 <?page no="70"?> 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 70 03.09.2019 13: 55: 36 <?page no="71"?> 4.2 Maßzahlen der absoluten Konzentration 67 Der Anteil der Einheit r an der Merkmalssumme ∑ n k =1 x k ist h r = x r n ∑ k =1 x k = x r n ¯ x . Auch für die Merkmalsanteile h r gilt die absteigende Sortierung h 1 ≥ h 2 ≥ h 3 ≥ . . . ≥ h n ≥ 0 . Die Konzentrationsrate CR i = i ∑ r =1 h r ist nun einfach die Summe der i größten Merkmalsanteile. Hat eine Einheit die gesamte Merkmalssumme (maximale Konzentration) h 1 = 1 , h 2 = h 3 = . . . = h n = 0 finden wir CR i = 1 für alle i . Haben alle Einheiten den gleichen Merkmalswert (minimale Konzentration) h 1 = h 2 = h 3 = . . . = h n = 1 / n , finden wir CR i = i/ n. Die Konzentrationsrate liegt damit immer im Intervall [ i/ n ; 1] . Für unser Zahlenbeispiel finden wir z. B. die Konzentrationsrate CR 3 = 3 ∑ r =1 h r = 70 100 + 15 100 + 10 100 = 0 . 95 . Für die PSID-Einkommensdaten von 1 , 000 Personen finden wir CR 5 = 0 . 068. D.h. die fünf Personen mit den höchsten Einkommen haben 6 . 8 % der gesamten Einkommenssumme aller 1 , 000 Personen. R-4-1 4.2.2 Die Konzentrationskurve Die Darstellung der Wertepaare ( i, CR i ) wird als Konzentrationskurve bezeichnet. Zusätzlich zu den n Wertepaaren wird auch der Ursprung (0 , 0) betrachtet und alle Punkte werden mit einer Geraden verbunden. Der letzte Punkt ist ( n, CR n = 1). Für unser kleines Zahlenbeispiel findet man die in Abbildung 4.1 dargestellte Konzentrationskurve. R-4-2 4 4 4 Konzentrationsmessung Haben wenige Einheiten einen hohen Anteil an der gesamten Merkmalssumme, spricht man von einer hohen absoluten Konzentration. Liegt eine sehr ungleiche Verteilung vor, wird dies als relative Konzentration bezeichnet. Während bei der Betrachtung von Unternehmensumsätzen die absolute Konzentration im Vordergrund steht, liegt bei der Einkommensverteilung das Augenmerk auf der relativen Konzentration. 4.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 72 4.2 Maßzahlen der absoluten Konzentration . . . . . . . . . . 72 4.2.1 Die Konzentrationsrate . . . . . . . . . . . . . . . 72 4.2.2 Die Konzentrationskurve . . . . . . . . . . . . . . 73 4.2.3 Der Rosenbluth-Koeffizient . . . . . . . . . . . . . 74 4.2.4 Der Hirschman-Herfindahl-Koeffizient . . . . . . . . 75 4.3 Maßzahlen der relativen Konzentration . . . . . . . . . . . 76 4.3.1 Der Variationskoeffizient . . . . . . . . . . . . . . . 77 4.3.2 Die Lorenzkurve und der Gini-Koeffizient . . . . . . 77 4.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 71 03.09.2019 13: 55: 37 <?page no="72"?> 72 4 Konzentrationsmessung 4.1 Einleitung Bei der Konzentrationsmessung kann sowohl die absolute als auch die relative Konzentration betrachtet werden. Absolute Konzentration bedeutet, dass wenige Einheiten (z. B. Unternehmen) zusammen einen hohen Anteil an der Merkmalssumme aufweisen. So haben etwa in vielen Branchen wenige Unternehmen einen sehr hohen Anteil an dem Umsatz der gesamten Branche. Bei der relativen Konzentration wird die Ungleichheit der Verteilung, die Disparität, betrachtet. Die Betrachtung der amerikanischen Einkommensdaten hat gezeigt, dass eine große Ungleichheit vorliegt. Eine hohe relative Konzentration liegt vor, wenn ein geringer Anteil der Einheiten (z. B. Personen) einen hohen Anteil an der Merkmalssumme aufweist. Zu beachten ist, dass bei einer Verteilung gleichzeitig eine hohe absolute und eine niedrige relative Konzentration vorliegen kann (und umgekehrt). Die Unternehmenskonzentration wird als ein wesentliches Merkmal der Marktstruktur betrachtet und findet unter wettbewerbspolitischen Aspekten eine besondere Beachtung. Das Ausmaß der relativen Einkommenskonzentration ist insbesondere unter Verteilungsaspekten von Interesse. 4.2 Maßzahlen der absoluten Konzentration Um eine Vorstellung von der Berechnungsmethode und damit der möglichen Interpretation der ausgewiesenen Zahlen zu erhalten, betrachten wir ein fiktives Zahlenbeispiel mit nur fünf Unternehmen, die folgende Umsätze haben: x 1 = 70 , x 2 = 15 , x 3 = 10 , x 4 = 4 , x 5 = 1. Die Merkmalssumme beträgt damit 100 und der mittlere Umsatz je Unternehmen 20 . 4.2.1 Die Konzentrationsrate Die Konzentrationsrate CR ist ein einfaches und sehr anschauliches Maß der absoluten Konzentration. CR i gibt an, wie viel Prozent der gesamten Merkmalssumme die größten i Einheiten haben. Ausgangspunkt sind die absteigend sortierten Merkmalswerte x 1 ≥ x 2 ≥ x 3 ≥ . . . ≥ x n ≥ 0 . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 72 03.09.2019 13: 55: 37 <?page no="73"?> 4.2 Maßzahlen der absoluten Konzentration 67 Der Anteil der Einheit r an der Merkmalssumme ∑ n k =1 x k ist h r = x r n ∑ k =1 x k = x r n ¯ x . Auch für die Merkmalsanteile h r gilt die absteigende Sortierung h 1 ≥ h 2 ≥ h 3 ≥ . . . ≥ h n ≥ 0 . Die Konzentrationsrate CR i = i ∑ r =1 h r ist nun einfach die Summe der i größten Merkmalsanteile. Hat eine Einheit die gesamte Merkmalssumme (maximale Konzentration) h 1 = 1 , h 2 = h 3 = . . . = h n = 0 finden wir CR i = 1 für alle i . Haben alle Einheiten den gleichen Merkmalswert (minimale Konzentration) h 1 = h 2 = h 3 = . . . = h n = 1 / n , finden wir CR i = i/ n. Die Konzentrationsrate liegt damit immer im Intervall [ i/ n ; 1] . Für unser Zahlenbeispiel finden wir z. B. die Konzentrationsrate CR 3 = 3 ∑ r =1 h r = 70 100 + 15 100 + 10 100 = 0 . 95 . Für die PSID-Einkommensdaten von 1 , 000 Personen finden wir CR 5 = 0 . 068. D.h. die fünf Personen mit den höchsten Einkommen haben 6 . 8 % der gesamten Einkommenssumme aller 1 , 000 Personen. R-4-1 4.2.2 Die Konzentrationskurve Die Darstellung der Wertepaare ( i, CR i ) wird als Konzentrationskurve bezeichnet. Zusätzlich zu den n Wertepaaren wird auch der Ursprung (0 , 0) betrachtet und alle Punkte werden mit einer Geraden verbunden. Der letzte Punkt ist ( n, CR n = 1). Für unser kleines Zahlenbeispiel findet man die in Abbildung 4.1 dargestellte Konzentrationskurve. R-4-2 4 4 . 2 M a ß z a h l e n d e r a b s o l u t e n K o n z e n t r a t i o n 6 7 D e r A n t e i l d e r E i n h e i t r a n d e r M e r k m a l s s u m m e ∑ n k = 1 x k i s t h r = x r n ∑ k = 1 x k = x r n ¯ x . A u c h f ü r d i e M e r k m a l s a n t e i l e h r g i l t d i e a b s t e i g e n d e S o r t i e r u n g h 1 ≥ h 2 ≥ h 3 ≥ . . . ≥ h n ≥ 0 . D i e K o n z e n t r a t i o n s r a t e C R i = i ∑ r = 1 h r i s t n u n e i n f a c h d i e S u m m e d e r i g r ö ß t e n M e r k m a l s a n t e i l e . H a t e i n e E i n h e i t d i e g e s a m t e M e r k m a l s s u m m e ( m a x i m a l e K o n z e n t r a t i o n ) h 1 = 1 , h 2 = h 3 = . . . = h n = 0 fin d e n w i r C R i = 1 f ü r a l l e i . H a b e n a l l e E i n h e i t e n d e n g l e i c h e n M e r k m a l s w e r t ( m i n i m a l e K o n z e n t r a t i o n ) h 1 = h 2 = h 3 = . . . = h n = 1 / n , fin d e n w i r C R i = i / n . D i e K o n z e n t r a t i o n s r a t e l i e g t d a m i t i m m e r i m I n t e r v a l l [ i / n ; 1 ] . F ü r u n s e r Z a h l e n b e i s p i e l fin d e n w i r z . B . d i e K o n z e n t r a t i o n s r a t e C R 3 = 3 ∑ r = 1 h r = 7 0 1 0 0 + 1 5 1 0 0 + 1 0 1 0 0 = 0 . 9 5 . F ü r d i e P S I D - E i n k o m m e n s d a t e n v o n 1 , 0 0 0 P e r s o n e n fin d e n w i r C R 5 = 0 . 0 6 8 . D . h . d i e f ü n f P e r s o n e n m i t d e n h ö c h s t e n E i n k o m m e n h a b e n 6 . 8 % d e r g e s a m t e n E i n k o m m e n s s u m m e a l l e r 1 , 0 0 0 P e r s o n e n . R - 4 - 1 4 . 2 . 2 D i e K o n z e n t r a t i o n s k u r v e D i e D a r s t e l l u n g d e r W e r t e p a a r e ( i , C R i ) w i r d a l s K o n z e n t r a t i o n s k u r v e b e z e i c h n e t . Z u s ä t z l i c h z u d e n n W e r t e p a a r e n w i r d a u c h d e r U r s p r u n g ( 0 , 0 ) b e t r a c h t e t u n d a l l e P u n k t e w e r d e n m i t e i n e r G e r a d e n v e r b u n d e n . D e r l e t z t e P u n k t i s t ( n , C R n = 1 ) . F ü r u n s e r k l e i n e s Z a h l e n b e i s p i e l fin d e t m a n d i e i n A b b i l d u n g 4 . 1 d a r g e s t e l l t e K o n z e n t r a t i o n s k u r v e . R - 4 - 2 4 4.2 Maßzahlen der absoluten Konzentration 73 Der Anteil der Einheit r an der Merkmalssumme ∑ n k =1 x k ist h r = x r n ∑ k =1 x k = x r n ¯ x . Auch für die Merkmalsanteile h r gilt die absteigende Sortierung h 1 ≥ h 2 ≥ h 3 ≥ . . . ≥ h n ≥ 0 . Die Konzentrationsrate CR i = i ∑ r =1 h r ist nun einfach die Summe der i größten Merkmalsanteile. Hat eine Einheit die gesamte Merkmalssumme (maximale Konzentration) h 1 = 1 , h 2 = h 3 = . . . = h n = 0 finden wir CR i = 1 für alle i . Haben alle Einheiten den gleichen Merkmalswert (minimale Konzentration) h 1 = h 2 = h 3 = . . . = h n = 1 / n , finden wir CR i = i/ n. Die Konzentrationsrate liegt damit immer im Intervall [ i/ n ; 1] . Für unser Zahlenbeispiel finden wir z. B. die Konzentrationsrate CR 3 = 3 ∑ r =1 h r = 70 100 + 15 100 + 10 100 = 0 . 95 . Für die ALLBUS-Einkommensdaten von n = 1 , 238 Personen finden wir CR 5 = 0 . 021 . D.h. die fünf Personen mit den höchsten Einkommen haben 2 . 1 % der gesamten Einkommenssumme aller n = 1 , 238 Personen. R-4-1 4.2.2 Die Konzentrationskurve Die Darstellung der Wertepaare ( i, CR i ) wird als Konzentrationskurve bezeichnet. Zusätzlich zu den n Wertepaaren wird auch der Ursprung (0 , 0) betrachtet und alle Punkte werden mit einer Geraden verbunden. Der letzte Punkt ist ( n, CR n = 1). Für unser kleines Zahlenbeispiel findet man die in Abbildung 4.1 dargestellte Konzentrationskurve. R-4-2 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 73 03.09.2019 13: 55: 38 <?page no="74"?> 74 4 Konzentrationsmessung 0 1 2 3 4 5 0.0 0.2 0.4 0.6 0.8 1.0 i CR i A A 2 Abbildung 4.1: Konzentrationskurve - Zahlenbeispiel. 4.2.3 Der Rosenbluth-Koeffizient Bisher haben wir nur einzelne punktuelle Maße, d.h. die einzelnen Konzentrationsraten CR i betrachtet. Der Rosenbluth- Koeffizient (RK) knüpft an der Konzentrationskurve an und verdichtet die darin enthaltenen Informationen zu einer Maßzahl. Je weiter aufgewölbt die Konzentrationskurve ist, desto höher ist die Konzentration. Die Fläche A oberhalb der Konzentrationskurve ist damit bereits ein zusammenfassendes Maß der Konzentration, denn je kleiner die Fläche A, desto stärker ist die Konzentration. Der Rosenbluth-Koeffizient ist definiert als RK = 1 / (2 A ) . Die Fläche von A kann ausgehend von den n liegenden Trapezen A i bestimmt werden. Für ein solch liegendes Trapez finden wir die Fläche A i = h i 0 . 5 ( i + ( i − 1)) = h i 0 . 5 (2 i − 1) , da sich die Trapezfläche als Grundseite mal mittlere Höhe ergibt. Für die Fläche des Trapezes A 2 finden wir z. B. A 2 = h 2 0 . 5 (2 + (2 − 1)) = 0 . 15 · 0 . 5 (2 + (2 − 1)) = 0 . 225 . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 74 03.09.2019 13: 55: 38 <?page no="75"?> 4.2 Maßzahlen der absoluten Konzentration 67 Der Anteil der Einheit r an der Merkmalssumme ∑ n k =1 x k ist h r = x r n ∑ k =1 x k = x r n ¯ x . Auch für die Merkmalsanteile h r gilt die absteigende Sortierung h 1 ≥ h 2 ≥ h 3 ≥ . . . ≥ h n ≥ 0 . Die Konzentrationsrate CR i = i ∑ r =1 h r ist nun einfach die Summe der i größten Merkmalsanteile. Hat eine Einheit die gesamte Merkmalssumme (maximale Konzentration) h 1 = 1 , h 2 = h 3 = . . . = h n = 0 finden wir CR i = 1 für alle i . Haben alle Einheiten den gleichen Merkmalswert (minimale Konzentration) h 1 = h 2 = h 3 = . . . = h n = 1 / n , finden wir CR i = i/ n. Die Konzentrationsrate liegt damit immer im Intervall [ i/ n ; 1] . Für unser Zahlenbeispiel finden wir z. B. die Konzentrationsrate CR 3 = 3 ∑ r =1 h r = 70 100 + 15 100 + 10 100 = 0 . 95 . Für die PSID-Einkommensdaten von 1 , 000 Personen finden wir CR 5 = 0 . 068. D.h. die fünf Personen mit den höchsten Einkommen haben 6 . 8 % der gesamten Einkommenssumme aller 1 , 000 Personen. R-4-1 4.2.2 Die Konzentrationskurve Die Darstellung der Wertepaare ( i, CR i ) wird als Konzentrationskurve bezeichnet. Zusätzlich zu den n Wertepaaren wird auch der Ursprung (0 , 0) betrachtet und alle Punkte werden mit einer Geraden verbunden. Der letzte Punkt ist ( n, CR n = 1). Für unser kleines Zahlenbeispiel findet man die in Abbildung 4.1 dargestellte Konzentrationskurve. R-4-2 4 4 . 2 M a ß z a h l e n d e r a b s o l u t e n K o n z e n t r a t i o n 6 7 D e r A n t e i l d e r E i n h e i t r a n d e r M e r k m a l s s u m m e ∑ n k = 1 x k i s t h r = x r n ∑ k = 1 x k = x r n ¯ x . A u c h f ü r d i e M e r k m a l s a n t e i l e h r g i l t d i e a b s t e i g e n d e S o r t i e r u n g h 1 ≥ h 2 ≥ h 3 ≥ . . . ≥ h n ≥ 0 . D i e K o n z e n t r a t i o n s r a t e C R i = i ∑ r = 1 h r i s t n u n e i n f a c h d i e S u m m e d e r i g r ö ß t e n M e r k m a l s a n t e i l e . H a t e i n e E i n h e i t d i e g e s a m t e M e r k m a l s s u m m e ( m a x i m a l e K o n z e n t r a t i o n ) h 1 = 1 , h 2 = h 3 = . . . = h n = 0 fin d e n w i r C R i = 1 f ü r a l l e i . H a b e n a l l e E i n h e i t e n d e n g l e i c h e n M e r k m a l s w e r t ( m i n i m a l e K o n z e n t r a t i o n ) h 1 = h 2 = h 3 = . . . = h n = 1 / n , fin d e n w i r C R i = i / n . D i e K o n z e n t r a t i o n s r a t e l i e g t d a m i t i m m e r i m I n t e r v a l l [ i / n ; 1 ] . F ü r u n s e r Z a h l e n b e i s p i e l fin d e n w i r z . B . d i e K o n z e n t r a t i o n s r a t e C R 3 = 3 ∑ r = 1 h r = 7 0 1 0 0 + 1 5 1 0 0 + 1 0 1 0 0 = 0 . 9 5 . F ü r d i e P S I D - E i n k o m m e n s d a t e n v o n 1 , 0 0 0 P e r s o n e n fin d e n w i r C R 5 = 0 . 0 6 8 . D . h . d i e f ü n f P e r s o n e n m i t d e n h ö c h s t e n E i n k o m m e n h a b e n 6 . 8 % d e r g e s a m t e n E i n k o m m e n s s u m m e a l l e r 1 , 0 0 0 P e r s o n e n . R - 4 - 1 4 . 2 . 2 D i e K o n z e n t r a t i o n s k u r v e D i e D a r s t e l l u n g d e r W e r t e p a a r e ( i , C R i ) w i r d a l s K o n z e n t r a t i o n s k u r v e b e z e i c h n e t . Z u s ä t z l i c h z u d e n n W e r t e p a a r e n w i r d a u c h d e r U r s p r u n g ( 0 , 0 ) b e t r a c h t e t u n d a l l e P u n k t e w e r d e n m i t e i n e r G e r a d e n v e r b u n d e n . D e r l e t z t e P u n k t i s t ( n , C R n = 1 ) . F ü r u n s e r k l e i n e s Z a h l e n b e i s p i e l fin d e t m a n d i e i n A b b i l d u n g 4 . 1 d a r g e s t e l l t e K o n z e n t r a t i o n s k u r v e . R - 4 - 2 4 4.2 Maßzahlen der absoluten Konzentration 75 Die Fläche A ist die Summe der einzelnen Trapezflächen: A = n ∑ i =1 A i = 0 . 5 n ∑ i =1 h i (2 i − 1) = n ∑ i =1 ih i − 0 . 5 . Für das Zahlenbeispiel finden wir A = 1 . 01. Der Rosenbluth- Koeffizient ist definiert als RK = 1 2 A = 1 (2 n ∑ i =1 ih i ) − 1 . Durch Einsetzen ergibt sich RK = 0 . 495. Der Rosenbluth-Koeffizient liegt im Intervall [1 / n ; 1] und nimmt den Wert 1 / n bei minimaler Konzentration und den Wert 1 bei maximaler Konzentration an. Im Falle maximaler Konzentration gilt h 1 = 1 , h 2 = 0 , ..., h n = 0 und damit RK = 1 ( 2 ∑ n i =1 ih i ) − 1 = 1 (2(1 · 1 + 2 · 0 + ... + n · 0)) − 1 = 1 . Im Falle minimaler Konzentration gilt h 1 = 1 / n, h 2 = 1 / n, ..., h n = 1 / n und damit RK = 1 ( 2 ∑ n i =1 ih i ) − 1 = 1 ( 2 1 n ∑ n i =1 i ) − 1 = 1 n . Zu beachten ist, dass die kleinsten Einheiten (kleine h i ) die größten Gewichte (große i ) erhalten. In vielen Unternehmenserhebungen der amtlichen Statistik werden Unternehmen mit weniger als 20 Beschäftigten aus Kosten- und Vereinfachungsgründen nicht erhoben. Auf diese sogenannte Abschneidepraxis reagiert der Rosenbluth- Koeffizient relativ stark. Für die ALLBUS-Einkommensdaten (West) von n = 1 , 238 Personen finden wir RK = 0 . 0012. D.h. trotz der starken Ungleichheit der Einkommen ist die absolute Einkommenskonzentration dem Rosenbluth-Koeffizienten zufolge recht gering. R-4-3 4.2.4 Der Hirschman-Herfindahl-Koeffizient Der Hirschman-Herfindahl-Koeffizient ( HK ) ist definiert als Summe der quadrierten relativen Anteile h i 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 75 03.09.2019 13: 55: 39 <?page no="76"?> 76 4 Konzentrationsmessung HK = n ∑ i =1 h 2 i und liegt im Intervall [1 / n ; 1] . Im Falle maximaler Konzentration findet man HK = n ∑ i =1 h 2 i = 1 2 + 0 2 + ... + 0 2 = 1 und im Falle minimaler Konzentration HK = n ∑ i =1 h 2 i = n ( 1 n ) 2 = 1 n . Die Sortierung der Anteile ist, anders als beim Rosenbluth-Koeffizienten, nicht relevant. Beim Hirschman-Herfindahl-Koeffizienten erhalten die kleinen Einheiten (kleine h i ) kleine Gewichte, so dass dieser Koeffizient wenig auf die Nichtberücksichtigung kleiner Einheiten reagiert. Für unser Zahlenbeispiel finden wir HK = 0 . 7 2 + 0 . 15 2 + 0 . 1 2 + 0 . 04 2 + 0 . 01 2 = 0 . 5242 . Für die Einkommensdaten finden wir HK = 0 . 0011 . Auch dem Hirschman-Herfindahl-Koeffizient zufolge ist die absolute Einkommenskonzentration recht gering. R-4-4 4.3 Maßzahlen der relativen Konzentration Während bei der absoluten Konzentration die Frage im Vordergrund steht, ob eine Zusammenballung eines großen Teils der Merkmalssumme bei einer geringen Anzahl an Einheiten vorliegt, steht bei der relativen Konzentration die Frage nach der Ungleichheit bzw. Disparität im Vordergrund. Auch wenn z. B. die Personen mit den höchsten Einkommen nur einen geringen Teil der gesamten Einkommenssumme auf sich vereinen, kann dennoch eine große Disparität vorliegen. Dies wäre dann der Fall, wenn z. B. das reichste Prozent einen sehr viel höheren Anteil als 1 % an der gesamten Einkommenssumme hat. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 76 03.09.2019 13: 55: 39 <?page no="77"?> 4.2 Maßzahlen der absoluten Konzentration 67 Der Anteil der Einheit r an der Merkmalssumme ∑ n k =1 x k ist h r = x r n ∑ k =1 x k = x r n ¯ x . Auch für die Merkmalsanteile h r gilt die absteigende Sortierung h 1 ≥ h 2 ≥ h 3 ≥ . . . ≥ h n ≥ 0 . Die Konzentrationsrate CR i = i ∑ r =1 h r ist nun einfach die Summe der i größten Merkmalsanteile. Hat eine Einheit die gesamte Merkmalssumme (maximale Konzentration) h 1 = 1 , h 2 = h 3 = . . . = h n = 0 finden wir CR i = 1 für alle i . Haben alle Einheiten den gleichen Merkmalswert (minimale Konzentration) h 1 = h 2 = h 3 = . . . = h n = 1 / n , finden wir CR i = i/ n. Die Konzentrationsrate liegt damit immer im Intervall [ i/ n ; 1] . Für unser Zahlenbeispiel finden wir z. B. die Konzentrationsrate CR 3 = 3 ∑ r =1 h r = 70 100 + 15 100 + 10 100 = 0 . 95 . Für die PSID-Einkommensdaten von 1 , 000 Personen finden wir CR 5 = 0 . 068. D.h. die fünf Personen mit den höchsten Einkommen haben 6 . 8 % der gesamten Einkommenssumme aller 1 , 000 Personen. R-4-1 4.2.2 Die Konzentrationskurve Die Darstellung der Wertepaare ( i, CR i ) wird als Konzentrationskurve bezeichnet. Zusätzlich zu den n Wertepaaren wird auch der Ursprung (0 , 0) betrachtet und alle Punkte werden mit einer Geraden verbunden. Der letzte Punkt ist ( n, CR n = 1). Für unser kleines Zahlenbeispiel findet man die in Abbildung 4.1 dargestellte Konzentrationskurve. R-4-2 4 4 . 2 M a ß z a h l e n d e r a b s o l u t e n K o n z e n t r a t i o n 6 7 D e r A n t e i l d e r E i n h e i t r a n d e r M e r k m a l s s u m m e ∑ n k = 1 x k i s t h r = x r n ∑ k = 1 x k = x r n ¯ x . A u c h f ü r d i e M e r k m a l s a n t e i l e h r g i l t d i e a b s t e i g e n d e S o r t i e r u n g h 1 ≥ h 2 ≥ h 3 ≥ . . . ≥ h n ≥ 0 . D i e K o n z e n t r a t i o n s r a t e C R i = i ∑ r = 1 h r i s t n u n e i n f a c h d i e S u m m e d e r i g r ö ß t e n M e r k m a l s a n t e i l e . H a t e i n e E i n h e i t d i e g e s a m t e M e r k m a l s s u m m e ( m a x i m a l e K o n z e n t r a t i o n ) h 1 = 1 , h 2 = h 3 = . . . = h n = 0 fin d e n w i r C R i = 1 f ü r a l l e i . H a b e n a l l e E i n h e i t e n d e n g l e i c h e n M e r k m a l s w e r t ( m i n i m a l e K o n z e n t r a t i o n ) h 1 = h 2 = h 3 = . . . = h n = 1 / n , fin d e n w i r C R i = i / n . D i e K o n z e n t r a t i o n s r a t e l i e g t d a m i t i m m e r i m I n t e r v a l l [ i / n ; 1 ] . F ü r u n s e r Z a h l e n b e i s p i e l fin d e n w i r z . B . d i e K o n z e n t r a t i o n s r a t e C R 3 = 3 ∑ r = 1 h r = 7 0 1 0 0 + 1 5 1 0 0 + 1 0 1 0 0 = 0 . 9 5 . F ü r d i e P S I D - E i n k o m m e n s d a t e n v o n 1 , 0 0 0 P e r s o n e n fin d e n w i r C R 5 = 0 . 0 6 8 . D . h . d i e f ü n f P e r s o n e n m i t d e n h ö c h s t e n E i n k o m m e n h a b e n 6 . 8 % d e r g e s a m t e n E i n k o m m e n s s u m m e a l l e r 1 , 0 0 0 P e r s o n e n . R - 4 - 1 4 . 2 . 2 D i e K o n z e n t r a t i o n s k u r v e D i e D a r s t e l l u n g d e r W e r t e p a a r e ( i , C R i ) w i r d a l s K o n z e n t r a t i o n s k u r v e b e z e i c h n e t . Z u s ä t z l i c h z u d e n n W e r t e p a a r e n w i r d a u c h d e r U r s p r u n g ( 0 , 0 ) b e t r a c h t e t u n d a l l e P u n k t e w e r d e n m i t e i n e r G e r a d e n v e r b u n d e n . D e r l e t z t e P u n k t i s t ( n , C R n = 1 ) . F ü r u n s e r k l e i n e s Z a h l e n b e i s p i e l fin d e t m a n d i e i n A b b i l d u n g 4 . 1 d a r g e s t e l l t e K o n z e n t r a t i o n s k u r v e . R - 4 - 2 4 4.3 Maßzahlen der relativen Konzentration 77 4.3.1 Der Variationskoeffizient Der Variationskoeffizient ( VK ) ist definiert als Verhältnis der Standardabweichung zum arithmetischen Mittel VK = σ/ ¯ x, wobei ¯ x = 1 n ∑ n i =1 x i und σ = √√√√ 1 n n ∑ i =1 ( x i − ¯ x ) 2 = √√√√ 1 n n ∑ i =1 x 2 i − ¯ x 2 . Der Variationskoeffizient VK verändert sich bei einer Multiplikation aller Werte mit einer Konstanten c nicht, da sich sowohl die Streuung als auch der Mittelwert um den Faktor c verändern und sich dieser somit herauskürzt. (Somit führt z. B. die Verwendung von Cent oder Euro zum gleichen Ergebnis.) Für unser Zahlenbeispiel findet man für den Variationskoeffizienten: σ = √ 1 5 (70 2 + 15 2 + 10 2 + 4 2 + 1 2 ) − 20 2 = 25 . 464 ¯ x = 20 VK = σ ¯ x = 25 . 464 20 = 1 . 273 . Für unsere Einkommensdaten von n = 1 , 238 Personen finden wir einen Durchschnittslohn von 2 , 284 . 65 Euro und eine Standardabweichung von 1 , 462 . 06 Euro. Als Variationskoeffizient resultiert 0 . 64. R-4-5 Wie auch schon die Standardabweichung für sich betrachtet, ist auch der Variationskoeffizient von geringem deskriptivem Gehalt. 4.3.2 Die Lorenzkurve und der Gini-Koeffizient Berechnung mit klassierten Daten Als Beispiel betrachten wir die Einkommensdaten von n = 1 , 238 Personen des ALLBUS-Datensatzes (West). Die individuellen Löhne werden durch die Variable X erfasst. Für diese Löhne werden jetzt Einkommensklassen ˜ x ∗ 1 , . . . , ˜ x ∗ 5 gebildet (siehe Tabelle 4.1), so 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 77 03.09.2019 13: 55: 39 <?page no="78"?> 78 4 Konzentrationsmessung Tabelle 4.1: Klassierte Einkommensdaten in 1000 Euro Klasse von bis unter f j F j h j H j ˜ x ∗ 1 0.0 1.5 0.280 0.280 0.119 0.119 ˜ x ∗ 2 1.5 2.5 0.367 0.647 0.310 0.429 ˜ x ∗ 3 2.5 4.0 0.251 0.898 0.329 0.758 ˜ x ∗ 4 4.0 7.5 0.089 0.987 0.190 0.948 ˜ x ∗ 5 7.5 20.0 0.013 1.000 0.053 1.001 dass man anstelle von X eine vergröberte Variable X ∗ betrachten kann, deren Werte die Einkommensklasse angeben, in der sich eine Person befindet; vgl. Tabelle 4.1. f j bezeichnet den Anteil der Personen in der Einkommensklasse ˜ x ∗ j an allen Personen; h j bezeichnet den Anteil an der gesamten Einkommenssumme, der auf die Personen in der Einkommensklasse ˜ x ∗ j entfällt. F j und H j sind die entsprechenden kumulierten Werte. Außerdem wird definiert: f 0 = F 0 = h 0 = H 0 = 0. R-4-6 Für die Darstellung der Lorenzkurve (siehe Graphik 4.2) tragen wir an der Abszisse die fünf sukzessive kumulierten Anteile F j der Größenklassen an allen Personen und an der Ordinate die sukzessive kumulierten Anteile H j an der gesamten Einkommenssumme ab. R-4-7 Ausgehend vom Ursprung (0 , 0) führt die Verbindung dieser fünf Punkte bis zum Punkt (1 , 1) mit Hilfe von Geraden zur Lorenzkurve. Je weiter diese Kurve von der Diagonalen vom Punkt (0 , 0) bis zum Punkt (1 , 1) entfernt liegt (durchhängt), desto größer ist die relative Konzentration bzw. Ungleichheit. Die Fläche zwischen Lorenzkurve und Diagonale ist in der Graphik mit A gekennzeichnet. Setzen wir die Fläche A ins Verhältnis zur Fläche unterhalb der Diagonalen von 0 . 5 , erhalten wir ein summarisches Maß der relativen Konzentration, den Gini- Koeffizienten G = A 0 . 5 = 2 A. Folgende Überlegungen führen zur Berechnungsweise des Gini- Koeffizienten: Bezeichnen wir die Fläche unterhalb der Lorenzkurve mit B , gilt A + B = 0 . 5 bzw. A = 0 . 5 − B und damit auch G = 2 A = 1 − 2 B . Die Fläche B setzt sich bei J Größenklassen aus J vertikalen Trapezen B j zusammen, deren Fläche B j = f j 0 . 5( H j − 1 + H j ) jeweils als Grundseite mal mittlere Höhe berechnet werden kann. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 78 03.09.2019 13: 55: 40 <?page no="79"?> 4.2 Maßzahlen der absoluten Konzentration 67 Der Anteil der Einheit r an der Merkmalssumme ∑ n k =1 x k ist h r = x r n ∑ k =1 x k = x r n ¯ x . Auch für die Merkmalsanteile h r gilt die absteigende Sortierung h 1 ≥ h 2 ≥ h 3 ≥ . . . ≥ h n ≥ 0 . Die Konzentrationsrate CR i = i ∑ r =1 h r ist nun einfach die Summe der i größten Merkmalsanteile. Hat eine Einheit die gesamte Merkmalssumme (maximale Konzentration) h 1 = 1 , h 2 = h 3 = . . . = h n = 0 finden wir CR i = 1 für alle i . Haben alle Einheiten den gleichen Merkmalswert (minimale Konzentration) h 1 = h 2 = h 3 = . . . = h n = 1 / n , finden wir CR i = i/ n. Die Konzentrationsrate liegt damit immer im Intervall [ i/ n ; 1] . Für unser Zahlenbeispiel finden wir z. B. die Konzentrationsrate CR 3 = 3 ∑ r =1 h r = 70 100 + 15 100 + 10 100 = 0 . 95 . Für die PSID-Einkommensdaten von 1 , 000 Personen finden wir CR 5 = 0 . 068. D.h. die fünf Personen mit den höchsten Einkommen haben 6 . 8 % der gesamten Einkommenssumme aller 1 , 000 Personen. R-4-1 4.2.2 Die Konzentrationskurve Die Darstellung der Wertepaare ( i, CR i ) wird als Konzentrationskurve bezeichnet. Zusätzlich zu den n Wertepaaren wird auch der Ursprung (0 , 0) betrachtet und alle Punkte werden mit einer Geraden verbunden. Der letzte Punkt ist ( n, CR n = 1). Für unser kleines Zahlenbeispiel findet man die in Abbildung 4.1 dargestellte Konzentrationskurve. R-4-2 4 4 4.3 Maßzahlen der relativen Konzentration 79 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F j H j A B B 2 Abbildung 4.2: Lorenzkurve und Gini-Koeffizient (Fläche 2A). Z. B. ist die Fläche des in der Graphik mit B 2 markierten Trapezes B 2 = f 2 0 . 5( H 2 − 1 + H 2 ) = 0 . 367 · 0 . 5(0 . 119 + 0 . 429) = 0 . 101 . Die Gesamtfläche B ist also B = 0 . 5 J ∑ j =1 f j ( H j − 1 + H j ) und der Gini-Koeffizient ist G = 1 − 2 B = 1 − J ∑ j =1 f j ( H j − 1 + H j ) . Zum Beispiel findet man mit den klassierten Einkommensdaten der Tabelle 4.1 R-4-8 G = 1 − [0 . 28(0 + 0 . 119) + 0 . 367(0 . 119 + 0 . 429) + 0 . 251(0 . 429 + 0 . 758) + 0 . 089(0 . 758 + 0 . 948) + 0 . 013(0 . 948 + 1)] = 0 . 290 . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 79 03.09.2019 13: 55: 41 <?page no="80"?> 80 4 Konzentrationsmessung 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F i H i A B B 4 Abbildung 4.3: Lorenzkurve (Fläche B) - Trapeze. Bei diesem Befund ist zudem zu beachten, dass die tatsächliche Konzentration bei der Berechnung ausgehend von klassierten Daten etwas unterschätzt wird. Die Verbindung der punktuellen Informationen an den Grenzen der Klassen mit einer Geraden impliziert die Annahme, dass die Personen in den Klassen alle einen identischen Einkommen haben. Tatsächlich liegt jedoch auch innerhalb der Klassen Ungleichheit vor (die Verbindung zwischen den Punkten würde bei der Verwendung von Einzeldaten ,durchhängen‘), die hier nicht erfasst wird. Berechnung mit Individualdaten Der Gini-Koeffizient kann auch mit Individualdaten berechnet werden. Ausgangspunkt sind in diesem Fall n aufsteigend sortierte Merkmalswerte x 1 , . . . , x n . Jede Einheit i hat einen Anteil f i = 1 / n an der Gesamtheit der n Einheiten und einen Anteil h i = x i / ∑ n j =1 x j an der gesamten Merkmalssumme. Die kumulierten Größen werden wiederum durch F i bzw. H i bezeichnet. Zur Illustration verwenden wir das Zahlenbeispiel mit fünf Unternehmen, die die Umsätze x 1 = 1, x 2 = 4, x 3 = 10, x 4 = 15 und 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 80 03.09.2019 13: 55: 42 <?page no="81"?> 4.2 Maßzahlen der absoluten Konzentration 67 Der Anteil der Einheit r an der Merkmalssumme ∑ n k =1 x k ist h r = x r n ∑ k =1 x k = x r n ¯ x . Auch für die Merkmalsanteile h r gilt die absteigende Sortierung h 1 ≥ h 2 ≥ h 3 ≥ . . . ≥ h n ≥ 0 . Die Konzentrationsrate CR i = i ∑ r =1 h r ist nun einfach die Summe der i größten Merkmalsanteile. Hat eine Einheit die gesamte Merkmalssumme (maximale Konzentration) h 1 = 1 , h 2 = h 3 = . . . = h n = 0 finden wir CR i = 1 für alle i . Haben alle Einheiten den gleichen Merkmalswert (minimale Konzentration) h 1 = h 2 = h 3 = . . . = h n = 1 / n , finden wir CR i = i/ n. Die Konzentrationsrate liegt damit immer im Intervall [ i/ n ; 1] . Für unser Zahlenbeispiel finden wir z. B. die Konzentrationsrate CR 3 = 3 ∑ r =1 h r = 70 100 + 15 100 + 10 100 = 0 . 95 . Für die PSID-Einkommensdaten von 1 , 000 Personen finden wir CR 5 = 0 . 068. D.h. die fünf Personen mit den höchsten Einkommen haben 6 . 8 % der gesamten Einkommenssumme aller 1 , 000 Personen. R-4-1 4.2.2 Die Konzentrationskurve Die Darstellung der Wertepaare ( i, CR i ) wird als Konzentrationskurve bezeichnet. Zusätzlich zu den n Wertepaaren wird auch der Ursprung (0 , 0) betrachtet und alle Punkte werden mit einer Geraden verbunden. Der letzte Punkt ist ( n, CR n = 1). Für unser kleines Zahlenbeispiel findet man die in Abbildung 4.1 dargestellte Konzentrationskurve. R-4-2 4 4 . 2 M a ß z a h l e n d e r a b s o l u t e n K o n z e n t r a t i o n 6 7 D e r A n t e i l d e r E i n h e i t r a n d e r M e r k m a l s s u m m e ∑ n k = 1 x k i s t h r = x r n ∑ k = 1 x k = x r n ¯ x . A u c h f ü r d i e M e r k m a l s a n t e i l e h r g i l t d i e a b s t e i g e n d e S o r t i e r u n g h 1 ≥ h 2 ≥ h 3 ≥ . . . ≥ h n ≥ 0 . D i e K o n z e n t r a t i o n s r a t e C R i = i ∑ r = 1 h r i s t n u n e i n f a c h d i e S u m m e d e r i g r ö ß t e n M e r k m a l s a n t e i l e . H a t e i n e E i n h e i t d i e g e s a m t e M e r k m a l s s u m m e ( m a x i m a l e K o n z e n t r a t i o n ) h 1 = 1 , h 2 = h 3 = . . . = h n = 0 fin d e n w i r C R i = 1 f ü r a l l e i . H a b e n a l l e E i n h e i t e n d e n g l e i c h e n M e r k m a l s w e r t ( m i n i m a l e K o n z e n t r a t i o n ) h 1 = h 2 = h 3 = . . . = h n = 1 / n , fin d e n w i r C R i = i / n . D i e K o n z e n t r a t i o n s r a t e l i e g t d a m i t i m m e r i m I n t e r v a l l [ i / n ; 1 ] . F ü r u n s e r Z a h l e n b e i s p i e l fin d e n w i r z . B . d i e K o n z e n t r a t i o n s r a t e C R 3 = 3 ∑ r = 1 h r = 7 0 1 0 0 + 1 5 1 0 0 + 1 0 1 0 0 = 0 . 9 5 . F ü r d i e P S I D - E i n k o m m e n s d a t e n v o n 1 , 0 0 0 P e r s o n e n fin d e n w i r C R 5 = 0 . 0 6 8 . D . h . d i e f ü n f P e r s o n e n m i t d e n h ö c h s t e n E i n k o m m e n h a b e n 6 . 8 % d e r g e s a m t e n E i n k o m m e n s s u m m e a l l e r 1 , 0 0 0 P e r s o n e n . R - 4 - 1 4 . 2 . 2 D i e K o n z e n t r a t i o n s k u r v e D i e D a r s t e l l u n g d e r W e r t e p a a r e ( i , C R i ) w i r d a l s K o n z e n t r a t i o n s k u r v e b e z e i c h n e t . Z u s ä t z l i c h z u d e n n W e r t e p a a r e n w i r d a u c h d e r U r s p r u n g ( 0 , 0 ) b e t r a c h t e t u n d a l l e P u n k t e w e r d e n m i t e i n e r G e r a d e n v e r b u n d e n . D e r l e t z t e P u n k t i s t ( n , C R n = 1 ) . F ü r u n s e r k l e i n e s Z a h l e n b e i s p i e l fin d e t m a n d i e i n A b b i l d u n g 4 . 1 d a r g e s t e l l t e K o n z e n t r a t i o n s k u r v e . R - 4 - 2 4 4.3 Maßzahlen der relativen Konzentration 81 x 5 = 70 haben. Also ist f i = 1 / 5, und die Merkmalsanteile sind h 1 = 0 . 01 , h 2 = 0 . 04 , h 3 = 0 . 1 , h 4 = 0 . 15 , h 5 = 0 . 7 . Wie in der Graphik 4.3 illustriert wird, setzt sich die Fläche B jetzt aus n horizontalen Trapezen B i zusammen, deren untere Länge den Wert ( n − i + 1) / n und deren obere Länge den Wert ( n − i ) / n hat. Die Multiplikation der mittleren Länge mit der Höhe h i führt zur Fläche B i = h i 0 . 5 ( ( n − i + 1) + ( n − i ) n ) = 0 . 5 h i ( 2 n − 2 i + 1 n ) . Z. B. ist in unserem Zahlenbeispiel B 4 = 0 . 045. Schließlich findet man für die Gesamtfläche den Ausdruck B = 0 . 5 n ∑ i =1 h i ( 2 n − 2 i + 1 n ) und der Gini-Koeffizient ist G = 1 − 2 B = n ∑ i =1 h i ( 2 i − n − 1 n ) . In unserem Zahlenbeispiel beträgt der Wert G = 0 . 596 . Mit der gleichen Methode finden wir für die amerikanischen Einkommensdaten den Gini-Koeffizienten G = 0 . 315. Der Wert liegt etwas über dem Wert 0 . 290, den wir auf Basis der klassierten Daten ermittelt hatten. R-4-9 Überlegen wir schließlich noch, wie die beiden Extremfälle maximaler und minimaler relativer Konzentration aussehen. Maximale Konzentration liegt dann vor, wenn eine Einheit die gesamte Merkmalssumme auf sich vereinigt, so dass h 1 = . . . = h n − 1 = 0 und h n = 1. Durch Einsetzen in die Formel findet man G = 1 − 1 / n als maximalen Wert für den Gini-Koeffizienten. Dagegen liegt eine minimale Konzentration dann vor, wenn alle n Einheiten den gleichen Merkmalswert haben: x 1 = . . . = x n , so dass h i = H/ n gilt. Durch Einsetzen in die Formel findet man dann G = 0 als minimalen Wert für den Gini-Koeffizienten. Die Graphik 4.4 illustriert diese beiden Extremfälle. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 81 03.09.2019 13: 55: 42 <?page no="82"?> 82 4 Konzentrationsmessung 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F i H i (a) maximale Konz. 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F i H i (b) minimale Konz. Abbildung 4.4: Konzentration - Extremfälle. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 82 03.09.2019 13: 55: 42 <?page no="83"?> 4.2 Maßzahlen der absoluten Konzentration 67 Der Anteil der Einheit r an der Merkmalssumme ∑ n k =1 x k ist h r = x r n ∑ k =1 x k = x r n ¯ x . Auch für die Merkmalsanteile h r gilt die absteigende Sortierung h 1 ≥ h 2 ≥ h 3 ≥ . . . ≥ h n ≥ 0 . Die Konzentrationsrate CR i = i ∑ r =1 h r ist nun einfach die Summe der i größten Merkmalsanteile. Hat eine Einheit die gesamte Merkmalssumme (maximale Konzentration) h 1 = 1 , h 2 = h 3 = . . . = h n = 0 finden wir CR i = 1 für alle i . Haben alle Einheiten den gleichen Merkmalswert (minimale Konzentration) h 1 = h 2 = h 3 = . . . = h n = 1 / n , finden wir CR i = i/ n. Die Konzentrationsrate liegt damit immer im Intervall [ i/ n ; 1] . Für unser Zahlenbeispiel finden wir z. B. die Konzentrationsrate CR 3 = 3 ∑ r =1 h r = 70 100 + 15 100 + 10 100 = 0 . 95 . Für die PSID-Einkommensdaten von 1 , 000 Personen finden wir CR 5 = 0 . 068. D.h. die fünf Personen mit den höchsten Einkommen haben 6 . 8 % der gesamten Einkommenssumme aller 1 , 000 Personen. R-4-1 4.2.2 Die Konzentrationskurve Die Darstellung der Wertepaare ( i, CR i ) wird als Konzentrationskurve bezeichnet. Zusätzlich zu den n Wertepaaren wird auch der Ursprung (0 , 0) betrachtet und alle Punkte werden mit einer Geraden verbunden. Der letzte Punkt ist ( n, CR n = 1). Für unser kleines Zahlenbeispiel findet man die in Abbildung 4.1 dargestellte Konzentrationskurve. R-4-2 4 4 . 2 M a ß z a h l e n d e r a b s o l u t e n K o n z e n t r a t i o n 6 7 D e r A n t e i l d e r E i n h e i t r a n d e r M e r k m a l s s u m m e ∑ n k = 1 x k i s t h r = x r n ∑ k = 1 x k = x r n ¯ x . A u c h f ü r d i e M e r k m a l s a n t e i l e h r g i l t d i e a b s t e i g e n d e S o r t i e r u n g h 1 ≥ h 2 ≥ h 3 ≥ . . . ≥ h n ≥ 0 . D i e K o n z e n t r a t i o n s r a t e C R i = i ∑ r = 1 h r i s t n u n e i n f a c h d i e S u m m e d e r i g r ö ß t e n M e r k m a l s a n t e i l e . H a t e i n e E i n h e i t d i e g e s a m t e M e r k m a l s s u m m e ( m a x i m a l e K o n z e n t r a t i o n ) h 1 = 1 , h 2 = h 3 = . . . = h n = 0 fin d e n w i r C R i = 1 f ü r a l l e i . H a b e n a l l e E i n h e i t e n d e n g l e i c h e n M e r k m a l s w e r t ( m i n i m a l e K o n z e n t r a t i o n ) h 1 = h 2 = h 3 = . . . = h n = 1 / n , fin d e n w i r C R i = i / n . D i e K o n z e n t r a t i o n s r a t e l i e g t d a m i t i m m e r i m I n t e r v a l l [ i / n ; 1 ] . F ü r u n s e r Z a h l e n b e i s p i e l fin d e n w i r z . B . d i e K o n z e n t r a t i o n s r a t e C R 3 = 3 ∑ r = 1 h r = 7 0 1 0 0 + 1 5 1 0 0 + 1 0 1 0 0 = 0 . 9 5 . F ü r d i e P S I D - E i n k o m m e n s d a t e n v o n 1 , 0 0 0 P e r s o n e n fin d e n w i r C R 5 = 0 . 0 6 8 . D . h . d i e f ü n f P e r s o n e n m i t d e n h ö c h s t e n E i n k o m m e n h a b e n 6 . 8 % d e r g e s a m t e n E i n k o m m e n s s u m m e a l l e r 1 , 0 0 0 P e r s o n e n . R - 4 - 1 4 . 2 . 2 D i e K o n z e n t r a t i o n s k u r v e D i e D a r s t e l l u n g d e r W e r t e p a a r e ( i , C R i ) w i r d a l s K o n z e n t r a t i o n s k u r v e b e z e i c h n e t . Z u s ä t z l i c h z u d e n n W e r t e p a a r e n w i r d a u c h d e r U r s p r u n g ( 0 , 0 ) b e t r a c h t e t u n d a l l e P u n k t e w e r d e n m i t e i n e r G e r a d e n v e r b u n d e n . D e r l e t z t e P u n k t i s t ( n , C R n = 1 ) . F ü r u n s e r k l e i n e s Z a h l e n b e i s p i e l fin d e t m a n d i e i n A b b i l d u n g 4 . 1 d a r g e s t e l l t e K o n z e n t r a t i o n s k u r v e . R - 4 - 2 4 4.4 Aufgaben 83 4.4 Aufgaben 1. Absolute Konzentration. Ihnen liegen die Umsätze (Tsd. e ) von allen vier Unternehmen einer Branche vor: x 1 = 20 , x 2 = 10 , x 3 = 7 , x 4 = 3. a) Wie hoch ist der Umsatz in der betrachteten Branche insgesamt? b) Wie hoch ist der Anteil des größten, des zweitgrößten, des drittgrößten Unternehmens am Gesamtumsatz der Branche? c) Vergleichen Sie den Anteil der beiden größten Unternehmen an der Anzahl aller Unternehmen der Branche mit ihrem Anteil am Gesamtumsatz der Branche. d) Welchen Anteil am Branchenumsatz haben die beiden kleinsten Unternehmen? e) Was versteht man unter absoluter Konzentration, was unter relativer Konzentration? f) Zeichnen Sie die Konzentrationskurve. g) Zeichnen Sie in die Graphik der Konzentrationskurve die Kurven ein, die sich bei minimaler und maximaler Konzentration ergeben würden. h) Nehmen Sie an, alle Unternehmen der Branche erhöhen ihren Umsatz um a %. Wie sieht dann die Konzentrationskurve aus? i) Vergleichen Sie die ursprüngliche Konzentrationskurve mit der Konzentrationskurve, die sich ergeben würde, wenn alle Unternehmen ihren Umsatz um 10 (Tsd. e ) ausdehnen. j) Berechnen Sie den Herfindahl-Index (Werte aus Aufgabe 1a). k) Berechnen Sie den Rosenbluth-Index (Werte aus Aufgabe 1a). 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 83 03.09.2019 13: 55: 42 <?page no="84"?> 84 4 Konzentrationsmessung 2. Relative Konzentration (Für a)-f) Zahlenwerte aus Aufgabe 1). a) Zeichnen Sie die Lorenzkurve. b) Zeichnen Sie in ihre Graphik die Lorenzkurve bei maximaler und bei minimaler relativer Konzentration. c) Nehmen Sie an, dass alle Unternehmen der Branche ihren Umsatz um a % erhöhen. Wie sieht dann die Lorenzkurve aus? d) Vergleichen Sie die ursprüngliche Lorenzkurve mit der Lorenzkurve, die sich ergeben würde, wenn alle Unternehmen ihren Umsatz um 10 (Tsd. e ) ausdehnen. e) Berechnen Sie den Gini-Koeffizienten (Werte aus Aufgabe 1a). f) Welchen Wert nimmt der Gini-Koeffizient nach einer Umsatzerhöhung von 10 (Tsd. e ) bei allen Unternehmen an? g) Nehmen Sie an, Ihnen liegende folgende Daten in klassierter Form vor: Klassengrenzen (von bis unter) Anzahl Umsatz 0-200 3 410 200-500 2 620 500-1500 3 2 , 570 Berechnen Sie ausgehend von den klassierten Daten den Gini-Koeffizienten. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 84 03.09.2019 13: 55: 43 <?page no="85"?> 4.2 Maßzahlen der absoluten Konzentration 67 Der Anteil der Einheit r an der Merkmalssumme ∑ n k =1 x k ist h r = x r n ∑ k =1 x k = x r n ¯ x . Auch für die Merkmalsanteile h r gilt die absteigende Sortierung h 1 ≥ h 2 ≥ h 3 ≥ . . . ≥ h n ≥ 0 . Die Konzentrationsrate CR i = i ∑ r =1 h r ist nun einfach die Summe der i größten Merkmalsanteile. Hat eine Einheit die gesamte Merkmalssumme (maximale Konzentration) h 1 = 1 , h 2 = h 3 = . . . = h n = 0 finden wir CR i = 1 für alle i . Haben alle Einheiten den gleichen Merkmalswert (minimale Konzentration) h 1 = h 2 = h 3 = . . . = h n = 1 / n , finden wir CR i = i/ n. Die Konzentrationsrate liegt damit immer im Intervall [ i/ n ; 1] . Für unser Zahlenbeispiel finden wir z. B. die Konzentrationsrate CR 3 = 3 ∑ r =1 h r = 70 100 + 15 100 + 10 100 = 0 . 95 . Für die PSID-Einkommensdaten von 1 , 000 Personen finden wir CR 5 = 0 . 068. D.h. die fünf Personen mit den höchsten Einkommen haben 6 . 8 % der gesamten Einkommenssumme aller 1 , 000 Personen. R-4-1 4.2.2 Die Konzentrationskurve Die Darstellung der Wertepaare ( i, CR i ) wird als Konzentrationskurve bezeichnet. Zusätzlich zu den n Wertepaaren wird auch der Ursprung (0 , 0) betrachtet und alle Punkte werden mit einer Geraden verbunden. Der letzte Punkt ist ( n, CR n = 1). Für unser kleines Zahlenbeispiel findet man die in Abbildung 4.1 dargestellte Konzentrationskurve. R-4-2 4 4 . 2 M a ß z a h l e n d e r a b s o l u t e n K o n z e n t r a t i o n 6 7 D e r A n t e i l d e r E i n h e i t r a n d e r M e r k m a l s s u m m e ∑ n k = 1 x k i s t h r = x r n ∑ k = 1 x k = x r n ¯ x . A u c h f ü r d i e M e r k m a l s a n t e i l e h r g i l t d i e a b s t e i g e n d e S o r t i e r u n g h 1 ≥ h 2 ≥ h 3 ≥ . . . ≥ h n ≥ 0 . D i e K o n z e n t r a t i o n s r a t e C R i = i ∑ r = 1 h r i s t n u n e i n f a c h d i e S u m m e d e r i g r ö ß t e n M e r k m a l s a n t e i l e . H a t e i n e E i n h e i t d i e g e s a m t e M e r k m a l s s u m m e ( m a x i m a l e K o n z e n t r a t i o n ) h 1 = 1 , h 2 = h 3 = . . . = h n = 0 fin d e n w i r C R i = 1 f ü r a l l e i . H a b e n a l l e E i n h e i t e n d e n g l e i c h e n M e r k m a l s w e r t ( m i n i m a l e K o n z e n t r a t i o n ) h 1 = h 2 = h 3 = . . . = h n = 1 / n , fin d e n w i r C R i = i / n . D i e K o n z e n t r a t i o n s r a t e l i e g t d a m i t i m m e r i m I n t e r v a l l [ i / n ; 1 ] . F ü r u n s e r Z a h l e n b e i s p i e l fin d e n w i r z . B . d i e K o n z e n t r a t i o n s r a t e C R 3 = 3 ∑ r = 1 h r = 7 0 1 0 0 + 1 5 1 0 0 + 1 0 1 0 0 = 0 . 9 5 . F ü r d i e P S I D - E i n k o m m e n s d a t e n v o n 1 , 0 0 0 P e r s o n e n fin d e n w i r C R 5 = 0 . 0 6 8 . D . h . d i e f ü n f P e r s o n e n m i t d e n h ö c h s t e n E i n k o m m e n h a b e n 6 . 8 % d e r g e s a m t e n E i n k o m m e n s s u m m e a l l e r 1 , 0 0 0 P e r s o n e n . R - 4 - 1 4 . 2 . 2 D i e K o n z e n t r a t i o n s k u r v e D i e D a r s t e l l u n g d e r W e r t e p a a r e ( i , C R i ) w i r d a l s K o n z e n t r a t i o n s k u r v e b e z e i c h n e t . Z u s ä t z l i c h z u d e n n W e r t e p a a r e n w i r d a u c h d e r U r s p r u n g ( 0 , 0 ) b e t r a c h t e t u n d a l l e P u n k t e w e r d e n m i t e i n e r G e r a d e n v e r b u n d e n . D e r l e t z t e P u n k t i s t ( n , C R n = 1 ) . F ü r u n s e r k l e i n e s Z a h l e n b e i s p i e l fin d e t m a n d i e i n A b b i l d u n g 4 . 1 d a r g e s t e l l t e K o n z e n t r a t i o n s k u r v e . R - 4 - 2 4 4.5 R-Code 85 4.5 R-Code R-4-1 ## Zahlenbeispiel x <c(70,15,10,4,1) h.x <x/ sum(x) # CR3 cr3.x <sum(h.x[1: 3]) cr3.x ## ALLBUS # Daten einlesen (West) d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) d <d[d$ostwest==0,] # Merkmalswerte (Einkommen) absteigend sortieren y <sort(x = d$einkommen, decreasing = TRUE) h.y <y/ sum(y) # CR5 cr5.y <sum(h.y[1: 5]) cr5.y R-4-2 # Konzentrationskurve (Zahlenbeispiel) h.x <x / sum(x) cr.x <cumsum(h.x) plot(x = 0: 5, y = c(0,cr.x), type = "l", xlab = "i", ylab = expression(CR[~i])) points(x = 0: 5, y = c(0,cr.x), pch = 19) segments(x0 = 0, y0 = 0, x1 = 5, y1 = 1) R-4-3 ## Rosenbluth-Koeffizient # Zahlenbeispiel i.x <- 1: 5 A.i.x <h.x * 0.5 * (2 * i.x - 1) A.x <sum(A.i.x) RK.x <- 1 / (2*A.x) RK.x # Einkommen h.y <y / sum(y) i.y <- 1: length(y) RK.y <- 1 / (2 * sum(i.y*h.y) - 1) RK.y 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 85 03.09.2019 13: 55: 43 <?page no="86"?> 86 4 Konzentrationsmessung R-4-4 ## Hirschman-Herfindahl-Koeffizient # Zahlenbeispiel sum(h.x^2) # Einkommen sum(h.y^2) R-4-5 ## Variationskoeffizient # Zahlenbeispiel n.x <length(x) var.koeff.x <sqrt( 1/ n.x * sum( (x mean(x))^2 ) ) / mean(x) var.koeff.x # Einkommen n.y <length(y) var.koeff.y <sqrt( 1/ n.y * sum( (y mean(y))^2 ) ) / mean(y) var.koeff.y R-4-6 ## Einkommen klassieren # Histogramm erstellen (für die automatische Wahl der Grenzen) h <hist(x = y/ 1000, breaks = c(0,1.5,2.5,4,7.5,20), plot = FALSE, right = FALSE) # Anzahl an Grenzen b <length(h$breaks) # Beobachtungen (Einkommen) in Klassen einteilen lc <cut(x = y/ 1000, breaks = h$breaks, right = FALSE) # Klassenuntergrenzen cu <h$breaks[-b] # Klassenobergrenzen co <h$breaks[-1] # relative Klassenhäufigkeiten fj <table(lc) / n.y fj # kumulierten Anteile Fj <cumsum(fj) Fj # relativer Anteil der Einkommenssumme pro Klasse hj <tapply(X = y, INDEX = lc, FUN = sum) / sum(y); hj # kumulierten Anteile Hj <cumsum(hj); Hj 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 86 03.09.2019 13: 55: 43 <?page no="87"?> 4.2 Maßzahlen der absoluten Konzentration 67 Der Anteil der Einheit r an der Merkmalssumme ∑ n k =1 x k ist h r = x r n ∑ k =1 x k = x r n ¯ x . Auch für die Merkmalsanteile h r gilt die absteigende Sortierung h 1 ≥ h 2 ≥ h 3 ≥ . . . ≥ h n ≥ 0 . Die Konzentrationsrate CR i = i ∑ r =1 h r ist nun einfach die Summe der i größten Merkmalsanteile. Hat eine Einheit die gesamte Merkmalssumme (maximale Konzentration) h 1 = 1 , h 2 = h 3 = . . . = h n = 0 finden wir CR i = 1 für alle i . Haben alle Einheiten den gleichen Merkmalswert (minimale Konzentration) h 1 = h 2 = h 3 = . . . = h n = 1 / n , finden wir CR i = i/ n. Die Konzentrationsrate liegt damit immer im Intervall [ i/ n ; 1] . Für unser Zahlenbeispiel finden wir z. B. die Konzentrationsrate CR 3 = 3 ∑ r =1 h r = 70 100 + 15 100 + 10 100 = 0 . 95 . Für die PSID-Einkommensdaten von 1 , 000 Personen finden wir CR 5 = 0 . 068. D.h. die fünf Personen mit den höchsten Einkommen haben 6 . 8 % der gesamten Einkommenssumme aller 1 , 000 Personen. R-4-1 4.2.2 Die Konzentrationskurve Die Darstellung der Wertepaare ( i, CR i ) wird als Konzentrationskurve bezeichnet. Zusätzlich zu den n Wertepaaren wird auch der Ursprung (0 , 0) betrachtet und alle Punkte werden mit einer Geraden verbunden. Der letzte Punkt ist ( n, CR n = 1). Für unser kleines Zahlenbeispiel findet man die in Abbildung 4.1 dargestellte Konzentrationskurve. R-4-2 4 4 . 2 M a ß z a h l e n d e r a b s o l u t e n K o n z e n t r a t i o n 6 7 D e r A n t e i l d e r E i n h e i t r a n d e r M e r k m a l s s u m m e ∑ n k = 1 x k i s t h r = x r n ∑ k = 1 x k = x r n ¯ x . A u c h f ü r d i e M e r k m a l s a n t e i l e h r g i l t d i e a b s t e i g e n d e S o r t i e r u n g h 1 ≥ h 2 ≥ h 3 ≥ . . . ≥ h n ≥ 0 . D i e K o n z e n t r a t i o n s r a t e C R i = i ∑ r = 1 h r i s t n u n e i n f a c h d i e S u m m e d e r i g r ö ß t e n M e r k m a l s a n t e i l e . H a t e i n e E i n h e i t d i e g e s a m t e M e r k m a l s s u m m e ( m a x i m a l e K o n z e n t r a t i o n ) h 1 = 1 , h 2 = h 3 = . . . = h n = 0 fin d e n w i r C R i = 1 f ü r a l l e i . H a b e n a l l e E i n h e i t e n d e n g l e i c h e n M e r k m a l s w e r t ( m i n i m a l e K o n z e n t r a t i o n ) h 1 = h 2 = h 3 = . . . = h n = 1 / n , fin d e n w i r C R i = i / n . D i e K o n z e n t r a t i o n s r a t e l i e g t d a m i t i m m e r i m I n t e r v a l l [ i / n ; 1 ] . F ü r u n s e r Z a h l e n b e i s p i e l fin d e n w i r z . B . d i e K o n z e n t r a t i o n s r a t e C R 3 = 3 ∑ r = 1 h r = 7 0 1 0 0 + 1 5 1 0 0 + 1 0 1 0 0 = 0 . 9 5 . F ü r d i e P S I D - E i n k o m m e n s d a t e n v o n 1 , 0 0 0 P e r s o n e n fin d e n w i r C R 5 = 0 . 0 6 8 . D . h . d i e f ü n f P e r s o n e n m i t d e n h ö c h s t e n E i n k o m m e n h a b e n 6 . 8 % d e r g e s a m t e n E i n k o m m e n s s u m m e a l l e r 1 , 0 0 0 P e r s o n e n . R - 4 - 1 4 . 2 . 2 D i e K o n z e n t r a t i o n s k u r v e D i e D a r s t e l l u n g d e r W e r t e p a a r e ( i , C R i ) w i r d a l s K o n z e n t r a t i o n s k u r v e b e z e i c h n e t . Z u s ä t z l i c h z u d e n n W e r t e p a a r e n w i r d a u c h d e r U r s p r u n g ( 0 , 0 ) b e t r a c h t e t u n d a l l e P u n k t e w e r d e n m i t e i n e r G e r a d e n v e r b u n d e n . D e r l e t z t e P u n k t i s t ( n , C R n = 1 ) . F ü r u n s e r k l e i n e s Z a h l e n b e i s p i e l fin d e t m a n d i e i n A b b i l d u n g 4 . 1 d a r g e s t e l l t e K o n z e n t r a t i o n s k u r v e . R - 4 - 2 4 4.5 R-Code 87 R-4-7 ## Graphik plot(x = c(0,Fj), y = c(0,Hj), type = "l", xlab = expression(F[~j]), ylab = expression(H[~j])) points(x = c(0,Fj), y = c(0,Hj), pch = 19) segments(x0 = 0, y0 = 0, x1 = 1, y1 = 1) R-4-8 # Gini-Koeffizient 1 sum(fj * (c(0, Hj[-5]) + Hj)) R-4-9 ### Gini-Koeffizient auf Basis von Individualdaten ## Zahlenbeispiel # Werte aufsteigend sortieren h.x.auf <sort(h.x, decreasing = FALSE) # Gini-Koeffizient sum( h.x.auf * ((2*i.x n.x - 1) / n.x) ) ## Einkommen h.y.auf <sort(h.y, decreasing = FALSE) # Gini-Koeffizient sum( h.y.auf * ((2*i.y n.y - 1) / n.y) ) 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 87 03.09.2019 13: 55: 44 <?page no="88"?> 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 88 03.09.2019 13: 55: 44 <?page no="89"?> 5.2 Maßzahlen für Strukturunterschiede 85 Tabelle 5.1: Sektorale Beschäftigungsanteile. Sektor Alle ( a j ) Frauen ( a w j ) Männer ( a m j ) Produktion 0.230 0.120 0.347 Handel 0.233 0.223 0.244 Dienste 0.537 0.657 0.409 Offenbar gilt für die Anteile a j , a w j und a m j , dass sie sich für die J = 3 Sektoren jeweils zu 1 summieren: 3 ∑ j =1 a j = 3 ∑ j =1 a w j = 3 ∑ j =1 a m j = 1 . Es ist ersichtlich, dass nur relativ wenige Frauen im Sektor Produktion, aber fast zwei Drittel im Sektor Dienste tätig sind. Hingegen ist gut ein Drittel der Männer im Sektor Produktion tätig und der Anteil des Sektors Dienste ist bei den Männern deutlich geringer als bei den Frauen. Im Folgenden betrachten wir mehrere Maßzahlen zur Quantifizierung von Strukturunterschieden. Für die beiden zu vergleichenden Gruppen verwenden wir unserem Beispiel folgend die Indizes m und w. In analoger Weise könnten auch andere Gruppen (Länder, Regionen, etc.) verglichen werden. Die beiden Indizes m und w könnten dann durch geeignete andere Indizes ersetzt werden. 5.2.1 Strukturdifferenz und normierte Strukturdifferenz Die Strukturdifferenz SD = J ∑ j =1 | a m j − a w j | ist die Summe der absoluten Anteilsdifferenzen , hier zwischen den sektoralen Beschäftigungsanteilen von Männern und Frauen. Für unsere Beispieldaten mit drei Sektoren finden wir SD = | 0 . 347 − 0 . 12 | + | 0 . 244 − 0 . 223 | + | 0 . 409 − 0 . 657 | = | 0 . 227 | + | 0 . 021 | + |− 0 . 248 | = 0 . 496 . und 8 Dienstleistungen wurden zum Sektor Dienste zusammengefasst. 5 5 5 Strukturanalysen Viele interessierende Größen lassen sich definitorisch als Summe oder auch als Produkt von Komponenten darstellen. Solch einfache Komponentendarstellungen liefern oftmals interessante Einblicke, wenn nach möglichen Ursachen vorgefundener Gruppenunterschiede oder zeitlicher Veränderungen gesucht wird. Wir veranschaulichen die Verwendung einfacher Strukturanalysen in Form definitorischer Komponentenmodelle mit einfachen additiven und multiplikativen Zerlegungen, um Einblicke in Bestimmungsgründe der beobachteten Einkommensunterschiede von Männern und Frauen zu gewinnen. 5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.2 Maßzahlen für Strukturunterschiede . . . . . . . . . . . . 90 5.2.1 Strukturdifferenz und normierte Strukturdifferenz . 91 5.2.2 Euklidische Norm . . . . . . . . . . . . . . . . . . 92 5.3 Additive Komponentenzerlegung . . . . . . . . . . . . . . 92 5.3.1 Standardisierung . . . . . . . . . . . . . . . . . . 94 5.3.2 Niveau- und Struktureffekt . . . . . . . . . . . . . 95 5.3.3 Niveau-, Struktur- und Mischeffekt . . . . . . . . . 96 5.4 Multiplikative Komponentenzerlegung . . . . . . . . . . . 99 5.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 89 03.09.2019 13: 55: 44 <?page no="90"?> 90 5 Strukturanalysen 5.1 Einleitung Für viele Mengen von Untersuchungseinheiten lässt sich eine Aufteilung nach Merkmalen in Teilmengen durchführen, die die Struktur bezüglich dieser Merkmale deutlich macht. So lassen sich Beschäftigte etwa nach ihrem Geschlecht und nach den Berufen der Unternehmen, in denen sie beschäftigt sind, aufgliedern. Für die einzelnen Berufen lassen sich die Anteile an den Beschäftigten insgesamt ermitteln. Diese Berufsstruktur kann für alle Beschäftigten, aber auch getrennt für Männer und Frauen ermittelt werden. In diesem Kapitel betrachten wir Methoden, mit denen derartige Strukturen verglichen und Unterschiede quantifiziert werden können. Zunächst betrachten wir Maßzahlen, die das Ausmaß des strukturellen Unterschieds erfassen. Im Anschluss besprechen wir Methoden der Komponentenzerlegung. Mit diesen Methoden werden definitorische Zusammenhänge genutzt, um Einblicke in Bedingungen von Unterschieden zwischen Gruppen zu gewinnen. Als Beispiel verwenden wir erneut das ALLBUS-Datenfile für n = 1 , 238 Personen aus Westdeutschland mit Angaben über deren Geschlecht, Lohnhöhe, geleistete Arbeitsstunden und Beruf. 5.2 Maßzahlen für Strukturunterschiede In unserem Datensatz gibt es für n = 1 , 238 Personen aus Westdeutschland Angaben darüber, welchen Beruf sie ausüben. Um die Analyse etwas übersichtlicher zu halten, vergröbern wir die Berufsinformation von ursprünglich neun Berufen auf drei Berufsgruppen: 1 Akademiker, 2 Angestellte, 3 Helfer. 1 R-5-1 Für die drei Berufen finden wir die in Tabelle 5.1 angegebenen Beschäftigungsanteile a j für die Berufen Produktion ( j = 1), Handel ( j = 2) und Dienste ( j = 3). Die Angaben in Spalte 2 sind die Beschäftigungsanteile der Berufe insgesamt, Spalte 3 enthält die Beschäftigungsanteile der Berufe a w j der Frauen und Spalte 4 enthält die Anteile a m j der Männer. R-5-2 Offenbar gilt für die Anteile a j , a w j und a m j , dass sie sich für die 1 Die Vergröberung wurde dabei folgendermaßen vorgenommen: 1 Führungskräfte, Akademiker, 2 Techniker, Bürokräfte, Dienstleister, Bauern, Handwerker, 3 Monteure, Hilfsarbeiter. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 90 03.09.2019 13: 55: 44 <?page no="91"?> 5.2 Maßzahlen für Strukturunterschiede 85 Tabelle 5.1: Sektorale Beschäftigungsanteile. Sektor Alle ( a j ) Frauen ( a w j ) Männer ( a m j ) Produktion 0.230 0.120 0.347 Handel 0.233 0.223 0.244 Dienste 0.537 0.657 0.409 Offenbar gilt für die Anteile a j , a w j und a m j , dass sie sich für die J = 3 Sektoren jeweils zu 1 summieren: 3 ∑ j =1 a j = 3 ∑ j =1 a w j = 3 ∑ j =1 a m j = 1 . Es ist ersichtlich, dass nur relativ wenige Frauen im Sektor Produktion, aber fast zwei Drittel im Sektor Dienste tätig sind. Hingegen ist gut ein Drittel der Männer im Sektor Produktion tätig und der Anteil des Sektors Dienste ist bei den Männern deutlich geringer als bei den Frauen. Im Folgenden betrachten wir mehrere Maßzahlen zur Quantifizierung von Strukturunterschieden. Für die beiden zu vergleichenden Gruppen verwenden wir unserem Beispiel folgend die Indizes m und w. In analoger Weise könnten auch andere Gruppen (Länder, Regionen, etc.) verglichen werden. Die beiden Indizes m und w könnten dann durch geeignete andere Indizes ersetzt werden. 5.2.1 Strukturdifferenz und normierte Strukturdifferenz Die Strukturdifferenz SD = J ∑ j =1 | a m j − a w j | ist die Summe der absoluten Anteilsdifferenzen , hier zwischen den sektoralen Beschäftigungsanteilen von Männern und Frauen. Für unsere Beispieldaten mit drei Sektoren finden wir SD = | 0 . 347 − 0 . 12 | + | 0 . 244 − 0 . 223 | + | 0 . 409 − 0 . 657 | = | 0 . 227 | + | 0 . 021 | + |− 0 . 248 | = 0 . 496 . und 8 Dienstleistungen wurden zum Sektor Dienste zusammengefasst. 5 5 . 2 M a ß z a h l e n f ü r S t r u k t u r u n t e r s c h i e d e 8 5 T a b e l l e 5 . 1 : S e k t o r a l e B e s c h ä f t i g u n g s a n t e i l e . S e k t o r A l l e ( a j ) F r a u e n ( a w j ) M ä n n e r ( a m j ) P r o d u k t i o n 0 . 2 3 0 0 . 1 2 0 0 . 3 4 7 H a n d e l 0 . 2 3 3 0 . 2 2 3 0 . 2 4 4 D i e n s t e 0 . 5 3 7 0 . 6 5 7 0 . 4 0 9 O ffe n b a r g i l t f ü r d i e A n t e i l e a j , a w j u n d a m j , d a s s s i e s i c h f ü r d i e J = 3 S e k t o r e n j e w e i l s z u 1 s u m m i e r e n : 3 ∑ j = 1 a j = 3 ∑ j = 1 a w j = 3 ∑ j = 1 a m j = 1 . E s i s t e r s i c h t l i c h , d a s s n u r r e l a t i v w e n i g e F r a u e n i m S e k t o r P r o d u k t i o n , a b e r f a s t z w e i D r i t t e l i m S e k t o r D i e n s t e t ä t i g s i n d . H i n g e g e n i s t g u t e i n D r i t t e l d e r M ä n n e r i m S e k t o r P r o d u k t i o n t ä t i g u n d d e r A n t e i l d e s S e k t o r s D i e n s t e i s t b e i d e n M ä n n e r n d e u t l i c h g e r i n g e r a l s b e i d e n F r a u e n . I m F o l g e n d e n b e t r a c h t e n w i r m e h r e r e M a ß z a h l e n z u r Q u a n t i fiz i e r u n g v o n S t r u k t u r u n t e r s c h i e d e n . F ü r d i e b e i d e n z u v e r g l e i c h e n d e n G r u p p e n v e r w e n d e n w i r u n s e r e m B e i s p i e l f o l g e n d d i e I n d i z e s m u n d w . I n a n a l o g e r W e i s e k ö n n t e n a u c h a n d e r e G r u p p e n ( L ä n d e r , R e g i o n e n , e t c . ) v e r g l i c h e n w e r d e n . D i e b e i d e n I n d i z e s m u n d w k ö n n t e n d a n n d u r c h g e e i g n e t e a n d e r e I n d i z e s e r s e t z t w e r d e n . 5 . 2 . 1 S t r u k t u r d i ffe r e n z u n d n o r m i e r t e S t r u k t u r d i ffe r e n z D i e S t r u k t u r d i ffe r e n z S D = J ∑ j = 1 | a m j − a w j | i s t d i e S u m m e d e r a b s o l u t e n A n t e i l s d i ffe r e n z e n , h i e r z w i s c h e n d e n s e k t o r a l e n B e s c h ä f t i g u n g s a n t e i l e n v o n M ä n n e r n u n d F r a u e n . F ü r u n s e r e B e i s p i e l d a t e n m i t d r e i S e k t o r e n fin d e n w i r S D = | 0 . 3 4 7 − 0 . 1 2 | + | 0 . 2 4 4 − 0 . 2 2 3 | + | 0 . 4 0 9 − 0 . 6 5 7 | = | 0 . 2 2 7 | + | 0 . 0 2 1 | + | − 0 . 2 4 8 | = 0 . 4 9 6 . u n d 8 D i e n s t l e i s t u n g e n w u r d e n z u m S e k t o r D i e n s t e z u s a m m e n g e f a s s t . 5 5.2 Maßzahlen für Strukturunterschiede 91 Tabelle 5.1: Beschäftigungsanteile der Berufe. Beruf Alle ( a j ) Frauen ( a w j ) Männer ( a m j ) Akademiker 0.321 0.287 0.348 Angestellte 0.588 0.639 0.549 Helfer 0.090 0.074 0.103 J = 3 Berufen jeweils zu 1 summieren: 3 ∑ j =1 a j = 3 ∑ j =1 a w j = 3 ∑ j =1 a m j = 1 . Es ist ersichtlich, dass relativ weniger Frauen in den Berufsgruppen Akademiker und Helfer und häufiger in der Berufsgruppe Angestellte tätig sind. Im Folgenden betrachten wir mehrere Maßzahlen zur Quantifizierung von Strukturunterschieden. Für die beiden zu vergleichenden Gruppen verwenden wir unserem Beispiel folgend die Indizes m und w. In analoger Weise könnten auch andere Gruppen (Länder, Regionen, etc.) verglichen werden. Die beiden Indizes m und w könnten dann durch geeignete andere Indizes ersetzt werden. 5.2.1 Strukturdifferenz und normierte Strukturdifferenz Die Strukturdifferenz SD = J ∑ j =1 | a m j − a w j | ist die Summe der absoluten Anteilsdifferenzen , hier zwischen den beruflichen Beschäftigungsanteilen von Männern und Frauen. Für unsere Beispieldaten mit drei Berufen finden wir SD = | 0 . 348 − 0 . 287 | + | 0 . 549 − 0 . 639 | + | 0 . 103 − 0 . 074 | = | 0 . 061 | + |− 0 . 09 | + | 0 . 029 | = 0 . 18 . Für die Strukturdifferenz gilt 0 ≤ SD ≤ 2. Die Interpretation wird durch eine Normierung erleichtert. Üblich ist die Normierung auf den Bereich [0 , 1]. Die Intervallgrenzen geben dann den minimalen (0) und den maximalen (1) Unterschied an. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 91 03.09.2019 13: 55: 45 <?page no="92"?> 92 5 Strukturanalysen Die Multiplikation der Strukturdifferenz mit dem Faktor 0 . 5 führt zur normierten Strukturdifferenz (NSD), auch Dissimilaritätsindex genannt NSD = 0 . 5 J ∑ j =1 | a m j − a w j | = 0 . 5 SD , mit 0 ≤ NSD ≤ 1. Für unser Beispiel finden wir NSD = 0 . 5 SD = 0 . 5 · 0 . 18 = 0 . 09 . Die normierte Strukturdifferenz NSD gibt den Anteil der Beschäftigten an, der zwischen Berufen wandern müsste, um eine Gleichheit der Struktur zu erreichen. In unserem Beispiel müssten 9 % der Männer (Frauen) den Beruf wechseln, um die gleiche Anteilsstruktur der Frauen (Männer) zu erreichen. R-5-3 5.2.2 Euklidische Norm Die euklidische Norm für Strukturdifferenzen EN = √√√√ J ∑ j =1 ( a m j − a w j ) 2 ist die Quadratwurzel der Summe der quadrierten Anteilsdifferenzen. Für die euklidische Norm gilt 0 ≤ EN ≤ √ 2 . Durch das Quadrieren erhalten große Anteilsdifferenzen ein etwas stärkeres Gewicht als bei der Strukturdifferenz. Für unsere Beispieldaten mit drei Berufen finden wir EN = √ (0 . 348 − 0 . 287) 2 + (0 . 549 − 0 . 639) 2 + (0 . 103 − 0 . 074) 2 = √ (0 . 061) 2 + ( − 0 . 09) 2 + (0 . 029) 2 = 0 . 113 . Für die euklidische Norm gibt es keine vergleichbar anschauliche Interpretation wie für die normierte Strukturdifferenz. R-5-4 5.3 Additive Komponentenzerlegung Die Komponentenzerlegung ist eine einfache und anschauliche Methode der Strukturanalyse. Das Ziel ist, durch definitorische 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 92 03.09.2019 13: 55: 45 <?page no="93"?> 5.2 Maßzahlen für Strukturunterschiede 85 Tabelle 5.1: Sektorale Beschäftigungsanteile. Sektor Alle ( a j ) Frauen ( a w j ) Männer ( a m j ) Produktion 0.230 0.120 0.347 Handel 0.233 0.223 0.244 Dienste 0.537 0.657 0.409 Offenbar gilt für die Anteile a j , a w j und a m j , dass sie sich für die J = 3 Sektoren jeweils zu 1 summieren: 3 ∑ j =1 a j = 3 ∑ j =1 a w j = 3 ∑ j =1 a m j = 1 . Es ist ersichtlich, dass nur relativ wenige Frauen im Sektor Produktion, aber fast zwei Drittel im Sektor Dienste tätig sind. Hingegen ist gut ein Drittel der Männer im Sektor Produktion tätig und der Anteil des Sektors Dienste ist bei den Männern deutlich geringer als bei den Frauen. Im Folgenden betrachten wir mehrere Maßzahlen zur Quantifizierung von Strukturunterschieden. Für die beiden zu vergleichenden Gruppen verwenden wir unserem Beispiel folgend die Indizes m und w. In analoger Weise könnten auch andere Gruppen (Länder, Regionen, etc.) verglichen werden. Die beiden Indizes m und w könnten dann durch geeignete andere Indizes ersetzt werden. 5.2.1 Strukturdifferenz und normierte Strukturdifferenz Die Strukturdifferenz SD = J ∑ j =1 | a m j − a w j | ist die Summe der absoluten Anteilsdifferenzen , hier zwischen den sektoralen Beschäftigungsanteilen von Männern und Frauen. Für unsere Beispieldaten mit drei Sektoren finden wir SD = | 0 . 347 − 0 . 12 | + | 0 . 244 − 0 . 223 | + | 0 . 409 − 0 . 657 | = | 0 . 227 | + | 0 . 021 | + |− 0 . 248 | = 0 . 496 . und 8 Dienstleistungen wurden zum Sektor Dienste zusammengefasst. 5 5 . 2 M a ß z a h l e n f ü r S t r u k t u r u n t e r s c h i e d e 8 5 T a b e l l e 5 . 1 : S e k t o r a l e B e s c h ä f t i g u n g s a n t e i l e . S e k t o r A l l e ( a j ) F r a u e n ( a w j ) M ä n n e r ( a m j ) P r o d u k t i o n 0 . 2 3 0 0 . 1 2 0 0 . 3 4 7 H a n d e l 0 . 2 3 3 0 . 2 2 3 0 . 2 4 4 D i e n s t e 0 . 5 3 7 0 . 6 5 7 0 . 4 0 9 O ffe n b a r g i l t f ü r d i e A n t e i l e a j , a w j u n d a m j , d a s s s i e s i c h f ü r d i e J = 3 S e k t o r e n j e w e i l s z u 1 s u m m i e r e n : 3 ∑ j = 1 a j = 3 ∑ j = 1 a w j = 3 ∑ j = 1 a m j = 1 . E s i s t e r s i c h t l i c h , d a s s n u r r e l a t i v w e n i g e F r a u e n i m S e k t o r P r o d u k t i o n , a b e r f a s t z w e i D r i t t e l i m S e k t o r D i e n s t e t ä t i g s i n d . H i n g e g e n i s t g u t e i n D r i t t e l d e r M ä n n e r i m S e k t o r P r o d u k t i o n t ä t i g u n d d e r A n t e i l d e s S e k t o r s D i e n s t e i s t b e i d e n M ä n n e r n d e u t l i c h g e r i n g e r a l s b e i d e n F r a u e n . I m F o l g e n d e n b e t r a c h t e n w i r m e h r e r e M a ß z a h l e n z u r Q u a n t i fiz i e r u n g v o n S t r u k t u r u n t e r s c h i e d e n . F ü r d i e b e i d e n z u v e r g l e i c h e n d e n G r u p p e n v e r w e n d e n w i r u n s e r e m B e i s p i e l f o l g e n d d i e I n d i z e s m u n d w . I n a n a l o g e r W e i s e k ö n n t e n a u c h a n d e r e G r u p p e n ( L ä n d e r , R e g i o n e n , e t c . ) v e r g l i c h e n w e r d e n . D i e b e i d e n I n d i z e s m u n d w k ö n n t e n d a n n d u r c h g e e i g n e t e a n d e r e I n d i z e s e r s e t z t w e r d e n . 5 . 2 . 1 S t r u k t u r d i ffe r e n z u n d n o r m i e r t e S t r u k t u r d i ffe r e n z D i e S t r u k t u r d i ffe r e n z S D = J ∑ j = 1 | a m j − a w j | i s t d i e S u m m e d e r a b s o l u t e n A n t e i l s d i ffe r e n z e n , h i e r z w i s c h e n d e n s e k t o r a l e n B e s c h ä f t i g u n g s a n t e i l e n v o n M ä n n e r n u n d F r a u e n . F ü r u n s e r e B e i s p i e l d a t e n m i t d r e i S e k t o r e n fin d e n w i r S D = | 0 . 3 4 7 − 0 . 1 2 | + | 0 . 2 4 4 − 0 . 2 2 3 | + | 0 . 4 0 9 − 0 . 6 5 7 | = | 0 . 2 2 7 | + | 0 . 0 2 1 | + | − 0 . 2 4 8 | = 0 . 4 9 6 . u n d 8 D i e n s t l e i s t u n g e n w u r d e n z u m S e k t o r D i e n s t e z u s a m m e n g e f a s s t . 5 5.3 Additive Komponentenzerlegung 93 Zerlegungen bzw. tautologische Erweiterungen Einblicke in mögliche Bedingungen von vorliegenden Unterschieden zwischen Gruppen zu gewinnen. Als Beispiel betrachten wir erneut Männer und Frauen und deren Stundenlöhne. In unserem Datensatz finden wir einen Durchschnittslohn für Männer von 15 . 06 Euro und für Frauen von 12 . 29 Euro. Männer verdienen im Durchschnitt je Stunde somit 23 % bzw. 2 . 77 Euro mehr als Frauen. Bei der Suche nach möglichen Ursachen für diese erstaunlich große Differenz können Komponentenzerlegungen hilfreich sein. Zum Beispiel könnte eine unterschiedliche Berufsstruktur von Männern und Frauen zur Erklärung der Lohndifferenz beitragen, wenn etwa Frauen in größerem Ausmaß als Männer in Niedriglohnberufen beschäftigt wären. Tabelle 5.2 enthält nochmals die Berufsstruktur von Männern und Frauen - erneut für die drei aggregierten Berufe - und daneben die beruflichen Durchschnittslöhne. Den durchschnittlichen Stundenlohn der Männer in Beruf j bezeichnen wir mit ¯ l m j und den der Frauen mit ¯ l w j . Die Durchschnittslöhne für Männer bzw. Frauen insgesamt ergeben sich aus den mit den beruflichen Beschäftigungsanteilen gewichteten beruflichen Durchschnittlöhnen R-5-5 ¯ l m = J ∑ j =1 ¯ l m j a m j = 0 . 348 · 20 . 02 + 0 . 549 · 12 . 8 + 0 . 103 · 10 . 37 = 15 . 06 ¯ l w = J ∑ j =1 ¯ l w j a w j = 0 . 287 · 16 . 14 + 0 . 639 · 11 . 01 + 0 . 074 · 8 . 4 = 12 . 29 . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 93 03.09.2019 13: 55: 46 <?page no="94"?> 94 5 Strukturanalysen Tabelle 5.2: Beschäftigungsanteile und Durchschnittslöhne Beschäftigung Stundenlöhne Beruf Alle Frauen Männer Alle Frauen Männer Akademiker 0.321 0.287 0.348 18.51 16.14 20.02 Angestellte 0.588 0.639 0.549 11.95 11.01 12.80 Helfer 0.090 0.074 0.103 9.67 8.40 10.37 5.3.1 Standardisierung Die Höhe des Durchschnittslohns hängt sowohl von der Höhe der geschlechtsspezifischen beruflichen Durchschnittslöhne (Niveau) als auch von der geschlechtsspezifischen beruflichen Berufsstruktur ab. Um den Beitrag einer der beiden Komponenten - Niveau und Struktur - zu isolieren, kann bzgl. der anderen Komponente standardisiert werden. Wählen wir z. B. die Berufsstruktur der Männer als Standard, ergibt sich für Frauen ein fiktiver durchschnittlicher Stundenlohn. Dieser gibt an, welchen durchschnittlichen Stundenlohn Frauen verdienen würden, wenn sie ihre tatsächlichen beruflichen Durchschnittslöhne hätten, ihre Berufsstruktur aber der der Männer gleichen würde. Dieser fiktive (kontrafaktische) Stundenlohn ¯ l w ( a m ) ergibt sich als ¯ l w ( a m ) = J ∑ j =1 ¯ l w j a m j = 12 . 53 . Man kann ebenso auf die durchschnittlichen beruflichen Stundenlöhne der Männer standardisieren. In diesem Fall erhalten wir den fiktiven durchschnittlichen Stundenlohn der Frauen, den sie erhalten würden, wenn sie bei ihrer tatsächlichen beruflichen Berufsstruktur die beruflichen Durchschnittslöhne der Männer erhalten würden. Dieser fiktive (kontrafaktische) Stundenlohn ¯ l w (¯ l m ) ergibt sich als ¯ l w (¯ l m ) = J ∑ j =1 ¯ l m j a w j = 14 . 69 . Analog kann bzgl. der beruflichen Berufsstruktur und der beruflichen Lohnhöhe der Frauen standardisiert werden. In diesem Fall 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 94 03.09.2019 13: 55: 46 <?page no="95"?> 5.2 Maßzahlen für Strukturunterschiede 85 Tabelle 5.1: Sektorale Beschäftigungsanteile. Sektor Alle ( a j ) Frauen ( a w j ) Männer ( a m j ) Produktion 0.230 0.120 0.347 Handel 0.233 0.223 0.244 Dienste 0.537 0.657 0.409 Offenbar gilt für die Anteile a j , a w j und a m j , dass sie sich für die J = 3 Sektoren jeweils zu 1 summieren: 3 ∑ j =1 a j = 3 ∑ j =1 a w j = 3 ∑ j =1 a m j = 1 . Es ist ersichtlich, dass nur relativ wenige Frauen im Sektor Produktion, aber fast zwei Drittel im Sektor Dienste tätig sind. Hingegen ist gut ein Drittel der Männer im Sektor Produktion tätig und der Anteil des Sektors Dienste ist bei den Männern deutlich geringer als bei den Frauen. Im Folgenden betrachten wir mehrere Maßzahlen zur Quantifizierung von Strukturunterschieden. Für die beiden zu vergleichenden Gruppen verwenden wir unserem Beispiel folgend die Indizes m und w. In analoger Weise könnten auch andere Gruppen (Länder, Regionen, etc.) verglichen werden. Die beiden Indizes m und w könnten dann durch geeignete andere Indizes ersetzt werden. 5.2.1 Strukturdifferenz und normierte Strukturdifferenz Die Strukturdifferenz SD = J ∑ j =1 | a m j − a w j | ist die Summe der absoluten Anteilsdifferenzen , hier zwischen den sektoralen Beschäftigungsanteilen von Männern und Frauen. Für unsere Beispieldaten mit drei Sektoren finden wir SD = | 0 . 347 − 0 . 12 | + | 0 . 244 − 0 . 223 | + | 0 . 409 − 0 . 657 | = | 0 . 227 | + | 0 . 021 | + |− 0 . 248 | = 0 . 496 . und 8 Dienstleistungen wurden zum Sektor Dienste zusammengefasst. 5 5 . 2 M a ß z a h l e n f ü r S t r u k t u r u n t e r s c h i e d e 8 5 T a b e l l e 5 . 1 : S e k t o r a l e B e s c h ä f t i g u n g s a n t e i l e . S e k t o r A l l e ( a j ) F r a u e n ( a w j ) M ä n n e r ( a m j ) P r o d u k t i o n 0 . 2 3 0 0 . 1 2 0 0 . 3 4 7 H a n d e l 0 . 2 3 3 0 . 2 2 3 0 . 2 4 4 D i e n s t e 0 . 5 3 7 0 . 6 5 7 0 . 4 0 9 O ffe n b a r g i l t f ü r d i e A n t e i l e a j , a w j u n d a m j , d a s s s i e s i c h f ü r d i e J = 3 S e k t o r e n j e w e i l s z u 1 s u m m i e r e n : 3 ∑ j = 1 a j = 3 ∑ j = 1 a w j = 3 ∑ j = 1 a m j = 1 . E s i s t e r s i c h t l i c h , d a s s n u r r e l a t i v w e n i g e F r a u e n i m S e k t o r P r o d u k t i o n , a b e r f a s t z w e i D r i t t e l i m S e k t o r D i e n s t e t ä t i g s i n d . H i n g e g e n i s t g u t e i n D r i t t e l d e r M ä n n e r i m S e k t o r P r o d u k t i o n t ä t i g u n d d e r A n t e i l d e s S e k t o r s D i e n s t e i s t b e i d e n M ä n n e r n d e u t l i c h g e r i n g e r a l s b e i d e n F r a u e n . I m F o l g e n d e n b e t r a c h t e n w i r m e h r e r e M a ß z a h l e n z u r Q u a n t i fiz i e r u n g v o n S t r u k t u r u n t e r s c h i e d e n . F ü r d i e b e i d e n z u v e r g l e i c h e n d e n G r u p p e n v e r w e n d e n w i r u n s e r e m B e i s p i e l f o l g e n d d i e I n d i z e s m u n d w . I n a n a l o g e r W e i s e k ö n n t e n a u c h a n d e r e G r u p p e n ( L ä n d e r , R e g i o n e n , e t c . ) v e r g l i c h e n w e r d e n . D i e b e i d e n I n d i z e s m u n d w k ö n n t e n d a n n d u r c h g e e i g n e t e a n d e r e I n d i z e s e r s e t z t w e r d e n . 5 . 2 . 1 S t r u k t u r d i ffe r e n z u n d n o r m i e r t e S t r u k t u r d i ffe r e n z D i e S t r u k t u r d i ffe r e n z S D = J ∑ j = 1 | a m j − a w j | i s t d i e S u m m e d e r a b s o l u t e n A n t e i l s d i ffe r e n z e n , h i e r z w i s c h e n d e n s e k t o r a l e n B e s c h ä f t i g u n g s a n t e i l e n v o n M ä n n e r n u n d F r a u e n . F ü r u n s e r e B e i s p i e l d a t e n m i t d r e i S e k t o r e n fin d e n w i r S D = | 0 . 3 4 7 − 0 . 1 2 | + | 0 . 2 4 4 − 0 . 2 2 3 | + | 0 . 4 0 9 − 0 . 6 5 7 | = | 0 . 2 2 7 | + | 0 . 0 2 1 | + | − 0 . 2 4 8 | = 0 . 4 9 6 . u n d 8 D i e n s t l e i s t u n g e n w u r d e n z u m S e k t o r D i e n s t e z u s a m m e n g e f a s s t . 5 5.3 Additive Komponentenzerlegung 95 resultieren fiktive durchschnittliche Stundenlöhne der Männer ¯ l m ( a w ) = J ∑ j =1 ¯ l m j a w j = 14 . 69 ¯ l m (¯ l w ) = J ∑ j =1 ¯ l w j a m j = 12 . 53 . Offenkundig gilt ¯ l w (¯ l m ) = ¯ l m ( a w ) und ¯ l w ( a m ) = ¯ l m (¯ l w ) . R-5-6 5.3.2 Niveau- und Struktureffekt Ausgehend von den standardisierten Durchschnittslöhnen der Frauen ¯ l w ( a m ) und ¯ l w (¯ l m ) lassen sich Bedingungen des Unterschieds der Durchschnittslöhne von Männern und Frauen isolieren. Vergleichen wir den tatsächlichen Durchschnittslohn der Männer ¯ l m mit dem fiktiven auf die Berufsstruktur der Männer standardisierten Durchschnittslohn der Frauen ¯ l w ( a m ) , wird der Einfluss unterschiedlicher beruflicher Lohnhöhen isoliert. Wir können deshalb schreiben ¯ l m − ¯ l w ( a m ) = J ∑ j =1 ¯ l m j a m j − J ∑ j =1 ¯ l w j a m j = J ∑ j =1 (¯ l m j − ¯ l w j ) a m j = 15 . 06 − 12 . 53 = 2 . 54 . Diese Lohndifferenz bei gleicher Berufsstruktur isoliert den Einfluss des unterschiedlichen Niveaus der beruflichen Durchschnittslöhne, wir bezeichnen ihn als Niveaueffekt. Vergleichen wir hingegen den tatsächlichen Durchschnittslohn der Männer ¯ l m mit dem fiktiven auf die beruflichen Durchschnittslöhne der Männer standardisierte Durchschnittslohn der Frauen ¯ l w (¯ l m ) , wird der Einfluss der unterschiedlichen Berufsstruktur isoliert. Es ergibt sich ¯ l m − ¯ l w (¯ l m ) = J ∑ j =1 ¯ l m j a m j − J ∑ j =1 ¯ l m j a w j = J ∑ j =1 ¯ l m j ( a m j − a w j ) = 15 . 06 − 14 . 69 = 0 . 37 . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 95 03.09.2019 13: 55: 46 <?page no="96"?> 96 5 Strukturanalysen Diese Lohndifferenz bei gleichen beruflichen Durchschnittslöhnen isoliert den Beitrag der unterschiedlichen Berufsstruktur, wir bezeichnen ihn als Struktureffekt. Für unsere Daten erhalten wir einen hohen Niveau- und einen vernachlässigbaren Struktureffekt. Bei gleicher Berufsstruktur und tatsächlichen geschlechtsspezifischen beruflichen Durchschnittslöhnen ergibt sich für Männer ein um rund 3 Euro höherer Durchschnittslohn. Bei gleichen beruflichen Durchschnittslöhnen und tatsächlichen geschlechtsspezifischen Berufsstrukturen ergibt sich praktisch kein Lohnunterschied zwischen Männern und Frauen. Die Ergebnisse weisen darauf hin, dass die beruflichen Lohnunterschiede für Männer und Frauen, nicht aber die unterschiedlichen Berufsstrukturen als eine wesentliche Bedingung für den Lohnunterschied von Männern und Frauen betrachtet werden können. Verwenden wir zur Standardisierung die Berufsstruktur und Lohnhöhe der Frauen, erhalten wir ebenfalls einen Niveau- und einen Struktureffekt. Der Niveaueffekt ist ¯ l m ( a w ) − ¯ l w = J ∑ j =1 ¯ l m j a w j − J ∑ j =1 ¯ l w j a w j = J ∑ j =1 (¯ l m j − ¯ l w j ) a w j = 14 . 69 − 12 . 29 = 2 . 4 . und der Struktureffekt ist ¯ l m (¯ l w ) − ¯ l w = J ∑ j =1 ¯ l w j a m j − J ∑ j =1 ¯ l w j a w j = J ∑ j =1 ¯ l w j ( a m j − a w j ) = 12 . 53 − 12 . 29 = 0 . 24 . Diese Standardisierung führt zu geringfügig anderen Werten, die qualitative Aussage bleibt jedoch unverändert. R-5-7 5.3.3 Niveau-, Struktur- und Mischeffekt Ausgangspunkt unserer Überlegungen war die Differenz der durchschnittlichen Stundenlöhne zwischen Männern und Frauen ¯ l m − ¯ l w = J ∑ j =1 ¯ l m j a m j − J ∑ j =1 ¯ l w j a w j = 15 . 06 − 12 . 29 = 2 . 77 . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 96 03.09.2019 13: 55: 47 <?page no="97"?> 5.2 Maßzahlen für Strukturunterschiede 85 Tabelle 5.1: Sektorale Beschäftigungsanteile. Sektor Alle ( a j ) Frauen ( a w j ) Männer ( a m j ) Produktion 0.230 0.120 0.347 Handel 0.233 0.223 0.244 Dienste 0.537 0.657 0.409 Offenbar gilt für die Anteile a j , a w j und a m j , dass sie sich für die J = 3 Sektoren jeweils zu 1 summieren: 3 ∑ j =1 a j = 3 ∑ j =1 a w j = 3 ∑ j =1 a m j = 1 . Es ist ersichtlich, dass nur relativ wenige Frauen im Sektor Produktion, aber fast zwei Drittel im Sektor Dienste tätig sind. Hingegen ist gut ein Drittel der Männer im Sektor Produktion tätig und der Anteil des Sektors Dienste ist bei den Männern deutlich geringer als bei den Frauen. Im Folgenden betrachten wir mehrere Maßzahlen zur Quantifizierung von Strukturunterschieden. Für die beiden zu vergleichenden Gruppen verwenden wir unserem Beispiel folgend die Indizes m und w. In analoger Weise könnten auch andere Gruppen (Länder, Regionen, etc.) verglichen werden. Die beiden Indizes m und w könnten dann durch geeignete andere Indizes ersetzt werden. 5.2.1 Strukturdifferenz und normierte Strukturdifferenz Die Strukturdifferenz SD = J ∑ j =1 | a m j − a w j | ist die Summe der absoluten Anteilsdifferenzen , hier zwischen den sektoralen Beschäftigungsanteilen von Männern und Frauen. Für unsere Beispieldaten mit drei Sektoren finden wir SD = | 0 . 347 − 0 . 12 | + | 0 . 244 − 0 . 223 | + | 0 . 409 − 0 . 657 | = | 0 . 227 | + | 0 . 021 | + |− 0 . 248 | = 0 . 496 . und 8 Dienstleistungen wurden zum Sektor Dienste zusammengefasst. 5 5 . 2 M a ß z a h l e n f ü r S t r u k t u r u n t e r s c h i e d e 8 5 T a b e l l e 5 . 1 : S e k t o r a l e B e s c h ä f t i g u n g s a n t e i l e . S e k t o r A l l e ( a j ) F r a u e n ( a w j ) M ä n n e r ( a m j ) P r o d u k t i o n 0 . 2 3 0 0 . 1 2 0 0 . 3 4 7 H a n d e l 0 . 2 3 3 0 . 2 2 3 0 . 2 4 4 D i e n s t e 0 . 5 3 7 0 . 6 5 7 0 . 4 0 9 O ffe n b a r g i l t f ü r d i e A n t e i l e a j , a w j u n d a m j , d a s s s i e s i c h f ü r d i e J = 3 S e k t o r e n j e w e i l s z u 1 s u m m i e r e n : 3 ∑ j = 1 a j = 3 ∑ j = 1 a w j = 3 ∑ j = 1 a m j = 1 . E s i s t e r s i c h t l i c h , d a s s n u r r e l a t i v w e n i g e F r a u e n i m S e k t o r P r o d u k t i o n , a b e r f a s t z w e i D r i t t e l i m S e k t o r D i e n s t e t ä t i g s i n d . H i n g e g e n i s t g u t e i n D r i t t e l d e r M ä n n e r i m S e k t o r P r o d u k t i o n t ä t i g u n d d e r A n t e i l d e s S e k t o r s D i e n s t e i s t b e i d e n M ä n n e r n d e u t l i c h g e r i n g e r a l s b e i d e n F r a u e n . I m F o l g e n d e n b e t r a c h t e n w i r m e h r e r e M a ß z a h l e n z u r Q u a n t i fiz i e r u n g v o n S t r u k t u r u n t e r s c h i e d e n . F ü r d i e b e i d e n z u v e r g l e i c h e n d e n G r u p p e n v e r w e n d e n w i r u n s e r e m B e i s p i e l f o l g e n d d i e I n d i z e s m u n d w . I n a n a l o g e r W e i s e k ö n n t e n a u c h a n d e r e G r u p p e n ( L ä n d e r , R e g i o n e n , e t c . ) v e r g l i c h e n w e r d e n . D i e b e i d e n I n d i z e s m u n d w k ö n n t e n d a n n d u r c h g e e i g n e t e a n d e r e I n d i z e s e r s e t z t w e r d e n . 5 . 2 . 1 S t r u k t u r d i ffe r e n z u n d n o r m i e r t e S t r u k t u r d i ffe r e n z D i e S t r u k t u r d i ffe r e n z S D = J ∑ j = 1 | a m j − a w j | i s t d i e S u m m e d e r a b s o l u t e n A n t e i l s d i ffe r e n z e n , h i e r z w i s c h e n d e n s e k t o r a l e n B e s c h ä f t i g u n g s a n t e i l e n v o n M ä n n e r n u n d F r a u e n . F ü r u n s e r e B e i s p i e l d a t e n m i t d r e i S e k t o r e n fin d e n w i r S D = | 0 . 3 4 7 − 0 . 1 2 | + | 0 . 2 4 4 − 0 . 2 2 3 | + | 0 . 4 0 9 − 0 . 6 5 7 | = | 0 . 2 2 7 | + | 0 . 0 2 1 | + | − 0 . 2 4 8 | = 0 . 4 9 6 . u n d 8 D i e n s t l e i s t u n g e n w u r d e n z u m S e k t o r D i e n s t e z u s a m m e n g e f a s s t . 5 5.3 Additive Komponentenzerlegung 97 Durch Standardisierung auf die Berufsstruktur bzw. die beruflichen Durchschnittslöhne der Männer haben wir den Niveau- und den Struktureffekt ermittelt. Für die Summe der beiden Effekte erhalten wir ¯ l m − ¯ l w ( a m ) + ¯ l m − ¯ l w (¯ l m ) = J ∑ j =1 (¯ l m j − ¯ l w j ) a m j + J ∑ j =1 ¯ l m j ( a m j − a w j ) = 2 . 54 + 0 . 37 = 2 . 91 . Die Summe von Niveau- und Struktureffekt entspricht nicht der gesamten Differenz der Durchschnittslöhne. Betrachten wir die Summe der beiden isolierten Effekte genauer, finden wir J ∑ j =1 (¯ l m j − ¯ l w j ) a m j + J ∑ j =1 ¯ l m j ( a m j − a w j ) = J ∑ j =1 ¯ l m j a m j − J ∑ j =1 ¯ l w j a m j + J ∑ j =1 ¯ l m j a m j − J ∑ j =1 ¯ l m j a w j . Um zur gesamten Differenz der Durchschnittslöhne zu gelangen, müssen folgende Terme addiert bzw. subtrahiert werden − J ∑ j =1 ¯ l w j a w j + J ∑ j =1 ¯ l w j a m j − J ∑ j =1 ¯ l m j a m j + J ∑ j =1 ¯ l m j a w j = − J ∑ j =1 (¯ l m j − ¯ l w j )( a m j − a w j ) . In diesen Term gehen die Produkte der Differenzen von Durchschnittslöhnen und Beschäftigungsanteilen der Berufe ein. Er wird als Mischeffekt bezeichnet. Eine Komponentenzerlegung ist umso erkenntnisträchtiger, je kleiner der Mischeffekt ist, da dann eine weitgehende Aufteilung der zu erklärenden Gesamtdifferenz in Niveau- und Struktureffekt gelingt. Für die vollständige Zerlegung der Differenz in den Durchschnittslöhnen finden wir somit 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 97 03.09.2019 13: 55: 47 <?page no="98"?> 98 5 Strukturanalysen ¯ l m − ¯ l w = J ∑ j =1 ¯ l m j a m j − J ∑ j =1 ¯ l w j a w j = 15 . 06 − 12 . 29 = 2 . 77 = J ∑ j =1 (¯ l m j − ¯ l w j ) a m j + J ∑ j =1 ¯ l m j ( a m j − a w j ) − J ∑ j =1 (¯ l m j − ¯ l w j )( a m j − a w j ) = 2 . 54 + 0 . 37 − 0 . 13 = 2 . 77 , d.h. die Differenz besteht aus dem Niveau-, Struktur- und Mischeffekt. In analoger Weise kann auch auf die beruflichen Durchschnittslöhne und Beschäftigungsanteile der Frauen standardisiert werden. In diesem Fall resultiert die Zerlegung ¯ l m − ¯ l w = J ∑ j =1 ¯ l m j a m j − J ∑ j =1 ¯ l w j a w j = J ∑ j =1 (¯ l m j − ¯ l w j ) a w j + J ∑ j =1 ¯ l w j ( a m j − a w j ) + J ∑ j =1 (¯ l m j − ¯ l w j )( a m j − a w j ) = 2 . 4 + 0 . 24 + 0 . 13 = 2 . 77 . Beide Komponentenzerlegungen führen zur Schlussfolgerung, dass die beträchtliche Differenz in den Durchschnittslöhnen von Männern und Frauen fast vollständig auf Differenzen in den beruflichen Durchschnittslöhnen zurückgeführt werden kann und die unterschiedliche Berufsstruktur kaum einen Beitrag liefert. Kein expliziter Mischeffekt tritt auf, wenn bei der Ermittlung von Niveau- und Struktureffekt nicht einheitlich standardisiert wird. Wählen wir z. B. die Berufsstruktur der Männer für die Ermittlung des Niveaueffekts und die beruflichen Durchschnittslöhne der Frauen für die Ermittlung des Struktureffekts zur Standardisierung, 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 98 03.09.2019 13: 55: 48 <?page no="99"?> 5.2 Maßzahlen für Strukturunterschiede 85 Tabelle 5.1: Sektorale Beschäftigungsanteile. Sektor Alle ( a j ) Frauen ( a w j ) Männer ( a m j ) Produktion 0.230 0.120 0.347 Handel 0.233 0.223 0.244 Dienste 0.537 0.657 0.409 Offenbar gilt für die Anteile a j , a w j und a m j , dass sie sich für die J = 3 Sektoren jeweils zu 1 summieren: 3 ∑ j =1 a j = 3 ∑ j =1 a w j = 3 ∑ j =1 a m j = 1 . Es ist ersichtlich, dass nur relativ wenige Frauen im Sektor Produktion, aber fast zwei Drittel im Sektor Dienste tätig sind. Hingegen ist gut ein Drittel der Männer im Sektor Produktion tätig und der Anteil des Sektors Dienste ist bei den Männern deutlich geringer als bei den Frauen. Im Folgenden betrachten wir mehrere Maßzahlen zur Quantifizierung von Strukturunterschieden. Für die beiden zu vergleichenden Gruppen verwenden wir unserem Beispiel folgend die Indizes m und w. In analoger Weise könnten auch andere Gruppen (Länder, Regionen, etc.) verglichen werden. Die beiden Indizes m und w könnten dann durch geeignete andere Indizes ersetzt werden. 5.2.1 Strukturdifferenz und normierte Strukturdifferenz Die Strukturdifferenz SD = J ∑ j =1 | a m j − a w j | ist die Summe der absoluten Anteilsdifferenzen , hier zwischen den sektoralen Beschäftigungsanteilen von Männern und Frauen. Für unsere Beispieldaten mit drei Sektoren finden wir SD = | 0 . 347 − 0 . 12 | + | 0 . 244 − 0 . 223 | + | 0 . 409 − 0 . 657 | = | 0 . 227 | + | 0 . 021 | + |− 0 . 248 | = 0 . 496 . und 8 Dienstleistungen wurden zum Sektor Dienste zusammengefasst. 5 5 . 2 M a ß z a h l e n f ü r S t r u k t u r u n t e r s c h i e d e 8 5 T a b e l l e 5 . 1 : S e k t o r a l e B e s c h ä f t i g u n g s a n t e i l e . S e k t o r A l l e ( a j ) F r a u e n ( a w j ) M ä n n e r ( a m j ) P r o d u k t i o n 0 . 2 3 0 0 . 1 2 0 0 . 3 4 7 H a n d e l 0 . 2 3 3 0 . 2 2 3 0 . 2 4 4 D i e n s t e 0 . 5 3 7 0 . 6 5 7 0 . 4 0 9 O ffe n b a r g i l t f ü r d i e A n t e i l e a j , a w j u n d a m j , d a s s s i e s i c h f ü r d i e J = 3 S e k t o r e n j e w e i l s z u 1 s u m m i e r e n : 3 ∑ j = 1 a j = 3 ∑ j = 1 a w j = 3 ∑ j = 1 a m j = 1 . E s i s t e r s i c h t l i c h , d a s s n u r r e l a t i v w e n i g e F r a u e n i m S e k t o r P r o d u k t i o n , a b e r f a s t z w e i D r i t t e l i m S e k t o r D i e n s t e t ä t i g s i n d . H i n g e g e n i s t g u t e i n D r i t t e l d e r M ä n n e r i m S e k t o r P r o d u k t i o n t ä t i g u n d d e r A n t e i l d e s S e k t o r s D i e n s t e i s t b e i d e n M ä n n e r n d e u t l i c h g e r i n g e r a l s b e i d e n F r a u e n . I m F o l g e n d e n b e t r a c h t e n w i r m e h r e r e M a ß z a h l e n z u r Q u a n t i fiz i e r u n g v o n S t r u k t u r u n t e r s c h i e d e n . F ü r d i e b e i d e n z u v e r g l e i c h e n d e n G r u p p e n v e r w e n d e n w i r u n s e r e m B e i s p i e l f o l g e n d d i e I n d i z e s m u n d w . I n a n a l o g e r W e i s e k ö n n t e n a u c h a n d e r e G r u p p e n ( L ä n d e r , R e g i o n e n , e t c . ) v e r g l i c h e n w e r d e n . D i e b e i d e n I n d i z e s m u n d w k ö n n t e n d a n n d u r c h g e e i g n e t e a n d e r e I n d i z e s e r s e t z t w e r d e n . 5 . 2 . 1 S t r u k t u r d i ffe r e n z u n d n o r m i e r t e S t r u k t u r d i ffe r e n z D i e S t r u k t u r d i ffe r e n z S D = J ∑ j = 1 | a m j − a w j | i s t d i e S u m m e d e r a b s o l u t e n A n t e i l s d i ffe r e n z e n , h i e r z w i s c h e n d e n s e k t o r a l e n B e s c h ä f t i g u n g s a n t e i l e n v o n M ä n n e r n u n d F r a u e n . F ü r u n s e r e B e i s p i e l d a t e n m i t d r e i S e k t o r e n fin d e n w i r S D = | 0 . 3 4 7 − 0 . 1 2 | + | 0 . 2 4 4 − 0 . 2 2 3 | + | 0 . 4 0 9 − 0 . 6 5 7 | = | 0 . 2 2 7 | + | 0 . 0 2 1 | + | − 0 . 2 4 8 | = 0 . 4 9 6 . u n d 8 D i e n s t l e i s t u n g e n w u r d e n z u m S e k t o r D i e n s t e z u s a m m e n g e f a s s t . 5 5.4 Multiplikative Komponentenzerlegung 99 resultiert die Zerlegung ¯ l m − ¯ l w = J ∑ j =1 ¯ l m j a m j − J ∑ j =1 ¯ l w j a w j = J ∑ j =1 (¯ l m j − ¯ l w j ) a m j + J ∑ j =1 ¯ l w j ( a m j − a w j ) = 2 . 54 + 0 . 24 = 2 . 77 . Zu beachten ist jedoch, dass durch die Wahl unterschiedlicher Gruppen zur Standardisierung keine reinen Niveau- und Struktureffekte ermittelt werden, sondern einer der beiden Terme implizit den Mischeffekt enthält. Es gelingt somit nur scheinbar eine vollständige Zerlegung ohne Mischeffekt. R-5-8 5.4 Multiplikative Komponentenzerlegung Mittels einfacher tautologischer Erweiterungen lassen sich multiplikativ verknüpfte Komponenten gewinnen, denen eine eigenständige sachlogische Bedeutung zukommt. Als Beispiel betrachten wir den durchschnittlichen Netto-Montatslohn ¯ Y , der sich als Quotient von Lohnsumme Y und Zahl der Beschäftigten ergibt. Für die n = 1 , 238 Personen in unserem Datensatz finden wir (in Euro je Beschäftigten): ¯ Y = Y E = 2828400 1238 = 2 , 284 . 65 . Der Durchschnittslohn lässt sich darstellen als Produkt von durchschnittlichem Stundenlohn ( l ) und durchschnittlicher Anzahl an Arbeitsstunden ( z ), die sich als Quotient von insgesamt geleisteten Arbeitsstunden ( S ) und Anzahl der Beschäftigten ( E ) ergibt. Es resultiert ¯ Y = Y S S E = l · z = 2 , 828 , 400 207 , 477 · 207 , 477 1 , 238 = 13 . 63 · 167 . 59 = 2 , 284 . 65 . Betrachten wir nun die durchschnittlichen Netto-Monatslöhne von Männern und Frauen, finden wir ¯ Y m = 2 , 748 . 14 und ¯ Y w = 1 , 685 . 55 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 99 03.09.2019 13: 55: 48 <?page no="100"?> 100 5 Strukturanalysen Euro. Das Verhältnis der Löhne ¯ Y m ¯ Y w = 2748 . 14 1685 . 55 = 1 . 63 zeigt, dass der Durchschnittslohn der Männer um 63 % über dem der Frauen liegt. Für Männer und Frauen resultiert der mittlere Lohn jeweils aus dem Produkt von mittlerem Stundenlohn und mittlerer monatlicher Arbeitszeit ¯ Y m = l m · z m = 14 . 73 · 186 . 63 = 2748 . 14 ¯ Y w = l w · z w = 11 . 79 · 142 . 99 = 1685 . 55 . Der relative Lohnunterschied lässt sich somit durch zwei multiplikative Komponenten darstellen: das Verhältnis der durchschnittlichen Stundenlöhne und das Verhältnis der durchschnittlichen monatlichen Arbeitsstunden. Es resultiert: ¯ Y m ¯ Y w = l m l w · z m z w = 14 . 73 11 . 79 · 186 . 63 142 . 99 = 1 . 25 · 1 . 31 = 1 . 63 . Die gegenüber den Frauen um 63 % höheren durchschnittlichen Monatslöhne der Männer sind somit einerseits auf den um 25 % höheren durchschnittlichen Stundenlohn und andererseits auf die um 31 % höhere durchschnittliche monatliche Arbeitszeit zurückzuführen. R-5-9 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 100 03.09.2019 13: 55: 48 <?page no="101"?> 5.2 Maßzahlen für Strukturunterschiede 85 Tabelle 5.1: Sektorale Beschäftigungsanteile. Sektor Alle ( a j ) Frauen ( a w j ) Männer ( a m j ) Produktion 0.230 0.120 0.347 Handel 0.233 0.223 0.244 Dienste 0.537 0.657 0.409 Offenbar gilt für die Anteile a j , a w j und a m j , dass sie sich für die J = 3 Sektoren jeweils zu 1 summieren: 3 ∑ j =1 a j = 3 ∑ j =1 a w j = 3 ∑ j =1 a m j = 1 . Es ist ersichtlich, dass nur relativ wenige Frauen im Sektor Produktion, aber fast zwei Drittel im Sektor Dienste tätig sind. Hingegen ist gut ein Drittel der Männer im Sektor Produktion tätig und der Anteil des Sektors Dienste ist bei den Männern deutlich geringer als bei den Frauen. Im Folgenden betrachten wir mehrere Maßzahlen zur Quantifizierung von Strukturunterschieden. Für die beiden zu vergleichenden Gruppen verwenden wir unserem Beispiel folgend die Indizes m und w. In analoger Weise könnten auch andere Gruppen (Länder, Regionen, etc.) verglichen werden. Die beiden Indizes m und w könnten dann durch geeignete andere Indizes ersetzt werden. 5.2.1 Strukturdifferenz und normierte Strukturdifferenz Die Strukturdifferenz SD = J ∑ j =1 | a m j − a w j | ist die Summe der absoluten Anteilsdifferenzen , hier zwischen den sektoralen Beschäftigungsanteilen von Männern und Frauen. Für unsere Beispieldaten mit drei Sektoren finden wir SD = | 0 . 347 − 0 . 12 | + | 0 . 244 − 0 . 223 | + | 0 . 409 − 0 . 657 | = | 0 . 227 | + | 0 . 021 | + |− 0 . 248 | = 0 . 496 . und 8 Dienstleistungen wurden zum Sektor Dienste zusammengefasst. 5 5 . 2 M a ß z a h l e n f ü r S t r u k t u r u n t e r s c h i e d e 8 5 T a b e l l e 5 . 1 : S e k t o r a l e B e s c h ä f t i g u n g s a n t e i l e . S e k t o r A l l e ( a j ) F r a u e n ( a w j ) M ä n n e r ( a m j ) P r o d u k t i o n 0 . 2 3 0 0 . 1 2 0 0 . 3 4 7 H a n d e l 0 . 2 3 3 0 . 2 2 3 0 . 2 4 4 D i e n s t e 0 . 5 3 7 0 . 6 5 7 0 . 4 0 9 O ffe n b a r g i l t f ü r d i e A n t e i l e a j , a w j u n d a m j , d a s s s i e s i c h f ü r d i e J = 3 S e k t o r e n j e w e i l s z u 1 s u m m i e r e n : 3 ∑ j = 1 a j = 3 ∑ j = 1 a w j = 3 ∑ j = 1 a m j = 1 . E s i s t e r s i c h t l i c h , d a s s n u r r e l a t i v w e n i g e F r a u e n i m S e k t o r P r o d u k t i o n , a b e r f a s t z w e i D r i t t e l i m S e k t o r D i e n s t e t ä t i g s i n d . H i n g e g e n i s t g u t e i n D r i t t e l d e r M ä n n e r i m S e k t o r P r o d u k t i o n t ä t i g u n d d e r A n t e i l d e s S e k t o r s D i e n s t e i s t b e i d e n M ä n n e r n d e u t l i c h g e r i n g e r a l s b e i d e n F r a u e n . I m F o l g e n d e n b e t r a c h t e n w i r m e h r e r e M a ß z a h l e n z u r Q u a n t i fiz i e r u n g v o n S t r u k t u r u n t e r s c h i e d e n . F ü r d i e b e i d e n z u v e r g l e i c h e n d e n G r u p p e n v e r w e n d e n w i r u n s e r e m B e i s p i e l f o l g e n d d i e I n d i z e s m u n d w . I n a n a l o g e r W e i s e k ö n n t e n a u c h a n d e r e G r u p p e n ( L ä n d e r , R e g i o n e n , e t c . ) v e r g l i c h e n w e r d e n . D i e b e i d e n I n d i z e s m u n d w k ö n n t e n d a n n d u r c h g e e i g n e t e a n d e r e I n d i z e s e r s e t z t w e r d e n . 5 . 2 . 1 S t r u k t u r d i ffe r e n z u n d n o r m i e r t e S t r u k t u r d i ffe r e n z D i e S t r u k t u r d i ffe r e n z S D = J ∑ j = 1 | a m j − a w j | i s t d i e S u m m e d e r a b s o l u t e n A n t e i l s d i ffe r e n z e n , h i e r z w i s c h e n d e n s e k t o r a l e n B e s c h ä f t i g u n g s a n t e i l e n v o n M ä n n e r n u n d F r a u e n . F ü r u n s e r e B e i s p i e l d a t e n m i t d r e i S e k t o r e n fin d e n w i r S D = | 0 . 3 4 7 − 0 . 1 2 | + | 0 . 2 4 4 − 0 . 2 2 3 | + | 0 . 4 0 9 − 0 . 6 5 7 | = | 0 . 2 2 7 | + | 0 . 0 2 1 | + | − 0 . 2 4 8 | = 0 . 4 9 6 . u n d 8 D i e n s t l e i s t u n g e n w u r d e n z u m S e k t o r D i e n s t e z u s a m m e n g e f a s s t . 5 5.5 Aufgaben 101 5.5 Aufgaben Für die ersten beiden Aufgaben sei folgender Datensatz gegeben: Anteile Stundenlöhne Bildungsgrad Alle Frauen Männer Alle Frauen Männer Kein Abitur 0.42 0.43 0.42 11.12 10.11 11.92 Abitur 0.23 0.21 0.24 12.90 10.97 14.24 Studium 0.35 0.36 0.34 17.79 15.73 19.44 1. Betrachten Sie die Bildungsstruktur von Frauen und Männern und berechnen Sie als summarische Maße der Unterschiedlichkeit die normierte Strukturdifferenz und die euklidische Norm. 2. Führen Sie eine Komponentenzerlegung zur Erklärung der Differenz der Durchschnittslöhne von Männern und Frauen durch. a) Ermitteln Sie die Durchschnittslöhne von Männern und Frauen. b) Ermitteln Sie den kontrafaktischen Durchschnittslohn der Frauen, der sich aus der Standardisierung auf die Bildungsstruktur der Männer ergibt (¯ l w ( a m ) ), und den kontrafaktischen Durchschnittslohn der Frauen, der sich aus der Standardisierung auf die Löhne der Männer ergibt (¯ l w (¯ l m ) ). c) Ermitteln Sie ausgehend von den kontrafaktischen (standardisierten) Durchschnittslöhnen der Frauen den Niveau- und den Struktureffekt. d) Führen Sie eine vollständige Zerlegung der gesamten Lohndifferenz ¯ l m − ¯ l w durch. e) Was folgern Sie aus der durchgeführten Komponentenzerlegung über die Bestimmungsgründe der vorgefundenen Lohndifferenz? 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 101 03.09.2019 13: 55: 49 <?page no="102"?> 102 5 Strukturanalysen 3. Führen Sie eine Komponentenzerlegung zur Erklärung der Differenz der Durchschnittslöhne von Beschäftigten des Berufs Dienstleister (ausgehend von 9 Berufsgruppen) und den Beschäftigten anderer Berufe durch. Anteile Stundenlöhne Bildungsgrad Alle Dienstl. Andere Alle Dienstl. Andere Kein Abitur 0.42 0.70 0.39 11.12 10.56 11.22 Abitur 0.23 0.17 0.23 12.90 9.95 13.12 Studium 0.35 0.13 0.37 17.79 11.31 18.02 a) Ermitteln Sie die Durchschnittslöhne von Dienstleistern (w) und Nicht-Dienstleistern (m). b) Ermitteln Sie den kontrafaktischen Durchschnittslohn der Dienstleister, der sich aus der Standardisierung auf die Bildungsstruktur der Nicht-Dienstleister ergibt (¯ l w ( a m ) ), und den kontrafaktischen Durchschnittslohn der Dienstleister, der sich aus der Standardisierung auf die Löhne der Nicht- Dienstleister ergibt (¯ l w (¯ l m ) ). c) Ermitteln Sie ausgehend von den kontrafaktischen (standardisierten) Durchschnittslöhnen der Dienstleister den Niveau- und den Struktureffekt. d) Führen Sie eine vollständige Zerlegung der Lohndifferenz ¯ l m − ¯ l w durch. e) Was folgern Sie aus der durchgeführten Komponentenzerlegung über die Bestimmungsgründe der vorgefundenen Lohndifferenz? 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 102 03.09.2019 13: 55: 49 <?page no="103"?> 5.2 Maßzahlen für Strukturunterschiede 85 Tabelle 5.1: Sektorale Beschäftigungsanteile. Sektor Alle ( a j ) Frauen ( a w j ) Männer ( a m j ) Produktion 0.230 0.120 0.347 Handel 0.233 0.223 0.244 Dienste 0.537 0.657 0.409 Offenbar gilt für die Anteile a j , a w j und a m j , dass sie sich für die J = 3 Sektoren jeweils zu 1 summieren: 3 ∑ j =1 a j = 3 ∑ j =1 a w j = 3 ∑ j =1 a m j = 1 . Es ist ersichtlich, dass nur relativ wenige Frauen im Sektor Produktion, aber fast zwei Drittel im Sektor Dienste tätig sind. Hingegen ist gut ein Drittel der Männer im Sektor Produktion tätig und der Anteil des Sektors Dienste ist bei den Männern deutlich geringer als bei den Frauen. Im Folgenden betrachten wir mehrere Maßzahlen zur Quantifizierung von Strukturunterschieden. Für die beiden zu vergleichenden Gruppen verwenden wir unserem Beispiel folgend die Indizes m und w. In analoger Weise könnten auch andere Gruppen (Länder, Regionen, etc.) verglichen werden. Die beiden Indizes m und w könnten dann durch geeignete andere Indizes ersetzt werden. 5.2.1 Strukturdifferenz und normierte Strukturdifferenz Die Strukturdifferenz SD = J ∑ j =1 | a m j − a w j | ist die Summe der absoluten Anteilsdifferenzen , hier zwischen den sektoralen Beschäftigungsanteilen von Männern und Frauen. Für unsere Beispieldaten mit drei Sektoren finden wir SD = | 0 . 347 − 0 . 12 | + | 0 . 244 − 0 . 223 | + | 0 . 409 − 0 . 657 | = | 0 . 227 | + | 0 . 021 | + |− 0 . 248 | = 0 . 496 . und 8 Dienstleistungen wurden zum Sektor Dienste zusammengefasst. 5 5 . 2 M a ß z a h l e n f ü r S t r u k t u r u n t e r s c h i e d e 8 5 T a b e l l e 5 . 1 : S e k t o r a l e B e s c h ä f t i g u n g s a n t e i l e . S e k t o r A l l e ( a j ) F r a u e n ( a w j ) M ä n n e r ( a m j ) P r o d u k t i o n 0 . 2 3 0 0 . 1 2 0 0 . 3 4 7 H a n d e l 0 . 2 3 3 0 . 2 2 3 0 . 2 4 4 D i e n s t e 0 . 5 3 7 0 . 6 5 7 0 . 4 0 9 O ffe n b a r g i l t f ü r d i e A n t e i l e a j , a w j u n d a m j , d a s s s i e s i c h f ü r d i e J = 3 S e k t o r e n j e w e i l s z u 1 s u m m i e r e n : 3 ∑ j = 1 a j = 3 ∑ j = 1 a w j = 3 ∑ j = 1 a m j = 1 . E s i s t e r s i c h t l i c h , d a s s n u r r e l a t i v w e n i g e F r a u e n i m S e k t o r P r o d u k t i o n , a b e r f a s t z w e i D r i t t e l i m S e k t o r D i e n s t e t ä t i g s i n d . H i n g e g e n i s t g u t e i n D r i t t e l d e r M ä n n e r i m S e k t o r P r o d u k t i o n t ä t i g u n d d e r A n t e i l d e s S e k t o r s D i e n s t e i s t b e i d e n M ä n n e r n d e u t l i c h g e r i n g e r a l s b e i d e n F r a u e n . I m F o l g e n d e n b e t r a c h t e n w i r m e h r e r e M a ß z a h l e n z u r Q u a n t i fiz i e r u n g v o n S t r u k t u r u n t e r s c h i e d e n . F ü r d i e b e i d e n z u v e r g l e i c h e n d e n G r u p p e n v e r w e n d e n w i r u n s e r e m B e i s p i e l f o l g e n d d i e I n d i z e s m u n d w . I n a n a l o g e r W e i s e k ö n n t e n a u c h a n d e r e G r u p p e n ( L ä n d e r , R e g i o n e n , e t c . ) v e r g l i c h e n w e r d e n . D i e b e i d e n I n d i z e s m u n d w k ö n n t e n d a n n d u r c h g e e i g n e t e a n d e r e I n d i z e s e r s e t z t w e r d e n . 5 . 2 . 1 S t r u k t u r d i ffe r e n z u n d n o r m i e r t e S t r u k t u r d i ffe r e n z D i e S t r u k t u r d i ffe r e n z S D = J ∑ j = 1 | a m j − a w j | i s t d i e S u m m e d e r a b s o l u t e n A n t e i l s d i ffe r e n z e n , h i e r z w i s c h e n d e n s e k t o r a l e n B e s c h ä f t i g u n g s a n t e i l e n v o n M ä n n e r n u n d F r a u e n . F ü r u n s e r e B e i s p i e l d a t e n m i t d r e i S e k t o r e n fin d e n w i r S D = | 0 . 3 4 7 − 0 . 1 2 | + | 0 . 2 4 4 − 0 . 2 2 3 | + | 0 . 4 0 9 − 0 . 6 5 7 | = | 0 . 2 2 7 | + | 0 . 0 2 1 | + | − 0 . 2 4 8 | = 0 . 4 9 6 . u n d 8 D i e n s t l e i s t u n g e n w u r d e n z u m S e k t o r D i e n s t e z u s a m m e n g e f a s s t . 5 5.6 R-Code 103 5.6 R-Code R-5-1 ## Daten einlesen d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) d <d[d$ostwest==0,] n <nrow(d) # absolute Häufigkeiten (pro Beruf) beruf <d$beruf table(beruf) ## 9 Berufe auf 3 aggregieren beruf3 <beruf beruf3[beruf<=2] <- 1 # 1, 2 zu 1 beruf3[beruf>=3 & beruf<=7] <- 2 # 3 bis 7 zu 2 beruf3[beruf==8 | beruf==9] <- 3 # 8, 9 zu 3 # absolute Häufigkeiten (pro Beruf) table(beruf3) ## neue Berufzugehörigkeit an Datensatz anfügen d$beruf3 <beruf3 head(d) R-5-2 # Anzahl an Beobachtungen n <nrow(d) # Beschäftigungsanteile der Berufe insgesamt a <table(d$beruf3) / n a # Beschäftigungsanteile der Berufe der Frauen beruf3w <d$beruf3[d$geschlecht == 1] nw <length(beruf3w) aw <table(beruf3w) / nw aw # Beschäftigungsanteile der Berufe der Männer beruf3m <d$beruf3[d$geschlecht == 0] nm <length(beruf3m) am <table(beruf3m) / nm am R-5-3 # Strukturdifferenz SD <sum( abs(am-aw) ) SD # normierte Strukturdifferenz NSD <- 0.5 * SD; NSD 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 103 03.09.2019 13: 55: 49 <?page no="104"?> 104 5 Strukturanalysen R-5-4 # euklidische Norm EN <sqrt( sum((am-aw)^2) ) EN R-5-5 # Stundenlöhne in Vektor w speichern w <as.numeric(d$stlohn) # Stundenlöhne getrennt nach Geschlecht wf <w[d$geschlecht == 1] wm <w[d$geschlecht == 0] ## berufliche Durchschnittslöhne (dl) # Alle dl <tapply(X = w, INDEX = d$beruf3, FUN = mean) dl # Frauen dlw <tapply(X = wf, INDEX = beruf3w, FUN = mean) dlw # Männer dlm <tapply(X = wm, INDEX = beruf3m, FUN = mean) dlm ## Durchschnittslöhne # Männer lmd <sum(am * dlm) lmd # Frauen lwd <sum(aw * dlw) lwd # Alternativ aus Individualdaten mean(wf) # Frauen mean(wm) # Männer R-5-6 # Frauen lwam <sum(dlw * am) lwam lwlm <sum(dlm * aw) lwlm # Männer lmaw <sum(dlm * aw) lmaw lmlw <sum(dlw * am) lmlw 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 104 03.09.2019 13: 55: 50 <?page no="105"?> 5.2 Maßzahlen für Strukturunterschiede 85 Tabelle 5.1: Sektorale Beschäftigungsanteile. Sektor Alle ( a j ) Frauen ( a w j ) Männer ( a m j ) Produktion 0.230 0.120 0.347 Handel 0.233 0.223 0.244 Dienste 0.537 0.657 0.409 Offenbar gilt für die Anteile a j , a w j und a m j , dass sie sich für die J = 3 Sektoren jeweils zu 1 summieren: 3 ∑ j =1 a j = 3 ∑ j =1 a w j = 3 ∑ j =1 a m j = 1 . Es ist ersichtlich, dass nur relativ wenige Frauen im Sektor Produktion, aber fast zwei Drittel im Sektor Dienste tätig sind. Hingegen ist gut ein Drittel der Männer im Sektor Produktion tätig und der Anteil des Sektors Dienste ist bei den Männern deutlich geringer als bei den Frauen. Im Folgenden betrachten wir mehrere Maßzahlen zur Quantifizierung von Strukturunterschieden. Für die beiden zu vergleichenden Gruppen verwenden wir unserem Beispiel folgend die Indizes m und w. In analoger Weise könnten auch andere Gruppen (Länder, Regionen, etc.) verglichen werden. Die beiden Indizes m und w könnten dann durch geeignete andere Indizes ersetzt werden. 5.2.1 Strukturdifferenz und normierte Strukturdifferenz Die Strukturdifferenz SD = J ∑ j =1 | a m j − a w j | ist die Summe der absoluten Anteilsdifferenzen , hier zwischen den sektoralen Beschäftigungsanteilen von Männern und Frauen. Für unsere Beispieldaten mit drei Sektoren finden wir SD = | 0 . 347 − 0 . 12 | + | 0 . 244 − 0 . 223 | + | 0 . 409 − 0 . 657 | = | 0 . 227 | + | 0 . 021 | + |− 0 . 248 | = 0 . 496 . und 8 Dienstleistungen wurden zum Sektor Dienste zusammengefasst. 5 5 . 2 M a ß z a h l e n f ü r S t r u k t u r u n t e r s c h i e d e 8 5 T a b e l l e 5 . 1 : S e k t o r a l e B e s c h ä f t i g u n g s a n t e i l e . S e k t o r A l l e ( a j ) F r a u e n ( a w j ) M ä n n e r ( a m j ) P r o d u k t i o n 0 . 2 3 0 0 . 1 2 0 0 . 3 4 7 H a n d e l 0 . 2 3 3 0 . 2 2 3 0 . 2 4 4 D i e n s t e 0 . 5 3 7 0 . 6 5 7 0 . 4 0 9 O ffe n b a r g i l t f ü r d i e A n t e i l e a j , a w j u n d a m j , d a s s s i e s i c h f ü r d i e J = 3 S e k t o r e n j e w e i l s z u 1 s u m m i e r e n : 3 ∑ j = 1 a j = 3 ∑ j = 1 a w j = 3 ∑ j = 1 a m j = 1 . E s i s t e r s i c h t l i c h , d a s s n u r r e l a t i v w e n i g e F r a u e n i m S e k t o r P r o d u k t i o n , a b e r f a s t z w e i D r i t t e l i m S e k t o r D i e n s t e t ä t i g s i n d . H i n g e g e n i s t g u t e i n D r i t t e l d e r M ä n n e r i m S e k t o r P r o d u k t i o n t ä t i g u n d d e r A n t e i l d e s S e k t o r s D i e n s t e i s t b e i d e n M ä n n e r n d e u t l i c h g e r i n g e r a l s b e i d e n F r a u e n . I m F o l g e n d e n b e t r a c h t e n w i r m e h r e r e M a ß z a h l e n z u r Q u a n t i fiz i e r u n g v o n S t r u k t u r u n t e r s c h i e d e n . F ü r d i e b e i d e n z u v e r g l e i c h e n d e n G r u p p e n v e r w e n d e n w i r u n s e r e m B e i s p i e l f o l g e n d d i e I n d i z e s m u n d w . I n a n a l o g e r W e i s e k ö n n t e n a u c h a n d e r e G r u p p e n ( L ä n d e r , R e g i o n e n , e t c . ) v e r g l i c h e n w e r d e n . D i e b e i d e n I n d i z e s m u n d w k ö n n t e n d a n n d u r c h g e e i g n e t e a n d e r e I n d i z e s e r s e t z t w e r d e n . 5 . 2 . 1 S t r u k t u r d i ffe r e n z u n d n o r m i e r t e S t r u k t u r d i ffe r e n z D i e S t r u k t u r d i ffe r e n z S D = J ∑ j = 1 | a m j − a w j | i s t d i e S u m m e d e r a b s o l u t e n A n t e i l s d i ffe r e n z e n , h i e r z w i s c h e n d e n s e k t o r a l e n B e s c h ä f t i g u n g s a n t e i l e n v o n M ä n n e r n u n d F r a u e n . F ü r u n s e r e B e i s p i e l d a t e n m i t d r e i S e k t o r e n fin d e n w i r S D = | 0 . 3 4 7 − 0 . 1 2 | + | 0 . 2 4 4 − 0 . 2 2 3 | + | 0 . 4 0 9 − 0 . 6 5 7 | = | 0 . 2 2 7 | + | 0 . 0 2 1 | + | − 0 . 2 4 8 | = 0 . 4 9 6 . u n d 8 D i e n s t l e i s t u n g e n w u r d e n z u m S e k t o r D i e n s t e z u s a m m e n g e f a s s t . 5 5.6 R-Code 105 R-5-7 # Einfluss unterschiedlicher beruflicher Lohnhöhen sum(dlm*am) sum(dlw*am) # Einfluss der unterschiedlichen Berufsstruktur sum(dlm*am) sum(dlm*aw) # Niveaueffekt sum(dlm*aw) sum(dlw*aw) # Struktureffekt sum(dlw*am) sum(dlw*aw) R-5-8 # Ausgangspunkt: Diff. der durchschn. Löhne sum(dlm*am) sum(dlw*aw) # Summe von Niveau- und Struktureffekt sum(dlm*am) sum(dlw*am) + sum(dlm*am) sum(dlm*aw) # vollständige Zerlegung der Differenz in den Durchschnittslöhnen sum(dlm*am) sum(dlw*aw) # bzw. (sum(dlm*am) sum(dlw*am)) + (sum(dlm*am) sum(dlm*aw)) - (sum((dlm-dlw)*(am-aw))) # Analog: Standardisierung auf berufliche Durchschnittslöhne # und Beschäftigungsanteile der Frauen (sum(dlm*aw) sum(dlw*aw)) + (sum(dlw*am) sum(dlw*aw)) + (sum((dlm-dlw)*(am-aw))) # kein expliziter Mischeffekt ... (sum(dlm*am) sum(dlw*am)) + (sum(dlw*am) sum(dlw*aw)) R-5-9 # Variablen aus dem Datensatz w <d$einkommen sex <d$geschlecht st <d$stunden # Variablen nach Beispiel im Buch Y <sum(w) E <nrow(d) S <sum(st) # Löhne getrennt nach Geschlecht wf <w[d$geschlecht == 1] wm <w[d$geschlecht == 0] # Arbeitsstunden getrennt nach Geschlecht sf <st[d$geschlecht == 1] sm <st[d$geschlecht == 0] # Durchschnittslohn Yd <- Y / E; Yd 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 105 03.09.2019 13: 55: 51 <?page no="106"?> 106 5 Strukturanalysen # oder mean(w) # andere Darstellung Y/ S * S/ E # Durchschnittslöhne der Männer Ydm <mean(wm) Ydm # Durchschnittslöhne der Frauen Ydw <mean(wf) Ydw # Verhältnis Ydm / Ydw ## mittlerer Stundenlohn über alle Berufe # Männer lm <- (sum(wm)/ sum(sm)) zm <mean(sm) lm * zm # Frauen lw <- (sum(wf)/ sum(sf)) zw <mean(sf) lw * zw # relativer Lohnunterschied lm/ lw * zm/ zw 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 106 03.09.2019 13: 55: 51 <?page no="107"?> 6.3 Preisindizes auf Basis von Warenkorbvergleichen 103 Tabelle 6.1: Mengen, Preise und Umsätze in 4 Perioden. Periode q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 16 2 2 2 3 4 3 3 23 3 1 1 4 5 5 2 18 4 2 2 3 4 4 1 19 individuellen Transaktionen bzw. Marktpreisen abstrahiert wird. Wir nehmen an, dass es n Güter gibt und man für jedes Gut c j folgende Größen kennt: Die gesamte Gütermenge q tj , die in der Periode t umgesetzt worden ist, und den gesamten Geldbetrag u tj , der dafür gezahlt worden ist. Der Marktpreis des Guts in der Periode t ist dann p tj = u tj / q tj . 1 6.3 Preisindizes auf Basis von Warenkorbvergleichen Der Konstruktion von Preisindizes liegt die Fragestellung zugrunde, wie man sich ein Bild von der zeitlichen Entwicklung von Gesamtumsätzen machen kann, bei dem hypothetisch zwischen zwei Komponenten unterschieden wird: Veränderungen in den umgesetzten Gütermengen und Veränderungen in den Preisen. Zu betonen ist, dass es sich um fiktive Konstruktionen handelt, da den „Komponenten“ keine empirischen Sachverhalte entsprechen. Um das Problem zu verdeutlichen, kann ein kleines Zahlenbeispiel dienen. Es wird angenommen, dass Daten für drei Gütersorten und vier Perioden verfügbar sind (Tabelle 6.1). R-6-1 Ein Problem besteht darin, dass man zur Repräsentation sowohl der Mengen als auch der Preise Vektoren benötigt; für die Mengen die Vektoren q t = ( q t 1 , . . . , q tn ) ′ und für die Preise die Vektoren p t = ( p t 1 , . . . , p tn ) ′ . 1 Dies ist eine theoretische Betrachtung. Tatsächlich werden nicht Umsätze von tatsächlichen Transaktionen in der Preisstatistik erfasst, sondern lediglich die Preise in Verkaufsstätten und Katalogen, zu denen Güter angeboten werden. 6 6 6 Preis- und Mengenindizes In diesem Kapitel beschäftigen wir uns mit der Konstruktion von Preis- und Mengenindizes. In der amtlichen Statistik dominieren Preisindizes vom Typ Laspeyres, vom Typ Paasche und Kettenindizes, deren Konzeption wir darstellen. Für die Preisentwicklung in Deutschland präsentieren wir einige empirische Ergebnisse. 6.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 108 6.2 Transaktionen, Mengen und Preise . . . . . . . . . . . . . 108 6.3 Preisindizes auf Basis von Warenkorbvergleichen . . . . . . 109 6.4 Messziffernmittelung . . . . . . . . . . . . . . . . . . . . 112 6.5 Repräsentativgewichtung: Einzelpreise und Ausgabenanteile 114 6.6 Konstruktion von Indexziffern . . . . . . . . . . . . . . . 115 6.6.1 Der Verbraucherpreisindex . . . . . . . . . . . . . 116 6.6.2 Entwicklung der Verbraucherpreise seit 1881 . . . . 119 6.7 Kettenindizes . . . . . . . . . . . . . . . . . . . . . . . . 121 6.7.1 Definition von Kettenindizes . . . . . . . . . . . . 122 6.7.2 Vor- und Nachteile von Kettenindizes . . . . . . . . 122 6.7.3 Deflationierung mit Kettenindizes . . . . . . . . . . 123 6.8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.9 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 107 03.09.2019 13: 55: 51 <?page no="108"?> 108 6 Preis- und Mengenindizes 6.1 Einleitung In diesem Kapitel werden Preis- und Mengenindizes besprochen. Umsätze zweier Perioden resultieren aus den jeweils in diesen Perioden gekauften Mengen zu den zu diesen Zeitpunkten geltenden Preisen. Damit verbunden sind sowohl Veränderungen der Mengen von der einen auf die andere Periode als auch Veränderungen der Preise. Die Entscheidungen über die Mengen sind dabei auch von den aktuell geltenden relativen Preisen bestimmt. Welche Mengen zu anderen Preisen gekauft worden wären, ist eine hypothetische Frage, die sich nicht beantworten lässt. Obwohl es sich somit um Fiktionen handelt, wenn Umsatzveränderungen in „reine“ Preis- und „reine“ Mengenveränderungen aufgegliedert werden, besteht ein großes Interesse an Informationen dieser Art. So ist etwa die Preisveränderung zum Vorjahr wesentliche Bestimmungsgröße für Nominallohnforderungen von Gewerkschaften, Anpassungen von Sozialleistungen usw. Weil statistische Informationen über Preise und ihre Entwicklung fast immer in Form von Preisindizes dargestellt werden, stellen wir im Folgenden die wichtigsten Methoden der Berechnung von Preisindizes dar. Die Konstruktionsideen von Preisindizes lassen sich auf die Berechnung von Mengenindizes übertragen. 6.2 Transaktionen, Mengen und Preise Den gedanklichen Ausgangspunkt der Preisstatistik bilden einzelne Transaktionen, in denen eine jeweils bestimmte Menge einer bestimmten Gütersorte gegen eine bestimmte Menge Geld (ausgedrückt in Geldeinheiten, z. B. in Euro) verkauft bzw. gekauft wird. Wir verwenden folgende Definition von P. v. d. Lippe (1996: 401): „Preise sind bei Kaufverträgen verabredete Geldbeträge je Produkteinheit.“ Der Preisbegriffbezieht sich demnach auf eine Einheit des Gutes. Von weiteren Leistungen oder Diensten (etwa Beratungstätigkeiten, Erläuterungen des adäquaten Gebrauchs, das Ambiente, usw.), die beim Güterkauf unter Umständen miterworben werden, abstrahieren wir. Diese Definition entspricht auch einer statistischen Betrachtungsweise, bei der durch Durchschnittsbildungen von den 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 108 03.09.2019 13: 55: 52 <?page no="109"?> 6.3 Preisindizes auf Basis von Warenkorbvergleichen 103 Tabelle 6.1: Mengen, Preise und Umsätze in 4 Perioden. Periode q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 16 2 2 2 3 4 3 3 23 3 1 1 4 5 5 2 18 4 2 2 3 4 4 1 19 individuellen Transaktionen bzw. Marktpreisen abstrahiert wird. Wir nehmen an, dass es n Güter gibt und man für jedes Gut c j folgende Größen kennt: Die gesamte Gütermenge q tj , die in der Periode t umgesetzt worden ist, und den gesamten Geldbetrag u tj , der dafür gezahlt worden ist. Der Marktpreis des Guts in der Periode t ist dann p tj = u tj / q tj . 1 6.3 Preisindizes auf Basis von Warenkorbvergleichen Der Konstruktion von Preisindizes liegt die Fragestellung zugrunde, wie man sich ein Bild von der zeitlichen Entwicklung von Gesamtumsätzen machen kann, bei dem hypothetisch zwischen zwei Komponenten unterschieden wird: Veränderungen in den umgesetzten Gütermengen und Veränderungen in den Preisen. Zu betonen ist, dass es sich um fiktive Konstruktionen handelt, da den „Komponenten“ keine empirischen Sachverhalte entsprechen. Um das Problem zu verdeutlichen, kann ein kleines Zahlenbeispiel dienen. Es wird angenommen, dass Daten für drei Gütersorten und vier Perioden verfügbar sind (Tabelle 6.1). R-6-1 Ein Problem besteht darin, dass man zur Repräsentation sowohl der Mengen als auch der Preise Vektoren benötigt; für die Mengen die Vektoren q t = ( q t 1 , . . . , q tn ) ′ und für die Preise die Vektoren p t = ( p t 1 , . . . , p tn ) ′ . 1 Dies ist eine theoretische Betrachtung. Tatsächlich werden nicht Umsätze von tatsächlichen Transaktionen in der Preisstatistik erfasst, sondern lediglich die Preise in Verkaufsstätten und Katalogen, zu denen Güter angeboten werden. 6 6 . 3 P r e i s i n d i z e s a u f B a s i s v o n W a r e n k o r b v e r g l e i c h e n 1 0 3 T a b e l l e 6 . 1 : M e n g e n , P r e i s e u n d U m s ä t z e i n 4 P e r i o d e n . P e r i o d e q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 1 6 2 2 2 3 4 3 3 2 3 3 1 1 4 5 5 2 1 8 4 2 2 3 4 4 1 1 9 i n d i v i d u e l l e n T r a n s a k t i o n e n b z w . M a r k t p r e i s e n a b s t r a h i e r t w i r d . W i r n e h m e n a n , d a s s e s n G ü t e r g i b t u n d m a n f ü r j e d e s G u t c j f o l g e n d e G r ö ß e n k e n n t : D i e g e s a m t e G ü t e r m e n g e q t j , d i e i n d e r P e r i o d e t u m g e s e t z t w o r d e n i s t , u n d d e n g e s a m t e n G e l d b e t r a g u t j , d e r d a f ü r g e z a h l t w o r d e n i s t . D e r M a r k t p r e i s d e s G u t s i n d e r P e r i o d e t i s t d a n n p t j = u t j / q t j . 1 6 . 3 P r e i s i n d i z e s a u f B a s i s v o n W a r e n k o r b v e r g l e i c h e n D e r K o n s t r u k t i o n v o n P r e i s i n d i z e s l i e g t d i e F r a g e s t e l l u n g z u g r u n d e , w i e m a n s i c h e i n B i l d v o n d e r z e i t l i c h e n E n t w i c k l u n g v o n G e s a m t u m s ä t z e n m a c h e n k a n n , b e i d e m h y p o t h e t i s c h z w i s c h e n z w e i K o m p o n e n t e n u n t e r s c h i e d e n w i r d : V e r ä n d e r u n g e n i n d e n u m g e s e t z t e n G ü t e r m e n g e n u n d V e r ä n d e r u n g e n i n d e n P r e i s e n . Z u b e t o n e n i s t , d a s s e s s i c h u m fik t i v e K o n s t r u k t i o n e n h a n d e l t , d a d e n „ K o m p o n e n t e n “ k e i n e e m p i r i s c h e n S a c h v e r h a l t e e n t s p r e c h e n . U m d a s P r o b l e m z u v e r d e u t l i c h e n , k a n n e i n k l e i n e s Z a h l e n b e i s p i e l d i e n e n . E s w i r d a n g e n o m m e n , d a s s D a t e n f ü r d r e i G ü t e r s o r t e n u n d v i e r P e r i o d e n v e r f ü g b a r s i n d ( T a b e l l e 6 . 1 ) . R - 6 - 1 E i n P r o b l e m b e s t e h t d a r i n , d a s s m a n z u r R e p r ä s e n t a t i o n s o w o h l d e r M e n g e n a l s a u c h d e r P r e i s e V e k t o r e n b e n ö t i g t ; f ü r d i e M e n g e n d i e V e k t o r e n q t = ( q t 1 , . . . , q t n ) ′ u n d f ü r d i e P r e i s e d i e V e k t o r e n p t = ( p t 1 , . . . , p t n ) ′ . 1 D i e s i s t e i n e t h e o r e t i s c h e B e t r a c h t u n g . T a t s ä c h l i c h w e r d e n n i c h t U m s ä t z e v o n t a t s ä c h l i c h e n T r a n s a k t i o n e n i n d e r P r e i s s t a t i s t i k e r f a s s t , s o n d e r n l e d i g l i c h d i e P r e i s e i n V e r k a u f s s t ä t t e n u n d K a t a l o g e n , z u d e n e n G ü t e r a n g e b o t e n w e r d e n . 6 6.3 Preisindizes auf Basis von Warenkorbvergleichen 109 Tabelle 6.1: Mengen, Preise und Umsätze in 4 Perioden. Periode q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 16 2 2 2 3 4 3 3 23 3 1 1 4 5 5 2 18 4 2 2 3 4 4 1 19 individuellen Transaktionen bzw. Marktpreisen abstrahiert wird. Wir nehmen an, dass es n Güter gibt und man für jedes Gut c j folgende Größen kennt: Die gesamte Gütermenge q tj , die in der Periode t umgesetzt worden ist, und den gesamten Geldbetrag u tj , der dafür gezahlt worden ist. Der Marktpreis des Guts in der Periode t ist dann p tj = u tj / q tj . 1 6.3 Preisindizes auf Basis von Warenkorbvergleichen Der Konstruktion von Preisindizes liegt die Fragestellung zugrunde, wie man sich ein Bild von der zeitlichen Entwicklung von Gesamtumsätzen machen kann, bei dem hypothetisch zwischen zwei Komponenten unterschieden wird: Veränderungen in den umgesetzten Gütermengen und Veränderungen in den Preisen. Zu betonen ist, dass es sich um fiktive Konstruktionen handelt, da den „Komponenten“ keine empirischen Sachverhalte entsprechen. Um das Problem zu verdeutlichen, kann ein kleines Zahlenbeispiel dienen. Es wird angenommen, dass Daten für drei Gütersorten und vier Perioden verfügbar sind (Tabelle 6.1). R-6-1 Ein Problem besteht darin, dass man zur Repräsentation sowohl der Mengen als auch der Preise Vektoren benötigt; für die Mengen die Vektoren q t = ( q t 1 , . . . , q tn ) ′ und für die Preise die Vektoren p t = ( p t 1 , . . . , p tn ) ′ . 1 Dies ist eine theoretische Betrachtung. Tatsächlich werden nicht Umsätze von tatsächlichen Transaktionen in der Preisstatistik erfasst, sondern lediglich die Preise in Verkaufsstätten und Katalogen, zu denen Güter angeboten werden. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 109 03.09.2019 13: 55: 52 <?page no="110"?> 110 6 Preis- und Mengenindizes (Durch das Häckchen für die Transposition wird angezeigt, dass es sich um Spaltenvektoren handelt.) Wie sich diese Vektoren verändern, kann jedoch nicht durch einfache Zahlen ausgedrückt werden. Z. B. kann man nicht sagen, um wie viel Prozent q 2 größer ist als q 1 . Man kann jedoch monetäre Gesamtumsätze u t = n ∑ j =1 q tj p tj = q ′ t p t berechnen. Für unser Beispiel sind die Werte in der letzten Spalte von Tabelle 6.1 angegeben. Somit kann man z. B. sagen, dass dieser Gesamtumsatz von der ersten zur zweiten Periode um rund 44 % zugenommen hat. Aber man kann nicht sagen, welcher Teil davon durch Veränderungen in den Mengen und welcher Teil durch Veränderungen in den Preisen zustande gekommen ist. Um für dieses unlösbare Problem dennoch zu behelfsmäßigen Lösungen zu gelangen, haben sich Statistiker eine Vielzahl unterschiedlicher Indexkonstruktionen ausgedacht. In der Praxis werden hauptsächlich zwei Arten von Indizes verwendet. Beide können als Preis- und als Mengenindizes verwendet werden. Die erste Variante wird nach dem Statistiker Etienne Laspeyres (1834- 1913) benannt. In der Form eines Preisindex lautet die Definition P l t 0 t 1 = ∑ n j =1 q t 0 j p t 1 j ∑ n j =1 q t 0 j p t 0 j = q ′ t 0 p t 1 q ′ t 0 p t 0 . Um die Veränderung der Preise zwischen einer Anfangsperiode t 0 und einer späteren Periode t 1 „unter Ausschaltung von Mengenänderungen“ zu erfassen, wird hypothetisch angenommen, dass die in der Periode t 1 beobachteten Preise auch realisiert worden wären, wenn sich die Mengen nicht verändert hätten. Analog lautet die Definition für den Mengenindex nach Laspeyres Q l t 0 t 1 = ∑ n j =1 q t 1 j p t 0 j ∑ n j =1 q t 0 j p t 0 j = q ′ t 1 p t 0 q ′ t 0 p t 0 . In diesem Fall wird angenommen, dass sich die Preise nicht verändert hätten, d.h. es werden zur Bewertung der Mengen jedes Mal 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 110 03.09.2019 13: 55: 53 <?page no="111"?> 6.3 Preisindizes auf Basis von Warenkorbvergleichen 103 Tabelle 6.1: Mengen, Preise und Umsätze in 4 Perioden. Periode q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 16 2 2 2 3 4 3 3 23 3 1 1 4 5 5 2 18 4 2 2 3 4 4 1 19 individuellen Transaktionen bzw. Marktpreisen abstrahiert wird. Wir nehmen an, dass es n Güter gibt und man für jedes Gut c j folgende Größen kennt: Die gesamte Gütermenge q tj , die in der Periode t umgesetzt worden ist, und den gesamten Geldbetrag u tj , der dafür gezahlt worden ist. Der Marktpreis des Guts in der Periode t ist dann p tj = u tj / q tj . 1 6.3 Preisindizes auf Basis von Warenkorbvergleichen Der Konstruktion von Preisindizes liegt die Fragestellung zugrunde, wie man sich ein Bild von der zeitlichen Entwicklung von Gesamtumsätzen machen kann, bei dem hypothetisch zwischen zwei Komponenten unterschieden wird: Veränderungen in den umgesetzten Gütermengen und Veränderungen in den Preisen. Zu betonen ist, dass es sich um fiktive Konstruktionen handelt, da den „Komponenten“ keine empirischen Sachverhalte entsprechen. Um das Problem zu verdeutlichen, kann ein kleines Zahlenbeispiel dienen. Es wird angenommen, dass Daten für drei Gütersorten und vier Perioden verfügbar sind (Tabelle 6.1). R-6-1 Ein Problem besteht darin, dass man zur Repräsentation sowohl der Mengen als auch der Preise Vektoren benötigt; für die Mengen die Vektoren q t = ( q t 1 , . . . , q tn ) ′ und für die Preise die Vektoren p t = ( p t 1 , . . . , p tn ) ′ . 1 Dies ist eine theoretische Betrachtung. Tatsächlich werden nicht Umsätze von tatsächlichen Transaktionen in der Preisstatistik erfasst, sondern lediglich die Preise in Verkaufsstätten und Katalogen, zu denen Güter angeboten werden. 6 6 . 3 P r e i s i n d i z e s a u f B a s i s v o n W a r e n k o r b v e r g l e i c h e n 1 0 3 T a b e l l e 6 . 1 : M e n g e n , P r e i s e u n d U m s ä t z e i n 4 P e r i o d e n . P e r i o d e q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 1 6 2 2 2 3 4 3 3 2 3 3 1 1 4 5 5 2 1 8 4 2 2 3 4 4 1 1 9 i n d i v i d u e l l e n T r a n s a k t i o n e n b z w . M a r k t p r e i s e n a b s t r a h i e r t w i r d . W i r n e h m e n a n , d a s s e s n G ü t e r g i b t u n d m a n f ü r j e d e s G u t c j f o l g e n d e G r ö ß e n k e n n t : D i e g e s a m t e G ü t e r m e n g e q t j , d i e i n d e r P e r i o d e t u m g e s e t z t w o r d e n i s t , u n d d e n g e s a m t e n G e l d b e t r a g u t j , d e r d a f ü r g e z a h l t w o r d e n i s t . D e r M a r k t p r e i s d e s G u t s i n d e r P e r i o d e t i s t d a n n p t j = u t j / q t j . 1 6 . 3 P r e i s i n d i z e s a u f B a s i s v o n W a r e n k o r b v e r g l e i c h e n D e r K o n s t r u k t i o n v o n P r e i s i n d i z e s l i e g t d i e F r a g e s t e l l u n g z u g r u n d e , w i e m a n s i c h e i n B i l d v o n d e r z e i t l i c h e n E n t w i c k l u n g v o n G e s a m t u m s ä t z e n m a c h e n k a n n , b e i d e m h y p o t h e t i s c h z w i s c h e n z w e i K o m p o n e n t e n u n t e r s c h i e d e n w i r d : V e r ä n d e r u n g e n i n d e n u m g e s e t z t e n G ü t e r m e n g e n u n d V e r ä n d e r u n g e n i n d e n P r e i s e n . Z u b e t o n e n i s t , d a s s e s s i c h u m fik t i v e K o n s t r u k t i o n e n h a n d e l t , d a d e n „ K o m p o n e n t e n “ k e i n e e m p i r i s c h e n S a c h v e r h a l t e e n t s p r e c h e n . U m d a s P r o b l e m z u v e r d e u t l i c h e n , k a n n e i n k l e i n e s Z a h l e n b e i s p i e l d i e n e n . E s w i r d a n g e n o m m e n , d a s s D a t e n f ü r d r e i G ü t e r s o r t e n u n d v i e r P e r i o d e n v e r f ü g b a r s i n d ( T a b e l l e 6 . 1 ) . R - 6 - 1 E i n P r o b l e m b e s t e h t d a r i n , d a s s m a n z u r R e p r ä s e n t a t i o n s o w o h l d e r M e n g e n a l s a u c h d e r P r e i s e V e k t o r e n b e n ö t i g t ; f ü r d i e M e n g e n d i e V e k t o r e n q t = ( q t 1 , . . . , q t n ) ′ u n d f ü r d i e P r e i s e d i e V e k t o r e n p t = ( p t 1 , . . . , p t n ) ′ . 1 D i e s i s t e i n e t h e o r e t i s c h e B e t r a c h t u n g . T a t s ä c h l i c h w e r d e n n i c h t U m s ä t z e v o n t a t s ä c h l i c h e n T r a n s a k t i o n e n i n d e r P r e i s s t a t i s t i k e r f a s s t , s o n d e r n l e d i g l i c h d i e P r e i s e i n V e r k a u f s s t ä t t e n u n d K a t a l o g e n , z u d e n e n G ü t e r a n g e b o t e n w e r d e n . 6 6.3 Preisindizes auf Basis von Warenkorbvergleichen 111 die Preise der Basisperiode t 0 verwendet. 2 Eine andere Variante wurde von dem Statistiker Hermann Paasche (1851-1925) vorgeschlagen. Seine Definitionen verwenden nicht die Mengen bzw. Preise der Basisperiode t 0 , sondern der jeweils aktuellen Periode t 1 . Für den Preisindex gelangt man dann zur Definition P p t 0 t 1 = ∑ n j =1 q t 1 j p t 1 j ∑ n j =1 q t 1 j p t 0 j = q ′ t 1 p t 1 q ′ t 1 p t 0 und für den korrespondierenden Mengenindex zur Definition Q p t 0 t 1 = ∑ n j =1 q t 1 j p t 1 j ∑ n j =1 q t 0 j p t 1 j = q ′ t 1 p t 1 q ′ t 0 p t 1 . Zur Illustration berechnen wir die Indizes mit den Zahlen aus Tabelle 6.1. Zwei ausgewählte Preis- und Mengenindizes berechnen wir dabei in sehr ausführlicher Darstellung. Für den Preisindex nach Laspeyres für die Preisentwicklung von Periode 3 auf die Periode 4, d.h. t 0 = 3 und t 1 = 4 ergibt sich P l3 , 4 = ∑ n j =1 q t 0 j p t 1 j ∑ n j =1 q t 0 j p t 0 j = 1 · 4 + 1 · 4 + 4 · 1 1 · 5 + 1 · 5 + 4 · 2 = 0 . 67 . Für den Mengenindex nach Paasche für die Mengenentwicklung von Periode 1 auf die Periode 2, d.h. t 0 = 1 und t 1 = 2 ergibt sich Q p1 , 2 = Q p1 , 2 = ∑ n j =1 q t 1 j p t 1 j ∑ n j =1 q t 0 j p t 1 j = 2 · 4 + 2 · 3 + 3 · 3 1 · 4 + 2 · 3 + 3 · 3 = 1 . 21 . Tabellen 6.2 und 6.3 zeigen die Werte der beiden Preis- und der beiden Mengenindizes für alle Perioden. R-6-2 Man erkennt, dass sich die Werte erheblich unterscheiden können. So wird verständlich, dass im Laufe der Zeit zahlreiche weitere Vorschläge für Indexkonstruktionen gemacht worden sind und die Diskussion über Vor- und Nachteile der verschiedenen Indizes bis heute anhält. Darauf soll hier nicht näher eingegangen werden. 3 2 In der Literatur werden die hypothetisch als konstant angenommenen Vektoren der Basisperiode (bei Preisindizes q t 0 , bei Mengenindizes p t 0 ) oft als ‘Wägungsschemas’, in manchen Zusammenhängen auch als ‘Warenkorb’ bezeichnet. 3 Man vgl. z. B. D. Kunz (1987: 282ff.), P. v. d. Lippe (1996: 407ff.), W. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 111 03.09.2019 13: 55: 53 <?page no="112"?> 112 6 Preis- und Mengenindizes Tabelle 6.2: Preis- und Mengenindizes (1). t 0 t 1 q ′ t 0 p t 0 q ′ t 1 p t 0 q ′ t 0 p t 1 q ′ t 1 p t 1 1 2 16 20 19 23 2 3 23 19 26 18 3 4 18 26 12 19 Tabelle 6.3: Preis- und Mengenindizes (2). t 0 t 1 P l t 0 t 1 P p t 0 t 1 Q l t 0 t 1 Q p t 0 t 1 1 2 1.19 1.15 1.25 1.21 2 3 1.13 0.95 0.83 0.69 3 4 0.67 0.73 1.44 1.58 6.4 Messziffernmittelung Die dargestellten Preisindizes nach Laspeyres lassen sich auch in der Form der Messziffernmittelung darstellen. Ausgangspunkt sind die n Messziffern m t 0 t 1 ,j = p t 1 j / p t 0 j der betrachteten Güter für die Zeitpunkte t 1 und t 0 . Um diese n verschiedenen Informationen über die Preisentwicklung zu aggregieren und dabei die unterschiedliche Bedeutung der einzelnen Güter zu berücksichtigen, bietet es sich an, diese gewichtet zu mitteln. Als Gewichte können die Ausgabenanteile in der Periode t 1 g t 1 j = q t 1 j p t 1 j ∑ n k =1 q t 1 k p t 1 k oder in der Periode t 0 g t 0 j = q t 0 j p t 0 j ∑ n k =1 q t 0 k p t 0 k verwendet werden. Die Werte für das Zahlenbeispiel finden sich in den Tabellen 6.4 und 6.5. R-6-3 Berechnet man ein mit den Ausgabenanteilen der Periode t 0 gewichtetes arithmetisches Mittel der n Preismesszahlen, resultiert Neubauer (1996), H. Rinne (1996: 321ff.), W. Krug, M. Nourney und J. Schmidt (1999: 368ff.). 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 112 03.09.2019 13: 55: 54 <?page no="113"?> 6.3 Preisindizes auf Basis von Warenkorbvergleichen 103 Tabelle 6.1: Mengen, Preise und Umsätze in 4 Perioden. Periode q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 16 2 2 2 3 4 3 3 23 3 1 1 4 5 5 2 18 4 2 2 3 4 4 1 19 individuellen Transaktionen bzw. Marktpreisen abstrahiert wird. Wir nehmen an, dass es n Güter gibt und man für jedes Gut c j folgende Größen kennt: Die gesamte Gütermenge q tj , die in der Periode t umgesetzt worden ist, und den gesamten Geldbetrag u tj , der dafür gezahlt worden ist. Der Marktpreis des Guts in der Periode t ist dann p tj = u tj / q tj . 1 6.3 Preisindizes auf Basis von Warenkorbvergleichen Der Konstruktion von Preisindizes liegt die Fragestellung zugrunde, wie man sich ein Bild von der zeitlichen Entwicklung von Gesamtumsätzen machen kann, bei dem hypothetisch zwischen zwei Komponenten unterschieden wird: Veränderungen in den umgesetzten Gütermengen und Veränderungen in den Preisen. Zu betonen ist, dass es sich um fiktive Konstruktionen handelt, da den „Komponenten“ keine empirischen Sachverhalte entsprechen. Um das Problem zu verdeutlichen, kann ein kleines Zahlenbeispiel dienen. Es wird angenommen, dass Daten für drei Gütersorten und vier Perioden verfügbar sind (Tabelle 6.1). R-6-1 Ein Problem besteht darin, dass man zur Repräsentation sowohl der Mengen als auch der Preise Vektoren benötigt; für die Mengen die Vektoren q t = ( q t 1 , . . . , q tn ) ′ und für die Preise die Vektoren p t = ( p t 1 , . . . , p tn ) ′ . 1 Dies ist eine theoretische Betrachtung. Tatsächlich werden nicht Umsätze von tatsächlichen Transaktionen in der Preisstatistik erfasst, sondern lediglich die Preise in Verkaufsstätten und Katalogen, zu denen Güter angeboten werden. 6 6 . 3 P r e i s i n d i z e s a u f B a s i s v o n W a r e n k o r b v e r g l e i c h e n 1 0 3 T a b e l l e 6 . 1 : M e n g e n , P r e i s e u n d U m s ä t z e i n 4 P e r i o d e n . P e r i o d e q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 1 6 2 2 2 3 4 3 3 2 3 3 1 1 4 5 5 2 1 8 4 2 2 3 4 4 1 1 9 i n d i v i d u e l l e n T r a n s a k t i o n e n b z w . M a r k t p r e i s e n a b s t r a h i e r t w i r d . W i r n e h m e n a n , d a s s e s n G ü t e r g i b t u n d m a n f ü r j e d e s G u t c j f o l g e n d e G r ö ß e n k e n n t : D i e g e s a m t e G ü t e r m e n g e q t j , d i e i n d e r P e r i o d e t u m g e s e t z t w o r d e n i s t , u n d d e n g e s a m t e n G e l d b e t r a g u t j , d e r d a f ü r g e z a h l t w o r d e n i s t . D e r M a r k t p r e i s d e s G u t s i n d e r P e r i o d e t i s t d a n n p t j = u t j / q t j . 1 6 . 3 P r e i s i n d i z e s a u f B a s i s v o n W a r e n k o r b v e r g l e i c h e n D e r K o n s t r u k t i o n v o n P r e i s i n d i z e s l i e g t d i e F r a g e s t e l l u n g z u g r u n d e , w i e m a n s i c h e i n B i l d v o n d e r z e i t l i c h e n E n t w i c k l u n g v o n G e s a m t u m s ä t z e n m a c h e n k a n n , b e i d e m h y p o t h e t i s c h z w i s c h e n z w e i K o m p o n e n t e n u n t e r s c h i e d e n w i r d : V e r ä n d e r u n g e n i n d e n u m g e s e t z t e n G ü t e r m e n g e n u n d V e r ä n d e r u n g e n i n d e n P r e i s e n . Z u b e t o n e n i s t , d a s s e s s i c h u m fik t i v e K o n s t r u k t i o n e n h a n d e l t , d a d e n „ K o m p o n e n t e n “ k e i n e e m p i r i s c h e n S a c h v e r h a l t e e n t s p r e c h e n . U m d a s P r o b l e m z u v e r d e u t l i c h e n , k a n n e i n k l e i n e s Z a h l e n b e i s p i e l d i e n e n . E s w i r d a n g e n o m m e n , d a s s D a t e n f ü r d r e i G ü t e r s o r t e n u n d v i e r P e r i o d e n v e r f ü g b a r s i n d ( T a b e l l e 6 . 1 ) . R - 6 - 1 E i n P r o b l e m b e s t e h t d a r i n , d a s s m a n z u r R e p r ä s e n t a t i o n s o w o h l d e r M e n g e n a l s a u c h d e r P r e i s e V e k t o r e n b e n ö t i g t ; f ü r d i e M e n g e n d i e V e k t o r e n q t = ( q t 1 , . . . , q t n ) ′ u n d f ü r d i e P r e i s e d i e V e k t o r e n p t = ( p t 1 , . . . , p t n ) ′ . 1 D i e s i s t e i n e t h e o r e t i s c h e B e t r a c h t u n g . T a t s ä c h l i c h w e r d e n n i c h t U m s ä t z e v o n t a t s ä c h l i c h e n T r a n s a k t i o n e n i n d e r P r e i s s t a t i s t i k e r f a s s t , s o n d e r n l e d i g l i c h d i e P r e i s e i n V e r k a u f s s t ä t t e n u n d K a t a l o g e n , z u d e n e n G ü t e r a n g e b o t e n w e r d e n . 6 6.4 Messziffernmittelung 113 Tabelle 6.4: Messziffern und Ausgabenanteile (1). t 0 t 1 m t 0 ,t 1 1 m t 0 ,t 1 2 m t 0 ,t 1 3 1 2 1.000 1.000 1.500 2 3 1.250 1.667 0.667 3 4 0.800 0.800 0.500 Tabelle 6.5: Messziffern und Ausgabenanteile (2). t 0 t 1 g t 0 1 g t 0 2 g t 0 3 g t 1 1 g t 1 2 g t 1 3 1 2 0.250 0.375 0.375 0.348 0.261 0.391 2 3 0.348 0.261 0.391 0.278 0.278 0.444 3 4 0.278 0.278 0.444 0.421 0.421 0.158 der Preisindex nach Laspeyres: P l t 0 t 1 = n ∑ j =1 m t 0 t 1 ,j g t 0 j = n ∑ j =1 p t 1 j p t 0 j q t 0 j p t 0 j ∑ n k =1 q t 0 k p t 0 k = ∑ n j =1 q t 0 j p t 1 j ∑ n j =1 q t 0 j p t 0 j . Das mit den Ausgabenanteilen der Periode t 1 gewichtete harmonische Mittel der Preismesszahlen führt zum Preisindex nach Paasche: P p t 0 t 1 = 1 ∑ n j =1 1 m t 0 t 1 ,j g t 1 j = 1 ∑ n j =1 p t 0 j p t 1 j q t 1 j p t 1 j ∑ n k =1 q t 1 k p t 1 k = ∑ n j =1 q t 1 j p t 1 j ∑ n j =1 q t 1 j p t 0 j . Ermitteln wir zur Veranschaulichung den Laspeyres-Preisindex für die Preisentwicklung der Periode 1 auf die Periode 2: P l t 1 t 2 = n ∑ j =1 m t 0 t 1 ,j g t 0 j = 1 · 0 . 250 + 1 · 0 . 375 + 1 . 5 · 0 . 375 = 1 . 19 . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 113 03.09.2019 13: 55: 54 <?page no="114"?> 114 6 Preis- und Mengenindizes Für den Preisindex nach Paasche für die Entwicklung der Preise von der Periode 3 auf die Periode 4 ergibt sich P p t 3 t 4 = 1 ∑ n j =1 1 m t 0 t 1 ,j g t 1 j = 1 1 0 . 8 · 0 . 421 + 1 0 . 8 · 0 . 421 + 1 0 . 5 · 0 . 158 = 0 . 73 . 6.5 Repräsentativgewichtung: Einzelpreise und Ausgabenanteile Die Darstellung in der Form der Messziffernmittelung ist von praktischer Bedeutung, weil z. B. beim Verbraucherpreisindex zwar rund 300 , 000 Einzelpreise, aber Ausgabenanteile nur für 700 Güter und Dienstleistungen ermittelt werden. Die vielen (im Mittel 429) Einzelpreise p ij ( i = 1 , . . . , n j ) eines Gutes oder einer Dienstleistung c j werden in den Perioden t 0 und t 1 ungewichtet gemittelt, und aus diesen mittleren Preisen wird eine Preismesszahl gebildet, die dann mit dem Ausgabenanteil gewichtet wird. Dieses Vorgehen wird als Repräsentativgewichtung bezeichnet. 4 Im Fall des Verbraucherpreisindex wird somit gerechnet P l t 0 ,t 1 = n ∑ j =1 ¯ p t 1 j ¯ p t 0 j g t 0 j , mit ¯ p t 1 j = 1 n j n j ∑ i =1 p t 1 ij und ¯ p t 0 j = 1 n j n j ∑ i =1 p t 0 ij . Hier ist zu beachten, dass durch diese Vorgehensweise teure Güter in stärkerem Maße berücksichtigt werden, weil das Verhältnis der Durchschnittspreise gerade das mit den Preisen der Periode t 0 gewichtete arithmetische Mittel der Preismesszahlen ist (vgl. W. Neubauer 1996: 77f). Dies lässt sich darstellen durch ¯ p t 1 j ¯ p t 0 j = ∑ n j i =1 p t 1 ij ∑ n j i =1 p t 0 ij = ∑ n j i =1 p t 1 ij p t 0 ij p t 0 ij ∑ n j i =1 p t 0 ij . 4 Preise, Verbraucherpreisindizes für Deutschland, Jahresbericht 2010, Statistisches Bundesamt, Wiesbaden 2011. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 114 03.09.2019 13: 55: 55 <?page no="115"?> 6.3 Preisindizes auf Basis von Warenkorbvergleichen 103 Tabelle 6.1: Mengen, Preise und Umsätze in 4 Perioden. Periode q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 16 2 2 2 3 4 3 3 23 3 1 1 4 5 5 2 18 4 2 2 3 4 4 1 19 individuellen Transaktionen bzw. Marktpreisen abstrahiert wird. Wir nehmen an, dass es n Güter gibt und man für jedes Gut c j folgende Größen kennt: Die gesamte Gütermenge q tj , die in der Periode t umgesetzt worden ist, und den gesamten Geldbetrag u tj , der dafür gezahlt worden ist. Der Marktpreis des Guts in der Periode t ist dann p tj = u tj / q tj . 1 6.3 Preisindizes auf Basis von Warenkorbvergleichen Der Konstruktion von Preisindizes liegt die Fragestellung zugrunde, wie man sich ein Bild von der zeitlichen Entwicklung von Gesamtumsätzen machen kann, bei dem hypothetisch zwischen zwei Komponenten unterschieden wird: Veränderungen in den umgesetzten Gütermengen und Veränderungen in den Preisen. Zu betonen ist, dass es sich um fiktive Konstruktionen handelt, da den „Komponenten“ keine empirischen Sachverhalte entsprechen. Um das Problem zu verdeutlichen, kann ein kleines Zahlenbeispiel dienen. Es wird angenommen, dass Daten für drei Gütersorten und vier Perioden verfügbar sind (Tabelle 6.1). R-6-1 Ein Problem besteht darin, dass man zur Repräsentation sowohl der Mengen als auch der Preise Vektoren benötigt; für die Mengen die Vektoren q t = ( q t 1 , . . . , q tn ) ′ und für die Preise die Vektoren p t = ( p t 1 , . . . , p tn ) ′ . 1 Dies ist eine theoretische Betrachtung. Tatsächlich werden nicht Umsätze von tatsächlichen Transaktionen in der Preisstatistik erfasst, sondern lediglich die Preise in Verkaufsstätten und Katalogen, zu denen Güter angeboten werden. 6 6 . 3 P r e i s i n d i z e s a u f B a s i s v o n W a r e n k o r b v e r g l e i c h e n 1 0 3 T a b e l l e 6 . 1 : M e n g e n , P r e i s e u n d U m s ä t z e i n 4 P e r i o d e n . P e r i o d e q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 1 6 2 2 2 3 4 3 3 2 3 3 1 1 4 5 5 2 1 8 4 2 2 3 4 4 1 1 9 i n d i v i d u e l l e n T r a n s a k t i o n e n b z w . M a r k t p r e i s e n a b s t r a h i e r t w i r d . W i r n e h m e n a n , d a s s e s n G ü t e r g i b t u n d m a n f ü r j e d e s G u t c j f o l g e n d e G r ö ß e n k e n n t : D i e g e s a m t e G ü t e r m e n g e q t j , d i e i n d e r P e r i o d e t u m g e s e t z t w o r d e n i s t , u n d d e n g e s a m t e n G e l d b e t r a g u t j , d e r d a f ü r g e z a h l t w o r d e n i s t . D e r M a r k t p r e i s d e s G u t s i n d e r P e r i o d e t i s t d a n n p t j = u t j / q t j . 1 6 . 3 P r e i s i n d i z e s a u f B a s i s v o n W a r e n k o r b v e r g l e i c h e n D e r K o n s t r u k t i o n v o n P r e i s i n d i z e s l i e g t d i e F r a g e s t e l l u n g z u g r u n d e , w i e m a n s i c h e i n B i l d v o n d e r z e i t l i c h e n E n t w i c k l u n g v o n G e s a m t u m s ä t z e n m a c h e n k a n n , b e i d e m h y p o t h e t i s c h z w i s c h e n z w e i K o m p o n e n t e n u n t e r s c h i e d e n w i r d : V e r ä n d e r u n g e n i n d e n u m g e s e t z t e n G ü t e r m e n g e n u n d V e r ä n d e r u n g e n i n d e n P r e i s e n . Z u b e t o n e n i s t , d a s s e s s i c h u m fik t i v e K o n s t r u k t i o n e n h a n d e l t , d a d e n „ K o m p o n e n t e n “ k e i n e e m p i r i s c h e n S a c h v e r h a l t e e n t s p r e c h e n . U m d a s P r o b l e m z u v e r d e u t l i c h e n , k a n n e i n k l e i n e s Z a h l e n b e i s p i e l d i e n e n . E s w i r d a n g e n o m m e n , d a s s D a t e n f ü r d r e i G ü t e r s o r t e n u n d v i e r P e r i o d e n v e r f ü g b a r s i n d ( T a b e l l e 6 . 1 ) . R - 6 - 1 E i n P r o b l e m b e s t e h t d a r i n , d a s s m a n z u r R e p r ä s e n t a t i o n s o w o h l d e r M e n g e n a l s a u c h d e r P r e i s e V e k t o r e n b e n ö t i g t ; f ü r d i e M e n g e n d i e V e k t o r e n q t = ( q t 1 , . . . , q t n ) ′ u n d f ü r d i e P r e i s e d i e V e k t o r e n p t = ( p t 1 , . . . , p t n ) ′ . 1 D i e s i s t e i n e t h e o r e t i s c h e B e t r a c h t u n g . T a t s ä c h l i c h w e r d e n n i c h t U m s ä t z e v o n t a t s ä c h l i c h e n T r a n s a k t i o n e n i n d e r P r e i s s t a t i s t i k e r f a s s t , s o n d e r n l e d i g l i c h d i e P r e i s e i n V e r k a u f s s t ä t t e n u n d K a t a l o g e n , z u d e n e n G ü t e r a n g e b o t e n w e r d e n . 6 6.6 Konstruktion von Indexziffern 115 Die angeführten Definitionen zeigen, dass sich Preisindizes stets auf zwei Zeitperioden beziehen. Man kann also nicht von einem absoluten Preisniveau, sondern nur von Veränderungen des Preisniveaus sprechen, wobei natürlich die Veränderungen auch davon abhängen, welche Arten von Preisindizes verwendet werden. Außerdem ist klar, dass stets eine Angabe der Gütersorte erfolgen muss, auf deren Transaktionen sich Veränderungen des Preisniveaus beziehen sollen. Das Statistische Bundesamt berechnet deshalb eine Vielzahl unterschiedlicher Preisindizes, die sich auf jeweils unterschiedlich ausgesuchte Arten von Gütern beziehen. 6.6 Konstruktion von Indexziffern Da in der amtlichen Statistik zumeist Indexziffern (auch Indexzahlen genannt) ausgewiesen werden, sollen diese kurz besprochen werden. Als Beispiel wird auf Preisindizes Bezug genommen (ganz analoge Überlegungen gelten für Mengenindizes). Das Ziel besteht in diesem Fall darin, die Preisentwicklung (Veränderungen des Preisniveaus) während einer Folge von Perioden t 0 , t 1 , t 2 , . . . darzustellen. t 0 wird als Basisperiode bezeichnet. Werden Laspeyres-Indizes verwendet, bezieht sich auch meistens das Wägungsschema auf diese Basisperiode, und es wird dann für alle weiteren Perioden unverändert beibehalten, bis (in größeren zeitlichen Abständen) ein neues Wägungsschema eingeführt wird. Das Wägungsschema gibt die Ausgabenanteile für Gütergruppen an und dient der Gewichtung der Preismessziffern. Der Indexziffer, mit der Veränderungen des Preisniveaus erfasst werden sollen, wird in der Basisperiode der Wert 100 gegeben. Bezeichnet I t die Indexziffer, wird also I t 0 = 100 gesetzt. Die weiteren Werte ergeben sich dann aus den Preisindizes. Tabelle 6.6 verdeutlicht die Berechnung. Zur Illustration können folgende Indexziffern für die Erzeugerpreise gewerblicher Produkte der Gütergruppe 10 11 12 (Schweinefleisch, frisch oder gekühlt) dienen. 5 Tabelle 6.7 zeigt die Preisentwicklung von 2013 bis 2018. R-6-4 Als Basisperiode dient in diesem Fall das Jahr 2015. Im Übergang von 2013 nach 2014 hat das Preisniveau um − 5 . 6 % abgenommen, 5 Statistisches Bundesamt, Genesis-Online, Index der Erzeugerpreise gewerblicher Produkte (Inlandsabsatz), nach dem Güterverzeichnis für Produktionsstatistiken, Ausgabe 2009 (GP 2009). 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 115 03.09.2019 13: 55: 55 <?page no="116"?> 116 6 Preis- und Mengenindizes Tabelle 6.6: Berechnung von Indexziffern für das Preisniveau. t Preisindex Indexziffer t 0 I t 0 = 100 t 1 P t 0 t 1 I t 1 = I t 0 P t 0 t 1 t 2 P t 1 t 2 I t 2 = I t 1 P t 1 t 2 t 3 P t 2 t 3 I t 3 = I t 2 P t 2 t 3 t 4 P t 3 t 4 I t 4 = I t 3 P t 3 t 4 Tabelle 6.7: Erzeugerpreisentwicklung, Schweinefleisch, frisch oder gekühlt. Jahr 2013 2014 2015 2016 2017 2018 Indexziffer 115.6 109.1 100.0 104.1 113.0 104.0 Proz. Ver. -5.6 -8.3 4.1 8.5 -8.0 im Übergang von 2014 nach 2015 um ( 100 . 0 109 . 1 − 1 ) · 100 ≈ − 8 . 3 % , usw. Zugrunde liegen Preisindizes nach Laspeyres, die, wie Tabelle 6.6 zeigt, direkt aus den prozentualen Veränderungen der Indexziffern berechnet werden können. 6.6.1 Der Verbraucherpreisindex Der Verbraucherpreisindex (früher Preisindex der Lebenshaltung) ist der meistbeachtete Preisindex und seine prozentuale Veränderung wird üblicherweise als Inflationsrate bezeichnet. Der Index wird nach der Indexformel von Laspeyres berechnet, und im Schnitt wird alle fünf Jahre das Wägungsschema aktualisiert. Die Datengrundlage des Verbraucherpreisindex wird sehr aufwendig ermittelt. Monatlich erfassen ungefähr 600 Preiserheber in 188 Gemeinden rund 300 , 000 Einzelpreise in knapp 40 , 000 Berichtsstellen (z. B. Einzelhandelsgeschäfte, Dienstleister, Internetanbieter). Die Berichtsgemeinden sind regional über das gesamte Bundesgebiet verteilt und bestehen sowohl aus Großstädten als auch aus mittleren und kleinen Gemeinden. Der Warenkorb besteht aus rund 700 Gütern und Dienstleistungen. Für diese Güter und Dienstleistungen werden ausgehend von den rund 300 , 000 Einzelpreisen mittlere 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 116 03.09.2019 13: 55: 55 <?page no="117"?> 6.3 Preisindizes auf Basis von Warenkorbvergleichen 103 Tabelle 6.1: Mengen, Preise und Umsätze in 4 Perioden. Periode q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 16 2 2 2 3 4 3 3 23 3 1 1 4 5 5 2 18 4 2 2 3 4 4 1 19 individuellen Transaktionen bzw. Marktpreisen abstrahiert wird. Wir nehmen an, dass es n Güter gibt und man für jedes Gut c j folgende Größen kennt: Die gesamte Gütermenge q tj , die in der Periode t umgesetzt worden ist, und den gesamten Geldbetrag u tj , der dafür gezahlt worden ist. Der Marktpreis des Guts in der Periode t ist dann p tj = u tj / q tj . 1 6.3 Preisindizes auf Basis von Warenkorbvergleichen Der Konstruktion von Preisindizes liegt die Fragestellung zugrunde, wie man sich ein Bild von der zeitlichen Entwicklung von Gesamtumsätzen machen kann, bei dem hypothetisch zwischen zwei Komponenten unterschieden wird: Veränderungen in den umgesetzten Gütermengen und Veränderungen in den Preisen. Zu betonen ist, dass es sich um fiktive Konstruktionen handelt, da den „Komponenten“ keine empirischen Sachverhalte entsprechen. Um das Problem zu verdeutlichen, kann ein kleines Zahlenbeispiel dienen. Es wird angenommen, dass Daten für drei Gütersorten und vier Perioden verfügbar sind (Tabelle 6.1). R-6-1 Ein Problem besteht darin, dass man zur Repräsentation sowohl der Mengen als auch der Preise Vektoren benötigt; für die Mengen die Vektoren q t = ( q t 1 , . . . , q tn ) ′ und für die Preise die Vektoren p t = ( p t 1 , . . . , p tn ) ′ . 1 Dies ist eine theoretische Betrachtung. Tatsächlich werden nicht Umsätze von tatsächlichen Transaktionen in der Preisstatistik erfasst, sondern lediglich die Preise in Verkaufsstätten und Katalogen, zu denen Güter angeboten werden. 6 6 . 3 P r e i s i n d i z e s a u f B a s i s v o n W a r e n k o r b v e r g l e i c h e n 1 0 3 T a b e l l e 6 . 1 : M e n g e n , P r e i s e u n d U m s ä t z e i n 4 P e r i o d e n . P e r i o d e q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 1 6 2 2 2 3 4 3 3 2 3 3 1 1 4 5 5 2 1 8 4 2 2 3 4 4 1 1 9 i n d i v i d u e l l e n T r a n s a k t i o n e n b z w . M a r k t p r e i s e n a b s t r a h i e r t w i r d . W i r n e h m e n a n , d a s s e s n G ü t e r g i b t u n d m a n f ü r j e d e s G u t c j f o l g e n d e G r ö ß e n k e n n t : D i e g e s a m t e G ü t e r m e n g e q t j , d i e i n d e r P e r i o d e t u m g e s e t z t w o r d e n i s t , u n d d e n g e s a m t e n G e l d b e t r a g u t j , d e r d a f ü r g e z a h l t w o r d e n i s t . D e r M a r k t p r e i s d e s G u t s i n d e r P e r i o d e t i s t d a n n p t j = u t j / q t j . 1 6 . 3 P r e i s i n d i z e s a u f B a s i s v o n W a r e n k o r b v e r g l e i c h e n D e r K o n s t r u k t i o n v o n P r e i s i n d i z e s l i e g t d i e F r a g e s t e l l u n g z u g r u n d e , w i e m a n s i c h e i n B i l d v o n d e r z e i t l i c h e n E n t w i c k l u n g v o n G e s a m t u m s ä t z e n m a c h e n k a n n , b e i d e m h y p o t h e t i s c h z w i s c h e n z w e i K o m p o n e n t e n u n t e r s c h i e d e n w i r d : V e r ä n d e r u n g e n i n d e n u m g e s e t z t e n G ü t e r m e n g e n u n d V e r ä n d e r u n g e n i n d e n P r e i s e n . Z u b e t o n e n i s t , d a s s e s s i c h u m fik t i v e K o n s t r u k t i o n e n h a n d e l t , d a d e n „ K o m p o n e n t e n “ k e i n e e m p i r i s c h e n S a c h v e r h a l t e e n t s p r e c h e n . U m d a s P r o b l e m z u v e r d e u t l i c h e n , k a n n e i n k l e i n e s Z a h l e n b e i s p i e l d i e n e n . E s w i r d a n g e n o m m e n , d a s s D a t e n f ü r d r e i G ü t e r s o r t e n u n d v i e r P e r i o d e n v e r f ü g b a r s i n d ( T a b e l l e 6 . 1 ) . R - 6 - 1 E i n P r o b l e m b e s t e h t d a r i n , d a s s m a n z u r R e p r ä s e n t a t i o n s o w o h l d e r M e n g e n a l s a u c h d e r P r e i s e V e k t o r e n b e n ö t i g t ; f ü r d i e M e n g e n d i e V e k t o r e n q t = ( q t 1 , . . . , q t n ) ′ u n d f ü r d i e P r e i s e d i e V e k t o r e n p t = ( p t 1 , . . . , p t n ) ′ . 1 D i e s i s t e i n e t h e o r e t i s c h e B e t r a c h t u n g . T a t s ä c h l i c h w e r d e n n i c h t U m s ä t z e v o n t a t s ä c h l i c h e n T r a n s a k t i o n e n i n d e r P r e i s s t a t i s t i k e r f a s s t , s o n d e r n l e d i g l i c h d i e P r e i s e i n V e r k a u f s s t ä t t e n u n d K a t a l o g e n , z u d e n e n G ü t e r a n g e b o t e n w e r d e n . 6 6.6 Konstruktion von Indexziffern 117 Preisveränderungen berechnet. In die Indexformel gehen die für diese Güter und Dienstleistungen ermittelten Preismessziffern ein, die mit den jeweiligen Ausgabenanteilen im Basisjahr gewichtet werden. Grundlage der Ermittlung des Wägungsschemas sind die Einkommens- und Verbrauchsstichprobe (EVS), die das Ausgabeverhalten von rund 6 , 000 Haushalten erfasst, sowie die Laufenden Wirtschaftsrechnungen und die Steuerstatistik. Für die letzten fünf Basisjahre - 1995, 2000, 2005, 2010 und 2015 - sind für 12 Gütergruppen (Abteilungen des Güterverzeichnisses) die Anteile an den Ausgaben in der Tabelle 6.8 dargestellt. 6 Innerhalb des Zeitraums von 20 Jahren haben sich teilweise deutliche Veränderungen der Ausgabenanteile ergeben. So hat sich z. B. der Anteil für Nachrichtenübermittlung um 18 % erhöht, der Anteil der Ausgaben für Bekleidung und Schuhe um 34 % verringert. 6 Statistisches Bundesamt (2019), Preise, Verbraucherpreisindex für Deutschland, Wägungsschema f.d. Basisjahr 2015, Wiesbaden, S.2. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 117 03.09.2019 13: 55: 56 <?page no="118"?> 118 6 Preis- und Mengenindizes Tabelle 6.8: Verbraucherpreisindex (VPI): Wägungsschema (1995, 2000, 2005, 2010, 2015), ∑ = 1000. Abteilungen 1995 2000 2005 2010 2015 Nahrungsm. und alkoholfreie Getränke 131 . 26 103 . 35 103 . 55 102 . 71 96 . 85 Alkoholische Getränke und Tabakwaren 41 . 67 36 . 73 38 . 99 37 . 59 37 . 77 Bekleidung und Schuhe 68 . 76 55 . 09 48 . 88 44 . 93 45 . 34 Wohnung, Wasser, Strom, Gas etc. 274 . 77 302 . 66 308 . 00 317 . 29 324 . 70 Einrichtungsgegenstände 70 . 56 68 . 54 55 . 87 49 . 78 50 . 04 Gesundheitspflege 34 . 39 35 . 46 40 . 27 44 . 44 46 . 13 Verkehr 138 . 82 138 . 65 131 . 90 134 . 73 129 . 05 Nachrichtenübermittlung 22 . 66 25 . 21 31 . 00 30 . 10 26 . 72 Freizeit, Unterhaltung, Kultur 103 . 57 110 . 85 115 . 68 114 . 92 113 . 36 Bildungswesen 6 . 51 6 . 66 7 . 40 8 . 80 9 . 02 Beherbergungs- und Gaststättendienstl. 46 . 08 46 . 57 43 . 99 44 . 67 46 . 77 Andere Waren und Dienstleistungen 60 . 95 70 . 23 74 . 47 70 . 04 74 . 25 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 118 03.09.2019 13: 55: 56 <?page no="119"?> 6.3 Preisindizes auf Basis von Warenkorbvergleichen 103 Tabelle 6.1: Mengen, Preise und Umsätze in 4 Perioden. Periode q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 16 2 2 2 3 4 3 3 23 3 1 1 4 5 5 2 18 4 2 2 3 4 4 1 19 individuellen Transaktionen bzw. Marktpreisen abstrahiert wird. Wir nehmen an, dass es n Güter gibt und man für jedes Gut c j folgende Größen kennt: Die gesamte Gütermenge q tj , die in der Periode t umgesetzt worden ist, und den gesamten Geldbetrag u tj , der dafür gezahlt worden ist. Der Marktpreis des Guts in der Periode t ist dann p tj = u tj / q tj . 1 6.3 Preisindizes auf Basis von Warenkorbvergleichen Der Konstruktion von Preisindizes liegt die Fragestellung zugrunde, wie man sich ein Bild von der zeitlichen Entwicklung von Gesamtumsätzen machen kann, bei dem hypothetisch zwischen zwei Komponenten unterschieden wird: Veränderungen in den umgesetzten Gütermengen und Veränderungen in den Preisen. Zu betonen ist, dass es sich um fiktive Konstruktionen handelt, da den „Komponenten“ keine empirischen Sachverhalte entsprechen. Um das Problem zu verdeutlichen, kann ein kleines Zahlenbeispiel dienen. Es wird angenommen, dass Daten für drei Gütersorten und vier Perioden verfügbar sind (Tabelle 6.1). R-6-1 Ein Problem besteht darin, dass man zur Repräsentation sowohl der Mengen als auch der Preise Vektoren benötigt; für die Mengen die Vektoren q t = ( q t 1 , . . . , q tn ) ′ und für die Preise die Vektoren p t = ( p t 1 , . . . , p tn ) ′ . 1 Dies ist eine theoretische Betrachtung. Tatsächlich werden nicht Umsätze von tatsächlichen Transaktionen in der Preisstatistik erfasst, sondern lediglich die Preise in Verkaufsstätten und Katalogen, zu denen Güter angeboten werden. 6 6 6.6 Konstruktion von Indexziffern 119 Jahr Preisindex 1880 1900 1920 1940 1960 1980 2000 2020 0 20 40 60 80 100 120 Abbildung 6.1: Preisentwicklung 1881-2018, 2015=100. 6.6.2 Entwicklung der Verbraucherpreise seit 1881 Das Statistische Bundesamt veröffentlicht in der Fachserie 17 Preise 7 eine lange Zeitreihe zur Entwicklung der Verbraucherpreise, die bis 1881 zurückreicht (vgl. Abb. 6.1). Für die Zusammenstellung mussten dabei mehrere Indexreihen verwendet werden, die sich auf verschiedene Gebietsstände und verschiedene Haushaltstypen beziehen. Die genaueren Angaben über die verketteten Indexreihen übernehmen wir vom Statistischen Bundesamt. Folgende Daten dienten als Grundlage der Nachweisung: 1. Für die Jahre 1881 bis 1913 ist der Durchschnitt aus 10 Indexziffern (Ernährung) verschiedener privater Autoren ermittelt worden. 2. In den Jahren 1914 bis 1923 wurde die Preisentwicklung in den wichtigsten Teilbereichen der Lebenshaltung durch die amtliche Statistik beobachtet. Für die Zeit von 1914 bis 1919 7 Statistisches Bundesamt (2011), Fachserie 17, Preise, Verbraucherpreisindizes für Deutschland, Jahresbericht 2010, Wiesbaden. Die aktuellen Werte stammen aus Genesis-Online, Verbraucherpreisindex, Jahreswerte. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 119 03.09.2019 13: 55: 57 <?page no="120"?> 120 6 Preis- und Mengenindizes wurde der Durchschnitt aus den Gütergruppen Ernährung, Wohnung, Hausrat und Bekleidung berechnet, für die Jahre 1920 und 1921 der Durchschnitt aus den Gütergruppen Ernährung, Wohnung, Heizung, Beleuchtung und Bekleidung. 3. Wegen der sprunghaften Geldentwertung erschien eine Berechnung für die Jahre 1922 und 1923 nicht angebracht. 4. Indizes, die die Verbraucherpreisentwicklung in allen Bereichen der Lebenshaltung in Deutschland aufzeigen, werden seit 1924 berechnet. Das Statistische Reichsamt veröffentlichte bis 1944 die „Reichsindexziffer für die Lebenshaltungskosten“. 5. Seit 1945 werden verschiedene Preisindizes für die Lebenshaltung vom Statistischen Bundesamt bzw. dessen Vorgängerorganisation berechnet. Der Reihe liegt von 1945 bis 1961 der „Preisindex für die Lebenshaltung von 4-Personen-Haushalten von Arbeitern und Angestellten mit mittlerem Einkommen“ zu Grunde. 6. Ab 1962 ist der „Preisindex für die Lebenshaltung aller Privaten Haushalte“ in den jeweiligen Gebietsständen maßgeblich. 7. Die Jahresdurchschnitte ab 1949 wurden als arithmetisches Mittel aus den gerundeten Monatsindizes berechnet und auf eine Nachkommastelle gerundet. Bei der Berechnung der Monatswerte ab Juni 1948 wurden die jeweils auf der Originalbasis berechneten Indizes zu Grunde gelegt. Abbildung 6.2 zeigt bis zum Beginn der extremen Inflation im Jahre 1919 einen erratischen Verlauf mit mäßigen Preisveränderungen. Für die Jahre der Hyperinflation 1920 bis 1924 werden keine Preisveränderungen ausgewiesen. 8 In den Jahren der Depression 1931 und 1932 betragen die Preisrückgänge − 8 . 1 % und − 11 . 4 %. In den Jahren unmittelbar nach dem zweiten Weltkrieg zeigen sich extreme Preisveränderungen (1948: 15 . 3 %, 1950: − 6 . 2 %). In den Jahren 1971 bis 1975 sowie in den Jahren 1981 und 1982 waren Inflationsraten von über 5 % zu verzeichnen. Seit Mitte der 90er Jahre sind die Preisveränderungen sehr moderat. 8 In Abbildung 6.2 wurden zusätzlich die Jahre 1915 bis 1919 mit ausgesprochen hohen Inflationsraten nicht berücksichtigt. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 120 03.09.2019 13: 55: 58 <?page no="121"?> 6.3 Preisindizes auf Basis von Warenkorbvergleichen 103 Tabelle 6.1: Mengen, Preise und Umsätze in 4 Perioden. Periode q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 16 2 2 2 3 4 3 3 23 3 1 1 4 5 5 2 18 4 2 2 3 4 4 1 19 individuellen Transaktionen bzw. Marktpreisen abstrahiert wird. Wir nehmen an, dass es n Güter gibt und man für jedes Gut c j folgende Größen kennt: Die gesamte Gütermenge q tj , die in der Periode t umgesetzt worden ist, und den gesamten Geldbetrag u tj , der dafür gezahlt worden ist. Der Marktpreis des Guts in der Periode t ist dann p tj = u tj / q tj . 1 6.3 Preisindizes auf Basis von Warenkorbvergleichen Der Konstruktion von Preisindizes liegt die Fragestellung zugrunde, wie man sich ein Bild von der zeitlichen Entwicklung von Gesamtumsätzen machen kann, bei dem hypothetisch zwischen zwei Komponenten unterschieden wird: Veränderungen in den umgesetzten Gütermengen und Veränderungen in den Preisen. Zu betonen ist, dass es sich um fiktive Konstruktionen handelt, da den „Komponenten“ keine empirischen Sachverhalte entsprechen. Um das Problem zu verdeutlichen, kann ein kleines Zahlenbeispiel dienen. Es wird angenommen, dass Daten für drei Gütersorten und vier Perioden verfügbar sind (Tabelle 6.1). R-6-1 Ein Problem besteht darin, dass man zur Repräsentation sowohl der Mengen als auch der Preise Vektoren benötigt; für die Mengen die Vektoren q t = ( q t 1 , . . . , q tn ) ′ und für die Preise die Vektoren p t = ( p t 1 , . . . , p tn ) ′ . 1 Dies ist eine theoretische Betrachtung. Tatsächlich werden nicht Umsätze von tatsächlichen Transaktionen in der Preisstatistik erfasst, sondern lediglich die Preise in Verkaufsstätten und Katalogen, zu denen Güter angeboten werden. 6 6 6.7 Kettenindizes 121 Jahr Inflationsrate -10 -5 0 5 10 15 20 1880 1900 1920 1940 1960 1980 2000 2020 Abbildung 6.2: Jährliche Preisveränderung 1881-2018. 6.7 Kettenindizes Im Rahmen der Revision der Volkswirtschaftlichen Gesamtrechnung des Jahres 2005 wurden in Deutschland Kettenindizes eingeführt. 9 Anstelle der bisher verwendeten Laspeyres-Indizes zur Preismessung mit fester Basis werden nun verkettete Lasypeyres- Indizes mit Vorjahresbasis verwendet. Wurde bisher lediglich im Fünf-Jahresrhythmus bei Anpassung des Basisjahres verkettet, wird nun jährlich verkettet. Damit geht auch bei der Ermittlung der „preisbereinigten Größen“ eine Änderung einher. Anstelle des Ausweises in konstanten Preisen einer Basisperiode werden nun lediglich Kettenindizes der preisbereinigten Wertgrößen veröffentlicht. 9 Statistisches Bundesamt, Revision der Volkswirtschaftlichen Gesamtrechnungen 2005 für den Zeitraum 1991 bis 2004, Wirtschaft und Statistik, 2005, 5, S.425-462. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 121 03.09.2019 13: 55: 59 <?page no="122"?> 122 6 Preis- und Mengenindizes 6.7.1 Definition von Kettenindizes Betrachten wir zunächst im Vergleich den bisherigen Laspeyres- Preisindex für die Perioden t 1 und t 2 auf fester Basis t 0 : P l t 0 t 1 = ∑ n j =1 p t 1 j q t 0 j ∑ n j =1 p t 0 j q t 0 j und P l t 0 t 2 = ∑ n j =1 p t 2 j q t 0 j ∑ n j =1 p t 0 j q t 0 j . Aus den beiden Preisindizes der Perioden t 1 und t 2 lässt sich die Preisveränderung von Periode t 1 auf Periode t 2 mit fester Basis t 0 ermitteln: P l t 1 t 2 , ( t 0 ) = P l t 0 t 2 P l t 0 t 1 = ∑ n j =1 p t 2 j q t 0 j ∑ n j =1 p t 1 j q t 0 j Im Vergleich hierzu wird beim aktuell verwendeten Verfahren der Index P l t 1 t 2 = ∑ n j =1 p t 2 j q t 1 j ∑ n j =1 p t 1 j q t 1 j anstelle von P l t 1 t 2 , ( t 0 ) berechnet. Für den Zeitraum von t 0 bis t 2 wird nun die Preisveränderung P K t 0 t 2 = P l t 0 ,t 1 P l t 1 ,t 2 = ∑ n j =1 p t 1 j q t 0 j ∑ n j =1 p t 0 j q t 0 j ∑ n j =1 p t 2 j q t 1 j ∑ n j =1 p t 1 j q t 1 j ermittelt, indem die beiden Laspeyres-Preisindizes verkettet werden. Zwar sind aus beiden verketteten Laspeyres-Preisindizes Mengenveränderungen ausgeschaltet, jedoch gehen durch die beiden unterschiedlichen Basisjahre indirekt Mengenveränderungen in die Preismessung ein. 6.7.2 Vor- und Nachteile von Kettenindizes Beim Laspeyres-Index werden bei zurückliegendem Basisjahr nicht mehr aktuelle Mengenrelationen verwendet. Da tendenziell zwischen den Mengen- und Preismesszahlen der Güter eine negative Korrelation vorliegt, überzeichnet der Laspeyres-Preisindex die Preissteigerung umso stärker, je weiter das Basisjahr zurückliegt. Mit der Vorjahrespreisbasis wird dieses „Veralten des Warenkorbs“ vermieden. Bei der Anpassung des Basisjahres eines Laspeyres- Index ergeben sich bei den Revisionen (rückwirkend) immer Änderungen der zuvor ausgewiesenen Preis- und Mengenveränderungen. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 122 03.09.2019 13: 55: 59 <?page no="123"?> 6.3 Preisindizes auf Basis von Warenkorbvergleichen 103 Tabelle 6.1: Mengen, Preise und Umsätze in 4 Perioden. Periode q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 16 2 2 2 3 4 3 3 23 3 1 1 4 5 5 2 18 4 2 2 3 4 4 1 19 individuellen Transaktionen bzw. Marktpreisen abstrahiert wird. Wir nehmen an, dass es n Güter gibt und man für jedes Gut c j folgende Größen kennt: Die gesamte Gütermenge q tj , die in der Periode t umgesetzt worden ist, und den gesamten Geldbetrag u tj , der dafür gezahlt worden ist. Der Marktpreis des Guts in der Periode t ist dann p tj = u tj / q tj . 1 6.3 Preisindizes auf Basis von Warenkorbvergleichen Der Konstruktion von Preisindizes liegt die Fragestellung zugrunde, wie man sich ein Bild von der zeitlichen Entwicklung von Gesamtumsätzen machen kann, bei dem hypothetisch zwischen zwei Komponenten unterschieden wird: Veränderungen in den umgesetzten Gütermengen und Veränderungen in den Preisen. Zu betonen ist, dass es sich um fiktive Konstruktionen handelt, da den „Komponenten“ keine empirischen Sachverhalte entsprechen. Um das Problem zu verdeutlichen, kann ein kleines Zahlenbeispiel dienen. Es wird angenommen, dass Daten für drei Gütersorten und vier Perioden verfügbar sind (Tabelle 6.1). R-6-1 Ein Problem besteht darin, dass man zur Repräsentation sowohl der Mengen als auch der Preise Vektoren benötigt; für die Mengen die Vektoren q t = ( q t 1 , . . . , q tn ) ′ und für die Preise die Vektoren p t = ( p t 1 , . . . , p tn ) ′ . 1 Dies ist eine theoretische Betrachtung. Tatsächlich werden nicht Umsätze von tatsächlichen Transaktionen in der Preisstatistik erfasst, sondern lediglich die Preise in Verkaufsstätten und Katalogen, zu denen Güter angeboten werden. 6 6 . 3 P r e i s i n d i z e s a u f B a s i s v o n W a r e n k o r b v e r g l e i c h e n 1 0 3 T a b e l l e 6 . 1 : M e n g e n , P r e i s e u n d U m s ä t z e i n 4 P e r i o d e n . P e r i o d e q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 1 6 2 2 2 3 4 3 3 2 3 3 1 1 4 5 5 2 1 8 4 2 2 3 4 4 1 1 9 i n d i v i d u e l l e n T r a n s a k t i o n e n b z w . M a r k t p r e i s e n a b s t r a h i e r t w i r d . W i r n e h m e n a n , d a s s e s n G ü t e r g i b t u n d m a n f ü r j e d e s G u t c j f o l g e n d e G r ö ß e n k e n n t : D i e g e s a m t e G ü t e r m e n g e q t j , d i e i n d e r P e r i o d e t u m g e s e t z t w o r d e n i s t , u n d d e n g e s a m t e n G e l d b e t r a g u t j , d e r d a f ü r g e z a h l t w o r d e n i s t . D e r M a r k t p r e i s d e s G u t s i n d e r P e r i o d e t i s t d a n n p t j = u t j / q t j . 1 6 . 3 P r e i s i n d i z e s a u f B a s i s v o n W a r e n k o r b v e r g l e i c h e n D e r K o n s t r u k t i o n v o n P r e i s i n d i z e s l i e g t d i e F r a g e s t e l l u n g z u g r u n d e , w i e m a n s i c h e i n B i l d v o n d e r z e i t l i c h e n E n t w i c k l u n g v o n G e s a m t u m s ä t z e n m a c h e n k a n n , b e i d e m h y p o t h e t i s c h z w i s c h e n z w e i K o m p o n e n t e n u n t e r s c h i e d e n w i r d : V e r ä n d e r u n g e n i n d e n u m g e s e t z t e n G ü t e r m e n g e n u n d V e r ä n d e r u n g e n i n d e n P r e i s e n . Z u b e t o n e n i s t , d a s s e s s i c h u m fik t i v e K o n s t r u k t i o n e n h a n d e l t , d a d e n „ K o m p o n e n t e n “ k e i n e e m p i r i s c h e n S a c h v e r h a l t e e n t s p r e c h e n . U m d a s P r o b l e m z u v e r d e u t l i c h e n , k a n n e i n k l e i n e s Z a h l e n b e i s p i e l d i e n e n . E s w i r d a n g e n o m m e n , d a s s D a t e n f ü r d r e i G ü t e r s o r t e n u n d v i e r P e r i o d e n v e r f ü g b a r s i n d ( T a b e l l e 6 . 1 ) . R - 6 - 1 E i n P r o b l e m b e s t e h t d a r i n , d a s s m a n z u r R e p r ä s e n t a t i o n s o w o h l d e r M e n g e n a l s a u c h d e r P r e i s e V e k t o r e n b e n ö t i g t ; f ü r d i e M e n g e n d i e V e k t o r e n q t = ( q t 1 , . . . , q t n ) ′ u n d f ü r d i e P r e i s e d i e V e k t o r e n p t = ( p t 1 , . . . , p t n ) ′ . 1 D i e s i s t e i n e t h e o r e t i s c h e B e t r a c h t u n g . T a t s ä c h l i c h w e r d e n n i c h t U m s ä t z e v o n t a t s ä c h l i c h e n T r a n s a k t i o n e n i n d e r P r e i s s t a t i s t i k e r f a s s t , s o n d e r n l e d i g l i c h d i e P r e i s e i n V e r k a u f s s t ä t t e n u n d K a t a l o g e n , z u d e n e n G ü t e r a n g e b o t e n w e r d e n . 6 6.7 Kettenindizes 123 Für die Preisveränderung des Jahres t 4 gegenüber t 3 z. B. ergibt sich vor bzw. nach Revision, d.h. Anpassung des Basisjahres von t 0 auf t 5 P l t 3 t 4 , ( t 0 ) = ∑ n j =1 p t 4 j q t 0 j ∑ n j =1 p t 3 j q t 0 j = P l t 3 t 4 , ( t 5 ) = ∑ n j =1 p t 4 j q t 5 j ∑ n j =1 p t 3 j q t 5 j Und für die Mengenveränderungen ergibt sich Q l t 3 t 4 , ( t 0 ) = ∑ n j =1 p t 0 j q t 4 j ∑ n j =1 p t 0 j q t 3 j = Q l t 3 t 4 , ( t 5 ) = ∑ n j =1 p t 5 j q t 4 j ∑ n j =1 p t 5 j q t 3 j . Derartige rückwirkende Änderungen sind bei der Verwendung der Vorjahrespreisbasis ausgeschlossen. Den Vorteilen stehen allerdings auch gravierende Nachteile gegenüber: Wie oben erwähnt, liefern Kettenpreisindizes keine konsistente Isolierung einer Preisveränderung. Der Bedeutungsgehalt eines bestimmten Indexstandes ist somit unklar. Der Kettenindex ist zudem nicht pfadinvariant. Sind etwa in Periode t 2 die Preise identisch zu denen in t 0 , resultiert beim Laspeyres-Index P l t 0 ,t 2 = ∑ n j =1 p t 2 j q t 0 j ∑ n j =1 p t 2 j q t 0 j = 1 und beim Kettenindex hingegen P K t 0 ,t 2 = P l t 0 ,t 1 P l t 1 ,t 2 = ∑ n j =1 p t 1 j q t 0 j ∑ n j =1 p t 2 j q t 0 j ∑ n j =1 p t 0 j q t 1 j ∑ n j =1 p t 1 j q t 1 j = 1 . 6.7.3 Deflationierung mit Kettenindizes Mit dem Übergang zur Vorjahrespreisbasis geht einher, dass vom Statistischen Bundesamt keine Zeitreihen von „realen Größen“, d.h. von Mengensurrogaten durch die Verwendung konstanter Preise, mehr veröffentlicht werden. Informationen über den Privaten Verbrauch zweier Perioden t 0 und t 4 in den Preisen des Basisjahres t 0 werden z. B. nicht mehr veröffentlicht. Stattdessen werden lediglich jährliche „reale Wachstumsraten“ ermittelt und zu Zeitreihen von Indizes verknüpft. Somit ist ein Vergleich etwa von 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 123 03.09.2019 13: 56: 00 <?page no="124"?> 124 6 Preis- und Mengenindizes ∑ n j =1 p t 0 j q t 4 j und ∑ n j =1 p t 0 j q t 0 j nicht mehr möglich. Veröffentlicht wird lediglich die aufmultiplizierte relative Veränderung Q K t 0 ,t 4 = Q l t 0 ,t 1 Q l t 1 ,t 2 Q l t 2 ,t 3 Q l t 3 ,t 4 . Auch hier gilt, dass aus den einzelnen Faktoren (Mengenindizes) Preisveränderungen eliminiert sind, aber durch die unterschiedlichen Basisjahre indirekt Preisveränderungen eingehen. Während in der Preisstatistik, etwa beim Verbraucherpreisindex, Laspeyres-Preisindizes berechnet werden, sind die Preisindizes der Verwendungsrechnung der Volkswirtschaftlichen Gesamtrechnungen implizite Kettenindizes vom Typ Paasche. Ausgangsbasis sind die mit Vorjahrespreisen berechneten („deflationierten“) Größen ∑ n j =1 p t 0 j q t 1 j . Die Division der Werte in jeweiligen Preisen führt zu „impliziten“ Paasche-Indizes P p t 0 ,t 1 = ∑ n j =1 p t 1 j q t 1 j ∑ n j =1 p t 0 j q t 1 j . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 124 03.09.2019 13: 56: 00 <?page no="125"?> 6.3 Preisindizes auf Basis von Warenkorbvergleichen 103 Tabelle 6.1: Mengen, Preise und Umsätze in 4 Perioden. Periode q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 16 2 2 2 3 4 3 3 23 3 1 1 4 5 5 2 18 4 2 2 3 4 4 1 19 individuellen Transaktionen bzw. Marktpreisen abstrahiert wird. Wir nehmen an, dass es n Güter gibt und man für jedes Gut c j folgende Größen kennt: Die gesamte Gütermenge q tj , die in der Periode t umgesetzt worden ist, und den gesamten Geldbetrag u tj , der dafür gezahlt worden ist. Der Marktpreis des Guts in der Periode t ist dann p tj = u tj / q tj . 1 6.3 Preisindizes auf Basis von Warenkorbvergleichen Der Konstruktion von Preisindizes liegt die Fragestellung zugrunde, wie man sich ein Bild von der zeitlichen Entwicklung von Gesamtumsätzen machen kann, bei dem hypothetisch zwischen zwei Komponenten unterschieden wird: Veränderungen in den umgesetzten Gütermengen und Veränderungen in den Preisen. Zu betonen ist, dass es sich um fiktive Konstruktionen handelt, da den „Komponenten“ keine empirischen Sachverhalte entsprechen. Um das Problem zu verdeutlichen, kann ein kleines Zahlenbeispiel dienen. Es wird angenommen, dass Daten für drei Gütersorten und vier Perioden verfügbar sind (Tabelle 6.1). R-6-1 Ein Problem besteht darin, dass man zur Repräsentation sowohl der Mengen als auch der Preise Vektoren benötigt; für die Mengen die Vektoren q t = ( q t 1 , . . . , q tn ) ′ und für die Preise die Vektoren p t = ( p t 1 , . . . , p tn ) ′ . 1 Dies ist eine theoretische Betrachtung. Tatsächlich werden nicht Umsätze von tatsächlichen Transaktionen in der Preisstatistik erfasst, sondern lediglich die Preise in Verkaufsstätten und Katalogen, zu denen Güter angeboten werden. 6 6 . 3 P r e i s i n d i z e s a u f B a s i s v o n W a r e n k o r b v e r g l e i c h e n 1 0 3 T a b e l l e 6 . 1 : M e n g e n , P r e i s e u n d U m s ä t z e i n 4 P e r i o d e n . P e r i o d e q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 1 6 2 2 2 3 4 3 3 2 3 3 1 1 4 5 5 2 1 8 4 2 2 3 4 4 1 1 9 i n d i v i d u e l l e n T r a n s a k t i o n e n b z w . M a r k t p r e i s e n a b s t r a h i e r t w i r d . W i r n e h m e n a n , d a s s e s n G ü t e r g i b t u n d m a n f ü r j e d e s G u t c j f o l g e n d e G r ö ß e n k e n n t : D i e g e s a m t e G ü t e r m e n g e q t j , d i e i n d e r P e r i o d e t u m g e s e t z t w o r d e n i s t , u n d d e n g e s a m t e n G e l d b e t r a g u t j , d e r d a f ü r g e z a h l t w o r d e n i s t . D e r M a r k t p r e i s d e s G u t s i n d e r P e r i o d e t i s t d a n n p t j = u t j / q t j . 1 6 . 3 P r e i s i n d i z e s a u f B a s i s v o n W a r e n k o r b v e r g l e i c h e n D e r K o n s t r u k t i o n v o n P r e i s i n d i z e s l i e g t d i e F r a g e s t e l l u n g z u g r u n d e , w i e m a n s i c h e i n B i l d v o n d e r z e i t l i c h e n E n t w i c k l u n g v o n G e s a m t u m s ä t z e n m a c h e n k a n n , b e i d e m h y p o t h e t i s c h z w i s c h e n z w e i K o m p o n e n t e n u n t e r s c h i e d e n w i r d : V e r ä n d e r u n g e n i n d e n u m g e s e t z t e n G ü t e r m e n g e n u n d V e r ä n d e r u n g e n i n d e n P r e i s e n . Z u b e t o n e n i s t , d a s s e s s i c h u m fik t i v e K o n s t r u k t i o n e n h a n d e l t , d a d e n „ K o m p o n e n t e n “ k e i n e e m p i r i s c h e n S a c h v e r h a l t e e n t s p r e c h e n . U m d a s P r o b l e m z u v e r d e u t l i c h e n , k a n n e i n k l e i n e s Z a h l e n b e i s p i e l d i e n e n . E s w i r d a n g e n o m m e n , d a s s D a t e n f ü r d r e i G ü t e r s o r t e n u n d v i e r P e r i o d e n v e r f ü g b a r s i n d ( T a b e l l e 6 . 1 ) . R - 6 - 1 E i n P r o b l e m b e s t e h t d a r i n , d a s s m a n z u r R e p r ä s e n t a t i o n s o w o h l d e r M e n g e n a l s a u c h d e r P r e i s e V e k t o r e n b e n ö t i g t ; f ü r d i e M e n g e n d i e V e k t o r e n q t = ( q t 1 , . . . , q t n ) ′ u n d f ü r d i e P r e i s e d i e V e k t o r e n p t = ( p t 1 , . . . , p t n ) ′ . 1 D i e s i s t e i n e t h e o r e t i s c h e B e t r a c h t u n g . T a t s ä c h l i c h w e r d e n n i c h t U m s ä t z e v o n t a t s ä c h l i c h e n T r a n s a k t i o n e n i n d e r P r e i s s t a t i s t i k e r f a s s t , s o n d e r n l e d i g l i c h d i e P r e i s e i n V e r k a u f s s t ä t t e n u n d K a t a l o g e n , z u d e n e n G ü t e r a n g e b o t e n w e r d e n . 6 6.8 Aufgaben 125 6.8 Aufgaben 1. Die nachfolgende Tabelle enthält die Preise und Mengen von zwei Gütern in drei Perioden: Preise Mengen t Gut A Gut B Gut A Gut B 0 18 50 4 10 1 20 48 6 9 2 21 51 5 15 a) Ermitteln Sie eine Tabelle mit den absoluten und den relativen Ausgaben für die beiden Güter in den drei Perioden. b) Ermitteln Sie die Preismesszahlen der beiden Güter mit konstanter Basisperiode 0 und variabler Basisperiode (jeweilige Vorperiode). c) Ermitteln Sie das mit den relativen Ausgaben der Periode 0 gewichtete arithmetische Mittel der Preismesszahlen der Perioden 1 bzw. 2 auf Basis der Periode 0. Wie nennt man dieses gewichtete arithmetische Mittel? d) Ermitteln Sie das mit den relativen Ausgaben der Periode 1 gewichtete harmonische Mittel der Preismesszahlen der Periode 1 auf Basis der Periode 0. e) Ermitteln Sie analog zu Aufgabe d das gewichtete harmonische Mittel der Preismeßzahlen der Periode 2 auf Basis der Periode 1 unter Verwendung der Ausgaben der Periode 2. Wie nennt man die von Ihnen berechneten harmonischen Mittelwerte? f) Die von Ihnen ermittelten Preisindizes lassen sich auch anstelle über die Mittelung von Messzahlen über den Vergleich von Warenkörben, tatsächlichen und fiktiven, ermitteln. Berechnen Sie die Preisindizes auch auf diesem Wege. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 125 03.09.2019 13: 56: 00 <?page no="126"?> 126 6 Preis- und Mengenindizes g) Die beiden von Ihnen berechneten harmonischen Mittel messen die isolierte mittlere Preisveränderung von Periode 1 gegenüber Periode 0 bzw. von Periode 2 gegenüber Periode 0. Prüfen Sie, ob Sie aus diesen beiden isolierten Preisentwicklungen die isolierte Preisentwicklung von Periode 2 gegenüber Periode 1 ermitteln können. h) Gelingt Ihnen die Ermittlung der isolierten Preisveränderung von Periode 1 auf Periode 2 bei den Preisindizes nach Laspeyres? i) Berechnen Sie die beiden Mengenindizes Q l t 0 ,t 2 und Q p t 0 ,t 1 . 2. Erläutern Sie die nachfolgenden drei Aussagen. a) Kettenindizes besitzen im Vergleich zu Preisindizes vom Typ Laspeyres den Vorteil, dass weniger veraltete Gewichtungsschemata verwendet werden. b) Kettenindizes sind nicht pfadinvariant. c) Bei der Messung der Preisveränderung von Periode t 2 gegenüber t 0 mit Hilfe von Kettenindizes werden indirekt auch Mengenänderung erfasst. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 126 03.09.2019 13: 56: 01 <?page no="127"?> 6.3 Preisindizes auf Basis von Warenkorbvergleichen 103 Tabelle 6.1: Mengen, Preise und Umsätze in 4 Perioden. Periode q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 16 2 2 2 3 4 3 3 23 3 1 1 4 5 5 2 18 4 2 2 3 4 4 1 19 individuellen Transaktionen bzw. Marktpreisen abstrahiert wird. Wir nehmen an, dass es n Güter gibt und man für jedes Gut c j folgende Größen kennt: Die gesamte Gütermenge q tj , die in der Periode t umgesetzt worden ist, und den gesamten Geldbetrag u tj , der dafür gezahlt worden ist. Der Marktpreis des Guts in der Periode t ist dann p tj = u tj / q tj . 1 6.3 Preisindizes auf Basis von Warenkorbvergleichen Der Konstruktion von Preisindizes liegt die Fragestellung zugrunde, wie man sich ein Bild von der zeitlichen Entwicklung von Gesamtumsätzen machen kann, bei dem hypothetisch zwischen zwei Komponenten unterschieden wird: Veränderungen in den umgesetzten Gütermengen und Veränderungen in den Preisen. Zu betonen ist, dass es sich um fiktive Konstruktionen handelt, da den „Komponenten“ keine empirischen Sachverhalte entsprechen. Um das Problem zu verdeutlichen, kann ein kleines Zahlenbeispiel dienen. Es wird angenommen, dass Daten für drei Gütersorten und vier Perioden verfügbar sind (Tabelle 6.1). R-6-1 Ein Problem besteht darin, dass man zur Repräsentation sowohl der Mengen als auch der Preise Vektoren benötigt; für die Mengen die Vektoren q t = ( q t 1 , . . . , q tn ) ′ und für die Preise die Vektoren p t = ( p t 1 , . . . , p tn ) ′ . 1 Dies ist eine theoretische Betrachtung. Tatsächlich werden nicht Umsätze von tatsächlichen Transaktionen in der Preisstatistik erfasst, sondern lediglich die Preise in Verkaufsstätten und Katalogen, zu denen Güter angeboten werden. 6 6 . 3 P r e i s i n d i z e s a u f B a s i s v o n W a r e n k o r b v e r g l e i c h e n 1 0 3 T a b e l l e 6 . 1 : M e n g e n , P r e i s e u n d U m s ä t z e i n 4 P e r i o d e n . P e r i o d e q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 1 6 2 2 2 3 4 3 3 2 3 3 1 1 4 5 5 2 1 8 4 2 2 3 4 4 1 1 9 i n d i v i d u e l l e n T r a n s a k t i o n e n b z w . M a r k t p r e i s e n a b s t r a h i e r t w i r d . W i r n e h m e n a n , d a s s e s n G ü t e r g i b t u n d m a n f ü r j e d e s G u t c j f o l g e n d e G r ö ß e n k e n n t : D i e g e s a m t e G ü t e r m e n g e q t j , d i e i n d e r P e r i o d e t u m g e s e t z t w o r d e n i s t , u n d d e n g e s a m t e n G e l d b e t r a g u t j , d e r d a f ü r g e z a h l t w o r d e n i s t . D e r M a r k t p r e i s d e s G u t s i n d e r P e r i o d e t i s t d a n n p t j = u t j / q t j . 1 6 . 3 P r e i s i n d i z e s a u f B a s i s v o n W a r e n k o r b v e r g l e i c h e n D e r K o n s t r u k t i o n v o n P r e i s i n d i z e s l i e g t d i e F r a g e s t e l l u n g z u g r u n d e , w i e m a n s i c h e i n B i l d v o n d e r z e i t l i c h e n E n t w i c k l u n g v o n G e s a m t u m s ä t z e n m a c h e n k a n n , b e i d e m h y p o t h e t i s c h z w i s c h e n z w e i K o m p o n e n t e n u n t e r s c h i e d e n w i r d : V e r ä n d e r u n g e n i n d e n u m g e s e t z t e n G ü t e r m e n g e n u n d V e r ä n d e r u n g e n i n d e n P r e i s e n . Z u b e t o n e n i s t , d a s s e s s i c h u m fik t i v e K o n s t r u k t i o n e n h a n d e l t , d a d e n „ K o m p o n e n t e n “ k e i n e e m p i r i s c h e n S a c h v e r h a l t e e n t s p r e c h e n . U m d a s P r o b l e m z u v e r d e u t l i c h e n , k a n n e i n k l e i n e s Z a h l e n b e i s p i e l d i e n e n . E s w i r d a n g e n o m m e n , d a s s D a t e n f ü r d r e i G ü t e r s o r t e n u n d v i e r P e r i o d e n v e r f ü g b a r s i n d ( T a b e l l e 6 . 1 ) . R - 6 - 1 E i n P r o b l e m b e s t e h t d a r i n , d a s s m a n z u r R e p r ä s e n t a t i o n s o w o h l d e r M e n g e n a l s a u c h d e r P r e i s e V e k t o r e n b e n ö t i g t ; f ü r d i e M e n g e n d i e V e k t o r e n q t = ( q t 1 , . . . , q t n ) ′ u n d f ü r d i e P r e i s e d i e V e k t o r e n p t = ( p t 1 , . . . , p t n ) ′ . 1 D i e s i s t e i n e t h e o r e t i s c h e B e t r a c h t u n g . T a t s ä c h l i c h w e r d e n n i c h t U m s ä t z e v o n t a t s ä c h l i c h e n T r a n s a k t i o n e n i n d e r P r e i s s t a t i s t i k e r f a s s t , s o n d e r n l e d i g l i c h d i e P r e i s e i n V e r k a u f s s t ä t t e n u n d K a t a l o g e n , z u d e n e n G ü t e r a n g e b o t e n w e r d e n . 6 6.9 R-Code 127 6.9 R-Code R-6-1 ## Daten generieren # Mengen q1 <c(1,2,3) q2 <c(2,2,3) q3 <c(1,1,4) q4 <c(2,2,3) # Preise p1 <c(4,3,2) p2 <c(4,3,3) p3 <c(5,5,2) p4 <c(4,4,1) # Matrix der Mengen qm <rbind(q1,q2,q3,q4) qm # Matrix der Preise pm <rbind(p1,p2,p3,p4) pm # Umsatz pro Gut u.pro.Gut <qm*pm u.pro.Gut u <rowSums(u.pro.Gut) u R-6-2 ## Preis- und Mengenindizes # Daten Basisperiode q0 <qm[-4,] q0 p0 <pm[-4,] p0 # Daten Berichtsperiode q1 <qm[-1,] q1 p1 <pm[-1,] p1 # verschiedene Warenkörbe berechnen q0p0 <rowSums(q0*p0) q0p0 q1p1 <rowSums(q1*p1) q1p1 q0p1 <rowSums(q0*p1) q0p1 q1p0 <rowSums(q1*p0) q1p0 # Preisindex nach Laspeyres P_L <q0p1/ q0p0; P_L 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 127 03.09.2019 13: 56: 01 <?page no="128"?> 128 6 Preis- und Mengenindizes # Preisindex nach Paasche P_P <q1p1/ q1p0 P_P # Mengenindex nach Laspeyres Q_L <q1p0/ q0p0 Q_L # Mengenindex nach nach Paasche Q_P <q1p1/ q0p1 Q_P R-6-3 # Messziffern m <p1 / p0 m # Ausgabenanteile g <qm*pm/ u g0 <g[-4,] g0 g1 <-g[-1,] g1 R-6-4 # Erzeugerpreisentwicklung, Schweinefleisch, frisch oder gekühlt Index <c(115.6,109.1,100.0,104.1,113.0,104.0) dIndex <- Index[-1]/ Index[-6]*100 - 100 dIndex 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 128 03.09.2019 13: 56: 02 <?page no="129"?> 7.2 Bedingte Häufigkeiten 125 Tabelle 7.2: Gemeinsame Verteilung und Randverteilungen für das Zahlenbeispiel. X/ Y Y=1 Y=2 Y=3 Insg. X=0 0.083 0.083 0.25 0.417 X=1 0.417 0.083 0.083 0.583 Insg. 0.5 0.167 0.333 1 X und Y nicht auf die gemeinsamen Verteilung von ( X, Y ) geschlossen werden kann. In der Regel gibt es sehr viele verschiedene gemeinsame Verteilungen, die die gleichen Randverteilungen haben. R-7-2 7.2 Bedingte Häufigkeiten Wir setzen wieder eine zweidimensionale Variable ( X, Y ) voraus. Oft gilt das Interesse der Verteilung von X unter der Bedingung, dass Y einen bestimmten Wert annimmt. Dies führt zur Idee einer bedingten Verteilung bzw. zu bedingten Häufigkeiten . Wir verwenden die Notation P( X = x | Y = y ) , womit die Häufigkeit von X = x in der Gesamtheit derjenigen Einheiten gemeint ist, bei denen Y den Wert y hat. Ganz analog kann man sich auf P( Y = y | X = x ) beziehen. Man kann diese bedingten Häufigkeiten durch die gemeinsame Verteilung und die Randverteilungen ausdrücken. So gilt zum Beispiel: P( X = x | Y = y ) = P( X = x, Y = y ) P( Y = y ) . Für das Zahlenbeispiel der Tabelle 7.1 findet man beispielsweise die Häufigkeit von X = 0 unter der Bedingung, dass Y = 1 ist, durch P( X = 0 | Y = 1) = 0 . 083 0 . 5 = 0 . 166 . Betrachten wir jetzt eine zweidimensionale Variable ( X, Y ) für die n = 1 , 000 Personen in unserem PSID-File. X erfasst das Geschlecht (0 = männlich, 1 = weiblich), Y erfasst den Beschäftigungssektor 7 7 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und Streuungszerlegung Die Varianz und die Standardabweichung sind wenig anschauliche Streuungsmaße. Lassen sich die Einheiten verschiedenen Klassen zuordnen, dann erlaubt die Streuungszerlegung eine vollständige Aufteilung der Gesamtstreuung in die Streuung innerhalb der Klassen und zwischen den Klassen. Bestehen zwischen den Komponenten einer mehrdimensionalen Variable Abhängigkeiten, dann liefern bedingte Häufigkeiten und bedingte Verteilungen Informationen über diese Abhängigkeiten. 7.1 Mehrdimensionale Variablen . . . . . . . . . . . . . . . . 130 7.2 Bedingte Häufigkeiten . . . . . . . . . . . . . . . . . . . . 131 7.3 Streuungszerlegung . . . . . . . . . . . . . . . . . . . . . 133 7.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 136 7.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 129 03.09.2019 13: 56: 02 <?page no="130"?> 130 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und . . . Tabelle 7.1: Zweidimensionale Variable, Beispielswerte. i x i y i i x i y i i x i y i 1 0 3 5 1 1 9 0 1 2 1 1 6 1 1 10 1 2 3 1 2 7 1 1 11 1 2 4 0 1 8 0 1 12 1 1 7.1 Mehrdimensionale Variablen Viele Fragen der Statistik betreffen Zusammenhänge zwischen zwei oder mehr Variablen. Mehrere Variablen müssen dann simultan betrachtet werden, und wir sprechen von zwei- oder mehrdimensionale Variablen. Für eine zweidimensionale Variable verwenden wir beispielsweise die Notation ( X, Y ), um deutlich zu machen, dass die beiden Komponenten, X und Y , simultan betrachtet werden sollen. Eine solche Variable ordnet jeder Einheit zwei Merkmalswerte zu, einen Wert x i von X und einen Wert y i von Y . Um auszudrücken, dass beide Werte zur gleichen Einheit gehören, schreiben wir sie auch in der Form ( x i , y i ) als einen Wert der Variablen ( X, Y ). Zur Illustration zeigt Tabelle 7.1 zufällig erzeugte Werte einer zweidimensionalen Variable ( X, Y ) für 12 Einheiten. R-7-1 Die Häufigkeitsfunktion einer zweidimensionalen Variablen ( X, Y ) hat die Form P ( X = x, Y = y ). Sie gibt den Anteil der Einheiten an, bei denen X den Wert x und Y den Wert y annimmt; beispielsweise P( X = 0 , Y = 3) = 1 / 12 in unserem Zahlenbeispiel. Natürlich kann man auch die beiden Komponenten separat betrachten. Die Verteilungen der einzelnen Variablen werden dann als Randverteilungen bezeichnet. Die Randverteilung von X wird durch P( X = x ) = K ∑ k =1 P( X = x, Y = ˜ y k ) ausgedrückt, wobei ˜ y 1 , . . . , ˜ y K die möglichen Merkmalswerte von Y sind. Ganz analog kann die Randverteilung von Y definiert werden. Tabelle 7.2 zeigt für unser Zahlenbeispiel die gemeinsame Verteilung und die Randverteilungen. Zu beachten ist, dass ausgehend von den Randverteilungen von 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 130 03.09.2019 13: 56: 02 <?page no="131"?> 7.2 Bedingte Häufigkeiten 125 Tabelle 7.2: Gemeinsame Verteilung und Randverteilungen für das Zahlenbeispiel. X/ Y Y=1 Y=2 Y=3 Insg. X=0 0.083 0.083 0.25 0.417 X=1 0.417 0.083 0.083 0.583 Insg. 0.5 0.167 0.333 1 X und Y nicht auf die gemeinsamen Verteilung von ( X, Y ) geschlossen werden kann. In der Regel gibt es sehr viele verschiedene gemeinsame Verteilungen, die die gleichen Randverteilungen haben. R-7-2 7.2 Bedingte Häufigkeiten Wir setzen wieder eine zweidimensionale Variable ( X, Y ) voraus. Oft gilt das Interesse der Verteilung von X unter der Bedingung, dass Y einen bestimmten Wert annimmt. Dies führt zur Idee einer bedingten Verteilung bzw. zu bedingten Häufigkeiten . Wir verwenden die Notation P( X = x | Y = y ) , womit die Häufigkeit von X = x in der Gesamtheit derjenigen Einheiten gemeint ist, bei denen Y den Wert y hat. Ganz analog kann man sich auf P( Y = y | X = x ) beziehen. Man kann diese bedingten Häufigkeiten durch die gemeinsame Verteilung und die Randverteilungen ausdrücken. So gilt zum Beispiel: P( X = x | Y = y ) = P( X = x, Y = y ) P( Y = y ) . Für das Zahlenbeispiel der Tabelle 7.1 findet man beispielsweise die Häufigkeit von X = 0 unter der Bedingung, dass Y = 1 ist, durch P( X = 0 | Y = 1) = 0 . 083 0 . 5 = 0 . 166 . Betrachten wir jetzt eine zweidimensionale Variable ( X, Y ) für die n = 1 , 000 Personen in unserem PSID-File. X erfasst das Geschlecht (0 = männlich, 1 = weiblich), Y erfasst den Beschäftigungssektor 7 7 . 2 B e d i n g t e H ä u fig k e i t e n 1 2 5 T a b e l l e 7 . 2 : G e m e i n s a m e V e r t e i l u n g u n d R a n d v e r t e i l u n g e n f ü r d a s Z a h l e n b e i s p i e l . X / Y Y = 1 Y = 2 Y = 3 I n s g . X = 0 0 . 0 8 3 0 . 0 8 3 0 . 2 5 0 . 4 1 7 X = 1 0 . 4 1 7 0 . 0 8 3 0 . 0 8 3 0 . 5 8 3 I n s g . 0 . 5 0 . 1 6 7 0 . 3 3 3 1 X u n d Y n i c h t a u f d i e g e m e i n s a m e n V e r t e i l u n g v o n ( X , Y ) g e s c h l o s s e n w e r d e n k a n n . I n d e r R e g e l g i b t e s s e h r v i e l e v e r s c h i e d e n e g e m e i n s a m e V e r t e i l u n g e n , d i e d i e g l e i c h e n R a n d v e r t e i l u n g e n h a b e n . R - 7 - 2 7 . 2 B e d i n g t e H ä u fig k e i t e n W i r s e t z e n w i e d e r e i n e z w e i d i m e n s i o n a l e V a r i a b l e ( X , Y ) v o r a u s . O f t g i l t d a s I n t e r e s s e d e r V e r t e i l u n g v o n X u n t e r d e r B e d i n g u n g , d a s s Y e i n e n b e s t i m m t e n W e r t a n n i m m t . D i e s f ü h r t z u r I d e e e i n e r b e d i n g t e n V e r t e i l u n g b z w . z u b e d i n g t e n H ä u fig k e i t e n . W i r v e r w e n d e n d i e N o t a t i o n P ( X = x | Y = y ) , w o m i t d i e H ä u fig k e i t v o n X = x i n d e r G e s a m t h e i t d e r j e n i g e n E i n h e i t e n g e m e i n t i s t , b e i d e n e n Y d e n W e r t y h a t . G a n z a n a l o g k a n n m a n s i c h a u f P ( Y = y | X = x ) b e z i e h e n . M a n k a n n d i e s e b e d i n g t e n H ä u fig k e i t e n d u r c h d i e g e m e i n s a m e V e r t e i l u n g u n d d i e R a n d v e r t e i l u n g e n a u s d r ü c k e n . S o g i l t z u m B e i s p i e l : P ( X = x | Y = y ) = P ( X = x , Y = y ) P ( Y = y ) . F ü r d a s Z a h l e n b e i s p i e l d e r T a b e l l e 7 . 1 fin d e t m a n b e i s p i e l s w e i s e d i e H ä u fig k e i t v o n X = 0 u n t e r d e r B e d i n g u n g , d a s s Y = 1 i s t , d u r c h P ( X = 0 | Y = 1 ) = 0 . 0 8 3 0 . 5 = 0 . 1 6 6 . B e t r a c h t e n w i r j e t z t e i n e z w e i d i m e n s i o n a l e V a r i a b l e ( X , Y ) f ü r d i e n = 1 , 0 0 0 P e r s o n e n i n u n s e r e m P S I D - F i l e . X e r f a s s t d a s G e s c h l e c h t ( 0 = m ä n n l i c h , 1 = w e i b l i c h ) , Y e r f a s s t d e n B e s c h ä f t i g u n g s s e k t o r 7 7.2 Bedingte Häufigkeiten 131 Tabelle 7.2: Gemeinsame Verteilung und Randverteilungen für das Zahlenbeispiel. X/ Y Y=1 Y=2 Y=3 Insg. X=0 0.250 0.000 0.083 0.333 X=1 0.417 0.250 0.000 0.667 Insg. 0.667 0.250 0.083 1.000 X und Y nicht auf die gemeinsamen Verteilung von ( X, Y ) geschlossen werden kann. In der Regel gibt es sehr viele verschiedene gemeinsame Verteilungen, die die gleichen Randverteilungen haben. R-7-2 7.2 Bedingte Häufigkeiten Wir setzen wieder eine zweidimensionale Variable ( X, Y ) voraus. Oft gilt das Interesse der Verteilung von X unter der Bedingung, dass Y einen bestimmten Wert annimmt. Dies führt zur Idee einer bedingten Verteilung bzw. zu bedingten Häufigkeiten . Wir verwenden die Notation P( X = x | Y = y ) , womit die Häufigkeit von X = x in der Gesamtheit derjenigen Einheiten gemeint ist, bei denen Y den Wert y hat. Ganz analog kann man sich auf P( Y = y | X = x ) beziehen. Man kann diese bedingten Häufigkeiten durch die gemeinsame Verteilung und die Randverteilungen ausdrücken. So gilt zum Beispiel: P( X = x | Y = y ) = P( X = x, Y = y ) P( Y = y ) . Für das Zahlenbeispiel der Tabelle 7.1 findet man beispielsweise die Häufigkeit von X = 0 unter der Bedingung, dass Y = 1 ist, durch P( X = 0 | Y = 1) = 0 . 25 0 . 667 = 0 . 375 . Betrachten wir jetzt eine zweidimensionale Variable ( X, Y ) für die n = 1 , 238 Personen in unserem ALLBUS-File (Westdeutschland). X erfasst das Geschlecht (0 = männlich, 1 = weiblich), Y 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 131 03.09.2019 13: 56: 03 <?page no="132"?> 132 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und . . . Tabelle 7.3: Gemeinsame Verteilung inklusive der Randhäufigkeiten. Geschlecht (X)/ Beruf (Y) 0 1 Insg. 0 0.497 0.067 0.564 1 0.425 0.011 0.436 Insg. 0.922 0.078 1.000 erfasst den Beruf (1 = Führungskraft, 0 = andernfalls). Die gemeinsame Verteilung und die Randhäufigkeiten werden in Tabelle 7.3 dargestellt. R-7-3 Wir finden z. B.: P( X = 1 | Y = 1) = P( X = 1 , Y = 1) P( Y = 1) = 0 . 011 0 . 078 = 0 . 141 , d.h., 14.1 % der Führungskräfte sind Frauen. Andererseits ist der Anteil der Männer in den übrigen Berufen P ( X = 0 | Y = 0) = 53 . 9 %. Eine weitere wichtige Gleichung ist der Satz von Bayes . Für seine Formulierung nehmen wir an, dass die Merkmalswerte von X durch ˜ x 1 , . . . , ˜ x J , die Merkmalswerte von Y durch ˜ y 1 , . . . , ˜ y K bezeichnet werden. Dann gilt folgende Gleichung: P( Y = ˜ y k | X = ˜ x j ) = P( X = ˜ x j | Y = ˜ y k ) P( Y = ˜ y k ) P( X = ˜ x j ) = P( X = ˜ x j | Y = ˜ y k ) P( Y = ˜ y k ) ∑ K k =1 P( X = ˜ x j | Y = ˜ y k ) P( Y = ˜ y k ) Zur Illustration bleiben wir bei dem Beispiel. Wären die Anteile der Frauen in den beiden Berufsgruppen, d.h. P ( X = 1 | Y = 0) und P( X = 1 | Y = 1) sowie die unbedingten Berufsgruppenanteile P ( Y = 0) und P ( Y = 1) bekannt, ließe sich daraus mit Hilfe des Satzes von Bayes die bedingte Häufigkeit einer Führungsposition für Frauen ausrechnen: P( Y = 1 | X = 1) = P( X = 1 | Y = 1) P( Y = 1) P( X = 1 | Y = 0) P( Y = 0) + P( X = 1 | Y = 1) P( Y = 1) = 0 . 141 · 0 . 078 0 . 461 · 0 . 922 + 0 . 141 · 0 . 078 = 0 . 025 . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 132 03.09.2019 13: 56: 04 <?page no="133"?> 7.2 Bedingte Häufigkeiten 125 Tabelle 7.2: Gemeinsame Verteilung und Randverteilungen für das Zahlenbeispiel. X/ Y Y=1 Y=2 Y=3 Insg. X=0 0.083 0.083 0.25 0.417 X=1 0.417 0.083 0.083 0.583 Insg. 0.5 0.167 0.333 1 X und Y nicht auf die gemeinsamen Verteilung von ( X, Y ) geschlossen werden kann. In der Regel gibt es sehr viele verschiedene gemeinsame Verteilungen, die die gleichen Randverteilungen haben. R-7-2 7.2 Bedingte Häufigkeiten Wir setzen wieder eine zweidimensionale Variable ( X, Y ) voraus. Oft gilt das Interesse der Verteilung von X unter der Bedingung, dass Y einen bestimmten Wert annimmt. Dies führt zur Idee einer bedingten Verteilung bzw. zu bedingten Häufigkeiten . Wir verwenden die Notation P( X = x | Y = y ) , womit die Häufigkeit von X = x in der Gesamtheit derjenigen Einheiten gemeint ist, bei denen Y den Wert y hat. Ganz analog kann man sich auf P( Y = y | X = x ) beziehen. Man kann diese bedingten Häufigkeiten durch die gemeinsame Verteilung und die Randverteilungen ausdrücken. So gilt zum Beispiel: P( X = x | Y = y ) = P( X = x, Y = y ) P( Y = y ) . Für das Zahlenbeispiel der Tabelle 7.1 findet man beispielsweise die Häufigkeit von X = 0 unter der Bedingung, dass Y = 1 ist, durch P( X = 0 | Y = 1) = 0 . 083 0 . 5 = 0 . 166 . Betrachten wir jetzt eine zweidimensionale Variable ( X, Y ) für die n = 1 , 000 Personen in unserem PSID-File. X erfasst das Geschlecht (0 = männlich, 1 = weiblich), Y erfasst den Beschäftigungssektor 7 7 . 2 B e d i n g t e H ä u fig k e i t e n 1 2 5 T a b e l l e 7 . 2 : G e m e i n s a m e V e r t e i l u n g u n d R a n d v e r t e i l u n g e n f ü r d a s Z a h l e n b e i s p i e l . X / Y Y = 1 Y = 2 Y = 3 I n s g . X = 0 0 . 0 8 3 0 . 0 8 3 0 . 2 5 0 . 4 1 7 X = 1 0 . 4 1 7 0 . 0 8 3 0 . 0 8 3 0 . 5 8 3 I n s g . 0 . 5 0 . 1 6 7 0 . 3 3 3 1 X u n d Y n i c h t a u f d i e g e m e i n s a m e n V e r t e i l u n g v o n ( X , Y ) g e s c h l o s s e n w e r d e n k a n n . I n d e r R e g e l g i b t e s s e h r v i e l e v e r s c h i e d e n e g e m e i n s a m e V e r t e i l u n g e n , d i e d i e g l e i c h e n R a n d v e r t e i l u n g e n h a b e n . R - 7 - 2 7 . 2 B e d i n g t e H ä u fig k e i t e n W i r s e t z e n w i e d e r e i n e z w e i d i m e n s i o n a l e V a r i a b l e ( X , Y ) v o r a u s . O f t g i l t d a s I n t e r e s s e d e r V e r t e i l u n g v o n X u n t e r d e r B e d i n g u n g , d a s s Y e i n e n b e s t i m m t e n W e r t a n n i m m t . D i e s f ü h r t z u r I d e e e i n e r b e d i n g t e n V e r t e i l u n g b z w . z u b e d i n g t e n H ä u fig k e i t e n . W i r v e r w e n d e n d i e N o t a t i o n P ( X = x | Y = y ) , w o m i t d i e H ä u fig k e i t v o n X = x i n d e r G e s a m t h e i t d e r j e n i g e n E i n h e i t e n g e m e i n t i s t , b e i d e n e n Y d e n W e r t y h a t . G a n z a n a l o g k a n n m a n s i c h a u f P ( Y = y | X = x ) b e z i e h e n . M a n k a n n d i e s e b e d i n g t e n H ä u fig k e i t e n d u r c h d i e g e m e i n s a m e V e r t e i l u n g u n d d i e R a n d v e r t e i l u n g e n a u s d r ü c k e n . S o g i l t z u m B e i s p i e l : P ( X = x | Y = y ) = P ( X = x , Y = y ) P ( Y = y ) . F ü r d a s Z a h l e n b e i s p i e l d e r T a b e l l e 7 . 1 fin d e t m a n b e i s p i e l s w e i s e d i e H ä u fig k e i t v o n X = 0 u n t e r d e r B e d i n g u n g , d a s s Y = 1 i s t , d u r c h P ( X = 0 | Y = 1 ) = 0 . 0 8 3 0 . 5 = 0 . 1 6 6 . B e t r a c h t e n w i r j e t z t e i n e z w e i d i m e n s i o n a l e V a r i a b l e ( X , Y ) f ü r d i e n = 1 , 0 0 0 P e r s o n e n i n u n s e r e m P S I D - F i l e . X e r f a s s t d a s G e s c h l e c h t ( 0 = m ä n n l i c h , 1 = w e i b l i c h ) , Y e r f a s s t d e n B e s c h ä f t i g u n g s s e k t o r 7 7.3 Streuungszerlegung 133 7.3 Streuungszerlegung Wir betrachten wieder eine zweidimensionale Variable ( X, Y ) mit Werten ( x i , y i ) für n Einheiten. Die Merkmalswerte von X werden durch ˜ x 1 , . . . , ˜ x J , die Merkmalswerte von Y durch ˜ y 1 , . . . , ˜ y K bezeichnet. Wir stellen uns vor, dass die Gesamtheit der Einheiten entsprechend den Werten von Y aus K Klassen besteht, und wir möchten zeigen, dass sich die Varianz von X im Hinblick auf diese Klassen auf eine interessante Weise zerlegen lässt. Wir beginnen mit der Varianz von X : σ 2 X = J ∑ j =1 (˜ x j − ¯ x ) 2 P( X = ˜ x j ) = J ∑ j =1 (˜ x j − ¯ x ) 2 K ∑ k =1 P( X = ˜ x j | Y = ˜ y k ) P( Y = ˜ y k ) = K ∑ k =1 J ∑ j =1 (˜ x j − ¯ x ) 2 P( X = ˜ x j | Y = ˜ y k ) P( Y = ˜ y k ) . Wenn ¯ x k den Mittelwert von X in der Klasse Y = ˜ y k bezeichnet, lässt sich in der letzten Zeile anstelle von (˜ x j − ¯ x ) 2 auch (˜ x j − ¯ x k + ¯ x k − ¯ x ) 2 = (˜ x j − ¯ x k ) 2 + (¯ x k − ¯ x ) 2 + 2 (˜ x j − ¯ x k ) (¯ x k − ¯ x ) schreiben. Der letzten Zeile entsprechen also drei Summanden. Der erste Summand ist K ∑ k =1 J ∑ j =1 (˜ x j − ¯ x k ) 2 P( X = ˜ x j | Y = ˜ y k ) P( Y = ˜ y k ) = K ∑ k =1 σ 2 X | ˜ y k P( Y = ˜ y k ) , wobei σ 2 X | ˜ y k = ∑ J j =1 ( ˜ x j − ¯ x k ) 2 P ( X = ˜ x j | Y = ˜ y k ) die Varianz 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 133 03.09.2019 13: 56: 04 <?page no="134"?> 134 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und . . . von X in der Klasse Y = ˜ y k ist. Der zweite Summand ist K ∑ k =1 J ∑ j =1 (¯ x k − ¯ x ) 2 P( X = ˜ x j | Y = ˜ y k ) P( Y = ˜ y k ) = K ∑ k =1 (¯ x k − ¯ x ) 2 P( Y = ˜ y k ) . Der dritte Summand ist 0, wie man durch folgende Umformung zeigen kann: 2 K ∑ k =1 J ∑ j =1 (˜ x j − ¯ x k ) (¯ x k − ¯ x ) P( X = ˜ x j | Y = ˜ y k ) P( Y = ˜ y k ) = 2 K ∑ k =1 (¯ x k − ¯ x ) P( Y = ˜ y k ) J ∑ j =1 (˜ x j − ¯ x k ) P( X = ˜ x j | Y = ˜ y k ) = 2 K ∑ k =1 (¯ x k − ¯ x ) P( Y = ˜ y k ) · 0 = 0 , da in jeder der K Klassen die Summe der mit den Häufigkeiten gewichteten Abweichungen vom arithmetischen Mittel gerade 0 ist (Nulleigenschaft des arithmetischen Mittels). Die Varianz von X besteht also aus zwei Summanden σ 2 X = K ∑ k =1 σ 2 X | ˜ y k P( Y = ˜ y k ) + K ∑ k =1 (¯ x k − ¯ x ) 2 P( Y = ˜ y k ) . Der erste Summand ist ein Mittelwert der Varianzen in den einzelnen Klassen (interne Varianz), der zweite Summand zeigt die Streuung der Klassenmittelwerte um den gesamten Mittelwert und kann als Varianz zwischen den Klassen (externe Varianz) interpretiert werden. Zur Illustration betrachten wir eine Variable ( X, Y ) für die 1 , 238 Personen in unserem ALLBUS-File (Westdeutschland). X erfasst die Löhne, Y erfasst den Beruf, wobei wir jetzt alle K = 9 Berufe unterscheiden. Tabelle 7.4 zeigt die Anteile der Berufe P( Y = ˜ y k ), die Durchschnittslöhne in den Berufen ¯ x k , die Varianzen in den 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 134 03.09.2019 13: 56: 05 <?page no="135"?> 7.2 Bedingte Häufigkeiten 125 Tabelle 7.2: Gemeinsame Verteilung und Randverteilungen für das Zahlenbeispiel. X/ Y Y=1 Y=2 Y=3 Insg. X=0 0.083 0.083 0.25 0.417 X=1 0.417 0.083 0.083 0.583 Insg. 0.5 0.167 0.333 1 X und Y nicht auf die gemeinsamen Verteilung von ( X, Y ) geschlossen werden kann. In der Regel gibt es sehr viele verschiedene gemeinsame Verteilungen, die die gleichen Randverteilungen haben. R-7-2 7.2 Bedingte Häufigkeiten Wir setzen wieder eine zweidimensionale Variable ( X, Y ) voraus. Oft gilt das Interesse der Verteilung von X unter der Bedingung, dass Y einen bestimmten Wert annimmt. Dies führt zur Idee einer bedingten Verteilung bzw. zu bedingten Häufigkeiten . Wir verwenden die Notation P( X = x | Y = y ) , womit die Häufigkeit von X = x in der Gesamtheit derjenigen Einheiten gemeint ist, bei denen Y den Wert y hat. Ganz analog kann man sich auf P( Y = y | X = x ) beziehen. Man kann diese bedingten Häufigkeiten durch die gemeinsame Verteilung und die Randverteilungen ausdrücken. So gilt zum Beispiel: P( X = x | Y = y ) = P( X = x, Y = y ) P( Y = y ) . Für das Zahlenbeispiel der Tabelle 7.1 findet man beispielsweise die Häufigkeit von X = 0 unter der Bedingung, dass Y = 1 ist, durch P( X = 0 | Y = 1) = 0 . 083 0 . 5 = 0 . 166 . Betrachten wir jetzt eine zweidimensionale Variable ( X, Y ) für die n = 1 , 000 Personen in unserem PSID-File. X erfasst das Geschlecht (0 = männlich, 1 = weiblich), Y erfasst den Beschäftigungssektor 7 7 . 2 B e d i n g t e H ä u fig k e i t e n 1 2 5 T a b e l l e 7 . 2 : G e m e i n s a m e V e r t e i l u n g u n d R a n d v e r t e i l u n g e n f ü r d a s Z a h l e n b e i s p i e l . X / Y Y = 1 Y = 2 Y = 3 I n s g . X = 0 0 . 0 8 3 0 . 0 8 3 0 . 2 5 0 . 4 1 7 X = 1 0 . 4 1 7 0 . 0 8 3 0 . 0 8 3 0 . 5 8 3 I n s g . 0 . 5 0 . 1 6 7 0 . 3 3 3 1 X u n d Y n i c h t a u f d i e g e m e i n s a m e n V e r t e i l u n g v o n ( X , Y ) g e s c h l o s s e n w e r d e n k a n n . I n d e r R e g e l g i b t e s s e h r v i e l e v e r s c h i e d e n e g e m e i n s a m e V e r t e i l u n g e n , d i e d i e g l e i c h e n R a n d v e r t e i l u n g e n h a b e n . R - 7 - 2 7 . 2 B e d i n g t e H ä u fig k e i t e n W i r s e t z e n w i e d e r e i n e z w e i d i m e n s i o n a l e V a r i a b l e ( X , Y ) v o r a u s . O f t g i l t d a s I n t e r e s s e d e r V e r t e i l u n g v o n X u n t e r d e r B e d i n g u n g , d a s s Y e i n e n b e s t i m m t e n W e r t a n n i m m t . D i e s f ü h r t z u r I d e e e i n e r b e d i n g t e n V e r t e i l u n g b z w . z u b e d i n g t e n H ä u fig k e i t e n . W i r v e r w e n d e n d i e N o t a t i o n P ( X = x | Y = y ) , w o m i t d i e H ä u fig k e i t v o n X = x i n d e r G e s a m t h e i t d e r j e n i g e n E i n h e i t e n g e m e i n t i s t , b e i d e n e n Y d e n W e r t y h a t . G a n z a n a l o g k a n n m a n s i c h a u f P ( Y = y | X = x ) b e z i e h e n . M a n k a n n d i e s e b e d i n g t e n H ä u fig k e i t e n d u r c h d i e g e m e i n s a m e V e r t e i l u n g u n d d i e R a n d v e r t e i l u n g e n a u s d r ü c k e n . S o g i l t z u m B e i s p i e l : P ( X = x | Y = y ) = P ( X = x , Y = y ) P ( Y = y ) . F ü r d a s Z a h l e n b e i s p i e l d e r T a b e l l e 7 . 1 fin d e t m a n b e i s p i e l s w e i s e d i e H ä u fig k e i t v o n X = 0 u n t e r d e r B e d i n g u n g , d a s s Y = 1 i s t , d u r c h P ( X = 0 | Y = 1 ) = 0 . 0 8 3 0 . 5 = 0 . 1 6 6 . B e t r a c h t e n w i r j e t z t e i n e z w e i d i m e n s i o n a l e V a r i a b l e ( X , Y ) f ü r d i e n = 1 , 0 0 0 P e r s o n e n i n u n s e r e m P S I D - F i l e . X e r f a s s t d a s G e s c h l e c h t ( 0 = m ä n n l i c h , 1 = w e i b l i c h ) , Y e r f a s s t d e n B e s c h ä f t i g u n g s s e k t o r 7 7.3 Streuungszerlegung 135 Tabelle 7.4: Streuungszerlegung, Lohn und Beruf. Beruf P( Y = ˜ y k ) ¯ x k σ 2 X | ˜ y k (¯ x k − ¯ x ) 2 1 Führungskräfte 0.078 3.773 5.037 2.215 2 Akademiker 0.243 2.971 2.872 0.471 3 Techniker 0.263 2.023 1.099 0.068 4 Bürokräfte 0.096 1.749 0.738 0.287 5 Dienstleister 0.093 1.568 1.061 0.513 6 Bauern 0.018 1.872 2.233 0.170 7 Handwerker 0.118 2.059 0.598 0.051 8 Monteure 0.051 1.878 0.432 0.165 9 Hilfsarbeiter 0.040 1.228 0.272 1.118 Berufen σ 2 X | ˜ y k und die quadrierten Abweichungen der Klassenmittel vom Gesamtmittelwert. Um allzu große Zahlen zu vermeiden, betrachten wir in diesem Beispiel die Netto-Einkommen in 1 , 000 Euro. R-7-4 Für die durchschnittliche Streuung der Löhne in den Berufen erhalten wir K ∑ k =1 σ 2 X | ˜ y k P( Y = ˜ y k ) = 1 . 695 . Für die Streuung der Durchschnittslöhne der Berufe ergibt sich K ∑ k =1 (¯ x k − ¯ x ) 2 P( Y = ˜ y k ) = 0 . 443 . Beide Varianzkomponenten addieren sich zur Gesamtvarianz σ 2 X = 2 . 138. Das Verhältnis der Varianz zwischen den Klassen zur Gesamtvarianz gibt Auskunft darüber, welcher Anteil der Gesamtvarianz durch die Klassenzugehörigkeit (hier: die verschiedenen Berufe) erklärt werden kann. In unserem Beispiel ist der Anteil sehr klein: 0 . 443 2 . 138 = 0 . 207 . Die Varianz der Löhne ist also nur zum geringeren Anteil (rund 21 %) auf die Unterschiede zwischen den Durchschnittslöhnen der Berufe zurückzuführen und beruht in stärkerem Maße auf der Varianz der Löhne in den Berufen. R-7-5 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 135 03.09.2019 13: 56: 05 <?page no="136"?> 136 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und . . . 7.4 Aufgaben 1. Gehen Sie von der in Abschnitt 7.2 definierten Variablen ( X, Y ) aus. Ihnen ist bekannt, dass 43 . 6 % der Personen Frauen sind. Zudem wissen Sie, dass der Anteil der Führungskräfte unter den Frauen 2 . 5 % und der Anteil der Führungskräfte unter den Männern 11 . 9 % beträgt. Wie hoch ist der Anteil der Frauen unter allen Führungskräften? (Verwenden Sie den Satz von Bayes.) 2. Leiten Sie ausgehend von der Definition der Varianz σ 2 X = J ∑ j =1 (˜ x j − ¯ x ) 2 P( X = ˜ x j ) den Ausdruck σ 2 X = K ∑ k =1 σ 2 X | ˜ y k P( Y = ˜ y k ) + K ∑ k =1 (¯ x k − ¯ x ) 2 P( Y = ˜ y k ) her. 3. Ihnen liegen die Einkommen von fünf Personen vor (in Tsd. e ): x 1 = 20 , x 2 = 26 , x 3 = 45 , x 4 = 52 , x 5 = 107. Fassen Sie die zwei kleinsten und die drei größten Werte zu jeweils einer Klasse zusammen und berechnen Sie für diese Situation mit einer Streuungszerlegung die interne und die externe Varianz. 4. Folgende Tabelle enthält Angaben über Löhne in drei Bildungsklassen. 1 Führen Sie davon ausgehend eine Streuungszerlegung durch. Wie hoch ist der Anteil der Lohnvarianz, der durch die unterschiedlichen Bildungsniveaus erklärt werden kann? 1 Die drei Bildungsklassen werden ausgehend von den Bildungsjahren ermittelt: Kein Abitur für weniger als 12 Bildungsjahre, Abitur (oder abgeschl. Lehre) zwischen 12 und 14.5 Bildungsjahre und Studium ab 15 Bildungsjahren. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 136 03.09.2019 13: 56: 06 <?page no="137"?> 7.2 Bedingte Häufigkeiten 125 Tabelle 7.2: Gemeinsame Verteilung und Randverteilungen für das Zahlenbeispiel. X/ Y Y=1 Y=2 Y=3 Insg. X=0 0.083 0.083 0.25 0.417 X=1 0.417 0.083 0.083 0.583 Insg. 0.5 0.167 0.333 1 X und Y nicht auf die gemeinsamen Verteilung von ( X, Y ) geschlossen werden kann. In der Regel gibt es sehr viele verschiedene gemeinsame Verteilungen, die die gleichen Randverteilungen haben. R-7-2 7.2 Bedingte Häufigkeiten Wir setzen wieder eine zweidimensionale Variable ( X, Y ) voraus. Oft gilt das Interesse der Verteilung von X unter der Bedingung, dass Y einen bestimmten Wert annimmt. Dies führt zur Idee einer bedingten Verteilung bzw. zu bedingten Häufigkeiten . Wir verwenden die Notation P( X = x | Y = y ) , womit die Häufigkeit von X = x in der Gesamtheit derjenigen Einheiten gemeint ist, bei denen Y den Wert y hat. Ganz analog kann man sich auf P( Y = y | X = x ) beziehen. Man kann diese bedingten Häufigkeiten durch die gemeinsame Verteilung und die Randverteilungen ausdrücken. So gilt zum Beispiel: P( X = x | Y = y ) = P( X = x, Y = y ) P( Y = y ) . Für das Zahlenbeispiel der Tabelle 7.1 findet man beispielsweise die Häufigkeit von X = 0 unter der Bedingung, dass Y = 1 ist, durch P( X = 0 | Y = 1) = 0 . 083 0 . 5 = 0 . 166 . Betrachten wir jetzt eine zweidimensionale Variable ( X, Y ) für die n = 1 , 000 Personen in unserem PSID-File. X erfasst das Geschlecht (0 = männlich, 1 = weiblich), Y erfasst den Beschäftigungssektor 7 7 . 2 B e d i n g t e H ä u fig k e i t e n 1 2 5 T a b e l l e 7 . 2 : G e m e i n s a m e V e r t e i l u n g u n d R a n d v e r t e i l u n g e n f ü r d a s Z a h l e n b e i s p i e l . X / Y Y = 1 Y = 2 Y = 3 I n s g . X = 0 0 . 0 8 3 0 . 0 8 3 0 . 2 5 0 . 4 1 7 X = 1 0 . 4 1 7 0 . 0 8 3 0 . 0 8 3 0 . 5 8 3 I n s g . 0 . 5 0 . 1 6 7 0 . 3 3 3 1 X u n d Y n i c h t a u f d i e g e m e i n s a m e n V e r t e i l u n g v o n ( X , Y ) g e s c h l o s s e n w e r d e n k a n n . I n d e r R e g e l g i b t e s s e h r v i e l e v e r s c h i e d e n e g e m e i n s a m e V e r t e i l u n g e n , d i e d i e g l e i c h e n R a n d v e r t e i l u n g e n h a b e n . R - 7 - 2 7 . 2 B e d i n g t e H ä u fig k e i t e n W i r s e t z e n w i e d e r e i n e z w e i d i m e n s i o n a l e V a r i a b l e ( X , Y ) v o r a u s . O f t g i l t d a s I n t e r e s s e d e r V e r t e i l u n g v o n X u n t e r d e r B e d i n g u n g , d a s s Y e i n e n b e s t i m m t e n W e r t a n n i m m t . D i e s f ü h r t z u r I d e e e i n e r b e d i n g t e n V e r t e i l u n g b z w . z u b e d i n g t e n H ä u fig k e i t e n . W i r v e r w e n d e n d i e N o t a t i o n P ( X = x | Y = y ) , w o m i t d i e H ä u fig k e i t v o n X = x i n d e r G e s a m t h e i t d e r j e n i g e n E i n h e i t e n g e m e i n t i s t , b e i d e n e n Y d e n W e r t y h a t . G a n z a n a l o g k a n n m a n s i c h a u f P ( Y = y | X = x ) b e z i e h e n . M a n k a n n d i e s e b e d i n g t e n H ä u fig k e i t e n d u r c h d i e g e m e i n s a m e V e r t e i l u n g u n d d i e R a n d v e r t e i l u n g e n a u s d r ü c k e n . S o g i l t z u m B e i s p i e l : P ( X = x | Y = y ) = P ( X = x , Y = y ) P ( Y = y ) . F ü r d a s Z a h l e n b e i s p i e l d e r T a b e l l e 7 . 1 fin d e t m a n b e i s p i e l s w e i s e d i e H ä u fig k e i t v o n X = 0 u n t e r d e r B e d i n g u n g , d a s s Y = 1 i s t , d u r c h P ( X = 0 | Y = 1 ) = 0 . 0 8 3 0 . 5 = 0 . 1 6 6 . B e t r a c h t e n w i r j e t z t e i n e z w e i d i m e n s i o n a l e V a r i a b l e ( X , Y ) f ü r d i e n = 1 , 0 0 0 P e r s o n e n i n u n s e r e m P S I D - F i l e . X e r f a s s t d a s G e s c h l e c h t ( 0 = m ä n n l i c h , 1 = w e i b l i c h ) , Y e r f a s s t d e n B e s c h ä f t i g u n g s s e k t o r 7 7.4 Aufgaben 137 Bildungsniveau P( Y = ˜ y k ) ¯ x k σ 2 X | ˜ y k (¯ x k − ¯ x ) 2 1 Kein Abitur 0.422 1.801 0.824 0.234 2 Abitur 0.229 2.184 2.143 0.010 3 Studium 0.349 2.936 3.011 0.424 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 137 03.09.2019 13: 56: 06 <?page no="138"?> 138 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und . . . 7.5 R-Code R-7-1 ## Daten generieren # Daten werden zufällig gezogen, mittels set.seed() wird das Ergebnis # reproduzierbar set.seed(3) n <- 12 X <sample(x = 0: 1, size = n, replace = TRUE) XY <sample(x = 1: 3, size = n, replace = TRUE) Y R-7-2 # Kontingenztabelle (absolut) tab.abs <table(X, Y) tab.abs # Kontingenztabelle (relativ) tab.rel <tab.abs / n tab.rel # Randverteilung addmargins(A = tab.rel) R-7-3 ## Daten einlesen (nur West) d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) d <d[d$ostwest==0,] # Anzahl an Beobachtungen n <nrow(d) # Variablen geschlecht <d$geschlecht s <d$beruf # umkodieren: Beruf ==1 1, Beruf ! =1 = 0 s1 <as.numeric(s == 1) # Kontingenztabelle (relativ) tab.rel <table(geschlecht, s1) / n tab.rel # Randverteilung round(addmargins(A = tab.rel),3) R-7-4 # Vektor mit Einkommen erstellen (in Tsd.) e <d$einkommen / 1000 # relative Anteile der Berufe njn <table(s) / n; njn 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 138 03.09.2019 13: 56: 06 <?page no="139"?> 7.2 Bedingte Häufigkeiten 125 Tabelle 7.2: Gemeinsame Verteilung und Randverteilungen für das Zahlenbeispiel. X/ Y Y=1 Y=2 Y=3 Insg. X=0 0.083 0.083 0.25 0.417 X=1 0.417 0.083 0.083 0.583 Insg. 0.5 0.167 0.333 1 X und Y nicht auf die gemeinsamen Verteilung von ( X, Y ) geschlossen werden kann. In der Regel gibt es sehr viele verschiedene gemeinsame Verteilungen, die die gleichen Randverteilungen haben. R-7-2 7.2 Bedingte Häufigkeiten Wir setzen wieder eine zweidimensionale Variable ( X, Y ) voraus. Oft gilt das Interesse der Verteilung von X unter der Bedingung, dass Y einen bestimmten Wert annimmt. Dies führt zur Idee einer bedingten Verteilung bzw. zu bedingten Häufigkeiten . Wir verwenden die Notation P( X = x | Y = y ) , womit die Häufigkeit von X = x in der Gesamtheit derjenigen Einheiten gemeint ist, bei denen Y den Wert y hat. Ganz analog kann man sich auf P( Y = y | X = x ) beziehen. Man kann diese bedingten Häufigkeiten durch die gemeinsame Verteilung und die Randverteilungen ausdrücken. So gilt zum Beispiel: P( X = x | Y = y ) = P( X = x, Y = y ) P( Y = y ) . Für das Zahlenbeispiel der Tabelle 7.1 findet man beispielsweise die Häufigkeit von X = 0 unter der Bedingung, dass Y = 1 ist, durch P( X = 0 | Y = 1) = 0 . 083 0 . 5 = 0 . 166 . Betrachten wir jetzt eine zweidimensionale Variable ( X, Y ) für die n = 1 , 000 Personen in unserem PSID-File. X erfasst das Geschlecht (0 = männlich, 1 = weiblich), Y erfasst den Beschäftigungssektor 7 7 . 2 B e d i n g t e H ä u fig k e i t e n 1 2 5 T a b e l l e 7 . 2 : G e m e i n s a m e V e r t e i l u n g u n d R a n d v e r t e i l u n g e n f ü r d a s Z a h l e n b e i s p i e l . X / Y Y = 1 Y = 2 Y = 3 I n s g . X = 0 0 . 0 8 3 0 . 0 8 3 0 . 2 5 0 . 4 1 7 X = 1 0 . 4 1 7 0 . 0 8 3 0 . 0 8 3 0 . 5 8 3 I n s g . 0 . 5 0 . 1 6 7 0 . 3 3 3 1 X u n d Y n i c h t a u f d i e g e m e i n s a m e n V e r t e i l u n g v o n ( X , Y ) g e s c h l o s s e n w e r d e n k a n n . I n d e r R e g e l g i b t e s s e h r v i e l e v e r s c h i e d e n e g e m e i n s a m e V e r t e i l u n g e n , d i e d i e g l e i c h e n R a n d v e r t e i l u n g e n h a b e n . R - 7 - 2 7 . 2 B e d i n g t e H ä u fig k e i t e n W i r s e t z e n w i e d e r e i n e z w e i d i m e n s i o n a l e V a r i a b l e ( X , Y ) v o r a u s . O f t g i l t d a s I n t e r e s s e d e r V e r t e i l u n g v o n X u n t e r d e r B e d i n g u n g , d a s s Y e i n e n b e s t i m m t e n W e r t a n n i m m t . D i e s f ü h r t z u r I d e e e i n e r b e d i n g t e n V e r t e i l u n g b z w . z u b e d i n g t e n H ä u fig k e i t e n . W i r v e r w e n d e n d i e N o t a t i o n P ( X = x | Y = y ) , w o m i t d i e H ä u fig k e i t v o n X = x i n d e r G e s a m t h e i t d e r j e n i g e n E i n h e i t e n g e m e i n t i s t , b e i d e n e n Y d e n W e r t y h a t . G a n z a n a l o g k a n n m a n s i c h a u f P ( Y = y | X = x ) b e z i e h e n . M a n k a n n d i e s e b e d i n g t e n H ä u fig k e i t e n d u r c h d i e g e m e i n s a m e V e r t e i l u n g u n d d i e R a n d v e r t e i l u n g e n a u s d r ü c k e n . S o g i l t z u m B e i s p i e l : P ( X = x | Y = y ) = P ( X = x , Y = y ) P ( Y = y ) . F ü r d a s Z a h l e n b e i s p i e l d e r T a b e l l e 7 . 1 fin d e t m a n b e i s p i e l s w e i s e d i e H ä u fig k e i t v o n X = 0 u n t e r d e r B e d i n g u n g , d a s s Y = 1 i s t , d u r c h P ( X = 0 | Y = 1 ) = 0 . 0 8 3 0 . 5 = 0 . 1 6 6 . B e t r a c h t e n w i r j e t z t e i n e z w e i d i m e n s i o n a l e V a r i a b l e ( X , Y ) f ü r d i e n = 1 , 0 0 0 P e r s o n e n i n u n s e r e m P S I D - F i l e . X e r f a s s t d a s G e s c h l e c h t ( 0 = m ä n n l i c h , 1 = w e i b l i c h ) , Y e r f a s s t d e n B e s c h ä f t i g u n g s s e k t o r 7 7.5 R-Code 139 # mittleres Lohnniveau über alle Berufe x.quer <mean(e) x.quer # mittleres Lohnniveau der Berufe xj.quer <tapply(X = e, INDEX = s, FUN = mean) xj.quer # Varianz der Löhne in den Berufen # Funktion für empirische Varianz erstellen VarEmp <function(x) { n <length(x) var.emp <- (n-1)/ n * var(x) return(var.emp) }# jetzt wird die Funktion in tapply() genutzt sigma2j <tapply(X = e, INDEX = s, FUN = VarEmp) sigma2j # quadrierte Differenz des Lohnniveaus ... diff2 <- (xj.quer x.quer)^2 diff2 R-7-5 # Lohnstreuung in den Klassen lsik <sum(njn * sigma2j) lsik # Varianz der Löhne zwischen den Klassen vlzk <sum(njn * diff2) vlzk # Varianzkomponenten addieren sich zur Gesamtvarianz var.ges <lsik + vlzk var.ges # Verhältnis der Varianz zwischen den Klassen zur Gesamtvarianz vlzk / var.ges 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 139 03.09.2019 13: 56: 07 <?page no="140"?> 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 140 03.09.2019 13: 56: 07 <?page no="141"?> 8.3 Die Kovarianz 139 -2 -1 0 1 2 -4 -2 0 2 4 x − ¯ x y − ¯ y Abbildung 8.2: Streudiagramm der Mittelwertabweichungen. Werden die Variablen X und Y additiv um eine Konstante verändert, verändert sich die Kovarianz nicht: σ X + a,Y + b = 1 n n ∑ i =1 (( x i + a ) − (¯ x + a )) (( y i + b ) − (¯ y + b )) = 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) = σ XY . Wird die Variablen X mit einer Konstanten a und Y mit einer Konstanten b multipliziert, verändert sich die Kovarianz um den Faktor ab : σ aX,bY = 1 n n ∑ i =1 ( ax i − a ¯ x ) ( by i − b ¯ y ) = ab 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) = ab σ XY . 8 8 8 Korrelation: Metrische Variablen Um das Ausmaß des Zusammenhangs verschiedener metrischer Merkmale zu untersuchen, sind Daten für die einzelnen Einheiten von diesen Merkmalen Voraussetzung. Wichtige Maßzahlen des Zusammenhangs sind die Kovarianz und die Korrelation. Beide Maßzahlen werden in diesem Kapitel besprochen. 8.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 142 8.2 Eine zweidimensionale Variable . . . . . . . . . . . . . . . 142 8.3 Die Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . 143 8.3.1 Ein Zahlenbeispiel . . . . . . . . . . . . . . . . . . 144 8.3.2 Eigenschaften der Kovarianz . . . . . . . . . . . . . 144 8.4 Der Korrelationskoeffizient von Pearson . . . . . . . . . . . 146 8.4.1 Eigenschaften des Korrelationskoeffizienten . . . . . 147 8.4.2 Die Kovarianz standardisierter Variablen . . . . . . 148 8.4.3 Ausbildungsjahre und Einkommen . . . . . . . . . 149 8.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 150 8.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 141 03.09.2019 13: 56: 08 <?page no="142"?> 142 8 Korrelation: Metrische Variablen 8.1 Einleitung Viele Fragestellungen der Statistik beziehen sich auf Zusammenhänge zwischen Variablen. Zum Beispiel werden Zusammenhänge zwischen dem verfügbaren Einkommen und den Konsumausgaben untersucht, oder Zusammenhänge zwischen der Zahl der Bildungsjahre und dem erzielten Einkommen. Notwendig ist hierfür, dass für die einzelnen untersuchten Einheiten die Informationen jeweils für beide Merkmale bekannt sind. Grundlegende Methoden der Zusammenhangsanalyse sind die Korrelationsrechnung und die Regressionsrechnung. In diesem Kapitel betrachten wir die Korrelationsrechnung für metrische Variablen. 8.2 Eine zweidimensionale Variable Wir gehen von einer zweidimensionalen statistischen Variablen ( X, Y ) aus, durch die jeder Einheit zwei Merkmalswerte zugeordnet werden. Der Einheit i werden die Merkmalswerte x i und y i zugeordnet ( i = 1 , . . . , n ). Als ein einfaches Zahlenbeispiel betrachten wir eine Gesamtheit von n = 5 Einheiten, für die die Merkmalswerte ( x 1 , y 1 ) = (1 , 2) , ( x 2 , y 2 ) = (2 , 3) , ( x 3 , y 3 ) = (3 , 9) , ( x 4 , y 4 ) = (4 , 6) , ( x 5 , y 5 ) = (5 , 10) vorliegen (Siehe Abbildung 8.1). Die separaten Verteilungen von X bzw. Y werden als Randverteilungen der Variablen ( X, Y ) bezeichnet. Sie können z. B. durch Mittelwerte und Varianzen charakterisiert werden. Für das Zahlenbeispiel finden wir ¯ x = 3, ¯ y = 6, σ 2 X = 2, σ 2 Y = 10. Diese Mittelwerte und Varianzen liefern aber offenbar keine Information über die gemeinsame Verteilung von X und Y ; dafür müssen andere Charakterisierungen verwendet werden. R-8-1 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 142 03.09.2019 13: 56: 08 <?page no="143"?> 8.3 Die Kovarianz 139 -2 -1 0 1 2 -4 -2 0 2 4 x − ¯ x y − ¯ y Abbildung 8.2: Streudiagramm der Mittelwertabweichungen. Werden die Variablen X und Y additiv um eine Konstante verändert, verändert sich die Kovarianz nicht: σ X + a,Y + b = 1 n n ∑ i =1 (( x i + a ) − (¯ x + a )) (( y i + b ) − (¯ y + b )) = 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) = σ XY . Wird die Variablen X mit einer Konstanten a und Y mit einer Konstanten b multipliziert, verändert sich die Kovarianz um den Faktor ab : σ aX,bY = 1 n n ∑ i =1 ( ax i − a ¯ x ) ( by i − b ¯ y ) = ab 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) = ab σ XY . 8 8 8.3 Die Kovarianz 143 1 2 3 4 5 2 4 6 8 10 x y Abbildung 8.1: Streudiagramm für das Zahlenbeispiel. 8.3 Die Kovarianz Ein Maß des Zusammenhangs von X und Y ist die Kovarianz σ XY = 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) . Sie ist definiert als Mittelwert der Produkte der Abweichungen der Werte der Variablen X und Y von ihren Mittelwerten. Die Kovarianz ist positiv, falls tendenziell überdurchschnittliche X -Werte mit überdurchschnittlichen Y -Werten und unterdurchschnittliche X -Werte mit unterdurchschnittlichen Y -Werten einhergehen. In diesem Fall resultieren tendenziell mehrheitlich positive Summanden. Sie ist hingegen negativ, wenn tendenziell überdurchschnittliche X -Werte mit unterdurchschnittlichen Y -Werten und unterdurchschnittliche X -Werte mit überdurchschnittlichen Y -Werten einhergehen. In diesem Fall resultieren überwiegend negative Summanden. Ist keine von beiden Tendenzen vorhanden, liegt kein deutliches Kovariieren vor und die Kovarianz ist (etwa) gleich Null. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 143 03.09.2019 13: 56: 09 <?page no="144"?> 144 8 Korrelation: Metrische Variablen Die folgende Umformung erleichtert oft die Berechnung der Kovarianz: σ XY = 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) = 1 n n ∑ i =1 x i y i − ¯ x ¯ y In dieser Darstellung wird ersichtlich, dass die Kovarianz auch als Mittelwert der Produkte der X - und Y -Werte abzüglich des Produkts der Mittelwerte berechnet werden kann. 8.3.1 Ein Zahlenbeispiel Für das in der Graphik 8.1 angegebene Zahlenbeispiel finden wir σ XY = 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) = 1 5 (8 + 3 + 0 + 0 + 8) = 3 . 8 . Verwenden wir die aus der Umformung hervorgegangene Darstellung der Kovarianz, erhalten wir das Ergebnis auf folgende Weise: σ XY = 1 n n ∑ i =1 x i y i − ¯ x ¯ y = 1 5 (1 · 2 + 2 · 3 + 3 · 9 + 4 · 6 + 5 · 10) − 3 · 6 = 3 . 8 . Betrachten wir nochmals die Darstellung in der Form des Mittelwertes der Produkte der Mittelwertabweichungen. Zur Veranschaulichung zeichnen wir ein Streudiagramm (siehe Abbildung 8.2) der Mittelwertabweichungen x i − ¯ x und y i − ¯ y , die jeweils einen Mittelwert von 0 haben. Wir sehen, dass drei Summanden, d.h. drei Produkte von Mittelwertabweichungen, positiv sind und zwei den Wert 0 haben. R-8-2 8.3.2 Eigenschaften der Kovarianz Bei Betrachtung der Definition der Kovarianz ist unmittelbar ersichtlich, dass σ XY = σ Y X . Die Kovarianz einer Variablen mit sich selbst ist gerade die Varianz, da σ XX = 1 n n ∑ i =1 ( x i − ¯ x ) ( x i − ¯ x ) = 1 n n ∑ i =1 ( x i − ¯ x ) 2 = σ 2 X . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 144 03.09.2019 13: 56: 10 <?page no="145"?> 8.3 Die Kovarianz 139 -2 -1 0 1 2 -4 -2 0 2 4 x − ¯ x y − ¯ y Abbildung 8.2: Streudiagramm der Mittelwertabweichungen. Werden die Variablen X und Y additiv um eine Konstante verändert, verändert sich die Kovarianz nicht: σ X + a,Y + b = 1 n n ∑ i =1 (( x i + a ) − (¯ x + a )) (( y i + b ) − (¯ y + b )) = 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) = σ XY . Wird die Variablen X mit einer Konstanten a und Y mit einer Konstanten b multipliziert, verändert sich die Kovarianz um den Faktor ab : σ aX,bY = 1 n n ∑ i =1 ( ax i − a ¯ x ) ( by i − b ¯ y ) = ab 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) = ab σ XY . 8 8 8.3 Die Kovarianz 145 -2 -1 0 1 2 -4 -2 0 2 4 x − ¯ x y − ¯ y Abbildung 8.2: Streudiagramm der Mittelwertabweichungen. Werden die Variablen X und Y additiv um eine Konstante verändert, verändert sich die Kovarianz nicht: σ X + a,Y + b = 1 n n ∑ i =1 (( x i + a ) − (¯ x + a )) (( y i + b ) − (¯ y + b )) = 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) = σ XY . Wird die Variable X mit einer Konstanten a und Y mit einer Konstanten b multipliziert, verändert sich die Kovarianz um den Faktor ab : σ aX,bY = 1 n n ∑ i =1 ( ax i − a ¯ x ) ( by i − b ¯ y ) = ab 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) = ab σ XY . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 145 03.09.2019 13: 56: 11 <?page no="146"?> 146 8 Korrelation: Metrische Variablen Betrachten wir die Kovarianz von X und Y + Z , finden wir σ X,Y + Z = 1 n n ∑ i =1 ( x i − ¯ x ) (( y i + z i ) − (¯ y + ¯ z )) = 1 n n ∑ i =1 ( x i − ¯ x ) (( y i − ¯ y ) + ( z i − ¯ z )) = 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) + 1 n n ∑ i =1 ( x i − ¯ x ) ( z i − ¯ z ) = σ XY + σ XZ . 8.4 Der Korrelationskoeffizient von Pearson Eine Interpretation der Kovarianz wird dadurch erschwert, dass ihre Werte nicht normiert sind und stark von der Streuung der Variablen abhängen. Um ein Maß für den Zusammenhang zu erhalten, wird deshalb ein normierter Korrelationskoeffizient verwendet, der folgendermaßen definiert ist: r XY = σ XY σ X σ Y = 1 n ∑ n i =1 ( x i − ¯ x ) ( y i − ¯ y ) √ 1 n ∑ n i =1 ( x i − ¯ x ) 2 √ 1 n ∑ n i =1 ( y i − ¯ y ) 2 Die Normierung wird dadurch erreicht, dass die Kovarianz durch die beiden Standardabweichungen dividiert wird. So wird erreicht, dass − 1 ≤ r XY ≤ 1 gilt. Für das Zahlenbeispiel hatten wir bereits die Kovarianz und die Varianzen berechnet, so dass wir den Korrelationskoeffizienten folgendermaßen berechnen können: r XY = σ XY σ X σ Y = 3 . 8 √ 2 √ 10 = 0 . 8497 . Offenbar weist der Wert auf einen starken positiven Zusammenhang von X und Y hin. R-8-3 Um einen Eindruck verschieden starker Korrelationen zu erhalten, sind in der Graphik 8.3 jeweils Streudiagramme für n = 100 Beobachtungen für die Korrelationen 0, − 0 . 3 , 0 . 7 und 0 . 9 dargestellt. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 146 03.09.2019 13: 56: 12 <?page no="147"?> 8.3 Die Kovarianz 139 -2 -1 0 1 2 -4 -2 0 2 4 x − ¯ x y − ¯ y Abbildung 8.2: Streudiagramm der Mittelwertabweichungen. Werden die Variablen X und Y additiv um eine Konstante verändert, verändert sich die Kovarianz nicht: σ X + a,Y + b = 1 n n ∑ i =1 (( x i + a ) − (¯ x + a )) (( y i + b ) − (¯ y + b )) = 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) = σ XY . Wird die Variablen X mit einer Konstanten a und Y mit einer Konstanten b multipliziert, verändert sich die Kovarianz um den Faktor ab : σ aX,bY = 1 n n ∑ i =1 ( ax i − a ¯ x ) ( by i − b ¯ y ) = ab 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) = ab σ XY . 8 8 8.4 Der Korrelationskoeffizient von Pearson 147 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 x y r = 0 r 2 = 0 (a) keine Korrelation -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 x y r = -0.4 r 2 = 0.16 (b) schwache negative Korrelation -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 x y r = 0.7 r 2 = 0.49 (c) mittlere positive Korrelation -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 x y r = 0.9 r 2 = 0.81 (d) starke positive Korrelation Abbildung 8.3: Visuelle Darstellung von Korrelationen unterschiedlicher Stärke und Richtung. 8.4.1 Eigenschaften des Korrelationskoeffizienten Werden die Variablen X und Y additiv um eine Konstante verändert, bleibt der Korrelationskoeffizient unverändert: r X + a,Y + b = σ X + a,Y + b σ X + a σ Y + b = σ XY σ X σ Y = r XY . Werden die Variablen X und Y mit Konstanten a bzw. b multipliziert, verändert sich der Betrag des Korrelationskoeffizienten nicht. Jedoch kann sein Vorzeichen wechseln, wenn sich a und b 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 147 03.09.2019 13: 56: 13 <?page no="148"?> 148 8 Korrelation: Metrische Variablen im Vorzeichen unterscheiden. Wir erhalten dann r aX,bY = ab | a || b | r XY . Zu beachten ist auch, dass der Korrelationskoeffizient nur die Stärke des linearen Zusammenhanges erfasst. Besteht zwischen X und Y kein irgendwie gearteter Zusammenhang, gilt σ XY = r XY = 0. Aufgrund eines Korrelationskoeffizienten, der einen Wert nahe 0 aufweist, kann jedoch nur geschlossen werden, dass praktisch kein linearer Zusammenhang vorliegt. Auch wenn r XY ≈ 0 ist, können andere Arten des Zusammenhanges vorliegen. Das können wir uns mit einem weiteren Zahlenbeispiel veranschaulichen: ( x 1 , y 1 ) = ( − 2 , 4) , ( x 2 , y 2 ) = ( − 1 , 1) , ( x 3 , y 3 ) = (0 , 0) , ( x 4 , y 4 ) = (1 , 1) , ( x 5 , y 5 ) = (2 , 4) . Wir finden r XY = 0, obwohl Y = X 2 . Schließlich muss auch erwähnt werden, dass aufgrund einer Korrelation zwischen zwei Variablen nicht geschlossen werden kann, dass es einen kausalen Zusammenhang gibt. R-8-4 8.4.2 Die Kovarianz standardisierter Variablen Die zu einer Variablen X korrespondierende standardisierte Variable ist definiert als X ∗ = X − ¯ x σ X . Wegen der Nulleigenschaft des arithmetischen Mittels hat X ∗ den Mittelwert 0. Und wegen σ 2 X +¯ x = σ 2 X finden wir für die Varianz von X ∗ : σ 2 X ∗ = 1 σ 2 X σ 2 X − ¯ x = 1 . Schließlich findet man für die Kovarianz von X ∗ und Y ∗ : σ X ∗ Y ∗ = σ XY σ X σ Y = r X,Y , d.h. die Kovarianz standardisierter Variablen X ∗ und Y ∗ hat den gleichen Wert wie die Korrelation der nicht standardisierten Variablen X und Y . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 148 03.09.2019 13: 56: 14 <?page no="149"?> 8.3 Die Kovarianz 139 -2 -1 0 1 2 -4 -2 0 2 4 x − ¯ x y − ¯ y Abbildung 8.2: Streudiagramm der Mittelwertabweichungen. Werden die Variablen X und Y additiv um eine Konstante verändert, verändert sich die Kovarianz nicht: σ X + a,Y + b = 1 n n ∑ i =1 (( x i + a ) − (¯ x + a )) (( y i + b ) − (¯ y + b )) = 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) = σ XY . Wird die Variablen X mit einer Konstanten a und Y mit einer Konstanten b multipliziert, verändert sich die Kovarianz um den Faktor ab : σ aX,bY = 1 n n ∑ i =1 ( ax i − a ¯ x ) ( by i − b ¯ y ) = ab 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) = ab σ XY . 8 8 8.4 Der Korrelationskoeffizient von Pearson 149 8 10 12 14 16 18 20 0 5 10 15 x y 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Abbildung 8.4: Ausbildungsjahre ( x ) und Netto- Monatseinkommen in Tsd. Euro ( y ). Durchgezogene Linien: Durchschnittslohn der Personen mit x -Ausbildungsjahren. 8.4.3 Ausbildungsjahre und Einkommen Abschließend betrachten wir die Anzahl der Ausbildungsjahre ( X ) und das Netto-Monatseinkommen ( Y ) in 1 , 000 Euro von n = 1 , 238 Personen im ALLBUS-File (Westdeutschland). Da sehr viele Personen eine gleiche Anzahl an Bildungsjahren aufweisen, z. B. haben 230 Personen 11.5 Ausbildungsjahre, wurde für die graphische Darstellung die Zahl der Ausbildungsjahre zufällig leicht variiert. In der Abbildung 8.4 ist deutlich zu erkennen, dass die meisten Personen, tatsächlich genau 89 . 8 %, weniger als 4 , 000 Euro im Monat verdienen. Die wenigen sehr hohen Einkommen finden sich für Personen mit einer relativ hohen Zahl an Ausbildungsjahren. Der lineare Korrelationskoeffizient weist mit einem Wert von 0 . 372 jedoch auf einen nur recht schwachen positiven Zusammenhang hin. Zusätzlich sind in Graphik 8.4 mit dünnen waagrechten Linien die Durchschnittslöhne der Personen mit 6, 7 usw. Ausbildungsjahren eingetragen. Zwar steigt der Durchschnittslohn tendenziell mit zunehmender Anzahl Ausbildungsjahren an, jedoch ist der Zusammenhang nicht monoton. R-8-5 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 149 03.09.2019 13: 56: 15 <?page no="150"?> 150 8 Korrelation: Metrische Variablen 8.5 Aufgaben 1. Sie befragen fünf Personen nach ihrem monatlichen verfügbaren Nettoeinkommen ( X ) und ihren monatlichen Mietausgaben ( Y ) und erhalten folgende Werte (jeweils in 1 , 000 e ): ( x 1 , y 1 ) = (1 , 0 . 3) , ( x 2 , y 2 ) = (2 , 0 . 45) , ( x 3 , y 3 ) = (3 , 0 . 9) , ( x 4 , y 4 ) = (4 , 1 . 2) , ( x 5 , y 5 ) = (5 , 0 . 95) . a) Stellen Sie die Wertepaare als Streudiagramm graphisch dar. b) Urteilen Sie aufgrund Ihrer Zeichnung: Besteht ein positiver oder negativer Zusammenhang zwischen dem Einkommen und den Mietausgaben? Liegt ein starker oder schwacher Zusammenhang vor? c) Berechnen Sie die Mittelwerte von X und Y . d) Beziehen Sie sich jetzt auf die X - und Y -Werte als Differenzen zu Ihren Mittelwerten und fertigen Sie ein Streudiagramm für diese Mittelwertabweichungen an. e) Erläutern Sie, welche Vorzeichen die Produkte der Mittelwertabweichungen von X und Y in den vier Quadranten Ihres Koordinatensystems haben. f) Berechnen Sie für X und Y die Varianzen und Standardabweichungen. g) Berechnen Sie für die n Wertepaare jeweils das Produkt aus den Mittelwertabweichungen, summieren Sie es über alle n Beobachtungen auf und teilen Sie diese Summe durch die Anzahl der Beobachtungen. Wie nennt man die von Ihnen berechnete Maßzahl? h) Die von Ihnen berechnete Kovarianz erfasst den linearen Zusammenhang von X und Y , allerdings ist sie nicht normiert und damit schwierig zu interpretieren. Dividieren sie zur Normierung die Kovarianz durch das Produkt der beiden von Ihnen berechneten Standardabweichungen σ Y und σ X . Wie heißt die resultierende Maßzahl? 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 150 03.09.2019 13: 56: 16 <?page no="151"?> 8.3 Die Kovarianz 139 -2 -1 0 1 2 -4 -2 0 2 4 x − ¯ x y − ¯ y Abbildung 8.2: Streudiagramm der Mittelwertabweichungen. Werden die Variablen X und Y additiv um eine Konstante verändert, verändert sich die Kovarianz nicht: σ X + a,Y + b = 1 n n ∑ i =1 (( x i + a ) − (¯ x + a )) (( y i + b ) − (¯ y + b )) = 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) = σ XY . Wird die Variablen X mit einer Konstanten a und Y mit einer Konstanten b multipliziert, verändert sich die Kovarianz um den Faktor ab : σ aX,bY = 1 n n ∑ i =1 ( ax i − a ¯ x ) ( by i − b ¯ y ) = ab 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) = ab σ XY . 8 8 . 3 D i e K o v a r i a n z 1 3 9 - 2 - 1 0 1 2 - 4 - 2 0 2 4 x − ¯ x y − ¯ y A b b i l d u n g 8 . 2 : S t r e u d i a g r a m m d e r M i t t e l w e r t a b w e i c h u n g e n . W e r d e n d i e V a r i a b l e n X u n d Y a d d i t i v u m e i n e K o n s t a n t e v e r ä n d e r t , v e r ä n d e r t s i c h d i e K o v a r i a n z n i c h t : σ X + a , Y + b = 1 n n ∑ i = 1 ( ( x i + a ) − ( ¯ x + a ) ) ( ( y i + b ) − ( ¯ y + b ) ) = 1 n n ∑ i = 1 ( x i − ¯ x ) ( y i − ¯ y ) = σ X Y . W i r d d i e V a r i a b l e n X m i t e i n e r K o n s t a n t e n a u n d Y m i t e i n e r K o n s t a n t e n b m u l t i p l i z i e r t , v e r ä n d e r t s i c h d i e K o v a r i a n z u m d e n F a k t o r a b : σ a X , b Y = 1 n n ∑ i = 1 ( a x i − a ¯ x ) ( b y i − b ¯ y ) = a b 1 n n ∑ i = 1 ( x i − ¯ x ) ( y i − ¯ y ) = a b σ X Y . 8 8.5 Aufgaben 151 i) Beurteilen Sie Stärke des Zusammenhangs zwischen dem verfügbaren Einkommen und den Mietausgaben anhand des Korrelationskoeffizienten. 2. Zeigen Sie, dass gilt: σ Y X = 1 n n ∑ i =1 ( y i − ¯ y )( x i − ¯ x ) = 1 n n ∑ i =1 y i x i − ¯ y ¯ x und σ 2 X = 1 n n ∑ i =1 ( x i − ¯ x ) 2 = 1 n n ∑ i =1 x 2 i − ¯ x 2 . 3. Betrachten Sie die folgenden Wertepaare für die Variable ( X, Y ): ( x 1 , y 1 ) = ( − 2 , 16) , ( x 2 , y 2 ) = ( − 1 , 1) , ( x 3 , y 3 ) = (0 , 0) , ( x 4 , y 4 ) = (1 , 1) , ( x 5 , y 5 ) = (2 , 16) . a) Berechnen Sie den Korrelationskoeffizient r XY . b) Besteht zwischen X und Y ein Zusammenhang? 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 151 03.09.2019 13: 56: 16 <?page no="152"?> 152 8 Korrelation: Metrische Variablen 8.6 R-Code R-8-1 # Daten generieren x <- 1: 5 y <c(2,3,9,6,10) # Streudiagramm plot(x = x, y = y, pch = 19) # Mittelwerte mx <mean(x) mx my <mean(y) my # empirische Varianz # Funktion für empirische Varianz erstellen VarEmp <function(x) { n <length(x) var.emp <- (n-1)/ n * var(x) return(var.emp) }vx <- VarEmp(x) vx vy <- VarEmp(y) vy R-8-2 # Anzahl an Beobachtungen n <length(x) # Kovarianz cov.xy <- 1/ n * sum( (x-mx)*(y-my) ) cov.xy # alternativ nach Umformung mean(x*y) mx*my # Streudiagramm plot(x = (x-mx), y = (y-my), pch = 19, xlab = expression(x-bar(x)), ylab = expression(y-bar(y))) abline(h = 0) abline(v = 0) R-8-3 # Korrelationskoeffizient von Pearson rxy <cov.xy / ( sqrt(vx) * sqrt(vy)) rxy 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 152 03.09.2019 13: 56: 17 <?page no="153"?> 8.3 Die Kovarianz 139 -2 -1 0 1 2 -4 -2 0 2 4 x − ¯ x y − ¯ y Abbildung 8.2: Streudiagramm der Mittelwertabweichungen. Werden die Variablen X und Y additiv um eine Konstante verändert, verändert sich die Kovarianz nicht: σ X + a,Y + b = 1 n n ∑ i =1 (( x i + a ) − (¯ x + a )) (( y i + b ) − (¯ y + b )) = 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) = σ XY . Wird die Variablen X mit einer Konstanten a und Y mit einer Konstanten b multipliziert, verändert sich die Kovarianz um den Faktor ab : σ aX,bY = 1 n n ∑ i =1 ( ax i − a ¯ x ) ( by i − b ¯ y ) = ab 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) = ab σ XY . 8 8 . 3 D i e K o v a r i a n z 1 3 9 - 2 - 1 0 1 2 - 4 - 2 0 2 4 x − ¯ x y − ¯ y A b b i l d u n g 8 . 2 : S t r e u d i a g r a m m d e r M i t t e l w e r t a b w e i c h u n g e n . W e r d e n d i e V a r i a b l e n X u n d Y a d d i t i v u m e i n e K o n s t a n t e v e r ä n d e r t , v e r ä n d e r t s i c h d i e K o v a r i a n z n i c h t : σ X + a , Y + b = 1 n n ∑ i = 1 ( ( x i + a ) − ( ¯ x + a ) ) ( ( y i + b ) − ( ¯ y + b ) ) = 1 n n ∑ i = 1 ( x i − ¯ x ) ( y i − ¯ y ) = σ X Y . W i r d d i e V a r i a b l e n X m i t e i n e r K o n s t a n t e n a u n d Y m i t e i n e r K o n s t a n t e n b m u l t i p l i z i e r t , v e r ä n d e r t s i c h d i e K o v a r i a n z u m d e n F a k t o r a b : σ a X , b Y = 1 n n ∑ i = 1 ( a x i − a ¯ x ) ( b y i − b ¯ y ) = a b 1 n n ∑ i = 1 ( x i − ¯ x ) ( y i − ¯ y ) = a b σ X Y . 8 8.6 R-Code 153 # alternativ cor(x, y) R-8-4 # Weiteres Zahlenbeispiel x2 <c(-2,-1,0,1,2) y2 <x2^2 # Korrelation cor(x2, y2) R-8-5 ## Daten einlesen d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) d <d[d$ostwest==0,] # Anzahl an Beobachtungen n <nrow(d) # Vektor mit Löhnen erstellen (in Tsd.) e <as.numeric(d$einkommen) / 1000 # Ausbildungsjahre b <as.numeric(d$bildung) min(b); max(b) # Durchschnittslöhne nach Ausbildungsjahren de.b <tapply(X = e, INDEX = b, mean) ## Abbildung # leicht modifizierte Ausbildungsjahre set.seed(123) b.mod <b + runif(n = n, min = -0.15, max = 0.15) # Streudiagramm plot(x = b.mod, y = e, pch = 19, cex = 0.2, xlab = "x", ylab = "y", xaxt = "n") axis(side = 1, at = 7: 21, label = 7: 21) # Durchschnittslöhne darstellen ub <sort(x = unique(b), decreasing = FALSE) for (i in 1: length(ub)) { segments(x0 = ub[i]-0.25, y0 = de.b[i], x1 = ub[i]+0.25, y1 = de.b[i]) } # Anteil an Personen mit einem Einkommen < 4 Tsd. mean(e < 4) * 100 # hohe Einkommen und Ausbildungsjahre order.e <order(e, decreasing = TRUE) cbind(b[order.e], e[order.e])[1: 15,] 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 153 03.09.2019 13: 56: 17 <?page no="154"?> 154 8 Korrelation: Metrische Variablen # Korrelation zwischen Löhnen und Ausbildungsjahren reb <cor(e, b) reb # Quadrat des Korrelationskoeffizienten reb^2 # Korrelation ohne die höchsten 9 Einkommen e.ohne9 <e[order.e][-(1: 9)] b.ohne9 <b[order.e][-(1: 9)] cor(e.ohne9, b.ohne9) 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 154 03.09.2019 13: 56: 18 <?page no="155"?> 9.1 Spearmans Rangkorrelationskoeffizient 151 9.1.2 Ein Rangkorrelationskoeffizient Sei nun ( X, Y ) eine zweidimensionale Variable, bei der X und Y ordinale Variablen sind. Dann kann man sowohl für X als auch für Y Ränge bilden: r x ( i ) und r y ( i ). Ihre Mittelwerte werden durch ¯r x bzw. ¯r y bezeichnet. Pearsons Korrelationskoeffizient angewendet auf diese Ränge liefert Spearmans Rangkorrelationskoeffizient ρ XY = 1 n ∑ n i =1 (r x ( i ) − ¯r x ) (r y ( i ) − ¯r y ) √ 1 n ∑ n i =1 (r x ( i ) − ¯r x ) 2 √ 1 n ∑ n i =1 (r y ( i ) − ¯r y ) 2 . Zur Illustration betrachten wir ein Zahlenbeispiel mit n = 4 Werten: R-9-1 X r x Y r y x 1 = 6 r x (1) = 3 y 1 = 2 r y (1) = 2 x 2 = 1 r x (2) = 1 y 2 = 1 r y (2) = 1 x 3 = 9 r x (3) = 4 y 3 = 4 r y (3) = 3 x 4 = 4 r x (4) = 2 y 4 = 6 r y (4) = 4 Mit diesen Zahlen finden wir den Wert ρ XY = 0 . 4. R-9-2 9.1.3 Eigenschaften Der Rangkorrelationskoeffizient ist dimensionslos , da sich die Dimensionen (z. B. US-Dollar) herauskürzen, und symmetrisch bezüglich X und Y . Zudem ist er invariant bezüglich streng monoton wachsender Transformationen. D.h., werden die Werte von X und/ oder Y so transformiert, dass deren Ränge unverändert bleiben, ändert sich der Wert des Rangkorrelationskoeffizienten nicht. Der Rangkorrelationskoeffizient ist normiert auf − 1 ≤ ρ XY ≤ 1 . Dies erleichtert die Interpretation des numerischen Ergebnisses. Bei einem vollständig gleichgerichteten monotonen Zusammenhang gilt ρ XY = 1. Bei einem vollständig gegenläufigen monotonen 9 9 9 Korrelation: Ordinale und nominale Variablen In diesem Kapitel besprechen wir Maße des Zusammenhangs für ordinale und nominalskalierte Variablen. Zunächst erläutern wir Spearmans Rangkorrrelation, mit der ein Zusammenhang zwischen zwei ordinalen Variablen erfasst werden kann, dann besprechen wir die Maßzahl χ 2 und den darauf basierenden Kontingenzkoeffizienten für zwei nominale Variablen. Anschließend betrachten wir Zusammenhangsmaße für nominal skalierte Merkmale. 9.1 Spearmans Rangkorrelationskoeffizient . . . . . . . . . . . 156 9.1.1 Ordinale Variablen und Ränge . . . . . . . . . . . 156 9.1.2 Ein Rangkorrelationskoeffizient . . . . . . . . . . . 157 9.1.3 Eigenschaften . . . . . . . . . . . . . . . . . . . . 157 9.1.4 Eine vereinfachte Rechenmethode . . . . . . . . . . 158 9.2 Zusammenhangsmaße für nominale Variablen . . . . . . . . 158 9.2.1 Empirische und hypothetische Häufigkeiten . . . . . 159 9.2.2 Kontingenzkoeffizient . . . . . . . . . . . . . . . . 161 9.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 163 9.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 155 03.09.2019 13: 56: 18 <?page no="156"?> 156 9 Korrelation: Ordinale und nominale Variablen 9.1 Spearmans Rangkorrelationskoeffizient 9.1.1 Ordinale Variablen und Ränge Bei einer ordinalen Variablen können die Merkmalswerte in einer sinnvoll interpretierbaren Reihe angeordnet werden, die numerischen Abstände zwischen den Merkmalswerten haben jedoch keine bestimmte Bedeutung. Als Beispiel kann man an Schulnoten von 1 bis 5 denken. Die numerischen Differenzen zwischen 1 und 2 und zwischen 4 und 5 sind gleich groß, aber ihnen entspricht nicht unbedingt eine gleich große Leistungsdifferenz. Als ein weiteres Beispiel kann man daran denken, dass Personen gebeten werden, den Grad ihrer Zufriedenheit (inbezug auf irgendeinen Sachverhalt) auf einer Skala von 1 bis 10 anzugeben. Um eine allgemeine Notation zu erreichen, beziehen wir uns auf eine Variable X . Merkmalswerte für n Einheiten werden wie bisher durch x 1 , . . . , x n bezeichnet. Es wird angenommen, dass die numerische Kodierung so erfolgt, dass die unterstellte Ordnung der Merkmalswerte der numerischen Ordnung der x i -Werte entspricht. Zur Definition von Rangkorrelationskoeffizienten werden Ränge verwendet. Der Rang eines Werts x i ist die Ordnungsnummer, die die Position von x i in der Reihe aller der Größe nach geordneten x i -Werte angibt. Dabei sind zwei Fälle zu unterscheiden. Der erste Fall liegt vor, wenn alle x i -Werte unterschiedlich sind. Dann hat jeder x i -Wert genau einen Rang. Gibt es z. B. vier Werte x 1 = 6, x 2 = 1, x 3 = 9 und x 4 = 4, gibt es die Reihe x 2 < x 4 < x 1 < x 3 so dass x 2 den ersten Rang hat, x 4 den zweiten Rang, usw. Allgemein verwenden wir für den Rang von x i die Notation r x ( i ); also r x (1) = 3, r x (2) = 1, r x (3) = 4, r x (4) = 2. Der zweite Fall liegt vor, wenn zwei oder mehr x i -Werte gleich sind. Man spricht dann von Bindungen. Dann werden bei gleichen x i -Werten als Ränge Durchschnittswerte ihrer Ordnungszahlen verwendet. Wenn also im obigen Beispiel x 1 = 4 wäre, gäbe es die Reihe x 2 < x 4 = x 1 < x 3 und die Ränge wären r x (2) = 1, r x (1) = r x (4) = 2 . 5 und r x (3) = 4. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 156 03.09.2019 13: 56: 19 <?page no="157"?> 9.1 Spearmans Rangkorrelationskoeffizient 151 9.1.2 Ein Rangkorrelationskoeffizient Sei nun ( X, Y ) eine zweidimensionale Variable, bei der X und Y ordinale Variablen sind. Dann kann man sowohl für X als auch für Y Ränge bilden: r x ( i ) und r y ( i ). Ihre Mittelwerte werden durch ¯r x bzw. ¯r y bezeichnet. Pearsons Korrelationskoeffizient angewendet auf diese Ränge liefert Spearmans Rangkorrelationskoeffizient ρ XY = 1 n ∑ n i =1 (r x ( i ) − ¯r x ) (r y ( i ) − ¯r y ) √ 1 n ∑ n i =1 (r x ( i ) − ¯r x ) 2 √ 1 n ∑ n i =1 (r y ( i ) − ¯r y ) 2 . Zur Illustration betrachten wir ein Zahlenbeispiel mit n = 4 Werten: R-9-1 X r x Y r y x 1 = 6 r x (1) = 3 y 1 = 2 r y (1) = 2 x 2 = 1 r x (2) = 1 y 2 = 1 r y (2) = 1 x 3 = 9 r x (3) = 4 y 3 = 4 r y (3) = 3 x 4 = 4 r x (4) = 2 y 4 = 6 r y (4) = 4 Mit diesen Zahlen finden wir den Wert ρ XY = 0 . 4. R-9-2 9.1.3 Eigenschaften Der Rangkorrelationskoeffizient ist dimensionslos , da sich die Dimensionen (z. B. US-Dollar) herauskürzen, und symmetrisch bezüglich X und Y . Zudem ist er invariant bezüglich streng monoton wachsender Transformationen. D.h., werden die Werte von X und/ oder Y so transformiert, dass deren Ränge unverändert bleiben, ändert sich der Wert des Rangkorrelationskoeffizienten nicht. Der Rangkorrelationskoeffizient ist normiert auf − 1 ≤ ρ XY ≤ 1 . Dies erleichtert die Interpretation des numerischen Ergebnisses. Bei einem vollständig gleichgerichteten monotonen Zusammenhang gilt ρ XY = 1. Bei einem vollständig gegenläufigen monotonen 9 9 . 1 S p e a r m a n s R a n g k o r r e l a t i o n s k o e ffi z i e n t 1 5 1 9 . 1 . 2 E i n R a n g k o r r e l a t i o n s k o e ffi z i e n t S e i n u n ( X , Y ) e i n e z w e i d i m e n s i o n a l e V a r i a b l e , b e i d e r X u n d Y o r d i n a l e V a r i a b l e n s i n d . D a n n k a n n m a n s o w o h l f ü r X a l s a u c h f ü r Y R ä n g e b i l d e n : r x ( i ) u n d r y ( i ) . I h r e M i t t e l w e r t e w e r d e n d u r c h ¯ r x b z w . ¯ r y b e z e i c h n e t . P e a r s o n s K o r r e l a t i o n s k o e ffi z i e n t a n g e w e n d e t a u f d i e s e R ä n g e l i e f e r t S p e a r m a n s R a n g k o r r e l a t i o n s k o e ffi z i e n t ρ X Y = 1 n ∑ n i = 1 ( r x ( i ) − ¯ r x ) ( r y ( i ) − ¯ r y ) √ 1 n ∑ n i = 1 ( r x ( i ) − ¯ r x ) 2 √ 1 n ∑ n i = 1 ( r y ( i ) − ¯ r y ) 2 . Z u r I l l u s t r a t i o n b e t r a c h t e n w i r e i n Z a h l e n b e i s p i e l m i t n = 4 W e r t e n : R - 9 - 1 X r x Y r y x 1 = 6 r x ( 1 ) = 3 y 1 = 2 r y ( 1 ) = 2 x 2 = 1 r x ( 2 ) = 1 y 2 = 1 r y ( 2 ) = 1 x 3 = 9 r x ( 3 ) = 4 y 3 = 4 r y ( 3 ) = 3 x 4 = 4 r x ( 4 ) = 2 y 4 = 6 r y ( 4 ) = 4 M i t d i e s e n Z a h l e n fin d e n w i r d e n W e r t ρ X Y = 0 . 4 . R - 9 - 2 9 . 1 . 3 E i g e n s c h a f t e n D e r R a n g k o r r e l a t i o n s k o e ffi z i e n t i s t d i m e n s i o n s l o s , d a s i c h d i e D i m e n s i o n e n ( z . B . U S - D o l l a r ) h e r a u s k ü r z e n , u n d s y m m e t r i s c h b e z ü g l i c h X u n d Y . Z u d e m i s t e r i n v a r i a n t b e z ü g l i c h s t r e n g m o n o t o n w a c h s e n d e r T r a n s f o r m a t i o n e n . D . h . , w e r d e n d i e W e r t e v o n X u n d / o d e r Y s o t r a n s f o r m i e r t , d a s s d e r e n R ä n g e u n v e r ä n d e r t b l e i b e n , ä n d e r t s i c h d e r W e r t d e s R a n g k o r r e l a t i o n s k o e ffi z i e n t e n n i c h t . D e r R a n g k o r r e l a t i o n s k o e ffi z i e n t i s t n o r m i e r t a u f − 1 ≤ ρ X Y ≤ 1 . D i e s e r l e i c h t e r t d i e I n t e r p r e t a t i o n d e s n u m e r i s c h e n E r g e b n i s s e s . B e i e i n e m v o l l s t ä n d i g g l e i c h g e r i c h t e t e n m o n o t o n e n Z u s a m m e n h a n g g i l t ρ X Y = 1 . B e i e i n e m v o l l s t ä n d i g g e g e n l ä u fig e n m o n o t o n e n 9 9.1 Spearmans Rangkorrelationskoeffizient 157 9.1.2 Ein Rangkorrelationskoeffizient Sei nun ( X, Y ) eine zweidimensionale Variable, bei der X und Y ordinale Variablen sind. Dann kann man sowohl für X als auch für Y Ränge bilden: r x ( i ) und r y ( i ). Ihre Mittelwerte werden durch ¯r x bzw. ¯r y bezeichnet. Pearsons Korrelationskoeffizient angewendet auf diese Ränge liefert Spearmans Rangkorrelationskoeffizient ρ XY = 1 n ∑ n i =1 (r x ( i ) − ¯r x ) (r y ( i ) − ¯r y ) √ 1 n ∑ n i =1 (r x ( i ) − ¯r x ) 2 √ 1 n ∑ n i =1 (r y ( i ) − ¯r y ) 2 . Zur Illustration betrachten wir ein Zahlenbeispiel mit n = 4 Werten: R-9-1 X r x Y r y x 1 = 6 r x (1) = 3 y 1 = 2 r y (1) = 2 x 2 = 1 r x (2) = 1 y 2 = 1 r y (2) = 1 x 3 = 9 r x (3) = 4 y 3 = 4 r y (3) = 3 x 4 = 4 r x (4) = 2 y 4 = 6 r y (4) = 4 Mit diesen Zahlen finden wir den Wert ρ XY = 0 . 4. R-9-2 9.1.3 Eigenschaften Der Rangkorrelationskoeffizient ist dimensionslos , da sich die Dimensionen (z. B. Euro) herauskürzen, und symmetrisch bezüglich X und Y . Zudem ist er invariant bezüglich streng monoton wachsender Transformationen. D.h., werden die Werte von X und/ oder Y so transformiert, dass deren Ränge unverändert bleiben, ändert sich der Wert des Rangkorrelationskoeffizienten nicht. Der Rangkorrelationskoeffizient ist normiert auf − 1 ≤ ρ XY ≤ 1 . Dies erleichtert die Interpretation des numerischen Ergebnisses. Bei einem vollständig gleichgerichteten monotonen Zusammenhang gilt ρ XY = 1. Bei einem vollständig gegenläufigen monotonen 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 157 03.09.2019 13: 56: 20 <?page no="158"?> 158 9 Korrelation: Ordinale und nominale Variablen Zusammenhang gilt ρ XY = − 1. Bei Werten von 0 oder nahe 0 gibt es keinen bzw. nur einen sehr schwachen Zusammenhang. 9.1.4 Eine vereinfachte Rechenmethode Wenn keine Bindungen vorliegen, kann der Korrelationskoeffizient mit einer einfacheren Formel berechnet werden ρ XY = 1 − 6 ∑ n i =1 (r x ( i ) − r y ( i )) 2 n ( n 2 − 1) . Für das obige Zahlenbeispiel finden wir mit dieser Formel ρ XY = 1 − 6 · 6 4 (4 2 − 1) = 1 − 36 60 = 0 . 4 . Zu beachten ist, dass die vereinfachte Formel des Rangkorrelationskoeffizienten nicht verwendet werden darf, wenn Bindungen vorliegen. Als ein Beispiel, bei dem viele Bindungen vorliegen, betrachten wir den Zusammenhang zwischen monatlichen Arbeitsstunden und monatlichen Netto-Einkommen der n = 1 , 238 Personen in unserem ALLBUS-Datensatz (Westdeutschland). Wir wollen der Frage nachgehen, ob Personen, die mehr arbeiten, tendenziell ein höheres Einkommen erzielen. Anstelle der metrischen Angaben über Arbeitsstunden und Einkommen betrachten wir deren Ränge. 1 Für die Ränge finden wir eine Korrelation von ρ XY = 0 . 47. Es besteht also ein positiver, aber nicht sehr enger Zusammenhang zwischen den Rängen von Arbeitsstunden und Einkommenshöhe. 2 R-9-3 9.2 Zusammenhangsmaße für nominale Variablen In diesem Abschnitt besprechen wir ein Zusammenhangsmaß für eine zweidimensionale Variable ( X, Y ), bei der X und Y jeweils nominal skalierte Merkmale repräsentieren, d.h. die Merkmalswerte 1 Für die monatlichen Arbeitsstunden finden sich 68 und für das Einkommen 191 unterschiedliche Angaben. Es liegen somit viele Bindungen vor und die vereinfachte Rechenvorschrift für den Rangkorrelationskoeffizienten kann nicht verwendet werden. 2 Zwischen den metrischen Merkmalen Arbeitsstunden und Einkommenshöhe ist die Korrelation mit r XY = 0 . 385 aufgrund weniger sehr hoher Einkommen noch deutlich geringer. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 158 03.09.2019 13: 56: 21 <?page no="159"?> 9.1 Spearmans Rangkorrelationskoeffizient 151 9.1.2 Ein Rangkorrelationskoeffizient Sei nun ( X, Y ) eine zweidimensionale Variable, bei der X und Y ordinale Variablen sind. Dann kann man sowohl für X als auch für Y Ränge bilden: r x ( i ) und r y ( i ). Ihre Mittelwerte werden durch ¯r x bzw. ¯r y bezeichnet. Pearsons Korrelationskoeffizient angewendet auf diese Ränge liefert Spearmans Rangkorrelationskoeffizient ρ XY = 1 n ∑ n i =1 (r x ( i ) − ¯r x ) (r y ( i ) − ¯r y ) √ 1 n ∑ n i =1 (r x ( i ) − ¯r x ) 2 √ 1 n ∑ n i =1 (r y ( i ) − ¯r y ) 2 . Zur Illustration betrachten wir ein Zahlenbeispiel mit n = 4 Werten: R-9-1 X r x Y r y x 1 = 6 r x (1) = 3 y 1 = 2 r y (1) = 2 x 2 = 1 r x (2) = 1 y 2 = 1 r y (2) = 1 x 3 = 9 r x (3) = 4 y 3 = 4 r y (3) = 3 x 4 = 4 r x (4) = 2 y 4 = 6 r y (4) = 4 Mit diesen Zahlen finden wir den Wert ρ XY = 0 . 4. R-9-2 9.1.3 Eigenschaften Der Rangkorrelationskoeffizient ist dimensionslos , da sich die Dimensionen (z. B. US-Dollar) herauskürzen, und symmetrisch bezüglich X und Y . Zudem ist er invariant bezüglich streng monoton wachsender Transformationen. D.h., werden die Werte von X und/ oder Y so transformiert, dass deren Ränge unverändert bleiben, ändert sich der Wert des Rangkorrelationskoeffizienten nicht. Der Rangkorrelationskoeffizient ist normiert auf − 1 ≤ ρ XY ≤ 1 . Dies erleichtert die Interpretation des numerischen Ergebnisses. Bei einem vollständig gleichgerichteten monotonen Zusammenhang gilt ρ XY = 1. Bei einem vollständig gegenläufigen monotonen 9 9 . 1 S p e a r m a n s R a n g k o r r e l a t i o n s k o e ffi z i e n t 1 5 1 9 . 1 . 2 E i n R a n g k o r r e l a t i o n s k o e ffi z i e n t S e i n u n ( X , Y ) e i n e z w e i d i m e n s i o n a l e V a r i a b l e , b e i d e r X u n d Y o r d i n a l e V a r i a b l e n s i n d . D a n n k a n n m a n s o w o h l f ü r X a l s a u c h f ü r Y R ä n g e b i l d e n : r x ( i ) u n d r y ( i ) . I h r e M i t t e l w e r t e w e r d e n d u r c h ¯ r x b z w . ¯ r y b e z e i c h n e t . P e a r s o n s K o r r e l a t i o n s k o e ffi z i e n t a n g e w e n d e t a u f d i e s e R ä n g e l i e f e r t S p e a r m a n s R a n g k o r r e l a t i o n s k o e ffi z i e n t ρ X Y = 1 n ∑ n i = 1 ( r x ( i ) − ¯ r x ) ( r y ( i ) − ¯ r y ) √ 1 n ∑ n i = 1 ( r x ( i ) − ¯ r x ) 2 √ 1 n ∑ n i = 1 ( r y ( i ) − ¯ r y ) 2 . Z u r I l l u s t r a t i o n b e t r a c h t e n w i r e i n Z a h l e n b e i s p i e l m i t n = 4 W e r t e n : R - 9 - 1 X r x Y r y x 1 = 6 r x ( 1 ) = 3 y 1 = 2 r y ( 1 ) = 2 x 2 = 1 r x ( 2 ) = 1 y 2 = 1 r y ( 2 ) = 1 x 3 = 9 r x ( 3 ) = 4 y 3 = 4 r y ( 3 ) = 3 x 4 = 4 r x ( 4 ) = 2 y 4 = 6 r y ( 4 ) = 4 M i t d i e s e n Z a h l e n fin d e n w i r d e n W e r t ρ X Y = 0 . 4 . R - 9 - 2 9 . 1 . 3 E i g e n s c h a f t e n D e r R a n g k o r r e l a t i o n s k o e ffi z i e n t i s t d i m e n s i o n s l o s , d a s i c h d i e D i m e n s i o n e n ( z . B . U S - D o l l a r ) h e r a u s k ü r z e n , u n d s y m m e t r i s c h b e z ü g l i c h X u n d Y . Z u d e m i s t e r i n v a r i a n t b e z ü g l i c h s t r e n g m o n o t o n w a c h s e n d e r T r a n s f o r m a t i o n e n . D . h . , w e r d e n d i e W e r t e v o n X u n d / o d e r Y s o t r a n s f o r m i e r t , d a s s d e r e n R ä n g e u n v e r ä n d e r t b l e i b e n , ä n d e r t s i c h d e r W e r t d e s R a n g k o r r e l a t i o n s k o e ffi z i e n t e n n i c h t . D e r R a n g k o r r e l a t i o n s k o e ffi z i e n t i s t n o r m i e r t a u f − 1 ≤ ρ X Y ≤ 1 . D i e s e r l e i c h t e r t d i e I n t e r p r e t a t i o n d e s n u m e r i s c h e n E r g e b n i s s e s . B e i e i n e m v o l l s t ä n d i g g l e i c h g e r i c h t e t e n m o n o t o n e n Z u s a m m e n h a n g g i l t ρ X Y = 1 . B e i e i n e m v o l l s t ä n d i g g e g e n l ä u fig e n m o n o t o n e n 9 9.2 Zusammenhangsmaße für nominale Variablen 159 sind qualitativ unterschiedlich, und es gibt keine sinnvolle lineare Anordnung. Als Beispiel verwenden wir unseren ALLBUS Datensatz (Westdeutschland). X erfasst das Geschlecht (0 = männlich, 1 = weiblich), und Y erfasst den Beruf, den eine Person ausübt (1 = Führungskraft, 0 = andernfalls). Wir finden folgende Verteilung: Y = 0 Y = 1 Insg. X = 0 0.497 0.067 0.564 X = 1 0.425 0.011 0.436 Insg. 0.922 0.078 1.000 Ausgehend von dieser gemeinsamen Verteilung wollen wir nun der Frage nachgehen, ob zwischen den Werten von X und Y ein Zusammenhang besteht und wie die Stärke dieses Zusammenhangs quantifiziert werden kann. Man könnte vermuten, dass Frauen weniger häufig Führungspositionen innehaben als Männer. Die bedingten Häufigkeiten P ( Y = 1 | X = 1) = 0 . 025 und P ( Y = 1 | X = 0) = 0 . 119 weisen auf das Vorliegen eines Zusammenhangs hin. R-9-4 9.2.1 Empirische und hypothetische Häufigkeiten Wir betrachten die Maßzahl χ 2 , die den Zusammenhang zwischen zwei nominalen Merkmalen erfasst. Um eine allgemeine Notation zu erreichen, nehmen wir an, dass X die Werte ˜ x 1 , . . . , ˜ x J und Y die Werte ˜ y 1 , . . . , ˜ y K annehmen kann. Wir verwenden folgende Abkürzungen: f jk = P ( X = ˜ x j , Y = ˜ y k ) ist die Häufigkeit, mit der X = ˜ x j und Y = ˜ y k auftritt; die Häufigkeiten in den Randverteilungen werden durch f j. = P( X = ˜ x j ) = K ∑ k =1 f jk und f .k = P( Y = ˜ y k ) = J ∑ j =1 f jk bezeichnet. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 159 03.09.2019 13: 56: 21 <?page no="160"?> 160 9 Korrelation: Ordinale und nominale Variablen Die Maßzahl χ 2 beruht auf einem Vergleich der empirischen gemeinsamen Verteilung mit einer hypothetischen gemeinsamen Verteilung, die sich bei gegebenen Randhäufigkeiten und Unabhängigkeit ergeben würde. Diese hypothetischen Häufigkeiten werden durch f ∗ jk = f j · f · k definiert. Im allgemeinen Fall resultiert folgende gemeinsame hypothetische Verteilung bei Unabhängigkeit: X \ Y ˜ y 1 ˜ y 2 . . . ˜ y K ˜ x 1 f 1 · f · 1 f 1 · f · 2 . . . f 1 · f · K ˜ x 2 f 2 · f · 1 f 2 · f · 2 . . . f 2 · f · K ... ... ... ... ˜ x J f J · f · 1 f J · f · 2 . . . f J · f · K . Hiervon ausgehend wird χ 2 folgendemaßen definiert χ 2 = n J ∑ j =1 K ∑ k =1 ( f jk − f ∗ jk ) 2 f ∗ jk . Für unser empirisches Beispiel finden wir ausgehend von den oben angegebenen empirischen Randhäufigkeiten folgende hypothetische gemeinsame Verteilung: R-9-5 Y = 0 Y = 1 Insg. X = 0 0.520 0.044 0.564 X = 1 0.402 0.034 0.436 Insg. 0.922 0.078 1.000 Als numerischer Wert ergibt sich χ 2 = 1 , 238 ( (0 . 497 − 0 . 52) 2 0 . 52 + (0 . 067 − 0 . 044) 2 0 . 044 + (0 . 425 − 0 . 402) 2 0 . 402 + (0 . 011 − 0 . 034) 2 0 . 034 ) = 37 . 034 . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 160 03.09.2019 13: 56: 22 <?page no="161"?> 9.1 Spearmans Rangkorrelationskoeffizient 151 9.1.2 Ein Rangkorrelationskoeffizient Sei nun ( X, Y ) eine zweidimensionale Variable, bei der X und Y ordinale Variablen sind. Dann kann man sowohl für X als auch für Y Ränge bilden: r x ( i ) und r y ( i ). Ihre Mittelwerte werden durch ¯r x bzw. ¯r y bezeichnet. Pearsons Korrelationskoeffizient angewendet auf diese Ränge liefert Spearmans Rangkorrelationskoeffizient ρ XY = 1 n ∑ n i =1 (r x ( i ) − ¯r x ) (r y ( i ) − ¯r y ) √ 1 n ∑ n i =1 (r x ( i ) − ¯r x ) 2 √ 1 n ∑ n i =1 (r y ( i ) − ¯r y ) 2 . Zur Illustration betrachten wir ein Zahlenbeispiel mit n = 4 Werten: R-9-1 X r x Y r y x 1 = 6 r x (1) = 3 y 1 = 2 r y (1) = 2 x 2 = 1 r x (2) = 1 y 2 = 1 r y (2) = 1 x 3 = 9 r x (3) = 4 y 3 = 4 r y (3) = 3 x 4 = 4 r x (4) = 2 y 4 = 6 r y (4) = 4 Mit diesen Zahlen finden wir den Wert ρ XY = 0 . 4. R-9-2 9.1.3 Eigenschaften Der Rangkorrelationskoeffizient ist dimensionslos , da sich die Dimensionen (z. B. US-Dollar) herauskürzen, und symmetrisch bezüglich X und Y . Zudem ist er invariant bezüglich streng monoton wachsender Transformationen. D.h., werden die Werte von X und/ oder Y so transformiert, dass deren Ränge unverändert bleiben, ändert sich der Wert des Rangkorrelationskoeffizienten nicht. Der Rangkorrelationskoeffizient ist normiert auf − 1 ≤ ρ XY ≤ 1 . Dies erleichtert die Interpretation des numerischen Ergebnisses. Bei einem vollständig gleichgerichteten monotonen Zusammenhang gilt ρ XY = 1. Bei einem vollständig gegenläufigen monotonen 9 9 . 1 S p e a r m a n s R a n g k o r r e l a t i o n s k o e ffi z i e n t 1 5 1 9 . 1 . 2 E i n R a n g k o r r e l a t i o n s k o e ffi z i e n t S e i n u n ( X , Y ) e i n e z w e i d i m e n s i o n a l e V a r i a b l e , b e i d e r X u n d Y o r d i n a l e V a r i a b l e n s i n d . D a n n k a n n m a n s o w o h l f ü r X a l s a u c h f ü r Y R ä n g e b i l d e n : r x ( i ) u n d r y ( i ) . I h r e M i t t e l w e r t e w e r d e n d u r c h ¯ r x b z w . ¯ r y b e z e i c h n e t . P e a r s o n s K o r r e l a t i o n s k o e ffi z i e n t a n g e w e n d e t a u f d i e s e R ä n g e l i e f e r t S p e a r m a n s R a n g k o r r e l a t i o n s k o e ffi z i e n t ρ X Y = 1 n ∑ n i = 1 ( r x ( i ) − ¯ r x ) ( r y ( i ) − ¯ r y ) √ 1 n ∑ n i = 1 ( r x ( i ) − ¯ r x ) 2 √ 1 n ∑ n i = 1 ( r y ( i ) − ¯ r y ) 2 . Z u r I l l u s t r a t i o n b e t r a c h t e n w i r e i n Z a h l e n b e i s p i e l m i t n = 4 W e r t e n : R - 9 - 1 X r x Y r y x 1 = 6 r x ( 1 ) = 3 y 1 = 2 r y ( 1 ) = 2 x 2 = 1 r x ( 2 ) = 1 y 2 = 1 r y ( 2 ) = 1 x 3 = 9 r x ( 3 ) = 4 y 3 = 4 r y ( 3 ) = 3 x 4 = 4 r x ( 4 ) = 2 y 4 = 6 r y ( 4 ) = 4 M i t d i e s e n Z a h l e n fin d e n w i r d e n W e r t ρ X Y = 0 . 4 . R - 9 - 2 9 . 1 . 3 E i g e n s c h a f t e n D e r R a n g k o r r e l a t i o n s k o e ffi z i e n t i s t d i m e n s i o n s l o s , d a s i c h d i e D i m e n s i o n e n ( z . B . U S - D o l l a r ) h e r a u s k ü r z e n , u n d s y m m e t r i s c h b e z ü g l i c h X u n d Y . Z u d e m i s t e r i n v a r i a n t b e z ü g l i c h s t r e n g m o n o t o n w a c h s e n d e r T r a n s f o r m a t i o n e n . D . h . , w e r d e n d i e W e r t e v o n X u n d / o d e r Y s o t r a n s f o r m i e r t , d a s s d e r e n R ä n g e u n v e r ä n d e r t b l e i b e n , ä n d e r t s i c h d e r W e r t d e s R a n g k o r r e l a t i o n s k o e ffi z i e n t e n n i c h t . D e r R a n g k o r r e l a t i o n s k o e ffi z i e n t i s t n o r m i e r t a u f − 1 ≤ ρ X Y ≤ 1 . D i e s e r l e i c h t e r t d i e I n t e r p r e t a t i o n d e s n u m e r i s c h e n E r g e b n i s s e s . B e i e i n e m v o l l s t ä n d i g g l e i c h g e r i c h t e t e n m o n o t o n e n Z u s a m m e n h a n g g i l t ρ X Y = 1 . B e i e i n e m v o l l s t ä n d i g g e g e n l ä u fig e n m o n o t o n e n 9 9.2 Zusammenhangsmaße für nominale Variablen 161 Da die Maßzahl χ 2 nicht normiert ist, lässt sich dieser Wert allerdings kaum interpretieren. R-9-6 9.2.2 Kontingenzkoeffizient Deshalb wird oft der Kontingenzkoeffizient C = √ χ 2 χ 2 + n · min { J, K } min { J, K } − 1 verwendet, der aus einer Normierung von χ 2 resultiert. Für den Kontingenzkoeffizient gilt 0 ≤ C ≤ 1. C = 0 ist genau dann der Fall, wenn die empirischen Häufigkeiten f jk und die hypothetischen Häufigkeiten f ∗ jk gleich sind. Dies ist aber praktisch nie der Fall, und wenn n eine Primzahl ist, kann dieser Fall auch theoretisch nicht auftreten. Sehr kleine Werte von C deuten auf einen sehr schwachen Zusammenhang von X und Y hin. Der Fall C = 1 tritt dann auf, wenn X und Y vollständig zusammenhängen. Für unser Beispiel finden wir C = √ χ 2 χ 2 + n · min { J, K } min { J, K } − 1 = √ 37 . 034 37 . 034 + 1238 · min { 2 , 2 } min { 2 , 2 } − 1 = √ 0 . 029 · 2 = 0 . 241 . Es besteht demnach ein mittelstarker Zusammenhang zwischen Geschlecht und Führungspositionen. R-9-7 Betrachten wir abschließend eine fiktive Situation, in der bei gegebenen Randhäufigkeiten alle Personen in Führungspositionen Männer sind. Dann würde folgende gemeinsame Verteilung resultieren: Y = 0 Y = 1 Insg. X = 0 0.486 0.078 0.564 X = 1 0.436 0.000 0.436 Insg. 0.922 0.078 1.000 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 161 03.09.2019 13: 56: 22 <?page no="162"?> 162 9 Korrelation: Ordinale und nominale Variablen In diesem Fall würde der Kontingenzkoeffizient den Wert C = 0 . 35 annehmen. Die sehr ungleichen Anteile von Personen in Führungspositionen und in anderen Tätigkeiten führen dazu, dass auch bei dem vorliegenden maximal starken Zusammenhang, gegeben die empirischen Randhäufigkeiten, die Maßzahl C deutlich unter dem Wert 1 liegt. R-9-8 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 162 03.09.2019 13: 56: 23 <?page no="163"?> 9.1 Spearmans Rangkorrelationskoeffizient 151 9.1.2 Ein Rangkorrelationskoeffizient Sei nun ( X, Y ) eine zweidimensionale Variable, bei der X und Y ordinale Variablen sind. Dann kann man sowohl für X als auch für Y Ränge bilden: r x ( i ) und r y ( i ). Ihre Mittelwerte werden durch ¯r x bzw. ¯r y bezeichnet. Pearsons Korrelationskoeffizient angewendet auf diese Ränge liefert Spearmans Rangkorrelationskoeffizient ρ XY = 1 n ∑ n i =1 (r x ( i ) − ¯r x ) (r y ( i ) − ¯r y ) √ 1 n ∑ n i =1 (r x ( i ) − ¯r x ) 2 √ 1 n ∑ n i =1 (r y ( i ) − ¯r y ) 2 . Zur Illustration betrachten wir ein Zahlenbeispiel mit n = 4 Werten: R-9-1 X r x Y r y x 1 = 6 r x (1) = 3 y 1 = 2 r y (1) = 2 x 2 = 1 r x (2) = 1 y 2 = 1 r y (2) = 1 x 3 = 9 r x (3) = 4 y 3 = 4 r y (3) = 3 x 4 = 4 r x (4) = 2 y 4 = 6 r y (4) = 4 Mit diesen Zahlen finden wir den Wert ρ XY = 0 . 4. R-9-2 9.1.3 Eigenschaften Der Rangkorrelationskoeffizient ist dimensionslos , da sich die Dimensionen (z. B. US-Dollar) herauskürzen, und symmetrisch bezüglich X und Y . Zudem ist er invariant bezüglich streng monoton wachsender Transformationen. D.h., werden die Werte von X und/ oder Y so transformiert, dass deren Ränge unverändert bleiben, ändert sich der Wert des Rangkorrelationskoeffizienten nicht. Der Rangkorrelationskoeffizient ist normiert auf − 1 ≤ ρ XY ≤ 1 . Dies erleichtert die Interpretation des numerischen Ergebnisses. Bei einem vollständig gleichgerichteten monotonen Zusammenhang gilt ρ XY = 1. Bei einem vollständig gegenläufigen monotonen 9 9 . 1 S p e a r m a n s R a n g k o r r e l a t i o n s k o e ffi z i e n t 1 5 1 9 . 1 . 2 E i n R a n g k o r r e l a t i o n s k o e ffi z i e n t S e i n u n ( X , Y ) e i n e z w e i d i m e n s i o n a l e V a r i a b l e , b e i d e r X u n d Y o r d i n a l e V a r i a b l e n s i n d . D a n n k a n n m a n s o w o h l f ü r X a l s a u c h f ü r Y R ä n g e b i l d e n : r x ( i ) u n d r y ( i ) . I h r e M i t t e l w e r t e w e r d e n d u r c h ¯ r x b z w . ¯ r y b e z e i c h n e t . P e a r s o n s K o r r e l a t i o n s k o e ffi z i e n t a n g e w e n d e t a u f d i e s e R ä n g e l i e f e r t S p e a r m a n s R a n g k o r r e l a t i o n s k o e ffi z i e n t ρ X Y = 1 n ∑ n i = 1 ( r x ( i ) − ¯ r x ) ( r y ( i ) − ¯ r y ) √ 1 n ∑ n i = 1 ( r x ( i ) − ¯ r x ) 2 √ 1 n ∑ n i = 1 ( r y ( i ) − ¯ r y ) 2 . Z u r I l l u s t r a t i o n b e t r a c h t e n w i r e i n Z a h l e n b e i s p i e l m i t n = 4 W e r t e n : R - 9 - 1 X r x Y r y x 1 = 6 r x ( 1 ) = 3 y 1 = 2 r y ( 1 ) = 2 x 2 = 1 r x ( 2 ) = 1 y 2 = 1 r y ( 2 ) = 1 x 3 = 9 r x ( 3 ) = 4 y 3 = 4 r y ( 3 ) = 3 x 4 = 4 r x ( 4 ) = 2 y 4 = 6 r y ( 4 ) = 4 M i t d i e s e n Z a h l e n fin d e n w i r d e n W e r t ρ X Y = 0 . 4 . R - 9 - 2 9 . 1 . 3 E i g e n s c h a f t e n D e r R a n g k o r r e l a t i o n s k o e ffi z i e n t i s t d i m e n s i o n s l o s , d a s i c h d i e D i m e n s i o n e n ( z . B . U S - D o l l a r ) h e r a u s k ü r z e n , u n d s y m m e t r i s c h b e z ü g l i c h X u n d Y . Z u d e m i s t e r i n v a r i a n t b e z ü g l i c h s t r e n g m o n o t o n w a c h s e n d e r T r a n s f o r m a t i o n e n . D . h . , w e r d e n d i e W e r t e v o n X u n d / o d e r Y s o t r a n s f o r m i e r t , d a s s d e r e n R ä n g e u n v e r ä n d e r t b l e i b e n , ä n d e r t s i c h d e r W e r t d e s R a n g k o r r e l a t i o n s k o e ffi z i e n t e n n i c h t . D e r R a n g k o r r e l a t i o n s k o e ffi z i e n t i s t n o r m i e r t a u f − 1 ≤ ρ X Y ≤ 1 . D i e s e r l e i c h t e r t d i e I n t e r p r e t a t i o n d e s n u m e r i s c h e n E r g e b n i s s e s . B e i e i n e m v o l l s t ä n d i g g l e i c h g e r i c h t e t e n m o n o t o n e n Z u s a m m e n h a n g g i l t ρ X Y = 1 . B e i e i n e m v o l l s t ä n d i g g e g e n l ä u fig e n m o n o t o n e n 9 9.3 Aufgaben 163 9.3 Aufgaben 1. Sie befragen fünf Personen nach ihrem Einkommen in zwei Jahren (1 und 2) und erhalten folgende Tabelle mit Rängen: i 1.Jahr (r x ( i )) 2. Jahr (r y ( i )) 1 2 2 2 1 1 3 3 4 4 5 5 5 4 3 a) Berechnen Sie den linearen Korrelationskoeffizienten der Ränge vom 1. und 2. Jahr. b) Ermitteln Sie den Korrelationskoeffizienten auch nach folgender Formel: ρ XY = 1 − 6 ∑ n i =1 (r x ( i ) − r y ( i )) 2 n ( n 2 − 1) c) Wenn Ihnen sowohl die Einkommen selbst als auch die Ränge der Einkommen vorlägen, welchen Korrelationskoeffizienten würden Sie dann wählen? Begründen Sie ihre Wahl. 2. Die nachfolgende Tabelle enthält die Ränge der Variablen X und Y für vier Beobachtungen. i r x r y 1 2 4 2 1 2 3 3.5 1 4 3.5 3 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 163 03.09.2019 13: 56: 23 <?page no="164"?> 164 9 Korrelation: Ordinale und nominale Variablen (a) Berechnen Sie die Rangkorrelation. (b) Können Sie hier auch die vereinfachte Formel des Rangkorrelationskoeffizienten anwenden? 3. Gehen Sie von folgender empirischer Vierfeldertafel für die Variablen X (Geschlecht, 0 = männlich, 1 = weiblich) und Y (Lohnklasse, unterdurchschnittlicher Stundenlohn: Y = 0, überdurchschnittlicher Stundenlohn Y = 1) aus. Y = 0 Y = 1 Insg. X = 0 0.306 0.258 0.564 X = 1 0.311 0.125 0.436 Insg. 0.617 0.383 1.000 a) Wie viel Prozent der Frauen und wie viel Prozent der Männer haben einen überdurchschnittlichen Lohn? b) Wie hoch ist der Anteil der Frauen an den Personen mit überdurchschnittlichem Lohn, wie hoch an den Personen mit unterdurchschnittlichem Lohn? c) Ermitteln Sie die Tabelle bei hypothetischer Unabhängigkeit. d) Berechnen Sie χ 2 . e) Da χ 2 nicht normiert ist, lässt sich ausgehend von dem χ 2 - Wert nur schwer auf die Abhängigkeit schließen. Berechnen Sie den Kontingenzkoeffizienten als normiertes Maß der Abhängigkeit und beurteilen Sie die Stärke der Abhängigkeit. f) Für welchen Fall ergäbe sich ein Kontingenzkoeffizient von 0 und was ließe sich dann über die beiden Tabellen der tatsächlichen und hypothetischen Besetzungszahlen sagen? 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 164 03.09.2019 13: 56: 24 <?page no="165"?> 9.1 Spearmans Rangkorrelationskoeffizient 151 9.1.2 Ein Rangkorrelationskoeffizient Sei nun ( X, Y ) eine zweidimensionale Variable, bei der X und Y ordinale Variablen sind. Dann kann man sowohl für X als auch für Y Ränge bilden: r x ( i ) und r y ( i ). Ihre Mittelwerte werden durch ¯r x bzw. ¯r y bezeichnet. Pearsons Korrelationskoeffizient angewendet auf diese Ränge liefert Spearmans Rangkorrelationskoeffizient ρ XY = 1 n ∑ n i =1 (r x ( i ) − ¯r x ) (r y ( i ) − ¯r y ) √ 1 n ∑ n i =1 (r x ( i ) − ¯r x ) 2 √ 1 n ∑ n i =1 (r y ( i ) − ¯r y ) 2 . Zur Illustration betrachten wir ein Zahlenbeispiel mit n = 4 Werten: R-9-1 X r x Y r y x 1 = 6 r x (1) = 3 y 1 = 2 r y (1) = 2 x 2 = 1 r x (2) = 1 y 2 = 1 r y (2) = 1 x 3 = 9 r x (3) = 4 y 3 = 4 r y (3) = 3 x 4 = 4 r x (4) = 2 y 4 = 6 r y (4) = 4 Mit diesen Zahlen finden wir den Wert ρ XY = 0 . 4. R-9-2 9.1.3 Eigenschaften Der Rangkorrelationskoeffizient ist dimensionslos , da sich die Dimensionen (z. B. US-Dollar) herauskürzen, und symmetrisch bezüglich X und Y . Zudem ist er invariant bezüglich streng monoton wachsender Transformationen. D.h., werden die Werte von X und/ oder Y so transformiert, dass deren Ränge unverändert bleiben, ändert sich der Wert des Rangkorrelationskoeffizienten nicht. Der Rangkorrelationskoeffizient ist normiert auf − 1 ≤ ρ XY ≤ 1 . Dies erleichtert die Interpretation des numerischen Ergebnisses. Bei einem vollständig gleichgerichteten monotonen Zusammenhang gilt ρ XY = 1. Bei einem vollständig gegenläufigen monotonen 9 9 . 1 S p e a r m a n s R a n g k o r r e l a t i o n s k o e ffi z i e n t 1 5 1 9 . 1 . 2 E i n R a n g k o r r e l a t i o n s k o e ffi z i e n t S e i n u n ( X , Y ) e i n e z w e i d i m e n s i o n a l e V a r i a b l e , b e i d e r X u n d Y o r d i n a l e V a r i a b l e n s i n d . D a n n k a n n m a n s o w o h l f ü r X a l s a u c h f ü r Y R ä n g e b i l d e n : r x ( i ) u n d r y ( i ) . I h r e M i t t e l w e r t e w e r d e n d u r c h ¯ r x b z w . ¯ r y b e z e i c h n e t . P e a r s o n s K o r r e l a t i o n s k o e ffi z i e n t a n g e w e n d e t a u f d i e s e R ä n g e l i e f e r t S p e a r m a n s R a n g k o r r e l a t i o n s k o e ffi z i e n t ρ X Y = 1 n ∑ n i = 1 ( r x ( i ) − ¯ r x ) ( r y ( i ) − ¯ r y ) √ 1 n ∑ n i = 1 ( r x ( i ) − ¯ r x ) 2 √ 1 n ∑ n i = 1 ( r y ( i ) − ¯ r y ) 2 . Z u r I l l u s t r a t i o n b e t r a c h t e n w i r e i n Z a h l e n b e i s p i e l m i t n = 4 W e r t e n : R - 9 - 1 X r x Y r y x 1 = 6 r x ( 1 ) = 3 y 1 = 2 r y ( 1 ) = 2 x 2 = 1 r x ( 2 ) = 1 y 2 = 1 r y ( 2 ) = 1 x 3 = 9 r x ( 3 ) = 4 y 3 = 4 r y ( 3 ) = 3 x 4 = 4 r x ( 4 ) = 2 y 4 = 6 r y ( 4 ) = 4 M i t d i e s e n Z a h l e n fin d e n w i r d e n W e r t ρ X Y = 0 . 4 . R - 9 - 2 9 . 1 . 3 E i g e n s c h a f t e n D e r R a n g k o r r e l a t i o n s k o e ffi z i e n t i s t d i m e n s i o n s l o s , d a s i c h d i e D i m e n s i o n e n ( z . B . U S - D o l l a r ) h e r a u s k ü r z e n , u n d s y m m e t r i s c h b e z ü g l i c h X u n d Y . Z u d e m i s t e r i n v a r i a n t b e z ü g l i c h s t r e n g m o n o t o n w a c h s e n d e r T r a n s f o r m a t i o n e n . D . h . , w e r d e n d i e W e r t e v o n X u n d / o d e r Y s o t r a n s f o r m i e r t , d a s s d e r e n R ä n g e u n v e r ä n d e r t b l e i b e n , ä n d e r t s i c h d e r W e r t d e s R a n g k o r r e l a t i o n s k o e ffi z i e n t e n n i c h t . D e r R a n g k o r r e l a t i o n s k o e ffi z i e n t i s t n o r m i e r t a u f − 1 ≤ ρ X Y ≤ 1 . D i e s e r l e i c h t e r t d i e I n t e r p r e t a t i o n d e s n u m e r i s c h e n E r g e b n i s s e s . B e i e i n e m v o l l s t ä n d i g g l e i c h g e r i c h t e t e n m o n o t o n e n Z u s a m m e n h a n g g i l t ρ X Y = 1 . B e i e i n e m v o l l s t ä n d i g g e g e n l ä u fig e n m o n o t o n e n 9 9.4 R-Code 165 9.4 R-Code R-9-1 # Daten generieren x <c(6,1,9,4) y <c(2,1,4,6) # Ränge berechnen rx <rank(x) rx ry <rank(y) ry R-9-2 # benötigte Variablen mrx <mean(rx) mrx srx2 <sum(rx^2) srx2 n <length(rx) # wegen Symmetrie: mrx = mry, srx2 = sry2 # Rangkorrelationskoeffizient (1/ n * sum(rx*ry) mrx*mrx) / (sqrt(((1/ n * srx2) mrx^2)) * sqrt(((1/ n * srx2) mrx^2))) # alternativ cor(rx, ry) R-9-3 ## Daten einlesen d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) d <d[d$ostwest==0,] # Vektor der Einkommen erstellen e <as.numeric(d$einkommen) # Arbeitsstunden im Monat h <as.numeric(d$stunden) # Bindungen length(unique(h)) length(unique(e)) # Rangkorrelationskoeffizient cor(rank(e), rank(h)) # Korrelation cor(e, h) 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 165 03.09.2019 13: 56: 25 <?page no="166"?> 166 9 Korrelation: Ordinale und nominale Variablen R-9-4 # Variablen erstellen X <d$geschl Y <as.numeric(d$beruf) == 1 # Anzahl an Beobachtungen n <nrow(d) # Kontingenztabelle tab.rel <table(X,Y) / n # Randverteilung tab <addmargins(A = tab.rel) tab ## bedingte Häufigkeiten # (Y=1|X=1) = tab[2,2] / tab[2,3] # (Y=1|X=0) = tab[1,2] / tab[1,3] R-9-5 # hypothetische gemeinsame Verteilung tab.hyp <tab[1: 2,3] %*% t(tab[3,1: 2]) addmargins(A = tab.hyp) R-9-6 # Variablen erstellen f.emp <as.vector(tab[1: 2, 1: 2]) f.emp f.hyp <as.vector(tab.hyp[1: 2, 1: 2]) f.hyp n <nrow(d) # Damit finden wir (Beachte: Rundungsdifferenzen) c2 <n * sum((f.emp-f.hyp)^2 / f.hyp) c2 R-9-7 ## Anzahl möglicher Ausprägungen n.x <length(unique(X)) n.x # Geschlecht: m/ w n.y <length(unique(Y)) n.y # Beruf 1: TRUE/ FASE # Kontingenzkoeffizient sqrt( (c2 / (c2 + n)) * (min(n.x, n.y) / (min(n.x, n.y) - 1)) ) 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 166 03.09.2019 13: 56: 25 <?page no="167"?> 9.1 Spearmans Rangkorrelationskoeffizient 151 9.1.2 Ein Rangkorrelationskoeffizient Sei nun ( X, Y ) eine zweidimensionale Variable, bei der X und Y ordinale Variablen sind. Dann kann man sowohl für X als auch für Y Ränge bilden: r x ( i ) und r y ( i ). Ihre Mittelwerte werden durch ¯r x bzw. ¯r y bezeichnet. Pearsons Korrelationskoeffizient angewendet auf diese Ränge liefert Spearmans Rangkorrelationskoeffizient ρ XY = 1 n ∑ n i =1 (r x ( i ) − ¯r x ) (r y ( i ) − ¯r y ) √ 1 n ∑ n i =1 (r x ( i ) − ¯r x ) 2 √ 1 n ∑ n i =1 (r y ( i ) − ¯r y ) 2 . Zur Illustration betrachten wir ein Zahlenbeispiel mit n = 4 Werten: R-9-1 X r x Y r y x 1 = 6 r x (1) = 3 y 1 = 2 r y (1) = 2 x 2 = 1 r x (2) = 1 y 2 = 1 r y (2) = 1 x 3 = 9 r x (3) = 4 y 3 = 4 r y (3) = 3 x 4 = 4 r x (4) = 2 y 4 = 6 r y (4) = 4 Mit diesen Zahlen finden wir den Wert ρ XY = 0 . 4. R-9-2 9.1.3 Eigenschaften Der Rangkorrelationskoeffizient ist dimensionslos , da sich die Dimensionen (z. B. US-Dollar) herauskürzen, und symmetrisch bezüglich X und Y . Zudem ist er invariant bezüglich streng monoton wachsender Transformationen. D.h., werden die Werte von X und/ oder Y so transformiert, dass deren Ränge unverändert bleiben, ändert sich der Wert des Rangkorrelationskoeffizienten nicht. Der Rangkorrelationskoeffizient ist normiert auf − 1 ≤ ρ XY ≤ 1 . Dies erleichtert die Interpretation des numerischen Ergebnisses. Bei einem vollständig gleichgerichteten monotonen Zusammenhang gilt ρ XY = 1. Bei einem vollständig gegenläufigen monotonen 9 9 . 1 S p e a r m a n s R a n g k o r r e l a t i o n s k o e ffi z i e n t 1 5 1 9 . 1 . 2 E i n R a n g k o r r e l a t i o n s k o e ffi z i e n t S e i n u n ( X , Y ) e i n e z w e i d i m e n s i o n a l e V a r i a b l e , b e i d e r X u n d Y o r d i n a l e V a r i a b l e n s i n d . D a n n k a n n m a n s o w o h l f ü r X a l s a u c h f ü r Y R ä n g e b i l d e n : r x ( i ) u n d r y ( i ) . I h r e M i t t e l w e r t e w e r d e n d u r c h ¯ r x b z w . ¯ r y b e z e i c h n e t . P e a r s o n s K o r r e l a t i o n s k o e ffi z i e n t a n g e w e n d e t a u f d i e s e R ä n g e l i e f e r t S p e a r m a n s R a n g k o r r e l a t i o n s k o e ffi z i e n t ρ X Y = 1 n ∑ n i = 1 ( r x ( i ) − ¯ r x ) ( r y ( i ) − ¯ r y ) √ 1 n ∑ n i = 1 ( r x ( i ) − ¯ r x ) 2 √ 1 n ∑ n i = 1 ( r y ( i ) − ¯ r y ) 2 . Z u r I l l u s t r a t i o n b e t r a c h t e n w i r e i n Z a h l e n b e i s p i e l m i t n = 4 W e r t e n : R - 9 - 1 X r x Y r y x 1 = 6 r x ( 1 ) = 3 y 1 = 2 r y ( 1 ) = 2 x 2 = 1 r x ( 2 ) = 1 y 2 = 1 r y ( 2 ) = 1 x 3 = 9 r x ( 3 ) = 4 y 3 = 4 r y ( 3 ) = 3 x 4 = 4 r x ( 4 ) = 2 y 4 = 6 r y ( 4 ) = 4 M i t d i e s e n Z a h l e n fin d e n w i r d e n W e r t ρ X Y = 0 . 4 . R - 9 - 2 9 . 1 . 3 E i g e n s c h a f t e n D e r R a n g k o r r e l a t i o n s k o e ffi z i e n t i s t d i m e n s i o n s l o s , d a s i c h d i e D i m e n s i o n e n ( z . B . U S - D o l l a r ) h e r a u s k ü r z e n , u n d s y m m e t r i s c h b e z ü g l i c h X u n d Y . Z u d e m i s t e r i n v a r i a n t b e z ü g l i c h s t r e n g m o n o t o n w a c h s e n d e r T r a n s f o r m a t i o n e n . D . h . , w e r d e n d i e W e r t e v o n X u n d / o d e r Y s o t r a n s f o r m i e r t , d a s s d e r e n R ä n g e u n v e r ä n d e r t b l e i b e n , ä n d e r t s i c h d e r W e r t d e s R a n g k o r r e l a t i o n s k o e ffi z i e n t e n n i c h t . D e r R a n g k o r r e l a t i o n s k o e ffi z i e n t i s t n o r m i e r t a u f − 1 ≤ ρ X Y ≤ 1 . D i e s e r l e i c h t e r t d i e I n t e r p r e t a t i o n d e s n u m e r i s c h e n E r g e b n i s s e s . B e i e i n e m v o l l s t ä n d i g g l e i c h g e r i c h t e t e n m o n o t o n e n Z u s a m m e n h a n g g i l t ρ X Y = 1 . B e i e i n e m v o l l s t ä n d i g g e g e n l ä u fig e n m o n o t o n e n 9 9.4 R-Code 167 R-9-8 # Ausgangspunkt: Empirisches Beispiel tab.fiktiv <tab # fiktives Beispiel erzeugen tab.fiktiv[1: 2,1: 2] <matrix( data = c(0.564-0.078,0.922-0.486,0.078,0),ncol = 2) tab.fiktiv f.fiktiv <as.vector(tab.fiktiv[1: 2, 1: 2]) # C2 c2.neu <n * sum((f.fiktiv-f.hyp)^2 / f.hyp) # Kontingenzkoeffizient sqrt( (c2.neu / (c2.neu + n)) * (min(n.x, n.y) / (min(n.x, n.y) - 1)) ) 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 167 03.09.2019 13: 56: 26 <?page no="168"?> 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 168 03.09.2019 13: 56: 26 <?page no="169"?> 10 Einfache Regressionsrechnung In diesem Kapitel besprechen wir die Regressionsrechnung, wobei wir uns auf eine lineare Regression mit nur einer erklärenden und einer abhängigen Variablen beschränken. Zur Berechnung verwenden wir die Methode der kleinsten Quadrate, die in der empirischen Wirtschaftsforschung sehr oft verwendet wird. 10.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 162 10.2 Methode der kleinsten Quadrate . . . . . . . . . . . . . . 162 10.2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . 163 10.2.2 Berechnung der Parameter . . . . . . . . . . . . . 163 10.2.3 Achsentransformation . . . . . . . . . . . . . . . . 166 10.2.4 Varianzzerlegung und Bestimmtheitsmaß . . . . . . 166 10.2.5 Ausbildungsjahre und Stundenlöhne . . . . . . . . . 168 10.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 170 10.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 10 1 0 1 0 10 Einfache Regressionsrechnung In diesem Kapitel besprechen wir die Regressionsrechnung, wobei wir uns auf eine lineare Regression mit nur einer erklärenden und einer abhängigen Variablen beschränken. Zur Berechnung verwenden wir die Methode der kleinsten Quadrate, die in der empirischen Wirtschaftsforschung sehr oft verwendet wird. 10.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 170 10.2 Methode der kleinsten Quadrate . . . . . . . . . . . . . . 171 10.2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . 171 10.2.2 Berechnung der Parameter . . . . . . . . . . . . . 172 10.2.3 Achsentransformation . . . . . . . . . . . . . . . . 174 10.2.4 Varianzzerlegung und Bestimmtheitsmaß . . . . . . 175 10.2.5 Ausbildungsjahre und Stundenlöhne . . . . . . . . . 176 10.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 178 10.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 169 03.09.2019 13: 56: 26 <?page no="170"?> 170 10 Einfache Regressionsrechnung 10.1 Einleitung Fragen nach Zusammenhängen zwischen statistischen Variablen stehen in den Wirtschaftswissenschaften im Zentrum des Interesses. Ausgangspunkt sind die gemeinsame Verteilung von zwei (oder mehr) Variablen und die daraus resultierenden bedingten Verteilungen. Allerdings lässt sich die gemeinsame Verteilung von zwei metrischen Variablen, insbesondere bei vielen vorkommenden Merkmalsausprägungen, nur schwierig beschreiben. Die lineare Regression stellt eine sehr oft verwendete Methode dar, um zu beschreiben, wie die bedingte Verteilung einer Variablen von Werten anderer Variablen abhängt. Ausgangspunkt sind die Werte ( x i , y i ) einer zweidimensionalen Variablen ( X, Y ) für n Einheiten ( i = 1 , . . . , n ). Wir betrachten Y als abhängige Variable und X als eine Variable, von deren Werten die Verteilung von Y abhängt. Die Grundidee besteht darin, für jeden Wert y i einen durch x i berechenbaren Näherungswert ˆ y i zu finden. Bei der linearen Regression geschieht dies mit Hilfe einer linearen Funktion f ( x ) = α + β x, α und β sind Parameter, für die mit Hilfe der Daten bestimmte numerische Werte, die wir durch ˆ α und ˆ β bezeichnen, gefunden werden müssen. Dann kann man Näherungswerte ˆ y i = ˆ f ( x i ) = ˆ α + ˆ β x i berechnen. Zu überlegen ist, wie optimale Parameter definiert werden können, denn grundsätzlich kann man für α und β beliebige Zahlenwerte verwenden. Das wird in Abbildung 10.1 mit n = 4 Werten illustriert. Je nachdem, welche Werte man für α und β einsetzt, entsteht eine unterschiedliche lineare Funktion (Regressionsgerade). Bezeichnen wir mit u i die Abweichung der beobachteten Werte y i von den linearen Funktionswerten f ( x i ), dann wird in Abbildung 10.1 ebenfalls deutlich, dass je nach Wahl der Parameter α und β unterschiedliche Werte u i = y i − f ( x i ) resultieren. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 170 03.09.2019 13: 56: 27 <?page no="171"?> 10 Einfache Regressionsrechnung In diesem Kapitel besprechen wir die Regressionsrechnung, wobei wir uns auf eine lineare Regression mit nur einer erklärenden und einer abhängigen Variablen beschränken. Zur Berechnung verwenden wir die Methode der kleinsten Quadrate, die in der empirischen Wirtschaftsforschung sehr oft verwendet wird. 10.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 162 10.2 Methode der kleinsten Quadrate . . . . . . . . . . . . . . 162 10.2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . 163 10.2.2 Berechnung der Parameter . . . . . . . . . . . . . 163 10.2.3 Achsentransformation . . . . . . . . . . . . . . . . 166 10.2.4 Varianzzerlegung und Bestimmtheitsmaß . . . . . . 166 10.2.5 Ausbildungsjahre und Stundenlöhne . . . . . . . . . 168 10.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 170 10.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 10 1 0 1 0 10.2 Methode der kleinsten Quadrate 171 0 2 4 6 8 10 0 2 4 6 8 x y Abbildung 10.1: Auswahl an möglichen Ausgleichsgeraden. 10.2 Methode der kleinsten Quadrate Zur Berechnung bestimmter Parameter ˆ α und ˆ β wird sehr oft die Methode der kleinsten Quadrate verwendet, die wir in diesem Abschnitt besprechen. 10.2.1 Grundlagen Das Ziel besteht darin, dass die durch ˆ α und ˆ β bestimmte Regressionsgerade möglichst gut in das Streuungsdiagramm der ( x i , y i )- Werte passt. Man bezieht sich dafür auf die Abweichungen u i = y i − f ( x i ) = y i − ( α + β x i ) . Bei der Methode der kleinsten Quadrate, die auf Carl Friedrich Gauß (1777-1855) zurückgeht, wird gefordert, dass die Summe der quadrierten Abweichungen , also ∑ n i =1 u 2 i , möglichst klein sein soll. In Abbildung 10.2 wird dies durch die eingezeichneten Quadrate veranschaulicht. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 171 03.09.2019 13: 56: 28 <?page no="172"?> 172 10 Einfache Regressionsrechnung -2 0 2 4 6 8 10 12 0 2 4 6 8 x y Abbildung 10.2: Intuition: Methode der kleinsten Quadrate. 10.2.2 Berechnung der Parameter Wir betrachten die Funktion Q ( α, β ) = n ∑ i =1 ( y i − α − β x i ) 2 , die zeigt, wie die Summe der quadrierten Abweichungen von den Parametern abhängt. Die optimalen Parameter sind diejenigen, die diese Funktion möglichst klein machen. Um das Minimum dieser Funktion zu finden, müssen zunächst die partiellen Ableitungen gebildet werden. Man findet: ∂Q ( α, β ) ∂α = 2 n ∑ i =1 ( y i − α − βx i )( − 1) und ∂Q ( α, β ) ∂β = 2 n ∑ i =1 ( y i − α − βx i )( − x i ) . Parameterwerte für das Minimum findet man aus den Nullstellen der Ableitungen. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 172 03.09.2019 13: 56: 29 <?page no="173"?> 10 Einfache Regressionsrechnung In diesem Kapitel besprechen wir die Regressionsrechnung, wobei wir uns auf eine lineare Regression mit nur einer erklärenden und einer abhängigen Variablen beschränken. Zur Berechnung verwenden wir die Methode der kleinsten Quadrate, die in der empirischen Wirtschaftsforschung sehr oft verwendet wird. 10.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 162 10.2 Methode der kleinsten Quadrate . . . . . . . . . . . . . . 162 10.2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . 163 10.2.2 Berechnung der Parameter . . . . . . . . . . . . . 163 10.2.3 Achsentransformation . . . . . . . . . . . . . . . . 166 10.2.4 Varianzzerlegung und Bestimmtheitsmaß . . . . . . 166 10.2.5 Ausbildungsjahre und Stundenlöhne . . . . . . . . . 168 10.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 170 10.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 10 1 0 E i n f a c h e R e g r e s s i o n s r e c h n u n g I n d i e s e m K a p i t e l b e s p r e c h e n w i r d i e R e g r e s s i o n s r e c h n u n g , w o b e i w i r u n s a u f e i n e l i n e a r e R e g r e s s i o n m i t n u r e i n e r e r k l ä r e n d e n u n d e i n e r a b h ä n g i g e n V a r i a b l e n b e s c h r ä n k e n . Z u r B e r e c h n u n g v e r w e n d e n w i r d i e M e t h o d e d e r k l e i n s t e n Q u a d r a t e , d i e i n d e r e m p i r i s c h e n W i r t s c h a f t s f o r s c h u n g s e h r o f t v e r w e n d e t w i r d . 1 0 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 6 2 1 0 . 2 M e t h o d e d e r k l e i n s t e n Q u a d r a t e . . . . . . . . . . . . . . 1 6 2 1 0 . 2 . 1 G r u n d l a g e n . . . . . . . . . . . . . . . . . . . . . 1 6 3 1 0 . 2 . 2 B e r e c h n u n g d e r P a r a m e t e r . . . . . . . . . . . . . 1 6 3 1 0 . 2 . 3 A c h s e n t r a n s f o r m a t i o n . . . . . . . . . . . . . . . . 1 6 6 1 0 . 2 . 4 V a r i a n z z e r l e g u n g u n d B e s t i m m t h e i t s m a ß . . . . . . 1 6 6 1 0 . 2 . 5 A u s b i l d u n g s j a h r e u n d S t u n d e n l ö h n e . . . . . . . . . 1 6 8 1 0 . 3 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 1 7 0 1 0 . 4 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 7 3 1 0 1 0 E i n f a c h e R e g r e s s i o n s r e c h n u n g I n d i e s e m K a p i t e l b e s p r e c h e n w i r d i e R e g r e s s i o n s r e c h n u n g , w o b e i w i r u n s a u f e i n e l i n e a r e R e g r e s s i o n m i t n u r e i n e r e r k l ä r e n d e n u n d e i n e r a b h ä n g i g e n V a r i a b l e n b e s c h r ä n k e n . Z u r B e r e c h n u n g v e r w e n d e n w i r d i e M e t h o d e d e r k l e i n s t e n Q u a d r a t e , d i e i n d e r e m p i r i s c h e n W i r t s c h a f t s f o r s c h u n g s e h r o f t v e r w e n d e t w i r d . 1 0 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 6 2 1 0 . 2 M e t h o d e d e r k l e i n s t e n Q u a d r a t e . . . . . . . . . . . . . . 1 6 2 1 0 . 2 . 1 G r u n d l a g e n . . . . . . . . . . . . . . . . . . . . . 1 6 3 1 0 . 2 . 2 B e r e c h n u n g d e r P a r a m e t e r . . . . . . . . . . . . . 1 6 3 1 0 . 2 . 3 A c h s e n t r a n s f o r m a t i o n . . . . . . . . . . . . . . . . 1 6 6 1 0 . 2 . 4 V a r i a n z z e r l e g u n g u n d B e s t i m m t h e i t s m a ß . . . . . . 1 6 6 1 0 . 2 . 5 A u s b i l d u n g s j a h r e u n d S t u n d e n l ö h n e . . . . . . . . . 1 6 8 1 0 . 3 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 1 7 0 1 0 . 4 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 7 3 1 0 10.2 Methode der kleinsten Quadrate 173 Die Ableitung nach α liefert die 1. Normalgleichung n ∑ i =1 ( y i − ˆ α − ˆ β x i ) = 0 und die Ableitung nach β die 2. Normalgleichung n ∑ i =1 ( y i − ˆ α − ˆ β x i ) x i = 0 . Aus der 1. Normalgleichung findet man zunächst n ∑ i =1 y i − n ˆ α − ˆ β n ∑ i =1 x i = 0 und indem man durch n teilt, erhält man ¯ y = ˆ α + ˆ β ¯ x, bzw. ˆ α = ¯ y − ˆ β ¯ x. Die optimale Regressionsgerade geht also durch den Schwerpunkt des Streuungsdiagramms. Ersetzt man nun ˆ α in der 2. Normalgleichung durch ¯ y − ˆ β ¯ x , findet man: n ∑ i =1 ( x i y i − (¯ y − ˆ β ¯ x ) x i − ˆ β x 2 i ) = n ∑ i =1 x i y i − (¯ y − ˆ β ¯ x ) n ∑ i =1 x i − ˆ β n ∑ i =1 x 2 i = n ∑ i =1 x i y i − n ¯ x ¯ y − ˆ β ( n ∑ i =1 x 2 i − n ¯ x 2 ) = 0 Daraus folgt dann ˆ β = ∑ n i =1 x i y i − n ¯ x ¯ y ∑ n i =1 x 2 i − n ¯ x 2 . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 173 03.09.2019 13: 56: 30 <?page no="174"?> 174 10 Einfache Regressionsrechnung Um die Anwendung zu illustrieren, betrachten wir das Zahlenbeispiel aus Abbildung 10.1 mit den Werten ( x 1 , y 1 ) = (2 , 3), ( x 2 , y 2 ) = (4 , 2), ( x 3 , y 3 ) = (6 , 5) und ( x 4 , y 4 ) = (8 , 6). Wir finden n ∑ i =1 y i x i = 92 , n ∑ i =1 x 2 i = 120 , ¯ x = 5 , ¯ y = 4 und damit ˆ β = 92 − 4 · 4 · 5 120 − 4 · 5 2 = 0 . 6 und ˆ α = ¯ y − ˆ β ¯ x = 4 − 0 . 6 · 5 = 1 . 10.2.3 Achsentransformation Die Variablen X und Y können um ihre Mittelwerte verschoben werden, indem man X ∗ = X − ¯ x und Y ∗ = Y − ¯ y verwendet. Dann kann man eine lineare Regression für den Zusammenhang zwischen X ∗ und Y ∗ berechnen. Die optimalen Parameter bezeichnen wir durch ˆ α ∗ und ˆ β ∗ . Wendet man die oben abgeleitete Formel an, findet man (da ¯ x ∗ = ¯ y ∗ = 0 ist) ˆ β ∗ = ∑ n i =1 x ∗ i y ∗ i ∑ n i =1 ( x ∗ i ) 2 . Ersetzt man x ∗ i durch x i − ¯ x und y ∗ i durch y i − ¯ y , entsteht die Formel für ˆ β , so dass ˆ β ∗ = ˆ β = ∑ n i =1 ( x i − ¯ x ) ( y i − ¯ y ) ∑ n i =1 ( x i − ¯ x ) 2 gilt. Die Division von Zähler und Nenner durch n führt zu ˆ β = σ XY σ 2 X . Offenbar gilt auch ¯ y ∗ = ˆ α ∗ + ˆ β ∗ ¯ x ∗ ; und daraus folgt unmittelbar, dass ˆ α ∗ = 0 ist. Abbildung 10.3 veranschaulicht diese Achsentransformation anhand des Beispiels aus dem vorangegangenen Abschnitt. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 174 03.09.2019 13: 56: 31 <?page no="175"?> 10 Einfache Regressionsrechnung In diesem Kapitel besprechen wir die Regressionsrechnung, wobei wir uns auf eine lineare Regression mit nur einer erklärenden und einer abhängigen Variablen beschränken. Zur Berechnung verwenden wir die Methode der kleinsten Quadrate, die in der empirischen Wirtschaftsforschung sehr oft verwendet wird. 10.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 162 10.2 Methode der kleinsten Quadrate . . . . . . . . . . . . . . 162 10.2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . 163 10.2.2 Berechnung der Parameter . . . . . . . . . . . . . 163 10.2.3 Achsentransformation . . . . . . . . . . . . . . . . 166 10.2.4 Varianzzerlegung und Bestimmtheitsmaß . . . . . . 166 10.2.5 Ausbildungsjahre und Stundenlöhne . . . . . . . . . 168 10.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 170 10.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 10 1 0 1 0 10.2 Methode der kleinsten Quadrate 175 x y 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 -5 -4 -3 -2 -1 0 1 2 3 4 5 -4 -3 -2 -1 0 1 2 3 4 5 x ∗ y ∗ Abbildung 10.3: Achsentransformation. 10.2.4 Varianzzerlegung und Bestimmtheitsmaß Die Varianz der abhängigen Variablen Y kann folgendermaßen geschrieben werden: σ 2 Y = 1 n n ∑ i =1 ( y i − ¯ y ) 2 = 1 n n ∑ i =1 ( y i − ˆ y i + ˆ y i − ¯ y ) 2 = 1 n n ∑ i =1 (( y i − ˆ y i ) 2 + (ˆ y i − ¯ y ) 2 + 2( y i − ˆ y i )(ˆ y i − ¯ y )) = 1 n n ∑ i =1 ( y i − ˆ y i ) 2 + 1 n n ∑ i =1 (ˆ y i − ¯ y ) 2 + 2 n n ∑ i =1 ( y i − ˆ y i )(ˆ y i − ¯ y ) . Wie man durch Ausrechnen zeigen kann, ist der dritte Summand in der letzten Zeile gleich 0. Da der Mittelwert der ˆ y i -Werte gleich ¯ y ist, beschreibt der zweite Summand die Varianz von ˆ Y , also σ 2ˆ Y . Schließlich liefert der erste Summand die Varianz der Residualvariablen U , die die Werte ˆ u i = y i − ˆ y i hat, deren Mittelwert gleich 0 ist. Zusammenfassend folgt also σ 2 Y = σ 2ˆ Y + σ 2 U . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 175 03.09.2019 13: 56: 32 <?page no="176"?> 176 10 Einfache Regressionsrechnung Ausgehend von dieser Varianzzerlegung wird das Bestimmtheitsmaß R 2 = σ 2ˆ Y σ 2 Y = 1 − σ 2 U σ 2 Y definiert. Es zeigt den Anteil der Varianz von ˆ Y an der Gesamtvarianz von Y . Da die Werte von ˆ Y durch die Werte von X bestimmt werden, kann man auch sagen: R 2 gibt den Anteil der Varianz von Y an, der durch eine lineare Beziehung zwischen X und Y bestimmt werden kann. Es gilt: 0 ≤ R 2 ≤ 1. Außerdem liefert R 2 die lineare Korrelation zwischen Y und ˆ Y , also R 2 = r 2 Y ˆ Y ; und bei der einfachen linearen Regression ist dies auch gerade die lineare Korrelation zwischen X und Y . Für das Zahlenbeispiel aus den vorangegangenen Abschnitten findet man die Varianzzerlegung σ 2 Y = 2 . 5 = σ 2ˆ Y + σ 2 U = 1 . 8 + 0 . 7 und daraus das Bestimmtheitsmaß R 2 = σ 2ˆ Y σ 2 Y = 0 . 72 = 1 − σ 2 U σ 2 Y = 1 − 0 . 28 . Mit Hilfe der linearen Regression werden also in diesem Beispiel 72 % der Varianz von Y durch X bestimmt. 10.2.5 Ausbildungsjahre und Stundenlöhne Abschließend betrachten wir eine Regression des Stundenlohns ( Y ) auf die Zahl der Ausbildungsjahre ( X ). 1 Die Daten stammen aus dem ALLBUS-File (Westdeutschland) für n = 1 , 238 Personen. Abbildung 10.4 zeigt das Streudiagramm. 2 Als Ergebnis einer linearen Regression finden wir die Parameter ˆ α = 0 . 03 und ˆ β = 1 . 01 , durch die die Regressionsgerade in der 1 Wir bezeichnen als Stundenlohn das durch die monatlichen Arbeitsstunden dividierte Monats-Nettoeinkommen. 2 Da sehr viele Personen identische Ausbildungsjahre haben, wurden die x i - Werte zufällig etwas variiert, um die Streuung besser sichtbar zu machen. Die Regression wird jedoch mit den unveränderten x i -Werten berechnet. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 176 03.09.2019 13: 56: 33 <?page no="177"?> 10 Einfache Regressionsrechnung In diesem Kapitel besprechen wir die Regressionsrechnung, wobei wir uns auf eine lineare Regression mit nur einer erklärenden und einer abhängigen Variablen beschränken. Zur Berechnung verwenden wir die Methode der kleinsten Quadrate, die in der empirischen Wirtschaftsforschung sehr oft verwendet wird. 10.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 162 10.2 Methode der kleinsten Quadrate . . . . . . . . . . . . . . 162 10.2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . 163 10.2.2 Berechnung der Parameter . . . . . . . . . . . . . 163 10.2.3 Achsentransformation . . . . . . . . . . . . . . . . 166 10.2.4 Varianzzerlegung und Bestimmtheitsmaß . . . . . . 166 10.2.5 Ausbildungsjahre und Stundenlöhne . . . . . . . . . 168 10.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 170 10.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 10 1 0 1 0 10.2 Methode der kleinsten Quadrate 177 8 10 12 14 16 18 20 0 20 40 60 80 x y 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Abbildung 10.4: Ausbildungsjahre ( x ) und Einkommen ( y ). Abbildung bestimmt wird. Würde man sich an dieser Regressionsgeraden orientieren, würde mit jedem zusätzlichen Ausbildungsjahr der Stundenlohn um 1 . 01 Euro steigen. Tatsächlich wäre das aber irreführend, denn die Regressionsgerade passt offenbar nur sehr schlecht zu den Daten. Dem entspricht der niedrige Wert des Bestimmtheitsmaßes: R 2 = 0 . 16 . Bei den hier verwendeten Daten hängen die Stundenlöhne offenbar nur sehr geringfügig von den Ausbildungsjahren ab. R-10-1 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 177 03.09.2019 13: 56: 34 <?page no="178"?> 178 10 Einfache Regressionsrechnung 10.3 Aufgaben 1. Sie befragen fünf Personen nach ihrem monatlichen verfügbaren Nettoeinkommen ( X ) und ihren monatlichen Mietausgaben ( Y ) und erhalten folgende Werte (jeweils in 1 , 000 e ): ( x 1 , y 1 ) = (1 , 0 . 3) , ( x 2 , y 2 ) = (2 , 0 . 45) , ( x 3 , y 3 ) = (3 , 0 . 9) , ( x 4 , y 4 ) = (4 , 1 . 2) , ( x 5 , y 5 ) = (5 , 0 . 95) a) Stellen Sie die Wertepaare als Streudiagramm graphisch dar. b) Das Streudiagramm zeigt, dass sich der Zusammenhang zwischen dem verfügbaren Einkommen und den Mietausgaben recht gut durch ein Gerade darstellen läßt. Überlegen Sie, warum üblicherweise als Anpassungskriterium die Minimierung der Abstandsquadratensumme zwischen den Y -Werten und den Regressionswerten und nicht die Minimierung der Abstandssumme gewählt wird. c) Ermitteln Sie aus den Ableitungen der Abstandsquadratensumme Q ( α, β ) die beiden Normalgleichungen. d) Ersetzen Sie in der 2. Normalgleichung x i durch ( x i − ¯ x ) und y i durch ( y i − ¯ y ), dann lösen Sie die Gleichung für den Parameter β . e) Welche Größen resultieren, wenn Sie in Ihrer Bestimmungsgleichung für β den Zähler und den Nenner durch n dividieren? f) Ermitteln Sie die Bestimmungsgleichung für α durch Umformung der 1. Normalgleichung. g) Wenn Sie den Ursprung Ihres Koordinatensystems in den Punkt ( ¯ x, 0) legen, entspricht dies einer Messung der X - Werte in Abständen zum Mittelwert. Der Achsenabschnitt Ihrer Regressionsgeraden im transformierten Koordinatensystem entspricht dann ¯ y, die Steigung der Geraden bleibt jedoch unverändert. Zeigen Sie dies in Ihrem Streudiagramm. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 178 03.09.2019 13: 56: 34 <?page no="179"?> 10 Einfache Regressionsrechnung In diesem Kapitel besprechen wir die Regressionsrechnung, wobei wir uns auf eine lineare Regression mit nur einer erklärenden und einer abhängigen Variablen beschränken. Zur Berechnung verwenden wir die Methode der kleinsten Quadrate, die in der empirischen Wirtschaftsforschung sehr oft verwendet wird. 10.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 162 10.2 Methode der kleinsten Quadrate . . . . . . . . . . . . . . 162 10.2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . 163 10.2.2 Berechnung der Parameter . . . . . . . . . . . . . 163 10.2.3 Achsentransformation . . . . . . . . . . . . . . . . 166 10.2.4 Varianzzerlegung und Bestimmtheitsmaß . . . . . . 166 10.2.5 Ausbildungsjahre und Stundenlöhne . . . . . . . . . 168 10.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 170 10.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 10 1 0 E i n f a c h e R e g r e s s i o n s r e c h n u n g I n d i e s e m K a p i t e l b e s p r e c h e n w i r d i e R e g r e s s i o n s r e c h n u n g , w o b e i w i r u n s a u f e i n e l i n e a r e R e g r e s s i o n m i t n u r e i n e r e r k l ä r e n d e n u n d e i n e r a b h ä n g i g e n V a r i a b l e n b e s c h r ä n k e n . Z u r B e r e c h n u n g v e r w e n d e n w i r d i e M e t h o d e d e r k l e i n s t e n Q u a d r a t e , d i e i n d e r e m p i r i s c h e n W i r t s c h a f t s f o r s c h u n g s e h r o f t v e r w e n d e t w i r d . 1 0 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 6 2 1 0 . 2 M e t h o d e d e r k l e i n s t e n Q u a d r a t e . . . . . . . . . . . . . . 1 6 2 1 0 . 2 . 1 G r u n d l a g e n . . . . . . . . . . . . . . . . . . . . . 1 6 3 1 0 . 2 . 2 B e r e c h n u n g d e r P a r a m e t e r . . . . . . . . . . . . . 1 6 3 1 0 . 2 . 3 A c h s e n t r a n s f o r m a t i o n . . . . . . . . . . . . . . . . 1 6 6 1 0 . 2 . 4 V a r i a n z z e r l e g u n g u n d B e s t i m m t h e i t s m a ß . . . . . . 1 6 6 1 0 . 2 . 5 A u s b i l d u n g s j a h r e u n d S t u n d e n l ö h n e . . . . . . . . . 1 6 8 1 0 . 3 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 1 7 0 1 0 . 4 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 7 3 1 0 1 0 E i n f a c h e R e g r e s s i o n s r e c h n u n g I n d i e s e m K a p i t e l b e s p r e c h e n w i r d i e R e g r e s s i o n s r e c h n u n g , w o b e i w i r u n s a u f e i n e l i n e a r e R e g r e s s i o n m i t n u r e i n e r e r k l ä r e n d e n u n d e i n e r a b h ä n g i g e n V a r i a b l e n b e s c h r ä n k e n . Z u r B e r e c h n u n g v e r w e n d e n w i r d i e M e t h o d e d e r k l e i n s t e n Q u a d r a t e , d i e i n d e r e m p i r i s c h e n W i r t s c h a f t s f o r s c h u n g s e h r o f t v e r w e n d e t w i r d . 1 0 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 6 2 1 0 . 2 M e t h o d e d e r k l e i n s t e n Q u a d r a t e . . . . . . . . . . . . . . 1 6 2 1 0 . 2 . 1 G r u n d l a g e n . . . . . . . . . . . . . . . . . . . . . 1 6 3 1 0 . 2 . 2 B e r e c h n u n g d e r P a r a m e t e r . . . . . . . . . . . . . 1 6 3 1 0 . 2 . 3 A c h s e n t r a n s f o r m a t i o n . . . . . . . . . . . . . . . . 1 6 6 1 0 . 2 . 4 V a r i a n z z e r l e g u n g u n d B e s t i m m t h e i t s m a ß . . . . . . 1 6 6 1 0 . 2 . 5 A u s b i l d u n g s j a h r e u n d S t u n d e n l ö h n e . . . . . . . . . 1 6 8 1 0 . 3 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 1 7 0 1 0 . 4 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 7 3 1 0 10.3 Aufgaben 179 h) Wenn Sie den Ursprung Ihres Koordinatensystems in den Punkt ( ¯ x, ¯ y ) legen, entspricht dies einer Messung sowohl der X als auch der Y -Werte in Abständen zum Mittelwert. Der Achsenabschnitt Ihrer Regressionsgeraden im transformierten Koordinatensystem ist dann 0 , die Steigung der Geraden bleibt aber auch in diesem Fall unverändert. Zeigen Sie dies in Ihrem Streudiagramm. i) Berechnen Sie das Steigungsmaß Ihrer Mietausgabenfunktion und interpretieren sie den numerischen Wert. j) Berechnen Sie den Achsenabschnitt Ihrer Mietausgabenfunktion. Wie lautet Ihre Mietausgabenfunktion. k) Zeigen Sie, dass eine nach der Methode der kleinsten Quadrate berechnete Regressionsfunktion durch den Punkt (¯ x, ¯ y ) geht. l) Wie lauten die Regressionswerte, also die auf das jeweilige Einkommen x i bedingten mittleren Mietausgaben ˆ y i ? m) Berechnen Sie die Abstandsquadratsumme Q ( ˆ α, ˆ β ) und die Varianz σ 2 U n) Berechnen Sie die Summe und den Mittelwert der quadrierten Abstände der Regressionswerte ˆ y i von dem arithmetischen Mittel ¯ y . o) Vergleichen Sie die Summe der durch die Regression erklärten Varianz ( σ 2ˆ Y ) und der von der Regression nicht erklärten Varianz ( σ 2 U ) mit der gesamten Varianz ( σ 2 Y ). p) Wieviel Prozent der gesamten Varianz von Y können durch die Regression bestimmt werden? Wie nennt man diese Maßzahl? 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 179 03.09.2019 13: 56: 35 <?page no="180"?> 180 10 Einfache Regressionsrechnung 2. Betrachten Sie die beiden folgenden Regressionen: y i = α + βx i + u i x i = ψ + δy i + v i a) Wie lauten die Bestimmungsgleichungen für ˆ β und ˆ δ ? b) Vergleichen Sie die beiden Bestimmungsgleichungen mit der Definition des linearen Korrelationskoeffizienten. Sehen Sie einen Zusammenhang? c) Berechnen Sie ˆ δ sowohl mit Hilfe der Bestimmungsgleichung (Aufgabe 2a) als auch über den Zusammenhang mit dem linearen Korrelationskoeffizienten. d) Welche der beiden in Aufgabe 2a dargestellten Regressionen erscheint Ihnen sachlogisch sinnvoller? 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 180 03.09.2019 13: 56: 35 <?page no="181"?> 10 Einfache Regressionsrechnung In diesem Kapitel besprechen wir die Regressionsrechnung, wobei wir uns auf eine lineare Regression mit nur einer erklärenden und einer abhängigen Variablen beschränken. Zur Berechnung verwenden wir die Methode der kleinsten Quadrate, die in der empirischen Wirtschaftsforschung sehr oft verwendet wird. 10.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 162 10.2 Methode der kleinsten Quadrate . . . . . . . . . . . . . . 162 10.2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . 163 10.2.2 Berechnung der Parameter . . . . . . . . . . . . . 163 10.2.3 Achsentransformation . . . . . . . . . . . . . . . . 166 10.2.4 Varianzzerlegung und Bestimmtheitsmaß . . . . . . 166 10.2.5 Ausbildungsjahre und Stundenlöhne . . . . . . . . . 168 10.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 170 10.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 10 1 0 E i n f a c h e R e g r e s s i o n s r e c h n u n g I n d i e s e m K a p i t e l b e s p r e c h e n w i r d i e R e g r e s s i o n s r e c h n u n g , w o b e i w i r u n s a u f e i n e l i n e a r e R e g r e s s i o n m i t n u r e i n e r e r k l ä r e n d e n u n d e i n e r a b h ä n g i g e n V a r i a b l e n b e s c h r ä n k e n . Z u r B e r e c h n u n g v e r w e n d e n w i r d i e M e t h o d e d e r k l e i n s t e n Q u a d r a t e , d i e i n d e r e m p i r i s c h e n W i r t s c h a f t s f o r s c h u n g s e h r o f t v e r w e n d e t w i r d . 1 0 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 6 2 1 0 . 2 M e t h o d e d e r k l e i n s t e n Q u a d r a t e . . . . . . . . . . . . . . 1 6 2 1 0 . 2 . 1 G r u n d l a g e n . . . . . . . . . . . . . . . . . . . . . 1 6 3 1 0 . 2 . 2 B e r e c h n u n g d e r P a r a m e t e r . . . . . . . . . . . . . 1 6 3 1 0 . 2 . 3 A c h s e n t r a n s f o r m a t i o n . . . . . . . . . . . . . . . . 1 6 6 1 0 . 2 . 4 V a r i a n z z e r l e g u n g u n d B e s t i m m t h e i t s m a ß . . . . . . 1 6 6 1 0 . 2 . 5 A u s b i l d u n g s j a h r e u n d S t u n d e n l ö h n e . . . . . . . . . 1 6 8 1 0 . 3 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 1 7 0 1 0 . 4 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 7 3 1 0 1 0 E i n f a c h e R e g r e s s i o n s r e c h n u n g I n d i e s e m K a p i t e l b e s p r e c h e n w i r d i e R e g r e s s i o n s r e c h n u n g , w o b e i w i r u n s a u f e i n e l i n e a r e R e g r e s s i o n m i t n u r e i n e r e r k l ä r e n d e n u n d e i n e r a b h ä n g i g e n V a r i a b l e n b e s c h r ä n k e n . Z u r B e r e c h n u n g v e r w e n d e n w i r d i e M e t h o d e d e r k l e i n s t e n Q u a d r a t e , d i e i n d e r e m p i r i s c h e n W i r t s c h a f t s f o r s c h u n g s e h r o f t v e r w e n d e t w i r d . 1 0 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 6 2 1 0 . 2 M e t h o d e d e r k l e i n s t e n Q u a d r a t e . . . . . . . . . . . . . . 1 6 2 1 0 . 2 . 1 G r u n d l a g e n . . . . . . . . . . . . . . . . . . . . . 1 6 3 1 0 . 2 . 2 B e r e c h n u n g d e r P a r a m e t e r . . . . . . . . . . . . . 1 6 3 1 0 . 2 . 3 A c h s e n t r a n s f o r m a t i o n . . . . . . . . . . . . . . . . 1 6 6 1 0 . 2 . 4 V a r i a n z z e r l e g u n g u n d B e s t i m m t h e i t s m a ß . . . . . . 1 6 6 1 0 . 2 . 5 A u s b i l d u n g s j a h r e u n d S t u n d e n l ö h n e . . . . . . . . . 1 6 8 1 0 . 3 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 1 7 0 1 0 . 4 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 7 3 1 0 10.4 R-Code 181 10.4 R-Code R-10-1 ## Daten einlesen d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) d <d[d$ostwest==0,] n <nrow(d) # Stundenlohn in Euro y <as.numeric(d$stlohn) # Ausbildungsjahre x <as.numeric(d$bildung) ## Einfache lineare Regression reg <lm(y ~ x) # Ergebnis a <coef(reg)[1] ab <coef(reg)[2] b# durch Schätzung vorhergesagte Werte (eng.: fitted values) yd <reg$fitted # Residuen r <y yd ## Funktionen # Funktion für empirische Varianz erstellen VarEmp <function(x) { n <length(x) var.emp <- (n-1)/ n * var(x) return(var.emp) } ## R2 VarEmp(yd) / VarEmp(y) ## Abbildung # leicht modifizierte Ausbildungsjahre set.seed(123) x.mod <x + runif(n = n, min = -0.15, max = 0.15) # Streudiagramm plot(x = x.mod, y = y, pch = 19, cex = 0.2, xlab = "x", ylab = "y", xaxt = "n") axis(side = 1, at = 7: 21, label = 7: 21) # Regressiongerade einzeichnen lines(x = x, y = yd, lwd = 2) 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 181 03.09.2019 13: 56: 36 <?page no="182"?> 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 182 03.09.2019 13: 56: 36 <?page no="183"?> 11 Multiple Regressionsanalyse Im vorangegangenen Kapitel haben wir eine einfache Variante der linearen Regression besprochen, bei der es nur eine erklärende Variable gibt. In diesem Kapitel besprechen wir eine Verallgemeinerung, bei der es zwei oder mehr erklärende Variablen geben kann. Diese multiple Regressionsanalyse ist das in den empirischen Wirtschafts- und Sozialwissenschaften am häufigsten verwendete Verfahren. 11.1 Das multiple Regressionsmodell . . . . . . . . . . . . . . . 176 11.1.1 Anpassungskriterium und Zielfunktion . . . . . . . 176 11.2 Das multiple Regressionsmodell in Matrixnotation . . . . . 178 11.3 Eine multiple Lohnregression . . . . . . . . . . . . . . . . 181 11.4 Partielle Regressionskoeffizienten und Residuenregressionen 182 11.5 Interaktionen erklärender Variablen . . . . . . . . . . . . . 183 11.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 185 11.7 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 11 1 1 1 1 11 Multiple Regressionsanalyse Im vorangegangenen Kapitel haben wir eine einfache Variante der linearen Regression besprochen, bei der es nur eine erklärende Variable gibt. In diesem Kapitel besprechen wir eine Verallgemeinerung, bei der es zwei oder mehr erklärende Variablen geben kann. Diese multiple Regressionsanalyse ist das in den empirischen Wirtschafts- und Sozialwissenschaften am häufigsten verwendete Verfahren. 11.1 Das multiple Regressionsmodell . . . . . . . . . . . . . . . 184 11.1.1 Anpassungskriterium und Zielfunktion . . . . . . . 184 11.2 Das multiple Regressionsmodell in Matrixnotation . . . . . 186 11.3 Eine multiple Lohnregression . . . . . . . . . . . . . . . . 189 11.4 Partielle Regressionskoeffizienten und Residuenregressionen 190 11.5 Interaktionen erklärender Variablen . . . . . . . . . . . . . 191 11.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 193 11.7 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 183 03.09.2019 13: 56: 37 <?page no="184"?> 184 11 Multiple Regressionsanalyse 11.1 Das multiple Regressionsmodell Um den Modellansatz zu erklären, verwenden wir eine abhängige Variable Y und zwei erklärende Variablen X 1 und X 2 . Wir beziehen uns also auf eine dreidimensionale Variable ( X 1 , X 2 , Y ) und nehmen an, dass Werte ( x 1 i , x 2 i , y i ) für n Einheiten gegeben sind. Ausgangspunkt ist die folgende Regressionsgleichung y i = β 0 + β 1 x 1 i + β 2 x 2 i + u i . β 0 , β 1 und β 2 sind die Parameter der Regressionsfunktion f ( x 1 , x 2 ) = β 0 + β 1 x 1 + β 2 x 2 , die für beliebige Argumente definiert ist. Wie bei der einfachen Regression werden die Residuen durch u i bezeichnet. Wenn es nur zwei erklärende Variablen gibt, lässt sich das Regressionsproblem noch im dreidimensionalen Raum darstellen. Die drei Parameter β 0 , β 1 und β 2 bestimmen die Lage der Regressionsebene. Die vertikalen Abstände der Datenpunkten ( x 1 i , x 2 i , y i ) von der Ebene entsprechen den Residuen u i . 11.1.1 Anpassungskriterium und Zielfunktion Die numerischen Werte der Parameter β 0 , β 1 und β 2 bestimmen wir, wie im Fall der linearen Einfachregression, mit Hilfe der Methode der kleinsten Quadrate. Gesucht ist diejenige Regressionsebene, die die Summe der quadrierten Residuen, also ∑ n i =1 u 2 i , minimal macht. Die zu minimierende Abstandsquadratsumme ist Q ( β 0 , β 1 , β 2 ) = n ∑ i =1 ( y i − β 0 − β 1 x 1 i − β 2 x 2 i ) 2 . Diese Funktion hängt von den drei Parametern β 0 , β 1 und β 2 ab. Um ihr Minimum zu bestimmen, werden zunächst die partiellen 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 184 03.09.2019 13: 56: 37 <?page no="185"?> 11 Multiple Regressionsanalyse Im vorangegangenen Kapitel haben wir eine einfache Variante der linearen Regression besprochen, bei der es nur eine erklärende Variable gibt. In diesem Kapitel besprechen wir eine Verallgemeinerung, bei der es zwei oder mehr erklärende Variablen geben kann. Diese multiple Regressionsanalyse ist das in den empirischen Wirtschafts- und Sozialwissenschaften am häufigsten verwendete Verfahren. 11.1 Das multiple Regressionsmodell . . . . . . . . . . . . . . . 176 11.1.1 Anpassungskriterium und Zielfunktion . . . . . . . 176 11.2 Das multiple Regressionsmodell in Matrixnotation . . . . . 178 11.3 Eine multiple Lohnregression . . . . . . . . . . . . . . . . 181 11.4 Partielle Regressionskoeffizienten und Residuenregressionen 182 11.5 Interaktionen erklärender Variablen . . . . . . . . . . . . . 183 11.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 185 11.7 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 11 1 1 M u l t i p l e R e g r e s s i o n s a n a l y s e I m v o r a n g e g a n g e n e n K a p i t e l h a b e n w i r e i n e e i n f a c h e V a r i a n t e d e r l i n e a r e n R e g r e s s i o n b e s p r o c h e n , b e i d e r e s n u r e i n e e r k l ä r e n d e V a r i a b l e g i b t . I n d i e s e m K a p i t e l b e s p r e c h e n w i r e i n e V e r a l l g e m e i n e r u n g , b e i d e r e s z w e i o d e r m e h r e r k l ä r e n d e V a r i a b l e n g e b e n k a n n . D i e s e m u l t i p l e R e g r e s s i o n s a n a l y s e i s t d a s i n d e n e m p i r i s c h e n W i r t s c h a f t s u n d S o z i a l w i s s e n s c h a f t e n a m h ä u fig s t e n v e r w e n d e t e V e r f a h r e n . 1 1 . 1 D a s m u l t i p l e R e g r e s s i o n s m o d e l l . . . . . . . . . . . . . . . 1 7 6 1 1 . 1 . 1 A n p a s s u n g s k r i t e r i u m u n d Z i e l f u n k t i o n . . . . . . . 1 7 6 1 1 . 2 D a s m u l t i p l e R e g r e s s i o n s m o d e l l i n M a t r i x n o t a t i o n . . . . . 1 7 8 1 1 . 3 E i n e m u l t i p l e L o h n r e g r e s s i o n . . . . . . . . . . . . . . . . 1 8 1 1 1 . 4 P a r t i e l l e R e g r e s s i o n s k o e ffi z i e n t e n u n d R e s i d u e n r e g r e s s i o n e n 1 8 2 1 1 . 5 I n t e r a k t i o n e n e r k l ä r e n d e r V a r i a b l e n . . . . . . . . . . . . . 1 8 3 1 1 . 6 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 1 8 5 1 1 . 7 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 8 6 1 1 1 1 M u l t i p l e R e g r e s s i o n s a n a l y s e I m v o r a n g e g a n g e n e n K a p i t e l h a b e n w i r e i n e e i n f a c h e V a r i a n t e d e r l i n e a r e n R e g r e s s i o n b e s p r o c h e n , b e i d e r e s n u r e i n e e r k l ä r e n d e V a r i a b l e g i b t . I n d i e s e m K a p i t e l b e s p r e c h e n w i r e i n e V e r a l l g e m e i n e r u n g , b e i d e r e s z w e i o d e r m e h r e r k l ä r e n d e V a r i a b l e n g e b e n k a n n . D i e s e m u l t i p l e R e g r e s s i o n s a n a l y s e i s t d a s i n d e n e m p i r i s c h e n W i r t s c h a f t s u n d S o z i a l w i s s e n s c h a f t e n a m h ä u fig s t e n v e r w e n d e t e V e r f a h r e n . 1 1 . 1 D a s m u l t i p l e R e g r e s s i o n s m o d e l l . . . . . . . . . . . . . . . 1 7 6 1 1 . 1 . 1 A n p a s s u n g s k r i t e r i u m u n d Z i e l f u n k t i o n . . . . . . . 1 7 6 1 1 . 2 D a s m u l t i p l e R e g r e s s i o n s m o d e l l i n M a t r i x n o t a t i o n . . . . . 1 7 8 1 1 . 3 E i n e m u l t i p l e L o h n r e g r e s s i o n . . . . . . . . . . . . . . . . 1 8 1 1 1 . 4 P a r t i e l l e R e g r e s s i o n s k o e ffi z i e n t e n u n d R e s i d u e n r e g r e s s i o n e n 1 8 2 1 1 . 5 I n t e r a k t i o n e n e r k l ä r e n d e r V a r i a b l e n . . . . . . . . . . . . . 1 8 3 1 1 . 6 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 1 8 5 1 1 . 7 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 8 6 1 1 11.1 Das multiple Regressionsmodell 185 Ableitungen gebildet: ∂Q ( β 0 , β 1 , β 2 ) ∂β 0 = 2 n ∑ i =1 ( y i − β 0 − β 1 x 1 i − β 2 x 2 i )( − 1) , ∂Q ( β 0 , β 1 , β 2 ) ∂β 1 = 2 n ∑ i =1 ( y i − β 0 − β 1 x 1 i − β 2 x 2 i )( − x 1 i ) , ∂Q ( β 0 , β 1 , β 2 ) ∂β 2 = 2 n ∑ i =1 ( y i − β 0 − β 1 x 1 i − β 2 x 2 i )( − x 2 i ) . Durch das Nullsetzen dieser Ableitungen lassen sich Bestimmungsgleichungen zur Berechnung der optimalen Parameter ˆ β 0 , ˆ β 1 und ˆ β 2 ermitteln. Werden die Variablen als Mittelwertabweichungen betrachtet, d.h. x ∗ 1 i = x 1 i − ¯ x 1 , x ∗ 2 i = x 2 i − ¯ x 2 und y ∗ i = y i − ¯ y anstelle von x 1 i , x 2 i und y i , resultieren folgende Bestimmungsgleichungen: ˆ β 0 = ¯ y − ˆ β 1 ¯ x 1 − ˆ β 2 ¯ x 2 , ˆ β 1 = ∑ n i =1 x ∗ 2 i 2 ∑ n i =1 x ∗ 1 i y ∗ i − ∑ n i =1 x ∗ 1 i x ∗ 2 i ∑ n i =1 x ∗ 2 i y ∗ i ∑ n i =1 x ∗ 1 i 2 ∑ n i =1 x ∗ 2 i 2 − (∑ n i =1 x ∗ 1 i x ∗ 2 i ) 2 , ˆ β 2 = ∑ n i =1 x ∗ 1 i 2 ∑ n i =1 x ∗ 2 i y ∗ i − ∑ n i =1 x ∗ 1 i x ∗ 2 i ∑ n i =1 x ∗ 1 i y ∗ i ∑ n i =1 x ∗ 1 i 2 ∑ n i =1 x ∗ 2 i 2 − (∑ n i =1 x ∗ 1 i x ∗ 2 i ) 2 . Wir betrachten ein kleines Zahlenbeispiel mit n = 4 Beobachtungen (siehe Abbildung 11.1): ( x 11 , x 21 , y 1 ) = (2 , 1 , 4) , ( x 12 , x 22 , y 2 ) = (4 , 5 , 3) , ( x 13 , x 23 , y 3 ) = (6 , 3 , 6) , ( x 14 , x 24 , y 4 ) = (8 , 7 , 7) . Wir finden: ˆ β 1 = 20 · 12 − 16 · 6 20 · 20 − 256 = 1 , ˆ β 2 = 20 · 6 − 16 · 12 20 · 20 − 256 = − 0 . 5 und ˆ β 0 = 5 − 1 · 5 − ( − 0 . 5) · 4 = 2. Die numerischen Regressionswerte ˆ y i ergeben sich aus der Regressionsfunktion ˆ y i = 2 + 1 x 1 i − 0 . 5 x 2 i . Siehe Abbildung 11.2 zur Regressionsebene. R-11-1 Schließlich sei angemerkt, dass sich die Bestimmungsgleichungen auch mit Varianz- und Kovarianzausdrücken 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 185 03.09.2019 13: 56: 39 <?page no="186"?> 186 11 Multiple Regressionsanalyse 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 x 1 y x 2 Abbildung 11.1: Zwei erklärende Variablen. ˆ β 1 = σ 2 x 2 σ x 1 y − σ x 1 x 2 σ x 2 y σ 2 x 1 σ 2 x 2 − σ 2 x 1 x 2 und ˆ β 2 = σ 2 x 1 σ x 2 y − σ x 1 x 2 σ x 1 y σ 2 x 1 σ 2 x 2 − σ 2 x 1 x 2 darstellen lassen. 11.2 Das multiple Regressionsmodell in Matrixnotation Im allgemeinen Fall mit zwei oder mehr erklärenden Variablen ist es hilfreich, eine Matrixnotation zu verwenden. Ausgangspunkt sind folgende Regressionsgleichungen mit p erklärenden Variablen: y i = β 0 x 0 i + β 1 x 1 i + β 2 x 2 i + ... + β p x pi + u i , wobei x 0 i = 1 ist, für i = 1 , . . . , n . Werden die n Gleichungen untereinander geschrieben, kann man stattdessen in einer Matrixnotation die Gleichung y = Xβ + u betrachten. y ist ein Spaltenvektor der Dimension n × 1, X ist eine Matrix der Dimension n × ( p +1), u ist ein Spaltenvektor der Dimension n × 1. Gesucht ist ein Parametervektor β = ( β 0 , β 1 , . . . , β p ) ′ . 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 186 03.09.2019 13: 56: 40 <?page no="187"?> 11 Multiple Regressionsanalyse Im vorangegangenen Kapitel haben wir eine einfache Variante der linearen Regression besprochen, bei der es nur eine erklärende Variable gibt. In diesem Kapitel besprechen wir eine Verallgemeinerung, bei der es zwei oder mehr erklärende Variablen geben kann. Diese multiple Regressionsanalyse ist das in den empirischen Wirtschafts- und Sozialwissenschaften am häufigsten verwendete Verfahren. 11.1 Das multiple Regressionsmodell . . . . . . . . . . . . . . . 176 11.1.1 Anpassungskriterium und Zielfunktion . . . . . . . 176 11.2 Das multiple Regressionsmodell in Matrixnotation . . . . . 178 11.3 Eine multiple Lohnregression . . . . . . . . . . . . . . . . 181 11.4 Partielle Regressionskoeffizienten und Residuenregressionen 182 11.5 Interaktionen erklärender Variablen . . . . . . . . . . . . . 183 11.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 185 11.7 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 11 1 1 1 1 11.2 Das multiple Regressionsmodell in Matrixnotation 187 2 4 6 8 2 4 6 0 5 10 y x 2 x 1 Abbildung 11.2: Regressionsebene für die Regression mit zwei erklärenden Variablen. Die schwarzen Pfeile deuten an, ob der Punkt über oder unter der Ebene liegt. Wenn der Pfeil nach oben zeigt liegt der Punkt über der Ebene. Die zu minimierende Zielfunktion ist Q ( β ) = ( y − Xβ ) ′ ( y − Xβ ) . Die Ableitung nach dem Vektor β ist ∂Q ( β ) ∂β = − 2 X ′ y + 2 X ′ Xβ = 0 . Als Lösung findet man ˆ β = ( X ′ X ) − 1 X ′ y. Die Varianz der Residuen ergibt sich in Matrixnotation als 1 ˆ σ 2 = 1 n ˆ u ′ ˆ u. 1 Im Kontext stochastischer Modelle wird die auf Basis der Residuen berechnete Varianz als Schätzwert für die Varianz des Störterms interpretiert und üblicherweise nicht durch n , sondern durch die Zahl der Freiheitsgrade n − p − 1 dividiert. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 187 03.09.2019 13: 56: 41 <?page no="188"?> 188 11 Multiple Regressionsanalyse Wir illustrieren die Berechnung mit den oben eingeführten Beispieldaten ( n = 4, p = 2). Ausgehend von der Modellmatrix X und dem Vektor der erklärenden Variablen X = 1 2 1 1 4 5 1 6 3 1 8 7 y = 4367 berechnen wir die Bestandteile für die Schätzgleichung: X ′ X = [ 4 20 16 20 120 96 16 96 84 ] , ( X ′ X ) − 1 = [ 1 . 5 − 0 . 25 0 − 0 . 25 0 . 139 − 0 . 111 0 − 0 . 111 0 . 139 ] , X ′ y = [ 20 112 86 ] und erhalten schließlich die geschätzten Koeffizienten mit ˆ β = ( X ′ X ) − 1 X ′ y = [ 21 − 0 . 5 ] . Die Regressionswerte ergeben sich als ˆ y = X ˆ β = 3 . 5 3 . 5 6 . 5 6 . 5 . Für die Residuen finden wir ˆ u = y − X ˆ β = 0 . 5 − 0 . 5 − 0 . 5 0 . 5 . Die Varianz der Residuen ist ˆ σ 2 = ˆ u ′ ˆ u/ n = 0 . 25. R-11-2 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 188 03.09.2019 13: 56: 42 <?page no="189"?> 11 Multiple Regressionsanalyse Im vorangegangenen Kapitel haben wir eine einfache Variante der linearen Regression besprochen, bei der es nur eine erklärende Variable gibt. In diesem Kapitel besprechen wir eine Verallgemeinerung, bei der es zwei oder mehr erklärende Variablen geben kann. Diese multiple Regressionsanalyse ist das in den empirischen Wirtschafts- und Sozialwissenschaften am häufigsten verwendete Verfahren. 11.1 Das multiple Regressionsmodell . . . . . . . . . . . . . . . 176 11.1.1 Anpassungskriterium und Zielfunktion . . . . . . . 176 11.2 Das multiple Regressionsmodell in Matrixnotation . . . . . 178 11.3 Eine multiple Lohnregression . . . . . . . . . . . . . . . . 181 11.4 Partielle Regressionskoeffizienten und Residuenregressionen 182 11.5 Interaktionen erklärender Variablen . . . . . . . . . . . . . 183 11.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 185 11.7 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 11 1 1 1 1 11.3 Eine multiple Lohnregression 189 6 8 10 12 14 16 18 20 22 0 20 40 60 80 100 30 35 40 45 50 55 60 65 x 1 y x 2 Abbildung 11.3: Ausbildungsjahre ( x 1 ), Alter ( x 2 ) und Einkommen ( y ). 11.3 Eine multiple Lohnregression Jetzt verwenden wir unser ALLBUS-Datenfile (Westdeutschland), um zu untersuchen, wie der Stundenlohn ( Y ) sowohl von den Ausbildungsjahren ( X 1 ) als auch vom Alter ( X 2 ) abhängt. Wir berücksichtigen dabei die Daten für n = 1 , 014 Personen im Alter zwischen 30 und 65 Jahren. Die Daten sind in Abbildung 11.3 dargestellt. Die Regressionsfunktion hat die Gestalt f ( x 1 , x 2 ) = β 0 + β 1 x 1 + β 2 x 2 . Mit der Methode der kleinsten Quadrate findet man die optimalen Parameter ˆ β 0 = − 5 . 129, ˆ β 1 = 1 . 049 und ˆ β 2 = 0 . 112, so dass die Regressionsfunktion folgendermaßen aussieht: ˆ y = ˆ f ( x 1 , x 2 ) = − 5 . 129 + 1 . 049 x 1 + 0 . 112 x 2 . R-11-3 Bei der Interpretation ist zunächst zu beachten, dass ˆ y eine Approximation des bedingten Mittelwerts von Y ist, wenn als Bedingung die Werte X 1 = x 1 und X 2 = x 2 gegeben sind. Die Funktion 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 189 03.09.2019 13: 56: 44 <?page no="190"?> 190 11 Multiple Regressionsanalyse zeigt also, wie ein Durchschnittslohn von der Anzahl der Ausbildungsjahre und dem Alter abhängt. So kann man z. B. sagen: In unserem Datenfile beträgt die Stundenlohndifferenz zwischen Personen gleichen Alters, deren Ausbildungsdauer sich um ein Jahr unterscheidet, im Durchschnitt 1 . 05 Euro. Man könnte auch sagen: Wenn man bei gleichem Alter die Ausbildungsdauer um ein Jahr erhöht, erhöht sich der durchschnittliche Stundenlohn um 1 . 05 Euro. Aber hier muss man aufpassen. Im Rahmen der deskriptiven Statistik liefert die Regressionsrechnung eine deskriptive Aussage über die durch ein Datenfile gegebenen Daten, in unserem Beispiel über 1 , 014 Lohnempfänger im Jahr 2018. Darüber was passiert, wenn sich bei diesen Personen das Alter oder die Ausbildungsdauer verändert, liefert die Regressionsfunktion keine verlässlichen Informationen. Wichtig ist auch, dass die Ergebnisse davon abhängen, welche erklärenden Variablen verwendet werden. Untersuchen wir mit den gleichen Daten, wie der Stundenlohn linear von den Ausbildungsjahren abhängt, erhalten wir als Ergebnis die Regressionsfunktion ˆ y = 0 . 486 + 1 . 025 x 1 . Offenbar unterscheidet sich der ermittelte Zusammenhang mit den Ausbildungsjahren durch die Hinzunahme des Alters als weitere erklärende Variable geringfügig. 11.4 Partielle Regressionskoeffizienten und Residuenregressionen Die Regressionswerte liegen auf der berechneten Regressionsebene ˆ y = ˆ β 0 + ˆ β 1 x 1 + ˆ β 2 x 2 . Wegen ∂ ˆ y ∂x 1 = ˆ β 1 und ∂ ˆ y ∂x 2 = ˆ β 2 gibt der partielle Regressionskoeffizient ˆ β 1 an, wie sich ˆ y verändert, wenn die Variable X 1 um eine Einheit zunimmt, gegeben dass die Variable X 2 konstant bleibt. Ganz analog gibt ˆ β 2 an, wie sich ˆ y verändert, wenn die Variable X 2 um eine Einheit zunimmt, gegeben dass die Variable X 1 konstant bleibt. Im Lohnbeispiel sind X 1 und X 2 fast unkorreliert (r = − 0 . 074). Bei hoch korrelierenden erklärenden Variablen würde das Problem 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 190 03.09.2019 13: 56: 45 <?page no="191"?> 11 Multiple Regressionsanalyse Im vorangegangenen Kapitel haben wir eine einfache Variante der linearen Regression besprochen, bei der es nur eine erklärende Variable gibt. In diesem Kapitel besprechen wir eine Verallgemeinerung, bei der es zwei oder mehr erklärende Variablen geben kann. Diese multiple Regressionsanalyse ist das in den empirischen Wirtschafts- und Sozialwissenschaften am häufigsten verwendete Verfahren. 11.1 Das multiple Regressionsmodell . . . . . . . . . . . . . . . 176 11.1.1 Anpassungskriterium und Zielfunktion . . . . . . . 176 11.2 Das multiple Regressionsmodell in Matrixnotation . . . . . 178 11.3 Eine multiple Lohnregression . . . . . . . . . . . . . . . . 181 11.4 Partielle Regressionskoeffizienten und Residuenregressionen 182 11.5 Interaktionen erklärender Variablen . . . . . . . . . . . . . 183 11.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 185 11.7 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 11 1 1 M u l t i p l e R e g r e s s i o n s a n a l y s e I m v o r a n g e g a n g e n e n K a p i t e l h a b e n w i r e i n e e i n f a c h e V a r i a n t e d e r l i n e a r e n R e g r e s s i o n b e s p r o c h e n , b e i d e r e s n u r e i n e e r k l ä r e n d e V a r i a b l e g i b t . I n d i e s e m K a p i t e l b e s p r e c h e n w i r e i n e V e r a l l g e m e i n e r u n g , b e i d e r e s z w e i o d e r m e h r e r k l ä r e n d e V a r i a b l e n g e b e n k a n n . D i e s e m u l t i p l e R e g r e s s i o n s a n a l y s e i s t d a s i n d e n e m p i r i s c h e n W i r t s c h a f t s u n d S o z i a l w i s s e n s c h a f t e n a m h ä u fig s t e n v e r w e n d e t e V e r f a h r e n . 1 1 . 1 D a s m u l t i p l e R e g r e s s i o n s m o d e l l . . . . . . . . . . . . . . . 1 7 6 1 1 . 1 . 1 A n p a s s u n g s k r i t e r i u m u n d Z i e l f u n k t i o n . . . . . . . 1 7 6 1 1 . 2 D a s m u l t i p l e R e g r e s s i o n s m o d e l l i n M a t r i x n o t a t i o n . . . . . 1 7 8 1 1 . 3 E i n e m u l t i p l e L o h n r e g r e s s i o n . . . . . . . . . . . . . . . . 1 8 1 1 1 . 4 P a r t i e l l e R e g r e s s i o n s k o e ffi z i e n t e n u n d R e s i d u e n r e g r e s s i o n e n 1 8 2 1 1 . 5 I n t e r a k t i o n e n e r k l ä r e n d e r V a r i a b l e n . . . . . . . . . . . . . 1 8 3 1 1 . 6 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 1 8 5 1 1 . 7 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 8 6 1 1 1 1 M u l t i p l e R e g r e s s i o n s a n a l y s e I m v o r a n g e g a n g e n e n K a p i t e l h a b e n w i r e i n e e i n f a c h e V a r i a n t e d e r l i n e a r e n R e g r e s s i o n b e s p r o c h e n , b e i d e r e s n u r e i n e e r k l ä r e n d e V a r i a b l e g i b t . I n d i e s e m K a p i t e l b e s p r e c h e n w i r e i n e V e r a l l g e m e i n e r u n g , b e i d e r e s z w e i o d e r m e h r e r k l ä r e n d e V a r i a b l e n g e b e n k a n n . D i e s e m u l t i p l e R e g r e s s i o n s a n a l y s e i s t d a s i n d e n e m p i r i s c h e n W i r t s c h a f t s u n d S o z i a l w i s s e n s c h a f t e n a m h ä u fig s t e n v e r w e n d e t e V e r f a h r e n . 1 1 . 1 D a s m u l t i p l e R e g r e s s i o n s m o d e l l . . . . . . . . . . . . . . . 1 7 6 1 1 . 1 . 1 A n p a s s u n g s k r i t e r i u m u n d Z i e l f u n k t i o n . . . . . . . 1 7 6 1 1 . 2 D a s m u l t i p l e R e g r e s s i o n s m o d e l l i n M a t r i x n o t a t i o n . . . . . 1 7 8 1 1 . 3 E i n e m u l t i p l e L o h n r e g r e s s i o n . . . . . . . . . . . . . . . . 1 8 1 1 1 . 4 P a r t i e l l e R e g r e s s i o n s k o e ffi z i e n t e n u n d R e s i d u e n r e g r e s s i o n e n 1 8 2 1 1 . 5 I n t e r a k t i o n e n e r k l ä r e n d e r V a r i a b l e n . . . . . . . . . . . . . 1 8 3 1 1 . 6 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 1 8 5 1 1 . 7 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 8 6 1 1 11.5 Interaktionen erklärender Variablen 191 bestehen, dass Differenzen bei einer Variablen bei Konstanz der anderen Variablen kaum beobachtet wurden. Für die Interpretation von partiellen Regressionskoeffizienten ist es hilfreich, sich zu verdeutlichen, dass diese auch aus einfachen linearen Regressionen mit Residuen berechnet werden können. Der partielle lineare Einfluss von X 1 auf ˆ y entspricht dem Einfluss von X 1 , nachdem der lineare Einfluss von X 2 auf X 1 eliminiert wurde, auf ˆ y , nachdem auch aus Y der lineare Einfluss von X 2 eliminiert wurde. Für das Zahlenbeispiel finden wir für die Regression von X 1 auf X 2 ˆ x 1 | x 2 = 14 . 906 + − 0 . 025 x 2 . Die Residuen dieser Regression bezeichnen wir mit ˆ u x 1 | x 2 . Für die Regression von y auf x 2 finden wir ˆ y | x 2 = 10 . 514 + 0 . 085 x 2 und bezeichnen die Residuen dieser Regression mit ˆ u y | x 2 . Für die Regression der Residuen ˆ u y | x 2 auf die Residuen ˆ u x 1 | x 2 ergibt sich ˜ u y | x 2 = 0 + 1 . 049ˆ u x 1 | x 2 . Der Steigungskoeffizient dieser linearen Einfachregression für Residuen entspricht gerade dem partiellen Regressionskoeffizient ˆ β 1 der multiplen Lohnregression. Aus diesem Grund verändern sich partielle Regressionskoeffizienten, wenn eine Variable zusätzlich in eine Regression aufgenommen oder aus dieser entfernt wird, es sei denn, diese Variable ist mit allen anderen Kovariaten (erklärenden Variablen) unkorreliert. Ein Fall, der in empirischen Analysen praktisch nie auftritt. R-11-4 11.5 Interaktionen erklärender Variablen Bei der eben verwendeten multiplen Regressionsfunktion hängt der Zusammenhang zwischen der abhängigen Variablen und einer erklärenden Variablen nicht davon ab, welchen Wert die jeweils andere erklärende Variable hat. Z. B. beträgt die durchschnittliche Stundenlohndifferenz bei einer Ausbildungsdifferenz von einem Jahr stets 1 . 05 Euro, unabhängig vom Alter. Es ist aber durchaus möglich, dass es eine Interaktion zwischen Ausbildungsdauer und 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 191 03.09.2019 13: 56: 46 <?page no="192"?> 192 11 Multiple Regressionsanalyse Alter gibt. Um das zu untersuchen, kann eine weitere Variable X 3 = X 1 X 2 mit Werten x 3 i = x 1 i x 2 i verwendet werden. Die Regressionsfunktion sieht dann so aus: f ( x 1 , x 2 ) = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 . Mit der Methode der kleinsten Quadrate findet man nun die Parameter ˆ β 0 = 9 . 167, ˆ β 1 = 0 . 017, ˆ β 2 = − 0 . 187 und ˆ β 3 = 0 . 022, so dass die Regressionsfunktion folgendermaßen aussieht: ˆ y = ˆ f ( x 1 , x 2 ) = 9 . 167 + 0 . 017 x 1 − 0 . 187 x 2 + 0 . 022 x 1 x 2 . Für die partiellen Ableitungen finden wir nun ∂ ˆ y ∂x 1 = ˆ β 1 + x 2 ˆ β 3 und ∂ ˆ y ∂x 2 = ˆ β 2 + x 1 ˆ β 3 . Dies bedeutet, dass der Effekt einer Erhöhung der Anzahl der Ausbildungsjahre um ein weiteres Jahr auf den linear approximierten bedingten Mittelwert des Stundenlohnes von dem Alter der Person abhängt. Für eine 40-jährige Person finden wir z. B. einen Anstieg von ˆ y um 0 . 017 + 40 · 0 . 022 = 0 . 883. Für eine 50-jährige Person finden wir hingegen einen Anstieg von ˆ y um 0 . 017 + 50 · 0 . 022 = 1 . 099. R-11-5 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 192 03.09.2019 13: 56: 46 <?page no="193"?> 11 Multiple Regressionsanalyse Im vorangegangenen Kapitel haben wir eine einfache Variante der linearen Regression besprochen, bei der es nur eine erklärende Variable gibt. In diesem Kapitel besprechen wir eine Verallgemeinerung, bei der es zwei oder mehr erklärende Variablen geben kann. Diese multiple Regressionsanalyse ist das in den empirischen Wirtschafts- und Sozialwissenschaften am häufigsten verwendete Verfahren. 11.1 Das multiple Regressionsmodell . . . . . . . . . . . . . . . 176 11.1.1 Anpassungskriterium und Zielfunktion . . . . . . . 176 11.2 Das multiple Regressionsmodell in Matrixnotation . . . . . 178 11.3 Eine multiple Lohnregression . . . . . . . . . . . . . . . . 181 11.4 Partielle Regressionskoeffizienten und Residuenregressionen 182 11.5 Interaktionen erklärender Variablen . . . . . . . . . . . . . 183 11.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 185 11.7 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 11 1 1 M u l t i p l e R e g r e s s i o n s a n a l y s e I m v o r a n g e g a n g e n e n K a p i t e l h a b e n w i r e i n e e i n f a c h e V a r i a n t e d e r l i n e a r e n R e g r e s s i o n b e s p r o c h e n , b e i d e r e s n u r e i n e e r k l ä r e n d e V a r i a b l e g i b t . I n d i e s e m K a p i t e l b e s p r e c h e n w i r e i n e V e r a l l g e m e i n e r u n g , b e i d e r e s z w e i o d e r m e h r e r k l ä r e n d e V a r i a b l e n g e b e n k a n n . D i e s e m u l t i p l e R e g r e s s i o n s a n a l y s e i s t d a s i n d e n e m p i r i s c h e n W i r t s c h a f t s u n d S o z i a l w i s s e n s c h a f t e n a m h ä u fig s t e n v e r w e n d e t e V e r f a h r e n . 1 1 . 1 D a s m u l t i p l e R e g r e s s i o n s m o d e l l . . . . . . . . . . . . . . . 1 7 6 1 1 . 1 . 1 A n p a s s u n g s k r i t e r i u m u n d Z i e l f u n k t i o n . . . . . . . 1 7 6 1 1 . 2 D a s m u l t i p l e R e g r e s s i o n s m o d e l l i n M a t r i x n o t a t i o n . . . . . 1 7 8 1 1 . 3 E i n e m u l t i p l e L o h n r e g r e s s i o n . . . . . . . . . . . . . . . . 1 8 1 1 1 . 4 P a r t i e l l e R e g r e s s i o n s k o e ffi z i e n t e n u n d R e s i d u e n r e g r e s s i o n e n 1 8 2 1 1 . 5 I n t e r a k t i o n e n e r k l ä r e n d e r V a r i a b l e n . . . . . . . . . . . . . 1 8 3 1 1 . 6 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 1 8 5 1 1 . 7 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 8 6 1 1 1 1 M u l t i p l e R e g r e s s i o n s a n a l y s e I m v o r a n g e g a n g e n e n K a p i t e l h a b e n w i r e i n e e i n f a c h e V a r i a n t e d e r l i n e a r e n R e g r e s s i o n b e s p r o c h e n , b e i d e r e s n u r e i n e e r k l ä r e n d e V a r i a b l e g i b t . I n d i e s e m K a p i t e l b e s p r e c h e n w i r e i n e V e r a l l g e m e i n e r u n g , b e i d e r e s z w e i o d e r m e h r e r k l ä r e n d e V a r i a b l e n g e b e n k a n n . D i e s e m u l t i p l e R e g r e s s i o n s a n a l y s e i s t d a s i n d e n e m p i r i s c h e n W i r t s c h a f t s u n d S o z i a l w i s s e n s c h a f t e n a m h ä u fig s t e n v e r w e n d e t e V e r f a h r e n . 1 1 . 1 D a s m u l t i p l e R e g r e s s i o n s m o d e l l . . . . . . . . . . . . . . . 1 7 6 1 1 . 1 . 1 A n p a s s u n g s k r i t e r i u m u n d Z i e l f u n k t i o n . . . . . . . 1 7 6 1 1 . 2 D a s m u l t i p l e R e g r e s s i o n s m o d e l l i n M a t r i x n o t a t i o n . . . . . 1 7 8 1 1 . 3 E i n e m u l t i p l e L o h n r e g r e s s i o n . . . . . . . . . . . . . . . . 1 8 1 1 1 . 4 P a r t i e l l e R e g r e s s i o n s k o e ffi z i e n t e n u n d R e s i d u e n r e g r e s s i o n e n 1 8 2 1 1 . 5 I n t e r a k t i o n e n e r k l ä r e n d e r V a r i a b l e n . . . . . . . . . . . . . 1 8 3 1 1 . 6 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 1 8 5 1 1 . 7 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 8 6 1 1 11.6 Aufgaben 193 11.6 Aufgaben 1. Leiten Sie die Berechnungsvorschriften der Parameter ˆ β 0 , ˆ β 1 und ˆ β 2 her (vgl. Seite 185). 2. Wir betrachten ein kleines Zahlenbeispiel mit n = 4 Beobachtungen: ( x 11 , x 21 , y 1 ) = (2 , 3 , 2) , ( x 12 , x 22 , y 2 ) = (4 , 8 , 1) , ( x 13 , x 23 , y 3 ) = (6 , 5 , 3) , ( x 14 , x 24 , y 4 ) = (8 , 0 , 6) . a) Berechnen Sie die Regressionsparameter ˆ β 0 , ˆ β 1 und ˆ β 2 mit Hilfe der in der vorherigen Aufgabe hergeleiteten Berechnungsvorschriften. b) Berechnen Sie die Regressionsparameter mit Hilfe von Matrixoperationen. Ermitteln Sie auch die Regressionswerte und die Residuen. Hilfe: ( X ′ X ) − 1 = [ 3 . 328 − 0 . 407 − 0 . 261 − 0 . 407 0 . 063 0 . 022 − 0 . 261 0 . 022 0 . 037 ] 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 193 03.09.2019 13: 56: 47 <?page no="194"?> 194 11 Multiple Regressionsanalyse 11.7 R-Code R-11-1 ### Daten einlesen x1 <c(2,4,6,8) x2 <c(1,5,3,7) y <c(4,3,6,7) ### 3D-Plot library(scatterplot3d) scatterplot3d(x1, x2, y, xlab = "x1", ylab = "x2", zlab = "y", color = "darkgrey", pch = 20, type = "h", xlim = c(0,10), ylim = c(0,10), zlim = c(0,10)) ### Regression n <length(y) mx1 <mean(x1) mx2 <mean(x2) my <mean(y) x1s <x1-mx1 x2s <x2-mx2 ys <y-my # geschätzter Koeffizient für beta 1 b1 <- (sum(x2s^2) * sum(x1s*ys) sum(x1s*x2s) * sum(x2s*ys)) / (sum(x1s^2) * sum(x2s^2) sum(x1s*x2s)^2) b1 # geschätzter Koeffizient für beta 2 b2 <- (sum(x1s^2) * sum(x2s*ys) sum(x1s*x2s) * sum(x1s*ys)) / (sum(x1s^2) * sum(x2s^2) sum(x1s*x2s)^2) b2 # geschätzter Koeffizient für beta 0 b0 <my b1*mx1 b2*mx2; b0 # alternativ via lm() reg <lm(y ~ x1 + x2); reg ### Regressionsebene library(rockchalk) plotPlane(model = reg, plotx1 = "x1", plotx2 = "x2", drawArrows = TRUE, alwd = 1, pch = 19, pcol = 1, alength = 0.3, alty = 1, acol = "black", lcol = "darkgrey", ticktype = "detailed", cex.axis = 1) R-11-2 X <cbind(1, x1, x2) # geschätzte Koeffizienten beta <solve(t(X) %*% X) %*% t(X) %*% y; beta 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 194 03.09.2019 13: 56: 48 <?page no="195"?> 11 Multiple Regressionsanalyse Im vorangegangenen Kapitel haben wir eine einfache Variante der linearen Regression besprochen, bei der es nur eine erklärende Variable gibt. In diesem Kapitel besprechen wir eine Verallgemeinerung, bei der es zwei oder mehr erklärende Variablen geben kann. Diese multiple Regressionsanalyse ist das in den empirischen Wirtschafts- und Sozialwissenschaften am häufigsten verwendete Verfahren. 11.1 Das multiple Regressionsmodell . . . . . . . . . . . . . . . 176 11.1.1 Anpassungskriterium und Zielfunktion . . . . . . . 176 11.2 Das multiple Regressionsmodell in Matrixnotation . . . . . 178 11.3 Eine multiple Lohnregression . . . . . . . . . . . . . . . . 181 11.4 Partielle Regressionskoeffizienten und Residuenregressionen 182 11.5 Interaktionen erklärender Variablen . . . . . . . . . . . . . 183 11.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 185 11.7 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 11 1 1 M u l t i p l e R e g r e s s i o n s a n a l y s e I m v o r a n g e g a n g e n e n K a p i t e l h a b e n w i r e i n e e i n f a c h e V a r i a n t e d e r l i n e a r e n R e g r e s s i o n b e s p r o c h e n , b e i d e r e s n u r e i n e e r k l ä r e n d e V a r i a b l e g i b t . I n d i e s e m K a p i t e l b e s p r e c h e n w i r e i n e V e r a l l g e m e i n e r u n g , b e i d e r e s z w e i o d e r m e h r e r k l ä r e n d e V a r i a b l e n g e b e n k a n n . D i e s e m u l t i p l e R e g r e s s i o n s a n a l y s e i s t d a s i n d e n e m p i r i s c h e n W i r t s c h a f t s u n d S o z i a l w i s s e n s c h a f t e n a m h ä u fig s t e n v e r w e n d e t e V e r f a h r e n . 1 1 . 1 D a s m u l t i p l e R e g r e s s i o n s m o d e l l . . . . . . . . . . . . . . . 1 7 6 1 1 . 1 . 1 A n p a s s u n g s k r i t e r i u m u n d Z i e l f u n k t i o n . . . . . . . 1 7 6 1 1 . 2 D a s m u l t i p l e R e g r e s s i o n s m o d e l l i n M a t r i x n o t a t i o n . . . . . 1 7 8 1 1 . 3 E i n e m u l t i p l e L o h n r e g r e s s i o n . . . . . . . . . . . . . . . . 1 8 1 1 1 . 4 P a r t i e l l e R e g r e s s i o n s k o e ffi z i e n t e n u n d R e s i d u e n r e g r e s s i o n e n 1 8 2 1 1 . 5 I n t e r a k t i o n e n e r k l ä r e n d e r V a r i a b l e n . . . . . . . . . . . . . 1 8 3 1 1 . 6 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 1 8 5 1 1 . 7 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 8 6 1 1 1 1 M u l t i p l e R e g r e s s i o n s a n a l y s e I m v o r a n g e g a n g e n e n K a p i t e l h a b e n w i r e i n e e i n f a c h e V a r i a n t e d e r l i n e a r e n R e g r e s s i o n b e s p r o c h e n , b e i d e r e s n u r e i n e e r k l ä r e n d e V a r i a b l e g i b t . I n d i e s e m K a p i t e l b e s p r e c h e n w i r e i n e V e r a l l g e m e i n e r u n g , b e i d e r e s z w e i o d e r m e h r e r k l ä r e n d e V a r i a b l e n g e b e n k a n n . D i e s e m u l t i p l e R e g r e s s i o n s a n a l y s e i s t d a s i n d e n e m p i r i s c h e n W i r t s c h a f t s u n d S o z i a l w i s s e n s c h a f t e n a m h ä u fig s t e n v e r w e n d e t e V e r f a h r e n . 1 1 . 1 D a s m u l t i p l e R e g r e s s i o n s m o d e l l . . . . . . . . . . . . . . . 1 7 6 1 1 . 1 . 1 A n p a s s u n g s k r i t e r i u m u n d Z i e l f u n k t i o n . . . . . . . 1 7 6 1 1 . 2 D a s m u l t i p l e R e g r e s s i o n s m o d e l l i n M a t r i x n o t a t i o n . . . . . 1 7 8 1 1 . 3 E i n e m u l t i p l e L o h n r e g r e s s i o n . . . . . . . . . . . . . . . . 1 8 1 1 1 . 4 P a r t i e l l e R e g r e s s i o n s k o e ffi z i e n t e n u n d R e s i d u e n r e g r e s s i o n e n 1 8 2 1 1 . 5 I n t e r a k t i o n e n e r k l ä r e n d e r V a r i a b l e n . . . . . . . . . . . . . 1 8 3 1 1 . 6 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 1 8 5 1 1 . 7 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 8 6 1 1 11.7 R-Code 195 # Regressionswerte y.d <- X %*% beta; y.d # Residuen u.d <y - X %*% beta; u.d # Varianz der Residuen t(u.d) %*% u.d / n R-11-3 ## Daten einlesen d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) d <d[d$ostwest==0 & d$alter<=65 & d$alter>=30 ,] n <nrow(d) # Stundenlohn in Euro y <as.numeric(d$stlohn) # Ausbildungsjahre x1 <as.numeric(d$bildung) # Alter x2 <d$alter ## 3D-Plot library(scatterplot3d) scatterplot3d(x1, x2, y, color = "darkgrey", pch = 20, type = "h") ## Regression reg <lm(y ~ x1 + x2); reg R-11-4 # Korrelation von Ausbildungsjahren und Alter cor(x1, x2) # Koeffizient der Ausbildungsjahre über # Einzelregressionen berechnen reg.x1x2 <lm(x1 ~ x2); reg.x1x2 reg.yx1 <lm(y ~ x1) reg.yx2 <lm(y ~ x2); reg.yx2 u.x1x2 <reg.x1x2$resid u.yx2 <reg.yx2$resid reg2 <lm(u.yx2 ~ u.x1x2) reg2 R-11-5 # Regression mit Interaktion x3 <x1*x2 reg3 <lm(y ~ x1 + x2 + x3); reg3 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 195 03.09.2019 13: 56: 49 <?page no="196"?> 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 196 03.09.2019 13: 56: 49 <?page no="197"?> 12 Zeitreihen Viele statistische Variablen, mit denen wirtschaftliche Aktivitäten erfasst werden, werden als Zeitreihen dargestellt. Üblich ist die Messung und Darstellung für äquidistante (d.h. gleiche Abstände aufweisende) Beobachtungszeitpunkte, z. B. für Monate, Quartale oder Jahre. Die meisten ökonomischen Aktivitäten unterliegen dabei jahreszeitlichen Einflüssen. In der Zeitreihenanalyse wird versucht, verschiedene Komponenten der zeitlichen Entwicklung einer Zeitreihe zu identifizieren. 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 190 12.2 Komponenten von Zeitreihen . . . . . . . . . . . . . . . . 192 12.3 Trendermittlung . . . . . . . . . . . . . . . . . . . . . . . 193 12.3.1 Trendfunktionen . . . . . . . . . . . . . . . . . . . 194 12.3.2 Gleitende Durchschnitte . . . . . . . . . . . . . . . 195 12.4 Saisonbereinigung . . . . . . . . . . . . . . . . . . . . . . 197 12.4.1 Periodogrammverfahren . . . . . . . . . . . . . . . 198 12.4.2 Census- und Berliner Verfahren . . . . . . . . . . . 201 12.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 203 12.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 12 1 2 1 2 1 2 12 Zeitreihen Viele statistische Variablen, mit denen wirtschaftliche Aktivitäten erfasst werden, werden als Zeitreihen dargestellt. Üblich ist die Messung und Darstellung für äquidistante (d.h. gleiche Abstände aufweisende) Beobachtungszeitpunkte, z. B. für Monate, Quartale oder Jahre. Die meisten ökonomischen Aktivitäten unterliegen dabei jahreszeitlichen Einflüssen. In der Zeitreihenanalyse wird versucht, verschiedene Komponenten der zeitlichen Entwicklung einer Zeitreihe zu identifizieren. 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 198 12.2 Komponenten von Zeitreihen . . . . . . . . . . . . . . . . 200 12.3 Trendermittlung . . . . . . . . . . . . . . . . . . . . . . . 201 12.3.1 Trendfunktionen . . . . . . . . . . . . . . . . . . . 202 12.3.2 Gleitende Durchschnitte . . . . . . . . . . . . . . . 203 12.4 Saisonbereinigung . . . . . . . . . . . . . . . . . . . . . . 205 12.4.1 Periodogrammverfahren . . . . . . . . . . . . . . . 206 12.4.2 Census- und Berliner Verfahren . . . . . . . . . . . 209 12.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 211 12.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 197 03.09.2019 13: 56: 50 <?page no="198"?> 198 12 Zeitreihen 12.1 Einleitung Als Beispiel für eine Zeitreihe betrachten wir in diesem Kapitel durchgängig die zeitliche Entwicklung des Bruttoinlandsprodukts (BIP), für das vom Statistischen Bundesamt Vierteljahreswerte veröffentlicht werden. Das Bruttoinlandsprodukt quantifiziert die in einer Periode, hier in einem Vierteljahr, im Inland im Rahmen der Produktion entstandenen Einkommen. Über die reine Beschreibung der zeitlichen Entwicklung hinaus wird in der Zeitreihenanalyse versucht, mit Hilfe eines Modells verschiedene Komponenten der zeitlichen Entwicklung zu identifizieren. Weitere interessierende betriebswirtschaftliche und volkswirtschaftliche Sachverhalte, die in Form von Zeitreihen dargestellt werden, sind z. B. Entwicklungen von Preisindizes, von Aktienkursen und der Arbeitslosenquote. Zur Notation einer Zeitreihe verwenden wir eine Variable Y mit Werten y i ( i = 1 , . . . , n ). Diese Werte beziehen sich auf (meistens äquidistante) Zeitpunkte t i , wobei eine zeitliche Reihenfolge t 1 < t 2 < · · · < t n angenommen wird. Die beiden Abbildungen 12.1 und 12.2 zeigen die zeitliche Entwicklung der Vierteljahreswerte des preisbereinigten Bruttoinlandsprodukts, das als Index mit dem Basisjahr 2010 dargestellt wird, d.h. im Jahr 2010 hat der Index im Durchschnitt gerade den Wert 100. Abbildung 12.2 zeigt die Veränderungsrate ( w ) für jedes Quartal gegenüber dem Vorquartal. R-12-1 Die erste Abbildung zeigt einen langfristigen Anstieg von 90 . 6 Punkten zu Beginn des Jahres 2002 bis auf 115 . 7 im ersten Quartal des Jahres 2019. Auffällig sind die beiden starken Einbrüche im vierten Quartal 2008 und im ersten Quartal 2009 in Folge der internationalen Finanzkrise. Die Veränderungsraten betrugen hier gegenüber dem Vorquartal − 4 . 1 % und − 5 . 1 %. Der Einbruch der Einkommensentstehung (preisbereinigt) innerhalb eines halben Jahres vom ersten Quartal 2009 gegenüber dem dritten Quartal in 2008 um − 9 % ist bemerkenswert. Die Abbildung der prozentualen Veränderungsraten ( w ) lässt deutlich ein saisonales Muster erkennen. Die Veränderungsraten der vier Quartale unterscheiden sich deutlich. Tabelle 12.1 zeigt einige Maßzahlen, die diese Unterschiede quantifizieren (Mittelwert ¯ w , Median ˜ w 0 . 5 , Standardabweichung σ w und mittlere absolute Abwei- 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 198 03.09.2019 13: 56: 51 <?page no="199"?> 12 Zeitreihen Viele statistische Variablen, mit denen wirtschaftliche Aktivitäten erfasst werden, werden als Zeitreihen dargestellt. Üblich ist die Messung und Darstellung für äquidistante (d.h. gleiche Abstände aufweisende) Beobachtungszeitpunkte, z. B. für Monate, Quartale oder Jahre. Die meisten ökonomischen Aktivitäten unterliegen dabei jahreszeitlichen Einflüssen. In der Zeitreihenanalyse wird versucht, verschiedene Komponenten der zeitlichen Entwicklung einer Zeitreihe zu identifizieren. 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 190 12.2 Komponenten von Zeitreihen . . . . . . . . . . . . . . . . 192 12.3 Trendermittlung . . . . . . . . . . . . . . . . . . . . . . . 193 12.3.1 Trendfunktionen . . . . . . . . . . . . . . . . . . . 194 12.3.2 Gleitende Durchschnitte . . . . . . . . . . . . . . . 195 12.4 Saisonbereinigung . . . . . . . . . . . . . . . . . . . . . . 197 12.4.1 Periodogrammverfahren . . . . . . . . . . . . . . . 198 12.4.2 Census- und Berliner Verfahren . . . . . . . . . . . 201 12.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 203 12.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 12 1 2 1 2 1 2 12.1 Einleitung 199 Jahr Index 90 95 100 105 110 115 120 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 1. Quartal 2. Quartal 3. Quartal 4. Quartal Abbildung 12.1: Zeitliche Entwicklung der Vierteljahreswerte des preisbereinigten Bruttoinlandsprodukts. Jahr w -6 -4 -2 0 2 4 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 1. Quartal 2. Quartal 3. Quartal 4. Quartal Abbildung 12.2: Zeitliche Entwicklung des BIP - Veränderungsrate ( w ) für jedes Quartal gegenüber dem Vorquartal. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 199 03.09.2019 13: 56: 52 <?page no="200"?> 200 12 Zeitreihen Tabelle 12.1: Veränderungsrate des BIP. ¯ w ˜ w 0 . 5 σ w MA w 1. Quartal -0.33 -0.12 1.96 1.44 2. Quartal 0.85 1.14 1.17 0.99 3. Quartal 2.65 2.93 0.72 0.57 4. Quartal -1.64 -1.57 0.91 0.70 Alle 0.38 0.35 2.03 1.70 chung MA w der Veränderungsraten). Anhand der Mittelwerte lässt sich folgender typische Jahresverlauf charakterisieren: Im ersten Quartal sinkt das BIP leicht ( − 0 . 33 %). Im zweiten Quartal wächst das BIP verhalten (0 . 85 %) und im dritten Quartal kräftig (2 . 65 %). Im vierten Quartal folgt ein deutlicher Rückgang ( − 1 . 64 %). Die beiden Streuungsmaße ( σ w und MA w ) weisen aus, dass die Entwicklung im ersten Quartal über die Jahre besonders stark streut. Zu vermuten ist, dass im ersten Quartal der klimatische Einfluss in Form milder oder strenger Winter stark variiert. R-12-2 12.2 Komponenten von Zeitreihen Gedanklicher Ausgangspunkt der Zeitreihenanalyse ist die Vorstellung, dass sich die Werte der Zeitreihe als Summen oder als Produkte von vier Komponenten ergeben. Das additive Modell lässt sich in der Form y i = g i + k i + s i + u i , das multiplikative Modell in der Form y i = g i k i s i u i darstellen. Beide Modelle werden in der Praxis verwendet. Das Veröffentlichungsprogramm des Statistischen Bundesamtes umfasst sowohl mit dem Census X-12-ARIMA-Verfahren (multiplikatives Modell) als auch mit dem BV4.1-Verfahren (additives Modell) ermittelte Komponenten. Die vier Komponenten lassen sich folgendermaßen charakterisieren: Die glatte Komponente g i stellt die mittel- und längerfristi- 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 200 03.09.2019 13: 56: 53 <?page no="201"?> 12 Zeitreihen Viele statistische Variablen, mit denen wirtschaftliche Aktivitäten erfasst werden, werden als Zeitreihen dargestellt. Üblich ist die Messung und Darstellung für äquidistante (d.h. gleiche Abstände aufweisende) Beobachtungszeitpunkte, z. B. für Monate, Quartale oder Jahre. Die meisten ökonomischen Aktivitäten unterliegen dabei jahreszeitlichen Einflüssen. In der Zeitreihenanalyse wird versucht, verschiedene Komponenten der zeitlichen Entwicklung einer Zeitreihe zu identifizieren. 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 190 12.2 Komponenten von Zeitreihen . . . . . . . . . . . . . . . . 192 12.3 Trendermittlung . . . . . . . . . . . . . . . . . . . . . . . 193 12.3.1 Trendfunktionen . . . . . . . . . . . . . . . . . . . 194 12.3.2 Gleitende Durchschnitte . . . . . . . . . . . . . . . 195 12.4 Saisonbereinigung . . . . . . . . . . . . . . . . . . . . . . 197 12.4.1 Periodogrammverfahren . . . . . . . . . . . . . . . 198 12.4.2 Census- und Berliner Verfahren . . . . . . . . . . . 201 12.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 203 12.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 12 1 2 Z e i t r e i h e n V i e l e s t a t i s t i s c h e V a r i a b l e n , m i t d e n e n w i r t s c h a f t l i c h e A k t i v i t ä t e n e r f a s s t w e r d e n , w e r d e n a l s Z e i t r e i h e n d a r g e s t e l l t . Ü b l i c h i s t d i e M e s s u n g u n d D a r s t e l l u n g f ü r ä q u i d i s t a n t e ( d . h . g l e i c h e A b s t ä n d e a u f w e i s e n d e ) B e o b a c h t u n g s z e i t p u n k t e , z . B . f ü r M o n a t e , Q u a r t a l e o d e r J a h r e . D i e m e i s t e n ö k o n o m i s c h e n A k t i v i t ä t e n u n t e r l i e g e n d a b e i j a h r e s z e i t l i c h e n E i n flü s s e n . I n d e r Z e i t r e i h e n a n a l y s e w i r d v e r s u c h t , v e r s c h i e d e n e K o m p o n e n t e n d e r z e i t l i c h e n E n t w i c k l u n g e i n e r Z e i t r e i h e z u i d e n t i fiz i e r e n . 1 2 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 9 0 1 2 . 2 K o m p o n e n t e n v o n Z e i t r e i h e n . . . . . . . . . . . . . . . . 1 9 2 1 2 . 3 T r e n d e r m i t t l u n g . . . . . . . . . . . . . . . . . . . . . . . 1 9 3 1 2 . 3 . 1 T r e n d f u n k t i o n e n . . . . . . . . . . . . . . . . . . . 1 9 4 1 2 . 3 . 2 G l e i t e n d e D u r c h s c h n i t t e . . . . . . . . . . . . . . . 1 9 5 1 2 . 4 S a i s o n b e r e i n i g u n g . . . . . . . . . . . . . . . . . . . . . . 1 9 7 1 2 . 4 . 1 P e r i o d o g r a m m v e r f a h r e n . . . . . . . . . . . . . . . 1 9 8 1 2 . 4 . 2 C e n s u s u n d B e r l i n e r V e r f a h r e n . . . . . . . . . . . 2 0 1 1 2 . 5 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 3 1 2 . 6 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 6 1 2 1 2 Z e i t r e i h e n V i e l e s t a t i s t i s c h e V a r i a b l e n , m i t d e n e n w i r t s c h a f t l i c h e A k t i v i t ä t e n e r f a s s t w e r d e n , w e r d e n a l s Z e i t r e i h e n d a r g e s t e l l t . Ü b l i c h i s t d i e M e s s u n g u n d D a r s t e l l u n g f ü r ä q u i d i s t a n t e ( d . h . g l e i c h e A b s t ä n d e a u f w e i s e n d e ) B e o b a c h t u n g s z e i t p u n k t e , z . B . f ü r M o n a t e , Q u a r t a l e o d e r J a h r e . D i e m e i s t e n ö k o n o m i s c h e n A k t i v i t ä t e n u n t e r l i e g e n d a b e i j a h r e s z e i t l i c h e n E i n flü s s e n . I n d e r Z e i t r e i h e n a n a l y s e w i r d v e r s u c h t , v e r s c h i e d e n e K o m p o n e n t e n d e r z e i t l i c h e n E n t w i c k l u n g e i n e r Z e i t r e i h e z u i d e n t i fiz i e r e n . 1 2 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 9 0 1 2 . 2 K o m p o n e n t e n v o n Z e i t r e i h e n . . . . . . . . . . . . . . . . 1 9 2 1 2 . 3 T r e n d e r m i t t l u n g . . . . . . . . . . . . . . . . . . . . . . . 1 9 3 1 2 . 3 . 1 T r e n d f u n k t i o n e n . . . . . . . . . . . . . . . . . . . 1 9 4 1 2 . 3 . 2 G l e i t e n d e D u r c h s c h n i t t e . . . . . . . . . . . . . . . 1 9 5 1 2 . 4 S a i s o n b e r e i n i g u n g . . . . . . . . . . . . . . . . . . . . . . 1 9 7 1 2 . 4 . 1 P e r i o d o g r a m m v e r f a h r e n . . . . . . . . . . . . . . . 1 9 8 1 2 . 4 . 2 C e n s u s u n d B e r l i n e r V e r f a h r e n . . . . . . . . . . . 2 0 1 1 2 . 5 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 3 1 2 . 6 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 6 1 2 1 2 Z e i t r e i h e n V i e l e s t a t i s t i s c h e V a r i a b l e n , m i t d e n e n w i r t s c h a f t l i c h e A k t i v i t ä t e n e r f a s s t w e r d e n , w e r d e n a l s Z e i t r e i h e n d a r g e s t e l l t . Ü b l i c h i s t d i e M e s s u n g u n d D a r s t e l l u n g f ü r ä q u i d i s t a n t e ( d . h . g l e i c h e A b s t ä n d e a u f w e i s e n d e ) B e o b a c h t u n g s z e i t p u n k t e , z . B . f ü r M o n a t e , Q u a r t a l e o d e r J a h r e . D i e m e i s t e n ö k o n o m i s c h e n A k t i v i t ä t e n u n t e r l i e g e n d a b e i j a h r e s z e i t l i c h e n E i n flü s s e n . I n d e r Z e i t r e i h e n a n a l y s e w i r d v e r s u c h t , v e r s c h i e d e n e K o m p o n e n t e n d e r z e i t l i c h e n E n t w i c k l u n g e i n e r Z e i t r e i h e z u i d e n t i fiz i e r e n . 1 2 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 9 0 1 2 . 2 K o m p o n e n t e n v o n Z e i t r e i h e n . . . . . . . . . . . . . . . . 1 9 2 1 2 . 3 T r e n d e r m i t t l u n g . . . . . . . . . . . . . . . . . . . . . . . 1 9 3 1 2 . 3 . 1 T r e n d f u n k t i o n e n . . . . . . . . . . . . . . . . . . . 1 9 4 1 2 . 3 . 2 G l e i t e n d e D u r c h s c h n i t t e . . . . . . . . . . . . . . . 1 9 5 1 2 . 4 S a i s o n b e r e i n i g u n g . . . . . . . . . . . . . . . . . . . . . . 1 9 7 1 2 . 4 . 1 P e r i o d o g r a m m v e r f a h r e n . . . . . . . . . . . . . . . 1 9 8 1 2 . 4 . 2 C e n s u s u n d B e r l i n e r V e r f a h r e n . . . . . . . . . . . 2 0 1 1 2 . 5 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 3 1 2 . 6 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 6 1 2 12.3 Trendermittlung 201 gen Entwicklung dar. In der glatten Komponente sind sowohl die langfristige Trendals auch die mittelfristige (i.d.R. mehrjährige) Konjunkturentwicklung zusammengefasst. Die Kalenderkomponente k i erfasst Abweichungen, die durch unterschiedliche Anzahlen an Arbeitstagen bedingt sind. Das Statistische Bundesamt ermittelt sog. Normperioden, d.h. übliche Anzahlen an Arbeitstagen für verschiedene Perioden. Ein Durchschnittsmonat hat 20 . 8 , ein Durchschnittsquartal hat 62 . 4 und ein Durchschnittsjahr hat 249 . 7 Arbeitstage. Aufgrund von Vor- und Nachholeffekten sind die tatsächlichen Abweichungen in den betrachteten Größen (z. B. das Bruttoinlandsprodukt) geringer als die arbeitstäglichen Unterschiede. Die meisten Zeitreihen weisen eine saisonale Komponente s i auf. Saisonschwankungen sind regelmäßige unterjährige Schwankungen. Ursachen sind meist klimatische Bedingungen, die sich auf wirtschaftliche Aktivitäten auswirken (Urlaubsreisen, Bautätigkeit, etc.). Die Restkomponente u i beinhaltet Einflüsse, die nicht durch die drei anderen Komponenten erfasst werden. In ihr sind auch Sondereinflüsse wie Streiks, Wettereinflüsse u.ä. enthalten. Üblich ist die Modellannahme, dass für eine ausreichende Anzahl an Beobachtungen die Restkomponente keinen Trend aufweist, so dass der Mittelwert der u i -Werte im additiven Modell 0 und im multiplikativen Modell 1 ist. Abbildung 12.3 zeigt für das preisbereinigte BIP die zeitliche Entwicklung der vier Komponenten, die ausgehend von einem multiplikativen Modell mit dem X-12-ARIMA-Verfahren berechnet wurden. 1 R-12-3 12.3 Trendermittlung Bei der Berechnung der glatten Komponente können verschiedene Methoden verwendet werden. Bei einem globalen Ansatz werden zur Berechnung eines Trendwerts g i alle n Beobachtungswerte verwendet. Dies ist z. B. der Fall, wenn ein Trend mit der Methode 1 Statistisches Bundesamt, Fachserie 18 Reihe 1.3, Volkswirtschaftliche Gesamtrechnungen, Inlandsproduktsberechnung, Saisonbereinigte Vierteljahresergebnisse nach Census X-12-ARIMA und BV4.1, 1. Vierteljahr 2019, Tabelle 1.2, Wiesbaden 2019. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 201 03.09.2019 13: 56: 54 <?page no="202"?> 202 12 Zeitreihen Jahr Index 90 95 100 110 120 2002 2004 2006 2008 2010 2012 2014 2016 2018 (a) glatte Komponenten Jahr Index 0.98 0.99 1 1.01 1.02 2002 2004 2006 2008 2010 2012 2014 2016 2018 (b) Saisonkomponenten Jahr Index 0.994 1.002 1.01 2002 2004 2006 2008 2010 2012 2014 2016 2018 (c) Kalenderkomponente Jahr Index 0.996 1 1.004 2002 2004 2006 2008 2010 2012 2014 2016 2018 (d) Restkomponente Abbildung 12.3: Komponenten des X-12-ARIMA-Verfahrens. der kleinsten Quadrate durch eine Regressionsfunktion bestimmt wird. Alternativ kann ein lokaler Ansatz verwendet werden. Bei diesem Ansatz werden zur Berechnung eines Trendwertes g i nur y i und einige zeitlich benachbarte Werte von y i verwendet. Als Beispiel besprechen wir weiter unten die Methode der gleitenden Durchschnitte. 12.3.1 Trendfunktionen Als Trendfunktion kann im einfachsten Fall ein linearer Trend mit der Methode der kleinsten Quadrate berechnet werden. Als erklärende Variable werden die Zeitpunkte t i verwendet. Die er- 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 202 03.09.2019 13: 56: 54 <?page no="203"?> 12 Zeitreihen Viele statistische Variablen, mit denen wirtschaftliche Aktivitäten erfasst werden, werden als Zeitreihen dargestellt. Üblich ist die Messung und Darstellung für äquidistante (d.h. gleiche Abstände aufweisende) Beobachtungszeitpunkte, z. B. für Monate, Quartale oder Jahre. Die meisten ökonomischen Aktivitäten unterliegen dabei jahreszeitlichen Einflüssen. In der Zeitreihenanalyse wird versucht, verschiedene Komponenten der zeitlichen Entwicklung einer Zeitreihe zu identifizieren. 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 190 12.2 Komponenten von Zeitreihen . . . . . . . . . . . . . . . . 192 12.3 Trendermittlung . . . . . . . . . . . . . . . . . . . . . . . 193 12.3.1 Trendfunktionen . . . . . . . . . . . . . . . . . . . 194 12.3.2 Gleitende Durchschnitte . . . . . . . . . . . . . . . 195 12.4 Saisonbereinigung . . . . . . . . . . . . . . . . . . . . . . 197 12.4.1 Periodogrammverfahren . . . . . . . . . . . . . . . 198 12.4.2 Census- und Berliner Verfahren . . . . . . . . . . . 201 12.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 203 12.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 12 1 2 1 2 1 2 12.3 Trendermittlung 203 Jahr Index 90 95 100 105 110 115 120 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 Originalwerte Lineare Trendfkt. Polynom 13.-Grades Abbildung 12.4: Arten von Trendfunktionen. mittelten Regressionswerte ergeben dann die Werte der glatten Komponente g i . In der Abbildung 12.4 ist eine so berechnete lineare Trendfunktion eingezeichnet. Man erkennt, dass die Gerade die lang- und mittelfristige Entwicklung nur unzureichend nachzeichnet. Zusätzlich ist ein Polynom (vom Grad 13) eingezeichnet, das sehr viel flexibler ist. Aber auch dieses hochgradige Polynom macht die Entwicklung während der Krise Ende 2008/ Anfang 2009 nur unzureichend sichtbar. R-12-4 12.3.2 Gleitende Durchschnitte Eine Alternative zu parametrischen Trendfunktionen sind gleitende Durchschnitte. Zu einem Zeitpunkt t i wird als Ausgleichswert ein arithmetisches Mittel aus den λ um die Zeitstelle liegenden Y − Werten berechnet. Je größer λ gewählt wird, desto stärker ist die Glättung. Enthält die Zeitreihe eine Saisonkomponente, sollte λ so gewählt werden, dass es ein Vielfaches der Zahl der Phasen ist. Bei Quartalswerten, d.h. einer Zeitreihe mit vier Phasen, sollte λ demnach ein Vielfaches von vier sein. Bei einem ungeraden Wert von λ werden neben y i auch die 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 203 03.09.2019 13: 56: 56 <?page no="204"?> 204 12 Zeitreihen l = ( λ − 1) / 2 Y-Werte links und rechts von y i berücksichtigt. Als Trendwert ergibt sich dann g i = 1 2 l + 1 ( y i − l + . . . + y i + . . . + y i + l ) . Wenn λ eine gerade Zahl ist, werden zwar λ +1 Werte verwendet (so dass λ + 1 = 2 l + 1 ist), jedoch werden die beiden Randwerte jeweils mit dem Faktor 0 . 5 gewichtet, so dass ein gewichteter Mittelwert entsteht g i = 1 2 l (0 . 5 y i − l + y i − l +1 + . . . + y i + . . . + y i + l − 1 + 0 . 5 y i + l ) . Wird z. B. für das dritte Quartal 2015 ein gleitendes 4er-Mittel berechnet, gehen in den Wert g i das zweite, dritte und vierte Quartal aus 2015 mit einem Gewicht von 1, die beiden ersten Quartale von 2015 und 2016 mit einem Gewicht von jeweils 0 . 5 ein. Gleitende Durchschnittswerte enthalten fast nur eine glatte Komponente , weil sich die übrigen drei Komponenten annahmegemäß über vier Phasen weitgehend ausgleichen. Dies lässt sich folgendermaßen darstellen: g i = 1 2 l (0 . 5 y i − l + . . . + y i + . . . + . 0 . 5 y i + l ) = 1 2 l ( 0 . 5 y i − l + j = i + l − 1 ∑ j = i − l +1 y j + 0 . 5 y i + l ) Ersetzt man nun die y -Werte durch den theoretischen Ansatz g + k + s + u , findet man g i = 1 2 l ( 0 . 5 g i − l + j = i + l − 1 ∑ j = i − l +1 g j + 0 . 5 g i + l ) + 1 2 l ( 0 . 5 k i − l + j = i + l − 1 ∑ j = i − l +1 k j + 0 . 5 k i + l ) + 1 2 l ( 0 . 5 s i − l + j = i + l − 1 ∑ j = i − l +1 s j + 0 . 5 s i + l ) 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 204 03.09.2019 13: 56: 57 <?page no="205"?> 12 Zeitreihen Viele statistische Variablen, mit denen wirtschaftliche Aktivitäten erfasst werden, werden als Zeitreihen dargestellt. Üblich ist die Messung und Darstellung für äquidistante (d.h. gleiche Abstände aufweisende) Beobachtungszeitpunkte, z. B. für Monate, Quartale oder Jahre. Die meisten ökonomischen Aktivitäten unterliegen dabei jahreszeitlichen Einflüssen. In der Zeitreihenanalyse wird versucht, verschiedene Komponenten der zeitlichen Entwicklung einer Zeitreihe zu identifizieren. 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 190 12.2 Komponenten von Zeitreihen . . . . . . . . . . . . . . . . 192 12.3 Trendermittlung . . . . . . . . . . . . . . . . . . . . . . . 193 12.3.1 Trendfunktionen . . . . . . . . . . . . . . . . . . . 194 12.3.2 Gleitende Durchschnitte . . . . . . . . . . . . . . . 195 12.4 Saisonbereinigung . . . . . . . . . . . . . . . . . . . . . . 197 12.4.1 Periodogrammverfahren . . . . . . . . . . . . . . . 198 12.4.2 Census- und Berliner Verfahren . . . . . . . . . . . 201 12.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 203 12.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 12 1 2 Z e i t r e i h e n V i e l e s t a t i s t i s c h e V a r i a b l e n , m i t d e n e n w i r t s c h a f t l i c h e A k t i v i t ä t e n e r f a s s t w e r d e n , w e r d e n a l s Z e i t r e i h e n d a r g e s t e l l t . Ü b l i c h i s t d i e M e s s u n g u n d D a r s t e l l u n g f ü r ä q u i d i s t a n t e ( d . h . g l e i c h e A b s t ä n d e a u f w e i s e n d e ) B e o b a c h t u n g s z e i t p u n k t e , z . B . f ü r M o n a t e , Q u a r t a l e o d e r J a h r e . D i e m e i s t e n ö k o n o m i s c h e n A k t i v i t ä t e n u n t e r l i e g e n d a b e i j a h r e s z e i t l i c h e n E i n flü s s e n . I n d e r Z e i t r e i h e n a n a l y s e w i r d v e r s u c h t , v e r s c h i e d e n e K o m p o n e n t e n d e r z e i t l i c h e n E n t w i c k l u n g e i n e r Z e i t r e i h e z u i d e n t i fiz i e r e n . 1 2 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 9 0 1 2 . 2 K o m p o n e n t e n v o n Z e i t r e i h e n . . . . . . . . . . . . . . . . 1 9 2 1 2 . 3 T r e n d e r m i t t l u n g . . . . . . . . . . . . . . . . . . . . . . . 1 9 3 1 2 . 3 . 1 T r e n d f u n k t i o n e n . . . . . . . . . . . . . . . . . . . 1 9 4 1 2 . 3 . 2 G l e i t e n d e D u r c h s c h n i t t e . . . . . . . . . . . . . . . 1 9 5 1 2 . 4 S a i s o n b e r e i n i g u n g . . . . . . . . . . . . . . . . . . . . . . 1 9 7 1 2 . 4 . 1 P e r i o d o g r a m m v e r f a h r e n . . . . . . . . . . . . . . . 1 9 8 1 2 . 4 . 2 C e n s u s u n d B e r l i n e r V e r f a h r e n . . . . . . . . . . . 2 0 1 1 2 . 5 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 3 1 2 . 6 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 6 1 2 1 2 Z e i t r e i h e n V i e l e s t a t i s t i s c h e V a r i a b l e n , m i t d e n e n w i r t s c h a f t l i c h e A k t i v i t ä t e n e r f a s s t w e r d e n , w e r d e n a l s Z e i t r e i h e n d a r g e s t e l l t . Ü b l i c h i s t d i e M e s s u n g u n d D a r s t e l l u n g f ü r ä q u i d i s t a n t e ( d . h . g l e i c h e A b s t ä n d e a u f w e i s e n d e ) B e o b a c h t u n g s z e i t p u n k t e , z . B . f ü r M o n a t e , Q u a r t a l e o d e r J a h r e . D i e m e i s t e n ö k o n o m i s c h e n A k t i v i t ä t e n u n t e r l i e g e n d a b e i j a h r e s z e i t l i c h e n E i n flü s s e n . I n d e r Z e i t r e i h e n a n a l y s e w i r d v e r s u c h t , v e r s c h i e d e n e K o m p o n e n t e n d e r z e i t l i c h e n E n t w i c k l u n g e i n e r Z e i t r e i h e z u i d e n t i fiz i e r e n . 1 2 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 9 0 1 2 . 2 K o m p o n e n t e n v o n Z e i t r e i h e n . . . . . . . . . . . . . . . . 1 9 2 1 2 . 3 T r e n d e r m i t t l u n g . . . . . . . . . . . . . . . . . . . . . . . 1 9 3 1 2 . 3 . 1 T r e n d f u n k t i o n e n . . . . . . . . . . . . . . . . . . . 1 9 4 1 2 . 3 . 2 G l e i t e n d e D u r c h s c h n i t t e . . . . . . . . . . . . . . . 1 9 5 1 2 . 4 S a i s o n b e r e i n i g u n g . . . . . . . . . . . . . . . . . . . . . . 1 9 7 1 2 . 4 . 1 P e r i o d o g r a m m v e r f a h r e n . . . . . . . . . . . . . . . 1 9 8 1 2 . 4 . 2 C e n s u s u n d B e r l i n e r V e r f a h r e n . . . . . . . . . . . 2 0 1 1 2 . 5 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 3 1 2 . 6 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 6 1 2 1 2 Z e i t r e i h e n V i e l e s t a t i s t i s c h e V a r i a b l e n , m i t d e n e n w i r t s c h a f t l i c h e A k t i v i t ä t e n e r f a s s t w e r d e n , w e r d e n a l s Z e i t r e i h e n d a r g e s t e l l t . Ü b l i c h i s t d i e M e s s u n g u n d D a r s t e l l u n g f ü r ä q u i d i s t a n t e ( d . h . g l e i c h e A b s t ä n d e a u f w e i s e n d e ) B e o b a c h t u n g s z e i t p u n k t e , z . B . f ü r M o n a t e , Q u a r t a l e o d e r J a h r e . D i e m e i s t e n ö k o n o m i s c h e n A k t i v i t ä t e n u n t e r l i e g e n d a b e i j a h r e s z e i t l i c h e n E i n flü s s e n . I n d e r Z e i t r e i h e n a n a l y s e w i r d v e r s u c h t , v e r s c h i e d e n e K o m p o n e n t e n d e r z e i t l i c h e n E n t w i c k l u n g e i n e r Z e i t r e i h e z u i d e n t i fiz i e r e n . 1 2 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 9 0 1 2 . 2 K o m p o n e n t e n v o n Z e i t r e i h e n . . . . . . . . . . . . . . . . 1 9 2 1 2 . 3 T r e n d e r m i t t l u n g . . . . . . . . . . . . . . . . . . . . . . . 1 9 3 1 2 . 3 . 1 T r e n d f u n k t i o n e n . . . . . . . . . . . . . . . . . . . 1 9 4 1 2 . 3 . 2 G l e i t e n d e D u r c h s c h n i t t e . . . . . . . . . . . . . . . 1 9 5 1 2 . 4 S a i s o n b e r e i n i g u n g . . . . . . . . . . . . . . . . . . . . . . 1 9 7 1 2 . 4 . 1 P e r i o d o g r a m m v e r f a h r e n . . . . . . . . . . . . . . . 1 9 8 1 2 . 4 . 2 C e n s u s u n d B e r l i n e r V e r f a h r e n . . . . . . . . . . . 2 0 1 1 2 . 5 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 3 1 2 . 6 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 6 1 2 12.4 Saisonbereinigung 205 + 1 2 l ( 0 . 5 u i − l + j = i + l − 1 ∑ j = i − l +1 u j + 0 . 5 u i + l ) . Der weitgehende Ausgleich von Kalender-, Saison- und Restkomponente ist eine vorteilhafte Eigenschaft der gleitenden Durchschnitte. Problematisch ist jedoch, dass am Reihenanfang und -ende jeweils l Werte verloren gehen. Damit sind gleitende Mittelwerte für Beurteilungen der aktuellen Entwicklung nicht geeignet. Um eine stärkere Glättung zu erreichen, kann entweder ein höherer Wert für λ gewählt werden, oder es kann auf die gleitenden Durchschnitte erneut eine gleitende Mittelung angewendet werden. Zur Illustration zeigt Abbildung 12.5 neben den Ursprungswerten die ein- und zweifach gemittelten 4er-Mittel und ein 8er-Mittel. Zu beachten ist, dass bei dem 4er-Mittel am Reihenanfang und am Reihenende jeweils zwei und bei dem hintereinander geschalteten 4er-Mittel und dem 8er-Mittel jeweils 4 Werte nicht berechnet werden können. Es ist ersichtlich, dass der Glättungseffekt bei der doppelten 4er Mittelung aufgrund der höheren Gewichtung der zentralen Werte geringer als bei dem einfachen 8er Mittel ist. R-12-5 12.4 Saisonbereinigung Im Rahmen der Konjunkturbeobachtung ist das Interesse auf die Entwicklung der mittel- und längerfristigen Komponente gerichtet. Der saisonale Einfluss wird als störend betrachtet, so dass man durch eine Saisonbereinigung eine Eliminierung der Saisonkomponte erreichen möchte. Zu beachten ist natürlich, dass die Saisonkomponente (wie auch die anderen Komponenten) durch das jeweils verwendete Modell definiert wird. In Deutschland werden vom Statistischen Bundesamt für jedes Quartal zwei saisonbereinigte Werte veröffentlicht, die auf Basis zweier unterschiedlicher Verfahren berechnet werden. Das Berliner-Verfahren (BV4.1) beruht auf einem additiven Modell und einem parametrischen Ansatz zur Ermittlung der glatten Komponente. Das Census-Verfahren (X-12-ARIMA) beruht auf einem multiplikativen Modell und verwendet eine gleitende Mittelung zur Ermittlung der glatten Komponente. Im Folgenden betrachten 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 205 03.09.2019 13: 56: 57 <?page no="206"?> 206 12 Zeitreihen Jahr Index 90 95 100 105 110 115 120 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 Originalwerte 4er-Mittel 4er-Mittel der 4er-Mittel 8er-Mittel Abbildung 12.5: Ursprungswerte, ein- und zweifach gemittelte 4er-Mittel und ein 8er-Mittel. wir das Periodogrammverfahren, das eine vereinfachte Variante des Census-Verfahrens darstellt. 12.4.1 Periodogrammverfahren Wir verwenden jetzt anstelle von y i den Ausdruck y jk , wobei j der Index für das Jahr und k der Index für die Phase (Quartale) ist. Beispielsweise ist y 2 , 1 der erste Quartalswert des Jahres 2002. Das vereinfachte Verfahren beruht auf dem multiplikativen Modell und der Annahme einer zeitlich stabilen Saisonfigur, so dass s jk = s k gilt. Das Verfahren enthält fünf Schritte: (1) Ermittlung der glatten Komponente durch gleitende Mittelung. (2) Bereinigung der Originalwerte um die glatte Komponente (Trendbereinigung). (3) Ermittlung der mittleren relativen Trendabweichungen der Phasen (Quartale). (4) Normierung der mittleren relativen Trendabweichungen. (5) Ermittlung von saisonbereinigten Werten. Für die Ermittlung der glatten Komponente ( g jk ) wählen wir ein gleitendes 4er-Mittel (Schritt 1). Die Trendbereinigung 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 206 03.09.2019 13: 56: 58 <?page no="207"?> 12 Zeitreihen Viele statistische Variablen, mit denen wirtschaftliche Aktivitäten erfasst werden, werden als Zeitreihen dargestellt. Üblich ist die Messung und Darstellung für äquidistante (d.h. gleiche Abstände aufweisende) Beobachtungszeitpunkte, z. B. für Monate, Quartale oder Jahre. Die meisten ökonomischen Aktivitäten unterliegen dabei jahreszeitlichen Einflüssen. In der Zeitreihenanalyse wird versucht, verschiedene Komponenten der zeitlichen Entwicklung einer Zeitreihe zu identifizieren. 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 190 12.2 Komponenten von Zeitreihen . . . . . . . . . . . . . . . . 192 12.3 Trendermittlung . . . . . . . . . . . . . . . . . . . . . . . 193 12.3.1 Trendfunktionen . . . . . . . . . . . . . . . . . . . 194 12.3.2 Gleitende Durchschnitte . . . . . . . . . . . . . . . 195 12.4 Saisonbereinigung . . . . . . . . . . . . . . . . . . . . . . 197 12.4.1 Periodogrammverfahren . . . . . . . . . . . . . . . 198 12.4.2 Census- und Berliner Verfahren . . . . . . . . . . . 201 12.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 203 12.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 12 1 2 Z e i t r e i h e n V i e l e s t a t i s t i s c h e V a r i a b l e n , m i t d e n e n w i r t s c h a f t l i c h e A k t i v i t ä t e n e r f a s s t w e r d e n , w e r d e n a l s Z e i t r e i h e n d a r g e s t e l l t . Ü b l i c h i s t d i e M e s s u n g u n d D a r s t e l l u n g f ü r ä q u i d i s t a n t e ( d . h . g l e i c h e A b s t ä n d e a u f w e i s e n d e ) B e o b a c h t u n g s z e i t p u n k t e , z . B . f ü r M o n a t e , Q u a r t a l e o d e r J a h r e . D i e m e i s t e n ö k o n o m i s c h e n A k t i v i t ä t e n u n t e r l i e g e n d a b e i j a h r e s z e i t l i c h e n E i n flü s s e n . I n d e r Z e i t r e i h e n a n a l y s e w i r d v e r s u c h t , v e r s c h i e d e n e K o m p o n e n t e n d e r z e i t l i c h e n E n t w i c k l u n g e i n e r Z e i t r e i h e z u i d e n t i fiz i e r e n . 1 2 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 9 0 1 2 . 2 K o m p o n e n t e n v o n Z e i t r e i h e n . . . . . . . . . . . . . . . . 1 9 2 1 2 . 3 T r e n d e r m i t t l u n g . . . . . . . . . . . . . . . . . . . . . . . 1 9 3 1 2 . 3 . 1 T r e n d f u n k t i o n e n . . . . . . . . . . . . . . . . . . . 1 9 4 1 2 . 3 . 2 G l e i t e n d e D u r c h s c h n i t t e . . . . . . . . . . . . . . . 1 9 5 1 2 . 4 S a i s o n b e r e i n i g u n g . . . . . . . . . . . . . . . . . . . . . . 1 9 7 1 2 . 4 . 1 P e r i o d o g r a m m v e r f a h r e n . . . . . . . . . . . . . . . 1 9 8 1 2 . 4 . 2 C e n s u s u n d B e r l i n e r V e r f a h r e n . . . . . . . . . . . 2 0 1 1 2 . 5 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 3 1 2 . 6 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 6 1 2 1 2 Z e i t r e i h e n V i e l e s t a t i s t i s c h e V a r i a b l e n , m i t d e n e n w i r t s c h a f t l i c h e A k t i v i t ä t e n e r f a s s t w e r d e n , w e r d e n a l s Z e i t r e i h e n d a r g e s t e l l t . Ü b l i c h i s t d i e M e s s u n g u n d D a r s t e l l u n g f ü r ä q u i d i s t a n t e ( d . h . g l e i c h e A b s t ä n d e a u f w e i s e n d e ) B e o b a c h t u n g s z e i t p u n k t e , z . B . f ü r M o n a t e , Q u a r t a l e o d e r J a h r e . D i e m e i s t e n ö k o n o m i s c h e n A k t i v i t ä t e n u n t e r l i e g e n d a b e i j a h r e s z e i t l i c h e n E i n flü s s e n . I n d e r Z e i t r e i h e n a n a l y s e w i r d v e r s u c h t , v e r s c h i e d e n e K o m p o n e n t e n d e r z e i t l i c h e n E n t w i c k l u n g e i n e r Z e i t r e i h e z u i d e n t i fiz i e r e n . 1 2 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 9 0 1 2 . 2 K o m p o n e n t e n v o n Z e i t r e i h e n . . . . . . . . . . . . . . . . 1 9 2 1 2 . 3 T r e n d e r m i t t l u n g . . . . . . . . . . . . . . . . . . . . . . . 1 9 3 1 2 . 3 . 1 T r e n d f u n k t i o n e n . . . . . . . . . . . . . . . . . . . 1 9 4 1 2 . 3 . 2 G l e i t e n d e D u r c h s c h n i t t e . . . . . . . . . . . . . . . 1 9 5 1 2 . 4 S a i s o n b e r e i n i g u n g . . . . . . . . . . . . . . . . . . . . . . 1 9 7 1 2 . 4 . 1 P e r i o d o g r a m m v e r f a h r e n . . . . . . . . . . . . . . . 1 9 8 1 2 . 4 . 2 C e n s u s u n d B e r l i n e r V e r f a h r e n . . . . . . . . . . . 2 0 1 1 2 . 5 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 3 1 2 . 6 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 6 1 2 1 2 Z e i t r e i h e n V i e l e s t a t i s t i s c h e V a r i a b l e n , m i t d e n e n w i r t s c h a f t l i c h e A k t i v i t ä t e n e r f a s s t w e r d e n , w e r d e n a l s Z e i t r e i h e n d a r g e s t e l l t . Ü b l i c h i s t d i e M e s s u n g u n d D a r s t e l l u n g f ü r ä q u i d i s t a n t e ( d . h . g l e i c h e A b s t ä n d e a u f w e i s e n d e ) B e o b a c h t u n g s z e i t p u n k t e , z . B . f ü r M o n a t e , Q u a r t a l e o d e r J a h r e . D i e m e i s t e n ö k o n o m i s c h e n A k t i v i t ä t e n u n t e r l i e g e n d a b e i j a h r e s z e i t l i c h e n E i n flü s s e n . I n d e r Z e i t r e i h e n a n a l y s e w i r d v e r s u c h t , v e r s c h i e d e n e K o m p o n e n t e n d e r z e i t l i c h e n E n t w i c k l u n g e i n e r Z e i t r e i h e z u i d e n t i fiz i e r e n . 1 2 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 9 0 1 2 . 2 K o m p o n e n t e n v o n Z e i t r e i h e n . . . . . . . . . . . . . . . . 1 9 2 1 2 . 3 T r e n d e r m i t t l u n g . . . . . . . . . . . . . . . . . . . . . . . 1 9 3 1 2 . 3 . 1 T r e n d f u n k t i o n e n . . . . . . . . . . . . . . . . . . . 1 9 4 1 2 . 3 . 2 G l e i t e n d e D u r c h s c h n i t t e . . . . . . . . . . . . . . . 1 9 5 1 2 . 4 S a i s o n b e r e i n i g u n g . . . . . . . . . . . . . . . . . . . . . . 1 9 7 1 2 . 4 . 1 P e r i o d o g r a m m v e r f a h r e n . . . . . . . . . . . . . . . 1 9 8 1 2 . 4 . 2 C e n s u s u n d B e r l i n e r V e r f a h r e n . . . . . . . . . . . 2 0 1 1 2 . 5 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 3 1 2 . 6 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 6 1 2 12.4 Saisonbereinigung 207 (Schritt 2) führt zu Werten d jk = y jk / g jk = k jk s jk u jk , die noch die Kalender-, Saison- und Restkomponente enthalten. Die mittleren Phasenmittel (Quartalsmittel) ¯ d k = 1 J ∗ J ∗ ∑ j =1 d jk werden aus den jeweiligen Werten der betrachteten Phase k ermittelt (Schritt 3). Die Anzahl der Werte je Phase, J ∗ , kann dabei unterschiedlich sein. Die Normierung (Schritt 4) der ¯ d k gewährleistet, dass sich die vier Saisonkomponenten s k = ¯ d k 1 K ∑ K k =1 ¯ d k zur Anzahl der Phasen (z. B. 4 bei Quartalen) summieren und keine Niveauverschiebung bei der Saisonbereinigung erfolgt. Für die Werte s k gilt jetzt, dass ∑ K k =1 s k = K ist. Für die Zeitreihe des preisbereinigten BIP ergeben sich für die Quartale die folgenden Saisonkomponenten: s 1 = 0 . 99, s 2 = 0 . 994, s 3 = 1 . 018 , s 4 = 0 . 998. Im Mittel waren die BIP-Werte demnach im ersten Quartal um 1 . 2 % saisonbedingt zu niedrig. Werden die Ursprungswerte durch die Saisonkomponente der entsprechenden Phase (Quartal) dividiert (Schritt 5), erhalten wir die saisonbereinigten Werte y s jk = 1 s k g jk k jk s jk u jk = g jk k jk u jk (wegen der Annahme s jk = s k ). Zu beachten ist, dass die saisonbereinigten Werte in diesem vereinfachen Verfahren neben der glatten Komponente nicht nur die Restkomponente, sondern auch noch die Kalenderkomponente enthalten. Abbildung 12.6 zeigt die Ursprungswerte und die mittels des einfachen Periodogrammverfahrens ermittelten saisonbereinigten Werte. Abbildung 12.7 zeigt die Veränderung. R-12-6 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 207 03.09.2019 13: 56: 59 <?page no="208"?> 208 12 Zeitreihen Jahr Index 90 95 100 105 110 115 120 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 Originalwerte Saisonber. Werte Abbildung 12.6: Ursprungswerte und die mittels des einfachen Periodogrammverfahrens ermittelten saisonbereinigten Werte. Jahr Index -6 -4 -2 0 2 4 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 Originalwerte Saisonber. Werte Abbildung 12.7: Veränderungsraten in Prozent der saisonbereinigten Werte. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 208 03.09.2019 13: 56: 59 <?page no="209"?> 12 Zeitreihen Viele statistische Variablen, mit denen wirtschaftliche Aktivitäten erfasst werden, werden als Zeitreihen dargestellt. Üblich ist die Messung und Darstellung für äquidistante (d.h. gleiche Abstände aufweisende) Beobachtungszeitpunkte, z. B. für Monate, Quartale oder Jahre. Die meisten ökonomischen Aktivitäten unterliegen dabei jahreszeitlichen Einflüssen. In der Zeitreihenanalyse wird versucht, verschiedene Komponenten der zeitlichen Entwicklung einer Zeitreihe zu identifizieren. 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 190 12.2 Komponenten von Zeitreihen . . . . . . . . . . . . . . . . 192 12.3 Trendermittlung . . . . . . . . . . . . . . . . . . . . . . . 193 12.3.1 Trendfunktionen . . . . . . . . . . . . . . . . . . . 194 12.3.2 Gleitende Durchschnitte . . . . . . . . . . . . . . . 195 12.4 Saisonbereinigung . . . . . . . . . . . . . . . . . . . . . . 197 12.4.1 Periodogrammverfahren . . . . . . . . . . . . . . . 198 12.4.2 Census- und Berliner Verfahren . . . . . . . . . . . 201 12.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 203 12.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 12 1 2 1 2 1 2 12.4 Saisonbereinigung 209 Jahr Index 90 95 100 105 110 115 120 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 Originalwerte Berliner-Verfahren Census-Verfahren Abbildung 12.8: Originalwerte des preisbereinigten BIP und die beiden saisonbereinigten Zeitreihen. 12.4.2 Census- und Berliner Verfahren Abschließend vergleichen wir die mit dem Census X-12-ARIMA- Verfahren und die mit dem Berliner-Verfahren BV4.1 ermittelten saisonbereinigten Werte. Abbildung 12.8 enthält neben den Originalwerten des preisbereinigten BIP die beiden saisonbereinigten Zeitreihen. In Abbildung 12.9 sind die Veränderungsraten dargestellt. Es lässt sich feststellen, dass die Veränderungsraten des mit dem Berliner-Verfahren saisonbereinigten BIP etwas weniger stark variieren. Dieser Befund deckt sich mit Ausführungen des Statistischen Bundesamtes: „Die Ergebnisse der beiden Verfahren unterscheiden sich vor allem dadurch, dass BV4.1 gegenüber Census X-12-ARIMA einen ruhigeren Trendverlauf, eine flexiblere Saisonkomponente, weniger irreguläre saison-bereinigte Werte und häufig geringere Restwerte ermittelt.“ 2 R-12-7 2 Statistisches Bundesamt, Fachserie 18 Reihe 1.3, Volkswirtschaftliche Gesamtrechnungen, Inlandsproduktsberechnung, Saisonbereinigte Vierteljahresergebnisse nach Census X-12-ARIMA und BV4.1, 1. Vierteljahr 2019, Tabelle 1.4, Wiesbaden 2019. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 209 03.09.2019 13: 57: 00 <?page no="210"?> 210 12 Zeitreihen Jahr Index -6 -4 -2 0 2 4 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 Originalwerte Berliner-Verfahren Census-Verfahren Abbildung 12.9: Originalwerte des preisbereinigten BIP und die beiden saisonbereinigten Zeitreihen (Veränderungsraten in Prozent). 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 210 03.09.2019 13: 57: 01 <?page no="211"?> 12 Zeitreihen Viele statistische Variablen, mit denen wirtschaftliche Aktivitäten erfasst werden, werden als Zeitreihen dargestellt. Üblich ist die Messung und Darstellung für äquidistante (d.h. gleiche Abstände aufweisende) Beobachtungszeitpunkte, z. B. für Monate, Quartale oder Jahre. Die meisten ökonomischen Aktivitäten unterliegen dabei jahreszeitlichen Einflüssen. In der Zeitreihenanalyse wird versucht, verschiedene Komponenten der zeitlichen Entwicklung einer Zeitreihe zu identifizieren. 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 190 12.2 Komponenten von Zeitreihen . . . . . . . . . . . . . . . . 192 12.3 Trendermittlung . . . . . . . . . . . . . . . . . . . . . . . 193 12.3.1 Trendfunktionen . . . . . . . . . . . . . . . . . . . 194 12.3.2 Gleitende Durchschnitte . . . . . . . . . . . . . . . 195 12.4 Saisonbereinigung . . . . . . . . . . . . . . . . . . . . . . 197 12.4.1 Periodogrammverfahren . . . . . . . . . . . . . . . 198 12.4.2 Census- und Berliner Verfahren . . . . . . . . . . . 201 12.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 203 12.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 12 1 2 1 2 1 2 12.5 Aufgaben 211 12.5 Aufgaben 1. Folgende Tabelle enthält die nicht saisonbereinigten Werte (Ursprungswerte) der Zahl der gemeldeten offenen Stellen vom ersten Quartal 2010 bis zum vierten Quartal 2018 (Quartalsmittelwerte in 1000). In der Graphik ist die Zeitreihe graphisch dargestellt. 3 Zahl der offenen Stellen (in Tsd.), 2010-2018 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 296.50 353.77 395.26 391.86 2011 411.62 470.25 497.00 486.28 2012 472.00 499.13 492.58 446.40 2013 443.70 458.65 470.73 454.82 2014 452.38 487.13 511.79 509.93 2015 515.37 560.19 594.93 604.48 2016 609.75 653.26 681.98 676.97 2017 671.19 717.05 762.91 771.05 2018 759.54 794.02 828.06 804.09 Jahr Zahl der offenen Stellen (in Tsd.) 300 400 500 600 700 800 900 2010 2011 2012 2013 2014 2015 2016 2017 2018 Ursprungswerte 3 Bundesagentur für Arbeit, Arbeitsmarkt in Zahlen, Monats-/ Jahreszahlen, Arbeitsstellen im Zeitverlauf, Mai 2019, Tabelle 1.1. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 211 03.09.2019 13: 57: 02 <?page no="212"?> 212 12 Zeitreihen a) Beschreiben Sie verbal den Verlauf der Zeitreihe. Lässt sich eine wiederkehrende Saisonfigur erkennen? Ist die Saisonkomponente sehr stabil oder eher etwas unregelmäßig? b) Folgende Tabelle enthält die gleitenden 4er-Mittel der Ursprungswerte aus obiger Tabelle. Ergänzen Sie die fehlenden Werte. Überlegen Sie dabei zunächst, für welche Quartale ausgehend von Ursprungswerten tatsächlich gleitende 4er-Mittel berechnet werden können. Gleitendes 4er-Mittel. 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 2011 429.97 454.49 473.84 484.99 2012 488.05 482.51 473.99 465.39 2013 2014 471.40 483.42 498.18 515.19 2015 534.71 556.92 580.54 603.97 2016 2017 696.91 718.79 741.59 762.26 2018 780.02 792.30 c) Die nächste Tabelle enthält die relativen Trendabweichungen. Ergänzen Sie zunächst die fehlenden Werte. Ermitteln Sie anschließend die fehlenden Mittelwerte der relativen Trendabweichungen in den Quartalen. Die resultierenden Mittelwerte summieren sich nicht exakt zu dem Wert 4. Ermitteln Sie ausgehend von den Mittelwerten durch Normierung die fehlenden Saisonindexzahlen. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 212 03.09.2019 13: 57: 02 <?page no="213"?> 12 Zeitreihen Viele statistische Variablen, mit denen wirtschaftliche Aktivitäten erfasst werden, werden als Zeitreihen dargestellt. Üblich ist die Messung und Darstellung für äquidistante (d.h. gleiche Abstände aufweisende) Beobachtungszeitpunkte, z. B. für Monate, Quartale oder Jahre. Die meisten ökonomischen Aktivitäten unterliegen dabei jahreszeitlichen Einflüssen. In der Zeitreihenanalyse wird versucht, verschiedene Komponenten der zeitlichen Entwicklung einer Zeitreihe zu identifizieren. 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 190 12.2 Komponenten von Zeitreihen . . . . . . . . . . . . . . . . 192 12.3 Trendermittlung . . . . . . . . . . . . . . . . . . . . . . . 193 12.3.1 Trendfunktionen . . . . . . . . . . . . . . . . . . . 194 12.3.2 Gleitende Durchschnitte . . . . . . . . . . . . . . . 195 12.4 Saisonbereinigung . . . . . . . . . . . . . . . . . . . . . . 197 12.4.1 Periodogrammverfahren . . . . . . . . . . . . . . . 198 12.4.2 Census- und Berliner Verfahren . . . . . . . . . . . 201 12.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 203 12.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 12 1 2 Z e i t r e i h e n V i e l e s t a t i s t i s c h e V a r i a b l e n , m i t d e n e n w i r t s c h a f t l i c h e A k t i v i t ä t e n e r f a s s t w e r d e n , w e r d e n a l s Z e i t r e i h e n d a r g e s t e l l t . Ü b l i c h i s t d i e M e s s u n g u n d D a r s t e l l u n g f ü r ä q u i d i s t a n t e ( d . h . g l e i c h e A b s t ä n d e a u f w e i s e n d e ) B e o b a c h t u n g s z e i t p u n k t e , z . B . f ü r M o n a t e , Q u a r t a l e o d e r J a h r e . D i e m e i s t e n ö k o n o m i s c h e n A k t i v i t ä t e n u n t e r l i e g e n d a b e i j a h r e s z e i t l i c h e n E i n flü s s e n . I n d e r Z e i t r e i h e n a n a l y s e w i r d v e r s u c h t , v e r s c h i e d e n e K o m p o n e n t e n d e r z e i t l i c h e n E n t w i c k l u n g e i n e r Z e i t r e i h e z u i d e n t i fiz i e r e n . 1 2 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 9 0 1 2 . 2 K o m p o n e n t e n v o n Z e i t r e i h e n . . . . . . . . . . . . . . . . 1 9 2 1 2 . 3 T r e n d e r m i t t l u n g . . . . . . . . . . . . . . . . . . . . . . . 1 9 3 1 2 . 3 . 1 T r e n d f u n k t i o n e n . . . . . . . . . . . . . . . . . . . 1 9 4 1 2 . 3 . 2 G l e i t e n d e D u r c h s c h n i t t e . . . . . . . . . . . . . . . 1 9 5 1 2 . 4 S a i s o n b e r e i n i g u n g . . . . . . . . . . . . . . . . . . . . . . 1 9 7 1 2 . 4 . 1 P e r i o d o g r a m m v e r f a h r e n . . . . . . . . . . . . . . . 1 9 8 1 2 . 4 . 2 C e n s u s u n d B e r l i n e r V e r f a h r e n . . . . . . . . . . . 2 0 1 1 2 . 5 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 3 1 2 . 6 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 6 1 2 1 2 Z e i t r e i h e n V i e l e s t a t i s t i s c h e V a r i a b l e n , m i t d e n e n w i r t s c h a f t l i c h e A k t i v i t ä t e n e r f a s s t w e r d e n , w e r d e n a l s Z e i t r e i h e n d a r g e s t e l l t . Ü b l i c h i s t d i e M e s s u n g u n d D a r s t e l l u n g f ü r ä q u i d i s t a n t e ( d . h . g l e i c h e A b s t ä n d e a u f w e i s e n d e ) B e o b a c h t u n g s z e i t p u n k t e , z . B . f ü r M o n a t e , Q u a r t a l e o d e r J a h r e . D i e m e i s t e n ö k o n o m i s c h e n A k t i v i t ä t e n u n t e r l i e g e n d a b e i j a h r e s z e i t l i c h e n E i n flü s s e n . I n d e r Z e i t r e i h e n a n a l y s e w i r d v e r s u c h t , v e r s c h i e d e n e K o m p o n e n t e n d e r z e i t l i c h e n E n t w i c k l u n g e i n e r Z e i t r e i h e z u i d e n t i fiz i e r e n . 1 2 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 9 0 1 2 . 2 K o m p o n e n t e n v o n Z e i t r e i h e n . . . . . . . . . . . . . . . . 1 9 2 1 2 . 3 T r e n d e r m i t t l u n g . . . . . . . . . . . . . . . . . . . . . . . 1 9 3 1 2 . 3 . 1 T r e n d f u n k t i o n e n . . . . . . . . . . . . . . . . . . . 1 9 4 1 2 . 3 . 2 G l e i t e n d e D u r c h s c h n i t t e . . . . . . . . . . . . . . . 1 9 5 1 2 . 4 S a i s o n b e r e i n i g u n g . . . . . . . . . . . . . . . . . . . . . . 1 9 7 1 2 . 4 . 1 P e r i o d o g r a m m v e r f a h r e n . . . . . . . . . . . . . . . 1 9 8 1 2 . 4 . 2 C e n s u s u n d B e r l i n e r V e r f a h r e n . . . . . . . . . . . 2 0 1 1 2 . 5 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 3 1 2 . 6 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 6 1 2 1 2 Z e i t r e i h e n V i e l e s t a t i s t i s c h e V a r i a b l e n , m i t d e n e n w i r t s c h a f t l i c h e A k t i v i t ä t e n e r f a s s t w e r d e n , w e r d e n a l s Z e i t r e i h e n d a r g e s t e l l t . Ü b l i c h i s t d i e M e s s u n g u n d D a r s t e l l u n g f ü r ä q u i d i s t a n t e ( d . h . g l e i c h e A b s t ä n d e a u f w e i s e n d e ) B e o b a c h t u n g s z e i t p u n k t e , z . B . f ü r M o n a t e , Q u a r t a l e o d e r J a h r e . D i e m e i s t e n ö k o n o m i s c h e n A k t i v i t ä t e n u n t e r l i e g e n d a b e i j a h r e s z e i t l i c h e n E i n flü s s e n . I n d e r Z e i t r e i h e n a n a l y s e w i r d v e r s u c h t , v e r s c h i e d e n e K o m p o n e n t e n d e r z e i t l i c h e n E n t w i c k l u n g e i n e r Z e i t r e i h e z u i d e n t i fiz i e r e n . 1 2 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 9 0 1 2 . 2 K o m p o n e n t e n v o n Z e i t r e i h e n . . . . . . . . . . . . . . . . 1 9 2 1 2 . 3 T r e n d e r m i t t l u n g . . . . . . . . . . . . . . . . . . . . . . . 1 9 3 1 2 . 3 . 1 T r e n d f u n k t i o n e n . . . . . . . . . . . . . . . . . . . 1 9 4 1 2 . 3 . 2 G l e i t e n d e D u r c h s c h n i t t e . . . . . . . . . . . . . . . 1 9 5 1 2 . 4 S a i s o n b e r e i n i g u n g . . . . . . . . . . . . . . . . . . . . . . 1 9 7 1 2 . 4 . 1 P e r i o d o g r a m m v e r f a h r e n . . . . . . . . . . . . . . . 1 9 8 1 2 . 4 . 2 C e n s u s u n d B e r l i n e r V e r f a h r e n . . . . . . . . . . . 2 0 1 1 2 . 5 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 3 1 2 . 6 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 6 1 2 12.5 Aufgaben 213 Trendabweichungen und Saisonindexzahlen. 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 2011 0.9573 1.0347 1.0489 1.0027 2012 0.9671 1.0344 1.0392 0.9592 2013 2014 0.9597 1.0077 1.0273 0.9898 2015 0.9638 1.0059 1.0248 1.0008 2016 2017 0.9631 1.0115 2018 1.0022 Mittelwert 0.9660 1.0124 1.0353 0.9897 Saisonindexzahlen 0.9629 0.9974 1.0285 1.0113 d) Folgende Tabelle enthält die nach dem Periodogrammverfahren saisonbereinigten Werte. Ergänzen Sie die fehlenden Werte. Saisonbereinigte Werte. 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 307.93 354.69 384.31 387.49 2011 427.48 483.23 480.85 2012 490.18 500.43 441.42 2013 460.80 459.84 457.68 2014 469.81 488.40 497.61 504.24 2015 535.23 561.65 578.45 597.72 2016 654.97 663.08 669.41 2017 697.05 718.92 741.77 762.44 2018 788.81 796.09 805.11 795.10 e) Vergleichen Sie für das vierte Quartal 2018 die Veränderungsrate gegenüber dem Vorquartal für die Ursprungswerte und für die saisonbereinigten Werte. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 213 03.09.2019 13: 57: 03 <?page no="214"?> 214 12 Zeitreihen 12.6 R-Code R-12-1 ## Daten einlesen d <read.csv2(file = "bip.csv") head(d) ### Codes für Tabelle 1.2 aus Fachserie 18 Reihe 1.3 # j: Jahre; k: Quartal; bip: Zeitreihe BIP (Deutschland) # Anzahl an Quartalen n <nrow(d) ## Abbildung: preisbereinigtes BIP plot(x = 1: n, y = d$bip, type = "l", xaxt = "n", ylab = "Index", xlab = "Jahr") # Achsen: Quartale und Jahre axis(1, at = seq(from = 1, to = n, by = 1), labels = NA, col="darkgrey") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # Label für Quartale pchv <c(18,20,17,15) for(i in 1: 4) { points(x = (1: n)[d$k==i], y = d$bip[d$k==i], pch = pchv[i]) }legend("topleft", pch = pchv, bty = "n", c("1. Quartal","2. Quartal","3. Quartal","4. Quartal")) # Veränderungsrate dbip <d$bip[-1] / d$bip[-n]*100 - 100 # NA einfügen damit die Reihe die gleiche Länge wie vorher hat dbip <c(NA, dbip) dbip ## Abbildung: Veränderungsrate plot(x = 1: n, y = dbip, type = "l", xaxt = "n", ylab = expression(italic(w)), xlab = "Jahr") # Achsen: Quartale und Jahre axis(1, at = seq(from = 1, to = n, by = 1), labels = NA, col="darkgrey") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # Label für Quartale pchv <c(18,20,17,15) for(i in 1: 4) { points(x = (1: n)[d$k==i], y = dbip[d$k==i], pch = pchv[i]) }legend("bottomright", pch = pchv, bty = "n", ncol = 2, c("1. Quartal","2. Quartal","3. Quartal","4. Quartal")) abline(h = 0, col = "grey") 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 214 03.09.2019 13: 57: 04 <?page no="215"?> 12 Zeitreihen Viele statistische Variablen, mit denen wirtschaftliche Aktivitäten erfasst werden, werden als Zeitreihen dargestellt. Üblich ist die Messung und Darstellung für äquidistante (d.h. gleiche Abstände aufweisende) Beobachtungszeitpunkte, z. B. für Monate, Quartale oder Jahre. Die meisten ökonomischen Aktivitäten unterliegen dabei jahreszeitlichen Einflüssen. In der Zeitreihenanalyse wird versucht, verschiedene Komponenten der zeitlichen Entwicklung einer Zeitreihe zu identifizieren. 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 190 12.2 Komponenten von Zeitreihen . . . . . . . . . . . . . . . . 192 12.3 Trendermittlung . . . . . . . . . . . . . . . . . . . . . . . 193 12.3.1 Trendfunktionen . . . . . . . . . . . . . . . . . . . 194 12.3.2 Gleitende Durchschnitte . . . . . . . . . . . . . . . 195 12.4 Saisonbereinigung . . . . . . . . . . . . . . . . . . . . . . 197 12.4.1 Periodogrammverfahren . . . . . . . . . . . . . . . 198 12.4.2 Census- und Berliner Verfahren . . . . . . . . . . . 201 12.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 203 12.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 12 1 2 Z e i t r e i h e n V i e l e s t a t i s t i s c h e V a r i a b l e n , m i t d e n e n w i r t s c h a f t l i c h e A k t i v i t ä t e n e r f a s s t w e r d e n , w e r d e n a l s Z e i t r e i h e n d a r g e s t e l l t . Ü b l i c h i s t d i e M e s s u n g u n d D a r s t e l l u n g f ü r ä q u i d i s t a n t e ( d . h . g l e i c h e A b s t ä n d e a u f w e i s e n d e ) B e o b a c h t u n g s z e i t p u n k t e , z . B . f ü r M o n a t e , Q u a r t a l e o d e r J a h r e . D i e m e i s t e n ö k o n o m i s c h e n A k t i v i t ä t e n u n t e r l i e g e n d a b e i j a h r e s z e i t l i c h e n E i n flü s s e n . I n d e r Z e i t r e i h e n a n a l y s e w i r d v e r s u c h t , v e r s c h i e d e n e K o m p o n e n t e n d e r z e i t l i c h e n E n t w i c k l u n g e i n e r Z e i t r e i h e z u i d e n t i fiz i e r e n . 1 2 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 9 0 1 2 . 2 K o m p o n e n t e n v o n Z e i t r e i h e n . . . . . . . . . . . . . . . . 1 9 2 1 2 . 3 T r e n d e r m i t t l u n g . . . . . . . . . . . . . . . . . . . . . . . 1 9 3 1 2 . 3 . 1 T r e n d f u n k t i o n e n . . . . . . . . . . . . . . . . . . . 1 9 4 1 2 . 3 . 2 G l e i t e n d e D u r c h s c h n i t t e . . . . . . . . . . . . . . . 1 9 5 1 2 . 4 S a i s o n b e r e i n i g u n g . . . . . . . . . . . . . . . . . . . . . . 1 9 7 1 2 . 4 . 1 P e r i o d o g r a m m v e r f a h r e n . . . . . . . . . . . . . . . 1 9 8 1 2 . 4 . 2 C e n s u s u n d B e r l i n e r V e r f a h r e n . . . . . . . . . . . 2 0 1 1 2 . 5 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 3 1 2 . 6 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 6 1 2 1 2 Z e i t r e i h e n V i e l e s t a t i s t i s c h e V a r i a b l e n , m i t d e n e n w i r t s c h a f t l i c h e A k t i v i t ä t e n e r f a s s t w e r d e n , w e r d e n a l s Z e i t r e i h e n d a r g e s t e l l t . Ü b l i c h i s t d i e M e s s u n g u n d D a r s t e l l u n g f ü r ä q u i d i s t a n t e ( d . h . g l e i c h e A b s t ä n d e a u f w e i s e n d e ) B e o b a c h t u n g s z e i t p u n k t e , z . B . f ü r M o n a t e , Q u a r t a l e o d e r J a h r e . D i e m e i s t e n ö k o n o m i s c h e n A k t i v i t ä t e n u n t e r l i e g e n d a b e i j a h r e s z e i t l i c h e n E i n flü s s e n . I n d e r Z e i t r e i h e n a n a l y s e w i r d v e r s u c h t , v e r s c h i e d e n e K o m p o n e n t e n d e r z e i t l i c h e n E n t w i c k l u n g e i n e r Z e i t r e i h e z u i d e n t i fiz i e r e n . 1 2 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 9 0 1 2 . 2 K o m p o n e n t e n v o n Z e i t r e i h e n . . . . . . . . . . . . . . . . 1 9 2 1 2 . 3 T r e n d e r m i t t l u n g . . . . . . . . . . . . . . . . . . . . . . . 1 9 3 1 2 . 3 . 1 T r e n d f u n k t i o n e n . . . . . . . . . . . . . . . . . . . 1 9 4 1 2 . 3 . 2 G l e i t e n d e D u r c h s c h n i t t e . . . . . . . . . . . . . . . 1 9 5 1 2 . 4 S a i s o n b e r e i n i g u n g . . . . . . . . . . . . . . . . . . . . . . 1 9 7 1 2 . 4 . 1 P e r i o d o g r a m m v e r f a h r e n . . . . . . . . . . . . . . . 1 9 8 1 2 . 4 . 2 C e n s u s u n d B e r l i n e r V e r f a h r e n . . . . . . . . . . . 2 0 1 1 2 . 5 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 3 1 2 . 6 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 6 1 2 1 2 Z e i t r e i h e n V i e l e s t a t i s t i s c h e V a r i a b l e n , m i t d e n e n w i r t s c h a f t l i c h e A k t i v i t ä t e n e r f a s s t w e r d e n , w e r d e n a l s Z e i t r e i h e n d a r g e s t e l l t . Ü b l i c h i s t d i e M e s s u n g u n d D a r s t e l l u n g f ü r ä q u i d i s t a n t e ( d . h . g l e i c h e A b s t ä n d e a u f w e i s e n d e ) B e o b a c h t u n g s z e i t p u n k t e , z . B . f ü r M o n a t e , Q u a r t a l e o d e r J a h r e . D i e m e i s t e n ö k o n o m i s c h e n A k t i v i t ä t e n u n t e r l i e g e n d a b e i j a h r e s z e i t l i c h e n E i n flü s s e n . I n d e r Z e i t r e i h e n a n a l y s e w i r d v e r s u c h t , v e r s c h i e d e n e K o m p o n e n t e n d e r z e i t l i c h e n E n t w i c k l u n g e i n e r Z e i t r e i h e z u i d e n t i fiz i e r e n . 1 2 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 9 0 1 2 . 2 K o m p o n e n t e n v o n Z e i t r e i h e n . . . . . . . . . . . . . . . . 1 9 2 1 2 . 3 T r e n d e r m i t t l u n g . . . . . . . . . . . . . . . . . . . . . . . 1 9 3 1 2 . 3 . 1 T r e n d f u n k t i o n e n . . . . . . . . . . . . . . . . . . . 1 9 4 1 2 . 3 . 2 G l e i t e n d e D u r c h s c h n i t t e . . . . . . . . . . . . . . . 1 9 5 1 2 . 4 S a i s o n b e r e i n i g u n g . . . . . . . . . . . . . . . . . . . . . . 1 9 7 1 2 . 4 . 1 P e r i o d o g r a m m v e r f a h r e n . . . . . . . . . . . . . . . 1 9 8 1 2 . 4 . 2 C e n s u s u n d B e r l i n e r V e r f a h r e n . . . . . . . . . . . 2 0 1 1 2 . 5 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 3 1 2 . 6 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 6 1 2 12.6 R-Code 215 R-12-2 # Veränderungsraten des BIP (ohne NA) dbip <dbip[-1] # korrespondierende Quartale k <d$k[-1] # Funktion für empirische Standardabweichung erstellen SdEmp <function(x) { n <length(x) var.emp <- (n-1)/ n * var(x) sd.emp <sqrt(var.emp) return(sd.emp) }# Funktion für mittlere absolute Abweichung (siehe Kapitel 4) erstellen MAA <function(x) { maa <mean( abs(x-median(x)) ) return(maa) } # Daten aus der Tabelle tapply(X = dbip, INDEX = k, FUN = mean) tapply(X = dbip, INDEX = k, FUN = median) tapply(X = dbip, INDEX = k, FUN = SdEmp) tapply(X = dbip, INDEX = k, FUN = MAA) c(mean(dbip), median(dbip), SdEmp(dbip), MAA(dbip)) R-12-3 ### Codes für Tabelle 1.2 aus Fachserie 18 Reihe 1.3 # x_bip: Saison- und kalenderbereinigte Werte ## Faktoren: # x_t: Trend; x_k: Kalender; x_s: Saison; x_r: Rest ## vereinfachte Darstellung # 1 plot(x = 1: n, y = d$x_t, ylab = "Index", xlab = "Jahr", main = "glatte Komponenten", type = "l", xaxt = "n") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # 2 plot(x = 1: n, y = d$x_s/ 100, ylab = "Index", xlab = "Jahr", main = "Saisonkomponenten", type = "l", xaxt = "n") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # 3 plot(x = 1: n, y = d$x_k/ 100, ylab = "Index", xlab = "Jahr", main = "Kalenderkomponente", type = "l", xaxt = "n") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 215 03.09.2019 13: 57: 05 <?page no="216"?> 216 12 Zeitreihen # 4 plot(x = 1: n, y = d$x_r/ 100, ylab = "Index", xlab = "Jahr", main = "Restkomponente", type = "l", xaxt = "n") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) R-12-4 # Trends x <- 1: n # lineare Trendfunktion reg1 <lm(d$bip ~ x) # Polynom 13.-Grades reg2 <lm(d$bip ~ poly(x = x, degree = 13, raw = TRUE)) ## vereinfachte Darstellung # Originalwerte plot(x = 1: n, y = d$bip, ylab = "Index", xlab = "Jahr", type = "l", xaxt = "n", col = "darkgray") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # Legende legend("topleft", legend = c("Originalwerte", "Lineare Trendfkt.", "Polynom 13.-Grades"), lty = c(1,2,1), lwd = c(1,1,1), col = c("darkgray",1,1), bty = "n") # lineare Trendfunktion lines(x = x, y = reg1$fitted, lty = 2) # Polynom 13.-Grades lines(x = x, y = reg2$fitted) R-12-5 ## gleitendes 4er-Mittel lambda <- 4 l <lambda / 2 x <- 1: n n <length(d$bip) # Vektor für die Ergebnisse g <rep(x = NA, times = n) # gerades Lambda -> zwei halbe Werte gehen mit ein for (i in (l+1): (n-l)){ g[i] <- 1/ (2*l) * sum(c(0.5*d$bip[i-l], d$bip[(i-l+1): (i+l-1)], 0.5*d$bip[i+l])) }g ## vereinfachte Darstellung # Originalwerte plot(x = 1: n, y = d$bip, ylab = "Index", xlab = "Jahr", 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 216 03.09.2019 13: 57: 07 <?page no="217"?> 12 Zeitreihen Viele statistische Variablen, mit denen wirtschaftliche Aktivitäten erfasst werden, werden als Zeitreihen dargestellt. Üblich ist die Messung und Darstellung für äquidistante (d.h. gleiche Abstände aufweisende) Beobachtungszeitpunkte, z. B. für Monate, Quartale oder Jahre. Die meisten ökonomischen Aktivitäten unterliegen dabei jahreszeitlichen Einflüssen. In der Zeitreihenanalyse wird versucht, verschiedene Komponenten der zeitlichen Entwicklung einer Zeitreihe zu identifizieren. 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 190 12.2 Komponenten von Zeitreihen . . . . . . . . . . . . . . . . 192 12.3 Trendermittlung . . . . . . . . . . . . . . . . . . . . . . . 193 12.3.1 Trendfunktionen . . . . . . . . . . . . . . . . . . . 194 12.3.2 Gleitende Durchschnitte . . . . . . . . . . . . . . . 195 12.4 Saisonbereinigung . . . . . . . . . . . . . . . . . . . . . . 197 12.4.1 Periodogrammverfahren . . . . . . . . . . . . . . . 198 12.4.2 Census- und Berliner Verfahren . . . . . . . . . . . 201 12.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 203 12.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 12 1 2 Z e i t r e i h e n V i e l e s t a t i s t i s c h e V a r i a b l e n , m i t d e n e n w i r t s c h a f t l i c h e A k t i v i t ä t e n e r f a s s t w e r d e n , w e r d e n a l s Z e i t r e i h e n d a r g e s t e l l t . Ü b l i c h i s t d i e M e s s u n g u n d D a r s t e l l u n g f ü r ä q u i d i s t a n t e ( d . h . g l e i c h e A b s t ä n d e a u f w e i s e n d e ) B e o b a c h t u n g s z e i t p u n k t e , z . B . f ü r M o n a t e , Q u a r t a l e o d e r J a h r e . D i e m e i s t e n ö k o n o m i s c h e n A k t i v i t ä t e n u n t e r l i e g e n d a b e i j a h r e s z e i t l i c h e n E i n flü s s e n . I n d e r Z e i t r e i h e n a n a l y s e w i r d v e r s u c h t , v e r s c h i e d e n e K o m p o n e n t e n d e r z e i t l i c h e n E n t w i c k l u n g e i n e r Z e i t r e i h e z u i d e n t i fiz i e r e n . 1 2 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 9 0 1 2 . 2 K o m p o n e n t e n v o n Z e i t r e i h e n . . . . . . . . . . . . . . . . 1 9 2 1 2 . 3 T r e n d e r m i t t l u n g . . . . . . . . . . . . . . . . . . . . . . . 1 9 3 1 2 . 3 . 1 T r e n d f u n k t i o n e n . . . . . . . . . . . . . . . . . . . 1 9 4 1 2 . 3 . 2 G l e i t e n d e D u r c h s c h n i t t e . . . . . . . . . . . . . . . 1 9 5 1 2 . 4 S a i s o n b e r e i n i g u n g . . . . . . . . . . . . . . . . . . . . . . 1 9 7 1 2 . 4 . 1 P e r i o d o g r a m m v e r f a h r e n . . . . . . . . . . . . . . . 1 9 8 1 2 . 4 . 2 C e n s u s u n d B e r l i n e r V e r f a h r e n . . . . . . . . . . . 2 0 1 1 2 . 5 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 3 1 2 . 6 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 6 1 2 1 2 Z e i t r e i h e n V i e l e s t a t i s t i s c h e V a r i a b l e n , m i t d e n e n w i r t s c h a f t l i c h e A k t i v i t ä t e n e r f a s s t w e r d e n , w e r d e n a l s Z e i t r e i h e n d a r g e s t e l l t . Ü b l i c h i s t d i e M e s s u n g u n d D a r s t e l l u n g f ü r ä q u i d i s t a n t e ( d . h . g l e i c h e A b s t ä n d e a u f w e i s e n d e ) B e o b a c h t u n g s z e i t p u n k t e , z . B . f ü r M o n a t e , Q u a r t a l e o d e r J a h r e . D i e m e i s t e n ö k o n o m i s c h e n A k t i v i t ä t e n u n t e r l i e g e n d a b e i j a h r e s z e i t l i c h e n E i n flü s s e n . I n d e r Z e i t r e i h e n a n a l y s e w i r d v e r s u c h t , v e r s c h i e d e n e K o m p o n e n t e n d e r z e i t l i c h e n E n t w i c k l u n g e i n e r Z e i t r e i h e z u i d e n t i fiz i e r e n . 1 2 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 9 0 1 2 . 2 K o m p o n e n t e n v o n Z e i t r e i h e n . . . . . . . . . . . . . . . . 1 9 2 1 2 . 3 T r e n d e r m i t t l u n g . . . . . . . . . . . . . . . . . . . . . . . 1 9 3 1 2 . 3 . 1 T r e n d f u n k t i o n e n . . . . . . . . . . . . . . . . . . . 1 9 4 1 2 . 3 . 2 G l e i t e n d e D u r c h s c h n i t t e . . . . . . . . . . . . . . . 1 9 5 1 2 . 4 S a i s o n b e r e i n i g u n g . . . . . . . . . . . . . . . . . . . . . . 1 9 7 1 2 . 4 . 1 P e r i o d o g r a m m v e r f a h r e n . . . . . . . . . . . . . . . 1 9 8 1 2 . 4 . 2 C e n s u s u n d B e r l i n e r V e r f a h r e n . . . . . . . . . . . 2 0 1 1 2 . 5 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 3 1 2 . 6 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 6 1 2 1 2 Z e i t r e i h e n V i e l e s t a t i s t i s c h e V a r i a b l e n , m i t d e n e n w i r t s c h a f t l i c h e A k t i v i t ä t e n e r f a s s t w e r d e n , w e r d e n a l s Z e i t r e i h e n d a r g e s t e l l t . Ü b l i c h i s t d i e M e s s u n g u n d D a r s t e l l u n g f ü r ä q u i d i s t a n t e ( d . h . g l e i c h e A b s t ä n d e a u f w e i s e n d e ) B e o b a c h t u n g s z e i t p u n k t e , z . B . f ü r M o n a t e , Q u a r t a l e o d e r J a h r e . D i e m e i s t e n ö k o n o m i s c h e n A k t i v i t ä t e n u n t e r l i e g e n d a b e i j a h r e s z e i t l i c h e n E i n flü s s e n . I n d e r Z e i t r e i h e n a n a l y s e w i r d v e r s u c h t , v e r s c h i e d e n e K o m p o n e n t e n d e r z e i t l i c h e n E n t w i c k l u n g e i n e r Z e i t r e i h e z u i d e n t i fiz i e r e n . 1 2 . 1 E i n l e i t u n g . . . . . . . . . . . . . . . . . . . . . . . . . . 1 9 0 1 2 . 2 K o m p o n e n t e n v o n Z e i t r e i h e n . . . . . . . . . . . . . . . . 1 9 2 1 2 . 3 T r e n d e r m i t t l u n g . . . . . . . . . . . . . . . . . . . . . . . 1 9 3 1 2 . 3 . 1 T r e n d f u n k t i o n e n . . . . . . . . . . . . . . . . . . . 1 9 4 1 2 . 3 . 2 G l e i t e n d e D u r c h s c h n i t t e . . . . . . . . . . . . . . . 1 9 5 1 2 . 4 S a i s o n b e r e i n i g u n g . . . . . . . . . . . . . . . . . . . . . . 1 9 7 1 2 . 4 . 1 P e r i o d o g r a m m v e r f a h r e n . . . . . . . . . . . . . . . 1 9 8 1 2 . 4 . 2 C e n s u s u n d B e r l i n e r V e r f a h r e n . . . . . . . . . . . 2 0 1 1 2 . 5 A u f g a b e n . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 3 1 2 . 6 R - C o d e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 6 1 2 12.6 R-Code 217 type = "l", xaxt = "n", col = "darkgray") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # 4er-Mittel eintragen lines(x = x, y = g, lty = 2) R-12-6 # Periodogrammverfahren ## Schritt 1: 4er-Mittel aus dem Teil zuvor g## Schritt 2: Trendabweichungen # (l+1): (n-l): Werte für die g berechnet werden konnte # hier: l=2, die ersten und letzten beiden Werte fallen weg a <d$bip[(l+1): (n-l)] / g[(l+1): (n-l)] a## Schritt 3: mittlere relative Trendabweichungen der Phasen k <d$k[(l+1): (n-l)] kdq <tapply(X = a, INDEX = k, FUN = mean) dq ## Schritt 4: Normierung s <dq / mean(dq) s## Schritt 5: saisonbereinigten Werte # normierte Werte an Ursprungsreihe anpassen sv <s[d$k] sv # saisonbereinigten Werte sb <d$bip / sv ## vereinfachte Darstellung # Originalwerte plot(x = 1: n, y = d$bip, ylab = "Index", xlab = "Jahr", type = "l", xaxt = "n", col = "darkgray") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # saisonbereinigte Werte eintragen lines(x = x, y = sb) # Veränderungsraten dbip <c(NA, (d$bip[-1] / d$bip[-n]*100 - 100)) dsb <c(NA, (sb[-1] / sb[-n]*100 - 100)) ## vereinfachte Darstellung # Originalwerte plot(x = 1: n, y = dbip, ylab = "Index", xlab = "Jahr", type = "l", xaxt = "n", col = "darkgray") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # saisonbereinigte Werte eintragen lines(x = x, y = dsb) 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 217 03.09.2019 13: 57: 08 <?page no="218"?> 218 12 Zeitreihen R-12-7 ## Originalwerte, ARIMA, BV plot(x = 1: n, y = d$bip, ylab = "Index", xlab = "Jahr", type = "l", xaxt = "n", col = "darkgray") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # ARIMA lines(x = x, y = d$x_bip, lty = 2) # BV lines(x = x, y = d$b_bip) ## Veränderung # Veränderungsraten dar <c(NA, (d$x_bip[-1] / d$x_bip[-n]*100 - 100)) dbv <c(NA, (d$b_bip[-1] / d$b_bip[-n]*100 - 100)) # Plot plot(x = 1: n, y = dbip, ylab = "Index", xlab = "Jahr", type = "l", xaxt = "n", col = "darkgray") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # ARIMA lines(x = x, y = dar, lty = 2) # BV lines(x = x, y = dbv) 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 218 03.09.2019 13: 57: 09 <?page no="219"?> Formelsammlung 213 Schiefe μ 3 σ 3 = 1 n n ∑ i =1 ( x i − ¯ x σ ) 3 = 1 n n ∑ i =1 ( x i − ¯ x ) 3 (√ 1 n n ∑ i =1 ( x i − ¯ x ) 2 ) 3 Wölbung μ 4 σ 4 − 3 = 1 n n ∑ i =1 ( x i − ¯ x σ ) 4 − 3 = 1 n n ∑ i =1 ( x i − ¯ x ) 4 (√ 1 n n ∑ i =1 ( x i − ¯ x ) 2 ) 4 − 3 Approximation der Verteilungsfunktion bei klassierten Daten F ( x ) ≈ F ( x u ) + ( x − x u ) F ( x o ) − F ( x u ) x o − x u Konzentrationsmessung Konzentrationsrate CR i = i ∑ r =1 h r mit h r = x r n ∑ i =1 x i = x r n ¯ x r = 1 , . . . , n Rosenbluth-Index RK = 1 2 A = 1 (2 n ∑ i =1 ih i ) − 1 Hirschman-Herfindahl-Index HK = n ∑ i =1 h 2 i Variationskoeffizient VK = σ/ ¯ x F F F Formelsammlung Hinweise zu Summen 1 + 2 + 3 + . . . + n = n ∑ i =1 i = n ( n + 1) 2 1 2 + 2 2 + 3 2 + . . . + n 2 = n ∑ i =1 i 2 = n ( n + 1)(2 n + 1) 6 Kerndichteschätzung Kernfunktion K ( u i ) = { 1 − | u i | falls | u i | ≤ 1 0 sonst , mit u i = x − x i w Kerndichteschätzer ˆ f ( x ) = 1 nw n ∑ i =1 K ( u i ) = 1 nw n ∑ i =1 K ( x − x i w ) . Spezielle Kernfunktionen Kernfunktion Definition Rechteck-Kern K ( u ) = { 0 . 5 falls | u | ≤ 1 , 0 sonst Dreieck-Kern K ( u ) = { 1 − | u | falls | u | ≤ 1 , 0 sonst Normal-Kern K ( u ) = 1 √ 2 π e − 0 . 5 u 2 Epanechnikov-Kern K ( u ) = { 3 4 (1 − u 2 ) falls | u | ≤ 1 , 0 sonst 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 219 03.09.2019 13: 57: 10 <?page no="220"?> 220 Formelsammlung Beschreibung von Häufigkeitsverteilungen Quantil Q ( p ) = F − 1 ( p ) = ˜ x p = min { x | F ( x ) ≥ p } ˜ x p = { x np falls np ganzzahlig , x [ np ]+1 sonst Arithmetisches Mittel ¯ x = 1 n n ∑ i =1 x i = J ∑ j =1 ˜ x j f j Harmonisches Mittel ¯ x H = 1 1 n n ∑ i =1 1 x i = 1 J ∑ j =1 1 ˜ x j f j Geometrisches Mittel ¯ x G = ( n ∏ i =1 x i ) 1 n = J ∏ j =1 ˜ x f j j Mittlere absolute Abweichung MA = 1 n n ∑ i =1 | x i − ¯ x | Varianz σ 2 = 1 n n ∑ i =1 ( x i − ¯ x ) 2 = 1 n n ∑ i =1 x 2 i − ¯ x 2 = J ∑ j =1 (˜ x j − ¯ x ) 2 f j Standardabweichung σ = √ σ 2 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 220 03.09.2019 13: 57: 10 <?page no="221"?> Formelsammlung 213 Schiefe μ 3 σ 3 = 1 n n ∑ i =1 ( x i − ¯ x σ ) 3 = 1 n n ∑ i =1 ( x i − ¯ x ) 3 (√ 1 n n ∑ i =1 ( x i − ¯ x ) 2 ) 3 Wölbung μ 4 σ 4 − 3 = 1 n n ∑ i =1 ( x i − ¯ x σ ) 4 − 3 = 1 n n ∑ i =1 ( x i − ¯ x ) 4 (√ 1 n n ∑ i =1 ( x i − ¯ x ) 2 ) 4 − 3 Approximation der Verteilungsfunktion bei klassierten Daten F ( x ) ≈ F ( x u ) + ( x − x u ) F ( x o ) − F ( x u ) x o − x u Konzentrationsmessung Konzentrationsrate CR i = i ∑ r =1 h r mit h r = x r n ∑ i =1 x i = x r n ¯ x r = 1 , . . . , n Rosenbluth-Index RK = 1 2 A = 1 (2 n ∑ i =1 ih i ) − 1 Hirschman-Herfindahl-Index HK = n ∑ i =1 h 2 i Variationskoeffizient VK = σ/ ¯ x F F o r m e l s a m m l u n g 2 1 3 S c h i e f e μ 3 σ 3 = 1 n n ∑ i = 1 ( x i − ¯ x σ ) 3 = 1 n n ∑ i = 1 ( x i − ¯ x ) 3 ( √ 1 n n ∑ i = 1 ( x i − ¯ x ) 2 ) 3 W ö l b u n g μ 4 σ 4 − 3 = 1 n n ∑ i = 1 ( x i − ¯ x σ ) 4 − 3 = 1 n n ∑ i = 1 ( x i − ¯ x ) 4 ( √ 1 n n ∑ i = 1 ( x i − ¯ x ) 2 ) 4 − 3 A p p r o x i m a t i o n d e r V e r t e i l u n g s f u n k t i o n b e i k l a s s i e r t e n D a t e n F ( x ) ≈ F ( x u ) + ( x − x u ) F ( x o ) − F ( x u ) x o − x u K o n z e n t r a t i o n s m e s s u n g K o n z e n t r a t i o n s r a t e C R i = i ∑ r = 1 h r m i t h r = x r n ∑ i = 1 x i = x r n ¯ x r = 1 , . . . , n R o s e n b l u t h - I n d e x R K = 1 2 A = 1 ( 2 n ∑ i = 1 i h i ) − 1 H i r s c h m a n - H e r fin d a h l - I n d e x H K = n ∑ i = 1 h 2 i V a r i a t i o n s k o e ffi z i e n t V K = σ / ¯ x F F o r m e l s a m m l u n g 2 1 3 S c h i e f e μ 3 σ 3 = 1 n n ∑ i = 1 ( x i − ¯ x σ ) 3 = 1 n n ∑ i = 1 ( x i − ¯ x ) 3 ( √ 1 n n ∑ i = 1 ( x i − ¯ x ) 2 ) 3 W ö l b u n g μ 4 σ 4 − 3 = 1 n n ∑ i = 1 ( x i − ¯ x σ ) 4 − 3 = 1 n n ∑ i = 1 ( x i − ¯ x ) 4 ( √ 1 n n ∑ i = 1 ( x i − ¯ x ) 2 ) 4 − 3 A p p r o x i m a t i o n d e r V e r t e i l u n g s f u n k t i o n b e i k l a s s i e r t e n D a t e n F ( x ) ≈ F ( x u ) + ( x − x u ) F ( x o ) − F ( x u ) x o − x u K o n z e n t r a t i o n s m e s s u n g K o n z e n t r a t i o n s r a t e C R i = i ∑ r = 1 h r m i t h r = x r n ∑ i = 1 x i = x r n ¯ x r = 1 , . . . , n R o s e n b l u t h - I n d e x R K = 1 2 A = 1 ( 2 n ∑ i = 1 i h i ) − 1 H i r s c h m a n - H e r fin d a h l - I n d e x H K = n ∑ i = 1 h 2 i V a r i a t i o n s k o e ffi z i e n t V K = σ / ¯ x F Formelsammlung 221 Schiefe µ 3 σ 3 = 1 n n ∑ i =1 ( x i − ¯ x σ ) 3 = 1 n n ∑ i =1 ( x i − ¯ x ) 3 (√ 1 n n ∑ i =1 ( x i − ¯ x ) 2 ) 3 Wölbung µ 4 σ 4 − 3 = 1 n n ∑ i =1 ( x i − ¯ x σ ) 4 − 3 = 1 n n ∑ i =1 ( x i − ¯ x ) 4 (√ 1 n n ∑ i =1 ( x i − ¯ x ) 2 ) 4 − 3 Approximation der Verteilungsfunktion bei klassierten Daten F ( x ) ≈ F ( x u ) + ( x − x u ) F ( x o ) − F ( x u ) x o − x u Konzentrationsmessung Konzentrationsrate CR i = i ∑ r =1 h r mit h r = x r n ∑ i =1 x i = x r n ¯ x r = 1 , . . . , n Rosenbluth-Index RK = 1 2 A = 1 (2 n ∑ i =1 ih i ) − 1 Hirschman-Herfindahl-Index HK = n ∑ i =1 h 2 i Variationskoeffizient VK = σ/ ¯ x 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 221 03.09.2019 13: 57: 11 <?page no="222"?> 222 Formelsammlung Gini-Koeffizient G = 1 − J ∑ j =1 f j ( H j − 1 + H j ) (Klassierte Daten) G = n ∑ i =1 h i ( 2 i − n − 1 n ) (Individualdaten) Vergleichsmaßzahlen Normierte Strukturdifferenz NSD = 0 . 5 J ∑ j =1 | a m j − a w j | Euklidische Norm EN = √√√√ J ∑ j =1 ( a m j − a w j ) 2 Komponentenzerlegung (Niveau-, Struktur-, Mischeffekt) ¯ l m − ¯ l w = J ∑ j =1 (¯ l m j − ¯ l w j ) a m j + J ∑ j =1 ¯ l m j ( a m j − a w j ) − J ∑ j =1 (¯ l m j − ¯ l w j )( a m j − a w j ) Preisindizes Laspeyres-Preisindex P l t 0 ,t 1 = ∑ n j =1 q t 0 j p t 1 j ∑ n j =1 q t 0 j p t 0 j = q ′ t 0 p t 1 q ′ t 0 p t 0 Paasche-Preisindex P p t 0 ,t 1 = ∑ n j =1 q t 1 j p t 1 j ∑ n j =1 q t 1 j p t 0 j = q ′ t 1 p t 1 q ′ t 1 p t 0 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 222 03.09.2019 13: 57: 12 <?page no="223"?> Formelsammlung 213 Schiefe μ 3 σ 3 = 1 n n ∑ i =1 ( x i − ¯ x σ ) 3 = 1 n n ∑ i =1 ( x i − ¯ x ) 3 (√ 1 n n ∑ i =1 ( x i − ¯ x ) 2 ) 3 Wölbung μ 4 σ 4 − 3 = 1 n n ∑ i =1 ( x i − ¯ x σ ) 4 − 3 = 1 n n ∑ i =1 ( x i − ¯ x ) 4 (√ 1 n n ∑ i =1 ( x i − ¯ x ) 2 ) 4 − 3 Approximation der Verteilungsfunktion bei klassierten Daten F ( x ) ≈ F ( x u ) + ( x − x u ) F ( x o ) − F ( x u ) x o − x u Konzentrationsmessung Konzentrationsrate CR i = i ∑ r =1 h r mit h r = x r n ∑ i =1 x i = x r n ¯ x r = 1 , . . . , n Rosenbluth-Index RK = 1 2 A = 1 (2 n ∑ i =1 ih i ) − 1 Hirschman-Herfindahl-Index HK = n ∑ i =1 h 2 i Variationskoeffizient VK = σ/ ¯ x F F o r m e l s a m m l u n g 2 1 3 S c h i e f e μ 3 σ 3 = 1 n n ∑ i = 1 ( x i − ¯ x σ ) 3 = 1 n n ∑ i = 1 ( x i − ¯ x ) 3 ( √ 1 n n ∑ i = 1 ( x i − ¯ x ) 2 ) 3 W ö l b u n g μ 4 σ 4 − 3 = 1 n n ∑ i = 1 ( x i − ¯ x σ ) 4 − 3 = 1 n n ∑ i = 1 ( x i − ¯ x ) 4 ( √ 1 n n ∑ i = 1 ( x i − ¯ x ) 2 ) 4 − 3 A p p r o x i m a t i o n d e r V e r t e i l u n g s f u n k t i o n b e i k l a s s i e r t e n D a t e n F ( x ) ≈ F ( x u ) + ( x − x u ) F ( x o ) − F ( x u ) x o − x u K o n z e n t r a t i o n s m e s s u n g K o n z e n t r a t i o n s r a t e C R i = i ∑ r = 1 h r m i t h r = x r n ∑ i = 1 x i = x r n ¯ x r = 1 , . . . , n R o s e n b l u t h - I n d e x R K = 1 2 A = 1 ( 2 n ∑ i = 1 i h i ) − 1 H i r s c h m a n - H e r fin d a h l - I n d e x H K = n ∑ i = 1 h 2 i V a r i a t i o n s k o e ffi z i e n t V K = σ / ¯ x F F o r m e l s a m m l u n g 2 1 3 S c h i e f e μ 3 σ 3 = 1 n n ∑ i = 1 ( x i − ¯ x σ ) 3 = 1 n n ∑ i = 1 ( x i − ¯ x ) 3 ( √ 1 n n ∑ i = 1 ( x i − ¯ x ) 2 ) 3 W ö l b u n g μ 4 σ 4 − 3 = 1 n n ∑ i = 1 ( x i − ¯ x σ ) 4 − 3 = 1 n n ∑ i = 1 ( x i − ¯ x ) 4 ( √ 1 n n ∑ i = 1 ( x i − ¯ x ) 2 ) 4 − 3 A p p r o x i m a t i o n d e r V e r t e i l u n g s f u n k t i o n b e i k l a s s i e r t e n D a t e n F ( x ) ≈ F ( x u ) + ( x − x u ) F ( x o ) − F ( x u ) x o − x u K o n z e n t r a t i o n s m e s s u n g K o n z e n t r a t i o n s r a t e C R i = i ∑ r = 1 h r m i t h r = x r n ∑ i = 1 x i = x r n ¯ x r = 1 , . . . , n R o s e n b l u t h - I n d e x R K = 1 2 A = 1 ( 2 n ∑ i = 1 i h i ) − 1 H i r s c h m a n - H e r fin d a h l - I n d e x H K = n ∑ i = 1 h 2 i V a r i a t i o n s k o e ffi z i e n t V K = σ / ¯ x F Formelsammlung 223 Streuungszerlegung σ 2 X = K ∑ k =1 σ 2 X | ˜ y k P( Y = ˜ y k ) + K ∑ k =1 (¯ x k − ¯ x ) 2 P( Y = ˜ y k ) Zusammenhangsmaße Kovarianz σ XY = 1 n n ∑ i =1 ( x i − ¯ x ) ( y i − ¯ y ) = 1 n n ∑ i =1 x i y i − ¯ x ¯ y Linearer Korrelationskoeffizient r XY = σ XY σ X σ Y = 1 n ∑ n i =1 ( x i − ¯ x ) ( y i − ¯ y ) √ 1 n ∑ n i =1 ( x i − ¯ x ) 2 √ 1 n ∑ n i =1 ( y i − ¯ y ) 2 Rangkorrelationskoeffizient ρ XY = 1 n ∑ n i =1 (r x ( i ) − ¯r x ) (r y ( i ) − ¯r y ) √ 1 n ∑ n i =1 (r x ( i ) − ¯r x ) 2 √ 1 n ∑ n i =1 (r y ( i ) − ¯r y ) 2 ¯r X = 1 n n ∑ i =1 r x ( i ) = n + 1 2 Rangkorrelationskoeffizient (keine Bindungen) ρ XY = 1 − 6 ∑ n i =1 (r x ( i ) − r y ( i )) 2 n ( n 2 − 1) . Chi-Quadrat χ 2 = n J ∑ j =1 K ∑ k =1 ( f jk − f ∗ jk ) 2 f ∗ jk mit f ∗ jk = f j · f · k Kontingenzkoeffizient C C = √ χ 2 χ 2 + n · min { J, K } min { J, K } − 1 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 223 03.09.2019 13: 57: 14 <?page no="224"?> 224 Formelsammlung Einfachregression Regressionskoeffizienten ˆ β = ∑ n i =1 x i y i − n ¯ x ¯ y ∑ n i =1 x 2 i − n ¯ x 2 = σ XY σ 2 X , ˆ α = ¯ y − ˆ β ¯ x Bestimmtheitsmaß R 2 = σ 2ˆ Y σ 2 Y = 1 − σ 2 U σ 2 Y Multiple Regression Bestimmungsgleichungen (zwei erklärende Variablen) ˆ β 0 = ¯ y − ˆ β 1 ¯ x 1 − ˆ β 2 ¯ x 2 ˆ β 1 = ∑ n i =1 x ∗ 2 i 2 ∑ n i =1 x ∗ 1 i y ∗ i − ∑ n i =1 x ∗ 1 i x ∗ 2 i ∑ n i =1 x ∗ 2 i y ∗ i ∑ n i =1 x ∗ 1 i 2 ∑ n i =1 x ∗ 2 i 2 − (∑ n i =1 x ∗ 1 i x ∗ 2 i ) 2 = σ 2 x 2 σ x 1 y − σ x 1 x 2 σ x 2 y σ 2 x 1 σ 2 x 2 − σ 2 x 1 x 2 ˆ β 2 = ∑ n i =1 x ∗ 1 i 2 ∑ n i =1 x ∗ 2 i y ∗ i − ∑ n i =1 x ∗ 1 i x ∗ 2 i ∑ n i =1 x ∗ 1 i y ∗ i ∑ n i =1 x ∗ 1 i 2 ∑ n i =1 x ∗ 2 i 2 − (∑ n i =1 x ∗ 1 i x ∗ 2 i ) 2 = σ 2 x 1 σ x 2 y − σ x 1 x 2 σ x 1 y σ 2 x 1 σ 2 x 2 − σ 2 x 1 x 2 x ∗ 1 i = x 1 i − ¯ x 1 , x ∗ 2 i = x 2 i − ¯ x 2 , y ∗ i = y i − ¯ y Bestimmungsgleichung (allgemeiner Fall) ˆ β = ( X ′ X ) − 1 X ′ y 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 224 03.09.2019 13: 57: 15 <?page no="225"?> Formelsammlung 213 Schiefe μ 3 σ 3 = 1 n n ∑ i =1 ( x i − ¯ x σ ) 3 = 1 n n ∑ i =1 ( x i − ¯ x ) 3 (√ 1 n n ∑ i =1 ( x i − ¯ x ) 2 ) 3 Wölbung μ 4 σ 4 − 3 = 1 n n ∑ i =1 ( x i − ¯ x σ ) 4 − 3 = 1 n n ∑ i =1 ( x i − ¯ x ) 4 (√ 1 n n ∑ i =1 ( x i − ¯ x ) 2 ) 4 − 3 Approximation der Verteilungsfunktion bei klassierten Daten F ( x ) ≈ F ( x u ) + ( x − x u ) F ( x o ) − F ( x u ) x o − x u Konzentrationsmessung Konzentrationsrate CR i = i ∑ r =1 h r mit h r = x r n ∑ i =1 x i = x r n ¯ x r = 1 , . . . , n Rosenbluth-Index RK = 1 2 A = 1 (2 n ∑ i =1 ih i ) − 1 Hirschman-Herfindahl-Index HK = n ∑ i =1 h 2 i Variationskoeffizient VK = σ/ ¯ x F F o r m e l s a m m l u n g 2 1 3 S c h i e f e μ 3 σ 3 = 1 n n ∑ i = 1 ( x i − ¯ x σ ) 3 = 1 n n ∑ i = 1 ( x i − ¯ x ) 3 ( √ 1 n n ∑ i = 1 ( x i − ¯ x ) 2 ) 3 W ö l b u n g μ 4 σ 4 − 3 = 1 n n ∑ i = 1 ( x i − ¯ x σ ) 4 − 3 = 1 n n ∑ i = 1 ( x i − ¯ x ) 4 ( √ 1 n n ∑ i = 1 ( x i − ¯ x ) 2 ) 4 − 3 A p p r o x i m a t i o n d e r V e r t e i l u n g s f u n k t i o n b e i k l a s s i e r t e n D a t e n F ( x ) ≈ F ( x u ) + ( x − x u ) F ( x o ) − F ( x u ) x o − x u K o n z e n t r a t i o n s m e s s u n g K o n z e n t r a t i o n s r a t e C R i = i ∑ r = 1 h r m i t h r = x r n ∑ i = 1 x i = x r n ¯ x r = 1 , . . . , n R o s e n b l u t h - I n d e x R K = 1 2 A = 1 ( 2 n ∑ i = 1 i h i ) − 1 H i r s c h m a n - H e r fin d a h l - I n d e x H K = n ∑ i = 1 h 2 i V a r i a t i o n s k o e ffi z i e n t V K = σ / ¯ x F F o r m e l s a m m l u n g 2 1 3 S c h i e f e μ 3 σ 3 = 1 n n ∑ i = 1 ( x i − ¯ x σ ) 3 = 1 n n ∑ i = 1 ( x i − ¯ x ) 3 ( √ 1 n n ∑ i = 1 ( x i − ¯ x ) 2 ) 3 W ö l b u n g μ 4 σ 4 − 3 = 1 n n ∑ i = 1 ( x i − ¯ x σ ) 4 − 3 = 1 n n ∑ i = 1 ( x i − ¯ x ) 4 ( √ 1 n n ∑ i = 1 ( x i − ¯ x ) 2 ) 4 − 3 A p p r o x i m a t i o n d e r V e r t e i l u n g s f u n k t i o n b e i k l a s s i e r t e n D a t e n F ( x ) ≈ F ( x u ) + ( x − x u ) F ( x o ) − F ( x u ) x o − x u K o n z e n t r a t i o n s m e s s u n g K o n z e n t r a t i o n s r a t e C R i = i ∑ r = 1 h r m i t h r = x r n ∑ i = 1 x i = x r n ¯ x r = 1 , . . . , n R o s e n b l u t h - I n d e x R K = 1 2 A = 1 ( 2 n ∑ i = 1 i h i ) − 1 H i r s c h m a n - H e r fin d a h l - I n d e x H K = n ∑ i = 1 h 2 i V a r i a t i o n s k o e ffi z i e n t V K = σ / ¯ x F Formelsammlung 225 Zeitreihenanalyse Zeitreihen-Komponenten-Modelle y i = g i + k i + s i + u i (additives Modell) y i = g i k i s i u i (multiplikatives Modell) Gleitende Durchschnitte g i = 1 2 l + 1 ( y i − l + ... + y i + ... + y i + l ) ( λ = 2 l + 1 ungerade) g i = 1 2 l (0 . 5 y i − l + ... + y i + ... + 0 . 5 y i + l ) ( λ = 2 l gerade) Trendbereinigung d jk = y jk / g jk = k jk s jk u jk Phasenmittel ¯ d k = 1 J ∗ J ∗ ∑ j =1 d jk Normierung s k = ¯ d k 1 K ∑ K k =1 ¯ d k 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 225 03.09.2019 13: 57: 16 <?page no="226"?> 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 226 03.09.2019 13: 57: 16 <?page no="227"?> Probeklausuren 221 5. [20 Punkte] Die nachfolgende Tabelle enthält die Preise und die Mengen von 4 Gütern zu zwei verschiedenen Zeitpunkten: j 1 2 3 4 Preis/ Menge p q p q p q p q t = 0 1 . 05 4 2 . 11 6 3 . 40 8 4 . 10 10 t = 1 1 . 07 5 2 . 14 7 3 . 50 9 4 . 80 11 Berechnen Sie a) [6] das mit den relativen Ausgaben der Periode t = 0 gewichtete arithmetische Mittel der Preismesszahlen p j 1 / p j 0 . b) [6] das mit den relativen Ausgaben der Periode t = 1 gewichtete harmonische Mittel der Preismesszahlen p j 1 / p j 0 . c) [4] Berechnen Sie P f t 0 t 1 . P f t 0 t 1 ist ein von Fisher vorgeschlagener Preisindex, der sich als geometrisches Mittel aus den beiden Preisindizes von Paasche und Laspeyres ergibt. d) [4] Wie heißt die unter b) berechnete Maßzahl? Nehmen Sie an, Sie haben nach diesem Konzept die Preissteigerung von Periode 1 gegenüber Periode 0 und von Periode 2 gegenüber Periode 1 ermittelt. Können Sie hieraus auch die isolierte Preisveränderung von Periode 2 gegenüber Periode 0 ermitteln? K K K K Probeklausuren Klausur 1 X : 1 6 6 6 6 6 9 20 Y : 2 3 4 5 6 7 8 9 1. [20 Punkte] Betrachten Sie die in der obigen Tabelle angegeben Werte und ermitteln Sie a) [2] das arithmetische Mittel ¯ x. b) [2] den Quantilswert ˜ x 0 . 7 . c) [3] die Standardabweichung σ X . d) [4] die Kovarianz σ XY . e) [9] den Rangkorrelationskoeffizienten ρ XY . 2. [20 Punkte] Die nachfolgenden Tabellen enthalten die unbereinigten Werte des Bruttoinlandsprodukts des Zeitraums 2011 (1. Quartal) bis 2014 (3. Quartal). Ermitteln Sie den saisonbereinigten Wert für das 3. Quartal 2014 nach dem Periodogrammverfahren. Gehen Sie dabei von einem multiplikativen Modell aus, verwenden Sie ein gleitendes 4er-Mittel für die Ermittlung der Trendwerte und verzichten Sie zur Vereinfachung auf die Normierung. Jahr 2011 2012 Quartal 1 2 3 4 1 2 3 4 BIP 661 . 86 664 . 75 688 . 24 684 . 25 680 . 68 675 . 68 699 . 39 694 . 15 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 227 03.09.2019 13: 57: 17 <?page no="228"?> 228 Probeklausuren Jahr 2013 2014 Quartal 1 2 3 4 1 2 3 BIP 682 . 42 694 . 31 718 . 47 714 . 28 714 . 05 714 . 75 739 . 96 3. [20] Regression a) [15] Gehen Sie von folgender linearen Regressionsfunktion aus y i = β 0 + β 1 x i + u i und leiten Sie folgenden Bestimmungsgleichungen für die Parameter ˆ β 0 und ˆ β 1 nach der Methode der kleinsten Quadrate her. b) [5] Wie lauten ihre numerischen Schätzwerte ˆ β 0 und ˆ β 1 für die beiden Parameter β 0 und β 1 (Werte aus obiger Tabelle am Anfang der Klausur ( X / Y ))? 4. [20 Punkte] Gini-Koeffizient a) [10] Leiten Sie die nachfolgende Berechnungsvorschrift des Gini-Koeffizienten für klassifizierte Daten unter Zuhilfenahme einer kleinen Skizze her. G = 1 − J ∑ j =1 f j ( H j − 1 + H j ) b) [10] Ermitteln Sie den Gini-Koeffizienten der statistischen Variable X . n j ¯ x j 11 1 7 2 3 5 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 228 03.09.2019 13: 57: 17 <?page no="229"?> Probeklausuren 221 5. [20 Punkte] Die nachfolgende Tabelle enthält die Preise und die Mengen von 4 Gütern zu zwei verschiedenen Zeitpunkten: j 1 2 3 4 Preis/ Menge p q p q p q p q t = 0 1 . 05 4 2 . 11 6 3 . 40 8 4 . 10 10 t = 1 1 . 07 5 2 . 14 7 3 . 50 9 4 . 80 11 Berechnen Sie a) [6] das mit den relativen Ausgaben der Periode t = 0 gewichtete arithmetische Mittel der Preismesszahlen p j 1 / p j 0 . b) [6] das mit den relativen Ausgaben der Periode t = 1 gewichtete harmonische Mittel der Preismesszahlen p j 1 / p j 0 . c) [4] Berechnen Sie P f t 0 t 1 . P f t 0 t 1 ist ein von Fisher vorgeschlagener Preisindex, der sich als geometrisches Mittel aus den beiden Preisindizes von Paasche und Laspeyres ergibt. d) [4] Wie heißt die unter b) berechnete Maßzahl? Nehmen Sie an, Sie haben nach diesem Konzept die Preissteigerung von Periode 1 gegenüber Periode 0 und von Periode 2 gegenüber Periode 1 ermittelt. Können Sie hieraus auch die isolierte Preisveränderung von Periode 2 gegenüber Periode 0 ermitteln? K P r o b e k l a u s u r e n 2 2 1 5 . [ 2 0 P u n k t e ] D i e n a c h f o l g e n d e T a b e l l e e n t h ä l t d i e P r e i s e u n d d i e M e n g e n v o n 4 G ü t e r n z u z w e i v e r s c h i e d e n e n Z e i t p u n k t e n : j 1 2 3 4 P r e i s / M e n g e p q p q p q p q t = 0 1 . 0 5 4 2 . 1 1 6 3 . 4 0 8 4 . 1 0 1 0 t = 1 1 . 0 7 5 2 . 1 4 7 3 . 5 0 9 4 . 8 0 1 1 B e r e c h n e n S i e a ) [ 6 ] d a s m i t d e n r e l a t i v e n A u s g a b e n d e r P e r i o d e t = 0 g e w i c h t e t e a r i t h m e t i s c h e M i t t e l d e r P r e i s m e s s z a h l e n p j 1 / p j 0 . b ) [ 6 ] d a s m i t d e n r e l a t i v e n A u s g a b e n d e r P e r i o d e t = 1 g e w i c h t e t e h a r m o n i s c h e M i t t e l d e r P r e i s m e s s z a h l e n p j 1 / p j 0 . c ) [ 4 ] B e r e c h n e n S i e P f t 0 t 1 . P f t 0 t 1 i s t e i n v o n F i s h e r v o r g e s c h l a g e n e r P r e i s i n d e x , d e r s i c h a l s g e o m e t r i s c h e s M i t t e l a u s d e n b e i d e n P r e i s i n d i z e s v o n P a a s c h e u n d L a s p e y r e s e r g i b t . d ) [ 4 ] W i e h e i ß t d i e u n t e r b ) b e r e c h n e t e M a ß z a h l ? N e h m e n S i e a n , S i e h a b e n n a c h d i e s e m K o n z e p t d i e P r e i s s t e i g e r u n g v o n P e r i o d e 1 g e g e n ü b e r P e r i o d e 0 u n d v o n P e r i o d e 2 g e g e n ü b e r P e r i o d e 1 e r m i t t e l t . K ö n n e n S i e h i e r a u s a u c h d i e i s o l i e r t e P r e i s v e r ä n d e r u n g v o n P e r i o d e 2 g e g e n ü b e r P e r i o d e 0 e r m i t t e l n ? K P r o b e k l a u s u r e n 2 2 1 5 . [ 2 0 P u n k t e ] D i e n a c h f o l g e n d e T a b e l l e e n t h ä l t d i e P r e i s e u n d d i e M e n g e n v o n 4 G ü t e r n z u z w e i v e r s c h i e d e n e n Z e i t p u n k t e n : j 1 2 3 4 P r e i s / M e n g e p q p q p q p q t = 0 1 . 0 5 4 2 . 1 1 6 3 . 4 0 8 4 . 1 0 1 0 t = 1 1 . 0 7 5 2 . 1 4 7 3 . 5 0 9 4 . 8 0 1 1 B e r e c h n e n S i e a ) [ 6 ] d a s m i t d e n r e l a t i v e n A u s g a b e n d e r P e r i o d e t = 0 g e w i c h t e t e a r i t h m e t i s c h e M i t t e l d e r P r e i s m e s s z a h l e n p j 1 / p j 0 . b ) [ 6 ] d a s m i t d e n r e l a t i v e n A u s g a b e n d e r P e r i o d e t = 1 g e w i c h t e t e h a r m o n i s c h e M i t t e l d e r P r e i s m e s s z a h l e n p j 1 / p j 0 . c ) [ 4 ] B e r e c h n e n S i e P f t 0 t 1 . P f t 0 t 1 i s t e i n v o n F i s h e r v o r g e s c h l a g e n e r P r e i s i n d e x , d e r s i c h a l s g e o m e t r i s c h e s M i t t e l a u s d e n b e i d e n P r e i s i n d i z e s v o n P a a s c h e u n d L a s p e y r e s e r g i b t . d ) [ 4 ] W i e h e i ß t d i e u n t e r b ) b e r e c h n e t e M a ß z a h l ? N e h m e n S i e a n , S i e h a b e n n a c h d i e s e m K o n z e p t d i e P r e i s s t e i g e r u n g v o n P e r i o d e 1 g e g e n ü b e r P e r i o d e 0 u n d v o n P e r i o d e 2 g e g e n ü b e r P e r i o d e 1 e r m i t t e l t . K ö n n e n S i e h i e r a u s a u c h d i e i s o l i e r t e P r e i s v e r ä n d e r u n g v o n P e r i o d e 2 g e g e n ü b e r P e r i o d e 0 e r m i t t e l n ? K P r o b e k l a u s u r e n 2 2 1 5 . [ 2 0 P u n k t e ] D i e n a c h f o l g e n d e T a b e l l e e n t h ä l t d i e P r e i s e u n d d i e M e n g e n v o n 4 G ü t e r n z u z w e i v e r s c h i e d e n e n Z e i t p u n k t e n : j 1 2 3 4 P r e i s / M e n g e p q p q p q p q t = 0 1 . 0 5 4 2 . 1 1 6 3 . 4 0 8 4 . 1 0 1 0 t = 1 1 . 0 7 5 2 . 1 4 7 3 . 5 0 9 4 . 8 0 1 1 B e r e c h n e n S i e a ) [ 6 ] d a s m i t d e n r e l a t i v e n A u s g a b e n d e r P e r i o d e t = 0 g e w i c h t e t e a r i t h m e t i s c h e M i t t e l d e r P r e i s m e s s z a h l e n p j 1 / p j 0 . b ) [ 6 ] d a s m i t d e n r e l a t i v e n A u s g a b e n d e r P e r i o d e t = 1 g e w i c h t e t e h a r m o n i s c h e M i t t e l d e r P r e i s m e s s z a h l e n p j 1 / p j 0 . c ) [ 4 ] B e r e c h n e n S i e P f t 0 t 1 . P f t 0 t 1 i s t e i n v o n F i s h e r v o r g e s c h l a g e n e r P r e i s i n d e x , d e r s i c h a l s g e o m e t r i s c h e s M i t t e l a u s d e n b e i d e n P r e i s i n d i z e s v o n P a a s c h e u n d L a s p e y r e s e r g i b t . d ) [ 4 ] W i e h e i ß t d i e u n t e r b ) b e r e c h n e t e M a ß z a h l ? N e h m e n S i e a n , S i e h a b e n n a c h d i e s e m K o n z e p t d i e P r e i s s t e i g e r u n g v o n P e r i o d e 1 g e g e n ü b e r P e r i o d e 0 u n d v o n P e r i o d e 2 g e g e n ü b e r P e r i o d e 1 e r m i t t e l t . K ö n n e n S i e h i e r a u s a u c h d i e i s o l i e r t e P r e i s v e r ä n d e r u n g v o n P e r i o d e 2 g e g e n ü b e r P e r i o d e 0 e r m i t t e l n ? K Probeklausuren 229 5. [20 Punkte] Die nachfolgende Tabelle enthält die Preise und die Mengen von 4 Gütern zu zwei verschiedenen Zeitpunkten: j 1 2 3 4 Preis/ Menge p q p q p q p q t = 0 1 . 05 4 2 . 11 6 3 . 40 8 4 . 10 10 t = 1 1 . 07 5 2 . 14 7 3 . 50 9 4 . 80 11 Berechnen Sie a) [6] das mit den relativen Ausgaben der Periode t = 0 gewichtete arithmetische Mittel der Preismesszahlen p j 1 / p j 0 . b) [6] das mit den relativen Ausgaben der Periode t = 1 gewichtete harmonische Mittel der Preismesszahlen p j 1 / p j 0 . c) [4] Berechnen Sie P f t 0 t 1 . P f t 0 t 1 ist ein von Fisher vorgeschlagener Preisindex, der sich als geometrisches Mittel aus den beiden Preisindizes von Paasche und Laspeyres ergibt. d) [4] Wie heißt die unter b) berechnete Maßzahl? Nehmen Sie an, Sie haben nach diesem Konzept die Preissteigerung von Periode 1 gegenüber Periode 0 und von Periode 2 gegenüber Periode 1 ermittelt. Können Sie hieraus auch die isolierte Preisveränderung von Periode 2 gegenüber Periode 0 ermitteln? 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 229 03.09.2019 13: 57: 18 <?page no="230"?> 230 Probeklausuren Klausur 2 1. [20 Punkte] Gegeben sind die folgenden Merkmalswerte x 1 = 5, x 2 = 7, x 3 = 8, x 4 = 24. Ermitteln Sie a) [3] das arithmetische Mittel. b) [2] den Zentralwert. c) [3] die Standardabweichung. d) [7] das Schiefemaß zum arithmetischen Mittel. Warum deutet das berechnete Schiefemaß auf eine rechtsschiefe Verteilung hin? e) [5] Nehmen Sie nun an, die vier Werte geben den Wert einer Variable zu vier aufeinanderfolgenden Zeitpunkten an. Ermitteln Sie die mittlere Wachstumsrate von X. 2. [20 Punkte] Preisindizes a) [8] Gängige Preisindizes werden nicht als ungewichtete, sondern als gewichtete Mittelwerte von Preismeßzahlen berechnet. Warum? Wie werden die Gewichte ermittelt? b) [8] Für die beiden Perioden 0 und 1 wurden für drei Güter j = 1 , 2 , 3 die folgenden Preise ( p ) und Mengen ( q ) ermittelt. Berechnen Sie die mittlere Preisveränderung mit Hilfe des Laspeyres- und mit Hilfe des Paasche-Preisindex. t = 0 t = 1 j p q p q 1 3 . 4 6 3 . 7 7 2 1 . 2 5 1 . 1 6 3 5 . 6 4 6 . 2 2 c) [4] Dass der Preisindex nach Laspeyres über dem Preisindex nach Paasche liegt ist nicht unüblich. Warum? 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 230 03.09.2019 13: 57: 19 <?page no="231"?> Probeklausuren 221 5. [20 Punkte] Die nachfolgende Tabelle enthält die Preise und die Mengen von 4 Gütern zu zwei verschiedenen Zeitpunkten: j 1 2 3 4 Preis/ Menge p q p q p q p q t = 0 1 . 05 4 2 . 11 6 3 . 40 8 4 . 10 10 t = 1 1 . 07 5 2 . 14 7 3 . 50 9 4 . 80 11 Berechnen Sie a) [6] das mit den relativen Ausgaben der Periode t = 0 gewichtete arithmetische Mittel der Preismesszahlen p j 1 / p j 0 . b) [6] das mit den relativen Ausgaben der Periode t = 1 gewichtete harmonische Mittel der Preismesszahlen p j 1 / p j 0 . c) [4] Berechnen Sie P f t 0 t 1 . P f t 0 t 1 ist ein von Fisher vorgeschlagener Preisindex, der sich als geometrisches Mittel aus den beiden Preisindizes von Paasche und Laspeyres ergibt. d) [4] Wie heißt die unter b) berechnete Maßzahl? Nehmen Sie an, Sie haben nach diesem Konzept die Preissteigerung von Periode 1 gegenüber Periode 0 und von Periode 2 gegenüber Periode 1 ermittelt. Können Sie hieraus auch die isolierte Preisveränderung von Periode 2 gegenüber Periode 0 ermitteln? K P r o b e k l a u s u r e n 2 2 1 5 . [ 2 0 P u n k t e ] D i e n a c h f o l g e n d e T a b e l l e e n t h ä l t d i e P r e i s e u n d d i e M e n g e n v o n 4 G ü t e r n z u z w e i v e r s c h i e d e n e n Z e i t p u n k t e n : j 1 2 3 4 P r e i s / M e n g e p q p q p q p q t = 0 1 . 0 5 4 2 . 1 1 6 3 . 4 0 8 4 . 1 0 1 0 t = 1 1 . 0 7 5 2 . 1 4 7 3 . 5 0 9 4 . 8 0 1 1 B e r e c h n e n S i e a ) [ 6 ] d a s m i t d e n r e l a t i v e n A u s g a b e n d e r P e r i o d e t = 0 g e w i c h t e t e a r i t h m e t i s c h e M i t t e l d e r P r e i s m e s s z a h l e n p j 1 / p j 0 . b ) [ 6 ] d a s m i t d e n r e l a t i v e n A u s g a b e n d e r P e r i o d e t = 1 g e w i c h t e t e h a r m o n i s c h e M i t t e l d e r P r e i s m e s s z a h l e n p j 1 / p j 0 . c ) [ 4 ] B e r e c h n e n S i e P f t 0 t 1 . P f t 0 t 1 i s t e i n v o n F i s h e r v o r g e s c h l a g e n e r P r e i s i n d e x , d e r s i c h a l s g e o m e t r i s c h e s M i t t e l a u s d e n b e i d e n P r e i s i n d i z e s v o n P a a s c h e u n d L a s p e y r e s e r g i b t . d ) [ 4 ] W i e h e i ß t d i e u n t e r b ) b e r e c h n e t e M a ß z a h l ? N e h m e n S i e a n , S i e h a b e n n a c h d i e s e m K o n z e p t d i e P r e i s s t e i g e r u n g v o n P e r i o d e 1 g e g e n ü b e r P e r i o d e 0 u n d v o n P e r i o d e 2 g e g e n ü b e r P e r i o d e 1 e r m i t t e l t . K ö n n e n S i e h i e r a u s a u c h d i e i s o l i e r t e P r e i s v e r ä n d e r u n g v o n P e r i o d e 2 g e g e n ü b e r P e r i o d e 0 e r m i t t e l n ? K P r o b e k l a u s u r e n 2 2 1 5 . [ 2 0 P u n k t e ] D i e n a c h f o l g e n d e T a b e l l e e n t h ä l t d i e P r e i s e u n d d i e M e n g e n v o n 4 G ü t e r n z u z w e i v e r s c h i e d e n e n Z e i t p u n k t e n : j 1 2 3 4 P r e i s / M e n g e p q p q p q p q t = 0 1 . 0 5 4 2 . 1 1 6 3 . 4 0 8 4 . 1 0 1 0 t = 1 1 . 0 7 5 2 . 1 4 7 3 . 5 0 9 4 . 8 0 1 1 B e r e c h n e n S i e a ) [ 6 ] d a s m i t d e n r e l a t i v e n A u s g a b e n d e r P e r i o d e t = 0 g e w i c h t e t e a r i t h m e t i s c h e M i t t e l d e r P r e i s m e s s z a h l e n p j 1 / p j 0 . b ) [ 6 ] d a s m i t d e n r e l a t i v e n A u s g a b e n d e r P e r i o d e t = 1 g e w i c h t e t e h a r m o n i s c h e M i t t e l d e r P r e i s m e s s z a h l e n p j 1 / p j 0 . c ) [ 4 ] B e r e c h n e n S i e P f t 0 t 1 . P f t 0 t 1 i s t e i n v o n F i s h e r v o r g e s c h l a g e n e r P r e i s i n d e x , d e r s i c h a l s g e o m e t r i s c h e s M i t t e l a u s d e n b e i d e n P r e i s i n d i z e s v o n P a a s c h e u n d L a s p e y r e s e r g i b t . d ) [ 4 ] W i e h e i ß t d i e u n t e r b ) b e r e c h n e t e M a ß z a h l ? N e h m e n S i e a n , S i e h a b e n n a c h d i e s e m K o n z e p t d i e P r e i s s t e i g e r u n g v o n P e r i o d e 1 g e g e n ü b e r P e r i o d e 0 u n d v o n P e r i o d e 2 g e g e n ü b e r P e r i o d e 1 e r m i t t e l t . K ö n n e n S i e h i e r a u s a u c h d i e i s o l i e r t e P r e i s v e r ä n d e r u n g v o n P e r i o d e 2 g e g e n ü b e r P e r i o d e 0 e r m i t t e l n ? K P r o b e k l a u s u r e n 2 2 1 5 . [ 2 0 P u n k t e ] D i e n a c h f o l g e n d e T a b e l l e e n t h ä l t d i e P r e i s e u n d d i e M e n g e n v o n 4 G ü t e r n z u z w e i v e r s c h i e d e n e n Z e i t p u n k t e n : j 1 2 3 4 P r e i s / M e n g e p q p q p q p q t = 0 1 . 0 5 4 2 . 1 1 6 3 . 4 0 8 4 . 1 0 1 0 t = 1 1 . 0 7 5 2 . 1 4 7 3 . 5 0 9 4 . 8 0 1 1 B e r e c h n e n S i e a ) [ 6 ] d a s m i t d e n r e l a t i v e n A u s g a b e n d e r P e r i o d e t = 0 g e w i c h t e t e a r i t h m e t i s c h e M i t t e l d e r P r e i s m e s s z a h l e n p j 1 / p j 0 . b ) [ 6 ] d a s m i t d e n r e l a t i v e n A u s g a b e n d e r P e r i o d e t = 1 g e w i c h t e t e h a r m o n i s c h e M i t t e l d e r P r e i s m e s s z a h l e n p j 1 / p j 0 . c ) [ 4 ] B e r e c h n e n S i e P f t 0 t 1 . P f t 0 t 1 i s t e i n v o n F i s h e r v o r g e s c h l a g e n e r P r e i s i n d e x , d e r s i c h a l s g e o m e t r i s c h e s M i t t e l a u s d e n b e i d e n P r e i s i n d i z e s v o n P a a s c h e u n d L a s p e y r e s e r g i b t . d ) [ 4 ] W i e h e i ß t d i e u n t e r b ) b e r e c h n e t e M a ß z a h l ? N e h m e n S i e a n , S i e h a b e n n a c h d i e s e m K o n z e p t d i e P r e i s s t e i g e r u n g v o n P e r i o d e 1 g e g e n ü b e r P e r i o d e 0 u n d v o n P e r i o d e 2 g e g e n ü b e r P e r i o d e 1 e r m i t t e l t . K ö n n e n S i e h i e r a u s a u c h d i e i s o l i e r t e P r e i s v e r ä n d e r u n g v o n P e r i o d e 2 g e g e n ü b e r P e r i o d e 0 e r m i t t e l n ? K Probeklausuren 231 3. [20 Punkte] Leiten Sie die nachfolgende Berechnungsvorschrift des Gini-Koeffizienten unter Zuhilfenahme einer kleinen Skizze her. G = n ∑ i =1 h i ( 2 i − n − 1 n ) 4. [20 Punkte] Zeigen Sie, dass folgender Zusammenhang (Streuungszerlegung) gilt: σ 2 X = J ∑ j =1 (˜ x j − ¯ x ) 2 P( X = ˜ x j ) = K ∑ k =1 σ 2 X | ˜ y k P( Y = ˜ y k ) + K ∑ k =1 (¯ x k − ¯ x ) 2 P( Y = ˜ y k ) Hilfe: x ji − ¯ x = x ji − ¯ x j + ¯ x j − ¯ x 5. [20 Punkte] Die nachfolgende Tabelle enthält Informationen über die Einkommensverteilung von 509 Erwerbstätigen in Ostdeutschland im Jahr 2018 (in Euro). n ¯ x σ 2 (0,1000] 79 782.532 46590.654 (1000,2500] 335 1641.693 164873.192 (2500,5000] 85 3277.200 439627.736 (5,20000] 10 7725.000 7480625.000 a) [5] Zeigen Sie, dass Sie ausgehend von den Angaben in der Tabelle das arithmetische Mittel exakt berechnen können. b) [4] Warum können Sie auch die Varianz exakt berechnen? c) [4] Ermitteln Sie das arithmetische Mittel des Einkommens. d) [7] Ermitteln Sie die Standardabweichung des Einkommens. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 231 03.09.2019 13: 57: 20 <?page no="232"?> 232 Probeklausuren 6. [20 Punkte] Gehen Sie von folgender Konsumfunktion ( c sei der Konsum, y sei das Einkommen) aus c i = e α y β i e u a) [3] Gelingt Ihnen eine Linearisierung dieser Funktion? b) [3] Wie könnten Sie Schätzwerte der Parameter α und β ermitteln? (Eine Berechnung ist nicht notwendig.) c) [2] Als Schätzwerte resultieren für die untenstehenden Werte ˆ α = 0 . 915 , ˆ β = 0 . 818 . Welche Konsumausgaben würden Sie bei einem Einkommen von 4000 Euro vermuten? d) [10] Ermitteln Sie ausgehend von den Beobachtungen von drei Personen numerische Werte für die Parameter δ und φ der folgenden einfachen linearen Konsumfunktion: c i = δ + φy i + u i Konsumausgaben in e Einkommen in e 400 500 1 , 800 3 , 000 2 , 500 4 , 800 e) [2] Welche Konsumausgaben würden Sie ausgehend von der einfachen linearen Konsumfunktion bei einem Einkommen von 4 , 000 Euro vermuten? 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 232 03.09.2019 13: 57: 20 <?page no="233"?> Lösungshinweise 227 2. i x i u i K ( u i ) R K ( u i ) R / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.500 0.033 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.099 3. a)-b) (D: Dreieck-Kern, N: Normalkern) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( nw ) K ( u i ) N / ( nw ) 1 1 1.167 0.000 0.202 0.000 0.013 2 5 -0.167 0.833 0.393 0.056 0.026 3 6 -0.500 0.500 0.352 0.033 0.023 4 6 -0.500 0.500 0.352 0.033 0.023 5 8 -1.167 0.000 0.202 0.000 0.013 Summe 0.122 0.098 4. a)-b) (1: w = 3, 2: w = 2 . 5, 3: w = 3 . 5) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.833 0.056 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.122 L L L Lösungshinweise Kapitel 1 1. a) 14 b) 28 c) 72 d) 1 , 728 e) 25 , 396 2. a) − 1 , 180 b) 81 , 535 c) 44 , 360 3. a) 20 b) 22 c) 22 d) 55 e) 24 4. a) Querschnittserhebung: Einheiten werden einmalig an einem Zeitpunkt befragt. Panelerhebung: Gleiche Einheiten werden an mehreren Zeitpunkten befragt. b) Stichprobe aus Einwohnermelderegistern. c) Die Ziehungswahrscheinlichkeiten in West- und Ostdeutschland unterscheiden sich, mit einer deutlich höheren Ziehungswahrscheinlichkeit für in Ostdeutschland lebende Personen. d) Der ALLBUS liefert Informationen über verschiedene soziodemographische Aspekte. e) In 2018 waren u.a. die Bereiche Wirtschaft, Mediennutzung, Politik, Soziale Ungleichheit und soziales Kapital, Nationalstolz und Rechtsextremismus und Einstellungen zur Wiedervereinigung Schwerpunkte. 5. Geschlecht: nominal, Beruf: nominal, Warengruppe: nominal, Immobilienbesitz: nominal, Bonität: ordinal (Risikoklassen) oder metrisch (,Ausfallwahrscheinlichkeit‘), Einkommen: metrisch, Vermögen: metrisch. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 233 03.09.2019 13: 57: 21 <?page no="234"?> 234 Lösungshinweise 6. j ˜ x j n j f j 1 1 5 5 / 15 2 2 2 2 / 15 3 4 4 4 / 15 4 5 3 3 / 15 5 6 1 1 / 15 7. Klasse von bis unter abs. Häuf. rel. Häuf. ˜ x ∗ 1 0 500 22 0.018 ˜ x ∗ 2 500 1000 142 0.115 ˜ x ∗ 3 1000 1500 183 0.148 ˜ x ∗ 4 1500 2500 454 0.367 ˜ x ∗ 5 2500 5000 369 0.298 ˜ x ∗ 6 5000 20000 68 0.055 Kapitel 2 1. Histogramm: In den Klassen wird eine gleiche Verteilung (gleiche Dichte) über das gesamte Intervall unterstellt. Dies ist meist unplausibel. An den Intervallgrenzen macht die geschätzte Dichte einen Sprung. Dies ist meist unplausibel. Das Erscheinungsbild der Verteilung hängt stark von der genauen Lage der Klassengrenzen und von der Anzahl der gebildeten Klassen ab. Die Berechnung ist einfacher als bei einer Kerndichteschätzung. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 234 03.09.2019 13: 57: 22 <?page no="235"?> Lösungshinweise 227 2. i x i u i K ( u i ) R K ( u i ) R / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.500 0.033 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.099 3. a)-b) (D: Dreieck-Kern, N: Normalkern) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( nw ) K ( u i ) N / ( nw ) 1 1 1.167 0.000 0.202 0.000 0.013 2 5 -0.167 0.833 0.393 0.056 0.026 3 6 -0.500 0.500 0.352 0.033 0.023 4 6 -0.500 0.500 0.352 0.033 0.023 5 8 -1.167 0.000 0.202 0.000 0.013 Summe 0.122 0.098 4. a)-b) (1: w = 3, 2: w = 2 . 5, 3: w = 3 . 5) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.833 0.056 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.122 L L ö s u n g s h i n w e i s e 2 2 7 2 . i x i u i K ( u i ) R K ( u i ) R / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 5 0 0 0 . 0 3 3 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 0 9 9 3 . a ) - b ) ( D : D r e i e c k - K e r n , N : N o r m a l k e r n ) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( n w ) K ( u i ) N / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 3 9 3 0 . 0 5 6 0 . 0 2 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 S u m m e 0 . 1 2 2 0 . 0 9 8 4 . a ) - b ) ( 1 : w = 3 , 2 : w = 2 . 5 , 3 : w = 3 . 5 ) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 0 5 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 1 2 2 L L ö s u n g s h i n w e i s e 2 2 7 2 . i x i u i K ( u i ) R K ( u i ) R / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 5 0 0 0 . 0 3 3 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 0 9 9 3 . a ) - b ) ( D : D r e i e c k - K e r n , N : N o r m a l k e r n ) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( n w ) K ( u i ) N / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 3 9 3 0 . 0 5 6 0 . 0 2 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 S u m m e 0 . 1 2 2 0 . 0 9 8 4 . a ) - b ) ( 1 : w = 3 , 2 : w = 2 . 5 , 3 : w = 3 . 5 ) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 0 5 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 1 2 2 L Lösungshinweise 235 Kerndichteschätzung: Die Schätzung hängt von der Wahl der Kernfunktion und der gewählten Bandweite ab. Bessere Darstellungsweise bei stetigen Variablen. 2. i x i u i K ( u i ) R K ( u i ) R / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.500 0.033 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.099 3. a)-b) (D: Dreieck-Kern, N: Normalkern) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( nw ) K ( u i ) N / ( nw ) 1 1 1.167 0.000 0.202 0.000 0.013 2 5 -0.167 0.833 0.393 0.056 0.026 3 6 -0.500 0.500 0.352 0.033 0.023 4 6 -0.500 0.500 0.352 0.033 0.023 5 8 -1.167 0.000 0.202 0.000 0.013 Summe 0.122 0.098 4. a) i x i u i K ( u i ) K ( u i ) / ( nw ) 1 1 1.400 0.000 0.000 2 5 -0.200 0.800 0.064 3 6 -0.600 0.400 0.032 4 6 -0.600 0.400 0.032 5 8 -1.400 0.000 0.000 Summe 0.128 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 235 03.09.2019 13: 57: 23 <?page no="236"?> 236 Lösungshinweise b) i x i u i K ( u i ) K ( u i ) / ( nw ) 1 1 1.000 0.000 0.000 2 5 -0.143 0.857 0.049 3 6 -0.429 0.571 0.033 4 6 -0.429 0.571 0.033 5 8 -1.000 0.000 0.000 Summe 0.115 Kapitel 3 1. a) D = 3 b) ˜ x 0 . 5 = 3 c) ¯ x = 3 . 75 d) H = 2 . 8141 e) G = 3 . 330 f) σ 2 = 2 . 688 g) σ = 1 . 639 h) ¯ d = 1 . 25 i) g = 0 . 404 j) k = − 0 . 021 k) a) Verändert sich nicht b) Verändert sich nicht c) Wird deutlich größer d) Wird etwas größer e) Wird etwas größer f) Nimmt extrem zu g) Nimmt extrem zu h) Nimmt deutlich zu i) Nimmt extrem zu j) Nimmt extrem zu l) a) 3 b) 3 c) 6 . 25 d) 2 . 923 e) 3 . 942 f) 62 . 688 g) 7 . 918 h) 5 . 188 i) 2 . 181 j) 2 . 933 2. a) 10 . 2 km/ Std. b) 9 . 9 km/ Std. c) 8 . 4 % 3. a) v.: von; b.u.: bis unter b) Die dichteste Klasse ist die 4-te Klasse. Als Näherung kann die Klassenmitte 1 . 75 (in Tsd. Euro) verwendet werden. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 236 03.09.2019 13: 57: 24 <?page no="237"?> Lösungshinweise 227 2. i x i u i K ( u i ) R K ( u i ) R / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.500 0.033 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.099 3. a)-b) (D: Dreieck-Kern, N: Normalkern) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( nw ) K ( u i ) N / ( nw ) 1 1 1.167 0.000 0.202 0.000 0.013 2 5 -0.167 0.833 0.393 0.056 0.026 3 6 -0.500 0.500 0.352 0.033 0.023 4 6 -0.500 0.500 0.352 0.033 0.023 5 8 -1.167 0.000 0.202 0.000 0.013 Summe 0.122 0.098 4. a)-b) (1: w = 3, 2: w = 2 . 5, 3: w = 3 . 5) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.833 0.056 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.122 L L ö s u n g s h i n w e i s e 2 2 7 2 . i x i u i K ( u i ) R K ( u i ) R / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 5 0 0 0 . 0 3 3 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 0 9 9 3 . a ) - b ) ( D : D r e i e c k - K e r n , N : N o r m a l k e r n ) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( n w ) K ( u i ) N / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 3 9 3 0 . 0 5 6 0 . 0 2 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 S u m m e 0 . 1 2 2 0 . 0 9 8 4 . a ) - b ) ( 1 : w = 3 , 2 : w = 2 . 5 , 3 : w = 3 . 5 ) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 0 5 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 1 2 2 L L ö s u n g s h i n w e i s e 2 2 7 2 . i x i u i K ( u i ) R K ( u i ) R / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 5 0 0 0 . 0 3 3 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 0 9 9 3 . a ) - b ) ( D : D r e i e c k - K e r n , N : N o r m a l k e r n ) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( n w ) K ( u i ) N / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 3 9 3 0 . 0 5 6 0 . 0 2 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 S u m m e 0 . 1 2 2 0 . 0 9 8 4 . a ) - b ) ( 1 : w = 3 , 2 : w = 2 . 5 , 3 : w = 3 . 5 ) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 0 5 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 1 2 2 L Lösungshinweise 237 K v. b. u. rel. Häuf. kum. rel. H. K v. b. u. rel. Häuf. kum. rel. H. ˜ x 1 0.0 0.5 0.018 0.018 ˜ x 7 3.0 4.0 0.132 0.898 ˜ x 2 0.5 1.0 0.115 0.132 ˜ x 8 4.0 5.0 0.047 0.945 ˜ x 3 1.0 1.5 0.148 0.280 ˜ x 9 5.0 7.0 0.040 0.985 ˜ x 4 1.5 2.0 0.184 0.464 ˜ x 10 7.0 10.0 0.011 0.997 ˜ x 5 2.0 2.5 0.183 0.647 ˜ x 11 10.0 15.0 0.002 0.999 ˜ x 6 2.5 3.0 0.119 0.766 ˜ x 12 15.0 20.0 0.001 1.000 c) 5-te Klasse, Näherungswert: 2 . 097 (in Tsd. Euro) d) 2 . 392 (in Tsd. Euro) e) Die gefundene Abfolge (arithm. Mittel > Zentralwert > Modus) ist typisch für eine linkssteile, rechtsschiefe Verteilung. f) Unteres Quartil (lineare Interpolation): 1 . 398, oberes Quartil (lineare Interpolation): 2 . 934 (in Tsd. Euro), totaler Quartilsabstand: 1 . 536 (in Tsd. Euro). g) 1 . 558 (in Tsd. Euro) Hinweis: Es wird nur die Streuung zwischen den Klassen (approximativ) berücksichtigt. h) Lediglich die Streuung zwischen den Klassen wird bei der Näherung berücksichtigt (Unterschätzung). Überkompensation durch Überschätzung der externen Streuung. Kapitel 4 1. a) 40 b) h 1 = 0 . 5; h 2 = 0 . 25; h 3 = 0 . 175 c) CR 2 = 0 . 75; i/ n = 0 . 5 d) 0 . 25 e) Siehe Abschnitt 4.1 auf Seite 72. f) CR 1 = 0 . 5 , CR 2 = 0 . 75 , CR 3 = 0 . 925 , CR 4 = 1 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 237 03.09.2019 13: 57: 24 <?page no="238"?> 238 Lösungshinweise 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 i CR i A g) Kurven bei minimaler und maximaler Konzentration 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 i CR i Konzentrationskurve max min h) h r = x r ∑ n k =1 x k i) h r = c + x r nc + ∑ n k =1 x k (geringere absolute Konzentration) 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 i CR i vorher nachher j) HK = 0 . 34875, wobei 1 n ≤ HK ≤ 1 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 238 03.09.2019 13: 57: 25 <?page no="239"?> Lösungshinweise 227 2. i x i u i K ( u i ) R K ( u i ) R / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.500 0.033 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.099 3. a)-b) (D: Dreieck-Kern, N: Normalkern) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( nw ) K ( u i ) N / ( nw ) 1 1 1.167 0.000 0.202 0.000 0.013 2 5 -0.167 0.833 0.393 0.056 0.026 3 6 -0.500 0.500 0.352 0.033 0.023 4 6 -0.500 0.500 0.352 0.033 0.023 5 8 -1.167 0.000 0.202 0.000 0.013 Summe 0.122 0.098 4. a)-b) (1: w = 3, 2: w = 2 . 5, 3: w = 3 . 5) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.833 0.056 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.122 L L L Lösungshinweise 239 k) RK = 0 . 37736, wobei 1 n ≤ RK ≤ 1 2. a) H 1 = 0 . 075 , H 2 = 0 . 25 , H 3 = 0 . 5 , H 4 = 1 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F j H j b) Kurven bei minimaler und maximaler relativer Konzentration 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F j H j min Lorenzkurve max c) H j = ∑ j r =1 x r ∑ n r =1 x r d) ∑ j r =1 x r ∑ n r =1 x r < ∑ j r =1 ( x r + c ) ∑ n r =1 ( x r + c ) = jc + ∑ j r =1 x r nc + ∑ n r =1 x r (geringere relative Konzentration) 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 239 03.09.2019 13: 57: 28 <?page no="240"?> 240 Lösungshinweise 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F j H j nachher vorher e) G = 0 . 3375 f) G = 0 . 16875 g) G = 0 . 375 Kapitel 5 1. SD = 0 . 06; NSD = 0 . 03; EN = 0 . 037 2. a) ¯ l m = 15 . 03; ¯ l w = 12 . 31 b) ¯ l w ( a m ) = 12 . 23; ¯ l w (¯ l m ) = 15 . 11 c) ¯ l m − ¯ l w ( a m ) = 2 . 81; ¯ l m − ¯ l w (¯ l m ) = − 0 . 08 d) ¯ l m − ¯ l w = 2 . 72 e) Die vorgefundene Lohndifferenz lässt sich fast vollständig auf die unterschiedliche Lohnhöhe in den Bildungsgruppen zurückführen. 3. a) ¯ l m = 14 . 19; ¯ l w = 10 . 55 b) ¯ l w ( a m ) = 10 . 59; ¯ l w (¯ l m ) = 12 . 43 c) ¯ l m − ¯ l w ( a m ) = 3 . 47; ¯ l m − ¯ l w (¯ l m ) = 1 . 63 d) ¯ l m − ¯ l w = 3 . 51 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 240 03.09.2019 13: 57: 29 <?page no="241"?> Lösungshinweise 227 2. i x i u i K ( u i ) R K ( u i ) R / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.500 0.033 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.099 3. a)-b) (D: Dreieck-Kern, N: Normalkern) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( nw ) K ( u i ) N / ( nw ) 1 1 1.167 0.000 0.202 0.000 0.013 2 5 -0.167 0.833 0.393 0.056 0.026 3 6 -0.500 0.500 0.352 0.033 0.023 4 6 -0.500 0.500 0.352 0.033 0.023 5 8 -1.167 0.000 0.202 0.000 0.013 Summe 0.122 0.098 4. a)-b) (1: w = 3, 2: w = 2 . 5, 3: w = 3 . 5) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.833 0.056 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.122 L L ö s u n g s h i n w e i s e 2 2 7 2 . i x i u i K ( u i ) R K ( u i ) R / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 5 0 0 0 . 0 3 3 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 0 9 9 3 . a ) - b ) ( D : D r e i e c k - K e r n , N : N o r m a l k e r n ) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( n w ) K ( u i ) N / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 3 9 3 0 . 0 5 6 0 . 0 2 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 S u m m e 0 . 1 2 2 0 . 0 9 8 4 . a ) - b ) ( 1 : w = 3 , 2 : w = 2 . 5 , 3 : w = 3 . 5 ) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 0 5 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 1 2 2 L L ö s u n g s h i n w e i s e 2 2 7 2 . i x i u i K ( u i ) R K ( u i ) R / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 5 0 0 0 . 0 3 3 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 0 9 9 3 . a ) - b ) ( D : D r e i e c k - K e r n , N : N o r m a l k e r n ) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( n w ) K ( u i ) N / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 3 9 3 0 . 0 5 6 0 . 0 2 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 S u m m e 0 . 1 2 2 0 . 0 9 8 4 . a ) - b ) ( 1 : w = 3 , 2 : w = 2 . 5 , 3 : w = 3 . 5 ) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 0 5 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 1 2 2 L Lösungshinweise 241 e) Die vorgefundene geringe Lohndifferenz 3 . 51 resultiert aus einem aus Sicht der Nicht-Dienstleister positiven Niveaueffekt 3 . 47 , der praktisch vollständig durch den negativen Struktureffekt in Höhe von 1 . 63 kompensiert wird. Kapitel 6 1. a) - Ausgaben t Gut A Gut B A+B 0 72 500 572 1 120 432 552 2 105 765 870 - Relative Ausgaben t Gut A Gut B 0 72 / 572 = 0 . 12587 500 / 572 = 0 . 87413 1 120 / 552 = 0 . 21739 432 / 552 = 0 . 78261 2 105 / 870 = 0 . 12069 765 / 870 = 0 . 87931 b) - Messzahlen p t 1 p t 0 = m ( t 0 , t 1 ) mit fester Basis ( t 0 ): t Gut A Gut B 1 20 / 18 = 1 . 1111 48 / 50 = 0 . 96 2 21 / 18 = 1 . 1667 51 / 50 = 1 . 02 - Messzahlen p ti p ti − 1 = m ( t i − 1 , t i ) mit Vorjahresbasis ( t i − 1 ): t Gut A Gut B 1 20 / 18 = 1 . 1111 48 / 50 = 0 . 9600 2 21 / 20 = 1 . 0500 51 / 48 = 1 . 0625 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 241 03.09.2019 13: 57: 30 <?page no="242"?> 242 Lösungshinweise c) P l t 0 ,t 1 = 0 . 97904; P l t 0 ,t 2 = 1 . 0385 d) P p t 0 ,t 1 = 0 . 98919 e) P p t 1 ,t 2 = 1 . 0610 f) P l t 0 ,t 1 = 0 . 9790 ; P l t 0 ,t 2 = 1 . 0385 ; P p t 0 ,t 1 = 0 . 9893 ; P p t 1 ,t 2 = 1 . 0610 g) P p t 0 ,t 2 P p t 0 ,t 1 = n ∑ j =1 p jt 2 q jt 2 n ∑ j =1 p jt 0 q jt 2 n ∑ j =1 p jt 0 q jt 1 n ∑ j =1 p jt 1 q jt 1 h) P l t 0 ,t 2 P l t 0 ,t 1 = n ∑ j =1 p t 2 j q t 0 j n ∑ j =1 p t 1 j q t 0 j i) Q l t 0 ,t 2 = 1 . 4685; Q p t 0 ,t 1 = 0 . 98571 2. a) Vgl. Abschnitt 6.7.2 b) Vgl. Abschnitt 6.7.2 c) Vgl. Abschnitt 6.7.1 Kapitel 7 1. P (Frau | Führungkr.) = 0 . 14 2. Vgl. Abschnitt 7.3 3. interne Varianz: 464 . 8, externe Varianz: 486, Gesamtvarianz: 950 . 8 4. 0 . 249 2 . 1383 = 0 . 116 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 242 03.09.2019 13: 57: 31 <?page no="243"?> Lösungshinweise 227 2. i x i u i K ( u i ) R K ( u i ) R / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.500 0.033 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.099 3. a)-b) (D: Dreieck-Kern, N: Normalkern) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( nw ) K ( u i ) N / ( nw ) 1 1 1.167 0.000 0.202 0.000 0.013 2 5 -0.167 0.833 0.393 0.056 0.026 3 6 -0.500 0.500 0.352 0.033 0.023 4 6 -0.500 0.500 0.352 0.033 0.023 5 8 -1.167 0.000 0.202 0.000 0.013 Summe 0.122 0.098 4. a)-b) (1: w = 3, 2: w = 2 . 5, 3: w = 3 . 5) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.833 0.056 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.122 L L L Lösungshinweise 243 Kapitel 8 1. a) Streudiagramm 1 2 3 4 5 0.4 0.6 0.8 1.0 1.2 x y b) Der Zusammenhang ist postiv, halbwegs linear und relativ eng. c) ¯ x = 3; ¯ y = 0 . 76 d) Streudiagramm mittelwertbereinigte Daten -2 -1 0 1 2 -0.4 -0.2 0.0 0.2 0.4 x − ¯ x y − ¯ y e) I: ( x i − ¯ x )( y i − ¯ y ) > 0 (+,+) II: ( x i − ¯ x )( y i − ¯ y ) < 0 (-,+) III ( x i − ¯ x )( y i − ¯ y ) > 0 (-,-) IV: ( x i − ¯ x )( y i − ¯ y ) < 0 (+,-) f) σ 2 X = 1 . 414; σ 2 Y = 0 . 334 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 243 03.09.2019 13: 57: 33 <?page no="244"?> 244 Lösungshinweise g) σ Y X = 0 . 41 h) r XY = 0 . 869 i) Es liegt ein sehr starker positiver linearer Zusammenhang vor. 2. Siehe Abschnitt 8.3 auf Seite 143 und Abschnitt 3.3.2 auf Seite 54. 3. a) r XY = 0 b) Es besteht kein linearer Zusammenhang, aber ein nichtlinearer funktionaler: y = x 4 . Kapitel 9 1. a) ρ XY = 0 . 9 b) ρ XY = 0 . 9 c) Einkommen ist ein metrisches Merkmal, daher wird der lineare Korrelationskoeffizient verwendet. Beim Rangkorrelationskoeffizient geht die Information über die Einkommensabstände verloren. 2. a) ρ XY = − 0 . 211 b) ρ XY = 1 − 6 ∑ n i =1 ( r i − r ′ i ) 2 n ( n 2 − 1 ) = − 0 . 15 3. a) P( Y = 1 | X = 1) = 0 . 287; P( Y = 1 | X = 0) = 0 . 457 b) P( X = 1 | Y = 1) = 0 . 326; P( X = 0 | Y = 0) = 0 . 504 c) Tabelle bei Unabhängigkeit d) χ 2 = 37 . 581 e) C = 0 . 243 f) Nur wenn χ 2 exakt 0 wäre, ergäbe sich auch ein Kontingenzkoeffizient von 0. In diesem Fall wären die empirische und die hypothetisch Verteilung unter Unabhängigkeit identisch. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 244 03.09.2019 13: 57: 34 <?page no="245"?> Lösungshinweise 227 2. i x i u i K ( u i ) R K ( u i ) R / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.500 0.033 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.099 3. a)-b) (D: Dreieck-Kern, N: Normalkern) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( nw ) K ( u i ) N / ( nw ) 1 1 1.167 0.000 0.202 0.000 0.013 2 5 -0.167 0.833 0.393 0.056 0.026 3 6 -0.500 0.500 0.352 0.033 0.023 4 6 -0.500 0.500 0.352 0.033 0.023 5 8 -1.167 0.000 0.202 0.000 0.013 Summe 0.122 0.098 4. a)-b) (1: w = 3, 2: w = 2 . 5, 3: w = 3 . 5) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.833 0.056 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.122 L L L Lösungshinweise 245 Y = 0 Y = 1 Insg. X = 0 0.348 0.216 0.564 X = 1 0.269 0.167 0.436 Insg. 0.617 0.383 1.000 Kapitel 10 1. a) Streudiagramm: 1 2 3 4 5 0.4 0.6 0.8 1.0 1.2 x y b) Siehe Abschnitt 10.2 auf Seite 171ff. c) Siehe Abschnitt 10.2.2 auf Seite 173. d) Siehe Abschnitt 10.2.3 auf Seite 174. e) Siehe Abschnitt 10.2.3 auf Seite 174. f) Siehe Abschnitt 10.2.2 auf Seite 173. g) Siehe Abbildung 10.3. h) Siehe Abbildung 10.3. i) β = 0 . 205 , d.h. eine Änderung des Einkommens um 1000 Euro führt zu einer Erhöhung der Mietausgaben um 205 Euro. j) α = 0 . 145; ˆ y i = 0 . 145 + 0 . 205 · x i k) ˆ y i ( x i = ¯ x ) = ¯ y − β ¯ x + β ¯ x = ¯ y 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 245 03.09.2019 13: 57: 36 <?page no="246"?> 246 Lösungshinweise l) ˆ y 1 = 0 . 35; ˆ y 2 = 0 . 555; ˆ y 3 = 0 . 76; ˆ y 4 = 0 . 965; ˆ y 5 = 1 . 17 m) Q = 0 . 137; σ 2 U = 0 . 027 n) n ∑ i =1 (ˆ y i − ¯ y i ) 2 = 0 . 42; σ 2ˆ Y = 0 . 084 o) σ 2 Y = σ 2ˆ Y + σ 2 U 0 . 111 = 0 . 084 + 0 . 027 p) R 2 = 0 . 754 . Diese Maßzahl wird Bestimmtheitsmaß genannt. 2. a) ˆ β = σ XY σ 2 X ; ˆ δ = σ XY σ 2 Y b) r 2 = ( σ XY ) 2 σ 2 X σ 2 Y = ˆ β · ˆ δ c) ˆ δ = σ XY σ 2 Y = 3 . 68 d) Es ist wohl eher eine „kausale Determinierung“ der Mieten durch das Einkommen ( y i = α + βx i + u i ) als umgekehrt zu vermuten. Kapitel 11 1. Siehe Abschnitt 11.1.1 auf Seite 185. 2. a) ˆ β 1 = 0 . 463, ˆ β 2 = − 0 . 396, ˆ β 0 = 2 . 269, ˆ y i = 2 . 269 + 0 . 463 x 1 i − 0 . 396 x 2 i b) Geschätzte Koeffizienten: ˆ β = ( X ′ X ) − 1 X ′ y = [ 2 . 269 0 . 463 − 0 . 396 ] Regressionswerte und Residuen: ˆ y = X ˆ β = 2 . 007 0 . 953 3 . 067 5 . 973 ; u = y − X ˆ β = − 0 . 007 0 . 047 − 0 . 067 0 . 027 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 246 03.09.2019 13: 57: 38 <?page no="247"?> Lösungshinweise 227 2. i x i u i K ( u i ) R K ( u i ) R / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.500 0.033 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.099 3. a)-b) (D: Dreieck-Kern, N: Normalkern) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( nw ) K ( u i ) N / ( nw ) 1 1 1.167 0.000 0.202 0.000 0.013 2 5 -0.167 0.833 0.393 0.056 0.026 3 6 -0.500 0.500 0.352 0.033 0.023 4 6 -0.500 0.500 0.352 0.033 0.023 5 8 -1.167 0.000 0.202 0.000 0.013 Summe 0.122 0.098 4. a)-b) (1: w = 3, 2: w = 2 . 5, 3: w = 3 . 5) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.833 0.056 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.122 L L ö s u n g s h i n w e i s e 2 2 7 2 . i x i u i K ( u i ) R K ( u i ) R / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 5 0 0 0 . 0 3 3 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 0 9 9 3 . a ) - b ) ( D : D r e i e c k - K e r n , N : N o r m a l k e r n ) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( n w ) K ( u i ) N / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 3 9 3 0 . 0 5 6 0 . 0 2 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 S u m m e 0 . 1 2 2 0 . 0 9 8 4 . a ) - b ) ( 1 : w = 3 , 2 : w = 2 . 5 , 3 : w = 3 . 5 ) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 0 5 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 1 2 2 L L ö s u n g s h i n w e i s e 2 2 7 2 . i x i u i K ( u i ) R K ( u i ) R / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 5 0 0 0 . 0 3 3 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 0 9 9 3 . a ) - b ) ( D : D r e i e c k - K e r n , N : N o r m a l k e r n ) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( n w ) K ( u i ) N / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 3 9 3 0 . 0 5 6 0 . 0 2 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 S u m m e 0 . 1 2 2 0 . 0 9 8 4 . a ) - b ) ( 1 : w = 3 , 2 : w = 2 . 5 , 3 : w = 3 . 5 ) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 0 5 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 1 2 2 L Lösungshinweise 247 Kapitel 12 1. a) Siehe Abschnitt 12.2 auf Seite 200. b) Lösung: Gleitendes 4er-Mittel 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 373.74 402.69 2011 429.97 454.49 473.84 484.99 2012 488.05 482.51 473.99 465.39 2013 457.60 455.92 458.06 462.70 2014 471.40 483.42 498.18 515.19 2015 534.71 556.92 580.54 603.97 2016 626.49 646.43 663.17 678.82 2017 696.91 718.79 741.59 762.26 2018 780.02 792.30 c) Lösung: Trendabweichungen und Saisonindexzahlen 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 1.0576 0.9731 2011 0.9573 1.0347 1.0489 1.0027 2012 0.9671 1.0344 1.0392 0.9592 2013 0.9696 1.0060 1.0277 0.9830 2014 0.9597 1.0077 1.0273 0.9898 2015 0.9638 1.0059 1.0248 1.0008 2016 0.9733 1.0106 1.0284 0.9973 2017 0.9631 0.9976 1.0287 1.0115 2018 0.9737 1.0022 Mittelwert 0.9660 1.0124 1.0353 0.9897 Saisonindexzahlen 0.9629 0.9974 1.0285 1.0113 d) Lösung: Saisonbereinigte Werte 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 247 03.09.2019 13: 57: 38 <?page no="248"?> 248 Lösungshinweise 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 307.93 354.69 384.31 387.49 2011 427.48 471.48 483.23 480.85 2012 490.18 500.43 478.93 441.42 2013 460.80 459.84 457.68 449.74 2014 469.81 488.40 497.61 504.24 2015 535.23 561.65 578.45 597.72 2016 633.24 654.97 663.08 669.41 2017 697.05 718.92 741.77 762.44 2018 788.81 796.09 805.11 795.10 e) - Ursprungswerte: ( 804 . 086 828 . 058 − 1 ) · 100 = − 2 . 89 - Saisonbereinigte Werte: ( 795 . 1 805 . 11 − 1 ) · 100 = − 1 . 24 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 248 03.09.2019 13: 57: 39 <?page no="249"?> Lösungshinweise 227 2. i x i u i K ( u i ) R K ( u i ) R / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.500 0.033 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.099 3. a)-b) (D: Dreieck-Kern, N: Normalkern) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( nw ) K ( u i ) N / ( nw ) 1 1 1.167 0.000 0.202 0.000 0.013 2 5 -0.167 0.833 0.393 0.056 0.026 3 6 -0.500 0.500 0.352 0.033 0.023 4 6 -0.500 0.500 0.352 0.033 0.023 5 8 -1.167 0.000 0.202 0.000 0.013 Summe 0.122 0.098 4. a)-b) (1: w = 3, 2: w = 2 . 5, 3: w = 3 . 5) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.833 0.056 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.122 L L ö s u n g s h i n w e i s e 2 2 7 2 . i x i u i K ( u i ) R K ( u i ) R / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 5 0 0 0 . 0 3 3 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 0 9 9 3 . a ) - b ) ( D : D r e i e c k - K e r n , N : N o r m a l k e r n ) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( n w ) K ( u i ) N / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 3 9 3 0 . 0 5 6 0 . 0 2 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 S u m m e 0 . 1 2 2 0 . 0 9 8 4 . a ) - b ) ( 1 : w = 3 , 2 : w = 2 . 5 , 3 : w = 3 . 5 ) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 0 5 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 1 2 2 L L ö s u n g s h i n w e i s e 2 2 7 2 . i x i u i K ( u i ) R K ( u i ) R / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 5 0 0 0 . 0 3 3 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 0 9 9 3 . a ) - b ) ( D : D r e i e c k - K e r n , N : N o r m a l k e r n ) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( n w ) K ( u i ) N / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 3 9 3 0 . 0 5 6 0 . 0 2 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 S u m m e 0 . 1 2 2 0 . 0 9 8 4 . a ) - b ) ( 1 : w = 3 , 2 : w = 2 . 5 , 3 : w = 3 . 5 ) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 0 5 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 1 2 2 L Lösungshinweise 249 Probeklausuren Klausur 1 1. a) ¯ x = 7 . 5 b) ˜ x 0 . 7 = 6 c) σ X = 5 . 147 8 d) σ XY = 9 . 25 e) ρ XY = 0 . 8729 2. Beachte: Da die Normierung entfällt, muss nur das dritte Quartal betrachtet werden! Gleitende Durchschnitte: g 2011 , 3 = 677 . 13 , g 2012 , 3 = 687 . 69 , g 2013 , 3 = 706 . 32 Trendbereinigte Werte: d 2011 , 3 = 1 . 0164, d 2012 , 3 = 1 . 0170, d 2013 , 3 = 1 . 0172 Phasenmittel: ¯ d 3 = 1 . 0169 Normierung entfällt: ¯ d 3 = s 3 Saisonbereinigter Wert: y sb 2014 , 3 = 727 . 66 3. a) Siehe Abschnitt 10.2.2 Seite 172ff. b) ˆ β 1 = 0 . 3491 , ˆ β 0 = 2 . 883 4. a) Siehe Abschnitt 4.3.2 Seite 78ff. b) G = 0 . 3238 5. Zu a) und b): j 1 2 3 4 p 1 / p 0 a p 1 / p 0 a p 1 / p 0 a p 1 / p 0 a t = 0 1 . 05 · 4 85 . 06 2 . 11 · 6 85 . 06 3 . 40 · 8 85 . 06 4 . 10 · 10 85 . 06 t = 1 1 . 07 1 . 05 1 . 07 · 5 104 . 63 2 . 14 2 . 11 2 . 14 · 7 104 . 63 3 . 50 3 . 40 3 . 50 · 9 104 . 63 4 . 80 4 . 10 4 . 80 · 11 104 . 63 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 249 03.09.2019 13: 57: 40 <?page no="250"?> 250 Lösungshinweise 1 . 05 · 4 + 2 . 11 · 6 + 3 . 40 · 8 + 4 . 10 · 10 = 85 . 06 1 . 07 · 5 + 2 . 14 · 7 + 3 . 50 · 9 + 4 . 80 · 11 = 104 . 63 a) P l t 0 t 1 = 1 . 07 1 . 05 · 1 . 05 · 4 85 . 06 + 2 . 14 2 . 11 · 2 . 11 · 6 85 . 06 + 3 . 50 3 . 40 · 3 . 40 · 8 85 . 06 + 4 . 80 4 . 10 · 4 . 10 · 10 85 . 06 = 1 . 094 8 Alternativ: P l t 0 t 1 = 1 . 07 · 4 + 2 . 14 · 6 + 3 . 50 · 8 + 4 . 80 · 10 1 . 05 · 4 + 2 . 11 · 6 + 3 . 40 · 8 + 4 . 10 · 10 = 1 . 0948 b) P p t 0 t 1 = 1 1 1 . 07 1 . 05 · 1 . 07 · 5 104 . 63 + 1 2 . 14 2 . 11 · 2 . 14 · 7 104 . 63 + 1 3 . 50 3 . 40 · 3 . 50 · 9 104 . 63 + 1 4 . 80 4 . 10 · 4 . 80 · 11 104 . 63 = 1 . 0931 Alternativ: P p t 0 t 1 = 1 . 07 · 5 + 2 . 14 · 7 + 3 . 50 · 9 + 4 . 80 · 11 1 . 05 · 5 + 2 . 11 · 7 + 3 . 40 · 9 + 4 . 10 · 11 = 1 . 0931 c) P f t 0 t 1 = √ P l t 0 t 1 · P p t 0 t 1 = √ 1 . 0948 · 1 . 0931 = 1 . 093 9 d) Preisindex nach Paasche P p t 0 t 1 P p t 1 t 2 = ∑ p 1 q 1 ∑ p 0 q 1 ∑ p 2 q 2 ∑ p 1 q 2 = ∑ p 2 q 2 ∑ p 0 q 2 = P p t 0 t 2 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 250 03.09.2019 13: 57: 42 <?page no="251"?> Lösungshinweise 227 2. i x i u i K ( u i ) R K ( u i ) R / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.500 0.033 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.099 3. a)-b) (D: Dreieck-Kern, N: Normalkern) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( nw ) K ( u i ) N / ( nw ) 1 1 1.167 0.000 0.202 0.000 0.013 2 5 -0.167 0.833 0.393 0.056 0.026 3 6 -0.500 0.500 0.352 0.033 0.023 4 6 -0.500 0.500 0.352 0.033 0.023 5 8 -1.167 0.000 0.202 0.000 0.013 Summe 0.122 0.098 4. a)-b) (1: w = 3, 2: w = 2 . 5, 3: w = 3 . 5) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.833 0.056 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.122 L L ö s u n g s h i n w e i s e 2 2 7 2 . i x i u i K ( u i ) R K ( u i ) R / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 5 0 0 0 . 0 3 3 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 0 9 9 3 . a ) - b ) ( D : D r e i e c k - K e r n , N : N o r m a l k e r n ) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( n w ) K ( u i ) N / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 3 9 3 0 . 0 5 6 0 . 0 2 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 S u m m e 0 . 1 2 2 0 . 0 9 8 4 . a ) - b ) ( 1 : w = 3 , 2 : w = 2 . 5 , 3 : w = 3 . 5 ) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 0 5 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 1 2 2 L L ö s u n g s h i n w e i s e 2 2 7 2 . i x i u i K ( u i ) R K ( u i ) R / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 5 0 0 0 . 0 3 3 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 0 9 9 3 . a ) - b ) ( D : D r e i e c k - K e r n , N : N o r m a l k e r n ) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( n w ) K ( u i ) N / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 3 9 3 0 . 0 5 6 0 . 0 2 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 3 5 2 0 . 0 3 3 0 . 0 2 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 2 0 2 0 . 0 0 0 0 . 0 1 3 S u m m e 0 . 1 2 2 0 . 0 9 8 4 . a ) - b ) ( 1 : w = 3 , 2 : w = 2 . 5 , 3 : w = 3 . 5 ) i x i u 1 i K ( u i ) 1 K ( u i ) 1 / ( n w ) 1 1 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 2 5 - 0 . 1 6 7 0 . 8 3 3 0 . 0 5 6 3 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 4 6 - 0 . 5 0 0 0 . 5 0 0 0 . 0 3 3 5 8 - 1 . 1 6 7 0 . 0 0 0 0 . 0 0 0 S u m m e 0 . 1 2 2 L Lösungshinweise 251 Klausur 2 1. a) ¯ x = 11 b) ˜ x 0 . 5 = 7 c) σ = 7 . 5829 d) µ 3 σ 3 = 1 . 0837 . Es gibt drei kleine negative und eine große positive Abweichung. Durch die dritte Potenz überwiegt die große positive Abweichung und führt zu einem positiven Wert des Schiefemaßes. Dies deutet auf eine rechtsschiefe Verteilung hin. e) n − 1 √∏ n − 1 i =1 x i +1 x i = 1 . 6869; 1 . 6869 · 100 − 100 = 68 . 6 2. a) Eine Gewichtung erfolgt, um die unterschiedliche ,Bedeutung’ der verschiedenen Güter bzw. Gütergruppen zu berücksichtigen. Die Gewichtung erfolgt durch die Auswertung von ,Ausgabebüchern’ der Teilnehmer der EVS. D.h. es werden für die verschiedenen Gütergruppen die Ausgabenanteile von vielen Personen gemittelt, so dass die Ausgabenanteile den Verbrauchsgewohnheiten eines typischen Haushalts entsprechen sollen. Tatsächlich ist entsprechend seiner Ausgabenstruktur jeder Haushalt individuell unterschiedlich von Preissteigerungen betroffen. b) P l t 0 t 1 = 1 . 0758; P p t 0 t 1 = 1 . 0640 c) In den Preisindex nach Paasche gehen aktuelle Gütermengen ein. Tendenziell substitutieren Menschen sehr stark verteuerte Güter durch weniger stark verteuerte, so dass die besonders hohen Preismeßzahlen beim Paasche-Index etwas geringer gewichtet werden als beim Laspeyres-Index. 3. Siehe Abschnitt 4.3.2 Seite 80ff. 4. Siehe Abschnitt 7.3 Seite 133ff. 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 251 03.09.2019 13: 57: 43 <?page no="252"?> 252 Lösungshinweise 5. a) ¯ x = ∑ J j =1 ¯ x j · f j = ∑ J j =1 1 n j ∑ n j i =1 x ji · n j n = 1 n ∑ n i =1 x i b) Es gilt die Streuungszerlegung. Sowohl die interne als auch die externe Varianz lassen sich mit den Tabellenangaben berechnen. c) ¯ x = 1 , 900 . 98 d) interne Varianz: 336 , 125 . 32; externe Varianz: 1 , 221 , 072 . 25; σ 2 = 1 , 557 , 197 . 57; σ = 1 , 247 . 88 6. a) c i = e α y β i e u i ln c i = ln ( e α y β i e u i ) ln c i = ln e α + ln y β i + ln e u i = α + β ln y i + u i b) ˆ β = cov(ln y, ln c ) var(ln y ) , ˆ α = mean(ln c ) − ˆ β · mean(ln y ) c) ˆ c i = e ˆ α y ˆ β i = e 0 . 915 4000 0 . 818 = 2207 . 3 d) ˆ δ = 202 . 7 , ˆ φ = 0 . 493 e) ˆ c i = ˆ δ + ˆ φy i = 202 . 7 + 0 . 493 · 4 , 000 = 2 , 174 . 7 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 252 03.09.2019 13: 57: 44 <?page no="253"?> Index χ 2 , 159 Abschneidepraxis, 75 absolute Konzentration, 72 Abstandsquadratsumme, 184 ALLBUS, 21 Anteilsdifferenz, 91 Approximationen, 59 Arithmetisches Mittel, 50 Approximation, 61 Minimumeigenschaft, 51 Nulleigenschaft, 51 Ausgabenanteile, 117 Bandweite, 35 Wahl der, 38 bedingte Häufigkeit, 131 Berliner-Verfahren, 205, 209 Bestimmtheitsmaß, 176 Bindungen, 158 Bruttoinlandsprodukt, 198 Census-Verfahren, 205, 209 Daten klassierte, 59 Deflationierung, 123 Deskriptive Statistik Ziele, 16 dichtester Wert, 39 Disparität, 76 Dissimilaritätsindex, 92 Dreieck-Kern, 34 Durchschnitt, 51 Einkommensdaten, 20 Einkommenskonzentration, 72 Einkommensregression, 176 Epanechnikov-Kern, 36 Erweiterungen tautologische, 99 euklidische Norm, 92 Funktion lineare, 170 Gauß, 171 Geometrisches Mittel, 52 Gini-Koeffizient, 78 Individualdaten, 80 klassierte Daten, 79 glatte Komponente, 200 gleitende Durchschnitte, 203 Häufigkeiten bedingte, 131 empirische, 159 hypothetische, 159 Harmonisches Mittel, 52 Hirschman-Herfindahl- Koeffizient, 75 Histogramm Klassenzahl, 31 Indexkonstruktionen, 110 Indexreihen verkettete, 119 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 253 03.09.2019 13: 57: 45 <?page no="254"?> 254 Index Indexziffern für Preise, 115 Inflationsrate, 116 Interaktion, 191 Kalenderkomponente, 201 Kerndichteschätzung, 34 Bandweite, 38 Kernfunktion, 34 Kettenindex Nachteile, 123 Kettenindizes, 121 Deflationierung, 123 Klassenzahl optimale, 31 klassierten Daten, 59 Komponentenzerlegung, 92, 98 additive, 92 multiplikative, 99 konstanten Preisen, 121 Kontingenzkoeffizient, 161 Konzentration absolute, 72 relative, 76 Konzentrationskurve, 73 Konzentrationsmessung, 72 Konzentrationsrate, 72 Korrelation Ausbildung und Einkommen, 149 Korrelationskoeffizient, 146 Eigenschaften, 147 Kovarianz, 143 Eigenschaften, 144 Umformung, 144 Kurtosis, 57 Lagemaße, 50 Laspeyres, 110 leptokurtisch, 55, 58 lineare Regression, 170 Lorenzkurve, 78 Marktpreis, 109 Median, 48 Mengenindex nach Laspeyres, 110 nach Paasche, 111 Mengensurrogat, 123 Merkmal kardinales, 18 metrisches, 18 nominales, 18 ordinales, 18 Merkmalsraum, 18 mesokurtisch, 58 Messziffernmittelung, 112 Methode der kleinsten Quadrate, 171, 184 Minimumeigenschaft, 51 Mischeffekt, 97 Mittlere absolute Abweichung, 53 Modus, 39, 50 Approximation, 59 multiple Regression, 184 Niveaueffekt, 95 Normal-Kern, 36 Normalgleichungen, 173 normierte Strukturdifferenz, 92 Normierung, 91 Nulleigenschaft, 51 Paasche, 111 Paasche-Indizes implizite, 124 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 254 03.09.2019 13: 57: 46 <?page no="255"?> Index 255 Periodogrammverfahren, 206 platykurtisch, 55, 58 Preisbegriff, 108 preisbereinigte Wertgrößen, 121 Preisindex nach Laspeyres, 110 nach Paasche, 111 Preisindizes, 109 Quantile, 47 Quantilsfunktion, 47, 48 Quartilsabstand, 53 Randverteilungen, 130, 142 Rangkorrelation Bindungen, 158 Eigenschaften, 157 Rangkorrelationskoeffizient, 157 Rechteck-Kern, 35 Regression Anpassungsgüte, 175 einfache, 170 Einkommen und Ausbildung, 176 multiple, 184 relative Konzentration, 72, 76 Repräsentativgewichtung, 114 Restkomponente, 201 Rosenbluth-Koeffizient, 74 saisonale Komponente, 201 Satz von Bayes, 132 Schiefemaß, 56 Skalenniveau, 18 Sprungstellen, 46 Standardabweichung, 54 Approximation, 61 Standardisierung, 94, 148 Streuungsmaße, 53 Streuungszerlegung, 133 Strukturanalyse, 92 Strukturdifferenz, 91 normierte, 92 Struktureffekt, 96 Strukturunterschied, 91 Trendfunktion, 202 lineare, 203 Unabhängigkeit, 160 Ungleichheit, 76 Unternehmenskonzentration, 72 Variable, 18 zweidimensionale, 130, 142 Varianz, 54 Varianzkomponenten, 135 Varianzzerlegung, 176 Variationskoeffizient, 77 Verbraucherpreisindex, 114, 116 Entwicklung, 119 Wägungsschema, 117 Verschiebungssatz, 54 Verteilung gemeinsame, 131 Verteilungsfunktion, 46 Verwendungsrechnung, 124 Wägungsschema, 115, 117 Wachstumsraten reale, 123 Warenkorb, 111 Warenkorbvergleich, 109 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 255 03.09.2019 13: 57: 46 <?page no="256"?> 256 Index X-12-ARIMA, 201 Zeitreihen, 198 Komponenten, 200 Zeitreihenanalyse, 198 Zentralmoment, 55 drittes, 56 viertes, 57 Zentralwert, 48 Approximation, 59 Zusammenhang metrische Merkmale, 143 nominale Merkmale, 158 ordinale Merkmale, 156 45321_Behr_Innenteil_bel_mit_Griffleisten.indd 256 03.09.2019 13: 57: 47