eBooks

Grundwissen Deskriptive Statistik

mit Aufgaben, Klausuren und Lösungen

0925
2023
978-3-8385-6175-2
978-3-8252-6175-7
UTB 
Andreas Behr
10.36198/9783838561752

Mit R-Code! Kenntnisse der Deskriptiven Statistik gehören für Studierende der Wirtschafts- und Sozialwissenschaften zum wichtigen Handwerkszeug. Auf kompakte Art und Weise stellt diese 3., überarbeitete und erweiterte Auflage die relevanten Fachtermini vor und vermittelt das Wichtigste zur Verteilung, Kerndichteschätzung, zu Maßzahlen sowie zur Korrelations- und Regressionsrechnung. Auch auf Konzentrationsmessung sowie Preis- und Mengenindizes geht sie ein. Übungen mit Lösungen, neue Musterklausuren und ein Formelteil unterstützen das Lernen.

<?page no="0"?> Andreas Behr Grundwissen Deskriptive Statistik mit Aufgaben, Klausuren und Lösungen 3. Auflage <?page no="1"?> Eine Arbeitsgemeinschaft der Verlage Brill | Schöningh - Fink · Paderborn Brill | Vandenhoeck & Ruprecht · Göttingen - Böhlau · Wien · Köln Verlag Barbara Budrich · Opladen · Toronto facultas · Wien Haupt Verlag · Bern Verlag Julius Klinkhardt · Bad Heilbrunn Mohr Siebeck · Tübingen Narr Francke Attempto Verlag - expert verlag · Tübingen Psychiatrie Verlag · Köln Ernst Reinhardt Verlag · München transcript Verlag · Bielefeld Verlag Eugen Ulmer · Stuttgart UVK Verlag · München Waxmann · Münster · New York wbv Publikation · Bielefeld Wochenschau Verlag · Frankfurt am Main utb 4825 <?page no="2"?> Prof. Dr. Andreas Behr lehrt Statistik an der Universität Duisburg-Essen. <?page no="3"?> Andreas Behr Grundwissen Deskriptive Statistik mit Aufgaben, Klausuren und Lösungen 3., überarbeitete und erweiterte Auflage UVK Verlag · München <?page no="4"?> 3., überarbeitete und erweiterte Auflage 2023 2., überarbeitete Auflage 2019 1. Auflage 2017 DOI: https: / / doi.org/ 10.36198/ 9783838561752 © UVK Verlag 2023 ‒ ein Unternehmen der Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbe‐ sondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Alle Informationen in diesem Buch wurden mit großer Sorgfalt erstellt. Fehler können dennoch nicht völlig ausgeschlossen werden. Weder Ver‐ lag noch Autor: innen oder Herausgeber: innen übernehmen deshalb eine Gewährleistung für die Korrektheit des Inhaltes und haften nicht für fehlerhafte Angaben und deren Folgen. Diese Publikation enthält gegebe‐ nenfalls Links zu externen Inhalten Dritter, auf die weder Verlag noch Autor: innen oder Herausgeber: innen Einfluss haben. Für die Inhalte der verlinkten Seiten sind stets die jeweiligen Anbieter oder Betreibenden der Seiten verantwortlich. Internet: www.narr.de eMail: info@narr.de Einbandgestaltung: siegel konzeption | gestaltung CPI books GmbH, Leck utb-Nr. 4825 ISBN 978-3-8252-6175-7 (Print) ISBN 978-3-8385-6175-2 (ePDF) Umschlagabbildung: © megakunstfoto · iStockphoto Autorenbild: © privat Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http: / / dnb.dnb.de abrufbar. www.fsc.org MIX Papier aus verantwortungsvollen Quellen FSC ® C083411 ® <?page no="5"?> Vorwort zur dritten Auflage Für die dritte Auflage wurden im Text lediglich kleinere Korrekturen vorgenommen. Im Anhang wurden für die Überprüfung des Lernstands und die Klausurvorbereitung vier Übungsklausuren mit Lösungshinweisen ergänzt. Andreas Behr August 2023 Digitale Zusatzmaterialien Die im Text verwendeten Daten können Sie unter www.utb.de auf Titelebene des Buches bei Bonus-Material herunterladen. <?page no="6"?> Vorwort zur zweiten Auflage Für die zweite Auflage wurden alle beispielhaften empirischen Analysen mit Daten der Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften 2018 (ALLBUS) angefertigt. (GESIS - Leibniz- Institut für Sozialwissenschaften (2019): Allgemeine Bevölkerungsumfrage der Sozialwissenschaften ALLBUS 2018. GESIS Datenarchiv, Köln. ZA5270 Datenfile Version 2.0.0, doi: 10.4232/ 1.13250.) Die empirischen Aufgaben und deren Lösungshinweise beziehen sich nun ebenfalls durchgängig auf Daten das ALLBUS. Das verwendete Datenfile steht für die Leserinnen und Leser des Buches zum Download bereit. Zudem wurden im Text, in den Übungsaufgaben und den Lösungshinweisen in der ersten Auflage verbliebene Fehler und Ungenauigkeiten für die zweite Auflage korrigiert. Alle Ergebnisse wurden in R berechnet. Bei der Angabe von Zwischenergebnissen im Text ist zu beachten, dass durchgängig mit nicht gerundeten Zwischenergebnissen gerechnet wurde. Hierdurch ergeben sich mitunter geringfügige Abweichungen der dargestellten Ergebnisse von den Ergebnissen, die bei Verwendung gerundeter Zwischenergebnisse resultieren. Auch bei der zweiten Auflage gilt mein besonderer Dank Christoph Schiwy für seine Unterstützung bei der Erstellung des Buches mit L A T E Xund knitr. Für die Durchsicht des Manuskriptes möchte ich mich bei Gerald Fugger, Marco Giese, Donald Teguim Kamdjou, Fiona Ewald, Lucy Hong und Erik Berns bedanken. Andreas Behr August 2019 <?page no="7"?> Vorwort zur ersten Auflage Der vorliegende Text soll Einblicke in die Grundlagen der Deskriptiven Statistik vermitteln. Er ist entstanden auf der Grundlage von Vorlesungsfolien und Skripten meiner Lehrveranstaltungen an den Universitäten in Frankfurt/ M., Münster und Essen. Als didaktisches Konzept wurde versucht, die vorgestellten Methoden mit Hilfe einfachster Zahlenbeispiele transparent darzustellen, bevor sie auf einen Datensatz, der Informationen über 1000 Personen enthält und aus der Panel Study of Income Dynamics (USA) stammt, angewendet werden. Der Text enthält neben der Darstellung der ausgewählten statistischen Methoden jeweils am Kapitelende kurze Blöcke, in denen Code zur Berechnung der numerischen Ergebnisse und zur Erstellung der Graphiken der statistischen Programmierumgebung R präsentiert wird. Die dargestellten und besprochenen Ergebnisse lassen sich damit recht einfach reproduzieren. Ein einführender Text in die statistische Analyse mit R ist Behr, Andreas / Pötter, Ulrich, Einführung in die Statistik mit R, 2. Auflage, Vahlen Verlag, München, 2011. Aus Platzgründen wurde in der Regel ein etwas vereinfachter R-Code angegeben, so dass die im Text enthaltenen Graphiken nicht mit den aus dem angegeben R-Code resultierenden identisch sind. Zu beachten ist, dass die dargestellten Ergebnisse gerundet wurden, wodurch sich u.U. geringfügige Abweichungen von exakten oder weniger stark gerundeten Ergebnissen - etwa bei Verwendung des angegebenen R-Codes - erklären. In Anlehnung an die übliche Darstellung in statistischer Software wird im gesamten Text als 1000er Trennzeichen ein Komma und als Dezimaltrennzeichen ein Punkt verwendet. Am Ende jedes Kapitels befinden sich Übungsaufgaben, mit deren Hilfe die in dem jeweiligen Kapitel besprochenen Inhalte vertieft und deren Anwendung geübt werden kann. Am Ende des Buches finden sich gekürzte Lösungen der Übungsaufgaben. Zudem enthält das Buch eine Formelsammlung, in der die wichtigsten Formeln des Textes zusammengestellt sind. Üblich ist die Bereitstellung derartiger Formelsammlungen als Hilfe in Klausuren. Formeln, die in der Formelsammlung enthalten sind, sind im Text grau hinterlegt, womit auf deren herausgehobene Bedeutung verwiesen wird. <?page no="8"?> 8 Für die eigenständige Überprüfung des Kenntnisstands sind zudem zwei Klausuren im Text enthalten. Auch für diese finden sich am Ende des Buches kurze Lösungshinweise. Bedanken möchte ich mich bei Götz Rohwer für Hinweise und Beiträge, insbesondere zu den Kapiteln 2 und 11; und bei Christoph Schiwy, ohne dessen Unterstützung in L A T E Xund knitr das Buch nicht entstanden wäre. Zudem danke ich Katja Theune, Lucy Hong, Neele Daun, Jurij Weinblat, Gerald Fugger und Kevin Gründker für die Durchsicht des Manuskripts. Andreas Behr 2017 <?page no="9"?> Inhaltsverzeichnis 1 Einführung 15 1.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 16 1.1.1 Ziele . . . . . . . . . . . . . . . . . . . . . . 16 1.1.2 Motivation . . . . . . . . . . . . . . . . . . 16 1.2 Variablen und Häufigkeiten . . . . . . . . . . . . . 17 1.2.1 Variablen und Daten . . . . . . . . . . . . . 17 1.2.2 Merkmalsarten und Skalenniveaus . . . . . 18 1.2.3 Absolute und relative Häufigkeiten . . . . . 18 1.2.4 Stabdiagramme . . . . . . . . . . . . . . . . 19 1.2.5 Klassierung . . . . . . . . . . . . . . . . . . 20 1.3 Ein Beispiel mit Einkommensdaten . . . . . . . . . 20 1.3.1 Datenquelle: Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) . 21 1.3.2 Die Variablen im Datensatz . . . . . . . . . 21 1.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 24 1.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 27 2 Darstellung von Häufigkeitsverteilungen 29 2.1 Histogramme . . . . . . . . . . . . . . . . . . . . . 30 2.1.1 Beschreibung der Methode . . . . . . . . . 30 2.1.2 Bestimmung der Klassen . . . . . . . . . . . 31 2.2 Kerndichteschätzung . . . . . . . . . . . . . . . . . 33 2.2.1 Die grundlegende Idee der Kerndichteschätzung . . . . . . . . . . . . . . . . . . . . . . 34 2.2.2 Kernfunktionen . . . . . . . . . . . . . . . . 34 2.2.3 Berechnung für Stützstellen . . . . . . . . . 37 2.2.4 Verfahren der Bandweitenwahl . . . . . . . 38 2.2.5 Auswirkung von Bandweiten- und Kernfunktionswahl . . . . . . . . . . . . . . . . . . . 38 2.2.6 Bestimmung des Modus . . . . . . . . . . . 39 2.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 41 2.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 42 <?page no="10"?> 10 Inhaltsverzeichnis 3 Charakterisierungen von Häufigkeitsverteilungen 45 3.1 Verteilungsfunktion . . . . . . . . . . . . . . . . . . 46 3.2 Quantilsfunktion . . . . . . . . . . . . . . . . . . . 47 3.3 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . 49 3.3.1 Lagemaße . . . . . . . . . . . . . . . . . . . 50 3.3.2 Streuungsmaße . . . . . . . . . . . . . . . . 53 3.3.3 Schiefe- und Wölbungsmaße . . . . . . . . . 55 3.4 Approximationen mit klassierten Daten . . . . . . 59 3.4.1 Approximation des Modus . . . . . . . . . . 59 3.4.2 Approximation des Zentralwerts . . . . . . 59 3.4.3 Approximation des arithmetischen Mittels . 61 3.4.4 Approximation der Standardabweichung . . 61 3.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 63 3.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 66 4 Konzentrationsmessung 71 4.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 72 4.2 Maßzahlen der absoluten Konzentration . . . . . . 72 4.2.1 Die Konzentrationsrate . . . . . . . . . . . 72 4.2.2 Die Konzentrationskurve . . . . . . . . . . . 73 4.2.3 Der Rosenbluth-Koeffizient . . . . . . . . . 74 4.2.4 Der Hirschman-Herfindahl-Koeffizient . . . 75 4.3 Maßzahlen der relativen Konzentration . . . . . . . 76 4.3.1 Der Variationskoeffizient . . . . . . . . . . . 77 4.3.2 Die Lorenzkurve und der Gini-Koeffizient . 77 4.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 83 4.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 85 5 Strukturanalysen 89 5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 90 5.2 Maßzahlen für Strukturunterschiede . . . . . . . . 90 5.2.1 Strukturdifferenz und normierte Strukturdifferenz . . . . . . . . . . . . . . . . . . . . . 91 5.2.2 Euklidische Norm . . . . . . . . . . . . . . . 92 5.3 Additive Komponentenzerlegung . . . . . . . . . . 92 5.3.1 Standardisierung . . . . . . . . . . . . . . . 94 5.3.2 Niveau- und Struktureffekt . . . . . . . . . 95 5.3.3 Niveau-, Struktur- und Mischeffekt . . . . . 96 5.4 Multiplikative Komponentenzerlegung . . . . . . . 99 <?page no="11"?> Inhaltsverzeichnis 11 5.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 101 5.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 103 6 Preis- und Mengenindizes 107 6.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 108 6.2 Transaktionen, Mengen und Preise . . . . . . . . . 108 6.3 Preisindizes auf Basis von Warenkorbvergleichen . 109 6.4 Messziffernmittelung . . . . . . . . . . . . . . . . . 112 6.5 Repräsentativgewichtung: Einzelpreise und Ausgabenanteile . . . . . . . . . . . . . . . . . . . . . . . 114 6.6 Konstruktion von Indexziffern . . . . . . . . . . . . 115 6.6.1 Der Verbraucherpreisindex . . . . . . . . . 116 6.6.2 Entwicklung der Verbraucherpreise seit 1881 119 6.7 Kettenindizes . . . . . . . . . . . . . . . . . . . . . 121 6.7.1 Definition von Kettenindizes . . . . . . . . 122 6.7.2 Vor- und Nachteile von Kettenindizes . . . 122 6.7.3 Deflationierung mit Kettenindizes . . . . . 123 6.8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 125 6.9 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 127 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und Streuungszerlegung 129 7.1 Mehrdimensionale Variablen . . . . . . . . . . . . . 130 7.2 Bedingte Häufigkeiten . . . . . . . . . . . . . . . . 131 7.3 Streuungszerlegung . . . . . . . . . . . . . . . . . . 133 7.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 136 7.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 138 8 Korrelation: Metrische Variablen 141 8.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 142 8.2 Eine zweidimensionale Variable . . . . . . . . . . . 142 8.3 Die Kovarianz . . . . . . . . . . . . . . . . . . . . . 143 8.3.1 Ein Zahlenbeispiel . . . . . . . . . . . . . . 144 8.3.2 Eigenschaften der Kovarianz . . . . . . . . . 144 8.4 Der Korrelationskoeffizient von Pearson . . . . . . 146 8.4.1 Eigenschaften des Korrelationskoeffizienten 147 8.4.2 Die Kovarianz standardisierter Variablen . . 148 8.4.3 Ausbildungsjahre und Einkommen . . . . . 149 8.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 150 <?page no="12"?> 12 Inhaltsverzeichnis 8.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 152 9 Korrelation: Ordinale und nominale Variablen 155 9.1 Spearmans Rangkorrelationskoeffizient . . . . . . . 156 9.1.1 Ordinale Variablen und Ränge . . . . . . . 156 9.1.2 Ein Rangkorrelationskoeffizient . . . . . . . 157 9.1.3 Eigenschaften . . . . . . . . . . . . . . . . . 157 9.1.4 Eine vereinfachte Rechenmethode . . . . . . 158 9.2 Zusammenhangsmaße für nominale Variablen . . . 158 9.2.1 Empirische und hypothetische Häufigkeiten 159 9.2.2 Kontingenzkoeffizient . . . . . . . . . . . . 161 9.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 163 9.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 165 10 Einfache Regressionsrechnung 169 10.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 170 10.2 Methode der kleinsten Quadrate . . . . . . . . . . 171 10.2.1 Grundlagen . . . . . . . . . . . . . . . . . . 171 10.2.2 Berechnung der Parameter . . . . . . . . . 172 10.2.3 Achsentransformation . . . . . . . . . . . . 174 10.2.4 Varianzzerlegung und Bestimmtheitsmaß . 175 10.2.5 Ausbildungsjahre und Stundenlöhne . . . . 176 10.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 178 10.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 181 11 Multiple Regressionsanalyse 183 11.1 Das multiple Regressionsmodell . . . . . . . . . . . 184 11.1.1 Anpassungskriterium und Zielfunktion . . . 184 11.2 Das multiple Regressionsmodell in Matrixnotation 186 11.3 Eine multiple Lohnregression . . . . . . . . . . . . 189 11.4 Partielle Regressionskoeffizienten und Residuenregressionen . . . . . . . . . . . . . . . . . . . . . . . 190 11.5 Interaktionen erklärender Variablen . . . . . . . . . 191 11.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 193 11.7 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 194 12 Zeitreihen 197 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 198 12.2 Komponenten von Zeitreihen . . . . . . . . . . . . 200 <?page no="13"?> Inhaltsverzeichnis 13 12.3 Trendermittlung . . . . . . . . . . . . . . . . . . . 201 12.3.1 Trendfunktionen . . . . . . . . . . . . . . . 202 12.3.2 Gleitende Durchschnitte . . . . . . . . . . . 203 12.4 Saisonbereinigung . . . . . . . . . . . . . . . . . . . 205 12.4.1 Periodogrammverfahren . . . . . . . . . . . 206 12.4.2 Census- und Berliner Verfahren . . . . . . . 209 12.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 211 12.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 214 Formelsammlung 219 Probeklausuren 227 Lösungshinweise 243 Index 273 <?page no="15"?> 1 Einführung Mit Hilfe der Methoden der Deskriptiven Statistik sollen Daten, die für eine Anzahl an Einheiten (Personen, Unternehmen, etc.) gewonnen wurden, so dargestellt und beschrieben werden, dass ihr Informationsgehalt einfach und anschaulich sichtbar wird. Ausgangspunkt sind Werte einer oder mehrerer statistischer Variablen, mit denen Eigenschaften der Einheiten erfasst sind. In diesem einleitenden Kapitel erläutern wir dies Ziel, geben einige grundlegende Definitionen an sowie ein Beispiel, das auch in späteren Kapiteln verwendet wird. 1.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.1.1 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . 16 1.2 Variablen und Häufigkeiten . . . . . . . . . . . . . . . . . 17 1.2.1 Variablen und Daten . . . . . . . . . . . . . . . . 17 1.2.2 Merkmalsarten und Skalenniveaus . . . . . . . . . . 18 1.2.3 Absolute und relative Häufigkeiten . . . . . . . . . 18 1.2.4 Stabdiagramme . . . . . . . . . . . . . . . . . . . 19 1.2.5 Klassierung . . . . . . . . . . . . . . . . . . . . . 20 1.3 Ein Beispiel mit Einkommensdaten . . . . . . . . . . . . . 20 1.3.1 Datenquelle: Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) . . . . . . . . . . . . 21 1.3.2 Die Variablen im Datensatz . . . . . . . . . . . . . 21 1.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 <?page no="16"?> 16 1 Einführung 1.1 Einleitung In diesem Buch beschäftigen wir uns mit der deskriptiven (beschreibenden) Statistik. Vordringlich geht es darum, Methoden zu besprechen, mit denen vorliegende Daten anschaulich dargestellt und wesentliche Charakteristika der Verteilung der Daten herausgearbeitet werden können. Methoden der Wahrscheinlichkeitsrechnung und der Inferenzstatistik werden in einem anderen Buch (Grundwissen: Induktive Statistik) dargestellt. 1.1.1 Ziele Das Ziel besteht darin, Einblicke in die Methoden und die Probleme der statistischen Begriffsbildung, der Datengewinnung und der Datenauswertung zu geben. Obwohl Fragen der Operationalisierung in der empirischen Wirtschaftsforschung von ganz zentraler Bedeutung sind, wird im Rahmen dieser Einführung nur in begrenztem Umfang darauf eingegangen und der Schwerpunkt auf die statistische Auswertung von Daten gelegt. Fragen der Operationalisierung müssen in der Praxis jeweils gesondert für das aktuelle Forschungsprojekt behandelt werden und sind nur eingeschränkt einer allgemeinen Behandlung zugänglich. Ein Grundwissen über statistische Methoden der Datenanalyse in Form von tabellarischen und grafischen Darstellungen und der Charakterisierung durch Kennzahlen sollte jedoch jeder Wirtschafts- und Sozialwissenschaftler besitzen. 1.1.2 Motivation Die Statistik kann zwar einerseits als eine Hilfswissenschaft für die Wirtschaftswissenschaften verstanden werden, sie hat jedoch andererseits eine zentrale Funktion. Die meisten Phänomene, die in den Wirtschaftswissenschaften interessieren, sind einer unmittelbaren Beobachtung oder Erfahrung nicht zugänglich. Erst durch eine adäquate Begriffsbildung und Datenerhebung werden diese Phänomene empirisch zugänglich. Zu denken ist hier z. B. an das Niveau der Arbeitslosigkeit, die allgemeine Entwicklung von Verbraucherpreisen, die Mietpreisentwicklung und dergleichen mehr. In diesem Sinne kann die Statistik als ein „Sinnesorgan“ der Wirtschaftswissenschaften verstanden werden. <?page no="17"?> 1.2 Variablen und Häufigkeiten 17 Als eine weitere Motivation lässt sich die zunehmende Datenverfügbarkeit und damit einhergehend die zunehmende Bedeutung von Datenanalysen anführen. Die Fähigkeit, Ergebnisse von Datenanalysen verstehen und interpretieren und die dabei verwendeten Methoden kritisch hinterfragen zu können, ist sicherlich von herausragender Bedeutung. 1.2 Variablen und Häufigkeiten In diesem Abschnitt erläutern wir einige Begriffe, die für alle weiteren Kapitel von grundlegender Bedeutung sind. 1.2.1 Variablen und Daten Deskriptive Statistik beginnt mit Daten. Diese Daten sind fast immer in der Form einer Datenmatrix gegeben, deren Schema folgendermaßen verdeutlicht werden kann: i x i y i z i 1 x 1 y 1 z 1 2 x 2 y 2 z 2 . . . . . . . . . . . . n x n y n z n Jede Zeile bezieht sich auf eine Einheit (z. B. eine Person oder ein Unternehmen). Die erste Spalte enthält eine Nummer, die die jeweilige Einheit angibt. Die Anzahl der Einheiten wird durch die Zahl n angegeben. Die weiteren Spalten enthalten die Werte von Variablen. Im obigen Schema gibt es drei Variablen: X , Y und Z . Dies ist eine allgemeine Konvention: Variablen werden durch kursive Großbuchstaben bezeichnet, ihre Werte durch entsprechende Kleinbuchstaben. So ist x i der Wert, den die Variable X bei der Einheit i annimmt; und entsprechend sind y i und z i zu verstehen. Diese Werte sind die eigentlichen Daten, aber wir betrachten sie nicht isoliert, sondern als Werte von Variablen, die für die jeweilige Gesamtheit der Einheiten definiert sind. <?page no="18"?> 18 1 Einführung Dementsprechend kann der Begriff ,Variable‘ in zwei Bedeutungen verwendet werden. Einerseits bezieht er sich auf die Spalten einer Datenmatrix; bei einer formalen Betrachtung handelt es sich dann um Spaltenvektoren. Andererseits kann man mit dem Begriff eine Abbildung bezeichnen, die jeder Einheit einen bestimmten Wert in einem Merkmalsraum zuordnet, d.h. in einer Menge möglicher Merkmalsausprägungen. 1.2.2 Merkmalsarten und Skalenniveaus In der Statistik ist es allgemein üblich, Merkmalswerte durch Zahlen zu repräsentieren (so dass man mit ihnen rechnen kann). Natürlich muss ihre Bedeutung angegeben werden, z. B. dass es sich um Monatslöhne in Euro handelt. Merkmale haben ein bestimmtes Skalenniveau . Bei nominalen Merkmalen kann lediglich die Unterschiedlichkeit festgestellt werden, aber verschiedene Ausprägungen können nicht sinnvoll angeordnet werden und Abstände zwischen den Ausprägungen haben keine bestimmte Bedeutung. Nominale Merkmale sind z. B. das Geschlecht oder der Beruf. Bei einem ordinalen Merkmal lassen sich die verschiedenen Ausprägungen in eine sinnvoll interpretierbare Reihenfolge bringen, jedoch haben auch in diesem Fall die Abstände keine bestimmte Bedeutung. Insbesondere bei subjektiven intensitätsmäßigen Auskünften findet oft die Ordinalskala Anwendung, etwa bei Wertungen wie ,gut‘, ,mittel‘, ,schlecht‘ o.ä. Ein Merkmal ist kardinal skalierbar , oft auch metrisches Merkmal genannt, wenn die verschiedenen Ausprägungen unterscheidbar sind, in eine Rangfolge gebracht werden können und die Abstände eine bestimmte Bedeutung haben. Bei einer Intervallskala existiert kein absoluter Nullpunkt, so dass zwar Abstände aber nicht sinnvoll Verhältnisse interpretiert werden können, wie etwa bei der Temperatur. Bei einer Verhältnisskala existiert ein absoluter Nullpunkt, etwa bei Gewichten oder Längenangaben. 1.2.3 Absolute und relative Häufigkeiten Mit den Methoden der deskriptiven Statistik interessiert man sich nicht für die Merkmalswerte bestimmter (identifizierbarer) Einheiten, sondern nur dafür, mit welchen Häufigkeiten Merkmalswerte <?page no="19"?> 1.2 Variablen und Häufigkeiten 19 in der jeweiligen Gesamtheit der n Einheiten (oder in Teilgesamtheiten) auftreten. Man unterscheidet absolute und relative Häufigkeiten. Die absolute Häufigkeit, mit der eine Variable einen Wert x annimmt, ist die Anzahl der Einheiten, die diesen Merkmalswert aufweisen. Die relative Häufigkeit ist der entsprechende Anteil, also die absolute Häufigkeit geteilt durch n . Wenn einfach von Häufigkeiten gesprochen wird, sind in diesem Buch stets relative Häufigkeiten gemeint. Als grundlegende Notation verwenden wir P( X = x ), womit die Häufigkeit gemeint ist, mit der die Variable X den Wert x annimmt. Ganz analog bedeutet P ( X = x, Y = y ) die Häufigkeit, mit der X den Wert x und Y den Wert y annimmt. Zur Illustration betrachten wir eine Gesamtheit von n = 8 Einheiten. Für die Variable X gibt es folgende Merkmalswerte (z. B. Altersjahre): x 1 = 1, x 2 = 2, x 3 = 2, x 4 = 4, x 5 = 4, x 6 = 4, x 7 = 7 und x 8 = 16. Dann kann man bespielsweise folgende Häufigkeiten ermitteln: P( X = 1) = 1 / 8 , P( X = 4) = 3 / 8 , P( X = 9) = 0 . Offenbar kann man auch x -Werte verwenden, die bei den Einheiten nicht vorkommen; dann ist die Häufigkeit Null. Schließlich verwenden wir auch manchmal eine Notation, die sich auf mehrere mögliche Merkmalswerte bezieht: P( X ∈ A ), womit die Häufigkeit dafür gemeint ist, dass X irgendeinen Wert in der Menge A annimmt. Beispielsweise findet man mit den eben angegebenen Werten, dass P( X ∈ { 1 , 4 } ) = 1 / 2 ist. Beziehen wir uns auf die Elemente eines explizit definierten Merkmalsraums, bezeichnen wir diese mit ˜ x j ( j = 1 , . . . , J ) und ihre Häufigkeiten mit f j = P ( X = ˜ x j ). Mit n j = f j n bezeichnen wir die absolute Häufigkeit. 1.2.4 Stabdiagramme Durch die Häufigkeiten P( X = x ) wird die Verteilung der Variablen X beschrieben. Viele Methoden der deskriptiven Statistik haben das Ziel, anschauliche und informative Bilder solcher Verteilungen zu liefern. Wenn es nicht zu viele unterschiedliche Merkmalswerte gibt, kann man Stabdiagramme verwenden, bei denen die X-Achse die möglichen Merkmalswerte und die Y-Achse die zugehörigen <?page no="20"?> 20 1 Einführung 0.0 0.1 0.2 0.3 x P(X = x) 1 2 4 7 16 Abbildung 1.1: Relative Häufigkeiten des Zahlenbeispiels. Häufigkeiten angibt. Abbildung 1.1 zeigt das Stabdiagramm für die 8 Beispielswerte. R-1-1 1.2.5 Klassierung Wenn es sehr viele unterschiedliche Merkmalswerte gibt, ist es oft hilfreich, Merkmalsklassen zu verwenden. Wenn z. B. eine Variable die monatlichen Einkommen von Haushalten erfasst, könnten Einkommensklassen gebildet werden, und die klassierte Variable erfasst dann nur, in welcher Einkommensklasse sich ein Haushalt befindet. In dem oben angeführten Zahlenbeispiel könnten vier Klassen gebildet werden: ˜ x ∗ 1 = { 1 , 2 } , ˜ x ∗ 2 = { 3 , 4 } , ˜ x ∗ 3 = { 5 , 6 } , ˜ x ∗ 4 = { 7 , 8 } . Die klassierte Variable X ∗ nimmt dann einen dieser vier Werte an, und es gilt: P( X ∗ = ˜ x ∗ j ) = P( X ∈ ˜ x ∗ j ); zum Beispiel P( X ∗ = ˜ x ∗ 1 ) = 3 / 8. 1.3 Ein Beispiel mit Einkommensdaten In diesem Abschnitt erläutern wir einen Beispielsdatensatz, der dann in den meisten folgenden Kapiteln zur Illustration von Konzepten und Methoden verwendet wird. <?page no="21"?> 1.3 Ein Beispiel mit Einkommensdaten 21 1.3.1 Datenquelle: Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) Als Beispieldatensatz verwenden wir Daten der Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) des Jahres 2018. 1 Der ALLBUS wird seit 1980 in der Regel alle zwei Jahre durchgeführt und enthält Daten über Einstellungen, Verhaltensweisen und Sozialstruktur der Bevölkerung in der Bundesrepublik Deutschland. 2 Der ALLBUS ist angelehnt an den General Social Survey (GSS), der in den USA seit 1972 regelmäßig durchgeführt wird. Die Anzahl der Befragten in den veröffentlichten Daten liegt zwischen 2,800 und 3,500, in 2018 liegen Informationen für 3,477 Befragte vor. Das Untersuchungsgebiet des ALLBUS ist Deutschland und die Grundgesamtheit sind alle Personen, die zum Befragungszeitpunkt in Privathaushalten lebten und vor dem 01.01.2000 geboren sind. Die Auswahl erfolgt als zweistufige, disproportional geschichtete Zufallsauswahl in Westdeutschland (inkl. West-Berlin) und Ostdeutschland (inkl. Ost-Berlin). In der ersten Auswahlstufe wurden Gemeinden in Westdeutschland und in Ostdeutschland mit einer Wahrscheinlichkeit proportional zur Zahl ihrer erwachsenen Einwohner ausgewählt. In der zweiten Auswahlstufe wurden Personen aus den Einwohnermeldekarteien zufällig gezogen. Die einzelnen Querschnittsdatensätze, haben neben einem Kernfrageprogramm wechselnde inhaltliche Schwerpunkte und dienen der Untersuchung von Einstellungen und Verhaltensweisen der deutschen Bevölkerung. 1.3.2 Die Variablen im Datensatz Der Datensatz enthält für n = 1 , 747 Personen die folgenden Variablen: • id : Identifizierer der Personen, laufende Nummer von 1 bis 1 , 747 1 GESIS - Leibniz-Institut für Sozialwissenschaften (2019): Allgemeine Bevölkerungsumfrage der Sozialwissenschaften ALLBUS 2018. GESIS Datenarchiv, Köln. ZA5270 Datenfile Version 2.0.0, doi: 10.4232/ 1.13250. 2 Informationen finden sich auf der folgenden Webseite: https: / / www.gesis.org/ allbus/ allbus/ . <?page no="22"?> 22 1 Einführung • geschlecht: Geschlecht der Person, 0 Mann, 1 Frau • alter: Das Lebensalter der Person • ostwest: Indikator für die Region, 0 Westdeutschland, 1 Ostdeutschland • land: Das Bundesland, BW (Baden-Württemberg), BY (Bayern), BE (Berlin), BB (Brandenburg), HB (Bremen), HH (Hamburg), HE (Hessen), MV (Mecklenburg-Vorpommern), NI (Niedersachsen), NW (Nordrhein-Westfalen), RP (Rheinland-Pfalz), SL (Saarland), SN (Sachsen), ST (Sachsen-Anhalt), SH (Schleswig-Holstein), TH (Thüringen) • bildung: Die Anzahl der Ausbildungsjahre 3 wurde aus der Summe der Schul- und Ausbildungsjahre gebildet. Die Schuljahre wurden ausgehend von Angaben zur Schulausbildung berechnet (Kein Abschluss 7, Hauptschulabschluss 9, Realschulabschluss 10, Fachhochschulabschluss 12, Abitur 13, Andere 10). Die Ausbildungsjahre wurden ausgehend von Angaben zur Berufsausbildung berechnet (Lehre 1,5, Berufsfachschule/ Gesundheitswesen 2, Beamtenausbildung 1,5, Fachhochschule 3, Universtität 5) • beruf: Der Beruf wurde aus den Angaben der Berufsklassifikation nach ISCO 08 gewonnen (1 Fuehrungskraefte, 2 Akademiker, 3 Techniker, 4 Buerokraefte, 5 Dienstleister, 6 Bauern, 7 Handwerker, 8 Monteure, 9 Hilfsarbeiter • stunden: Anzahl der monatlichen Arbeitsstunden (ermittelt als gerundeter Wert der 4,3-fachen wöchentlichen Arbeitszeit) • einkommen: Das zusammengefasste monatliche Netto-Einkommen des Befragten. • stlohn: Aus Monatseinkommen und monatlichen Arbeitsstunden berechneter Netto-Stundenlohn. 3 Die Variable wurde entsprechend der Vorgehensweise beim Sozioökonomischen Panel gebildet. Vgl. John P. Haisken-DeNew und Joachim R. Frick, DTC Desktop Companionto the GermanSocio-Economic Panel (SOEP), Version 8.0 - Dec 2005, S. 69. <?page no="23"?> 1.3 Ein Beispiel mit Einkommensdaten 23 Tabelle 1.1: Ein Ausschnitt des Datensatzes. id geschlecht alter land beruf stlohn 1 0 62 BY 3 13.50 2 1 64 ST 3 6.98 3 0 22 NI 7 7.22 ... ... ... ... ... ... 1745 1 60 HH 5 1.80 1746 0 54 BY 2 6.30 1747 0 49 NI 2 55.56 Tabelle 1.1 zeigt einen Ausschnitt des Datensatzes. Die erste Spalte ( id ) enthält eine durchgängige Nummerierung aller n = 1747 Personen. Für die ersten und letzten drei Personen sind in diesem Ausschnitt jeweils in einer Zeile die Ausprägungen der aufgeführten Merkmale angegeben. R-1-2 <?page no="24"?> 24 1 Einführung 1.4 Aufgaben 1. Mit dieser Aufgabe soll der Umgang mit Summen und Produkten, die in der Statistik sehr häufig verwendet werden, in Erinnerung gerufen werden. Gegeben sind: i 1 2 3 4 x i 6 4 1 3 y i 1 3 4 2 Berechnen Sie: a) 4 ∑ i=1 x i b) 4 ∑ i=1 x i y i c) 4 ∏ i=1 x i d) 4 ∏ i=1 x i y i e) 4 ∏ i=1 x 2 i y 0.5 i 2. Berechnen Sie möglichst einfach (Hinweise zu Summen finden Sie in der Formelsammlung S. 219): a) 20 ∑ i=1 (6 − 4 i ) + 20 ∑ i=1 (2 i + 2) + 20 ∑ i=1 ( − 4 − 4 i ) b) 30 ∑ i=1 ( i 2 + 2 i − 3 ) + 30 ∑ i=1 ( 3 i 2 + 5 i + 8 ) + 30 ∑ i=1 ( 4 i 2 + 6 i − 10 ) c) 40 ∑ i=1 (1 + i ) 2 + 40 ∑ i=1 (1 − i ) 2 3. Gegeben ist folgende Matrix B = ( b ij ); i = 1 , . . . , I ist der Zeilenindex und j = 1 , . . . , J der Spaltenindex: B =        1 4 4 7 8 4 2 3 6 6 2 3 6 9 7 6 7 2 5 7 8 8 9 6 4 6 2 3 4 5 3 5 2 3 7 7        <?page no="25"?> 1.4 Aufgaben 25 Berechnen Sie: a) 2 ∑ i=1 3 ∑ j=1 b ij b) 2 ∑ i=2 J ∑ j=1 b ij c) J ∑ j=1 b 2j d) I ∑ i=1 2 ∑ j=1 b ij e) 4 ∑ i=3 6 ∑ j=5 b ij 4. Informieren Sie sich im Internet über den ALLBUS und versuchen Sie, folgende Fragen zu beantworten: a) Was ist eine Querschnitts-, was eine Panelerhebung? b) Wie werden die befragten Haushalte ausgewählt? c) Hat jeder Haushalt in Deutschland die gleiche Chance ausgewählt zu werden? d) Welche Informationen liefert der ALLBUS? e) Welche Schwerpunkte hat das Frageprogramm des ALLBUS im Jahr 2018? 5. Geben Sie bei den nachfolgenden Variablen an, welches Skalenniveau sie besitzen: Geschlecht, Beruf, Warengruppe, Immobilienbesitz, Bonität, Einkommen, Vermögen. 6. Ermitteln Sie für die folgenden Werte einer Variablen X 1 , 4 , 5 , 4 , 5 , 4 , 5 , 4 , 6 , 1 , 2 , 1 , 1 , 2 , 1 die vorkommenden Merkmalsausprägungen ( ˜ x j ) und deren absolute ( n j ) und relative ( f j ) Häufigkeiten. <?page no="26"?> 26 1 Einführung 7. Die folgende Tabelle enthält die Häufigkeiten der ALLBUS Monatslöhne (in Euro) von Personen in Westdeutschland für 6 Lohnklassen unterschiedlicher Klassenbreite. Klasse von bis unter abs. Häuf. ˜ x ∗ 1 0 500 22 ˜ x ∗ 2 500 1000 142 ˜ x ∗ 3 1000 1500 183 ˜ x ∗ 4 1500 2500 454 ˜ x ∗ 5 2500 5000 369 ˜ x ∗ 6 5000 20000 68 Ermitteln Sie für die Lohnklassen die Häufigkeiten P( X ∗ = ˜ x ∗ j ). <?page no="27"?> 1.5 R-Code 27 1.5 R-Code R-1-1 # Vektor a mit Merkmalswerten erstellen x <c(1,2,2,4,4,4,7,16) # Anzahl an Merkmalswerten n <length(x) # absolute Häufigkeiten table(x) # relative Häufigkeiten f.x <table(x) / n f.x # Stabdiagramm der relativen Häufigkeiten plot(f.x) R-1-2 # Daten einlesen d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) # Übersicht: Erste und letzte 6 Beobachtungen anzeigen head(d) tail(d) # Anzahl an Beobachtungen n <nrow(d) n <?page no="29"?> 2 Darstellung von Häufigkeitsverteilungen Eine wichtige Aufgabe der deskriptiven Statistik besteht darin, anschauliche und informative Beschreibungen von Häufigkeitsverteilungen zu liefern. In diesem Kapitel besprechen wir Histogramme und Methoden zur Berechnung von Dichtefunktionen. 2.1 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . 30 2.1.1 Beschreibung der Methode . . . . . . . . . . . . . 30 2.1.2 Bestimmung der Klassen . . . . . . . . . . . . . . 31 2.2 Kerndichteschätzung . . . . . . . . . . . . . . . . . . . . 33 2.2.1 Die grundlegende Idee der Kerndichteschätzung . . . 34 2.2.2 Kernfunktionen . . . . . . . . . . . . . . . . . . . 34 2.2.3 Berechnung für Stützstellen . . . . . . . . . . . . . 37 2.2.4 Verfahren der Bandweitenwahl . . . . . . . . . . . 38 2.2.5 Auswirkung von Bandweiten- und Kernfunktionswahl 38 2.2.6 Bestimmung des Modus . . . . . . . . . . . . . . . 39 2.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 <?page no="30"?> 30 2 Darstellung von Häufigkeitsverteilungen Tabelle 2.1: Histogramm mit Beispieldaten Klasse von bis b j f j h j ˜ x 1 0 3 3 0.05 0.0167 ˜ x 2 3 7 4 0.25 0.0625 ˜ x 3 7 13 6 0.55 0.0917 ˜ x 4 13 20 7 0.15 0.0214 2.1 Histogramme 2.1.1 Beschreibung der Methode Sei X eine Variable mit den Werten x 1 , . . . , x n für n Einheiten. Um die Häufigkeitsverteilung von X durch ein Histogramm graphisch darzustellen, geht man folgendermaßen vor. Man bestimmt zunächst den kleinsten Merkmalswert x min und den größten Merkmalswert x max , so dass alle vorkommenden Merkmalswerte im Intervall [ x min , x max ] liegen. Dann werden Zahlen a 0 < a 1 < · · · < a m bestimmt, wobei a 0 ≤ x min und a m > x max ist, wodurch m Klassen (Intervalle) entstehen: ˜ x ∗ j = [ a j − a j−1 [. Diese Klassen bilden die X -Achse des Historgramms. Für die Breite b j eines Intervalls gilt b j = a j − a j−1 . Für jede Klasse wird dann ein Rechteck gebildet, so dass die Fläche des Rechtecks der Häufigkeit entspricht, mit der X einen Wert in der Klasse annimmt. Die Höhe h j = f j / b j für die Klasse ˜ x ∗ j , die auch als Dichte bezeichnet wird, wird also so bestimmt, dass gilt h j ( a j − a j−1 ) = P( X ∈ ˜ x ∗ j ) . Wir betrachten als Zahlenbeispiel die Werte 1 , 3 , 5 , 5 , 5 , 6 , 8 , 8 , 8 , 8 , 8 , 10 , 10 , 10 , 11 , 12 , 12 , 14 , 17 , 19 . Wir wählen a 0 = 0 , a 1 = 3 , a 2 = 7 , a 3 = 13 , a 4 = 20, wodurch m = 4 Klassen (Intervalle) entstehen. Die resultierenden Klassenbreiten, Häufigkeiten und Dichten sind in Tabelle 2.1 und das resultierende Histogramm ist in Abbildung 2.1 dargestellt. R-2-1 <?page no="31"?> 2.1 Histogramme 31 x Dichte 0 5 10 15 20 0.00 0.02 0.04 0.06 0.08 0.10 Abbildung 2.1: Histogramm für 20 Beispielwerte. 2.1.2 Bestimmung der Klassen Das Erscheinungsbild eines Histogramms hängt davon ab, wie die Klassen gewählt werden. Oft wird für alle Klassen die gleiche Breite a j − a j−1 verwendet; dann ist nur noch die Anzahl der Klassen ( m ) zu wählen. Werden zu wenige Klassen gewählt, werden Verdichtungsstellen in den Daten verschmiert. Fasst man z. B. zwei Klassen, eine mit hoher und eine mit geringer Dichte zu einer Klasse zusammen, dann erhält diese eine mittlere Dichte und der Unterschied in den Dichten der beiden Klassen ist nicht mehr zu erkennen. Werden zu viele Klassen gewählt, wird die Verteilung zu rau und sehr hohe Dichten (Spitzen) können sich zufällig ergeben. Prinzipiell gibt es zwei Möglichkeiten, die Anzahl der Klassen zu wählen. Entweder man probiert verschiedene Klassenzahlen und entscheidet nach Augenschein, oder man versucht mittels formaler Kriterien eine optimale Anzahl zu berechnen. Zur Illustration betrachten wir die Netto-Monatseinkommen in Westdeutschland in unserem ALLBUS-File, das in der Einleitung erläutert wurde. Dabei beschränken wir uns auf die n = 1234 Merk- <?page no="32"?> 32 2 Darstellung von Häufigkeitsverteilungen Tabelle 2.2: Klassierte Einkommensdaten in 1000 Euro Klasse von bis f j h j Klasse von bis f j h j ˜ x 1 0 1 0.133 0.133 ˜ x 6 5 6 0.026 0.026 ˜ x 2 1 2 0.333 0.333 ˜ x 7 6 7 0.015 0.015 ˜ x 3 2 3 0.302 0.302 ˜ x 8 7 8 0.003 0.003 ˜ x 4 3 4 0.133 0.133 ˜ x 9 8 9 0.007 0.007 ˜ x 5 4 5 0.047 0.047 ˜ x 10 9 10 0.001 0.001 Tabelle 2.3: Klassierte Einkommensdaten in 1000 Euro Klasse von bis f j h j Klasse von bis f j h j ˜ x 1 0.0 0.5 0.018 0.036 ˜ x 6 2.5 3.0 0.119 0.238 ˜ x 2 0.5 1.0 0.115 0.230 ˜ x 7 3.0 4.0 0.133 0.133 ˜ x 3 1.0 1.5 0.148 0.297 ˜ x 8 4.0 5.0 0.047 0.047 ˜ x 4 1.5 2.0 0.185 0.370 ˜ x 9 5.0 7.5 0.042 0.017 ˜ x 5 2.0 2.5 0.183 0.366 ˜ x 10 7.5 10.0 0.010 0.004 malswerte der Einkommensvariable von Personen aus Westdeutschland, die kleiner als 10 , 000 Euro sind, da sich so die Charakteristika der Verteilung der Einkommen unter 10 , 000 Euro besser erkennen lassen. Wählen wir m = 10 Klassen der Breite 1000 Euro, resultiert die Häufigkeitstabelle 2.2. Dabei ist f j = P( X ∈ ˜ x j ) und h j = f j / 1, da die Klassenbreite gerade 1 ist. R-2-2 Für die graphische Darstellung in Abbildung 2.2a werden die Höhen h j verwendet, die gesamte Histogrammfläche ist dann ∑ j h j · b j = ∑ j f j = 1. R-2-3 Alternativ haben wir ein zweites Histogramm mit m = 25 Klassen gezeichnet (Abbildung 2.2b). Man sieht, dass bei diesem die Stelle der höchsten Verdichtung besser zu bestimmen ist, jedoch bei den oberen Klassen die Dichten zu- und abnehmen und die Verteilung etwas rau dargestellt wird. Für eine dritte Variante des Histogramms (Abbildung 2.2c) bilden wir erneut m = 10 Klassen, wählen jedoch unterschiedliche Klassenbreiten. Wir wählen nun für die Einkommen unter 3000, eine Klassenbreite von 500, für die Einkommen zwischen 3000 und 5000 eine Klassenbreite von 1000 und abschließend zwei Klassen der Breite von 2500. Es resultiert die Häufigkeitstabelle 2.3. Die Höhen h j der Säulen in der graphischen Darstellung ergeben sich wiederum dadurch, dass die Häufigkeit f j durch die Breite der j .ten Klasse dividiert wird. <?page no="33"?> 2.2 Kerndichteschätzung 33 Einkommen Dichte 0 2 4 6 8 10 0.0 0.1 0.2 0.3 0.4 0.5 (a) 10 Klassen Einkommen Dichte 0 2 4 6 8 10 0.0 0.1 0.2 0.3 0.4 0.5 (b) 25 Klassen Einkommen Dichte 0 2 4 6 8 10 0.0 0.1 0.2 0.3 0.4 0.5 (c) 10 Klassen (variable Klassenbreite) Abbildung 2.2: Auswirkungen unterschiedlicher Klassenbildung. Einkommen unter 10 Tsd. Euro (in Tsd. Euro). 2.2 Kerndichteschätzung Eine exakte Dichtefunktion für eine Variable X ist eine (stückweise) stetige Funktion f ( x ), die für beliebige Intervalle [ a, b ] die Bedingung P( X ∈ [ a, b ]) = ∫ b a f ( x ) d x erfüllt. Für empirische Verteilungen begnügt man sich meistens mit Dichtefunktionen, die eine Approximation liefern, also P( X ∈ [ a, b ]) ≈ ∫ b a ˆ f ( x ) d x. Die Notation ˆ f ( x ) soll anzeigen, dass es sich um eine approximative Dichtefunktion handelt. Auch Histogramme sind approximative Dichtefunktionen. In diesem Abschnitt besprechen wir Methoden der Kerndichteschätzung, mit denen stetige und mehr oder weniger glatte approximative Dichtefunktionen konstruiert werden können. <?page no="34"?> 34 2 Darstellung von Häufigkeitsverteilungen 2.2.1 Die grundlegende Idee der Kerndichteschätzung Methoden der Kerndichteschätzung verwenden zur Konstruktion von ˆ f ( x ) alle Werte von X , die in einer symmetrischen Umgebung von x liegen. Die Idee lässt sich so veranschaulichen: Auf jeden Wert x i wird eine Kernfunktion (z. B. ein Rechteck oder ein Dreieck) mit der Fläche 1 / n gestellt, und die Flächen werden abschließend vertikal aufsummiert. Abbildung 2.3 veranschaulicht das Vorgehen. Für n = 5 Einheiten liegen die x i -Werte 2 , 3 , 3 . 3 , 4 . 5 und 7 vor. Wir wählen Dreiecke mit einer Grundbreite von 4. D.h. die Breite des Fensters, in welchem die darin liegenden Beobachtungen berücksichtigt werden, beträgt b = 4. Die Bandweite w ist die halbe Fensterbreite, also w = 2. Die Fläche der n Dreiecke insgesamt ist auf 1 normiert. Um jeweils eine Fläche von 1 / n = 1 / 5 = 0 . 2 zu haben, müssen die n = 5 Dreiecke eine Höhe von 0 . 1 haben, da 0 . 5 · 4 · 0 . 1 = 0 . 2 (die Fläche ergibt sich als halbe Grundseite mal Höhe). Betrachten wir als Beispiel ein Dreieck auf dem Wert x 2 = 3, dessen Grundfläche von 1 bis 5 reicht, dann hat dieses Dreieck an der Stelle x = 4 eine Höhe von 0 . 05. Dies ist der Beitrag des Datenpunktes x 2 = 3 zur Dichte an dieser Stelle x = 4. R-2-4 2.2.2 Kernfunktionen Die Dichte an der Stelle x , also ˆ f ( x ), lässt sich auch als eine Funktion der Abstände zwischen x und den x i -Werten ausdrücken. Dafür definiert man zunächst eine so genannte Kernfunktion K ( u ). Für einen Dreieck-Kern lautet diese Definition K ( u i ) = { 1 − |u i | falls |u i | ≤ 1 0 sonst , wobei u i = x − x i w . Der Wert u i gibt also den Abstand von x i zu x in Einheiten der Bandweite w an. Wenn x i = x ist, liefert die Funktion den maximalen Wert 1. Mit zunehmendem Abstand zwischen x i und x nimmt der Funktionswert linear ab. Liegt x i z. B. eine halbe Bandweite von x entfernt, liefert die Funktion den Wert 0.5. Die <?page no="35"?> 2.2 Kerndichteschätzung 35 0 2 4 6 8 10 0.00 0.05 0.10 0.15 0.20 0.25 0.30 x Dichte Abbildung 2.3: Idee des Kerndichteschätzers. Über jede Beobachtung des Zahlenbeispiels ist ein Dreieck-Kern gelegt. Der resultierende Kerndichteschätzer ist als graue Linie eingezeichnet. Bandweite w gibt den maximalen Abstand der berücksichtigten Werte von x an. Das Integral der Kernfunktion hat den Wert 1. Der Kerndichteschätzer kann also folgendermaßen definiert werden ˆ f ( x ) = 1 nw n ∑ i=1 K ( u i ) = 1 nw n ∑ i=1 K ( x − x i w ) . Eine unterschiedliche Wahl von Kernfunktionen K ( u ) führt zu unterschiedlichen Kerndichteschätzern (siehe Tabelle 2.4 und Abbildung 2.4). Nur bei Rechteck-Kernen (gleitenden Histogrammen) gehen die benachbarten x i -Werte gleich gewichtet in die Bestimmung der Dichte ein. Bei anderen üblicherweise verwendeten Kernfunktionen, etwa dem dargestellten Dreieck-Kern, nimmt das Gewicht mit dem Abstand zu x ab. Betrachten wir als Beispiel erneut den Datenpunkt x 2 = 3 und die Stelle x = 4. Als Kernfunktion wählen wir erneut den Dreieck- Kern. Wir erhalten u 2 = ( x − x 2 ) / w = (4 − 3) / 2 = 0 . 5. Der Wert der Kernfunktion ist dann K ( u 2 ) = 1 − |u 2 | = 1 − 0 . 5 = 0 . 5. <?page no="36"?> 36 2 Darstellung von Häufigkeitsverteilungen Tabelle 2.4: Definition alternativer Kernfunktionen Kernfunktion Definition Rechteck-Kern K(u) = { 0.5 falls |u| ≤ 1, 0 sonst Dreieck-Kern K(u) = { 1 − |u| falls |u| ≤ 1, 0 sonst Normal-Kern K(u) = 1 √ 2π e −0.5u 2 Epanechnikov-Kern K(u) = { 3 4 (1 − u 2 ) falls |u| ≤ 1, 0 sonst -2 -1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 x Dichte Dreieck Epanechnikov Rechteck Normal Abbildung 2.4: Verschiedene Kernfunktionen. Die Normierung, d.h. die Division durch nw , führt dann zu dem Beitrag von x 2 zur Dichte an der Stelle x = 4 von K ( u 2 ) / ( nw ) = 0 . 5 / (5 · 2) = 0 . 05. Die Kerndichte f ( x = 4) ergibt sich aus der Summation der Beiträge aller n = 5 x -Werte, von denen wir hier nur einen, den von x 2 = 3, zur Veranschaulichung ermittelt haben. <?page no="37"?> 2.2 Kerndichteschätzung 37 0 2 4 6 8 10 0.00 0.05 0.10 0.15 0.20 0.25 0.30 x Dichte x 0 = Abbildung 2.5: Darstellung von Stützstellen. Für die Stützstelle x 0 = 6 wird im Text vorgeführt wie man die Höhe der Dichte für den Kerndichteschätzer berechnet. 2.2.3 Berechnung für Stützstellen Eine Dichtefunktion ˆ f ( x ) ist für beliebige reelle Zahlenwerte definiert. Praktisch wird sie nur für eine endliche Anzahl beliebig gewählter Stützstellen berechnet. Dafür wird die oben angegebene Formel verwendet. Zur Illustration verwenden wir erneut das in Abbildung 2.3 angegebene Beispiel. In diesem Beispiel hat die Dichtefunktion die Gestalt ˆ f ( x ) = 1 5 · 2 5 ∑ i=1 K ( x − x i 2 ) = 1 10 5 ∑ i=1 ( 1 − ∣ ∣ ∣ x − x i 2 ∣ ∣ ∣ ) . Z. B. für x = 6 findet man ˆ f (6) = 1 10 [( 1 − ∣ ∣ ∣ 6 − 4 . 5 2 ∣ ∣ ∣ ) + ( 1 − ∣ ∣ ∣ 6 − 7 2 ∣ ∣ ∣ )] = 1 10 [( 1 − 1 . 5 2 ) + ( 1 − 1 2 )] = 0 . 075 . <?page no="38"?> 38 2 Darstellung von Häufigkeitsverteilungen 2.2.4 Verfahren der Bandweitenwahl Das Ergebnis ist weniger von der Wahl der Kernfunktion als von der gewählten Bandweite abhängig. Die Bandweiten können naiv gebildet werden, also durch einfache Variation und intuitive Beurteilung des Ergebnisses. Gesucht ist ein Kompromiss, so dass einerseits ein möglichst glatter Verlauf erreicht wird und andererseits noch alle wichtigen Charakteristika der Verteilung sichtbar sind. Es gibt auch Ansätze zur Bestimmung einer optimalen Bandweite, die sich als Funktion bestimmter Stichprobenmaßzahlen ergibt. Dafür muß allerdings eine maßgebliche Dichtefunktion vorausgesetzt (angenommen) werden, die man nicht kennt. Oft wird eine Normalverteilung angenommen. Wir begnügen uns damit, zwei gebräuchliche Regeln anzugeben. Eine Regel von Silverman schlägt die Bandweite w = 0 . 9 · min ( σ, (˜ x 0.75 − ˜ x 0.25 ) · 1 . 34 −1 ) n −1/ 5 vor, wobei σ und ˜ x 0.75 − ˜ x 0.25 aus den Daten ermittelt werden. 1 Bei einer sehr ähnlichen Regel von Scott wird anstelle des Faktors 0.9 der Faktor 1.06 verwendet, so dass man eine etwas glattere Dichtefunktion erhält. 2.2.5 Auswirkung von Bandweiten- und Kernfunktionswahl Die Auswirkungen der Wahl des Kerns lassen sich in einer Graphik veranschaulichen (Abbildung 2.6). Als Daten verwenden wir wieder die ALLBUS-Einkommensdaten bis 10 , 000 Euro. Die Bandweite wählen wir entsprechend der Regel von Silverman (s.o.). Für einen Vergleich der Auswirkungen verschiedener Bandweiten wählen wir einen Dreieck-Kern (vgl. Abbildung 2.7). 2 1 Die Symbole σ, ˜ x 0.25 und ˜ x 0.75 bezeichnen die Standardabweichung, das 25 %- und das 75 %-Quantil. Vergleiche hierzu Kapitel 3. 2 In R können mit der Funktion density() Kerndichten berechnet werden. Beim Aufruf der Funktion kann mit dem Argument bw die Bandweite festgelegt werden. Zu beachten ist, dass diese Bandweite die Bandweite in Einheiten der Standardabweichung σ der Kernfunktion (σ = √ 1/ 6 im Falle des Dreieck-Kerns) angibt. D.h. in unserer Notation mit w für die Bandweite ergibt sich die R-Bandweite bw als bw = w · σ. <?page no="39"?> 2.2 Kerndichteschätzung 39 Einkommen (in Tsd. Euro) 0 2 4 6 8 10 Dichte ˜ x M = 1.6 (a) Rechteck-Kern Einkommen (in Tsd. Euro) 0 2 4 6 8 10 Dichte ˜ x M = 2 (b) Dreieck-Kern Einkommen (in Tsd. Euro) 0 2 4 6 8 10 Dichte ˜ x M = 1.89 (c) Epanechnikov-Kern Einkommen (in Tsd. Euro) 0 2 4 6 8 10 Dichte ˜ x M = 1.93 (d) Normal-Kern Abbildung 2.6: Auswirkungen der Wahl des Kernes. Einkommen unter 10 Tsd. Euro (in Tsd. Euro). Bandweite nach der Regel von Silverman. Es ist ersichtlich, dass die Wahl der Bandweite im Vergleich zur Wahl der Kernfunktion die geschätzten Kerndichten weit stärker beeinflusst. 2.2.6 Bestimmung des Modus Der Modus ˜ x M einer Dichtefunktion ˆ f ( x ), auch dichtester Wert genannt, ist derjenige x -Wert, bei dem die Dichtefunktion den höchsten Wert hat. 3 Da die berechnete Dichte sowohl von der gewählten Kernfunktion als auch von der gewählten Bandweite abhängt, ist auch die numerische Bestimmung des Modus davon 3 Vergleiche auch Abschnitt 3.3.1. <?page no="40"?> 40 2 Darstellung von Häufigkeitsverteilungen Einkommen (in Tsd. Euro) 0 2 4 6 8 10 Dichte ˜ x M = 2 (a) bw = 400 Euro Einkommen (in Tsd. Euro) 0 2 4 6 8 10 Dichte ˜ x M = 1.99 (b) bw = 600 Euro Einkommen (in Tsd. Euro) 0 2 4 6 8 10 Dichte ˜ x M = 1.85 (c) bw = 1000 Euro Einkommen (in Tsd. Euro) 0 2 4 6 8 10 Dichte ˜ x M = 1.82 (d) bw = 1500 Euro Abbildung 2.7: Auswirkungen der Wahl der Bandweite. Einkommen unter 10 Tsd. Euro (in Tsd. Euro). Jeweils mit Dreieck-Kern. abhängig. Als Beispiel verwenden wir eine Kerndichteschätzung mit Normalkern und automatisch gewählter Bandweite nach der Regel von Silverman (vgl. die Darstellung in Abbildung 2.6). In diesem Fall resultiert ˜ x M = 1 . 93. In den Abbildungen 2.6 und 2.7 sind jeweils die aus der Wahl von Kernfunktion und Bandweite resultierenden Modalwerte eingetragen. R-2-5 <?page no="41"?> 2.3 Aufgaben 41 2.3 Aufgaben 1. Betrachten Sie die beiden folgenden Darstellungen der ALLBUS- Einkommensverteilung mit Hilfe eines Histogramms und mit Hilfe einer Kerndichteschätzung. Zur Verbesserung der Übersichtlichkeit werden nur Einkommen bis 10,000 Euro betrachtet. Welches sind die Vor- und Nachteile der beiden Darstellungsweisen? Einkommen (in Tsd. Euro) Dichte 0 2 4 6 8 10 0.0 0.1 0.2 0.3 0.4 0.5 Vergleich von Histogramm und Kerndichteschätzung. 2. Gehen Sie von folgenden Werten aus: 1 , 5 , 6 , 6 , 8, und berechnen Sie für die Stützstelle x = 4 . 5 die Kerndichte bei einer Bandweite von w = 3 und einem Rechteck-Kern. 3. Berechnen Sie für die Stützstelle x = 4 . 5 und die Bandweite w = 3 die Kerndichte auch mit (a) einem Dreieck-Kern und (b) einem Normalkern. 4. Berechnen Sie mit einem Dreieck-Kern für die Stützstelle x = 4 . 5 die Kerndichte mit den Bandweiten (a) w = 2 . 5 und (b) w = 3 . 5. <?page no="42"?> 42 2 Darstellung von Häufigkeitsverteilungen 2.4 R-Code R-2-1 # Histogramm - Zahlenbeispiel x <c(1,3,5,5,5,6,8,8,8,8,8,10,10,10,11,12,12,14,17,19) n <length(x) # Klassengrenzen breaks1 <c(0,3,7,13,20) # Anzahl an Grenzen b <length(breaks1) # Beobachtungen in Klassen einteilen lc <cut(x = x, breaks = breaks1, right = FALSE) # Klassenuntergrenzen cu <breaks1[-b] # Klassenobergrenzen co <breaks1[-1] # Dichten bj <co-cu fj <table(lc) / n hj <fj / bj # Histogramm (4 Klassen) hist(x = x, breaks = breaks1, prob = TRUE, right = FALSE, xlim = c(0,20), ylim = c(0,0.1), xlab = "x", ylab = "Dichte") R-2-2 ## Daten einlesen d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) d <d[d$ostwest==0,] # Einkommen in Vektor e speichern e <d$einkommen/ 1000 ## Nur Eink. < 10000 Euro w <e[e < 10] # Anzahl an Eink. < 10000 Euro n <length(w) n # Klassengrenzen breaks1 <seq(from = 0, to = 10, by = 1) # Anzahl an Grenzen b <length(breaks1) # Beobachtungen (Einkommen) in Klassen einteilen lc <cut(x = w, breaks = breaks1, right = FALSE) # Klassenuntergrenzen cu <breaks1[-b] # Klassenobergrenzen co <breaks1[-1] # relative Klassenhäufigkeiten fj <table(lc) / n fj <?page no="43"?> 2.4 R-Code 43 # Dichten bj <co cu hj <fj / bj hj # zu 1 normierte Dichte sum(hj*1) R-2-3 # Histogramm (10 Klassen gleicher Breite) hist(x = w, breaks = breaks1, prob = TRUE, right = FALSE, xlim = c(0,10), ylim = c(0,0.4), xlab = "Monatseinkommen in 1000 Euro", ylab = "Dichte") R-2-4 (Siehe hier auch die Fußnote auf Seite 38) # Vektor mit Beispielwerten erstellen x <c(2,3,3.3,4.5,7) ## Kerndichte mit Dreieck-Kern darstellen # Bandweite (w = b/ 2) bw <- 2 # Stad.abw. des Dreieck-Kerns s <sqrt(1/ 6) # Darstellung plot(density(x = x, kernel = "triangular", bw = bw*s)) # Alternativ mit automatischer Wahl der Bandweite plot(density(x = x, kernel = "triangular")) R-2-5 ## Objekt der Klasse 'density' # um den Modus genauer zu bestimmen wird hier die Anzahl an Punkten an # denen die Dichte geschätzt wird erhöht auf 1024 dn <density(x = w, kernel = "gaussian", n = 2*512) # Modus xM <dn$x[dn$y == max(dn$y)] xM <?page no="45"?> 3 Charakterisierungen von Häufigkeitsverteilungen In diesem Kapitel besprechen wir Methoden und unterschiedliche Maßzahlen, mit denen die Häufigkeitsverteilung einer Variablen beschrieben werden kann. 3.1 Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . 46 3.2 Quantilsfunktion . . . . . . . . . . . . . . . . . . . . . . 47 3.3 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.3.1 Lagemaße . . . . . . . . . . . . . . . . . . . . . . 50 3.3.2 Streuungsmaße . . . . . . . . . . . . . . . . . . . 53 3.3.3 Schiefe- und Wölbungsmaße . . . . . . . . . . . . . 55 3.4 Approximationen mit klassierten Daten . . . . . . . . . . . 59 3.4.1 Approximation des Modus . . . . . . . . . . . . . . 59 3.4.2 Approximation des Zentralwerts . . . . . . . . . . . 59 3.4.3 Approximation des arithmetischen Mittels . . . . . 61 3.4.4 Approximation der Standardabweichung . . . . . . 61 3.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 <?page no="46"?> 46 3 Charakterisierungen von Häufigkeitsverteilungen 3.1 Verteilungsfunktion Wir beziehen uns auf eine Variable X mit Werten x 1 , . . . , x n für n Einheiten. Die Verteilung von X wird zunächst durch die Häufigkeitsfunktion P( X = x ) beschrieben, wobei x irgendein möglicher Wert von X ist (vgl. Abschnitt 1.2.3). Nun fragen wir, welcher Anteil an den Einheiten einen Merkmalswert aufweist, der nicht größer ist als irgendein vorgegebener x -Wert. Die Frage wird durch die Funktion F ( x ) = P( X ≤ x ) beantwortet, die als Verteilungsfunktion von X bezeichnet wird. Als einfaches Zahlenbeispiel nehmen wir an, dass es n = 8 Einheiten mit den Werten x 1 = 1 , x 2 = 2 , x 3 = 2 , x 4 = 4 , x 5 = 4 , x 6 = 4 , x 7 = 7 , x 8 = 16 gibt. Man findet: x P( X = x ) F ( x ) 1 1 / 8 1 / 8 2 2 / 8 3 / 8 4 3 / 8 6 / 8 7 1 / 8 7 / 8 16 1 / 8 8 / 8 Die Häufigkeits- und die Verteilungsfunktion werden in der Graphik 3.1 dargestellt. Man beachte, dass die Verteilungsfunktion nicht nur für die jeweils vorkommenden x -Werte, sondern für alle reellen Zahlen definiert ist. Es handelt sich um eine Treppenfunktion mit Sprungstellen an den vorkommenden Merkmalsausprägungen. Die Höhen der Sprungstellen entsprechen dabei gerade den jeweiligen Häufigkeiten. Offenbar hat die Verteilungsfunktion bei allen x -Werten, die kleiner als der kleinste x i -Wert sind, den Wert 0; und sie hat den Wert 1 bei allen x -Werten, die größer oder gleich dem größten x i -Wert sind. R-3-1 Für eine weitere Illustration verwenden wir die Einkommensangaben im ALLBUS-File (West), wobei wir uns auf n = 1234 Personen beschränken, deren Einkommen kleiner als 10 , 000 Euro <?page no="47"?> 3.2 Quantilsfunktion 47 0.0 0.1 0.2 0.3 x P(X = x) 1 4 7 16 (a) Relative Häufigkeiten 0 5 10 15 0.0 0.4 0.8 x P(X ≤ x) (b) Verteilungsfunktion Abbildung 3.1: Relative Häufigkeiten und Verteilungsfunktion für das Zahlenbeispiel. ist. Zur approximativen Beschreibung der Einkommensverteilung verwenden wir eine Dichtefunktion ˆ f ( x ), die mit der Methode der Kerndichteschätzung (hier mit einem Normalkern und einer automatisch gewählten Bandweite nach der Regel von Silverman) ermittelt wird. Die Graphik 3.2 zeigt auf der linken Seite diese Dichtefunktion. Auf der rechten Seite wird die daraus abgeleitete approximative Verteilungsfunktion ˆ F ( x ) = ∫ x −∞ ˆ f ( u ) d u gezeigt. Die Dichtefunktion hat ihr Maximum an der Stelle 1929 Euro. In diesem Bereich weist die Verteilungsfunktion die höchste Steigung auf. Ab 5000 Euro finden sich nur noch recht geringe Dichten, entsprechend verläuft die Verteilungsfunktion rechts davon relativ flach. R-3-2 3.2 Quantilsfunktion Während wir bei der Verteilungsfunktion von einem bestimmten x - Wert ausgehen und fragen, welcher Anteil der Daten eine höchstens so große Ausprägung aufweist, wird bei der Quantilsfunktion die Blickrichtung umgedreht. Wir gehen von einem Anteilswert p aus, der zwischen 0 und 1 liegt, und fragen: welches ist der kleinste x -Wert für den die Verteilungsfunktion mindestens den <?page no="48"?> 48 3 Charakterisierungen von Häufigkeitsverteilungen 0 2 4 6 8 10 0.0 0.1 0.2 0.3 0.4 Einkommen in 1000 Euro ˆ f(x) (a) Dichtefunktion 0 2 4 6 8 10 0.0 0.4 0.8 Einkommen in 1000 Euro ˆ F (x) (b) Verteilungsfunktion Abbildung 3.2: Dichtefunktion (links) und Verteilungsfunktion (rechts) der Einkommen (in Tsd. Euro.) Wert p aufweist, so dass also der Anteil der Einheiten mit x i ≤ x mindestens p ist. Wir verwenden die Definition Q ( p ) = min {x | F ( x ) ≥ p} , die als Quantilsfunktion bezeichnet wird. Wenn die Verteilungsfunktion eine Treppenfunktion ist, führt diese Definition dazu, dass nur vorkommende Merkmalsausprägungen als Quantilswerte erscheinen können. Wir bezeichnen Quantilswerte durch ˜ x p . Eine alternative Definition geht unmittelbar von den aufsteigend sortierten x i -Werten aus: ˜ x p = { x np falls np ganzzahlig, x [np]+1 sonst. Die eckigen Klammern im Index ([ np ]) bedeuten, dass np auf die nächste Ganzzahl abgerundet wird. Zur Illustration verwenden wir wieder das Zahlenbeispiel aus dem vorangegangenen Abschnitt. Gesucht ist der Quantilswert für p = 0 . 5, der auch als Median oder Zentralwert bezeichnet wird. Mit der ersten Definition finden wir den Wert 4, denn F (2) = 3 / 8 < 0 . 5 und F (4) = 6 / 8 ≥ 0 . 5. Mit der zweiten Definition finden wir n p = 8 · 0 . 5 = 4, und somit hat der Median ebenfalls den Wert x 4 = 4. Wenn die Verteilungsfunktion eine Treppenfunktion ist, wie in diesem Beispiel, ist auch die Quantilsfunktion eine Treppenfunktion. <?page no="49"?> 3.3 Maßzahlen 49 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 15 p Q(p) (a) Zahlenbeispiel 0.0 0.2 0.4 0.6 0.8 1.0 0 2 4 6 8 10 p Q(p) (b) Einkommen Abbildung 3.3: Quantilsfunktion Zahlenbeispiel und Quantilsfunktion der Einkommen. Das wird in der linken Hälfte von Abbildung 3.3 illustriert. Anders verhält es sich, wenn die Verteilungsfunktion stetig und streng monoton steigend ist. In diesem Fall kann man die Quantilsfunktion als Umkehrfunktion der Verteilungsfunktion definieren. Zur Illustration verwenden wir die im vorangegangenen Abschnitt erläuterte Verteilungsfunktion ˆ F ( x ) für die Einkommensdaten im ALLBUS- File. Die daraus gebildete Quantilsfunktion ˆ Q ( p ) = ˆ F −1 ( p ) wird in der rechten Hälfte von Abbildung 3.3 illustriert. Natürlich könnte man auch in diesem Beispiel die zweite der obigen Definitionen verwenden. Die n = 1234 Einkommenswerte im ALLBUS-File (West), die kleiner als 10 , 000 Euro sind, werden zunächst aufsteigend sortiert. Dann nimmt man den Wert an der mittleren Stelle n p = 1234 · 0 . 5 = 617, der 2 Tsd. Euro beträgt. R-3-3 3.3 Maßzahlen Maßzahlen dienen der Charakterisierung von Häufigkeitsverteilungen. Die Kenntnis einiger wichtiger Maßzahlen erlaubt es, auch ohne graphische Darstellung, eine Vorstellung der Verteilung zu erlangen. Wir betrachten im Folgenden Maßzahlen des Niveaus, der Streuung, der Schiefe und der Wölbung. Denken wir an die Einkommen, dann sollen diese Maßzahlen einen Eindruck davon vermitteln, wie hoch die Einkommen sind (Niveau), wie unterschiedlich die Einkommen sind (Streuung), wie asymmetrisch die Einkommens- <?page no="50"?> 50 3 Charakterisierungen von Häufigkeitsverteilungen verteilung ist (Schiefe), und ob sich bei starker Konzentration der Werte im Zentrum der Verteilung nach oben und unten sehr große Abweichungen finden (Wölbung). Wie bisher beziehen wir uns auf eine Variable X mit Werten x 1 , . . . , x n für n Einheiten. 3.3.1 Lagemaße Der Modus (dichtester Wert) ist bei einem diskreten Merkmal der am häufigsten vorkommende Wert. So finden wir z.B. für das Alter der Personen in Westdeutschland in unserem Beispieldatensatz, dass das Alter 51 am häufigsten vorkommt. Bei stetigem Merkmal bezeichnet der Modus die Stelle der höchsten Dichte. Mit Hilfe eines Histogramms kann näherungsweise die Mitte der Klasse mit der höchsten Dichte als Wert für den Modus gewählt werden. Alternativ kann bei Verwendung einer geschätzten Kerndichte die Stelle mit der höchsten Dichte gewählt werden. Offenkundig hängt der genaue numerische Wert somit von der Wahl der Klassengrenzen bzw. der Wahl der Kernfunktion und der Bandweite ab. Die Ermittlung des dichtesten Wertes mit Hilfe einer Kerndichteschätzung wurde bereits in Abschnitt 2.2.6 besprochen. Der Zentralwert (Median) wurde bereits im vorigen Abschnitt erläutert. In diesem Abschnitt werden nur das arithmetische Mittel, das geometrische Mittel und das harmonische Mittel betrachtet, jeweils in der ungewichteten und der gewichteten Form. Arithmetisches Mittel Das arithmetische Mittel in der ungewichteten Form wird folgendermaßen definiert: ¯ x = 1 n n ∑ i=1 x i . Mit dem Zahlenbeispiel aus Abschnitt 3.1 findet man ¯ x = 1 8 (1 + 2 + 2 + 4 + 4 + 4 + 7 + 16) = 5 . In der gewichteten Form verwendet man die vorkommenden Merkmalswerte ˜ x j ( j = 1 , . . . , J ) und ihre Häufigkeiten f j = P( X = ˜ x j ); die Definition lautet dann <?page no="51"?> 3.3 Maßzahlen 51 ¯ x = J ∑ j=1 ˜ x j f j . Mit dem Zahlenbeispiel findet man den gleichen Wert ¯ x = 1 · 1 / 8 + 2 · 2 / 8 + 4 · 3 / 8 + 7 · 1 / 8 + 16 · 1 / 8 = 5 . Das arithmetische Mittel, auch Durchschnitt genannt, ist der gebräuchlichste Mittelwert. Es kann einen Wert annehmen, der in den Daten nicht vorkommt (z. B. wenn man im obigen Beispiel einen Wert x 9 = 1 hinzufügt). Zudem hängt es sehr stark von extremen Merkmalswerten (sog. Ausreißern) ab. Zum Beispiel findet man für die n = 1238 Personen im ALLBUS-File (West) das Durchschnittseinkommen 2284 . 65 Euro. Würde eine weitere Person mit einem Einkommen von einer Milliarde Euro hinzukommen, würde das Durchschnittseinkommen 809 , 385 . 31 Euro betragen. R-3-4 Andererseits hat das arithmetische Mittel jedoch zwei Eigenschaften, die in vielen Zusammenhängen sehr nützlich sind. Zunächst die sog. Nulleigenschaft : 1 n n ∑ i=1 ( x i − ¯ x ) = 0 . Dies bedeutet, dass die Summe der Abstände aller Werte vom arithmetischen Mittel 0 ist. Das arithmetische Mittel besitzt zudem die Minimumeigenschaft : Die Summe der quadrierten Abstände aller Werte vom arithmetischen Mittel ist kleiner als von jedem anderen Wert. Das sieht man, indem man die Funktion S ( a ) = n ∑ i=1 ( x i − a ) 2 betrachtet. Um ihr Minimum zu bestimmen, wird die Ableitung nach a , also ∂S ( a ) ∂a = 2 n ∑ i=1 ( x i − a )( − 1) verwendet. Sie nimmt den Wert 0 gerade dann an, wenn man für a den Mittelwert ¯ x einsetzt. <?page no="52"?> 52 3 Charakterisierungen von Häufigkeitsverteilungen Harmonisches Mittel Das harmonische Mittel wird durch ¯ x H = 1 1 n n ∑ i=1 1 x i = 1 J ∑ j=1 1 ˜ x j f j definiert (zunächst in der ungewichteten, dann in der mit Häufigkeiten gewichteten Form). Es ist das reziproke arithmetische Mittel der reziproken Merkmalswerte. In unserem Zahlenbeispiel finden wir ¯ x H = 1 1 8 ( 1 1 + 1 2 + 1 2 + 1 4 + 1 4 + 1 4 + 1 7 + 1 16 ) = 2 . 7069 . Für die n = 1238 Einkommenswerte im ALLBUS-File (West) findet man ¯ x H = 1553 . 68 Euro. R-3-5 Das harmonische Mittel wird meist nur als vereinfachtes Rechenprogramm für das arithmetische Mittel verwendet, wenn die Gewichte aus dem Zähler der Merkmalsausprägung stammen (z. B. Geschwindigkeit mit der Dimension km/ h und Gewichte in km). Ein anschauliches Beispiel: Sie radeln einen Berg 5 km lang mit 10 km/ h hinauf und 5 km lang mit 40 km/ h hinunter. Ihre Durchschnittsgeschwindigkeit beträgt dann nur 16 km/ h, da 10 1 10 · 5 + 1 40 · 5 = 10 · 30 37 . 5 + 40 · 7 . 5 37 . 5 = 16 . Sie fahren daher 80 % der Zeit (d.h. 30 der insgesamt 37 . 5 Minuten) bergauf. Geometrisches Mittel Das geometrische Mittel ¯ x G = ( n ∏ i=1 x i ) 1 n = J ∏ j=1 ˜ x f j j wird verwendet, wenn es sich um multiplikative Verknüpfungen , z. B. relatives Wachstum handelt. Zum Beispiel wird das geometrische Mittel oft zur Berechnung mittlerer Veränderungsraten <?page no="53"?> 3.3 Maßzahlen 53 verwendet. Hier ist darauf zu achten, dass Vervielfachungskoeffizienten als x -Werte in die Rechenvorschrift eingehen müssen. Nehmen wir an, eine Bankeinlage verzinst sich drei Jahre lang mit 1 % und zwei Jahre lang mit 3 %. Dann zeigt ¯ x G = (1 . 01 · 1 . 01 · 1 . 01 · 1 . 03 · 1 . 03) 1 5 = 1 . 01 3 5 · 1 . 03 2 5 = 1 . 018 , dass die Verzinsung im Mittel über die 5 Jahre 1 . 8 % beträgt. 3.3.2 Streuungsmaße Streuungsmaße sollen darüber Auskunft geben, in welchem Ausmaß sich die Werte einer Variablen unterscheiden, bzw. von einem Mittelwert der Variablen abweichen. Quartilsabstand Als Streuungsmaß zum Zentralwert (Median) wird üblicherweise der Quartilsabstand QA verwendet, der die Differenz zwischen dem 0 . 75-Quantil (3. Quartil) und dem 0 . 25-Quantil (1. Quartil) angibt. In unserem Zahlenbeispiel findet man für die acht x i -Werte: QA = 4 − 2 = 2. Für die n = 1238 Einkommenswerte im ALLBUS- File (West) findet man QA = 2875 − 1313 = 1562 Euro . D.h. in einem Einkommensintervall der Breite 1562 Euro befinden sich die mittleren 50 % der Einkommenswerte. R-3-6 Mittlere absolute Abweichung Die mittlere absolute Abweichung wird durch MA = 1 n n ∑ i=1 |x i − ¯ x| definiert. Bei dieser Definition werden die Abweichungen vom arithmetischen Mittel verwendet. Stattdessen können auch Abweichungen vom Zentralwert (Median) verwendet werden. Für unser Zahlenbeispiel mit dem Zentralwert 4 findet man dann: MA = 2 . 75. R-3-7 <?page no="54"?> 54 3 Charakterisierungen von Häufigkeitsverteilungen Varianz und Standardabweichung Die zwei gebräuchlichsten Streuungsmaße sind die Standardabweichung und deren Quadrat, die Varianz . Die Varianz ist der Mittelwert der quadrierten Abweichungen der x i -Werte vom arithmetischen Mittel σ 2 = 1 n n ∑ i=1 ( x i − ¯ x ) 2 = J ∑ j=1 (˜ x j − ¯ x ) 2 f j . Wird die Variable X additiv um eine Konstante verändert, bleibt ihre Varianz unverändert 1 n n ∑ i=1 (( x i + a ) − (¯ x + a )) 2 = σ 2 . Wird die Variablen X mit einer Konstanten multipliziert, verändert sich die Varianz um den quadrierten Wert der Konstanten 1 n n ∑ i=1 ( ax i − a ¯ x ) 2 = a 2 σ 2 . Die folgende Umformung (der sog. Verschiebungssatz ) ist für die Berechnung hilfreich σ 2 = 1 n n ∑ i=1 x 2 i − ¯ x 2 Für unser Zahlenbeispiel mit ¯ x = 5 finden wir σ 2 = 362 8 − 25 = 45 . 25 − 25 = 20 . 25 . Die Standardabweichung ist die Quadratwurzel der Varianz σ = √ σ 2 . Für das Zahlenbeispiel finden wir σ = √ 20 . 25 = 4 . 5. Für die n = 1238 Einkommenswerte im ALLBUS-File (West) findet man die Standardabweichung σ = 1462 . 06 Euro. R-3-8 <?page no="55"?> 3.3 Maßzahlen 55 -3 -2 -1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 x Dichte Abbildung 3.4: Veranschaulichung der Standardabweichung bei der Standardnormalverteilung Der deskriptive Gehalt der Standardabweichung ist gering. Eine besondere Bedeutung hat die Standardabweichung bei symmetrischen Verteilungen, insbesondere bei der Normalverteilung. In Abbildung 3.4 ist die Standardnormalverteilung dargestellt. Der zentrale Bereich der Verteilung (grau hevorgehoben) mit einer Breite von zwei Standardabweichungen hat eine Fläche von 68.27 %. 3.3.3 Schiefe- und Wölbungsmaße Schiefemaße und Wölbungsmaße sollen neben den Lage- und Streuungsmaßen in komprimierter Weise Auskunft über die Gestalt der Häufigkeitsverteilung geben. Je stärker eine Verteilung von einer symmetrischen Verteilung abweicht, desto deutlicher sollte sich dies in den Schiefemaßen widerspiegeln. Wölbungsmaße sollen darüber Auskunft geben, ob eine Verteilung eher flach ( platykurtisch ) oder eher steil aufgewölbt ist ( leptokurtisch ). Die gebräuchlichen Schiefe- und Wölbungsmaße beruhen auf Zentralmomenten. Das k -te Zentralmoment µ k = 1 n n ∑ i=1 ( x i − ¯ x ) k <?page no="56"?> 56 3 Charakterisierungen von Häufigkeitsverteilungen ist definiert als Mittelwert der zur k -ten Potenz erhobenen Abweichungen vom Mittelwert. Mit der Varianz ( σ 2 ) haben wir das zweite Zentralmoment bereits kennengelernt, d.h. σ 2 = µ 2 . Als Schiefemaß zum arithmetischen Mittel wird oft das Verhältnis von drittem Zentralmoment zur Standardabweichung in der dritten Potenz verwendet (skewness). Beim Zentralmoment bleibt durch Bildung der dritten Potenz zum einen das Vorzeichen der Abweichungen erhalten, zum anderen erhalten wenige große Abweichungen gegenüber vielen kleinen ein höheres Gewicht. Dies führt dazu, dass bei einer linkssteilen bzw. rechtsflachen Verteilung auch rechtsschiefe Verteilung genannt die positiven Summanden überwiegen und entsprechend ein positiver Wert des Schiefemaßes resultiert. Weil das dritte Zentralmoment ins Verhältnis zur dritten Potenz der Standardabweichung gesetzt wird, erfolgt eine Relativierung der Schiefe bezüglich der Streuung der Variable X . Somit ist die Maßzahl streuungsunabhängig und dadurch leichter zu interpretieren. Das Schiefemaß lässt sich folgendermaßen berechnen µ 3 σ 3 = 1 n n ∑ i=1 ( x i − ¯ x σ ) 3 = 1 n n ∑ i=1 ( x i − ¯ x ) 3 (√ 1 n n ∑ i=1 ( x i − ¯ x ) 2 ) 3 . Für unser kleines Zahlenbeispiel mit 8 Werten und ¯ x = 5 finden wir für das dritte Zentralmoment µ 3 µ 3 = 1 8 ( (1 − 5) 3 + (2 − 5) 3 + (2 − 5) 3 + (4 − 5) 3 +(4 − 5) 3 + (4 − 5) 3 + (7 − 5) 3 + (16 − 5) 3 ) = 1218 8 = 152 . 25 . Und damit unter Verwendung der bereits berechneten Standardabweichung ( σ = 4 . 5) µ 3 σ 3 = 152 . 25 4 . 5 3 = 152 . 25 91 . 125 = 1 . 6708 . Für unsere n = 1238 Einkommenswerte finden wir µ 3 / σ 3 = 2 . 65 Euro. Da das Schiefemaß in beiden Fällen positiv ist, deutet dies jeweils auf eine rechtsschiefe Verteilung hin. Offenkundig liegen rechts vom arithmetischen Mittel besonders große Abweichungen. <?page no="57"?> 3.3 Maßzahlen 57 (a) linkssteil (b) symmetrisch (c) rechtssteil Abbildung 3.5: Verteilungen: Symmetrie und Schiefe. Ein negativer Wert würde darauf hindeuten, dass links vom arithmetischen Mittel große Abweichungen liegen und es sich um eine linksschiefe Verteilung handelt. Da das Schiefemaß nicht auf einen Wertebereich normiert ist, ist eine genaue Aussage über den Grad der Schiefe schwierig. R-3-9 Auch die Abfolge der drei Lagemaße Modus ( ˜ x M ), Zentralwert ( ˜ x 0.5 ) und arithmetisches Mittel ( ¯ x ) gibt einen Hinweis auf die vorliegende Schiefe. Bei rechtsschiefen Verteilungen findet man üblicherweise ˜ x M < ˜ x 0.5 < ¯ x . Grafik 3.5 zeigt eine linkssteile (rechtsschiefe), eine symmetrische und eine rechtssteile (linksschiefe) Verteilung. Die Kurtosis µ 4 σ 4 − 3 = 1 n n ∑ i=1 ( x i − ¯ x σ ) 4 − 3 = 1 n n ∑ i=1 ( x i − ¯ x ) 4 (√ 1 n n ∑ i=1 ( x i − ¯ x ) 2 ) 4 − 3 stellt ein Maß der Wölbung der Verteilung dar, das auf dem vierten Zentralmoment beruht. Durch die vierte Potenz erhalten wenige große Abweichungen ein deutlich stärkeres Gewicht als viele kleinere Abweichungen. Entsprechend deutet eine hohe Kurtosis auf eine steil aufgewölbte Verteilung hin. Mit der Division durch die vierte Potenz der Standardabweichung erfolgt eine Bereinigung um die Streuung der X -Werte. Um die Interpretation zu erleichtern, wird in der Definition der Kurtosis die Wölbung der Verteilung mit der Wölbung der Normalverteilung verglichen. Für die Normalverteilung hat der Quotient <?page no="58"?> 58 3 Charakterisierungen von Häufigkeitsverteilungen (a) gering (b) normal (c) stark Abbildung 3.6: Verteilungen: Wölbung. µ 4 / σ 4 den Wert 3. Ein positiver Wert der Kurtosis deutet auf eine im Vergleich zur Normalverteilung steiler aufgewölbte Verteilung hin. Ist die Kurtosis positiv, heißt die Verteilung leptokurtisch , bei einer negativen Kurtosis platykurtisch und bei einer Kurtosis von (ungefähr) 0 mesokurtisch . Lediglich bei annähernd symmetrischen Verteilungen ist die Kurtosis aussagekräftig. Wir haben für unsere 8 Beispielswerte als auch für die Einkommensdaten mit Hilfe des Schiefemaßes eine Rechtsschiefe diagnostiziert. Daher sind die Ergebnisse für das Wölbungsmaß nur sehr eingeschränkt interpretierbar. Der Vollständigkeit halber präsentieren wir beide Ergebnisse des Wölbungsmaßes. Für unser kleines Zahlenbeispiel mit 8 Werten und ¯ x = 5 finden wir für das vierte Zentralmoment µ 4 = 1 8 ( (1 − 5) 4 + (2 − 5) 4 + (2 − 5) 4 + (4 − 5) 4 +(4 − 5) 4 + (4 − 5) 4 + (7 − 5) 4 + (16 − 5) 4 ) = 15 , 078 8 = 1884 . 75 . Und damit finden wir unter Verwendung der bereits berechneten Standardabweichung ( σ = 4 . 5) µ 3 σ 3 − 3 = 1884 . 75 4 . 5 4 − 3 = 4 . 5963 − 3 = 1 . 5963 . Grafik 3.6 zeigt eine platykurtische (gering aufgewölbte), eine mesokurtische (normal aufgewölbte) und eine leptokurtische (stark aufgewölbte) Verteilung. Für unsere n = 1238 Einkommenswerte finden wir µ 4 / σ 4 − 3 = 15 . 45 Euro. R-3-10 <?page no="59"?> 3.4 Approximationen mit klassierten Daten 59 3.4 Approximationen mit klassierten Daten Liegen keine Einzeldaten vor, sondern lediglich klassierte Daten , können Maßzahlen zur Beschreibung der Häufigkeitsverteilung nur noch approximativ berechnet werden. Im Folgenden betrachten wir Approximationen für den Zentralwert, das arithmetische Mittel und die Standardabweichung. Als Beispiel betrachten wir klassierte Daten der Einkommensverteilung (in 1,000 Euro) von 540 Frauen in Westdeutschland (v.: von, b. u.: bis unter). R-3-11 Klasse v. b. u. abs. Häuf. rel. Häuf. kum.r.H. Dichte ˜ x ∗ 1 0.0 1.0 124 0.230 0.230 0.22963 ˜ x ∗ 2 1.0 1.5 136 0.252 0.481 0.50370 ˜ x ∗ 3 1.5 2.0 114 0.211 0.693 0.42222 ˜ x ∗ 4 2.0 3.0 107 0.198 0.891 0.19815 ˜ x ∗ 5 3.0 5.0 53 0.098 0.989 0.04907 ˜ x ∗ 6 5.0 9.0 6 0.011 1.000 0.00278 3.4.1 Approximation des Modus Der Modus (auch dichtester oder Modalwert genannt) ist die Merkmalsausprägung, bei der die Häufigkeitsfunktion ihr Maximum hat. Bei einem Histogramm wird allen Ausprägungen innerhalb eines Intervalls die gleiche Häufigkeit zugeordnet, so dass der Modus nicht genau bestimmt werden kann. Als pragmatische Lösung kann vereinfacht die Mitte der Klasse mit der höchsten Dichte als Approximation für den Modus verwendet werden. Zu beachten ist, dass bei Klassen unterschiedlicher Breite nicht die relativen Häufigkeiten, sondern die Dichten, d.h. die durch die Intervallbreiten dividierten Häufigkeiten zu verwenden sind. Im Beispiel der oben angegebenen klassierten Einkommensdaten mit 6 Klassen hat die Klasse ˜ x 2 die höchste Dichte (0 . 5037). Die Klassenmitte 1 . 25 (Tsd. Euro) wäre dann eine mögliche Approximation für den Modus. R-3-12 3.4.2 Approximation des Zentralwerts Ausgangspunkt ist die Bestimmung der Klasse, in der die kumulierte relative Häufigkeit den Wert 0 . 5 erreicht. In den klassierten Einkommensdaten ist dies die dritte Klasse (siehe Abbildung 3.7). <?page no="60"?> 60 3 Charakterisierungen von Häufigkeitsverteilungen Einkommen in 1,000 Euro kum. rel. Häufigk. 0 1 2 3 5 9 0 0.1 0.3 0.5 0.7 0.9 1 Abbildung 3.7: Relative Häufigkeiten der Einkommen. Um die Approximation an einer Stelle x zu berechnen, muss zunächst die Klasse bestimmt werden, in der x enthalten ist. Zur Bezeichnung der unteren und oberen Klassengrenze dieser Klasse verwenden wir x u bzw. x o . Der Wert der Verteilungsfunktion F ( x ) an der Stelle x , wobei x u ≤ x < x o ist, kann linear approximiert werden durch F ( x ) ≈ F ( x u ) + ( x − x u ) F ( x o ) − F ( x u ) x o − x u . Daraus gewinnt man: x ≈ x u + x o − x u F ( x o ) − F ( x u ) ( F ( x ) − F ( x u )) . Wählen wir als zu bestimmende Stelle den Zentralwert ˜ x 0.5 , dann gilt F ( x ) = F ( ˜ x 0.5 ) = 0 . 5. Setzen wir dies ein, erhalten wir die folgende lineare Approximation für den Zentralwert: ˜ x 0.5 ≈ x u + x o − x u F ( x o ) − F ( x u ) ( F (˜ x 0.5 ) − F ( x u )) . <?page no="61"?> 3.4 Approximationen mit klassierten Daten 61 Für das Beispiel der klassierten Einkommensdaten erhalten wir als Approximation des Zentralwerts 1 . 5 + 2 − 1 . 5 0 . 693 − 0 . 481 (0 . 5 − 0 . 481) = 1 . 544 . Mit den nicht klassierten Daten ergibt sich mit 1 . 5 Tsd. Euro ein geringfügig niedrigerer Wert. R-3-13 3.4.3 Approximation des arithmetischen Mittels Sind die einzelnen Einkommenswerte nicht bekannt, können die Klassenmitten als Approximationen für die Klassenmittelwerte angenommen werden. Der Näherungswert für das arithmetische Mittel resultiert dann aus einem gewichteten Mittelwert dieser Klassenmitten (˜ x ∗,m j ) ¯ x ≈ J ∑ j=1 ˜ x ∗,m j · f j . Für die Einkommen der Frauen resultiert als Näherung des arithmetischen Mittels der Wert ¯ x ≈ 0 . 5 · 0 . 23 + 1 . 25 · 0 . 252 + 1 . 75 · 0 . 211 + 2 . 5 · 0 . 198 + 4 · 0 . 098 + 7 · 0 . 011 = 1 . 765 . Mit den nicht klassierten Daten ergibt sich mit 1 . 686 Tsd. Euro ein etwas geringerer Wert. 1 R-3-14 3.4.4 Approximation der Standardabweichung Für eine Approximation der Standardabweichung kann ebenfalls mit der Annahme gearbeitet werden, dass alle Werte einer Klasse der Klassenmitte entsprechen. Die Streuung in den Klassen ist dann 1 Wenn die exakten Klassenmittel bekannt sind, ist die exakte Berechnung auch ausgehend von klassierten Daten möglich: ¯ x = J ∑ j=1 ¯ x j · f j . <?page no="62"?> 62 3 Charakterisierungen von Häufigkeitsverteilungen 0, und es wird lediglich die Streuung zwischen den Klassen, d.h. die Streuung der Klassenmitten um das approximative Gesamtmittel ¯ x ∗ , berücksichtigt. Für die Einkommen der Frauen resultiert folgende Approximation (in Tsd. Euro): σ ≈ (0 . 5 − 1 . 765) 2 · 0 . 23 + (1 . 25 − 1 . 765) 2 · 0 . 252 + (1 . 75 − 1 . 765) 2 · 0 . 211 + (2 . 5 − 1 . 765) 2 · 0 . 198 + (4 − 1 . 765) 2 · 0 . 098 + (7 − 1 . 765) 2 · 0 . 011 = 1 . 156 . Obwohl die Streuung in den Klassen unberücksichtigt bleibt, wird die Standardabweichung leicht überschätzt ( σ = 0 . 986). Dies liegt daran, dass tatsächlich die individuellen Werte etwas näher an den dem arithmetischen Mittel näherliegenden Klassengrenzen liegen. R-3-15 <?page no="63"?> 3.5 Aufgaben 63 3.5 Aufgaben 1. Berechnen Sie für die Werte x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 1 3 3 3 4 4 5 7 folgende Maßzahlen: a) Modus (dichtester Wert), b) Zentralwert, c) arithmetisches Mittel, in ungewichteter und gewichteter Form, d) harmonisches Mittel, in ungewichteter und gewichteter Form, e) geometrisches Mittel, in ungewichteter und gewichteter Form, f) Varianz, in ungewichteter und gewichteter Form, g) Standardabweichung, h) mittlere absolute Abweichung vom arithm. Mittel, i) Schiefe, j) Wölbung. k) Wie vermuten Sie, würden sich die von Ihnen berechneten Maßzahlen verändern, wenn x 8 den Wert 27 hätte? l) Berechnen Sie a) j) noch einmal mit x 8 = 27. <?page no="64"?> 64 3 Charakterisierungen von Häufigkeitsverteilungen 2. Sie sind leidenschaftliche(r) Jogger(in) und stellen ein paar Berechnungen an: a) Nach einer halben Stunde mit einer Geschwindigkeit von 9 km/ h haben Sie die letzten 20 Minuten Ihre Geschwindigkeit auf 12 km/ h erhöht. Wie schnell sind Sie im Durchschnitt gelaufen? b) Eine andere Joggingstrecke schließt in dem mittleren Abschnitt recht hügeliges Gelände ein. Daher sind Sie die ersten 3 und die letzten 2 Kilometer mit einer Geschwindigkeit von 11 km/ h gelaufen, auf den mittleren 5 Kilometern jedoch nur 9 km/ h. Wie schnell sind Sie im Mittel gelaufen? c) Dank des kontinuierlichen Trainings haben Sie die für Ihre Joggingstrecke benötigte Zeit in den letzten drei Jahren um 12 %, 9 % und 4 % senken können. Wie hoch war Ihre mittlere jährliche prozentuale Verbesserung? 3. Die folgende Tabelle enthält die Häufigkeiten der ALLBUS- Einkommen (West) für 12 Einkommensklassen unterschiedlicher Klassenbreite (v.: von, b. u.: bis unter). Klasse v. b. u. rel. Häuf. Klasse v. b. u. rel. Häuf. ˜ x ∗ 1 0.0 0.5 0.018 ˜ x ∗ 7 3.0 4.0 0.132 ˜ x ∗ 2 0.5 1.0 0.115 ˜ x ∗ 8 4.0 5.0 0.047 ˜ x ∗ 3 1.0 1.5 0.148 ˜ x ∗ 9 5.0 7.0 0.040 ˜ x ∗ 4 1.5 2.0 0.184 ˜ x ∗ 10 7.0 10.0 0.011 ˜ x ∗ 5 2.0 2.5 0.183 ˜ x ∗ 11 10.0 15.0 0.002 ˜ x ∗ 6 2.5 3.0 0.119 ˜ x ∗ 12 15.0 20.0 0.001 a) Ermitteln Sie für die Einkommensklassen die kumulierten relativen Häufigkeiten. b) Bestimmen Sie die modale Klasse und einen Näherungswert für den Modus (dichtesten Wert). c) Bestimmen Sie die Einfallsklasse des Zentralwertes ( ˜ x 0.5 ) und einen Näherungswert für den Zentralwert. <?page no="65"?> 3.5 Aufgaben 65 d) Bestimmen Sie einen Näherungswert für das arithmetische Mittel. e) Vergleichen Sie die Lage dieser drei Mittelwerte. Weist die Lage der Mittelwerte auf eine links- oder rechtsschiefe Verteilung hin? f) Ermitteln Sie näherungsweise den totalen Quartilsabstand. g) Ermitteln Sie näherungsweise die Standardabweichung. h) Dürften Sie mit Ihrer Schätzung die wahre Standardabweichung über- oder unterschätzt haben? Tatsächlich wird die Standardabweichung ausgehend von den klassierten Daten leicht überschätzt. Haben Sie dafür eine Erklärung? <?page no="66"?> 66 3 Charakterisierungen von Häufigkeitsverteilungen 3.6 R-Code R-3-1 # Vektor x mit Merkmalswerten erstellen x <c(1,2,2,4,4,4,7,16) n.x <length(x) # relative Häufigkeiten f.x <table(x) / n.x f.x plot(f.x) # Verteilungsfunktion F.x <cumsum(x = f.x) F.x Fun.x <ecdf(x = x) plot(Fun.x) R-3-2 ## Daten einlesen (West) d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) d <d[d$ostwest==0,] ## Nur Einkommen < 10000 Euro in Tsd. Euro w <sort(d$einkommen[d$einkommen < 10000] / 1000) # relative Häufigkeiten (Darstellung über Kerndichte) dens <density(w) kdens <cumsum(dens$y)/ sum(dens$y) plot(dens, xlab = "Einkommen in 1000 Euro", ylab = "Dichte") # Verteilungsfunktion plot(dens$x,kdens, xlab = "Einkommen in 1000 Euro", ylab = "F(x)", type = "l") R-3-3 ## Quantilsfunktion Zahlenbeispiel # ma: Vektor der sortierten Merkmalsausprägungen ma.x <as.numeric(names(f.x)) Q.x <stepfun(x = Fun.x(ma.x), y = c(ma.x,20), right = TRUE) plot(Q.x, bty = "l", xlim = c(0,1), ylim = c(0,16.5), xlab = "p", ylab = "Q(p)", verticals = FALSE) ## Quantilsfunktion der Einkommen plot(kdens,dens$x, main="", bty="l", xlim = c(0,1), ylim = c(0,10), xlab = "p", ylab = "Q(p)", type="l") <?page no="67"?> 3.6 R-Code 67 ## Median # durch 'type = 1' korrespondierend zur Rechenvorschrift quantile(x = w, probs = 0.5, type = 1) # mittels Index n.w <length(w) n.w np <n.w * 0.5 # Einkommen an Stelle np w[np] R-3-4 # Mittelwert aller Einkommen mean(e) # um eine Person mit einem Einkommen von 1 Mrd. erweitert mean(c(e, 10^9)) R-3-5 # Harmonisches Mittel aller Einkommen 1 / mean(1/ e) R-3-6 # Quartilsabstand Zahlenbeispiel IQR(x, type = 1) # Quartilsabstand 1238 Einkommen IQR(e, type = 1) # oder quantile(x = e, probs = 0.75, type = 1) quantile(x = e, probs = 0.25, type = 1) R-3-7 # Mittlere absolute Abweichung mean(abs(x-quantile(x = x, probs = 0.5, type = 1))) R-3-8 ## Zahlenbeispiel # empirische Varianz var.x.emp <- 1/ n.x * sum( (x mean(x))^2 ) var.x.emp # Standardabweichung sa.x.emp <sqrt(var.x.emp) sa.x.emp ## Merke: R berechnet mit der Funktion var() die Stichprobenvarianz var(x) # diese kann wieder in die empirische Varianz umgerechnet werden (n.x-1)/ n.x * var(x) # analog die Standardabweichung sqrt((n.x-1)/ n.x) * sd(x) <?page no="68"?> 68 3 Charakterisierungen von Häufigkeitsverteilungen ## Empirische Varianz und Standardabweichung der Einkommen n.e <length(e) var.e.emp <- (n.e-1)/ n.e * var(e); var.e.emp sa.e.emp <sqrt(var.e.emp); sa.e.emp R-3-9 ## Schiefe # Zahlenbeispiel (1/ n.x * sum( (x-mean(x))^3 )) / sqrt( 1/ n.x * sum( (x mean(x))^2 ))^3 # Einkommen (1/ n.e * sum( (e-mean(e))^3 )) / sqrt( 1/ n.e * sum( (e mean(e))^2 ))^3 R-3-10 ## Kurtosis # Zahlenbeispiel (1/ n.x * sum( (x-mean(x))^4 )) / sqrt( 1/ n.x * sum( (x mean(x))^2 ))^4 - 3 # Einkommen (1/ n.e * sum( (e-mean(e))^4 )) / sqrt( 1/ n.e * sum( (e mean(e))^2 ))^4 - 3 R-3-11 # Einkommen von Frauen in Tsd. Euro ef <d$einkommen[d$geschlecht == 1] / 1000 # Einkommen sortieren und Objekt ef überschreiben ef <sort(ef, decreasing = FALSE) # Anzahl an Einkommenn n.ef <length(ef) # Klassengrenzen hist(ef) breaks <c(0,1,1.5,2,3,5,9) # Anzahl an Grenzen b <length(breaks) # Beobachtungen (Einkommen) in Klassen einteilen lc <cut(x = ef, breaks = breaks, right = FALSE) # Klassenuntergrenzen cu <breaks[-b] # Klassenobergrenzen co <breaks[-1] # absolute Klassenhäufigkeiten nj <table(lc); nj # relative Klassenhäufigkeiten fj <table(lc) / n.ef; fj <?page no="69"?> 3.6 R-Code 69 # kum.r.H. Fj <cumsum(fj); Fj # Dichten hj <co cu dj <fj / hj; dj R-3-12 ## Approximation des Modus # Klasse mit höchster Dichte dk <which(dj == max(dj)); dk # Klassenmitte als Approximation modus <- (co[dk] + cu[dk]) / 2; modus R-3-13 ## Approximation des Zentralwerts # Abbildung plot(x = breaks, y = c(0,Fj), xlab = "Einkommen in 1000 Euro", ylab = "kum. rel. Häufigk.") lines(x = breaks, y = c(0,Fj)) # Ausgangspunkt: Klasse, in der die kum. rel. Hfg. # den Wert 0.5 erreicht k <which(Fj >= 0.5)[1]; k cu[k] + (co[k] cu[k]) / (Fj[k] - Fj[k-1]) * (0.5 - Fj[k-1]) R-3-14 # Approximation des arithmetischen Mittels mitten <- 0.5 * (cu+co); mitten # approx. Mittel x.approx <sum(mitten * fj); x.approx # mit Individualdaten mean(ef) R-3-15 # Approximation der Standardabweichung sqrt(sum((mitten-x.approx)^2 * fj)) # Standardabweichung aus unklassierten Daten sd(ef) <?page no="71"?> 4 Konzentrationsmessung Haben wenige Einheiten einen hohen Anteil an der gesamten Merkmalssumme, spricht man von einer hohen absoluten Konzentration. Liegt eine sehr ungleiche Verteilung vor, wird dies als relative Konzentration bezeichnet. Während bei der Betrachtung von Unternehmensumsätzen die absolute Konzentration im Vordergrund steht, liegt bei der Einkommensverteilung das Augenmerk auf der relativen Konzentration. 4.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 72 4.2 Maßzahlen der absoluten Konzentration . . . . . . . . . . 72 4.2.1 Die Konzentrationsrate . . . . . . . . . . . . . . . 72 4.2.2 Die Konzentrationskurve . . . . . . . . . . . . . . 73 4.2.3 Der Rosenbluth-Koeffizient . . . . . . . . . . . . . 74 4.2.4 Der Hirschman-Herfindahl-Koeffizient . . . . . . . . 75 4.3 Maßzahlen der relativen Konzentration . . . . . . . . . . . 76 4.3.1 Der Variationskoeffizient . . . . . . . . . . . . . . . 77 4.3.2 Die Lorenzkurve und der Gini-Koeffizient . . . . . . 77 4.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 <?page no="72"?> 72 4 Konzentrationsmessung 4.1 Einleitung Bei der Konzentrationsmessung kann sowohl die absolute als auch die relative Konzentration betrachtet werden. Absolute Konzentration bedeutet, dass wenige Einheiten (z. B. Unternehmen) zusammen einen hohen Anteil an der Merkmalssumme aufweisen. So haben etwa in vielen Branchen wenige Unternehmen einen sehr hohen Anteil an dem Umsatz der gesamten Branche. Bei der relativen Konzentration wird die Ungleichheit der Verteilung, die Disparität, betrachtet. Die Betrachtung der amerikanischen Einkommensdaten hat gezeigt, dass eine große Ungleichheit vorliegt. Eine hohe relative Konzentration liegt vor, wenn ein geringer Anteil der Einheiten (z. B. Personen) einen hohen Anteil an der Merkmalssumme aufweist. Zu beachten ist, dass bei einer Verteilung gleichzeitig eine hohe absolute und eine niedrige relative Konzentration vorliegen kann (und umgekehrt). Die Unternehmenskonzentration wird als ein wesentliches Merkmal der Marktstruktur betrachtet und findet unter wettbewerbspolitischen Aspekten eine besondere Beachtung. Das Ausmaß der relativen Einkommenskonzentration ist insbesondere unter Verteilungsaspekten von Interesse. 4.2 Maßzahlen der absoluten Konzentration Um eine Vorstellung von der Berechnungsmethode und damit der möglichen Interpretation der ausgewiesenen Zahlen zu erhalten, betrachten wir ein fiktives Zahlenbeispiel mit nur fünf Unternehmen, die folgende Umsätze haben: x 1 = 70 , x 2 = 15 , x 3 = 10 , x 4 = 4 , x 5 = 1. Die Merkmalssumme beträgt damit 100 und der mittlere Umsatz je Unternehmen 20 . 4.2.1 Die Konzentrationsrate Die Konzentrationsrate CR ist ein einfaches und sehr anschauliches Maß der absoluten Konzentration. CR i gibt an, wie viel Prozent der gesamten Merkmalssumme die größten i Einheiten haben. Ausgangspunkt sind die absteigend sortierten Merkmalswerte x 1 ≥ x 2 ≥ x 3 ≥ . . . ≥ x n ≥ 0 . <?page no="73"?> 4.2 Maßzahlen der absoluten Konzentration 73 Der Anteil der Einheit r an der Merkmalssumme ∑ n k=1 x k ist h r = x r n ∑ k=1 x k = x r n ¯ x . Auch für die Merkmalsanteile h r gilt die absteigende Sortierung h 1 ≥ h 2 ≥ h 3 ≥ . . . ≥ h n ≥ 0 . Die Konzentrationsrate CR i = i ∑ r=1 h r ist nun einfach die Summe der i größten Merkmalsanteile. Hat eine Einheit die gesamte Merkmalssumme (maximale Konzentration) h 1 = 1 , h 2 = h 3 = . . . = h n = 0 finden wir CR i = 1 für alle i . Haben alle Einheiten den gleichen Merkmalswert (minimale Konzentration) h 1 = h 2 = h 3 = . . . = h n = 1 / n , finden wir CR i = i/ n. Die Konzentrationsrate liegt damit immer im Intervall [ i/ n ; 1] . Für unser Zahlenbeispiel finden wir z. B. die Konzentrationsrate CR 3 = 3 ∑ r=1 h r = 70 100 + 15 100 + 10 100 = 0 . 95 . Für die ALLBUS-Einkommensdaten von n = 1238 Personen finden wir CR 5 = 0 . 021. D.h. die fünf Personen mit den höchsten Einkommen haben 2 . 1 % der gesamten Einkommenssumme aller n = 1238 Personen. R-4-1 4.2.2 Die Konzentrationskurve Die Darstellung der Wertepaare ( i, CR i ) wird als Konzentrationskurve bezeichnet. Zusätzlich zu den n Wertepaaren wird auch der Ursprung (0 , 0) betrachtet und alle Punkte werden mit einer Geraden verbunden. Der letzte Punkt ist ( n, CR n = 1). Für unser kleines Zahlenbeispiel findet man die in Abbildung 4.1 dargestellte Konzentrationskurve. R-4-2 <?page no="74"?> 74 4 Konzentrationsmessung 0 1 2 3 4 5 0.0 0.2 0.4 0.6 0.8 1.0 i CR i A A 2 Abbildung 4.1: Konzentrationskurve - Zahlenbeispiel. 4.2.3 Der Rosenbluth-Koeffizient Bisher haben wir nur einzelne punktuelle Maße, d.h. die einzelnen Konzentrationsraten CR i betrachtet. Der Rosenbluth- Koeffizient ( RK ) knüpft an der Konzentrationskurve an und verdichtet die darin enthaltenen Informationen zu einer Maßzahl. Je weiter aufgewölbt die Konzentrationskurve ist, desto höher ist die Konzentration. Die Fläche A oberhalb der Konzentrationskurve ist damit bereits ein zusammenfassendes Maß der Konzentration, denn je kleiner die Fläche A, desto stärker ist die Konzentration. Der Rosenbluth-Koeffizient ist definiert als RK = 1 / (2 A ) . Die Fläche von A kann ausgehend von den n liegenden Trapezen A i bestimmt werden. Für ein solch liegendes Trapez finden wir die Fläche A i = h i 0 . 5 ( i + ( i − 1)) = h i 0 . 5 (2 i − 1) , da sich die Trapezfläche als Grundseite mal mittlere Höhe ergibt. Für die Fläche des Trapezes A 2 finden wir z. B. A 2 = h 2 0 . 5 (2 + (2 − 1)) = 0 . 15 · 0 . 5 (2 + (2 − 1)) = 0 . 225 . <?page no="75"?> 4.2 Maßzahlen der absoluten Konzentration 75 Die Fläche A ist die Summe der einzelnen Trapezflächen: A = n ∑ i=1 A i = 0 . 5 n ∑ i=1 h i (2 i − 1) = n ∑ i=1 ih i − 0 . 5 . Für das Zahlenbeispiel finden wir A = 1 . 01. Der Rosenbluth- Koeffizient ist definiert als RK = 1 2 A = 1 (2 n ∑ i=1 ih i ) − 1 . Durch Einsetzen ergibt sich RK = 0 . 495. Der Rosenbluth-Koeffizient liegt im Intervall [1 / n ; 1] und nimmt den Wert 1 / n bei minimaler Konzentration und den Wert 1 bei maximaler Konzentration an. Im Falle maximaler Konzentration gilt h 1 = 1 , h 2 = 0 , ..., h n = 0 und damit RK = 1 ( 2 ∑ n i=1 ih i ) − 1 = 1 (2(1 · 1 + 2 · 0 + ... + n · 0)) − 1 = 1 . Im Falle minimaler Konzentration gilt h 1 = 1 / n, h 2 = 1 / n, ..., h n = 1 / n und damit RK = 1 ( 2 ∑ n i=1 ih i ) − 1 = 1 ( 2 1 n ∑ n i=1 i ) − 1 = 1 n . Zu beachten ist, dass die kleinsten Einheiten (kleine h i ) die größten Gewichte (große i ) erhalten. In vielen Unternehmenserhebungen der amtlichen Statistik werden Unternehmen mit weniger als 20 Beschäftigten aus Kosten- und Vereinfachungsgründen nicht erhoben. Auf diese sogenannte Abschneidepraxis reagiert der Rosenbluth- Koeffizient relativ stark. Für die ALLBUS-Einkommensdaten (West) von n = 1238 Personen finden wir RK = 0 . 0012. D.h. trotz der starken Ungleichheit der Einkommen ist die absolute Einkommenskonzentration dem Rosenbluth-Koeffizienten zufolge recht gering. R-4-3 4.2.4 Der Hirschman-Herfindahl-Koeffizient Der Hirschman-Herfindahl-Koeffizient ( HK ) ist definiert als Summe der quadrierten relativen Anteile h i <?page no="76"?> 76 4 Konzentrationsmessung HK = n ∑ i=1 h 2 i und liegt im Intervall [1 / n ; 1] . Im Falle maximaler Konzentration findet man HK = n ∑ i=1 h 2 i = 1 2 + 0 2 + ... + 0 2 = 1 und im Falle minimaler Konzentration HK = n ∑ i=1 h 2 i = n ( 1 n ) 2 = 1 n . Die Sortierung der Anteile ist, anders als beim Rosenbluth-Koeffizienten, nicht relevant. Beim Hirschman-Herfindahl-Koeffizienten erhalten die kleinen Einheiten (kleine h i ) kleine Gewichte, so dass dieser Koeffizient wenig auf die Nichtberücksichtigung kleiner Einheiten reagiert. Für unser Zahlenbeispiel finden wir HK = 0 . 7 2 + 0 . 15 2 + 0 . 1 2 + 0 . 04 2 + 0 . 01 2 = 0 . 5242 . Für die Einkommensdaten finden wir HK = 0 . 0011. Auch dem Hirschman-Herfindahl-Koeffizient zufolge ist die absolute Einkommenskonzentration recht gering. R-4-4 4.3 Maßzahlen der relativen Konzentration Während bei der absoluten Konzentration die Frage im Vordergrund steht, ob eine Zusammenballung eines großen Teils der Merkmalssumme bei einer geringen Anzahl an Einheiten vorliegt, steht bei der relativen Konzentration die Frage nach der Ungleichheit bzw. Disparität im Vordergrund. Auch wenn z. B. die Personen mit den höchsten Einkommen nur einen geringen Teil der gesamten Einkommenssumme auf sich vereinen, kann dennoch eine große Disparität vorliegen. Dies wäre dann der Fall, wenn z. B. das reichste Prozent einen sehr viel höheren Anteil als 1 % an der gesamten Einkommenssumme hat. <?page no="77"?> 4.3 Maßzahlen der relativen Konzentration 77 4.3.1 Der Variationskoeffizient Der Variationskoeffizient ( VK ) ist definiert als Verhältnis der Standardabweichung zum arithmetischen Mittel VK = σ/ ¯ x, wobei ¯ x = 1 n ∑ n i=1 x i und σ = √√ √ √ 1 n n ∑ i=1 ( x i − ¯ x ) 2 = √√ √ √ 1 n n ∑ i=1 x 2 i − ¯ x 2 . Der Variationskoeffizient VK verändert sich bei einer Multiplikation aller Werte mit einer Konstanten c nicht, da sich sowohl die Streuung als auch der Mittelwert um den Faktor c verändern und sich dieser somit herauskürzt. (Somit führt z. B. die Verwendung von Cent oder Euro zum gleichen Ergebnis.) Für unser Zahlenbeispiel findet man für den Variationskoeffizienten: σ = √ 1 5 (70 2 + 15 2 + 10 2 + 4 2 + 1 2 ) − 20 2 = 25 . 464 ¯ x = 20 VK = σ ¯ x = 25 . 464 20 = 1 . 273 . Für unsere Einkommensdaten von n = 1238 Personen finden wir einen Durchschnittslohn von 2284 . 65 Euro und eine Standardabweichung von 1462 . 06 Euro. Als Variationskoeffizient resultiert 0 . 64. R-4-5 Wie auch schon die Standardabweichung für sich betrachtet, ist auch der Variationskoeffizient von geringem deskriptivem Gehalt. 4.3.2 Die Lorenzkurve und der Gini-Koeffizient Berechnung mit klassierten Daten Als Beispiel betrachten wir die Einkommensdaten von n = 1238 Personen des ALLBUS-Datensatzes (West). Die individuellen Löhne werden durch die Variable X erfasst. Für diese Löhne werden jetzt Einkommensklassen ˜ x ∗ 1 , . . . , ˜ x ∗ 5 gebildet (siehe Tabelle 4.1), so <?page no="78"?> 78 4 Konzentrationsmessung Tabelle 4.1: Klassierte Einkommensdaten in 1000 Euro Klasse von bis unter f j F j h j H j ˜ x ∗ 1 0.0 1.5 0.280 0.280 0.119 0.119 ˜ x ∗ 2 1.5 2.5 0.367 0.647 0.310 0.429 ˜ x ∗ 3 2.5 4.0 0.251 0.898 0.329 0.758 ˜ x ∗ 4 4.0 7.5 0.089 0.987 0.190 0.948 ˜ x ∗ 5 7.5 20.0 0.013 1.000 0.053 1.001 dass man anstelle von X eine vergröberte Variable X ∗ betrachten kann, deren Werte die Einkommensklasse angeben, in der sich eine Person befindet; vgl. Tabelle 4.1. f j bezeichnet den Anteil der Personen in der Einkommensklasse ˜ x ∗ j an allen Personen; h j bezeichnet den Anteil an der gesamten Einkommenssumme, der auf die Personen in der Einkommensklasse ˜ x ∗ j entfällt. F j und H j sind die entsprechenden kumulierten Werte. Außerdem wird definiert: f 0 = F 0 = h 0 = H 0 = 0. R-4-6 Für die Darstellung der Lorenzkurve (siehe Graphik 4.2) tragen wir an der Abszisse die fünf sukzessive kumulierten Anteile F j der Größenklassen an allen Personen und an der Ordinate die sukzessive kumulierten Anteile H j an der gesamten Einkommenssumme ab. R-4-7 Ausgehend vom Ursprung (0 , 0) führt die Verbindung dieser fünf Punkte bis zum Punkt (1 , 1) mit Hilfe von Geraden zur Lorenzkurve. Je weiter diese Kurve von der Diagonalen vom Punkt (0 , 0) bis zum Punkt (1 , 1) entfernt liegt (durchhängt), desto größer ist die relative Konzentration bzw. Ungleichheit. Die Fläche zwischen Lorenzkurve und Diagonale ist in der Graphik mit A gekennzeichnet. Setzen wir die Fläche A ins Verhältnis zur Fläche unterhalb der Diagonalen von 0 . 5, erhalten wir ein summarisches Maß der relativen Konzentration, den Gini- Koeffizienten G = A 0 . 5 = 2 A. Folgende Überlegungen führen zur Berechnungsweise des Gini- Koeffizienten: Bezeichnen wir die Fläche unterhalb der Lorenzkurve mit B , gilt A + B = 0 . 5 bzw. A = 0 . 5 −B und damit auch G = 2 A = 1 − 2 B . Die Fläche B setzt sich bei J Größenklassen aus J vertikalen Trapezen B j zusammen, deren Fläche B j = f j 0 . 5( H j−1 + H j ) jeweils als Grundseite mal mittlere Höhe berechnet werden kann. <?page no="79"?> 4.3 Maßzahlen der relativen Konzentration 79 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F j H j A B B 2 Abbildung 4.2: Lorenzkurve und Gini-Koeffizient (Fläche 2A). Z. B. ist die Fläche des in der Graphik mit B 2 markierten Trapezes B 2 = f 2 0 . 5( H 2−1 + H 2 ) = 0 . 367 · 0 . 5(0 . 119 + 0 . 429) = 0 . 101 . Die Gesamtfläche B ist also B = 0 . 5 J ∑ j=1 f j ( H j−1 + H j ) und der Gini-Koeffizient ist G = 1 − 2 B = 1 − J ∑ j=1 f j ( H j−1 + H j ) . Zum Beispiel findet man mit den klassierten Einkommensdaten der Tabelle 4.1 R-4-8 G = 1 − [0 . 28(0 + 0 . 119) + 0 . 367(0 . 119 + 0 . 429) + 0 . 251(0 . 429 + 0 . 758) + 0 . 089(0 . 758 + 0 . 948) + 0 . 013(0 . 948 + 1)] = 0 . 290 . <?page no="80"?> 80 4 Konzentrationsmessung 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F i H i A B B 4 Abbildung 4.3: Lorenzkurve (Fläche B) - Trapeze. Bei diesem Befund ist zudem zu beachten, dass die tatsächliche Konzentration bei der Berechnung ausgehend von klassierten Daten etwas unterschätzt wird. Die Verbindung der punktuellen Informationen an den Grenzen der Klassen mit einer Geraden impliziert die Annahme, dass die Personen in den Klassen alle einen identischen Einkommen haben. Tatsächlich liegt jedoch auch innerhalb der Klassen Ungleichheit vor (die Verbindung zwischen den Punkten würde bei der Verwendung von Einzeldaten ,durchhängen‘), die hier nicht erfasst wird. Berechnung mit Individualdaten Der Gini-Koeffizient kann auch mit Individualdaten berechnet werden. Ausgangspunkt sind in diesem Fall n aufsteigend sortierte Merkmalswerte x 1 , . . . , x n . Jede Einheit i hat einen Anteil f i = 1 / n an der Gesamtheit der n Einheiten und einen Anteil h i = x i / ∑ n j=1 x j an der gesamten Merkmalssumme. Die kumulierten Größen werden wiederum durch F i bzw. H i bezeichnet. Zur Illustration verwenden wir das Zahlenbeispiel mit fünf Unternehmen, die die Umsätze x 1 = 1, x 2 = 4, x 3 = 10, x 4 = 15 und <?page no="81"?> 4.3 Maßzahlen der relativen Konzentration 81 x 5 = 70 haben. Also ist f i = 1 / 5, und die Merkmalsanteile sind h 1 = 0 . 01 , h 2 = 0 . 04 , h 3 = 0 . 1 , h 4 = 0 . 15 , h 5 = 0 . 7 . Wie in der Graphik 4.3 illustriert wird, setzt sich die Fläche B jetzt aus n horizontalen Trapezen B i zusammen, deren untere Länge den Wert ( n − i + 1) / n und deren obere Länge den Wert ( n − i ) / n hat. Die Multiplikation der mittleren Länge mit der Höhe h i führt zur Fläche B i = h i 0 . 5 ( ( n − i + 1) + ( n − i ) n ) = 0 . 5 h i ( 2 n − 2 i + 1 n ) . Z. B. ist in unserem Zahlenbeispiel B 4 = 0 . 045. Schließlich findet man für die Gesamtfläche den Ausdruck B = 0 . 5 n ∑ i=1 h i ( 2 n − 2 i + 1 n ) und der Gini-Koeffizient ist G = 1 − 2 B = n ∑ i=1 h i ( 2 i − n − 1 n ) . In unserem Zahlenbeispiel beträgt der Wert G = 0 . 596. Mit der gleichen Methode finden wir für die amerikanischen Einkommensdaten den Gini-Koeffizienten G = 0 . 315. Der Wert liegt etwas über dem Wert 0 . 290, den wir auf Basis der klassierten Daten ermittelt hatten. R-4-9 Überlegen wir schließlich noch, wie die beiden Extremfälle maximaler und minimaler relativer Konzentration aussehen. Maximale Konzentration liegt dann vor, wenn eine Einheit die gesamte Merkmalssumme auf sich vereinigt, so dass h 1 = . . . = h n−1 = 0 und h n = 1. Durch Einsetzen in die Formel findet man G = 1 − 1 / n als maximalen Wert für den Gini-Koeffizienten. Dagegen liegt eine minimale Konzentration dann vor, wenn alle n Einheiten den gleichen Merkmalswert haben: x 1 = . . . = x n , so dass h i = H/ n gilt. Durch Einsetzen in die Formel findet man dann G = 0 als minimalen Wert für den Gini-Koeffizienten. Die Graphik 4.4 illustriert diese beiden Extremfälle. <?page no="82"?> 82 4 Konzentrationsmessung 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F i H i (a) maximale Konz. 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F i H i (b) minimale Konz. Abbildung 4.4: Konzentration - Extremfälle. <?page no="83"?> 4.4 Aufgaben 83 4.4 Aufgaben 1. Absolute Konzentration. Ihnen liegen die Umsätze (Tsd. e ) von allen vier Unternehmen einer Branche vor: x 1 = 20 , x 2 = 10 , x 3 = 7 , x 4 = 3. a) Wie hoch ist der Umsatz in der betrachteten Branche insgesamt? b) Wie hoch ist der Anteil des größten, des zweitgrößten, des drittgrößten Unternehmens am Gesamtumsatz der Branche? c) Vergleichen Sie den Anteil der beiden größten Unternehmen an der Anzahl aller Unternehmen der Branche mit ihrem Anteil am Gesamtumsatz der Branche. d) Welchen Anteil am Branchenumsatz haben die beiden kleinsten Unternehmen? e) Was versteht man unter absoluter Konzentration, was unter relativer Konzentration? f) Zeichnen Sie die Konzentrationskurve. g) Zeichnen Sie in die Graphik der Konzentrationskurve die Kurven ein, die sich bei minimaler und maximaler Konzentration ergeben würden. h) Nehmen Sie an, alle Unternehmen der Branche erhöhen ihren Umsatz um a %. Wie sieht dann die Konzentrationskurve aus? i) Vergleichen Sie die ursprüngliche Konzentrationskurve mit der Konzentrationskurve, die sich ergeben würde, wenn alle Unternehmen ihren Umsatz um 10 (Tsd. e) ausdehnen. j) Berechnen Sie den Herfindahl-Index (Werte aus Aufgabe 1a). k) Berechnen Sie den Rosenbluth-Index (Werte aus Aufgabe 1a). <?page no="84"?> 84 4 Konzentrationsmessung 2. Relative Konzentration (Für a)-f) Zahlenwerte aus Aufgabe 1). a) Zeichnen Sie die Lorenzkurve. b) Zeichnen Sie in ihre Graphik die Lorenzkurve bei maximaler und bei minimaler relativer Konzentration. c) Nehmen Sie an, dass alle Unternehmen der Branche ihren Umsatz um a % erhöhen. Wie sieht dann die Lorenzkurve aus? d) Vergleichen Sie die ursprüngliche Lorenzkurve mit der Lorenzkurve, die sich ergeben würde, wenn alle Unternehmen ihren Umsatz um 10 (Tsd. e) ausdehnen. e) Berechnen Sie den Gini-Koeffizienten (Werte aus Aufgabe 1a). f) Welchen Wert nimmt der Gini-Koeffizient nach einer Umsatzerhöhung von 10 (Tsd. e) bei allen Unternehmen an? g) Nehmen Sie an, Ihnen liegende folgende Daten in klassierter Form vor: Klassengrenzen (von bis unter) Anzahl Umsatz 0-200 3 410 200-500 2 620 500-1500 3 2570 Berechnen Sie ausgehend von den klassierten Daten den Gini-Koeffizienten. <?page no="85"?> 4.5 R-Code 85 4.5 R-Code R-4-1 ## Zahlenbeispiel x <c(70,15,10,4,1) h.x <x/ sum(x) # CR3 cr3.x <sum(h.x[1: 3]) cr3.x ## ALLBUS # Daten einlesen (West) d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) d <d[d$ostwest==0,] # Merkmalswerte (Einkommen) absteigend sortieren y <sort(x = d$einkommen, decreasing = TRUE) h.y <y/ sum(y) # CR5 cr5.y <sum(h.y[1: 5]) cr5.y R-4-2 # Konzentrationskurve (Zahlenbeispiel) h.x <x / sum(x) cr.x <cumsum(h.x) plot(x = 0: 5, y = c(0,cr.x), type = "l", xlab = "i", ylab = expression(CR[~i])) points(x = 0: 5, y = c(0,cr.x), pch = 19) segments(x0 = 0, y0 = 0, x1 = 5, y1 = 1) R-4-3 ## Rosenbluth-Koeffizient # Zahlenbeispiel i.x <- 1: 5 A.i.x <h.x * 0.5 * (2 * i.x - 1) A.x <sum(A.i.x) RK.x <- 1 / (2*A.x) RK.x # Einkommen h.y <y / sum(y) i.y <- 1: length(y) RK.y <- 1 / (2 * sum(i.y*h.y) - 1) RK.y <?page no="86"?> 86 4 Konzentrationsmessung R-4-4 ## Hirschman-Herfindahl-Koeffizient # Zahlenbeispiel sum(h.x^2) # Einkommen sum(h.y^2) R-4-5 ## Variationskoeffizient # Zahlenbeispiel n.x <length(x) var.koeff.x <sqrt( 1/ n.x * sum( (x mean(x))^2 ) ) / mean(x) var.koeff.x # Einkommen n.y <length(y) var.koeff.y <sqrt( 1/ n.y * sum( (y mean(y))^2 ) ) / mean(y) var.koeff.y R-4-6 ## Einkommen klassieren # Histogramm erstellen (für die automatische Wahl der Grenzen) h <hist(x = y/ 1000, breaks = c(0,1.5,2.5,4,7.5,20), plot = FALSE, right = FALSE) # Anzahl an Grenzen b <length(h$breaks) # Beobachtungen (Einkommen) in Klassen einteilen lc <cut(x = y/ 1000, breaks = h$breaks, right = FALSE) # Klassenuntergrenzen cu <h$breaks[-b] # Klassenobergrenzen co <h$breaks[-1] # relative Klassenhäufigkeiten fj <table(lc) / n.y fj # kumulierten Anteile Fj <cumsum(fj) Fj # relativer Anteil der Einkommenssumme pro Klasse hj <tapply(X = y, INDEX = lc, FUN = sum) / sum(y); hj # kumulierten Anteile Hj <cumsum(hj); Hj <?page no="87"?> 4.5 R-Code 87 R-4-7 ## Graphik plot(x = c(0,Fj), y = c(0,Hj), type = "l", xlab = expression(F[~j]), ylab = expression(H[~j])) points(x = c(0,Fj), y = c(0,Hj), pch = 19) segments(x0 = 0, y0 = 0, x1 = 1, y1 = 1) R-4-8 # Gini-Koeffizient 1 sum(fj * (c(0, Hj[-5]) + Hj)) R-4-9 ### Gini-Koeffizient auf Basis von Individualdaten ## Zahlenbeispiel # Werte aufsteigend sortieren h.x.auf <sort(h.x, decreasing = FALSE) # Gini-Koeffizient sum( h.x.auf * ((2*i.x n.x - 1) / n.x) ) ## Einkommen h.y.auf <sort(h.y, decreasing = FALSE) # Gini-Koeffizient sum( h.y.auf * ((2*i.y n.y - 1) / n.y) ) <?page no="89"?> 5 Strukturanalysen Viele interessierende Größen lassen sich definitorisch als Summe oder auch als Produkt von Komponenten darstellen. Solch einfache Komponentendarstellungen liefern oftmals interessante Einblicke, wenn nach möglichen Ursachen vorgefundener Gruppenunterschiede oder zeitlicher Veränderungen gesucht wird. Wir veranschaulichen die Verwendung einfacher Strukturanalysen in Form definitorischer Komponentenmodelle mit einfachen additiven und multiplikativen Zerlegungen, um Einblicke in Bestimmungsgründe der beobachteten Einkommensunterschiede von Männern und Frauen zu gewinnen. 5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.2 Maßzahlen für Strukturunterschiede . . . . . . . . . . . . 90 5.2.1 Strukturdifferenz und normierte Strukturdifferenz . 91 5.2.2 Euklidische Norm . . . . . . . . . . . . . . . . . . 92 5.3 Additive Komponentenzerlegung . . . . . . . . . . . . . . 92 5.3.1 Standardisierung . . . . . . . . . . . . . . . . . . 94 5.3.2 Niveau- und Struktureffekt . . . . . . . . . . . . . 95 5.3.3 Niveau-, Struktur- und Mischeffekt . . . . . . . . . 96 5.4 Multiplikative Komponentenzerlegung . . . . . . . . . . . 99 5.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 <?page no="90"?> 90 5 Strukturanalysen 5.1 Einleitung Für viele Mengen von Untersuchungseinheiten lässt sich eine Aufteilung nach Merkmalen in Teilmengen durchführen, die die Struktur bezüglich dieser Merkmale deutlich macht. So lassen sich Beschäftigte etwa nach ihrem Geschlecht und nach den Berufen der Unternehmen, in denen sie beschäftigt sind, aufgliedern. Für die einzelnen Berufen lassen sich die Anteile an den Beschäftigten insgesamt ermitteln. Diese Berufsstruktur kann für alle Beschäftigten, aber auch getrennt für Männer und Frauen ermittelt werden. In diesem Kapitel betrachten wir Methoden, mit denen derartige Strukturen verglichen und Unterschiede quantifiziert werden können. Zunächst betrachten wir Maßzahlen, die das Ausmaß des strukturellen Unterschieds erfassen. Im Anschluss besprechen wir Methoden der Komponentenzerlegung. Mit diesen Methoden werden definitorische Zusammenhänge genutzt, um Einblicke in Bedingungen von Unterschieden zwischen Gruppen zu gewinnen. Als Beispiel verwenden wir erneut das ALLBUS-Datenfile für n = 1238 Personen aus Westdeutschland mit Angaben über deren Geschlecht, Lohnhöhe, geleistete Arbeitsstunden und Beruf. 5.2 Maßzahlen für Strukturunterschiede In unserem Datensatz gibt es für n = 1238 Personen aus Westdeutschland Angaben darüber, welchen Beruf sie ausüben. Um die Analyse etwas übersichtlicher zu halten, vergröbern wir die Berufsinformation von ursprünglich neun Berufen auf drei Berufsgruppen: 1 Akademiker, 2 Angestellte, 3 Helfer. 1 R-5-1 Für die drei Berufen finden wir die in Tabelle 5.1 angegebenen Beschäftigungsanteile a j für die Berufen Produktion ( j = 1), Handel ( j = 2) und Dienste ( j = 3). Die Angaben in Spalte 2 sind die Beschäftigungsanteile der Berufe insgesamt, Spalte 3 enthält die Beschäftigungsanteile der Berufe a w j der Frauen und Spalte 4 enthält die Anteile a m j der Männer. R-5-2 Offenbar gilt für die Anteile a j , a w j und a m j , dass sie sich für die 1 Die Vergröberung wurde dabei folgendermaßen vorgenommen: 1 Führungskräfte, Akademiker, 2 Techniker, Bürokräfte, Dienstleister, Bauern, Handwerker, 3 Monteure, Hilfsarbeiter. <?page no="91"?> 5.2 Maßzahlen für Strukturunterschiede 91 Tabelle 5.1: Beschäftigungsanteile der Berufe. Beruf Alle ( a j ) Frauen ( a w j ) Männer ( a m j ) Akademiker 0.321 0.287 0.348 Angestellte 0.588 0.639 0.549 Helfer 0.090 0.074 0.103 J = 3 Berufen jeweils zu 1 summieren: 3 ∑ j=1 a j = 3 ∑ j=1 a w j = 3 ∑ j=1 a m j = 1 . Es ist ersichtlich, dass relativ weniger Frauen in den Berufsgruppen Akademiker und Helfer und häufiger in der Berufsgruppe Angestellte tätig sind. Im Folgenden betrachten wir mehrere Maßzahlen zur Quantifizierung von Strukturunterschieden . Für die beiden zu vergleichenden Gruppen verwenden wir unserem Beispiel folgend die Indizes m und w. In analoger Weise könnten auch andere Gruppen (Länder, Regionen, etc.) verglichen werden. Die beiden Indizes m und w könnten dann durch geeignete andere Indizes ersetzt werden. 5.2.1 Strukturdifferenz und normierte Strukturdifferenz Die Strukturdifferenz SD = J ∑ j=1 |a m j − a w j | ist die Summe der absoluten Anteilsdifferenzen , hier zwischen den beruflichen Beschäftigungsanteilen von Männern und Frauen. Für unsere Beispieldaten mit drei Berufen finden wir SD = | 0 . 348 − 0 . 287 | + | 0 . 549 − 0 . 639 | + | 0 . 103 − 0 . 074 | = | 0 . 061 | + | − 0 . 09 | + | 0 . 029 | = 0 . 18 . Für die Strukturdifferenz gilt 0 ≤ SD ≤ 2. Die Interpretation wird durch eine Normierung erleichtert. Üblich ist die Normierung auf den Bereich [0 , 1]. Die Intervallgrenzen geben dann den minimalen (0) und den maximalen (1) Unterschied an. <?page no="92"?> 92 5 Strukturanalysen Die Multiplikation der Strukturdifferenz mit dem Faktor 0 . 5 führt zur normierten Strukturdifferenz (NSD), auch Dissimilaritätsindex genannt NSD = 0 . 5 J ∑ j=1 |a m j − a w j | = 0 . 5 SD , mit 0 ≤ NSD ≤ 1. Für unser Beispiel finden wir NSD = 0 . 5 SD = 0 . 5 · 0 . 18 = 0 . 09 . Die normierte Strukturdifferenz NSD gibt den Anteil der Beschäftigten an, der zwischen Berufen wandern müsste, um eine Gleichheit der Struktur zu erreichen. In unserem Beispiel müssten 9 % der Männer (Frauen) den Beruf wechseln, um die gleiche Anteilsstruktur der Frauen (Männer) zu erreichen. R-5-3 5.2.2 Euklidische Norm Die euklidische Norm für Strukturdifferenzen EN = √√ √ √ J ∑ j=1 ( a m j − a w j ) 2 ist die Quadratwurzel der Summe der quadrierten Anteilsdifferenzen. Für die euklidische Norm gilt 0 ≤ EN ≤ √ 2 . Durch das Quadrieren erhalten große Anteilsdifferenzen ein etwas stärkeres Gewicht als bei der Strukturdifferenz. Für unsere Beispieldaten mit drei Berufen finden wir EN = √ (0 . 348 − 0 . 287) 2 + (0 . 549 − 0 . 639) 2 + (0 . 103 − 0 . 074) 2 = √ (0 . 061) 2 + ( − 0 . 09) 2 + (0 . 029) 2 = 0 . 113 . Für die euklidische Norm gibt es keine vergleichbar anschauliche Interpretation wie für die normierte Strukturdifferenz. R-5-4 5.3 Additive Komponentenzerlegung Die Komponentenzerlegung ist eine einfache und anschauliche Methode der Strukturanalyse . Das Ziel ist, durch definitori- <?page no="93"?> 5.3 Additive Komponentenzerlegung 93 sche Zerlegungen bzw. tautologische Erweiterungen Einblicke in mögliche Bedingungen von vorliegenden Unterschieden zwischen Gruppen zu gewinnen. Als Beispiel betrachten wir erneut Männer und Frauen und deren Stundenlöhne. In unserem Datensatz finden wir einen Durchschnittslohn für Männer von 15 . 06 Euro und für Frauen von 12 . 29 Euro. Männer verdienen im Durchschnitt je Stunde somit 23 % bzw. 2 . 77 Euro mehr als Frauen. Bei der Suche nach möglichen Ursachen für diese erstaunlich große Differenz können Komponentenzerlegungen hilfreich sein. Zum Beispiel könnte eine unterschiedliche Berufsstruktur von Männern und Frauen zur Erklärung der Lohndifferenz beitragen, wenn etwa Frauen in größerem Ausmaß als Männer in Niedriglohnberufen beschäftigt wären. Tabelle 5.2 enthält nochmals die Berufsstruktur von Männern und Frauen - erneut für die drei aggregierten Berufe - und daneben die beruflichen Durchschnittslöhne. Den durchschnittlichen Stundenlohn der Männer in Beruf j bezeichnen wir mit ¯ l m j und den der Frauen mit ¯ l w j . Die Durchschnittslöhne für Männer bzw. Frauen insgesamt ergeben sich aus den mit den beruflichen Beschäftigungsanteilen gewichteten beruflichen Durchschnittlöhnen R-5-5 ¯ l m = J ∑ j=1 ¯ l m j a m j = 0 . 348 · 20 . 02 + 0 . 549 · 12 . 8 + 0 . 103 · 10 . 37 = 15 . 06 ¯ l w = J ∑ j=1 ¯ l w j a w j = 0 . 287 · 16 . 14 + 0 . 639 · 11 . 01 + 0 . 074 · 8 . 4 = 12 . 29 . <?page no="94"?> 94 5 Strukturanalysen Tabelle 5.2: Beschäftigungsanteile und Durchschnittslöhne Beschäftigung Stundenlöhne Beruf Alle Frauen Männer Alle Frauen Männer Akademiker 0.321 0.287 0.348 18.51 16.14 20.02 Angestellte 0.588 0.639 0.549 11.95 11.01 12.80 Helfer 0.090 0.074 0.103 9.67 8.40 10.37 5.3.1 Standardisierung Die Höhe des Durchschnittslohns hängt sowohl von der Höhe der geschlechtsspezifischen beruflichen Durchschnittslöhne (Niveau) als auch von der geschlechtsspezifischen beruflichen Berufsstruktur ab. Um den Beitrag einer der beiden Komponenten - Niveau und Struktur - zu isolieren, kann bzgl. der anderen Komponente standardisiert werden. Wählen wir z. B. die Berufsstruktur der Männer als Standard, ergibt sich für Frauen ein fiktiver durchschnittlicher Stundenlohn. Dieser gibt an, welchen durchschnittlichen Stundenlohn Frauen verdienen würden, wenn sie ihre tatsächlichen beruflichen Durchschnittslöhne hätten, ihre Berufsstruktur aber der der Männer gleichen würde. Dieser fiktive (kontrafaktische) Stundenlohn ¯ l w (a m ) ergibt sich als ¯ l w (a m ) = J ∑ j=1 ¯ l w j a m j = 12 . 53 . Man kann ebenso auf die durchschnittlichen beruflichen Stundenlöhne der Männer standardisieren. In diesem Fall erhalten wir den fiktiven durchschnittlichen Stundenlohn der Frauen, den sie erhalten würden, wenn sie bei ihrer tatsächlichen beruflichen Berufsstruktur die beruflichen Durchschnittslöhne der Männer erhalten würden. Dieser fiktive (kontrafaktische) Stundenlohn ¯ l w (¯l m ) ergibt sich als ¯ l w (¯l m ) = J ∑ j=1 ¯ l m j a w j = 14 . 69 . Analog kann bzgl. der beruflichen Berufsstruktur und der beruflichen Lohnhöhe der Frauen standardisiert werden. In diesem Fall <?page no="95"?> 5.3 Additive Komponentenzerlegung 95 resultieren fiktive durchschnittliche Stundenlöhne der Männer ¯ l m (a w ) = J ∑ j=1 ¯ l m j a w j = 14 . 69 ¯ l m (¯l w ) = J ∑ j=1 ¯ l w j a m j = 12 . 53 . Offenkundig gilt ¯ l w (¯l m ) = ¯ l m (a w ) und ¯ l w (a m ) = ¯ l m (¯l w ) . R-5-6 5.3.2 Niveau- und Struktureffekt Ausgehend von den standardisierten Durchschnittslöhnen der Frauen ¯ l w (a m ) und ¯ l w (¯l m ) lassen sich Bedingungen des Unterschieds der Durchschnittslöhne von Männern und Frauen isolieren. Vergleichen wir den tatsächlichen Durchschnittslohn der Männer ¯ l m mit dem fiktiven auf die Berufsstruktur der Männer standardisierten Durchschnittslohn der Frauen ¯ l w (a m ) , wird der Einfluss unterschiedlicher beruflicher Lohnhöhen isoliert. Wir können deshalb schreiben ¯ l m − ¯ l w (a m ) = J ∑ j=1 ¯ l m j a m j − J ∑ j=1 ¯ l w j a m j = J ∑ j=1 ( ¯ l m j − ¯ l w j ) a m j = 15 . 06 − 12 . 53 = 2 . 54 . Diese Lohndifferenz bei gleicher Berufsstruktur isoliert den Einfluss des unterschiedlichen Niveaus der beruflichen Durchschnittslöhne, wir bezeichnen ihn als Niveaueffekt . Vergleichen wir hingegen den tatsächlichen Durchschnittslohn der Männer ¯ l m mit dem fiktiven auf die beruflichen Durchschnittslöhne der Männer standardisierte Durchschnittslohn der Frauen ¯ l w (¯l m ) , wird der Einfluss der unterschiedlichen Berufsstruktur isoliert. Es ergibt sich ¯ l m − ¯ l w (¯l m ) = J ∑ j=1 ¯ l m j a m j − J ∑ j=1 ¯ l m j a w j = J ∑ j=1 ¯ l m j ( a m j − a w j ) = 15 . 06 − 14 . 69 = 0 . 37 . <?page no="96"?> 96 5 Strukturanalysen Diese Lohndifferenz bei gleichen beruflichen Durchschnittslöhnen isoliert den Beitrag der unterschiedlichen Berufsstruktur, wir bezeichnen ihn als Struktureffekt . Für unsere Daten erhalten wir einen hohen Niveau- und einen vernachlässigbaren Struktureffekt. Bei gleicher Berufsstruktur und tatsächlichen geschlechtsspezifischen beruflichen Durchschnittslöhnen ergibt sich für Männer ein um rund 3 Euro höherer Durchschnittslohn. Bei gleichen beruflichen Durchschnittslöhnen und tatsächlichen geschlechtsspezifischen Berufsstrukturen ergibt sich praktisch kein Lohnunterschied zwischen Männern und Frauen. Die Ergebnisse weisen darauf hin, dass die beruflichen Lohnunterschiede für Männer und Frauen, nicht aber die unterschiedlichen Berufsstrukturen als eine wesentliche Bedingung für den Lohnunterschied von Männern und Frauen betrachtet werden können. Verwenden wir zur Standardisierung die Berufsstruktur und Lohnhöhe der Frauen, erhalten wir ebenfalls einen Niveau- und einen Struktureffekt. Der Niveaueffekt ist ¯ l m (a w ) − ¯ l w = J ∑ j=1 ¯ l m j a w j − J ∑ j=1 ¯ l w j a w j = J ∑ j=1 ( ¯ l m j − ¯ l w j ) a w j = 14 . 69 − 12 . 29 = 2 . 4 . und der Struktureffekt ist ¯ l m (¯l w ) − ¯ l w = J ∑ j=1 ¯ l w j a m j − J ∑ j=1 ¯ l w j a w j = J ∑ j=1 ¯ l w j ( a m j − a w j ) = 12 . 53 − 12 . 29 = 0 . 24 . Diese Standardisierung führt zu geringfügig anderen Werten, die qualitative Aussage bleibt jedoch unverändert. R-5-7 5.3.3 Niveau-, Struktur- und Mischeffekt Ausgangspunkt unserer Überlegungen war die Differenz der durchschnittlichen Stundenlöhne zwischen Männern und Frauen ¯ l m − ¯ l w = J ∑ j=1 ¯ l m j a m j − J ∑ j=1 ¯ l w j a w j = 15 . 06 − 12 . 29 = 2 . 77 . <?page no="97"?> 5.3 Additive Komponentenzerlegung 97 Durch Standardisierung auf die Berufsstruktur bzw. die beruflichen Durchschnittslöhne der Männer haben wir den Niveau- und den Struktureffekt ermittelt. Für die Summe der beiden Effekte erhalten wir ¯ l m − ¯ l w (a m ) + ¯ l m − ¯ l w (¯l m ) = J ∑ j=1 ( ¯ l m j − ¯ l w j ) a m j + J ∑ j=1 ¯ l m j ( a m j − a w j ) = 2 . 54 + 0 . 37 = 2 . 91 . Die Summe von Niveau- und Struktureffekt entspricht nicht der gesamten Differenz der Durchschnittslöhne. Betrachten wir die Summe der beiden isolierten Effekte genauer, finden wir J ∑ j=1 ( ¯ l m j − ¯ l w j ) a m j + J ∑ j=1 ¯ l m j ( a m j − a w j ) = J ∑ j=1 ¯ l m j a m j − J ∑ j=1 ¯ l w j a m j + J ∑ j=1 ¯ l m j a m j − J ∑ j=1 ¯ l m j a w j . Um zur gesamten Differenz der Durchschnittslöhne zu gelangen, müssen folgende Terme addiert bzw. subtrahiert werden − J ∑ j=1 ¯ l w j a w j + J ∑ j=1 ¯ l w j a m j − J ∑ j=1 ¯ l m j a m j + J ∑ j=1 ¯ l m j a w j = − J ∑ j=1 ( ¯ l m j − ¯ l w j )( a m j − a w j ) . In diesen Term gehen die Produkte der Differenzen von Durchschnittslöhnen und Beschäftigungsanteilen der Berufe ein. Er wird als Mischeffekt bezeichnet. Eine Komponentenzerlegung ist umso erkenntnisträchtiger, je kleiner der Mischeffekt ist, da dann eine weitgehende Aufteilung der zu erklärenden Gesamtdifferenz in Niveau- und Struktureffekt gelingt. Für die vollständige Zerlegung der Differenz in den Durchschnittslöhnen finden wir somit <?page no="98"?> 98 5 Strukturanalysen ¯ l m − ¯ l w = J ∑ j=1 ¯ l m j a m j − J ∑ j=1 ¯ l w j a w j = 15 . 06 − 12 . 29 = 2 . 77 = J ∑ j=1 ( ¯ l m j − ¯ l w j ) a m j + J ∑ j=1 ¯ l m j ( a m j − a w j ) − J ∑ j=1 ( ¯ l m j − ¯ l w j )( a m j − a w j ) = 2 . 54 + 0 . 37 − 0 . 13 = 2 . 77 , d.h. die Differenz besteht aus dem Niveau-, Struktur- und Mischeffekt. In analoger Weise kann auch auf die beruflichen Durchschnittslöhne und Beschäftigungsanteile der Frauen standardisiert werden. In diesem Fall resultiert die Zerlegung ¯ l m − ¯ l w = J ∑ j=1 ¯ l m j a m j − J ∑ j=1 ¯ l w j a w j = J ∑ j=1 ( ¯ l m j − ¯ l w j ) a w j + J ∑ j=1 ¯ l w j ( a m j − a w j ) + J ∑ j=1 ( ¯ l m j − ¯ l w j )( a m j − a w j ) = 2 . 4 + 0 . 24 + 0 . 13 = 2 . 77 . Beide Komponentenzerlegungen führen zur Schlussfolgerung, dass die beträchtliche Differenz in den Durchschnittslöhnen von Männern und Frauen fast vollständig auf Differenzen in den beruflichen Durchschnittslöhnen zurückgeführt werden kann und die unterschiedliche Berufsstruktur kaum einen Beitrag liefert. Kein expliziter Mischeffekt tritt auf, wenn bei der Ermittlung von Niveau- und Struktureffekt nicht einheitlich standardisiert wird. Wählen wir z. B. die Berufsstruktur der Männer für die Ermittlung des Niveaueffekts und die beruflichen Durchschnittslöhne der Frauen für die Ermittlung des Struktureffekts zur Standardisierung, <?page no="99"?> 5.4 Multiplikative Komponentenzerlegung 99 resultiert die Zerlegung ¯ l m − ¯ l w = J ∑ j=1 ¯ l m j a m j − J ∑ j=1 ¯ l w j a w j = J ∑ j=1 ( ¯ l m j − ¯ l w j ) a m j + J ∑ j=1 ¯ l w j ( a m j − a w j ) = 2 . 54 + 0 . 24 = 2 . 77 . Zu beachten ist jedoch, dass durch die Wahl unterschiedlicher Gruppen zur Standardisierung keine reinen Niveau- und Struktureffekte ermittelt werden, sondern einer der beiden Terme implizit den Mischeffekt enthält. Es gelingt somit nur scheinbar eine vollständige Zerlegung ohne Mischeffekt. R-5-8 5.4 Multiplikative Komponentenzerlegung Mittels einfacher tautologischer Erweiterungen lassen sich multiplikativ verknüpfte Komponenten gewinnen, denen eine eigenständige sachlogische Bedeutung zukommt. Als Beispiel betrachten wir den durchschnittlichen Netto-Montatslohn ¯ Y , der sich als Quotient von Lohnsumme Y und Zahl der Beschäftigten ergibt. Für die n = 1238 Personen in unserem Datensatz finden wir (in Euro je Beschäftigten): ¯ Y = Y E = 2828400 1238 = 2284 . 65 . Der Durchschnittslohn lässt sich darstellen als Produkt von durchschnittlichem Stundenlohn ( l ) und durchschnittlicher Anzahl an Arbeitsstunden ( z ), die sich als Quotient von insgesamt geleisteten Arbeitsstunden ( S ) und Anzahl der Beschäftigten ( E ) ergibt. Es resultiert ¯ Y = Y S S E = l · z = 2 , 828 , 400 207 , 477 · 207 , 477 1238 = 13 . 63 · 167 . 59 = 2284 . 65 . Betrachten wir nun die durchschnittlichen Netto-Monatslöhne von Männern und Frauen, finden wir ¯ Y m = 2748 . 14 und ¯ Y w = 1685 . 55 <?page no="100"?> 100 5 Strukturanalysen Euro. Das Verhältnis der Löhne ¯ Y m ¯ Y w = 2748 . 14 1685 . 55 = 1 . 63 zeigt, dass der Durchschnittslohn der Männer um 63 % über dem der Frauen liegt. Für Männer und Frauen resultiert der mittlere Lohn jeweils aus dem Produkt von mittlerem Stundenlohn und mittlerer monatlicher Arbeitszeit ¯ Y m = l m · z m = 14 . 73 · 186 . 63 = 2748 . 14 ¯ Y w = l w · z w = 11 . 79 · 142 . 99 = 1685 . 55 . Der relative Lohnunterschied lässt sich somit durch zwei multiplikative Komponenten darstellen: das Verhältnis der durchschnittlichen Stundenlöhne und das Verhältnis der durchschnittlichen monatlichen Arbeitsstunden. Es resultiert: ¯ Y m ¯ Y w = l m l w · z m z w = 14 . 73 11 . 79 · 186 . 63 142 . 99 = 1 . 25 · 1 . 31 = 1 . 63 . Die gegenüber den Frauen um 63 % höheren durchschnittlichen Monatslöhne der Männer sind somit einerseits auf den um 25 % höheren durchschnittlichen Stundenlohn und andererseits auf die um 31 % höhere durchschnittliche monatliche Arbeitszeit zurückzuführen. R-5-9 <?page no="101"?> 5.5 Aufgaben 101 5.5 Aufgaben Für die ersten beiden Aufgaben sei folgender Datensatz gegeben: Anteile Stundenlöhne Bildungsgrad Alle Frauen Männer Alle Frauen Männer Kein Abitur 0.42 0.43 0.42 11.12 10.11 11.92 Abitur 0.23 0.21 0.24 12.90 10.97 14.24 Studium 0.35 0.36 0.34 17.79 15.73 19.44 1. Betrachten Sie die Bildungsstruktur von Frauen und Männern und berechnen Sie als summarische Maße der Unterschiedlichkeit die normierte Strukturdifferenz und die euklidische Norm. 2. Führen Sie eine Komponentenzerlegung zur Erklärung der Differenz der Durchschnittslöhne von Männern und Frauen durch. a) Ermitteln Sie die Durchschnittslöhne von Männern und Frauen. b) Ermitteln Sie den kontrafaktischen Durchschnittslohn der Frauen, der sich aus der Standardisierung auf die Bildungsstruktur der Männer ergibt ( ¯ l w (a m ) ), und den kontrafaktischen Durchschnittslohn der Frauen, der sich aus der Standardisierung auf die Löhne der Männer ergibt ( ¯ l w (¯l m ) ). c) Ermitteln Sie ausgehend von den kontrafaktischen (standardisierten) Durchschnittslöhnen der Frauen den Niveau- und den Struktureffekt. d) Führen Sie eine vollständige Zerlegung der gesamten Lohndifferenz ¯ l m − ¯ l w durch. e) Was folgern Sie aus der durchgeführten Komponentenzerlegung über die Bestimmungsgründe der vorgefundenen Lohndifferenz? <?page no="102"?> 102 5 Strukturanalysen 3. Führen Sie eine Komponentenzerlegung zur Erklärung der Differenz der Durchschnittslöhne von Beschäftigten des Berufs Dienstleister (ausgehend von 9 Berufsgruppen) und den Beschäftigten anderer Berufe durch. Anteile Stundenlöhne Bildungsgrad Alle Dienstl. Andere Alle Dienstl. Andere Kein Abitur 0.42 0.70 0.39 11.12 10.56 11.22 Abitur 0.23 0.17 0.23 12.90 9.95 13.12 Studium 0.35 0.13 0.37 17.79 11.31 18.02 a) Ermitteln Sie die Durchschnittslöhne von Dienstleistern (w) und Nicht-Dienstleistern (m). b) Ermitteln Sie den kontrafaktischen Durchschnittslohn der Dienstleister, der sich aus der Standardisierung auf die Bildungsstruktur der Nicht-Dienstleister ergibt ( ¯ l w (a m ) ), und den kontrafaktischen Durchschnittslohn der Dienstleister, der sich aus der Standardisierung auf die Löhne der Nicht- Dienstleister ergibt ( ¯ l w (¯l m ) ). c) Ermitteln Sie ausgehend von den kontrafaktischen (standardisierten) Durchschnittslöhnen der Dienstleister den Niveau- und den Struktureffekt. d) Führen Sie eine vollständige Zerlegung der Lohndifferenz ¯ l m − ¯ l w durch. e) Was folgern Sie aus der durchgeführten Komponentenzerlegung über die Bestimmungsgründe der vorgefundenen Lohndifferenz? <?page no="103"?> 5.6 R-Code 103 5.6 R-Code R-5-1 ## Daten einlesen d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) d <d[d$ostwest==0,] n <nrow(d) # absolute Häufigkeiten (pro Beruf) beruf <d$beruf table(beruf) ## 9 Berufe auf 3 aggregieren beruf3 <beruf beruf3[beruf<=2] <- 1 # 1, 2 zu 1 beruf3[beruf>=3 & beruf<=7] <- 2 # 3 bis 7 zu 2 beruf3[beruf==8 | beruf==9] <- 3 # 8, 9 zu 3 # absolute Häufigkeiten (pro Beruf) table(beruf3) ## neue Berufzugehörigkeit an Datensatz anfügen d$beruf3 <beruf3 head(d) R-5-2 # Anzahl an Beobachtungen n <nrow(d) # Beschäftigungsanteile der Berufe insgesamt a <table(d$beruf3) / n a # Beschäftigungsanteile der Berufe der Frauen beruf3w <d$beruf3[d$geschlecht == 1] nw <length(beruf3w) aw <table(beruf3w) / nw aw # Beschäftigungsanteile der Berufe der Männer beruf3m <d$beruf3[d$geschlecht == 0] nm <length(beruf3m) am <table(beruf3m) / nm am R-5-3 # Strukturdifferenz SD <sum( abs(am-aw) ) SD # normierte Strukturdifferenz NSD <- 0.5 * SD; NSD <?page no="104"?> 104 5 Strukturanalysen R-5-4 # euklidische Norm EN <sqrt( sum((am-aw)^2) ) EN R-5-5 # Stundenlöhne in Vektor w speichern w <as.numeric(d$stlohn) # Stundenlöhne getrennt nach Geschlecht wf <w[d$geschlecht == 1] wm <w[d$geschlecht == 0] ## berufliche Durchschnittslöhne (dl) # Alle dl <tapply(X = w, INDEX = d$beruf3, FUN = mean) dl # Frauen dlw <tapply(X = wf, INDEX = beruf3w, FUN = mean) dlw # Männer dlm <tapply(X = wm, INDEX = beruf3m, FUN = mean) dlm ## Durchschnittslöhne # Männer lmd <sum(am * dlm) lmd # Frauen lwd <sum(aw * dlw) lwd # Alternativ aus Individualdaten mean(wf) # Frauen mean(wm) # Männer R-5-6 # Frauen lwam <sum(dlw * am) lwam lwlm <sum(dlm * aw) lwlm # Männer lmaw <sum(dlm * aw) lmaw lmlw <sum(dlw * am) lmlw <?page no="105"?> 5.6 R-Code 105 R-5-7 # Einfluss unterschiedlicher beruflicher Lohnhöhen sum(dlm*am) sum(dlw*am) # Einfluss der unterschiedlichen Berufsstruktur sum(dlm*am) sum(dlm*aw) # Niveaueffekt sum(dlm*aw) sum(dlw*aw) # Struktureffekt sum(dlw*am) sum(dlw*aw) R-5-8 # Ausgangspunkt: Diff. der durchschn. Löhne sum(dlm*am) sum(dlw*aw) # Summe von Niveau- und Struktureffekt sum(dlm*am) sum(dlw*am) + sum(dlm*am) sum(dlm*aw) # vollständige Zerlegung der Differenz in den Durchschnittslöhnen sum(dlm*am) sum(dlw*aw) # bzw. (sum(dlm*am) sum(dlw*am)) + (sum(dlm*am) sum(dlm*aw)) - (sum((dlm-dlw)*(am-aw))) # Analog: Standardisierung auf berufliche Durchschnittslöhne # und Beschäftigungsanteile der Frauen (sum(dlm*aw) sum(dlw*aw)) + (sum(dlw*am) sum(dlw*aw)) + (sum((dlm-dlw)*(am-aw))) # kein expliziter Mischeffekt ... (sum(dlm*am) sum(dlw*am)) + (sum(dlw*am) sum(dlw*aw)) R-5-9 # Variablen aus dem Datensatz w <d$einkommen sex <d$geschlecht st <d$stunden # Variablen nach Beispiel im Buch Y <sum(w) E <nrow(d) S <sum(st) # Löhne getrennt nach Geschlecht wf <w[d$geschlecht == 1] wm <w[d$geschlecht == 0] # Arbeitsstunden getrennt nach Geschlecht sf <st[d$geschlecht == 1] sm <st[d$geschlecht == 0] # Durchschnittslohn Yd <- Y / E; Yd <?page no="106"?> 106 5 Strukturanalysen # oder mean(w) # andere Darstellung Y/ S * S/ E # Durchschnittslöhne der Männer Ydm <mean(wm) Ydm # Durchschnittslöhne der Frauen Ydw <mean(wf) Ydw # Verhältnis Ydm / Ydw ## mittlerer Stundenlohn über alle Berufe # Männer lm <- (sum(wm)/ sum(sm)) zm <mean(sm) lm * zm # Frauen lw <- (sum(wf)/ sum(sf)) zw <mean(sf) lw * zw # relativer Lohnunterschied lm/ lw * zm/ zw <?page no="107"?> 6 Preis- und Mengenindizes In diesem Kapitel beschäftigen wir uns mit der Konstruktion von Preis- und Mengenindizes. In der amtlichen Statistik dominieren Preisindizes vom Typ Laspeyres, vom Typ Paasche und Kettenindizes, deren Konzeption wir darstellen. Für die Preisentwicklung in Deutschland präsentieren wir einige empirische Ergebnisse. 6.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 108 6.2 Transaktionen, Mengen und Preise . . . . . . . . . . . . . 108 6.3 Preisindizes auf Basis von Warenkorbvergleichen . . . . . . 109 6.4 Messziffernmittelung . . . . . . . . . . . . . . . . . . . . 112 6.5 Repräsentativgewichtung: Einzelpreise und Ausgabenanteile 114 6.6 Konstruktion von Indexziffern . . . . . . . . . . . . . . . 115 6.6.1 Der Verbraucherpreisindex . . . . . . . . . . . . . 116 6.6.2 Entwicklung der Verbraucherpreise seit 1881 . . . . 119 6.7 Kettenindizes . . . . . . . . . . . . . . . . . . . . . . . . 121 6.7.1 Definition von Kettenindizes . . . . . . . . . . . . 122 6.7.2 Vor- und Nachteile von Kettenindizes . . . . . . . . 122 6.7.3 Deflationierung mit Kettenindizes . . . . . . . . . . 123 6.8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.9 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 <?page no="108"?> 108 6 Preis- und Mengenindizes 6.1 Einleitung In diesem Kapitel werden Preis- und Mengenindizes besprochen. Umsätze zweier Perioden resultieren aus den jeweils in diesen Perioden gekauften Mengen zu den zu diesen Zeitpunkten geltenden Preisen. Damit verbunden sind sowohl Veränderungen der Mengen von der einen auf die andere Periode als auch Veränderungen der Preise. Die Entscheidungen über die Mengen sind dabei auch von den aktuell geltenden relativen Preisen bestimmt. Welche Mengen zu anderen Preisen gekauft worden wären, ist eine hypothetische Frage, die sich nicht beantworten lässt. Obwohl es sich somit um Fiktionen handelt, wenn Umsatzveränderungen in „reine“ Preis- und „reine“ Mengenveränderungen aufgegliedert werden, besteht ein großes Interesse an Informationen dieser Art. So ist etwa die Preisveränderung zum Vorjahr wesentliche Bestimmungsgröße für Nominallohnforderungen von Gewerkschaften, Anpassungen von Sozialleistungen usw. Weil statistische Informationen über Preise und ihre Entwicklung fast immer in Form von Preisindizes dargestellt werden, stellen wir im Folgenden die wichtigsten Methoden der Berechnung von Preisindizes dar. Die Konstruktionsideen von Preisindizes lassen sich auf die Berechnung von Mengenindizes übertragen. 6.2 Transaktionen, Mengen und Preise Den gedanklichen Ausgangspunkt der Preisstatistik bilden einzelne Transaktionen, in denen eine jeweils bestimmte Menge einer bestimmten Gütersorte gegen eine bestimmte Menge Geld (ausgedrückt in Geldeinheiten, z. B. in Euro) verkauft bzw. gekauft wird. Wir verwenden folgende Definition von P. v. d. Lippe (1996: 401): „Preise sind bei Kaufverträgen verabredete Geldbeträge je Produkteinheit.“ Der Preisbegriff bezieht sich demnach auf eine Einheit des Gutes. Von weiteren Leistungen oder Diensten (etwa Beratungstätigkeiten, Erläuterungen des adäquaten Gebrauchs, das Ambiente, usw.), die beim Güterkauf unter Umständen miterworben werden, abstrahieren wir. Diese Definition entspricht auch einer statistischen Betrachtungsweise, bei der durch Durchschnittsbildungen von den <?page no="109"?> 6.3 Preisindizes auf Basis von Warenkorbvergleichen 109 Tabelle 6.1: Mengen, Preise und Umsätze in 4 Perioden. Periode q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 16 2 2 2 3 4 3 3 23 3 1 1 4 5 5 2 18 4 2 2 3 4 4 1 19 individuellen Transaktionen bzw. Marktpreisen abstrahiert wird. Wir nehmen an, dass es n Güter gibt und man für jedes Gut c j folgende Größen kennt: Die gesamte Gütermenge q tj , die in der Periode t umgesetzt worden ist, und den gesamten Geldbetrag u tj , der dafür gezahlt worden ist. Der Marktpreis des Guts in der Periode t ist dann p tj = u tj / q tj . 1 6.3 Preisindizes auf Basis von Warenkorbvergleichen Der Konstruktion von Preisindizes liegt die Fragestellung zugrunde, wie man sich ein Bild von der zeitlichen Entwicklung von Gesamtumsätzen machen kann, bei dem hypothetisch zwischen zwei Komponenten unterschieden wird: Veränderungen in den umgesetzten Gütermengen und Veränderungen in den Preisen. Zu betonen ist, dass es sich um fiktive Konstruktionen handelt, da den „Komponenten“ keine empirischen Sachverhalte entsprechen. Um das Problem zu verdeutlichen, kann ein kleines Zahlenbeispiel dienen. Es wird angenommen, dass Daten für drei Gütersorten und vier Perioden verfügbar sind (Tabelle 6.1). R-6-1 Ein Problem besteht darin, dass man zur Repräsentation sowohl der Mengen als auch der Preise Vektoren benötigt; für die Mengen die Vektoren q t = ( q t1 , . . . , q tn ) ′ und für die Preise die Vektoren p t = ( p t1 , . . . , p tn ) ′ . 1 Dies ist eine theoretische Betrachtung. Tatsächlich werden nicht Umsätze von tatsächlichen Transaktionen in der Preisstatistik erfasst, sondern lediglich die Preise in Verkaufsstätten und Katalogen, zu denen Güter angeboten werden. <?page no="110"?> 110 6 Preis- und Mengenindizes (Durch das Häckchen für die Transposition wird angezeigt, dass es sich um Spaltenvektoren handelt.) Wie sich diese Vektoren verändern, kann jedoch nicht durch einfache Zahlen ausgedrückt werden. Z. B. kann man nicht sagen, um wie viel Prozent q 2 größer ist als q 1 . Man kann jedoch monetäre Gesamtumsätze u t = n ∑ j=1 q tj p tj = q ′ t p t berechnen. Für unser Beispiel sind die Werte in der letzten Spalte von Tabelle 6.1 angegeben. Somit kann man z. B. sagen, dass dieser Gesamtumsatz von der ersten zur zweiten Periode um rund 44 % zugenommen hat. Aber man kann nicht sagen, welcher Teil davon durch Veränderungen in den Mengen und welcher Teil durch Veränderungen in den Preisen zustande gekommen ist. Um für dieses unlösbare Problem dennoch zu behelfsmäßigen Lösungen zu gelangen, haben sich Statistiker eine Vielzahl unterschiedlicher Indexkonstruktionen ausgedacht. In der Praxis werden hauptsächlich zwei Arten von Indizes verwendet. Beide können als Preis- und als Mengenindizes verwendet werden. Die erste Variante wird nach dem Statistiker Etienne Laspeyres (1834- 1913) benannt. In der Form eines Preisindex lautet die Definition P l t 0 t 1 = ∑ n j=1 q t 0 j p t 1 j ∑ n j=1 q t 0 j p t 0 j = q ′ t 0 p t 1 q ′ t 0 p t 0 . Um die Veränderung der Preise zwischen einer Anfangsperiode t 0 und einer späteren Periode t 1 „unter Ausschaltung von Mengenänderungen“ zu erfassen, wird hypothetisch angenommen, dass die in der Periode t 1 beobachteten Preise auch realisiert worden wären, wenn sich die Mengen nicht verändert hätten. Analog lautet die Definition für den Mengenindex nach Laspeyres Q l t 0 t 1 = ∑ n j=1 q t 1 j p t 0 j ∑ n j=1 q t 0 j p t 0 j = q ′ t 1 p t 0 q ′ t 0 p t 0 . In diesem Fall wird angenommen, dass sich die Preise nicht verändert hätten, d.h. es werden zur Bewertung der Mengen jedes Mal die <?page no="111"?> 6.3 Preisindizes auf Basis von Warenkorbvergleichen 111 Preise der Basisperiode t 0 verwendet. 2 Eine andere Variante wurde von dem Statistiker Hermann Paasche (1851-1925) vorgeschlagen. Seine Definitionen verwenden nicht die Mengen bzw. Preise der Basisperiode t 0 , sondern der jeweils aktuellen Periode t 1 . Für den Preisindex gelangt man dann zur Definition P p t 0 t 1 = ∑ n j=1 q t 1 j p t 1 j ∑ n j=1 q t 1 j p t 0 j = q ′ t 1 p t 1 q ′ t 1 p t 0 und für den korrespondierenden Mengenindex zur Definition Q p t 0 t 1 = ∑ n j=1 q t 1 j p t 1 j ∑ n j=1 q t 0 j p t 1 j = q ′ t 1 p t 1 q ′ t 0 p t 1 . Zur Illustration berechnen wir die Indizes mit den Zahlen aus Tabelle 6.1. Zwei ausgewählte Preis- und Mengenindizes berechnen wir dabei in sehr ausführlicher Darstellung. Für den Preisindex nach Laspeyres für die Preisentwicklung von Periode 3 auf die Periode 4, d.h. t 0 = 3 und t 1 = 4 ergibt sich P l 3,4 = ∑ n j=1 q t 0 j p t 1 j ∑ n j=1 q t 0 j p t 0 j = 1 · 4 + 1 · 4 + 4 · 1 1 · 5 + 1 · 5 + 4 · 2 = 0 . 67 . Für den Mengenindex nach Paasche für die Mengenentwicklung von Periode 1 auf die Periode 2, d.h. t 0 = 1 und t 1 = 2 ergibt sich Q p 1,2 = Q p 1,2 = ∑ n j=1 q t 1 j p t 1 j ∑ n j=1 q t 0 j p t 1 j = 2 · 4 + 2 · 3 + 3 · 3 1 · 4 + 2 · 3 + 3 · 3 = 1 . 21 . Tabellen 6.2 und 6.3 zeigen die Werte der beiden Preis- und der beiden Mengenindizes für alle Perioden. R-6-2 Man erkennt, dass sich die Werte erheblich unterscheiden können. So wird verständlich, dass im Laufe der Zeit zahlreiche weitere Vorschläge für Indexkonstruktionen gemacht worden sind und die Diskussion über Vor- und Nachteile der verschiedenen Indizes bis heute anhält. Darauf soll hier nicht näher eingegangen werden. 3 2 In der Literatur werden die hypothetisch als konstant angenommenen Vektoren der Basisperiode (bei Preisindizes q t0 , bei Mengenindizes p t0 ) oft als ‘Wägungsschemas’, in manchen Zusammenhängen auch als ‘Warenkorb’ bezeichnet. 3 Man vgl. z. B. D. Kunz (1987: 282ff.), P. v. d. Lippe (1996: 407ff.), W. <?page no="112"?> 112 6 Preis- und Mengenindizes Tabelle 6.2: Preis- und Mengenindizes (1). t 0 t 1 q ′ t 0 p t 0 q ′ t 1 p t 0 q ′ t 0 p t 1 q ′ t 1 p t 1 1 2 16 20 19 23 2 3 23 19 26 18 3 4 18 26 12 19 Tabelle 6.3: Preis- und Mengenindizes (2). t 0 t 1 P l t 0 t 1 P p t 0 t 1 Q l t 0 t 1 Q p t 0 t 1 1 2 1.19 1.15 1.25 1.21 2 3 1.13 0.95 0.83 0.69 3 4 0.67 0.73 1.44 1.58 6.4 Messziffernmittelung Die dargestellten Preisindizes nach Laspeyres lassen sich auch in der Form der Messziffernmittelung darstellen. Ausgangspunkt sind die n Messziffern m t 0 t 1 ,j = p t 1 j / p t 0 j der betrachteten Güter für die Zeitpunkte t 1 und t 0 . Um diese n verschiedenen Informationen über die Preisentwicklung zu aggregieren und dabei die unterschiedliche Bedeutung der einzelnen Güter zu berücksichtigen, bietet es sich an, diese gewichtet zu mitteln. Als Gewichte können die Ausgabenanteile in der Periode t 1 g t 1 j = q t 1 j p t 1 j ∑ n k=1 q t 1 k p t 1 k oder in der Periode t 0 g t 0 j = q t 0 j p t 0 j ∑ n k=1 q t 0 k p t 0 k verwendet werden. Die Werte für das Zahlenbeispiel finden sich in den Tabellen 6.4 und 6.5. R-6-3 Berechnet man ein mit den Ausgabenanteilen der Periode t 0 gewichtetes arithmetisches Mittel der n Preismesszahlen, resultiert Neubauer (1996), H. Rinne (1996: 321ff.), W. Krug, M. Nourney und J. Schmidt (1999: 368ff.). <?page no="113"?> 6.4 Messziffernmittelung 113 Tabelle 6.4: Messziffern und Ausgabenanteile (1). t 0 t 1 m t 0 ,t 1 1 m t 0 ,t 1 2 m t 0 ,t 1 3 1 2 1.000 1.000 1.500 2 3 1.250 1.667 0.667 3 4 0.800 0.800 0.500 Tabelle 6.5: Messziffern und Ausgabenanteile (2). t 0 t 1 g t 0 1 g t 0 2 g t 0 3 g t 1 1 g t 1 2 g t 1 3 1 2 0.250 0.375 0.375 0.348 0.261 0.391 2 3 0.348 0.261 0.391 0.278 0.278 0.444 3 4 0.278 0.278 0.444 0.421 0.421 0.158 der Preisindex nach Laspeyres: P l t 0 t 1 = n ∑ j=1 m t 0 t 1 ,j g t 0 j = n ∑ j=1 p t 1 j p t 0 j q t 0 j p t 0 j ∑ n k=1 q t 0 k p t 0 k = ∑ n j=1 q t 0 j p t 1 j ∑ n j=1 q t 0 j p t 0 j . Das mit den Ausgabenanteilen der Periode t 1 gewichtete harmonische Mittel der Preismesszahlen führt zum Preisindex nach Paasche: P p t 0 t 1 = 1 ∑ n j=1 1 m t0t1,j g t 1 j = 1 ∑ n j=1 p t0j p t1j q t1j p t1j ∑ n k=1 q t1k p t1k = ∑ n j=1 q t 1 j p t 1 j ∑ n j=1 q t 1 j p t 0 j . Ermitteln wir zur Veranschaulichung den Laspeyres-Preisindex für die Preisentwicklung der Periode 1 auf die Periode 2: P l t 1 t 2 = n ∑ j=1 m t 0 t 1 ,j g t 0 j = 1 · 0 . 250 + 1 · 0 . 375 + 1 . 5 · 0 . 375 = 1 . 19 . <?page no="114"?> 114 6 Preis- und Mengenindizes Für den Preisindex nach Paasche für die Entwicklung der Preise von der Periode 3 auf die Periode 4 ergibt sich P p t 3 t 4 = 1 ∑ n j=1 1 m t0t1,j g t 1 j = 1 1 0.8 · 0 . 421 + 1 0.8 · 0 . 421 + 1 0.5 · 0 . 158 = 0 . 73 . 6.5 Repräsentativgewichtung: Einzelpreise und Ausgabenanteile Die Darstellung in der Form der Messziffernmittelung ist von praktischer Bedeutung, weil z. B. beim Verbraucherpreisindex zwar rund 300 , 000 Einzelpreise, aber Ausgabenanteile nur für 700 Güter und Dienstleistungen ermittelt werden. Die vielen (im Mittel 429) Einzelpreise p ij ( i = 1 , . . . , n j ) eines Gutes oder einer Dienstleistung c j werden in den Perioden t 0 und t 1 ungewichtet gemittelt, und aus diesen mittleren Preisen wird eine Preismesszahl gebildet, die dann mit dem Ausgabenanteil gewichtet wird. Dieses Vorgehen wird als Repräsentativgewichtung bezeichnet. 4 Im Fall des Verbraucherpreisindex wird somit gerechnet P l t 0 ,t 1 = n ∑ j=1 ¯ p t 1 j ¯ p t 0 j g t 0 j , mit ¯ p t 1 j = 1 n j n j ∑ i=1 p t 1 ij und ¯ p t 0 j = 1 n j n j ∑ i=1 p t 0 ij . Hier ist zu beachten, dass durch diese Vorgehensweise teure Güter in stärkerem Maße berücksichtigt werden, weil das Verhältnis der Durchschnittspreise gerade das mit den Preisen der Periode t 0 gewichtete arithmetische Mittel der Preismesszahlen ist (vgl. W. Neubauer 1996: 77f). Dies lässt sich darstellen durch ¯ p t 1 j ¯ p t 0 j = ∑ n j i=1 p t 1 ij ∑ n j i=1 p t 0 ij = ∑ n j i=1 p t1ij p t0ij p t 0 ij ∑ n j i=1 p t 0 ij . 4 Preise, Verbraucherpreisindizes für Deutschland, Jahresbericht 2010, Statistisches Bundesamt, Wiesbaden 2011. <?page no="115"?> 6.6 Konstruktion von Indexziffern 115 Die angeführten Definitionen zeigen, dass sich Preisindizes stets auf zwei Zeitperioden beziehen. Man kann also nicht von einem absoluten Preisniveau, sondern nur von Veränderungen des Preisniveaus sprechen, wobei natürlich die Veränderungen auch davon abhängen, welche Arten von Preisindizes verwendet werden. Außerdem ist klar, dass stets eine Angabe der Gütersorte erfolgen muss, auf deren Transaktionen sich Veränderungen des Preisniveaus beziehen sollen. Das Statistische Bundesamt berechnet deshalb eine Vielzahl unterschiedlicher Preisindizes, die sich auf jeweils unterschiedlich ausgesuchte Arten von Gütern beziehen. 6.6 Konstruktion von Indexziffern Da in der amtlichen Statistik zumeist Indexziffern (auch Indexzahlen genannt) ausgewiesen werden, sollen diese kurz besprochen werden. Als Beispiel wird auf Preisindizes Bezug genommen (ganz analoge Überlegungen gelten für Mengenindizes). Das Ziel besteht in diesem Fall darin, die Preisentwicklung (Veränderungen des Preisniveaus) während einer Folge von Perioden t 0 , t 1 , t 2 , . . . darzustellen. t 0 wird als Basisperiode bezeichnet. Werden Laspeyres-Indizes verwendet, bezieht sich auch meistens das Wägungsschema auf diese Basisperiode, und es wird dann für alle weiteren Perioden unverändert beibehalten, bis (in größeren zeitlichen Abständen) ein neues Wägungsschema eingeführt wird. Das Wägungsschema gibt die Ausgabenanteile für Gütergruppen an und dient der Gewichtung der Preismessziffern. Der Indexziffer, mit der Veränderungen des Preisniveaus erfasst werden sollen, wird in der Basisperiode der Wert 100 gegeben. Bezeichnet I t die Indexziffer, wird also I t 0 = 100 gesetzt. Die weiteren Werte ergeben sich dann aus den Preisindizes. Tabelle 6.6 verdeutlicht die Berechnung. Zur Illustration können folgende Indexziffern für die Erzeugerpreise gewerblicher Produkte der Gütergruppe 10 11 12 (Schweinefleisch, frisch oder gekühlt) dienen. 5 Tabelle 6.7 zeigt die Preisentwicklung von 2013 bis 2018. R-6-4 Als Basisperiode dient in diesem Fall das Jahr 2015. Im Übergang von 2013 nach 2014 hat das Preisniveau um − 5 . 6 % abgenommen, 5 Statistisches Bundesamt, Genesis-Online, Index der Erzeugerpreise gewerblicher Produkte (Inlandsabsatz), nach dem Güterverzeichnis für Produktionsstatistiken, Ausgabe 2009 (GP 2009). <?page no="116"?> 116 6 Preis- und Mengenindizes Tabelle 6.6: Berechnung von Indexziffern für das Preisniveau. t Preisindex Indexziffer t 0 I t 0 = 100 t 1 P t 0 t 1 I t 1 = I t 0 P t 0 t 1 t 2 P t 1 t 2 I t 2 = I t 1 P t 1 t 2 t 3 P t 2 t 3 I t 3 = I t 2 P t 2 t 3 t 4 P t 3 t 4 I t 4 = I t 3 P t 3 t 4 Tabelle 6.7: Erzeugerpreisentwicklung, Schweinefleisch, frisch oder gekühlt. Jahr 2013 2014 2015 2016 2017 2018 Indexziffer 115.6 109.1 100.0 104.1 113.0 104.0 Proz. Ver. -5.6 -8.3 4.1 8.5 -8.0 im Übergang von 2014 nach 2015 um ( 100 . 0 109 . 1 − 1 ) · 100 ≈ − 8 . 3 % , usw. Zugrunde liegen Preisindizes nach Laspeyres, die, wie Tabelle 6.6 zeigt, direkt aus den prozentualen Veränderungen der Indexziffern berechnet werden können. 6.6.1 Der Verbraucherpreisindex Der Verbraucherpreisindex (früher Preisindex der Lebenshaltung) ist der meistbeachtete Preisindex und seine prozentuale Veränderung wird üblicherweise als Inflationsrate bezeichnet. Der Index wird nach der Indexformel von Laspeyres berechnet, und im Schnitt wird alle fünf Jahre das Wägungsschema aktualisiert. Die Datengrundlage des Verbraucherpreisindex wird sehr aufwendig ermittelt. Monatlich erfassen ungefähr 600 Preiserheber in 188 Gemeinden rund 300 , 000 Einzelpreise in knapp 40 , 000 Berichtsstellen (z. B. Einzelhandelsgeschäfte, Dienstleister, Internetanbieter). Die Berichtsgemeinden sind regional über das gesamte Bundesgebiet verteilt und bestehen sowohl aus Großstädten als auch aus mittleren und kleinen Gemeinden. Der Warenkorb besteht aus rund 700 Gütern und Dienstleistungen. Für diese Güter und Dienstleistungen werden ausgehend von den rund 300 , 000 Einzelpreisen mittlere <?page no="117"?> 6.6 Konstruktion von Indexziffern 117 Preisveränderungen berechnet. In die Indexformel gehen die für diese Güter und Dienstleistungen ermittelten Preismessziffern ein, die mit den jeweiligen Ausgabenanteilen im Basisjahr gewichtet werden. Grundlage der Ermittlung des Wägungsschemas sind die Einkommens- und Verbrauchsstichprobe (EVS), die das Ausgabeverhalten von rund 6000 Haushalten erfasst, sowie die Laufenden Wirtschaftsrechnungen und die Steuerstatistik. Für die letzten fünf Basisjahre - 1995, 2000, 2005, 2010 und 2015 - sind für 12 Gütergruppen (Abteilungen des Güterverzeichnisses) die Anteile an den Ausgaben in der Tabelle 6.8 dargestellt. 6 Innerhalb des Zeitraums von 20 Jahren haben sich teilweise deutliche Veränderungen der Ausgabenanteile ergeben. So hat sich z. B. der Anteil für Nachrichtenübermittlung um 18 % erhöht, der Anteil der Ausgaben für Bekleidung und Schuhe um 34 % verringert. 6 Statistisches Bundesamt (2019), Preise, Verbraucherpreisindex für Deutschland, Wägungsschema f.d. Basisjahr 2015, Wiesbaden, S.2. <?page no="118"?> 118 6 Preis- und Mengenindizes Tabelle 6.8: Verbraucherpreisindex (VPI): Wägungsschema (1995, 2000, 2005, 2010, 2015), ∑ = 1000. Abteilungen 1995 2000 2005 2010 2015 Nahrungsm. und alkoholfreie Getränke 131.26 103.35 103.55 102.71 96.85 Alkoholische Getränke und Tabakwaren 41.67 36.73 38.99 37.59 37.77 Bekleidung und Schuhe 68.76 55.09 48.88 44.93 45.34 Wohnung, Wasser, Strom, Gas etc. 274.77 302.66 308.00 317.29 324.70 Einrichtungsgegenstände 70.56 68.54 55.87 49.78 50.04 Gesundheitspflege 34.39 35.46 40.27 44.44 46.13 Verkehr 138.82 138.65 131.90 134.73 129.05 Nachrichtenübermittlung 22.66 25.21 31.00 30.10 26.72 Freizeit, Unterhaltung, Kultur 103.57 110.85 115.68 114.92 113.36 Bildungswesen 6.51 6.66 7.40 8.80 9.02 Beherbergungs- und Gaststättendienstl. 46.08 46.57 43.99 44.67 46.77 Andere Waren und Dienstleistungen 60.95 70.23 74.47 70.04 74.25 <?page no="119"?> 6.6 Konstruktion von Indexziffern 119 Jahr Preisindex 1880 1900 1920 1940 1960 1980 2000 2020 0 20 40 60 80 100 120 Abbildung 6.1: Preisentwicklung 1881-2018, 2015=100. 6.6.2 Entwicklung der Verbraucherpreise seit 1881 Das Statistische Bundesamt veröffentlicht in der Fachserie 17 Preise 7 eine lange Zeitreihe zur Entwicklung der Verbraucherpreise, die bis 1881 zurückreicht (vgl. Abb. 6.1). Für die Zusammenstellung mussten dabei mehrere Indexreihen verwendet werden, die sich auf verschiedene Gebietsstände und verschiedene Haushaltstypen beziehen. Die genaueren Angaben über die verketteten Indexreihen übernehmen wir vom Statistischen Bundesamt. Folgende Daten dienten als Grundlage der Nachweisung: 1. Für die Jahre 1881 bis 1913 ist der Durchschnitt aus 10 Indexziffern (Ernährung) verschiedener privater Autoren ermittelt worden. 2. In den Jahren 1914 bis 1923 wurde die Preisentwicklung in den wichtigsten Teilbereichen der Lebenshaltung durch die amtliche Statistik beobachtet. Für die Zeit von 1914 bis 1919 7 Statistisches Bundesamt (2011), Fachserie 17, Preise, Verbraucherpreisindizes für Deutschland, Jahresbericht 2010, Wiesbaden. Die aktuellen Werte stammen aus Genesis-Online, Verbraucherpreisindex, Jahreswerte. <?page no="120"?> 120 6 Preis- und Mengenindizes wurde der Durchschnitt aus den Gütergruppen Ernährung, Wohnung, Hausrat und Bekleidung berechnet, für die Jahre 1920 und 1921 der Durchschnitt aus den Gütergruppen Ernährung, Wohnung, Heizung, Beleuchtung und Bekleidung. 3. Wegen der sprunghaften Geldentwertung erschien eine Berechnung für die Jahre 1922 und 1923 nicht angebracht. 4. Indizes, die die Verbraucherpreisentwicklung in allen Bereichen der Lebenshaltung in Deutschland aufzeigen, werden seit 1924 berechnet. Das Statistische Reichsamt veröffentlichte bis 1944 die „Reichsindexziffer für die Lebenshaltungskosten“. 5. Seit 1945 werden verschiedene Preisindizes für die Lebenshaltung vom Statistischen Bundesamt bzw. dessen Vorgängerorganisation berechnet. Der Reihe liegt von 1945 bis 1961 der „Preisindex für die Lebenshaltung von 4-Personen-Haushalten von Arbeitern und Angestellten mit mittlerem Einkommen“ zu Grunde. 6. Ab 1962 ist der „Preisindex für die Lebenshaltung aller Privaten Haushalte“ in den jeweiligen Gebietsständen maßgeblich. 7. Die Jahresdurchschnitte ab 1949 wurden als arithmetisches Mittel aus den gerundeten Monatsindizes berechnet und auf eine Nachkommastelle gerundet. Bei der Berechnung der Monatswerte ab Juni 1948 wurden die jeweils auf der Originalbasis berechneten Indizes zu Grunde gelegt. Abbildung 6.2 zeigt bis zum Beginn der extremen Inflation im Jahre 1919 einen erratischen Verlauf mit mäßigen Preisveränderungen. Für die Jahre der Hyperinflation 1920 bis 1924 werden keine Preisveränderungen ausgewiesen. 8 In den Jahren der Depression 1931 und 1932 betragen die Preisrückgänge − 8 . 1 % und − 11 . 4 %. In den Jahren unmittelbar nach dem zweiten Weltkrieg zeigen sich extreme Preisveränderungen (1948: 15 . 3 %, 1950: − 6 . 2 %). In den Jahren 1971 bis 1975 sowie in den Jahren 1981 und 1982 waren Inflationsraten von über 5 % zu verzeichnen. Seit Mitte der 90er Jahre sind die Preisveränderungen sehr moderat. 8 In Abbildung 6.2 wurden zusätzlich die Jahre 1915 bis 1919 mit ausgesprochen hohen Inflationsraten nicht berücksichtigt. <?page no="121"?> 6.7 Kettenindizes 121 Jahr Inflationsrate -10 -5 0 5 10 15 20 1880 1900 1920 1940 1960 1980 2000 2020 Abbildung 6.2: Jährliche Preisveränderung 1881-2018. 6.7 Kettenindizes Im Rahmen der Revision der Volkswirtschaftlichen Gesamtrechnung des Jahres 2005 wurden in Deutschland Kettenindizes eingeführt. 9 Anstelle der bisher verwendeten Laspeyres-Indizes zur Preismessung mit fester Basis werden nun verkettete Lasypeyres- Indizes mit Vorjahresbasis verwendet. Wurde bisher lediglich im Fünf-Jahresrhythmus bei Anpassung des Basisjahres verkettet, wird nun jährlich verkettet. Damit geht auch bei der Ermittlung der „preisbereinigten Größen“ eine Änderung einher. Anstelle des Ausweises in konstanten Preisen einer Basisperiode werden nun lediglich Kettenindizes der preisbereinigten Wertgrößen veröffentlicht. 9 Statistisches Bundesamt, Revision der Volkswirtschaftlichen Gesamtrechnungen 2005 für den Zeitraum 1991 bis 2004, Wirtschaft und Statistik, 2005, 5, S.425-462. <?page no="122"?> 122 6 Preis- und Mengenindizes 6.7.1 Definition von Kettenindizes Betrachten wir zunächst im Vergleich den bisherigen Laspeyres- Preisindex für die Perioden t 1 und t 2 auf fester Basis t 0 : P l t 0 t 1 = ∑ n j=1 p t 1 j q t 0 j ∑ n j=1 p t 0 j q t 0 j und P l t 0 t 2 = ∑ n j=1 p t 2 j q t 0 j ∑ n j=1 p t 0 j q t 0 j . Aus den beiden Preisindizes der Perioden t 1 und t 2 lässt sich die Preisveränderung von Periode t 1 auf Periode t 2 mit fester Basis t 0 ermitteln: P l t 1 t 2 ,(t 0 ) = P l t 0 t 2 P l t 0 t 1 = ∑ n j=1 p t 2 j q t 0 j ∑ n j=1 p t 1 j q t 0 j Im Vergleich hierzu wird beim aktuell verwendeten Verfahren der Index P l t 1 t 2 = ∑ n j=1 p t 2 j q t 1 j ∑ n j=1 p t 1 j q t 1 j anstelle von P l t 1 t 2 ,(t 0 ) berechnet. Für den Zeitraum von t 0 bis t 2 wird nun die Preisveränderung P K t 0 t 2 = P l t 0 ,t 1 P l t 1 ,t 2 = ∑ n j=1 p t 1 j q t 0 j ∑ n j=1 p t 0 j q t 0 j ∑ n j=1 p t 2 j q t 1 j ∑ n j=1 p t 1 j q t 1 j ermittelt, indem die beiden Laspeyres-Preisindizes verkettet werden. Zwar sind aus beiden verketteten Laspeyres-Preisindizes Mengenveränderungen ausgeschaltet, jedoch gehen durch die beiden unterschiedlichen Basisjahre indirekt Mengenveränderungen in die Preismessung ein. 6.7.2 Vor- und Nachteile von Kettenindizes Beim Laspeyres-Index werden bei zurückliegendem Basisjahr nicht mehr aktuelle Mengenrelationen verwendet. Da tendenziell zwischen den Mengen- und Preismesszahlen der Güter eine negative Korrelation vorliegt, überzeichnet der Laspeyres-Preisindex die Preissteigerung umso stärker, je weiter das Basisjahr zurückliegt. Mit der Vorjahrespreisbasis wird dieses „Veralten des Warenkorbs“ vermieden. Bei der Anpassung des Basisjahres eines Laspeyres- Index ergeben sich bei den Revisionen (rückwirkend) immer Änderungen der zuvor ausgewiesenen Preis- und Mengenveränderungen. <?page no="123"?> 6.7 Kettenindizes 123 Für die Preisveränderung des Jahres t 4 gegenüber t 3 z. B. ergibt sich vor bzw. nach Revision, d.h. Anpassung des Basisjahres von t 0 auf t 5 P l t 3 t 4 ,(t 0 ) = ∑ n j=1 p t 4 j q t 0 j ∑ n j=1 p t 3 j q t 0 j ̸ = P l t 3 t 4 ,(t 5 ) = ∑ n j=1 p t 4 j q t 5 j ∑ n j=1 p t 3 j q t 5 j Und für die Mengenveränderungen ergibt sich Q l t 3 t 4 ,(t 0 ) = ∑ n j=1 p t 0 j q t 4 j ∑ n j=1 p t 0 j q t 3 j ̸ = Q l t 3 t 4 ,(t 5 ) = ∑ n j=1 p t 5 j q t 4 j ∑ n j=1 p t 5 j q t 3 j . Derartige rückwirkende Änderungen sind bei der Verwendung der Vorjahrespreisbasis ausgeschlossen. Den Vorteilen stehen allerdings auch gravierende Nachteile gegenüber: Wie oben erwähnt, liefern Kettenpreisindizes keine konsistente Isolierung einer Preisveränderung. Der Bedeutungsgehalt eines bestimmten Indexstandes ist somit unklar. Der Kettenindex ist zudem nicht pfadinvariant. Sind etwa in Periode t 2 die Preise identisch zu denen in t 0 , resultiert beim Laspeyres-Index P l t 0 ,t 2 = ∑ n j=1 p t 2 j q t 0 j ∑ n j=1 p t 2 j q t 0 j = 1 und beim Kettenindex hingegen P K t 0 ,t 2 = P l t 0 ,t 1 P l t 1 ,t 2 = ∑ n j=1 p t 1 j q t 0 j ∑ n j=1 p t 2 j q t 0 j ∑ n j=1 p t 0 j q t 1 j ∑ n j=1 p t 1 j q t 1 j ̸ = 1 . 6.7.3 Deflationierung mit Kettenindizes Mit dem Übergang zur Vorjahrespreisbasis geht einher, dass vom Statistischen Bundesamt keine Zeitreihen von „realen Größen“, d.h. von Mengensurrogaten durch die Verwendung konstanter Preise, mehr veröffentlicht werden. Informationen über den Privaten Verbrauch zweier Perioden t 0 und t 4 in den Preisen des Basisjahres t 0 werden z. B. nicht mehr veröffentlicht. Stattdessen werden lediglich jährliche „reale Wachstumsraten“ ermittelt und zu Zeitreihen von Indizes verknüpft. Somit ist ein Vergleich etwa von <?page no="124"?> 124 6 Preis- und Mengenindizes ∑ n j=1 p t 0 j q t 4 j und ∑ n j=1 p t 0 j q t 0 j nicht mehr möglich. Veröffentlicht wird lediglich die aufmultiplizierte relative Veränderung Q K t 0 ,t 4 = Q l t 0 ,t 1 Q l t 1 ,t 2 Q l t 2 ,t 3 Q l t 3 ,t 4 . Auch hier gilt, dass aus den einzelnen Faktoren (Mengenindizes) Preisveränderungen eliminiert sind, aber durch die unterschiedlichen Basisjahre indirekt Preisveränderungen eingehen. Während in der Preisstatistik, etwa beim Verbraucherpreisindex, Laspeyres-Preisindizes berechnet werden, sind die Preisindizes der Verwendungsrechnung der Volkswirtschaftlichen Gesamtrechnungen implizite Kettenindizes vom Typ Paasche. Ausgangsbasis sind die mit Vorjahrespreisen berechneten („deflationierten“) Größen ∑ n j=1 p t 0 j q t 1 j . Die Division der Werte in jeweiligen Preisen führt zu „impliziten“ Paasche-Indizes P p t 0 ,t 1 = ∑ n j=1 p t 1 j q t 1 j ∑ n j=1 p t 0 j q t 1 j . <?page no="125"?> 6.8 Aufgaben 125 6.8 Aufgaben 1. Die nachfolgende Tabelle enthält die Preise und Mengen von zwei Gütern in drei Perioden: Preise Mengen t Gut A Gut B Gut A Gut B 0 18 50 4 10 1 20 48 6 9 2 21 51 5 15 a) Ermitteln Sie eine Tabelle mit den absoluten und den relativen Ausgaben für die beiden Güter in den drei Perioden. b) Ermitteln Sie die Preismesszahlen der beiden Güter mit konstanter Basisperiode 0 und variabler Basisperiode (jeweilige Vorperiode). c) Ermitteln Sie das mit den relativen Ausgaben der Periode 0 gewichtete arithmetische Mittel der Preismesszahlen der Perioden 1 bzw. 2 auf Basis der Periode 0. Wie nennt man dieses gewichtete arithmetische Mittel? d) Ermitteln Sie das mit den relativen Ausgaben der Periode 1 gewichtete harmonische Mittel der Preismesszahlen der Periode 1 auf Basis der Periode 0. e) Ermitteln Sie analog zu Aufgabe d das gewichtete harmonische Mittel der Preismeßzahlen der Periode 2 auf Basis der Periode 1 unter Verwendung der Ausgaben der Periode 2. Wie nennt man die von Ihnen berechneten harmonischen Mittelwerte? f) Die von Ihnen ermittelten Preisindizes lassen sich auch anstelle über die Mittelung von Messzahlen über den Vergleich von Warenkörben, tatsächlichen und fiktiven, ermitteln. Berechnen Sie die Preisindizes auch auf diesem Wege. <?page no="126"?> 126 6 Preis- und Mengenindizes g) Die beiden von Ihnen berechneten harmonischen Mittel messen die isolierte mittlere Preisveränderung von Periode 1 gegenüber Periode 0 bzw. von Periode 2 gegenüber Periode 0. Prüfen Sie, ob Sie aus diesen beiden isolierten Preisentwicklungen die isolierte Preisentwicklung von Periode 2 gegenüber Periode 1 ermitteln können. h) Gelingt Ihnen die Ermittlung der isolierten Preisveränderung von Periode 1 auf Periode 2 bei den Preisindizes nach Laspeyres? i) Berechnen Sie die beiden Mengenindizes Q l t 0 ,t 2 und Q p t 0 ,t 1 . 2. Erläutern Sie die nachfolgenden drei Aussagen. a) Kettenindizes besitzen im Vergleich zu Preisindizes vom Typ Laspeyres den Vorteil, dass weniger veraltete Gewichtungsschemata verwendet werden. b) Kettenindizes sind nicht pfadinvariant. c) Bei der Messung der Preisveränderung von Periode t 2 gegenüber t 0 mit Hilfe von Kettenindizes werden indirekt auch Mengenänderung erfasst. <?page no="127"?> 6.9 R-Code 127 6.9 R-Code R-6-1 ## Daten generieren # Mengen q1 <c(1,2,3) q2 <c(2,2,3) q3 <c(1,1,4) q4 <c(2,2,3) # Preise p1 <c(4,3,2) p2 <c(4,3,3) p3 <c(5,5,2) p4 <c(4,4,1) # Matrix der Mengen qm <rbind(q1,q2,q3,q4) qm # Matrix der Preise pm <rbind(p1,p2,p3,p4) pm # Umsatz pro Gut u.pro.Gut <qm*pm u.pro.Gut u <rowSums(u.pro.Gut) u R-6-2 ## Preis- und Mengenindizes # Daten Basisperiode q0 <qm[-4,] q0 p0 <pm[-4,] p0 # Daten Berichtsperiode q1 <qm[-1,] q1 p1 <pm[-1,] p1 # verschiedene Warenkörbe berechnen q0p0 <rowSums(q0*p0) q0p0 q1p1 <rowSums(q1*p1) q1p1 q0p1 <rowSums(q0*p1) q0p1 q1p0 <rowSums(q1*p0) q1p0 # Preisindex nach Laspeyres P_L <q0p1/ q0p0; P_L <?page no="128"?> 128 6 Preis- und Mengenindizes # Preisindex nach Paasche P_P <q1p1/ q1p0 P_P # Mengenindex nach Laspeyres Q_L <q1p0/ q0p0 Q_L # Mengenindex nach nach Paasche Q_P <q1p1/ q0p1 Q_P R-6-3 # Messziffern m <p1 / p0 m # Ausgabenanteile g <qm*pm/ u g0 <g[-4,] g0 g1 <-g[-1,] g1 R-6-4 # Erzeugerpreisentwicklung, Schweinefleisch, frisch oder gekühlt Index <c(115.6,109.1,100.0,104.1,113.0,104.0) dIndex <- Index[-1]/ Index[-6]*100 - 100 dIndex <?page no="129"?> 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und Streuungszerlegung Die Varianz und die Standardabweichung sind wenig anschauliche Streuungsmaße. Lassen sich die Einheiten verschiedenen Klassen zuordnen, dann erlaubt die Streuungszerlegung eine vollständige Aufteilung der Gesamtstreuung in die Streuung innerhalb der Klassen und zwischen den Klassen. Bestehen zwischen den Komponenten einer mehrdimensionalen Variable Abhängigkeiten, dann liefern bedingte Häufigkeiten und bedingte Verteilungen Informationen über diese Abhängigkeiten. 7.1 Mehrdimensionale Variablen . . . . . . . . . . . . . . . . 130 7.2 Bedingte Häufigkeiten . . . . . . . . . . . . . . . . . . . . 131 7.3 Streuungszerlegung . . . . . . . . . . . . . . . . . . . . . 133 7.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 136 7.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 <?page no="130"?> 130 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und . . . Tabelle 7.1: Zweidimensionale Variable, Beispielswerte. i x i y i i x i y i i x i y i 1 0 3 5 1 1 9 0 1 2 1 1 6 1 1 10 1 2 3 1 2 7 1 1 11 1 2 4 0 1 8 0 1 12 1 1 7.1 Mehrdimensionale Variablen Viele Fragen der Statistik betreffen Zusammenhänge zwischen zwei oder mehr Variablen. Mehrere Variablen müssen dann simultan betrachtet werden, und wir sprechen von zwei- oder mehrdimensionale Variablen . Für eine zweidimensionale Variable verwenden wir beispielsweise die Notation ( X, Y ), um deutlich zu machen, dass die beiden Komponenten, X und Y , simultan betrachtet werden sollen. Eine solche Variable ordnet jeder Einheit zwei Merkmalswerte zu, einen Wert x i von X und einen Wert y i von Y . Um auszudrücken, dass beide Werte zur gleichen Einheit gehören, schreiben wir sie auch in der Form ( x i , y i ) als einen Wert der Variablen ( X, Y ). Zur Illustration zeigt Tabelle 7.1 zufällig erzeugte Werte einer zweidimensionalen Variable ( X, Y ) für 12 Einheiten. R-7-1 Die Häufigkeitsfunktion einer zweidimensionalen Variablen ( X, Y ) hat die Form P ( X = x, Y = y ). Sie gibt den Anteil der Einheiten an, bei denen X den Wert x und Y den Wert y annimmt; beispielsweise P( X = 0 , Y = 3) = 1 / 12 in unserem Zahlenbeispiel. Natürlich kann man auch die beiden Komponenten separat betrachten. Die Verteilungen der einzelnen Variablen werden dann als Randverteilungen bezeichnet. Die Randverteilung von X wird durch P( X = x ) = K ∑ k=1 P( X = x, Y = ˜ y k ) ausgedrückt, wobei ˜ y 1 , . . . , ˜ y K die möglichen Merkmalswerte von Y sind. Ganz analog kann die Randverteilung von Y definiert werden. Tabelle 7.2 zeigt für unser Zahlenbeispiel die gemeinsame Verteilung und die Randverteilungen. Zu beachten ist, dass ausgehend von den Randverteilungen von <?page no="131"?> 7.2 Bedingte Häufigkeiten 131 Tabelle 7.2: Gemeinsame Verteilung und Randverteilungen für das Zahlenbeispiel. X/ Y Y=1 Y=2 Y=3 Insg. X=0 0.250 0.000 0.083 0.333 X=1 0.417 0.250 0.000 0.667 Insg. 0.667 0.250 0.083 1.000 X und Y nicht auf die gemeinsamen Verteilung von ( X, Y ) geschlossen werden kann. In der Regel gibt es sehr viele verschiedene gemeinsame Verteilungen, die die gleichen Randverteilungen haben. R-7-2 7.2 Bedingte Häufigkeiten Wir setzen wieder eine zweidimensionale Variable ( X, Y ) voraus. Oft gilt das Interesse der Verteilung von X unter der Bedingung, dass Y einen bestimmten Wert annimmt. Dies führt zur Idee einer bedingten Verteilung bzw. zu bedingten Häufigkeiten . Wir verwenden die Notation P( X = x | Y = y ) , womit die Häufigkeit von X = x in der Gesamtheit derjenigen Einheiten gemeint ist, bei denen Y den Wert y hat. Ganz analog kann man sich auf P( Y = y | X = x ) beziehen. Man kann diese bedingten Häufigkeiten durch die gemeinsame Verteilung und die Randverteilungen ausdrücken. So gilt zum Beispiel: P( X = x | Y = y ) = P( X = x, Y = y ) P( Y = y ) . Für das Zahlenbeispiel der Tabelle 7.1 findet man beispielsweise die Häufigkeit von X = 0 unter der Bedingung, dass Y = 1 ist, durch P( X = 0 | Y = 1) = 0 . 25 0 . 667 = 0 . 375 . Betrachten wir jetzt eine zweidimensionale Variable ( X, Y ) für die n = 1238 Personen in unserem ALLBUS-File (Westdeutschland). X erfasst das Geschlecht (0 = männlich, 1 = weiblich), Y <?page no="132"?> 132 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und . . . Tabelle 7.3: Gemeinsame Verteilung inklusive der Randhäufigkeiten. Geschlecht (X)/ Beruf (Y) 0 1 Insg. 0 0.497 0.067 0.564 1 0.425 0.011 0.436 Insg. 0.922 0.078 1.000 erfasst den Beruf (1 = Führungskraft, 0 = andernfalls). Die gemeinsame Verteilung und die Randhäufigkeiten werden in Tabelle 7.3 dargestellt. R-7-3 Wir finden z. B.: P( X = 1 | Y = 1) = P( X = 1 , Y = 1) P( Y = 1) = 0 . 011 0 . 078 = 0 . 141 , d.h., 14.1 % der Führungskräfte sind Frauen. Andererseits ist der Anteil der Männer in den übrigen Berufen P ( X = 0 | Y = 0) = 53 . 9 %. Eine weitere wichtige Gleichung ist der Satz von Bayes . Für seine Formulierung nehmen wir an, dass die Merkmalswerte von X durch ˜ x 1 , . . . , ˜ x J , die Merkmalswerte von Y durch ˜ y 1 , . . . , ˜ y K bezeichnet werden. Dann gilt folgende Gleichung: P( Y = ˜ y k | X = ˜ x j ) = P( X = ˜ x j | Y = ˜ y k ) P( Y = ˜ y k ) P( X = ˜ x j ) = P( X = ˜ x j | Y = ˜ y k ) P( Y = ˜ y k ) ∑ K k=1 P( X = ˜ x j | Y = ˜ y k ) P( Y = ˜ y k ) Zur Illustration bleiben wir bei dem Beispiel. Wären die Anteile der Frauen in den beiden Berufsgruppen, d.h. P ( X = 1 | Y = 0) und P( X = 1 | Y = 1) sowie die unbedingten Berufsgruppenanteile P ( Y = 0) und P ( Y = 1) bekannt, ließe sich daraus mit Hilfe des Satzes von Bayes die bedingte Häufigkeit einer Führungsposition für Frauen ausrechnen: P( Y = 1 | X = 1) = P( X = 1 | Y = 1) P( Y = 1) P( X = 1 | Y = 0) P( Y = 0) + P( X = 1 | Y = 1) P( Y = 1) = 0 . 141 · 0 . 078 0 . 461 · 0 . 922 + 0 . 141 · 0 . 078 = 0 . 025 . <?page no="133"?> 7.3 Streuungszerlegung 133 7.3 Streuungszerlegung Wir betrachten wieder eine zweidimensionale Variable ( X, Y ) mit Werten ( x i , y i ) für n Einheiten. Die Merkmalswerte von X werden durch ˜ x 1 , . . . , ˜ x J , die Merkmalswerte von Y durch ˜ y 1 , . . . , ˜ y K bezeichnet. Wir stellen uns vor, dass die Gesamtheit der Einheiten entsprechend den Werten von Y aus K Klassen besteht, und wir möchten zeigen, dass sich die Varianz von X im Hinblick auf diese Klassen auf eine interessante Weise zerlegen lässt. Wir beginnen mit der Varianz von X : σ 2 X = J ∑ j=1 (˜ x j − ¯ x ) 2 P( X = ˜ x j ) = J ∑ j=1 (˜ x j − ¯ x ) 2 K ∑ k=1 P( X = ˜ x j | Y = ˜ y k ) P( Y = ˜ y k ) = K ∑ k=1 J ∑ j=1 (˜ x j − ¯ x ) 2 P( X = ˜ x j | Y = ˜ y k ) P( Y = ˜ y k ) . Wenn ¯ x k den Mittelwert von X in der Klasse Y = ˜ y k bezeichnet, lässt sich in der letzten Zeile anstelle von (˜ x j − ¯ x ) 2 auch (˜ x j − ¯ x k + ¯ x k − ¯ x ) 2 = (˜ x j − ¯ x k ) 2 + (¯ x k − ¯ x ) 2 + 2 (˜ x j − ¯ x k ) (¯ x k − ¯ x ) schreiben. Der letzten Zeile entsprechen also drei Summanden. Der erste Summand ist K ∑ k=1 J ∑ j=1 (˜ x j − ¯ x k ) 2 P( X = ˜ x j | Y = ˜ y k ) P( Y = ˜ y k ) = K ∑ k=1 σ 2 X|˜ y k P( Y = ˜ y k ) , wobei σ 2 X|˜ y k = ∑ J j=1 ( ˜ x j − ¯ x k ) 2 P ( X = ˜ x j | Y = ˜ y k ) die Varianz <?page no="134"?> 134 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und . . . von X in der Klasse Y = ˜ y k ist. Der zweite Summand ist K ∑ k=1 J ∑ j=1 (¯ x k − ¯ x ) 2 P( X = ˜ x j | Y = ˜ y k ) P( Y = ˜ y k ) = K ∑ k=1 (¯ x k − ¯ x ) 2 P( Y = ˜ y k ) . Der dritte Summand ist 0, wie man durch folgende Umformung zeigen kann: 2 K ∑ k=1 J ∑ j=1 (˜ x j − ¯ x k ) (¯ x k − ¯ x ) P( X = ˜ x j | Y = ˜ y k ) P( Y = ˜ y k ) = 2 K ∑ k=1 (¯ x k − ¯ x ) P( Y = ˜ y k ) J ∑ j=1 (˜ x j − ¯ x k ) P( X = ˜ x j | Y = ˜ y k ) = 2 K ∑ k=1 (¯ x k − ¯ x ) P( Y = ˜ y k ) · 0 = 0 , da in jeder der K Klassen die Summe der mit den Häufigkeiten gewichteten Abweichungen vom arithmetischen Mittel gerade 0 ist (Nulleigenschaft des arithmetischen Mittels). Die Varianz von X besteht also aus zwei Summanden σ 2 X = K ∑ k=1 σ 2 X|˜ y k P( Y = ˜ y k ) + K ∑ k=1 (¯ x k − ¯ x ) 2 P( Y = ˜ y k ) . Der erste Summand ist ein Mittelwert der Varianzen in den einzelnen Klassen (interne Varianz), der zweite Summand zeigt die Streuung der Klassenmittelwerte um den gesamten Mittelwert und kann als Varianz zwischen den Klassen (externe Varianz) interpretiert werden. Zur Illustration betrachten wir eine Variable ( X, Y ) für die 1238 Personen in unserem ALLBUS-File (Westdeutschland). X erfasst die Löhne, Y erfasst den Beruf, wobei wir jetzt alle K = 9 Berufe unterscheiden. Tabelle 7.4 zeigt die Anteile der Berufe P( Y = ˜ y k ), die Durchschnittslöhne in den Berufen ¯ x k , die Varianzen in den <?page no="135"?> 7.3 Streuungszerlegung 135 Tabelle 7.4: Streuungszerlegung, Lohn und Beruf. Beruf P( Y = ˜ y k ) ¯ x k σ 2 X|˜ y k (¯ x k − ¯ x ) 2 1 Führungskräfte 0.078 3.773 5.037 2.215 2 Akademiker 0.243 2.971 2.872 0.471 3 Techniker 0.263 2.023 1.099 0.068 4 Bürokräfte 0.096 1.749 0.738 0.287 5 Dienstleister 0.093 1.568 1.061 0.513 6 Bauern 0.018 1.872 2.233 0.170 7 Handwerker 0.118 2.059 0.598 0.051 8 Monteure 0.051 1.878 0.432 0.165 9 Hilfsarbeiter 0.040 1.228 0.272 1.118 Berufen σ 2 X|˜ y k und die quadrierten Abweichungen der Klassenmittel vom Gesamtmittelwert. Um allzu große Zahlen zu vermeiden, betrachten wir in diesem Beispiel die Netto-Einkommen in 1000 Euro. R-7-4 Für die durchschnittliche Streuung der Löhne in den Berufen erhalten wir K ∑ k=1 σ 2 X|˜ y k P( Y = ˜ y k ) = 1 . 695 . Für die Streuung der Durchschnittslöhne der Berufe ergibt sich K ∑ k=1 (¯ x k − ¯ x ) 2 P( Y = ˜ y k ) = 0 . 443 . Beide Varianzkomponenten addieren sich zur Gesamtvarianz σ 2 X = 2 . 138. Das Verhältnis der Varianz zwischen den Klassen zur Gesamtvarianz gibt Auskunft darüber, welcher Anteil der Gesamtvarianz durch die Klassenzugehörigkeit (hier: die verschiedenen Berufe) erklärt werden kann. In unserem Beispiel ist der Anteil sehr klein: 0 . 443 2 . 138 = 0 . 207 . Die Varianz der Löhne ist also nur zum geringeren Anteil (rund 21 %) auf die Unterschiede zwischen den Durchschnittslöhnen der Berufe zurückzuführen und beruht in stärkerem Maße auf der Varianz der Löhne in den Berufen. R-7-5 <?page no="136"?> 136 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und . . . 7.4 Aufgaben 1. Gehen Sie von der in Abschnitt 7.2 definierten Variablen ( X, Y ) aus. Ihnen ist bekannt, dass 43 . 6 % der Personen Frauen sind. Zudem wissen Sie, dass der Anteil der Führungskräfte unter den Frauen 2 . 5 % und der Anteil der Führungskräfte unter den Männern 11 . 9 % beträgt. Wie hoch ist der Anteil der Frauen unter allen Führungskräften? (Verwenden Sie den Satz von Bayes.) 2. Leiten Sie ausgehend von der Definition der Varianz σ 2 X = J ∑ j=1 (˜ x j − ¯ x ) 2 P( X = ˜ x j ) den Ausdruck σ 2 X = K ∑ k=1 σ 2 X|˜ y k P( Y = ˜ y k ) + K ∑ k=1 (¯ x k − ¯ x ) 2 P( Y = ˜ y k ) her. 3. Ihnen liegen die Einkommen von fünf Personen vor (in Tsd. e ): x 1 = 20 , x 2 = 26 , x 3 = 45 , x 4 = 52 , x 5 = 107. Fassen Sie die zwei kleinsten und die drei größten Werte zu jeweils einer Klasse zusammen und berechnen Sie für diese Situation mit einer Streuungszerlegung die interne und die externe Varianz. 4. Folgende Tabelle enthält Angaben über Löhne in drei Bildungsklassen. 1 Führen Sie davon ausgehend eine Streuungszerlegung durch. Wie hoch ist der Anteil der Lohnvarianz, der durch die unterschiedlichen Bildungsniveaus erklärt werden kann? 1 Die drei Bildungsklassen werden ausgehend von den Bildungsjahren ermittelt: Kein Abitur für weniger als 12 Bildungsjahre, Abitur (oder abgeschl. Lehre) zwischen 12 und 14.5 Bildungsjahre und Studium ab 15 Bildungsjahren. <?page no="137"?> 7.4 Aufgaben 137 Bildungsniveau P( Y = ˜ y k ) ¯ x k σ 2 X|˜ y k (¯ x k − ¯ x ) 2 1 Kein Abitur 0.422 1.801 0.824 0.234 2 Abitur 0.229 2.184 2.143 0.010 3 Studium 0.349 2.936 3.011 0.424 <?page no="138"?> 138 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und . . . 7.5 R-Code R-7-1 ## Daten generieren # Daten werden zufällig gezogen, mittels set.seed() wird das Ergebnis # reproduzierbar set.seed(3) n <- 12 X <sample(x = 0: 1, size = n, replace = TRUE) X Y <sample(x = 1: 3, size = n, replace = TRUE) Y R-7-2 # Kontingenztabelle (absolut) tab.abs <table(X, Y) tab.abs # Kontingenztabelle (relativ) tab.rel <tab.abs / n tab.rel # Randverteilung addmargins(A = tab.rel) R-7-3 ## Daten einlesen (nur West) d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) d <d[d$ostwest==0,] # Anzahl an Beobachtungen n <nrow(d) # Variablen geschlecht <d$geschlecht s <d$beruf # umkodieren: Beruf ==1 1, Beruf ! =1 = 0 s1 <as.numeric(s == 1) # Kontingenztabelle (relativ) tab.rel <table(geschlecht, s1) / n tab.rel # Randverteilung round(addmargins(A = tab.rel),3) R-7-4 # Vektor mit Einkommen erstellen (in Tsd.) e <d$einkommen / 1000 # relative Anteile der Berufe njn <table(s) / n; njn <?page no="139"?> 7.5 R-Code 139 # mittleres Lohnniveau über alle Berufe x.quer <mean(e) x.quer # mittleres Lohnniveau der Berufe xj.quer <tapply(X = e, INDEX = s, FUN = mean) xj.quer # Varianz der Löhne in den Berufen # Funktion für empirische Varianz erstellen VarEmp <function(x) { n <length(x) var.emp <- (n-1)/ n * var(x) return(var.emp) } # jetzt wird die Funktion in tapply() genutzt sigma2j <tapply(X = e, INDEX = s, FUN = VarEmp) sigma2j # quadrierte Differenz des Lohnniveaus ... diff2 <- (xj.quer x.quer)^2 diff2 R-7-5 # Lohnstreuung in den Klassen lsik <sum(njn * sigma2j) lsik # Varianz der Löhne zwischen den Klassen vlzk <sum(njn * diff2) vlzk # Varianzkomponenten addieren sich zur Gesamtvarianz var.ges <lsik + vlzk var.ges # Verhältnis der Varianz zwischen den Klassen zur Gesamtvarianz vlzk / var.ges <?page no="141"?> 8 Korrelation: Metrische Variablen Um das Ausmaß des Zusammenhangs verschiedener metrischer Merkmale zu untersuchen, sind Daten für die einzelnen Einheiten von diesen Merkmalen Voraussetzung. Wichtige Maßzahlen des Zusammenhangs sind die Kovarianz und die Korrelation. Beide Maßzahlen werden in diesem Kapitel besprochen. 8.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 142 8.2 Eine zweidimensionale Variable . . . . . . . . . . . . . . . 142 8.3 Die Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . 143 8.3.1 Ein Zahlenbeispiel . . . . . . . . . . . . . . . . . . 144 8.3.2 Eigenschaften der Kovarianz . . . . . . . . . . . . . 144 8.4 Der Korrelationskoeffizient von Pearson . . . . . . . . . . . 146 8.4.1 Eigenschaften des Korrelationskoeffizienten . . . . . 147 8.4.2 Die Kovarianz standardisierter Variablen . . . . . . 148 8.4.3 Ausbildungsjahre und Einkommen . . . . . . . . . 149 8.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 150 8.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 <?page no="142"?> 142 8 Korrelation: Metrische Variablen 8.1 Einleitung Viele Fragestellungen der Statistik beziehen sich auf Zusammenhänge zwischen Variablen. Zum Beispiel werden Zusammenhänge zwischen dem verfügbaren Einkommen und den Konsumausgaben untersucht, oder Zusammenhänge zwischen der Zahl der Bildungsjahre und dem erzielten Einkommen. Notwendig ist hierfür, dass für die einzelnen untersuchten Einheiten die Informationen jeweils für beide Merkmale bekannt sind. Grundlegende Methoden der Zusammenhangsanalyse sind die Korrelationsrechnung und die Regressionsrechnung. In diesem Kapitel betrachten wir die Korrelationsrechnung für metrische Variablen. 8.2 Eine zweidimensionale Variable Wir gehen von einer zweidimensionalen statistischen Variablen ( X, Y ) aus, durch die jeder Einheit zwei Merkmalswerte zugeordnet werden. Der Einheit i werden die Merkmalswerte x i und y i zugeordnet ( i = 1 , . . . , n ). Als ein einfaches Zahlenbeispiel betrachten wir eine Gesamtheit von n = 5 Einheiten, für die die Merkmalswerte ( x 1 , y 1 ) = (1 , 2) , ( x 2 , y 2 ) = (2 , 3) , ( x 3 , y 3 ) = (3 , 9) , ( x 4 , y 4 ) = (4 , 6) , ( x 5 , y 5 ) = (5 , 10) vorliegen (Siehe Abbildung 8.1). Die separaten Verteilungen von X bzw. Y werden als Randverteilungen der Variablen ( X, Y ) bezeichnet. Sie können z. B. durch Mittelwerte und Varianzen charakterisiert werden. Für das Zahlenbeispiel finden wir ¯ x = 3, ¯ y = 6, σ 2 X = 2, σ 2 Y = 10. Diese Mittelwerte und Varianzen liefern aber offenbar keine Information über die gemeinsame Verteilung von X und Y ; dafür müssen andere Charakterisierungen verwendet werden. R-8-1 <?page no="143"?> 8.3 Die Kovarianz 143 1 2 3 4 5 2 4 6 8 10 x y Abbildung 8.1: Streudiagramm für das Zahlenbeispiel. 8.3 Die Kovarianz Ein Maß des Zusammenhangs von X und Y ist die Kovarianz σ XY = 1 n n ∑ i=1 ( x i − ¯ x ) ( y i − ¯ y ) . Sie ist definiert als Mittelwert der Produkte der Abweichungen der Werte der Variablen X und Y von ihren Mittelwerten. Die Kovarianz ist positiv, falls tendenziell überdurchschnittliche X -Werte mit überdurchschnittlichen Y -Werten und unterdurchschnittliche X -Werte mit unterdurchschnittlichen Y -Werten einhergehen. In diesem Fall resultieren tendenziell mehrheitlich positive Summanden. Sie ist hingegen negativ, wenn tendenziell überdurchschnittliche X -Werte mit unterdurchschnittlichen Y -Werten und unterdurchschnittliche X -Werte mit überdurchschnittlichen Y -Werten einhergehen. In diesem Fall resultieren überwiegend negative Summanden. Ist keine von beiden Tendenzen vorhanden, liegt kein deutliches Kovariieren vor und die Kovarianz ist (etwa) gleich Null. <?page no="144"?> 144 8 Korrelation: Metrische Variablen Die folgende Umformung erleichtert oft die Berechnung der Kovarianz: σ XY = 1 n n ∑ i=1 ( x i − ¯ x ) ( y i − ¯ y ) = 1 n n ∑ i=1 x i y i − ¯ x ¯ y In dieser Darstellung wird ersichtlich, dass die Kovarianz auch als Mittelwert der Produkte der X - und Y -Werte abzüglich des Produkts der Mittelwerte berechnet werden kann. 8.3.1 Ein Zahlenbeispiel Für das in der Graphik 8.1 angegebene Zahlenbeispiel finden wir σ XY = 1 n n ∑ i=1 ( x i − ¯ x ) ( y i − ¯ y ) = 1 5 (8 + 3 + 0 + 0 + 8) = 3 . 8 . Verwenden wir die aus der Umformung hervorgegangene Darstellung der Kovarianz, erhalten wir das Ergebnis auf folgende Weise: σ XY = 1 n n ∑ i=1 x i y i − ¯ x ¯ y = 1 5 (1 · 2 + 2 · 3 + 3 · 9 + 4 · 6 + 5 · 10) − 3 · 6 = 3 . 8 . Betrachten wir nochmals die Darstellung in der Form des Mittelwertes der Produkte der Mittelwertabweichungen. Zur Veranschaulichung zeichnen wir ein Streudiagramm (siehe Abbildung 8.2) der Mittelwertabweichungen x i − ¯ x und y i − ¯ y , die jeweils einen Mittelwert von 0 haben. Wir sehen, dass drei Summanden, d.h. drei Produkte von Mittelwertabweichungen, positiv sind und zwei den Wert 0 haben. R-8-2 8.3.2 Eigenschaften der Kovarianz Bei Betrachtung der Definition der Kovarianz ist unmittelbar ersichtlich, dass σ XY = σ Y X . Die Kovarianz einer Variablen mit sich selbst ist gerade die Varianz, da σ XX = 1 n n ∑ i=1 ( x i − ¯ x ) ( x i − ¯ x ) = 1 n n ∑ i=1 ( x i − ¯ x ) 2 = σ 2 X . <?page no="145"?> 8.3 Die Kovarianz 145 -2 -1 0 1 2 -4 -2 0 2 4 x − ¯ x y − ¯ y Abbildung 8.2: Streudiagramm der Mittelwertabweichungen. Werden die Variablen X und Y additiv um eine Konstante verändert, verändert sich die Kovarianz nicht: σ X+a,Y +b = 1 n n ∑ i=1 (( x i + a ) − (¯ x + a )) (( y i + b ) − (¯ y + b )) = 1 n n ∑ i=1 ( x i − ¯ x ) ( y i − ¯ y ) = σ XY . Wird die Variable X mit einer Konstanten a und Y mit einer Konstanten b multipliziert, verändert sich die Kovarianz um den Faktor ab : σ aX,bY = 1 n n ∑ i=1 ( ax i − a ¯ x ) ( by i − b ¯ y ) = ab 1 n n ∑ i=1 ( x i − ¯ x ) ( y i − ¯ y ) = ab σ XY . <?page no="146"?> 146 8 Korrelation: Metrische Variablen Betrachten wir die Kovarianz von X und Y + Z , finden wir σ X,Y +Z = 1 n n ∑ i=1 ( x i − ¯ x ) (( y i + z i ) − (¯ y + ¯ z )) = 1 n n ∑ i=1 ( x i − ¯ x ) (( y i − ¯ y ) + ( z i − ¯ z )) = 1 n n ∑ i=1 ( x i − ¯ x ) ( y i − ¯ y ) + 1 n n ∑ i=1 ( x i − ¯ x ) ( z i − ¯ z ) = σ XY + σ XZ . 8.4 Der Korrelationskoeffizient von Pearson Eine Interpretation der Kovarianz wird dadurch erschwert, dass ihre Werte nicht normiert sind und stark von der Streuung der Variablen abhängen. Um ein Maß für den Zusammenhang zu erhalten, wird deshalb ein normierter Korrelationskoeffizient verwendet, der folgendermaßen definiert ist: r XY = σ XY σ X σ Y = 1 n ∑ n i=1 ( x i − ¯ x ) ( y i − ¯ y ) √ 1 n ∑ n i=1 ( x i − ¯ x ) 2 √ 1 n ∑ n i=1 ( y i − ¯ y ) 2 Die Normierung wird dadurch erreicht, dass die Kovarianz durch die beiden Standardabweichungen dividiert wird. So wird erreicht, dass − 1 ≤ r XY ≤ 1 gilt. Für das Zahlenbeispiel hatten wir bereits die Kovarianz und die Varianzen berechnet, so dass wir den Korrelationskoeffizienten folgendermaßen berechnen können: r XY = σ XY σ X σ Y = 3 . 8 √ 2 √ 10 = 0 . 8497 . Offenbar weist der Wert auf einen starken positiven Zusammenhang von X und Y hin. R-8-3 Um einen Eindruck verschieden starker Korrelationen zu erhalten, sind in der Graphik 8.3 jeweils Streudiagramme für n = 100 Beobachtungen für die Korrelationen 0, − 0 . 3, 0 . 7 und 0 . 9 dargestellt. <?page no="147"?> 8.4 Der Korrelationskoeffizient von Pearson 147 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 x y r = 0 r 2 = 0 (a) keine Korrelation -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 x y r = -0.4 r 2 = 0.16 (b) schwache negative Korrelation -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 x y r = 0.7 r 2 = 0.49 (c) mittlere positive Korrelation -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 x y r = 0.9 r 2 = 0.81 (d) starke positive Korrelation Abbildung 8.3: Visuelle Darstellung von Korrelationen unterschiedlicher Stärke und Richtung. 8.4.1 Eigenschaften des Korrelationskoeffizienten Werden die Variablen X und Y additiv um eine Konstante verändert, bleibt der Korrelationskoeffizient unverändert: r X+a,Y +b = σ X+a,Y +b σ X+a σ Y +b = σ XY σ X σ Y = r XY . Werden die Variablen X und Y mit Konstanten a bzw. b multipliziert, verändert sich der Betrag des Korrelationskoeffizienten nicht. Jedoch kann sein Vorzeichen wechseln, wenn sich a und b <?page no="148"?> 148 8 Korrelation: Metrische Variablen im Vorzeichen unterscheiden. Wir erhalten dann r aX,bY = ab |a||b| r XY . Zu beachten ist auch, dass der Korrelationskoeffizient nur die Stärke des linearen Zusammenhanges erfasst. Besteht zwischen X und Y kein irgendwie gearteter Zusammenhang, gilt σ XY = r XY = 0. Aufgrund eines Korrelationskoeffizienten, der einen Wert nahe 0 aufweist, kann jedoch nur geschlossen werden, dass praktisch kein linearer Zusammenhang vorliegt. Auch wenn r XY ≈ 0 ist, können andere Arten des Zusammenhanges vorliegen. Das können wir uns mit einem weiteren Zahlenbeispiel veranschaulichen: ( x 1 , y 1 ) = ( − 2 , 4) , ( x 2 , y 2 ) = ( − 1 , 1) , ( x 3 , y 3 ) = (0 , 0) , ( x 4 , y 4 ) = (1 , 1) , ( x 5 , y 5 ) = (2 , 4) . Wir finden r XY = 0, obwohl Y = X 2 . Schließlich muss auch erwähnt werden, dass aufgrund einer Korrelation zwischen zwei Variablen nicht geschlossen werden kann, dass es einen kausalen Zusammenhang gibt. R-8-4 8.4.2 Die Kovarianz standardisierter Variablen Die zu einer Variablen X korrespondierende standardisierte Variable ist definiert als X ∗ = X − ¯ x σ X . Wegen der Nulleigenschaft des arithmetischen Mittels hat X ∗ den Mittelwert 0. Und wegen σ 2 X+¯ x = σ 2 X finden wir für die Varianz von X ∗ : σ 2 X ∗ = 1 σ 2 X σ 2 X−¯ x = 1 . Schließlich findet man für die Kovarianz von X ∗ und Y ∗ : σ X ∗ Y ∗ = σ XY σ X σ Y = r X,Y , d.h. die Kovarianz standardisierter Variablen X ∗ und Y ∗ hat den gleichen Wert wie die Korrelation der nicht standardisierten Variablen X und Y . <?page no="149"?> 8.4 Der Korrelationskoeffizient von Pearson 149 8 10 12 14 16 18 20 0 5 10 15 x y 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Abbildung 8.4: Ausbildungsjahre ( x ) und Netto- Monatseinkommen in Tsd. Euro ( y ). Durchgezogene Linien: Durchschnittslohn der Personen mit x-Ausbildungsjahren. 8.4.3 Ausbildungsjahre und Einkommen Abschließend betrachten wir die Anzahl der Ausbildungsjahre ( X ) und das Netto-Monatseinkommen ( Y ) in 1000 Euro von n = 1238 Personen im ALLBUS-File (Westdeutschland). Da sehr viele Personen eine gleiche Anzahl an Bildungsjahren aufweisen, z. B. haben 230 Personen 11.5 Ausbildungsjahre, wurde für die graphische Darstellung die Zahl der Ausbildungsjahre zufällig leicht variiert. In der Abbildung 8.4 ist deutlich zu erkennen, dass die meisten Personen, tatsächlich genau 89 . 8 %, weniger als 4000 Euro im Monat verdienen. Die wenigen sehr hohen Einkommen finden sich für Personen mit einer relativ hohen Zahl an Ausbildungsjahren. Der lineare Korrelationskoeffizient weist mit einem Wert von 0 . 372 jedoch auf einen nur recht schwachen positiven Zusammenhang hin. Zusätzlich sind in Graphik 8.4 mit dünnen waagrechten Linien die Durchschnittslöhne der Personen mit 6, 7 usw. Ausbildungsjahren eingetragen. Zwar steigt der Durchschnittslohn tendenziell mit zunehmender Anzahl Ausbildungsjahren an, jedoch ist der Zusammenhang nicht monoton. R-8-5 <?page no="150"?> 150 8 Korrelation: Metrische Variablen 8.5 Aufgaben 1. Sie befragen fünf Personen nach ihrem monatlichen verfügbaren Nettoeinkommen ( X ) und ihren monatlichen Mietausgaben ( Y ) und erhalten folgende Werte (jeweils in 1000 e): ( x 1 , y 1 ) = (1 , 0 . 3) , ( x 2 , y 2 ) = (2 , 0 . 45) , ( x 3 , y 3 ) = (3 , 0 . 9) , ( x 4 , y 4 ) = (4 , 1 . 2) , ( x 5 , y 5 ) = (5 , 0 . 95) . a) Stellen Sie die Wertepaare als Streudiagramm graphisch dar. b) Urteilen Sie aufgrund Ihrer Zeichnung: Besteht ein positiver oder negativer Zusammenhang zwischen dem Einkommen und den Mietausgaben? Liegt ein starker oder schwacher Zusammenhang vor? c) Berechnen Sie die Mittelwerte von X und Y . d) Beziehen Sie sich jetzt auf die X - und Y -Werte als Differenzen zu Ihren Mittelwerten und fertigen Sie ein Streudiagramm für diese Mittelwertabweichungen an. e) Erläutern Sie, welche Vorzeichen die Produkte der Mittelwertabweichungen von X und Y in den vier Quadranten Ihres Koordinatensystems haben. f) Berechnen Sie für X und Y die Varianzen und Standardabweichungen. g) Berechnen Sie für die n Wertepaare jeweils das Produkt aus den Mittelwertabweichungen, summieren Sie es über alle n Beobachtungen auf und teilen Sie diese Summe durch die Anzahl der Beobachtungen. Wie nennt man die von Ihnen berechnete Maßzahl? h) Die von Ihnen berechnete Kovarianz erfasst den linearen Zusammenhang von X und Y , allerdings ist sie nicht normiert und damit schwierig zu interpretieren. Dividieren sie zur Normierung die Kovarianz durch das Produkt der beiden von Ihnen berechneten Standardabweichungen σ Y und σ X . Wie heißt die resultierende Maßzahl? <?page no="151"?> 8.5 Aufgaben 151 i) Beurteilen Sie Stärke des Zusammenhangs zwischen dem verfügbaren Einkommen und den Mietausgaben anhand des Korrelationskoeffizienten. 2. Zeigen Sie, dass gilt: σ Y X = 1 n n ∑ i=1 ( y i − ¯ y )( x i − ¯ x ) = 1 n n ∑ i=1 y i x i − ¯ y ¯ x und σ 2 X = 1 n n ∑ i=1 ( x i − ¯ x ) 2 = 1 n n ∑ i=1 x 2 i − ¯ x 2 . 3. Betrachten Sie die folgenden Wertepaare für die Variable ( X, Y ): ( x 1 , y 1 ) = ( − 2 , 16) , ( x 2 , y 2 ) = ( − 1 , 1) , ( x 3 , y 3 ) = (0 , 0) , ( x 4 , y 4 ) = (1 , 1) , ( x 5 , y 5 ) = (2 , 16) . a) Berechnen Sie den Korrelationskoeffizient r XY . b) Besteht zwischen X und Y ein Zusammenhang? <?page no="152"?> 152 8 Korrelation: Metrische Variablen 8.6 R-Code R-8-1 # Daten generieren x <- 1: 5 y <c(2,3,9,6,10) # Streudiagramm plot(x = x, y = y, pch = 19) # Mittelwerte mx <mean(x) mx my <mean(y) my # empirische Varianz # Funktion für empirische Varianz erstellen VarEmp <function(x) { n <length(x) var.emp <- (n-1)/ n * var(x) return(var.emp) } vx <- VarEmp(x) vx vy <- VarEmp(y) vy R-8-2 # Anzahl an Beobachtungen n <length(x) # Kovarianz cov.xy <- 1/ n * sum( (x-mx)*(y-my) ) cov.xy # alternativ nach Umformung mean(x*y) mx*my # Streudiagramm plot(x = (x-mx), y = (y-my), pch = 19, xlab = expression(x-bar(x)), ylab = expression(y-bar(y))) abline(h = 0) abline(v = 0) R-8-3 # Korrelationskoeffizient von Pearson rxy <cov.xy / ( sqrt(vx) * sqrt(vy)) rxy <?page no="153"?> 8.6 R-Code 153 # alternativ cor(x, y) R-8-4 # Weiteres Zahlenbeispiel x2 <c(-2,-1,0,1,2) y2 <x2^2 # Korrelation cor(x2, y2) R-8-5 ## Daten einlesen d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) d <d[d$ostwest==0,] # Anzahl an Beobachtungen n <nrow(d) # Vektor mit Löhnen erstellen (in Tsd.) e <as.numeric(d$einkommen) / 1000 # Ausbildungsjahre b <as.numeric(d$bildung) min(b); max(b) # Durchschnittslöhne nach Ausbildungsjahren de.b <tapply(X = e, INDEX = b, mean) ## Abbildung # leicht modifizierte Ausbildungsjahre set.seed(123) b.mod <b + runif(n = n, min = -0.15, max = 0.15) # Streudiagramm plot(x = b.mod, y = e, pch = 19, cex = 0.2, xlab = "x", ylab = "y", xaxt = "n") axis(side = 1, at = 7: 21, label = 7: 21) # Durchschnittslöhne darstellen ub <sort(x = unique(b), decreasing = FALSE) for (i in 1: length(ub)) { segments(x0 = ub[i]-0.25, y0 = de.b[i], x1 = ub[i]+0.25, y1 = de.b[i]) } # Anteil an Personen mit einem Einkommen < 4 Tsd. mean(e < 4) * 100 # hohe Einkommen und Ausbildungsjahre order.e <order(e, decreasing = TRUE) cbind(b[order.e], e[order.e])[1: 15,] <?page no="154"?> 154 8 Korrelation: Metrische Variablen # Korrelation zwischen Löhnen und Ausbildungsjahren reb <cor(e, b) reb # Quadrat des Korrelationskoeffizienten reb^2 # Korrelation ohne die höchsten 9 Einkommen e.ohne9 <e[order.e][-(1: 9)] b.ohne9 <b[order.e][-(1: 9)] cor(e.ohne9, b.ohne9) <?page no="155"?> 9 Korrelation: Ordinale und nominale Variablen In diesem Kapitel besprechen wir Maße des Zusammenhangs für ordinale und nominalskalierte Variablen. Zunächst erläutern wir Spearmans Rangkorrrelation, mit der ein Zusammenhang zwischen zwei ordinalen Variablen erfasst werden kann, dann besprechen wir die Maßzahl χ 2 und den darauf basierenden Kontingenzkoeffizienten für zwei nominale Variablen. Anschließend betrachten wir Zusammenhangsmaße für nominal skalierte Merkmale. 9.1 Spearmans Rangkorrelationskoeffizient . . . . . . . . . . . 156 9.1.1 Ordinale Variablen und Ränge . . . . . . . . . . . 156 9.1.2 Ein Rangkorrelationskoeffizient . . . . . . . . . . . 157 9.1.3 Eigenschaften . . . . . . . . . . . . . . . . . . . . 157 9.1.4 Eine vereinfachte Rechenmethode . . . . . . . . . . 158 9.2 Zusammenhangsmaße für nominale Variablen . . . . . . . . 158 9.2.1 Empirische und hypothetische Häufigkeiten . . . . . 159 9.2.2 Kontingenzkoeffizient . . . . . . . . . . . . . . . . 161 9.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 163 9.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 <?page no="156"?> 156 9 Korrelation: Ordinale und nominale Variablen 9.1 Spearmans Rangkorrelationskoeffizient 9.1.1 Ordinale Variablen und Ränge Bei einer ordinalen Variablen können die Merkmalswerte in einer sinnvoll interpretierbaren Reihe angeordnet werden, die numerischen Abstände zwischen den Merkmalswerten haben jedoch keine bestimmte Bedeutung. Als Beispiel kann man an Schulnoten von 1 bis 5 denken. Die numerischen Differenzen zwischen 1 und 2 und zwischen 4 und 5 sind gleich groß, aber ihnen entspricht nicht unbedingt eine gleich große Leistungsdifferenz. Als ein weiteres Beispiel kann man daran denken, dass Personen gebeten werden, den Grad ihrer Zufriedenheit (inbezug auf irgendeinen Sachverhalt) auf einer Skala von 1 bis 10 anzugeben. Um eine allgemeine Notation zu erreichen, beziehen wir uns auf eine Variable X . Merkmalswerte für n Einheiten werden wie bisher durch x 1 , . . . , x n bezeichnet. Es wird angenommen, dass die numerische Kodierung so erfolgt, dass die unterstellte Ordnung der Merkmalswerte der numerischen Ordnung der x i -Werte entspricht. Zur Definition von Rangkorrelationskoeffizienten werden Ränge verwendet. Der Rang eines Werts x i ist die Ordnungsnummer, die die Position von x i in der Reihe aller der Größe nach geordneten x i -Werte angibt. Dabei sind zwei Fälle zu unterscheiden. Der erste Fall liegt vor, wenn alle x i -Werte unterschiedlich sind. Dann hat jeder x i -Wert genau einen Rang. Gibt es z. B. vier Werte x 1 = 6, x 2 = 1, x 3 = 9 und x 4 = 4, gibt es die Reihe x 2 < x 4 < x 1 < x 3 so dass x 2 den ersten Rang hat, x 4 den zweiten Rang, usw. Allgemein verwenden wir für den Rang von x i die Notation r x ( i ); also r x (1) = 3, r x (2) = 1, r x (3) = 4, r x (4) = 2. Der zweite Fall liegt vor, wenn zwei oder mehr x i -Werte gleich sind. Man spricht dann von Bindungen. Dann werden bei gleichen x i -Werten als Ränge Durchschnittswerte ihrer Ordnungszahlen verwendet. Wenn also im obigen Beispiel x 1 = 4 wäre, gäbe es die Reihe x 2 < x 4 = x 1 < x 3 und die Ränge wären r x (2) = 1, r x (1) = r x (4) = 2 . 5 und r x (3) = 4. <?page no="157"?> 9.1 Spearmans Rangkorrelationskoeffizient 157 9.1.2 Ein Rangkorrelationskoeffizient Sei nun ( X, Y ) eine zweidimensionale Variable, bei der X und Y ordinale Variablen sind. Dann kann man sowohl für X als auch für Y Ränge bilden: r x ( i ) und r y ( i ). Ihre Mittelwerte werden durch ¯r x bzw. ¯r y bezeichnet. Pearsons Korrelationskoeffizient angewendet auf diese Ränge liefert Spearmans Rangkorrelationskoeffizient ρ XY = 1 n ∑ n i=1 (r x ( i ) − ¯r x ) (r y ( i ) − ¯r y ) √ 1 n ∑ n i=1 (r x ( i ) − ¯r x ) 2 √ 1 n ∑ n i=1 (r y ( i ) − ¯r y ) 2 . Zur Illustration betrachten wir ein Zahlenbeispiel mit n = 4 Werten: R-9-1 X r x Y r y x 1 = 6 r x (1) = 3 y 1 = 2 r y (1) = 2 x 2 = 1 r x (2) = 1 y 2 = 1 r y (2) = 1 x 3 = 9 r x (3) = 4 y 3 = 4 r y (3) = 3 x 4 = 4 r x (4) = 2 y 4 = 6 r y (4) = 4 Mit diesen Zahlen finden wir den Wert ρ XY = 0 . 4. R-9-2 9.1.3 Eigenschaften Der Rangkorrelationskoeffizient ist dimensionslos , da sich die Dimensionen (z. B. Euro) herauskürzen, und symmetrisch bezüglich X und Y . Zudem ist er invariant bezüglich streng monoton wachsender Transformationen. D.h., werden die Werte von X und/ oder Y so transformiert, dass deren Ränge unverändert bleiben, ändert sich der Wert des Rangkorrelationskoeffizienten nicht. Der Rangkorrelationskoeffizient ist normiert auf − 1 ≤ ρ XY ≤ 1 . Dies erleichtert die Interpretation des numerischen Ergebnisses. Bei einem vollständig gleichgerichteten monotonen Zusammenhang gilt ρ XY = 1. Bei einem vollständig gegenläufigen monotonen Zusammenhang gilt ρ XY = − 1. Bei Werten von 0 oder nahe 0 gibt es keinen bzw. nur einen sehr schwachen Zusammenhang. <?page no="158"?> 158 9 Korrelation: Ordinale und nominale Variablen 9.1.4 Eine vereinfachte Rechenmethode Wenn keine Bindungen vorliegen, kann der Korrelationskoeffizient mit einer einfacheren Formel berechnet werden ρ XY = 1 − 6 ∑ n i=1 (r x ( i ) − r y ( i )) 2 n ( n 2 − 1) . Für das obige Zahlenbeispiel finden wir mit dieser Formel ρ XY = 1 − 6 · 6 4 (4 2 − 1) = 1 − 36 60 = 0 . 4 . Zu beachten ist, dass die vereinfachte Formel des Rangkorrelationskoeffizienten nicht verwendet werden darf, wenn Bindungen vorliegen. Als ein Beispiel, bei dem viele Bindungen vorliegen, betrachten wir den Zusammenhang zwischen monatlichen Arbeitsstunden und monatlichen Netto-Einkommen der n = 1 , 238 Personen in unserem ALLBUS-Datensatz (Westdeutschland). Wir wollen der Frage nachgehen, ob Personen, die mehr arbeiten, tendenziell ein höheres Einkommen erzielen. Anstelle der metrischen Angaben über Arbeitsstunden und Einkommen betrachten wir deren Ränge. 1 Für die Ränge finden wir eine Korrelation von ρ XY = 0 . 47. Es besteht also ein positiver, aber nicht sehr enger Zusammenhang zwischen den Rängen von Arbeitsstunden und Einkommenshöhe. 2 R-9-3 9.2 Zusammenhangsmaße für nominale Variablen In diesem Abschnitt besprechen wir ein Zusammenhangsmaß für eine zweidimensionale Variable ( X, Y ), bei der X und Y jeweils nominal skalierte Merkmale repräsentieren, d.h. die Merkmalswerte sind qualitativ unterschiedlich, und es gibt keine sinnvolle lineare Anordnung. Als Beispiel verwenden wir unseren ALLBUS Datensatz (Westdeutschland). X erfasst das Geschlecht (0 = männlich, 1 1 Für die monatlichen Arbeitsstunden finden sich 68 und für das Einkommen 191 unterschiedliche Angaben. Es liegen somit viele Bindungen vor und die vereinfachte Rechenvorschrift für den Rangkorrelationskoeffizienten kann nicht verwendet werden. 2 Zwischen den metrischen Merkmalen Arbeitsstunden und Einkommenshöhe ist die Korrelation mit r XY = 0 . 385 aufgrund weniger sehr hoher Einkommen noch deutlich geringer. <?page no="159"?> 9.2 Zusammenhangsmaße für nominale Variablen 159 = weiblich), und Y erfasst den Beruf, den eine Person ausübt (1 = Führungskraft, 0 = andernfalls). Wir finden folgende Verteilung: Y = 0 Y = 1 Insg. X = 0 0.497 0.067 0.564 X = 1 0.425 0.011 0.436 Insg. 0.922 0.078 1.000 Ausgehend von dieser gemeinsamen Verteilung wollen wir nun der Frage nachgehen, ob zwischen den Werten von X und Y ein Zusammenhang besteht und wie die Stärke dieses Zusammenhangs quantifiziert werden kann. Man könnte vermuten, dass Frauen weniger häufig Führungspositionen innehaben als Männer. Die bedingten Häufigkeiten P ( Y = 1 |X = 1) = 0 . 025 und P ( Y = 1 |X = 0) = 0 . 119 weisen auf das Vorliegen eines Zusammenhangs hin. R-9-4 9.2.1 Empirische und hypothetische Häufigkeiten Wir betrachten die Maßzahl χ 2 , die den Zusammenhang zwischen zwei nominalen Merkmalen erfasst. Um eine allgemeine Notation zu erreichen, nehmen wir an, dass X die Werte ˜ x 1 , . . . , ˜ x J und Y die Werte ˜ y 1 , . . . , ˜ y K annehmen kann. Wir verwenden folgende Abkürzungen: f jk = P ( X = ˜ x j , Y = ˜ y k ) ist die Häufigkeit, mit der X = ˜ x j und Y = ˜ y k auftritt; die Häufigkeiten in den Randverteilungen werden durch f j. = P( X = ˜ x j ) = K ∑ k=1 f jk und f .k = P( Y = ˜ y k ) = J ∑ j=1 f jk bezeichnet. Die Maßzahl χ 2 beruht auf einem Vergleich der empirischen gemeinsamen Verteilung mit einer hypothetischen gemeinsamen Verteilung, die sich bei gegebenen Randhäufigkeiten und Unabhängigkeit ergeben würde. <?page no="160"?> 160 9 Korrelation: Ordinale und nominale Variablen Diese hypothetischen Häufigkeiten werden durch f ∗ jk = f j· f ·k definiert. Im allgemeinen Fall resultiert folgende gemeinsame hypothetische Verteilung bei Unabhängigkeit: X\Y ˜ y 1 ˜ y 2 . . . ˜ y K ˜ x 1 f 1· f ·1 f 1· f ·2 . . . f 1· f ·K ˜ x 2 f 2· f ·1 f 2· f ·2 . . . f 2· f ·K . . . . . . . . . . . . ˜ x J f J · f ·1 f J · f ·2 . . . f J · f ·K . Hiervon ausgehend wird χ 2 folgendemaßen definiert χ 2 = n J ∑ j=1 K ∑ k=1 ( f jk − f ∗ jk ) 2 f ∗ jk . Für unser empirisches Beispiel finden wir ausgehend von den oben angegebenen empirischen Randhäufigkeiten folgende hypothetische gemeinsame Verteilung: R-9-5 Y = 0 Y = 1 Insg. X = 0 0.520 0.044 0.564 X = 1 0.402 0.034 0.436 Insg. 0.922 0.078 1.000 Als numerischer Wert ergibt sich χ 2 = 1238 ( (0 . 497 − 0 . 52) 2 0 . 52 + (0 . 067 − 0 . 044) 2 0 . 044 + (0 . 425 − 0 . 402) 2 0 . 402 + (0 . 011 − 0 . 034) 2 0 . 034 ) = 37 . 034 . Da die Maßzahl χ 2 nicht normiert ist, lässt sich dieser Wert allerdings kaum interpretieren. R-9-6 <?page no="161"?> 9.2 Zusammenhangsmaße für nominale Variablen 161 9.2.2 Kontingenzkoeffizient Deshalb wird oft der Kontingenzkoeffizient C = √ χ 2 χ 2 + n · min {J, K} min {J, K} − 1 verwendet, der aus einer Normierung von χ 2 resultiert. Für den Kontingenzkoeffizient gilt 0 ≤ C ≤ 1. C = 0 ist genau dann der Fall, wenn die empirischen Häufigkeiten f jk und die hypothetischen Häufigkeiten f ∗ jk gleich sind. Dies ist aber praktisch nie der Fall, und wenn n eine Primzahl ist, kann dieser Fall auch theoretisch nicht auftreten. Sehr kleine Werte von C deuten auf einen sehr schwachen Zusammenhang von X und Y hin. Der Fall C = 1 tritt dann auf, wenn X und Y vollständig zusammenhängen. Für unser Beispiel finden wir C = √ χ 2 χ 2 + n · min {J, K} min {J, K} − 1 = √ 37 . 034 37 . 034 + 1238 · min { 2 , 2 } min { 2 , 2 } − 1 = √ 0 . 029 · 2 = 0 . 241 . Es besteht demnach ein mittelstarker Zusammenhang zwischen Geschlecht und Führungspositionen. R-9-7 Betrachten wir abschließend eine fiktive Situation, in der bei gegebenen Randhäufigkeiten alle Personen in Führungspositionen Männer sind. Dann würde folgende gemeinsame Verteilung resultieren: Y = 0 Y = 1 Insg. X = 0 0.486 0.078 0.564 X = 1 0.436 0.000 0.436 Insg. 0.922 0.078 1.000 In diesem Fall würde der Kontingenzkoeffizient den Wert C = 0 . 35 annehmen. Die sehr ungleichen Anteile von Personen in Führungspositionen und in anderen Tätigkeiten führen dazu, dass auch bei <?page no="162"?> 162 9 Korrelation: Ordinale und nominale Variablen dem vorliegenden maximal starken Zusammenhang, gegeben die empirischen Randhäufigkeiten, die Maßzahl C deutlich unter dem Wert 1 liegt. R-9-8 <?page no="163"?> 9.3 Aufgaben 163 9.3 Aufgaben 1. Sie befragen fünf Personen nach ihrem Einkommen in zwei Jahren (1 und 2) und erhalten folgende Tabelle mit Rängen: i 1.Jahr (r x ( i )) 2. Jahr (r y ( i )) 1 2 2 2 1 1 3 3 4 4 5 5 5 4 3 a) Berechnen Sie den linearen Korrelationskoeffizienten der Ränge vom 1. und 2. Jahr. b) Ermitteln Sie den Korrelationskoeffizienten auch nach folgender Formel: ρ XY = 1 − 6 ∑ n i=1 (r x ( i ) − r y ( i )) 2 n ( n 2 − 1) c) Wenn Ihnen sowohl die Einkommen selbst als auch die Ränge der Einkommen vorlägen, welchen Korrelationskoeffizienten würden Sie dann wählen? Begründen Sie ihre Wahl. 2. Die nachfolgende Tabelle enthält die Ränge der Variablen X und Y für vier Beobachtungen. i r x r y 1 2 4 2 1 2 3 3.5 1 4 3.5 3 <?page no="164"?> 164 9 Korrelation: Ordinale und nominale Variablen (a) Berechnen Sie die Rangkorrelation. (b) Können Sie hier auch die vereinfachte Formel des Rangkorrelationskoeffizienten anwenden? 3. Gehen Sie von folgender empirischer Vierfeldertafel für die Variablen X (Geschlecht, 0 = männlich, 1 = weiblich) und Y (Lohnklasse, unterdurchschnittlicher Stundenlohn: Y = 0, überdurchschnittlicher Stundenlohn Y = 1) aus. Y = 0 Y = 1 Insg. X = 0 0.306 0.258 0.564 X = 1 0.311 0.125 0.436 Insg. 0.617 0.383 1.000 a) Wie viel Prozent der Frauen und wie viel Prozent der Männer haben einen überdurchschnittlichen Lohn? b) Wie hoch ist der Anteil der Frauen an den Personen mit überdurchschnittlichem Lohn, wie hoch an den Personen mit unterdurchschnittlichem Lohn? c) Ermitteln Sie die Tabelle bei hypothetischer Unabhängigkeit. d) Berechnen Sie χ 2 . e) Da χ 2 nicht normiert ist, lässt sich ausgehend von dem χ 2 - Wert nur schwer auf die Abhängigkeit schließen. Berechnen Sie den Kontingenzkoeffizienten als normiertes Maß der Abhängigkeit und beurteilen Sie die Stärke der Abhängigkeit. f) Für welchen Fall ergäbe sich ein Kontingenzkoeffizient von 0 und was ließe sich dann über die beiden Tabellen der tatsächlichen und hypothetischen Besetzungszahlen sagen? <?page no="165"?> 9.4 R-Code 165 9.4 R-Code R-9-1 # Daten generieren x <c(6,1,9,4) y <c(2,1,4,6) # Ränge berechnen rx <rank(x) rx ry <rank(y) ry R-9-2 # benötigte Variablen mrx <mean(rx) mrx srx2 <sum(rx^2) srx2 n <length(rx) # wegen Symmetrie: mrx = mry, srx2 = sry2 # Rangkorrelationskoeffizient (1/ n * sum(rx*ry) mrx*mrx) / (sqrt(((1/ n * srx2) mrx^2)) * sqrt(((1/ n * srx2) mrx^2))) # alternativ cor(rx, ry) R-9-3 ## Daten einlesen d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) d <d[d$ostwest==0,] # Vektor der Einkommen erstellen e <as.numeric(d$einkommen) # Arbeitsstunden im Monat h <as.numeric(d$stunden) # Bindungen length(unique(h)) length(unique(e)) # Rangkorrelationskoeffizient cor(rank(e), rank(h)) # Korrelation cor(e, h) <?page no="166"?> 166 9 Korrelation: Ordinale und nominale Variablen R-9-4 # Variablen erstellen X <d$geschl Y <as.numeric(d$beruf) == 1 # Anzahl an Beobachtungen n <nrow(d) # Kontingenztabelle tab.rel <table(X,Y) / n # Randverteilung tab <addmargins(A = tab.rel) tab ## bedingte Häufigkeiten # (Y=1|X=1) = tab[2,2] / tab[2,3] # (Y=1|X=0) = tab[1,2] / tab[1,3] R-9-5 # hypothetische gemeinsame Verteilung tab.hyp <tab[1: 2,3] %*% t(tab[3,1: 2]) addmargins(A = tab.hyp) R-9-6 # Variablen erstellen f.emp <as.vector(tab[1: 2, 1: 2]) f.emp f.hyp <as.vector(tab.hyp[1: 2, 1: 2]) f.hyp n <nrow(d) # Damit finden wir (Beachte: Rundungsdifferenzen) c2 <n * sum((f.emp-f.hyp)^2 / f.hyp) c2 R-9-7 ## Anzahl möglicher Ausprägungen n.x <length(unique(X)) n.x # Geschlecht: m/ w n.y <length(unique(Y)) n.y # Beruf 1: TRUE/ FASE # Kontingenzkoeffizient sqrt( (c2 / (c2 + n)) * (min(n.x, n.y) / (min(n.x, n.y) - 1)) ) <?page no="167"?> 9.4 R-Code 167 R-9-8 # Ausgangspunkt: Empirisches Beispiel tab.fiktiv <tab # fiktives Beispiel erzeugen tab.fiktiv[1: 2,1: 2] <matrix( data = c(0.564-0.078,0.922-0.486,0.078,0),ncol = 2) tab.fiktiv f.fiktiv <as.vector(tab.fiktiv[1: 2, 1: 2]) # C2 c2.neu <n * sum((f.fiktiv-f.hyp)^2 / f.hyp) # Kontingenzkoeffizient sqrt( (c2.neu / (c2.neu + n)) * (min(n.x, n.y) / (min(n.x, n.y) - 1)) ) <?page no="169"?> 10 Einfache Regressionsrechnung In diesem Kapitel besprechen wir die Regressionsrechnung, wobei wir uns auf eine lineare Regression mit nur einer erklärenden und einer abhängigen Variablen beschränken. Zur Berechnung verwenden wir die Methode der kleinsten Quadrate, die in der empirischen Wirtschaftsforschung sehr oft verwendet wird. 10.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 170 10.2 Methode der kleinsten Quadrate . . . . . . . . . . . . . . 171 10.2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . 171 10.2.2 Berechnung der Parameter . . . . . . . . . . . . . 172 10.2.3 Achsentransformation . . . . . . . . . . . . . . . . 174 10.2.4 Varianzzerlegung und Bestimmtheitsmaß . . . . . . 175 10.2.5 Ausbildungsjahre und Stundenlöhne . . . . . . . . . 176 10.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 178 10.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 <?page no="170"?> 170 10 Einfache Regressionsrechnung 10.1 Einleitung Fragen nach Zusammenhängen zwischen statistischen Variablen stehen in den Wirtschaftswissenschaften im Zentrum des Interesses. Ausgangspunkt sind die gemeinsame Verteilung von zwei (oder mehr) Variablen und die daraus resultierenden bedingten Verteilungen. Allerdings lässt sich die gemeinsame Verteilung von zwei metrischen Variablen, insbesondere bei vielen vorkommenden Merkmalsausprägungen, nur schwierig beschreiben. Die lineare Regression stellt eine sehr oft verwendete Methode dar, um zu beschreiben, wie die bedingte Verteilung einer Variablen von Werten anderer Variablen abhängt. Ausgangspunkt sind die Werte ( x i , y i ) einer zweidimensionalen Variablen ( X, Y ) für n Einheiten ( i = 1 , . . . , n ). Wir betrachten Y als abhängige Variable und X als eine Variable, von deren Werten die Verteilung von Y abhängt. Die Grundidee besteht darin, für jeden Wert y i einen durch x i berechenbaren Näherungswert ˆ y i zu finden. Bei der linearen Regression geschieht dies mit Hilfe einer linearen Funktion f ( x ) = α + β x, α und β sind Parameter, für die mit Hilfe der Daten bestimmte numerische Werte, die wir durch ˆ α und ˆ β bezeichnen, gefunden werden müssen. Dann kann man Näherungswerte ˆ y i = ˆ f ( x i ) = ˆ α + ˆ β x i berechnen. Zu überlegen ist, wie optimale Parameter definiert werden können, denn grundsätzlich kann man für α und β beliebige Zahlenwerte verwenden. Das wird in Abbildung 10.1 mit n = 4 Werten illustriert. Je nachdem, welche Werte man für α und β einsetzt, entsteht eine unterschiedliche lineare Funktion (Regressionsgerade). Bezeichnen wir mit u i die Abweichung der beobachteten Werte y i von den linearen Funktionswerten f ( x i ), dann wird in Abbildung 10.1 ebenfalls deutlich, dass je nach Wahl der Parameter α und β unterschiedliche Werte u i = y i − f ( x i ) resultieren. <?page no="171"?> 10.2 Methode der kleinsten Quadrate 171 0 2 4 6 8 10 0 2 4 6 8 x y Abbildung 10.1: Auswahl an möglichen Ausgleichsgeraden. 10.2 Methode der kleinsten Quadrate Zur Berechnung bestimmter Parameter ˆ α und ˆ β wird sehr oft die Methode der kleinsten Quadrate verwendet, die wir in diesem Abschnitt besprechen. 10.2.1 Grundlagen Das Ziel besteht darin, dass die durch ˆ α und ˆ β bestimmte Regressionsgerade möglichst gut in das Streuungsdiagramm der ( x i , y i )- Werte passt. Man bezieht sich dafür auf die Abweichungen u i = y i − f ( x i ) = y i − ( α + β x i ) . Bei der Methode der kleinsten Quadrate, die auf Carl Friedrich Gauß (1777-1855) zurückgeht, wird gefordert, dass die Summe der quadrierten Abweichungen , also ∑ n i=1 u 2 i , möglichst klein sein soll. In Abbildung 10.2 wird dies durch die eingezeichneten Quadrate veranschaulicht. <?page no="172"?> 172 10 Einfache Regressionsrechnung -2 0 2 4 6 8 10 12 0 2 4 6 8 x y Abbildung 10.2: Intuition: Methode der kleinsten Quadrate. 10.2.2 Berechnung der Parameter Wir betrachten die Funktion Q ( α, β ) = n ∑ i=1 ( y i − α − β x i ) 2 , die zeigt, wie die Summe der quadrierten Abweichungen von den Parametern abhängt. Die optimalen Parameter sind diejenigen, die diese Funktion möglichst klein machen. Um das Minimum dieser Funktion zu finden, müssen zunächst die partiellen Ableitungen gebildet werden. Man findet: ∂Q ( α, β ) ∂α = 2 n ∑ i=1 ( y i − α − βx i )( − 1) und ∂Q ( α, β ) ∂β = 2 n ∑ i=1 ( y i − α − βx i )( −x i ) . Parameterwerte für das Minimum findet man aus den Nullstellen der Ableitungen. <?page no="173"?> 10.2 Methode der kleinsten Quadrate 173 Die Ableitung nach α liefert die 1. Normalgleichung n ∑ i=1 ( y i − ˆ α − ˆ β x i ) = 0 und die Ableitung nach β die 2. Normalgleichung n ∑ i=1 ( y i − ˆ α − ˆ β x i ) x i = 0 . Aus der 1. Normalgleichung findet man zunächst n ∑ i=1 y i − n ˆ α − ˆ β n ∑ i=1 x i = 0 und indem man durch n teilt, erhält man ¯ y = ˆ α + ˆ β ¯ x, bzw. ˆ α = ¯ y − ˆ β ¯ x. Die optimale Regressionsgerade geht also durch den Schwerpunkt des Streuungsdiagramms. Ersetzt man nun ˆ α in der 2. Normalgleichung durch ¯ y − ˆ β ¯ x , findet man: n ∑ i=1 ( x i y i − (¯ y − ˆ β ¯ x ) x i − ˆ β x 2 i ) = n ∑ i=1 x i y i − (¯ y − ˆ β ¯ x ) n ∑ i=1 x i − ˆ β n ∑ i=1 x 2 i = n ∑ i=1 x i y i − n ¯ x ¯ y − ˆ β ( n ∑ i=1 x 2 i − n ¯ x 2 ) = 0 Daraus folgt dann ˆ β = ∑ n i=1 x i y i − n ¯ x ¯ y ∑ n i=1 x 2 i − n ¯ x 2 . <?page no="174"?> 174 10 Einfache Regressionsrechnung Um die Anwendung zu illustrieren, betrachten wir das Zahlenbeispiel aus Abbildung 10.1 mit den Werten ( x 1 , y 1 ) = (2 , 3), ( x 2 , y 2 ) = (4 , 2), ( x 3 , y 3 ) = (6 , 5) und ( x 4 , y 4 ) = (8 , 6). Wir finden n ∑ i=1 y i x i = 92 , n ∑ i=1 x 2 i = 120 , ¯ x = 5 , ¯ y = 4 und damit ˆ β = 92 − 4 · 4 · 5 120 − 4 · 5 2 = 0 . 6 und ˆ α = ¯ y − ˆ β ¯ x = 4 − 0 . 6 · 5 = 1 . 10.2.3 Achsentransformation Die Variablen X und Y können um ihre Mittelwerte verschoben werden, indem man X ∗ = X − ¯ x und Y ∗ = Y − ¯ y verwendet. Dann kann man eine lineare Regression für den Zusammenhang zwischen X ∗ und Y ∗ berechnen. Die optimalen Parameter bezeichnen wir durch ˆ α ∗ und ˆ β ∗ . Wendet man die oben abgeleitete Formel an, findet man (da ¯ x ∗ = ¯ y ∗ = 0 ist) ˆ β ∗ = ∑ n i=1 x ∗ i y ∗ i ∑ n i=1 ( x ∗ i ) 2 . Ersetzt man x ∗ i durch x i − ¯ x und y ∗ i durch y i − ¯ y , entsteht die Formel für ˆ β , so dass ˆ β ∗ = ˆ β = ∑ n i=1 ( x i − ¯ x ) ( y i − ¯ y ) ∑ n i=1 ( x i − ¯ x ) 2 gilt. Die Division von Zähler und Nenner durch n führt zu ˆ β = σ XY σ 2 X . Offenbar gilt auch ¯ y ∗ = ˆ α ∗ + ˆ β ∗ ¯ x ∗ ; und daraus folgt unmittelbar, dass ˆ α ∗ = 0 ist. Abbildung 10.3 veranschaulicht diese Achsentransformation anhand des Beispiels aus dem vorangegangenen Abschnitt. <?page no="175"?> 10.2 Methode der kleinsten Quadrate 175 x y 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 -5 -4 -3 -2 -1 0 1 2 3 4 5 -4 -3 -2 -1 0 1 2 3 4 5 x ∗ y ∗ Abbildung 10.3: Achsentransformation. 10.2.4 Varianzzerlegung und Bestimmtheitsmaß Die Varianz der abhängigen Variablen Y kann folgendermaßen geschrieben werden: σ 2 Y = 1 n n ∑ i=1 ( y i − ¯ y ) 2 = 1 n n ∑ i=1 ( y i − ˆ y i + ˆ y i − ¯ y ) 2 = 1 n n ∑ i=1 (( y i − ˆ y i ) 2 + (ˆ y i − ¯ y ) 2 + 2( y i − ˆ y i )(ˆ y i − ¯ y )) = 1 n n ∑ i=1 ( y i − ˆ y i ) 2 + 1 n n ∑ i=1 (ˆ y i − ¯ y ) 2 + 2 n n ∑ i=1 ( y i − ˆ y i )(ˆ y i − ¯ y ) . Wie man durch Ausrechnen zeigen kann, ist der dritte Summand in der letzten Zeile gleich 0. Da der Mittelwert der ˆ y i -Werte gleich ¯ y ist, beschreibt der zweite Summand die Varianz von ˆ Y , also σ 2 ˆ Y . Schließlich liefert der erste Summand die Varianz der Residualvariablen U , die die Werte ˆ u i = y i − ˆ y i hat, deren Mittelwert gleich 0 ist. Zusammenfassend folgt also σ 2 Y = σ 2 ˆ Y + σ 2 U . <?page no="176"?> 176 10 Einfache Regressionsrechnung Ausgehend von dieser Varianzzerlegung wird das Bestimmtheitsmaß R 2 = σ 2 ˆ Y σ 2 Y = 1 − σ 2 U σ 2 Y definiert. Es zeigt den Anteil der Varianz von ˆ Y an der Gesamtvarianz von Y . Da die Werte von ˆ Y durch die Werte von X bestimmt werden, kann man auch sagen: R 2 gibt den Anteil der Varianz von Y an, der durch eine lineare Beziehung zwischen X und Y bestimmt werden kann. Es gilt: 0 ≤ R 2 ≤ 1. Außerdem liefert R 2 die lineare Korrelation zwischen Y und ˆ Y , also R 2 = r 2 Y ˆ Y ; und bei der einfachen linearen Regression ist dies auch gerade die lineare Korrelation zwischen X und Y . Für das Zahlenbeispiel aus den vorangegangenen Abschnitten findet man die Varianzzerlegung σ 2 Y = 2 . 5 = σ 2 ˆ Y + σ 2 U = 1 . 8 + 0 . 7 und daraus das Bestimmtheitsmaß R 2 = σ 2 ˆ Y σ 2 Y = 0 . 72 = 1 − σ 2 U σ 2 Y = 1 − 0 . 28 . Mit Hilfe der linearen Regression werden also in diesem Beispiel 72 % der Varianz von Y durch X bestimmt. 10.2.5 Ausbildungsjahre und Stundenlöhne Abschließend betrachten wir eine Regression des Stundenlohns ( Y ) auf die Zahl der Ausbildungsjahre ( X ). 1 Die Daten stammen aus dem ALLBUS-File (Westdeutschland) für n = 1238 Personen. Abbildung 10.4 zeigt das Streudiagramm. 2 Als Ergebnis einer linearen Regression finden wir die Parameter ˆ α = 0 . 03 und ˆ β = 1 . 01, durch die die Regressionsgerade in der 1 Wir bezeichnen als Stundenlohn das durch die monatlichen Arbeitsstunden dividierte Monats-Nettoeinkommen. 2 Da sehr viele Personen identische Ausbildungsjahre haben, wurden die x i - Werte zufällig etwas variiert, um die Streuung besser sichtbar zu machen. Die Regression wird jedoch mit den unveränderten x i -Werten berechnet. <?page no="177"?> 10.2 Methode der kleinsten Quadrate 177 8 10 12 14 16 18 20 0 20 40 60 80 x y 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Abbildung 10.4: Ausbildungsjahre (x) und Einkommen (y). Abbildung bestimmt wird. Würde man sich an dieser Regressionsgeraden orientieren, würde mit jedem zusätzlichen Ausbildungsjahr der Stundenlohn um 1 . 01 Euro steigen. Tatsächlich wäre das aber irreführend, denn die Regressionsgerade passt offenbar nur sehr schlecht zu den Daten. Dem entspricht der niedrige Wert des Bestimmtheitsmaßes: R 2 = 0 . 16. Bei den hier verwendeten Daten hängen die Stundenlöhne offenbar nur sehr geringfügig von den Ausbildungsjahren ab. R-10-1 <?page no="178"?> 178 10 Einfache Regressionsrechnung 10.3 Aufgaben 1. Sie befragen fünf Personen nach ihrem monatlichen verfügbaren Nettoeinkommen ( X ) und ihren monatlichen Mietausgaben ( Y ) und erhalten folgende Werte (jeweils in 1000 e): ( x 1 , y 1 ) = (1 , 0 . 3) , ( x 2 , y 2 ) = (2 , 0 . 45) , ( x 3 , y 3 ) = (3 , 0 . 9) , ( x 4 , y 4 ) = (4 , 1 . 2) , ( x 5 , y 5 ) = (5 , 0 . 95) a) Stellen Sie die Wertepaare als Streudiagramm graphisch dar. b) Das Streudiagramm zeigt, dass sich der Zusammenhang zwischen dem verfügbaren Einkommen und den Mietausgaben recht gut durch ein Gerade darstellen läßt. Überlegen Sie, warum üblicherweise als Anpassungskriterium die Minimierung der Abstandsquadratensumme zwischen den Y -Werten und den Regressionswerten und nicht die Minimierung der Abstandssumme gewählt wird. c) Ermitteln Sie aus den Ableitungen der Abstandsquadratensumme Q ( α, β ) die beiden Normalgleichungen. d) Ersetzen Sie in der 2. Normalgleichung x i durch ( x i − ¯ x ) und y i durch ( y i − ¯ y ), dann lösen Sie die Gleichung für den Parameter β . e) Welche Größen resultieren, wenn Sie in Ihrer Bestimmungsgleichung für β den Zähler und den Nenner durch n dividieren? f) Ermitteln Sie die Bestimmungsgleichung für α durch Umformung der 1. Normalgleichung. g) Wenn Sie den Ursprung Ihres Koordinatensystems in den Punkt ( ¯ x, 0) legen, entspricht dies einer Messung der X - Werte in Abständen zum Mittelwert. Der Achsenabschnitt Ihrer Regressionsgeraden im transformierten Koordinatensystem entspricht dann ¯ y, die Steigung der Geraden bleibt jedoch unverändert. Zeigen Sie dies in Ihrem Streudiagramm. <?page no="179"?> 10.3 Aufgaben 179 h) Wenn Sie den Ursprung Ihres Koordinatensystems in den Punkt ( ¯ x, ¯ y ) legen, entspricht dies einer Messung sowohl der X als auch der Y -Werte in Abständen zum Mittelwert. Der Achsenabschnitt Ihrer Regressionsgeraden im transformierten Koordinatensystem ist dann 0 , die Steigung der Geraden bleibt aber auch in diesem Fall unverändert. Zeigen Sie dies in Ihrem Streudiagramm. i) Berechnen Sie das Steigungsmaß Ihrer Mietausgabenfunktion und interpretieren sie den numerischen Wert. j) Berechnen Sie den Achsenabschnitt Ihrer Mietausgabenfunktion. Wie lautet Ihre Mietausgabenfunktion. k) Zeigen Sie, dass eine nach der Methode der kleinsten Quadrate berechnete Regressionsfunktion durch den Punkt (¯ x, ¯ y ) geht. l) Wie lauten die Regressionswerte, also die auf das jeweilige Einkommen x i bedingten mittleren Mietausgaben ˆ y i ? m) Berechnen Sie die Abstandsquadratsumme Q ( ˆ α, ˆ β ) und die Varianz σ 2 U n) Berechnen Sie die Summe und den Mittelwert der quadrierten Abstände der Regressionswerte ˆ y i von dem arithmetischen Mittel ¯ y . o) Vergleichen Sie die Summe der durch die Regression erklärten Varianz ( σ 2 ˆ Y ) und der von der Regression nicht erklärten Varianz ( σ 2 U ) mit der gesamten Varianz ( σ 2 Y ). p) Wieviel Prozent der gesamten Varianz von Y können durch die Regression bestimmt werden? Wie nennt man diese Maßzahl? <?page no="180"?> 180 10 Einfache Regressionsrechnung 2. Betrachten Sie die beiden folgenden Regressionen: y i = α + βx i + u i x i = ψ + δy i + v i a) Wie lauten die Bestimmungsgleichungen für ˆ β und ˆ δ ? b) Vergleichen Sie die beiden Bestimmungsgleichungen mit der Definition des linearen Korrelationskoeffizienten. Sehen Sie einen Zusammenhang? c) Berechnen Sie ˆ δ sowohl mit Hilfe der Bestimmungsgleichung (Aufgabe 2a) als auch über den Zusammenhang mit dem linearen Korrelationskoeffizienten. d) Welche der beiden in Aufgabe 2a dargestellten Regressionen erscheint Ihnen sachlogisch sinnvoller? <?page no="181"?> 10.4 R-Code 181 10.4 R-Code R-10-1 ## Daten einlesen d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) d <d[d$ostwest==0,] n <nrow(d) # Stundenlohn in Euro y <as.numeric(d$stlohn) # Ausbildungsjahre x <as.numeric(d$bildung) ## Einfache lineare Regression reg <lm(y ~ x) # Ergebnis a <coef(reg)[1] a b <coef(reg)[2] b # durch Schätzung vorhergesagte Werte (eng.: fitted values) yd <reg$fitted # Residuen r <y yd ## Funktionen # Funktion für empirische Varianz erstellen VarEmp <function(x) { n <length(x) var.emp <- (n-1)/ n * var(x) return(var.emp) } ## R2 VarEmp(yd) / VarEmp(y) ## Abbildung # leicht modifizierte Ausbildungsjahre set.seed(123) x.mod <x + runif(n = n, min = -0.15, max = 0.15) # Streudiagramm plot(x = x.mod, y = y, pch = 19, cex = 0.2, xlab = "x", ylab = "y", xaxt = "n") axis(side = 1, at = 7: 21, label = 7: 21) # Regressiongerade einzeichnen lines(x = x, y = yd, lwd = 2) <?page no="183"?> 11 Multiple Regressionsanalyse Im vorangegangenen Kapitel haben wir eine einfache Variante der linearen Regression besprochen, bei der es nur eine erklärende Variable gibt. In diesem Kapitel besprechen wir eine Verallgemeinerung, bei der es zwei oder mehr erklärende Variablen geben kann. Diese multiple Regressionsanalyse ist das in den empirischen Wirtschafts- und Sozialwissenschaften am häufigsten verwendete Verfahren. 11.1 Das multiple Regressionsmodell . . . . . . . . . . . . . . . 184 11.1.1 Anpassungskriterium und Zielfunktion . . . . . . . 184 11.2 Das multiple Regressionsmodell in Matrixnotation . . . . . 186 11.3 Eine multiple Lohnregression . . . . . . . . . . . . . . . . 189 11.4 Partielle Regressionskoeffizienten und Residuenregressionen 190 11.5 Interaktionen erklärender Variablen . . . . . . . . . . . . . 191 11.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 193 11.7 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 <?page no="184"?> 184 11 Multiple Regressionsanalyse 11.1 Das multiple Regressionsmodell Um den Modellansatz zu erklären, verwenden wir eine abhängige Variable Y und zwei erklärende Variablen X 1 und X 2 . Wir beziehen uns also auf eine dreidimensionale Variable ( X 1 , X 2 , Y ) und nehmen an, dass Werte ( x 1i , x 2i , y i ) für n Einheiten gegeben sind. Ausgangspunkt ist die folgende Regressionsgleichung y i = β 0 + β 1 x 1i + β 2 x 2i + u i . β 0 , β 1 und β 2 sind die Parameter der Regressionsfunktion f ( x 1 , x 2 ) = β 0 + β 1 x 1 + β 2 x 2 , die für beliebige Argumente definiert ist. Wie bei der einfachen Regression werden die Residuen durch u i bezeichnet. Wenn es nur zwei erklärende Variablen gibt, lässt sich das Regressionsproblem noch im dreidimensionalen Raum darstellen. Die drei Parameter β 0 , β 1 und β 2 bestimmen die Lage der Regressionsebene. Die vertikalen Abstände der Datenpunkten ( x 1i , x 2i , y i ) von der Ebene entsprechen den Residuen u i . 11.1.1 Anpassungskriterium und Zielfunktion Die numerischen Werte der Parameter β 0 , β 1 und β 2 bestimmen wir, wie im Fall der linearen Einfachregression, mit Hilfe der Methode der kleinsten Quadrate . Gesucht ist diejenige Regressionsebene, die die Summe der quadrierten Residuen, also ∑ n i=1 u 2 i , minimal macht. Die zu minimierende Abstandsquadratsumme ist Q ( β 0 , β 1 , β 2 ) = n ∑ i=1 ( y i − β 0 − β 1 x 1i − β 2 x 2i ) 2 . Diese Funktion hängt von den drei Parametern β 0 , β 1 und β 2 ab. Um ihr Minimum zu bestimmen, werden zunächst die partiellen <?page no="185"?> 11.1 Das multiple Regressionsmodell 185 Ableitungen gebildet: ∂Q ( β 0 , β 1 , β 2 ) ∂β 0 = 2 n ∑ i=1 ( y i − β 0 − β 1 x 1i − β 2 x 2i )( − 1) , ∂Q ( β 0 , β 1 , β 2 ) ∂β 1 = 2 n ∑ i=1 ( y i − β 0 − β 1 x 1i − β 2 x 2i )( −x 1i ) , ∂Q ( β 0 , β 1 , β 2 ) ∂β 2 = 2 n ∑ i=1 ( y i − β 0 − β 1 x 1i − β 2 x 2i )( −x 2i ) . Durch das Nullsetzen dieser Ableitungen lassen sich Bestimmungsgleichungen zur Berechnung der optimalen Parameter ˆ β 0 , ˆ β 1 und ˆ β 2 ermitteln. Werden die Variablen als Mittelwertabweichungen betrachtet, d.h. x ∗ 1i = x 1i − ¯ x 1 , x ∗ 2i = x 2i − ¯ x 2 und y ∗ i = y i − ¯ y anstelle von x 1i , x 2i und y i , resultieren folgende Bestimmungsgleichungen: ˆ β 0 = ¯ y − ˆ β 1 ¯ x 1 − ˆ β 2 ¯ x 2 , ˆ β 1 = ∑ n i=1 x ∗ 2i 2 ∑ n i=1 x ∗ 1i y ∗ i − ∑ n i=1 x ∗ 1i x ∗ 2i ∑ n i=1 x ∗ 2i y ∗ i ∑ n i=1 x ∗ 1i 2 ∑ n i=1 x ∗ 2i 2 − (∑ n i=1 x ∗ 1i x ∗ 2i ) 2 , ˆ β 2 = ∑ n i=1 x ∗ 1i 2 ∑ n i=1 x ∗ 2i y ∗ i − ∑ n i=1 x ∗ 1i x ∗ 2i ∑ n i=1 x ∗ 1i y ∗ i ∑ n i=1 x ∗ 1i 2 ∑ n i=1 x ∗ 2i 2 − (∑ n i=1 x ∗ 1i x ∗ 2i ) 2 . Wir betrachten ein kleines Zahlenbeispiel mit n = 4 Beobachtungen (siehe Abbildung 11.1): ( x 11 , x 21 , y 1 ) = (2 , 1 , 4) , ( x 12 , x 22 , y 2 ) = (4 , 5 , 3) , ( x 13 , x 23 , y 3 ) = (6 , 3 , 6) , ( x 14 , x 24 , y 4 ) = (8 , 7 , 7) . Wir finden: ˆ β 1 = 20 · 12 − 16 · 6 20 · 20 − 256 = 1 , ˆ β 2 = 20 · 6 − 16 · 12 20 · 20 − 256 = − 0 . 5 und ˆ β 0 = 5 − 1 · 5 − ( − 0 . 5) · 4 = 2. Die numerischen Regressionswerte ˆ y i ergeben sich aus der Regressionsfunktion ˆ y i = 2 + 1 x 1i − 0 . 5 x 2i . Siehe Abbildung 11.2 zur Regressionsebene. R-11-1 Schließlich sei angemerkt, dass sich die Bestimmungsgleichungen auch mit Varianz- und Kovarianzausdrücken <?page no="186"?> 186 11 Multiple Regressionsanalyse 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 x 1 y x 2 Abbildung 11.1: Zwei erklärende Variablen. ˆ β 1 = σ 2 x 2 σ x 1 y − σ x 1 x 2 σ x 2 y σ 2 x 1 σ 2 x 2 − σ 2 x 1 x 2 und ˆ β 2 = σ 2 x 1 σ x 2 y − σ x 1 x 2 σ x 1 y σ 2 x 1 σ 2 x 2 − σ 2 x 1 x 2 darstellen lassen. 11.2 Das multiple Regressionsmodell in Matrixnotation Im allgemeinen Fall mit zwei oder mehr erklärenden Variablen ist es hilfreich, eine Matrixnotation zu verwenden. Ausgangspunkt sind folgende Regressionsgleichungen mit p erklärenden Variablen: y i = β 0 x 0i + β 1 x 1i + β 2 x 2i + ... + β p x pi + u i , wobei x 0i = 1 ist, für i = 1 , . . . , n . Werden die n Gleichungen untereinander geschrieben, kann man stattdessen in einer Matrixnotation die Gleichung y = Xβ + u betrachten. y ist ein Spaltenvektor der Dimension n × 1, X ist eine Matrix der Dimension n× ( p +1), u ist ein Spaltenvektor der Dimension n × 1. Gesucht ist ein Parametervektor β = ( β 0 , β 1 , . . . , β p ) ′ . <?page no="187"?> 11.2 Das multiple Regressionsmodell in Matrixnotation 187 2 4 6 8 2 4 6 0 5 10 y x 2 x 1 Abbildung 11.2: Regressionsebene für die Regression mit zwei erklärenden Variablen. Die schwarzen Pfeile deuten an, ob der Punkt über oder unter der Ebene liegt. Wenn der Pfeil nach oben zeigt liegt der Punkt über der Ebene. Die zu minimierende Zielfunktion ist Q ( β ) = ( y − Xβ ) ′ ( y − Xβ ) . Die Ableitung nach dem Vektor β ist ∂Q ( β ) ∂β = − 2 X ′ y + 2 X ′ Xβ = 0 . Als Lösung findet man ˆ β = ( X ′ X ) −1 X ′ y. Die Varianz der Residuen ergibt sich in Matrixnotation als 1 ˆ σ 2 = 1 n ˆ u ′ ˆ u. 1 Im Kontext stochastischer Modelle wird die auf Basis der Residuen berechnete Varianz als Schätzwert für die Varianz des Störterms interpretiert und üblicherweise nicht durch n, sondern durch die Zahl der Freiheitsgrade n − p − 1 dividiert. <?page no="188"?> 188 11 Multiple Regressionsanalyse Wir illustrieren die Berechnung mit den oben eingeführten Beispieldaten ( n = 4, p = 2). Ausgehend von der Modellmatrix X und dem Vektor der erklärenden Variablen X =    1 2 1 1 4 5 1 6 3 1 8 7    y =    4 3 6 7    berechnen wir die Bestandteile für die Schätzgleichung: X ′ X = [ 4 20 16 20 120 96 16 96 84 ] , ( X ′ X ) −1 = [ 1 . 5 − 0 . 25 0 − 0 . 25 0 . 139 − 0 . 111 0 − 0 . 111 0 . 139 ] , X ′ y = [ 20 112 86 ] und erhalten schließlich die geschätzten Koeffizienten mit ˆ β = ( X ′ X ) −1 X ′ y = [ 2 1 − 0 . 5 ] . Die Regressionswerte ergeben sich als ˆ y = X ˆ β =    3 . 5 3 . 5 6 . 5 6 . 5    . Für die Residuen finden wir ˆ u = y − X ˆ β =    0 . 5 − 0 . 5 − 0 . 5 0 . 5    . Die Varianz der Residuen ist ˆ σ 2 = ˆ u ′ ˆ u/ n = 0 . 25. R-11-2 <?page no="189"?> 11.3 Eine multiple Lohnregression 189 6 8 10 12 14 16 18 20 22 0 20 40 60 80 100 30 35 40 45 50 55 60 65 x 1 y x 2 Abbildung 11.3: Ausbildungsjahre ( x 1 ), Alter ( x 2 ) und Einkommen (y). 11.3 Eine multiple Lohnregression Jetzt verwenden wir unser ALLBUS-Datenfile (Westdeutschland), um zu untersuchen, wie der Stundenlohn ( Y ) sowohl von den Ausbildungsjahren ( X 1 ) als auch vom Alter ( X 2 ) abhängt. Wir berücksichtigen dabei die Daten für n = 1014 Personen im Alter zwischen 30 und 65 Jahren. Die Daten sind in Abbildung 11.3 dargestellt. Die Regressionsfunktion hat die Gestalt f ( x 1 , x 2 ) = β 0 + β 1 x 1 + β 2 x 2 . Mit der Methode der kleinsten Quadrate findet man die optimalen Parameter ˆ β 0 = − 5 . 129, ˆ β 1 = 1 . 049 und ˆ β 2 = 0 . 112, so dass die Regressionsfunktion folgendermaßen aussieht: ˆ y = ˆ f ( x 1 , x 2 ) = − 5 . 129 + 1 . 049 x 1 + 0 . 112 x 2 . R-11-3 Bei der Interpretation ist zunächst zu beachten, dass ˆ y eine Approximation des bedingten Mittelwerts von Y ist, wenn als Bedingung die Werte X 1 = x 1 und X 2 = x 2 gegeben sind. Die Funktion <?page no="190"?> 190 11 Multiple Regressionsanalyse zeigt also, wie ein Durchschnittslohn von der Anzahl der Ausbildungsjahre und dem Alter abhängt. So kann man z. B. sagen: In unserem Datenfile beträgt die Stundenlohndifferenz zwischen Personen gleichen Alters, deren Ausbildungsdauer sich um ein Jahr unterscheidet, im Durchschnitt 1 . 05 Euro. Man könnte auch sagen: Wenn man bei gleichem Alter die Ausbildungsdauer um ein Jahr erhöht, erhöht sich der durchschnittliche Stundenlohn um 1 . 05 Euro. Aber hier muss man aufpassen. Im Rahmen der deskriptiven Statistik liefert die Regressionsrechnung eine deskriptive Aussage über die durch ein Datenfile gegebenen Daten, in unserem Beispiel über 1014 Lohnempfänger im Jahr 2018. Darüber was passiert, wenn sich bei diesen Personen das Alter oder die Ausbildungsdauer verändert, liefert die Regressionsfunktion keine verlässlichen Informationen. Wichtig ist auch, dass die Ergebnisse davon abhängen, welche erklärenden Variablen verwendet werden. Untersuchen wir mit den gleichen Daten, wie der Stundenlohn linear von den Ausbildungsjahren abhängt, erhalten wir als Ergebnis die Regressionsfunktion ˆ y = 0 . 486 + 1 . 025 x 1 . Offenbar unterscheidet sich der ermittelte Zusammenhang mit den Ausbildungsjahren durch die Hinzunahme des Alters als weitere erklärende Variable geringfügig. 11.4 Partielle Regressionskoeffizienten und Residuenregressionen Die Regressionswerte liegen auf der berechneten Regressionsebene ˆ y = ˆ β 0 + ˆ β 1 x 1 + ˆ β 2 x 2 . Wegen ∂ ˆ y ∂x 1 = ˆ β 1 und ∂ ˆ y ∂x 2 = ˆ β 2 gibt der partielle Regressionskoeffizient ˆ β 1 an, wie sich ˆ y verändert, wenn die Variable X 1 um eine Einheit zunimmt, gegeben dass die Variable X 2 konstant bleibt. Ganz analog gibt ˆ β 2 an, wie sich ˆ y verändert, wenn die Variable X 2 um eine Einheit zunimmt, gegeben dass die Variable X 1 konstant bleibt. Im Lohnbeispiel sind X 1 und X 2 fast unkorreliert (r = − 0 . 074). Bei hoch korrelierenden erklärenden Variablen würde das Problem <?page no="191"?> 11.5 Interaktionen erklärender Variablen 191 bestehen, dass Differenzen bei einer Variablen bei Konstanz der anderen Variablen kaum beobachtet wurden. Für die Interpretation von partiellen Regressionskoeffizienten ist es hilfreich, sich zu verdeutlichen, dass diese auch aus einfachen linearen Regressionen mit Residuen berechnet werden können. Der partielle lineare Einfluss von X 1 auf ˆ y entspricht dem Einfluss von X 1 , nachdem der lineare Einfluss von X 2 auf X 1 eliminiert wurde, auf ˆ y , nachdem auch aus Y der lineare Einfluss von X 2 eliminiert wurde. Für das Zahlenbeispiel finden wir für die Regression von X 1 auf X 2 ˆ x 1|x 2 = 14 . 906 + − 0 . 025 x 2 . Die Residuen dieser Regression bezeichnen wir mit ˆ u x 1 |x 2 . Für die Regression von y auf x 2 finden wir ˆ y |x 2 = 10 . 514 + 0 . 085 x 2 und bezeichnen die Residuen dieser Regression mit ˆ u y|x 2 . Für die Regression der Residuen ˆ u y|x 2 auf die Residuen ˆ u x 1 |x 2 ergibt sich ˜ u y|x 2 = 0 + 1 . 049ˆ u x 1 |x 2 . Der Steigungskoeffizient dieser linearen Einfachregression für Residuen entspricht gerade dem partiellen Regressionskoeffizient ˆ β 1 der multiplen Lohnregression. Aus diesem Grund verändern sich partielle Regressionskoeffizienten, wenn eine Variable zusätzlich in eine Regression aufgenommen oder aus dieser entfernt wird, es sei denn, diese Variable ist mit allen anderen Kovariaten (erklärenden Variablen) unkorreliert. Ein Fall, der in empirischen Analysen praktisch nie auftritt. R-11-4 11.5 Interaktionen erklärender Variablen Bei der eben verwendeten multiplen Regressionsfunktion hängt der Zusammenhang zwischen der abhängigen Variablen und einer erklärenden Variablen nicht davon ab, welchen Wert die jeweils andere erklärende Variable hat. Z. B. beträgt die durchschnittliche Stundenlohndifferenz bei einer Ausbildungsdifferenz von einem Jahr stets 1 . 05 Euro, unabhängig vom Alter. Es ist aber durchaus möglich, dass es eine Interaktion zwischen Ausbildungsdauer und <?page no="192"?> 192 11 Multiple Regressionsanalyse Alter gibt. Um das zu untersuchen, kann eine weitere Variable X 3 = X 1 X 2 mit Werten x 3i = x 1i x 2i verwendet werden. Die Regressionsfunktion sieht dann so aus: f ( x 1 , x 2 ) = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 . Mit der Methode der kleinsten Quadrate findet man nun die Parameter ˆ β 0 = 9 . 167, ˆ β 1 = 0 . 017, ˆ β 2 = − 0 . 187 und ˆ β 3 = 0 . 022, so dass die Regressionsfunktion folgendermaßen aussieht: ˆ y = ˆ f ( x 1 , x 2 ) = 9 . 167 + 0 . 017 x 1 − 0 . 187 x 2 + 0 . 022 x 1 x 2 . Für die partiellen Ableitungen finden wir nun ∂ ˆ y ∂x 1 = ˆ β 1 + x 2 ˆ β 3 und ∂ ˆ y ∂x 2 = ˆ β 2 + x 1 ˆ β 3 . Dies bedeutet, dass der Effekt einer Erhöhung der Anzahl der Ausbildungsjahre um ein weiteres Jahr auf den linear approximierten bedingten Mittelwert des Stundenlohnes von dem Alter der Person abhängt. Für eine 40-jährige Person finden wir z. B. einen Anstieg von ˆ y um 0 . 017 + 40 · 0 . 022 = 0 . 883. Für eine 50-jährige Person finden wir hingegen einen Anstieg von ˆ y um 0 . 017 + 50 · 0 . 022 = 1 . 099. R-11-5 <?page no="193"?> 11.6 Aufgaben 193 11.6 Aufgaben 1. Leiten Sie die Berechnungsvorschriften der Parameter ˆ β 0 , ˆ β 1 und ˆ β 2 her (vgl. Seite 185). 2. Wir betrachten ein kleines Zahlenbeispiel mit n = 4 Beobachtungen: ( x 11 , x 21 , y 1 ) = (2 , 3 , 2) , ( x 12 , x 22 , y 2 ) = (4 , 8 , 1) , ( x 13 , x 23 , y 3 ) = (6 , 5 , 3) , ( x 14 , x 24 , y 4 ) = (8 , 0 , 6) . a) Berechnen Sie die Regressionsparameter ˆ β 0 , ˆ β 1 und ˆ β 2 mit Hilfe der in der vorherigen Aufgabe hergeleiteten Berechnungsvorschriften. b) Berechnen Sie die Regressionsparameter mit Hilfe von Matrixoperationen. Ermitteln Sie auch die Regressionswerte und die Residuen. Hilfe: ( X ′ X ) −1 = [ 3 . 328 − 0 . 407 − 0 . 261 − 0 . 407 0 . 063 0 . 022 − 0 . 261 0 . 022 0 . 037 ] <?page no="194"?> 194 11 Multiple Regressionsanalyse 11.7 R-Code R-11-1 ### Daten einlesen x1 <c(2,4,6,8) x2 <c(1,5,3,7) y <c(4,3,6,7) ### 3D-Plot library(scatterplot3d) scatterplot3d(x1, x2, y, xlab = "x1", ylab = "x2", zlab = "y", color = "darkgrey", pch = 20, type = "h", xlim = c(0,10), ylim = c(0,10), zlim = c(0,10)) ### Regression n <length(y) mx1 <mean(x1) mx2 <mean(x2) my <mean(y) x1s <x1-mx1 x2s <x2-mx2 ys <y-my # geschätzter Koeffizient für beta 1 b1 <- (sum(x2s^2) * sum(x1s*ys) sum(x1s*x2s) * sum(x2s*ys)) / (sum(x1s^2) * sum(x2s^2) sum(x1s*x2s)^2) b1 # geschätzter Koeffizient für beta 2 b2 <- (sum(x1s^2) * sum(x2s*ys) sum(x1s*x2s) * sum(x1s*ys)) / (sum(x1s^2) * sum(x2s^2) sum(x1s*x2s)^2) b2 # geschätzter Koeffizient für beta 0 b0 <my b1*mx1 b2*mx2; b0 # alternativ via lm() reg <lm(y ~ x1 + x2); reg ### Regressionsebene library(rockchalk) plotPlane(model = reg, plotx1 = "x1", plotx2 = "x2", drawArrows = TRUE, alwd = 1, pch = 19, pcol = 1, alength = 0.3, alty = 1, acol = "black", lcol = "darkgrey", ticktype = "detailed", cex.axis = 1) R-11-2 X <cbind(1, x1, x2) # geschätzte Koeffizienten beta <solve(t(X) %*% X) %*% t(X) %*% y; beta <?page no="195"?> 11.7 R-Code 195 # Regressionswerte y.d <- X %*% beta; y.d # Residuen u.d <y - X %*% beta; u.d # Varianz der Residuen t(u.d) %*% u.d / n R-11-3 ## Daten einlesen d <read.csv2(file = "allbus2018.csv", stringsAsFactors = FALSE) d <d[d$ostwest==0 & d$alter<=65 & d$alter>=30 ,] n <nrow(d) # Stundenlohn in Euro y <as.numeric(d$stlohn) # Ausbildungsjahre x1 <as.numeric(d$bildung) # Alter x2 <d$alter ## 3D-Plot library(scatterplot3d) scatterplot3d(x1, x2, y, color = "darkgrey", pch = 20, type = "h") ## Regression reg <lm(y ~ x1 + x2); reg R-11-4 # Korrelation von Ausbildungsjahren und Alter cor(x1, x2) # Koeffizient der Ausbildungsjahre über # Einzelregressionen berechnen reg.x1x2 <lm(x1 ~ x2); reg.x1x2 reg.yx1 <lm(y ~ x1) reg.yx2 <lm(y ~ x2); reg.yx2 u.x1x2 <reg.x1x2$resid u.yx2 <reg.yx2$resid reg2 <lm(u.yx2 ~ u.x1x2) reg2 R-11-5 # Regression mit Interaktion x3 <x1*x2 reg3 <lm(y ~ x1 + x2 + x3); reg3 <?page no="197"?> 12 Zeitreihen Viele statistische Variablen, mit denen wirtschaftliche Aktivitäten erfasst werden, werden als Zeitreihen dargestellt. Üblich ist die Messung und Darstellung für äquidistante (d.h. gleiche Abstände aufweisende) Beobachtungszeitpunkte, z. B. für Monate, Quartale oder Jahre. Die meisten ökonomischen Aktivitäten unterliegen dabei jahreszeitlichen Einflüssen. In der Zeitreihenanalyse wird versucht, verschiedene Komponenten der zeitlichen Entwicklung einer Zeitreihe zu identifizieren. 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 198 12.2 Komponenten von Zeitreihen . . . . . . . . . . . . . . . . 200 12.3 Trendermittlung . . . . . . . . . . . . . . . . . . . . . . . 201 12.3.1 Trendfunktionen . . . . . . . . . . . . . . . . . . . 202 12.3.2 Gleitende Durchschnitte . . . . . . . . . . . . . . . 203 12.4 Saisonbereinigung . . . . . . . . . . . . . . . . . . . . . . 205 12.4.1 Periodogrammverfahren . . . . . . . . . . . . . . . 206 12.4.2 Census- und Berliner Verfahren . . . . . . . . . . . 209 12.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 211 12.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 <?page no="198"?> 198 12 Zeitreihen 12.1 Einleitung Als Beispiel für eine Zeitreihe betrachten wir in diesem Kapitel durchgängig die zeitliche Entwicklung des Bruttoinlandsprodukts (BIP), für das vom Statistischen Bundesamt Vierteljahreswerte veröffentlicht werden. Das Bruttoinlandsprodukt quantifiziert die in einer Periode, hier in einem Vierteljahr, im Inland im Rahmen der Produktion entstandenen Einkommen. Über die reine Beschreibung der zeitlichen Entwicklung hinaus wird in der Zeitreihenanalyse versucht, mit Hilfe eines Modells verschiedene Komponenten der zeitlichen Entwicklung zu identifizieren. Weitere interessierende betriebswirtschaftliche und volkswirtschaftliche Sachverhalte, die in Form von Zeitreihen dargestellt werden, sind z. B. Entwicklungen von Preisindizes, von Aktienkursen und der Arbeitslosenquote. Zur Notation einer Zeitreihe verwenden wir eine Variable Y mit Werten y i ( i = 1 , . . . , n ). Diese Werte beziehen sich auf (meistens äquidistante) Zeitpunkte t i , wobei eine zeitliche Reihenfolge t 1 < t 2 < · · · < t n angenommen wird. Die beiden Abbildungen 12.1 und 12.2 zeigen die zeitliche Entwicklung der Vierteljahreswerte des preisbereinigten Bruttoinlandsprodukts, das als Index mit dem Basisjahr 2010 dargestellt wird, d.h. im Jahr 2010 hat der Index im Durchschnitt gerade den Wert 100. Abbildung 12.2 zeigt die Veränderungsrate ( w ) für jedes Quartal gegenüber dem Vorquartal. R-12-1 Die erste Abbildung zeigt einen langfristigen Anstieg von 90 . 6 Punkten zu Beginn des Jahres 2002 bis auf 115 . 7 im ersten Quartal des Jahres 2019. Auffällig sind die beiden starken Einbrüche im vierten Quartal 2008 und im ersten Quartal 2009 in Folge der internationalen Finanzkrise. Die Veränderungsraten betrugen hier gegenüber dem Vorquartal − 4 . 1 % und − 5 . 1 %. Der Einbruch der Einkommensentstehung (preisbereinigt) innerhalb eines halben Jahres vom ersten Quartal 2009 gegenüber dem dritten Quartal in 2008 um − 9 % ist bemerkenswert. Die Abbildung der prozentualen Veränderungsraten ( w ) lässt deutlich ein saisonales Muster erkennen. Die Veränderungsraten der vier Quartale unterscheiden sich deutlich. Tabelle 12.1 zeigt einige Maßzahlen, die diese Unterschiede quantifizieren (Mittelwert ¯ w , Median ˜ w 0.5 , Standardabweichung σ w und mittlere absolute Abwei- <?page no="199"?> 12.1 Einleitung 199 Jahr Index 90 95 100 105 110 115 120 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 1. Quartal 2. Quartal 3. Quartal 4. Quartal Abbildung 12.1: Zeitliche Entwicklung der Vierteljahreswerte des preisbereinigten Bruttoinlandsprodukts. Jahr w -6 -4 -2 0 2 4 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 1. Quartal 2. Quartal 3. Quartal 4. Quartal Abbildung 12.2: Zeitliche Entwicklung des BIP - Veränderungsrate (w) für jedes Quartal gegenüber dem Vorquartal. <?page no="200"?> 200 12 Zeitreihen Tabelle 12.1: Veränderungsrate des BIP. ¯ w ˜ w 0.5 σ w MA w 1. Quartal -0.33 -0.12 1.96 1.44 2. Quartal 0.85 1.14 1.17 0.99 3. Quartal 2.65 2.93 0.72 0.57 4. Quartal -1.64 -1.57 0.91 0.70 Alle 0.38 0.35 2.03 1.70 chung MA w der Veränderungsraten). Anhand der Mittelwerte lässt sich folgender typische Jahresverlauf charakterisieren: Im ersten Quartal sinkt das BIP leicht ( − 0 . 33 %). Im zweiten Quartal wächst das BIP verhalten (0 . 85 %) und im dritten Quartal kräftig (2 . 65 %). Im vierten Quartal folgt ein deutlicher Rückgang ( − 1 . 64 %). Die beiden Streuungsmaße ( σ w und MA w ) weisen aus, dass die Entwicklung im ersten Quartal über die Jahre besonders stark streut. Zu vermuten ist, dass im ersten Quartal der klimatische Einfluss in Form milder oder strenger Winter stark variiert. R-12-2 12.2 Komponenten von Zeitreihen Gedanklicher Ausgangspunkt der Zeitreihenanalyse ist die Vorstellung, dass sich die Werte der Zeitreihe als Summen oder als Produkte von vier Komponenten ergeben. Das additive Modell lässt sich in der Form y i = g i + k i + s i + u i , das multiplikative Modell in der Form y i = g i k i s i u i darstellen. Beide Modelle werden in der Praxis verwendet. Das Veröffentlichungsprogramm des Statistischen Bundesamtes umfasst sowohl mit dem Census X-12-ARIMA-Verfahren (multiplikatives Modell) als auch mit dem BV4.1-Verfahren (additives Modell) ermittelte Komponenten. Die vier Komponenten lassen sich folgendermaßen charakterisieren: Die glatte Komponente g i stellt die mittel- und längerfristi- <?page no="201"?> 12.3 Trendermittlung 201 gen Entwicklung dar. In der glatten Komponente sind sowohl die langfristige Trendals auch die mittelfristige (i.d.R. mehrjährige) Konjunkturentwicklung zusammengefasst. Die Kalenderkomponente k i erfasst Abweichungen, die durch unterschiedliche Anzahlen an Arbeitstagen bedingt sind. Das Statistische Bundesamt ermittelt sog. Normperioden, d.h. übliche Anzahlen an Arbeitstagen für verschiedene Perioden. Ein Durchschnittsmonat hat 20 . 8, ein Durchschnittsquartal hat 62 . 4 und ein Durchschnittsjahr hat 249 . 7 Arbeitstage. Aufgrund von Vor- und Nachholeffekten sind die tatsächlichen Abweichungen in den betrachteten Größen (z. B. das Bruttoinlandsprodukt) geringer als die arbeitstäglichen Unterschiede. Die meisten Zeitreihen weisen eine saisonale Komponente s i auf. Saisonschwankungen sind regelmäßige unterjährige Schwankungen. Ursachen sind meist klimatische Bedingungen, die sich auf wirtschaftliche Aktivitäten auswirken (Urlaubsreisen, Bautätigkeit, etc.). Die Restkomponente u i beinhaltet Einflüsse, die nicht durch die drei anderen Komponenten erfasst werden. In ihr sind auch Sondereinflüsse wie Streiks, Wettereinflüsse u.ä. enthalten. Üblich ist die Modellannahme, dass für eine ausreichende Anzahl an Beobachtungen die Restkomponente keinen Trend aufweist, so dass der Mittelwert der u i -Werte im additiven Modell 0 und im multiplikativen Modell 1 ist. Abbildung 12.3 zeigt für das preisbereinigte BIP die zeitliche Entwicklung der vier Komponenten, die ausgehend von einem multiplikativen Modell mit dem X-12-ARIMA-Verfahren berechnet wurden. 1 R-12-3 12.3 Trendermittlung Bei der Berechnung der glatten Komponente können verschiedene Methoden verwendet werden. Bei einem globalen Ansatz werden zur Berechnung eines Trendwerts g i alle n Beobachtungswerte verwendet. Dies ist z. B. der Fall, wenn ein Trend mit der Methode 1 Statistisches Bundesamt, Fachserie 18 Reihe 1.3, Volkswirtschaftliche Gesamtrechnungen, Inlandsproduktsberechnung, Saisonbereinigte Vierteljahresergebnisse nach Census X-12-ARIMA und BV4.1, 1. Vierteljahr 2019, Tabelle 1.2, Wiesbaden 2019. <?page no="202"?> 202 12 Zeitreihen Jahr Index 90 95 100 110 120 2002 2004 2006 2008 2010 2012 2014 2016 2018 (a) glatte Komponenten Jahr Index 0.98 0.99 1 1.01 1.02 2002 2004 2006 2008 2010 2012 2014 2016 2018 (b) Saisonkomponenten Jahr Index 0.994 1.002 1.01 2002 2004 2006 2008 2010 2012 2014 2016 2018 (c) Kalenderkomponente Jahr Index 0.996 1 1.004 2002 2004 2006 2008 2010 2012 2014 2016 2018 (d) Restkomponente Abbildung 12.3: Komponenten des X-12-ARIMA-Verfahrens. der kleinsten Quadrate durch eine Regressionsfunktion bestimmt wird. Alternativ kann ein lokaler Ansatz verwendet werden. Bei diesem Ansatz werden zur Berechnung eines Trendwertes g i nur y i und einige zeitlich benachbarte Werte von y i verwendet. Als Beispiel besprechen wir weiter unten die Methode der gleitenden Durchschnitte. 12.3.1 Trendfunktionen Als Trendfunktion kann im einfachsten Fall ein linearer Trend mit der Methode der kleinsten Quadrate berechnet werden. Als erklärende Variable werden die Zeitpunkte t i verwendet. Die er- <?page no="203"?> 12.3 Trendermittlung 203 Jahr Index 90 95 100 105 110 115 120 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 Originalwerte Lineare Trendfkt. Polynom 13.-Grades Abbildung 12.4: Arten von Trendfunktionen. mittelten Regressionswerte ergeben dann die Werte der glatten Komponente g i . In der Abbildung 12.4 ist eine so berechnete lineare Trendfunktion eingezeichnet. Man erkennt, dass die Gerade die lang- und mittelfristige Entwicklung nur unzureichend nachzeichnet. Zusätzlich ist ein Polynom (vom Grad 13) eingezeichnet, das sehr viel flexibler ist. Aber auch dieses hochgradige Polynom macht die Entwicklung während der Krise Ende 2008/ Anfang 2009 nur unzureichend sichtbar. R-12-4 12.3.2 Gleitende Durchschnitte Eine Alternative zu parametrischen Trendfunktionen sind gleitende Durchschnitte . Zu einem Zeitpunkt t i wird als Ausgleichswert ein arithmetisches Mittel aus den λ um die Zeitstelle liegenden Y − Werten berechnet. Je größer λ gewählt wird, desto stärker ist die Glättung. Enthält die Zeitreihe eine Saisonkomponente, sollte λ so gewählt werden, dass es ein Vielfaches der Zahl der Phasen ist. Bei Quartalswerten, d.h. einer Zeitreihe mit vier Phasen, sollte λ demnach ein Vielfaches von vier sein. Bei einem ungeraden Wert von λ werden neben y i auch die <?page no="204"?> 204 12 Zeitreihen l = ( λ − 1) / 2 Y-Werte links und rechts von y i berücksichtigt. Als Trendwert ergibt sich dann g i = 1 2 l + 1 ( y i−l + . . . + y i + . . . + y i+l ) . Wenn λ eine gerade Zahl ist, werden zwar λ +1 Werte verwendet (so dass λ + 1 = 2 l + 1 ist), jedoch werden die beiden Randwerte jeweils mit dem Faktor 0 . 5 gewichtet, so dass ein gewichteter Mittelwert entsteht g i = 1 2 l (0 . 5 y i−l + y i−l+1 + . . . + y i + . . . + y i+l−1 + 0 . 5 y i+l ) . Wird z. B. für das dritte Quartal 2015 ein gleitendes 4er-Mittel berechnet, gehen in den Wert g i das zweite, dritte und vierte Quartal aus 2015 mit einem Gewicht von 1, die beiden ersten Quartale von 2015 und 2016 mit einem Gewicht von jeweils 0 . 5 ein. Gleitende Durchschnittswerte enthalten fast nur eine glatte Komponente , weil sich die übrigen drei Komponenten annahmegemäß über vier Phasen weitgehend ausgleichen. Dies lässt sich folgendermaßen darstellen: g i = 1 2 l (0 . 5 y i−l + . . . + y i + . . . + . 0 . 5 y i+l ) = 1 2 l ( 0 . 5 y i−l + j=i+l−1 ∑ j=i−l+1 y j + 0 . 5 y i+l ) Ersetzt man nun die y -Werte durch den theoretischen Ansatz g + k + s + u , findet man g i = 1 2 l ( 0 . 5 g i−l + j=i+l−1 ∑ j=i−l+1 g j + 0 . 5 g i+l ) + 1 2 l ( 0 . 5 k i−l + j=i+l−1 ∑ j=i−l+1 k j + 0 . 5 k i+l ) + 1 2 l ( 0 . 5 s i−l + j=i+l−1 ∑ j=i−l+1 s j + 0 . 5 s i+l ) <?page no="205"?> 12.4 Saisonbereinigung 205 + 1 2 l ( 0 . 5 u i−l + j=i+l−1 ∑ j=i−l+1 u j + 0 . 5 u i+l ) . Der weitgehende Ausgleich von Kalender-, Saison- und Restkomponente ist eine vorteilhafte Eigenschaft der gleitenden Durchschnitte. Problematisch ist jedoch, dass am Reihenanfang und -ende jeweils l Werte verloren gehen. Damit sind gleitende Mittelwerte für Beurteilungen der aktuellen Entwicklung nicht geeignet. Um eine stärkere Glättung zu erreichen, kann entweder ein höherer Wert für λ gewählt werden, oder es kann auf die gleitenden Durchschnitte erneut eine gleitende Mittelung angewendet werden. Zur Illustration zeigt Abbildung 12.5 neben den Ursprungswerten die ein- und zweifach gemittelten 4er-Mittel und ein 8er-Mittel. Zu beachten ist, dass bei dem 4er-Mittel am Reihenanfang und am Reihenende jeweils zwei und bei dem hintereinander geschalteten 4er-Mittel und dem 8er-Mittel jeweils 4 Werte nicht berechnet werden können. Es ist ersichtlich, dass der Glättungseffekt bei der doppelten 4er Mittelung aufgrund der höheren Gewichtung der zentralen Werte geringer als bei dem einfachen 8er Mittel ist. R-12-5 12.4 Saisonbereinigung Im Rahmen der Konjunkturbeobachtung ist das Interesse auf die Entwicklung der mittel- und längerfristigen Komponente gerichtet. Der saisonale Einfluss wird als störend betrachtet, so dass man durch eine Saisonbereinigung eine Eliminierung der Saisonkomponte erreichen möchte. Zu beachten ist natürlich, dass die Saisonkomponente (wie auch die anderen Komponenten) durch das jeweils verwendete Modell definiert wird. In Deutschland werden vom Statistischen Bundesamt für jedes Quartal zwei saisonbereinigte Werte veröffentlicht, die auf Basis zweier unterschiedlicher Verfahren berechnet werden. Das Berliner- Verfahren (BV4.1) beruht auf einem additiven Modell und einem parametrischen Ansatz zur Ermittlung der glatten Komponente. Das Census-Verfahren (X-12-ARIMA) beruht auf einem multiplikativen Modell und verwendet eine gleitende Mittelung zur Ermittlung der glatten Komponente. Im Folgenden betrachten wir <?page no="206"?> 206 12 Zeitreihen Jahr Index 90 95 100 105 110 115 120 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 Originalwerte 4er-Mittel 4er-Mittel der 4er-Mittel 8er-Mittel Abbildung 12.5: Ursprungswerte, ein- und zweifach gemittelte 4er-Mittel und ein 8er-Mittel. das Periodogrammverfahren , das eine vereinfachte Variante des Census-Verfahrens darstellt. 12.4.1 Periodogrammverfahren Wir verwenden jetzt anstelle von y i den Ausdruck y jk , wobei j der Index für das Jahr und k der Index für die Phase (Quartale) ist. Beispielsweise ist y 2,1 der erste Quartalswert des Jahres 2002. Das vereinfachte Verfahren beruht auf dem multiplikativen Modell und der Annahme einer zeitlich stabilen Saisonfigur, so dass s jk = s k gilt. Das Verfahren enthält fünf Schritte: (1) Ermittlung der glatten Komponente durch gleitende Mittelung. (2) Bereinigung der Originalwerte um die glatte Komponente (Trendbereinigung). (3) Ermittlung der mittleren relativen Trendabweichungen der Phasen (Quartale). (4) Normierung der mittleren relativen Trendabweichungen. (5) Ermittlung von saisonbereinigten Werten. Für die Ermittlung der glatten Komponente ( g jk ) wählen wir ein gleitendes 4er-Mittel (Schritt 1). Die Trendbereinigung <?page no="207"?> 12.4 Saisonbereinigung 207 (Schritt 2) führt zu Werten d jk = y jk / g jk = k jk s jk u jk , die noch die Kalender-, Saison- und Restkomponente enthalten. Die mittleren Phasenmittel (Quartalsmittel) ¯ d k = 1 J ∗ J ∗ ∑ j=1 d jk werden aus den jeweiligen Werten der betrachteten Phase k ermittelt (Schritt 3). Die Anzahl der Werte je Phase, J ∗ , kann dabei unterschiedlich sein. Die Normierung (Schritt 4) der ¯ d k gewährleistet, dass sich die vier Saisonkomponenten s k = ¯ d k 1 K ∑ K k=1 ¯ d k zur Anzahl der Phasen (z. B. 4 bei Quartalen) summieren und keine Niveauverschiebung bei der Saisonbereinigung erfolgt. Für die Werte s k gilt jetzt, dass ∑ K k=1 s k = K ist. Für die Zeitreihe des preisbereinigten BIP ergeben sich für die Quartale die folgenden Saisonkomponenten: s 1 = 0 . 99, s 2 = 0 . 994, s 3 = 1 . 018 , s 4 = 0 . 998. Im Mittel waren die BIP-Werte demnach im ersten Quartal um 1 . 2 % saisonbedingt zu niedrig. Werden die Ursprungswerte durch die Saisonkomponente der entsprechenden Phase (Quartal) dividiert (Schritt 5), erhalten wir die saisonbereinigten Werte y s jk = 1 s k g jk k jk s jk u jk = g jk k jk u jk (wegen der Annahme s jk = s k ). Zu beachten ist, dass die saisonbereinigten Werte in diesem vereinfachen Verfahren neben der glatten Komponente nicht nur die Restkomponente, sondern auch noch die Kalenderkomponente enthalten. Abbildung 12.6 zeigt die Ursprungswerte und die mittels des einfachen Periodogrammverfahrens ermittelten saisonbereinigten Werte. Abbildung 12.7 zeigt die Veränderung. R-12-6 <?page no="208"?> 208 12 Zeitreihen Jahr Index 90 95 100 105 110 115 120 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 Originalwerte Saisonber. Werte Abbildung 12.6: Ursprungswerte und die mittels des einfachen Periodogrammverfahrens ermittelten saisonbereinigten Werte. Jahr Index -6 -4 -2 0 2 4 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 Originalwerte Saisonber. Werte Abbildung 12.7: Veränderungsraten in Prozent der saisonbereinigten Werte. <?page no="209"?> 12.4 Saisonbereinigung 209 Jahr Index 90 95 100 105 110 115 120 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 Originalwerte Berliner-Verfahren Census-Verfahren Abbildung 12.8: Originalwerte des preisbereinigten BIP und die beiden saisonbereinigten Zeitreihen. 12.4.2 Census- und Berliner Verfahren Abschließend vergleichen wir die mit dem Census X-12-ARIMA- Verfahren und die mit dem Berliner-Verfahren BV4.1 ermittelten saisonbereinigten Werte. Abbildung 12.8 enthält neben den Originalwerten des preisbereinigten BIP die beiden saisonbereinigten Zeitreihen. In Abbildung 12.9 sind die Veränderungsraten dargestellt. Es lässt sich feststellen, dass die Veränderungsraten des mit dem Berliner-Verfahren saisonbereinigten BIP etwas weniger stark variieren. Dieser Befund deckt sich mit Ausführungen des Statistischen Bundesamtes: „Die Ergebnisse der beiden Verfahren unterscheiden sich vor allem dadurch, dass BV4.1 gegenüber Census X-12-ARIMA einen ruhigeren Trendverlauf, eine flexiblere Saisonkomponente, weniger irreguläre saison-bereinigte Werte und häufig geringere Restwerte ermittelt.“ 2 R-12-7 2 Statistisches Bundesamt, Fachserie 18 Reihe 1.3, Volkswirtschaftliche Gesamtrechnungen, Inlandsproduktsberechnung, Saisonbereinigte Vierteljahresergebnisse nach Census X-12-ARIMA und BV4.1, 1. Vierteljahr 2019, Tabelle 1.4, Wiesbaden 2019. <?page no="210"?> 210 12 Zeitreihen Jahr Index -6 -4 -2 0 2 4 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 Originalwerte Berliner-Verfahren Census-Verfahren Abbildung 12.9: Originalwerte des preisbereinigten BIP und die beiden saisonbereinigten Zeitreihen (Veränderungsraten in Prozent). <?page no="211"?> 12.5 Aufgaben 211 12.5 Aufgaben 1. Folgende Tabelle enthält die nicht saisonbereinigten Werte (Ursprungswerte) der Zahl der gemeldeten offenen Stellen vom ersten Quartal 2010 bis zum vierten Quartal 2018 (Quartalsmittelwerte in 1000). In der Graphik ist die Zeitreihe graphisch dargestellt. 3 Zahl der offenen Stellen (in Tsd.), 2010-2018 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 296.50 353.77 395.26 391.86 2011 411.62 470.25 497.00 486.28 2012 472.00 499.13 492.58 446.40 2013 443.70 458.65 470.73 454.82 2014 452.38 487.13 511.79 509.93 2015 515.37 560.19 594.93 604.48 2016 609.75 653.26 681.98 676.97 2017 671.19 717.05 762.91 771.05 2018 759.54 794.02 828.06 804.09 Jahr Zahl der offenen Stellen (in Tsd.) 300 400 500 600 700 800 900 2010 2011 2012 2013 2014 2015 2016 2017 2018 Ursprungswerte 3 Bundesagentur für Arbeit, Arbeitsmarkt in Zahlen, Monats-/ Jahreszahlen, Arbeitsstellen im Zeitverlauf, Mai 2019, Tabelle 1.1. <?page no="212"?> 212 12 Zeitreihen a) Beschreiben Sie verbal den Verlauf der Zeitreihe. Lässt sich eine wiederkehrende Saisonfigur erkennen? Ist die Saisonkomponente sehr stabil oder eher etwas unregelmäßig? b) Folgende Tabelle enthält die gleitenden 4er-Mittel der Ursprungswerte aus obiger Tabelle. Ergänzen Sie die fehlenden Werte. Überlegen Sie dabei zunächst, für welche Quartale ausgehend von Ursprungswerten tatsächlich gleitende 4er-Mittel berechnet werden können. Gleitendes 4er-Mittel. 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 2011 429.97 454.49 473.84 484.99 2012 488.05 482.51 473.99 465.39 2013 2014 471.40 483.42 498.18 515.19 2015 534.71 556.92 580.54 603.97 2016 2017 696.91 718.79 741.59 762.26 2018 780.02 792.30 c) Die nächste Tabelle enthält die relativen Trendabweichungen. Ergänzen Sie zunächst die fehlenden Werte. Ermitteln Sie anschließend die fehlenden Mittelwerte der relativen Trendabweichungen in den Quartalen. Die resultierenden Mittelwerte summieren sich nicht exakt zu dem Wert 4. Ermitteln Sie ausgehend von den Mittelwerten durch Normierung die fehlenden Saisonindexzahlen. <?page no="213"?> 12.5 Aufgaben 213 Trendabweichungen und Saisonindexzahlen. 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 2011 0.9573 1.0347 1.0489 1.0027 2012 0.9671 1.0344 1.0392 0.9592 2013 2014 0.9597 1.0077 1.0273 0.9898 2015 0.9638 1.0059 1.0248 1.0008 2016 2017 0.9631 1.0115 2018 1.0022 Mittelwert 0.9660 1.0124 1.0353 0.9897 Saisonindexzahlen 0.9629 0.9974 1.0285 1.0113 d) Folgende Tabelle enthält die nach dem Periodogrammverfahren saisonbereinigten Werte. Ergänzen Sie die fehlenden Werte. Saisonbereinigte Werte. 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 307.93 354.69 384.31 387.49 2011 427.48 483.23 480.85 2012 490.18 500.43 441.42 2013 460.80 459.84 457.68 2014 469.81 488.40 497.61 504.24 2015 535.23 561.65 578.45 597.72 2016 654.97 663.08 669.41 2017 697.05 718.92 741.77 762.44 2018 788.81 796.09 805.11 795.10 e) Vergleichen Sie für das vierte Quartal 2018 die Veränderungsrate gegenüber dem Vorquartal für die Ursprungswerte und für die saisonbereinigten Werte. <?page no="214"?> 214 12 Zeitreihen 12.6 R-Code R-12-1 ## Daten einlesen d <read.csv2(file = "bip.csv") head(d) ### Codes für Tabelle 1.2 aus Fachserie 18 Reihe 1.3 # j: Jahre; k: Quartal; bip: Zeitreihe BIP (Deutschland) # Anzahl an Quartalen n <nrow(d) ## Abbildung: preisbereinigtes BIP plot(x = 1: n, y = d$bip, type = "l", xaxt = "n", ylab = "Index", xlab = "Jahr") # Achsen: Quartale und Jahre axis(1, at = seq(from = 1, to = n, by = 1), labels = NA, col="darkgrey") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # Label für Quartale pchv <c(18,20,17,15) for(i in 1: 4) { points(x = (1: n)[d$k==i], y = d$bip[d$k==i], pch = pchv[i]) } legend("topleft", pch = pchv, bty = "n", c("1. Quartal","2. Quartal","3. Quartal","4. Quartal")) # Veränderungsrate dbip <d$bip[-1] / d$bip[-n]*100 - 100 # NA einfügen damit die Reihe die gleiche Länge wie vorher hat dbip <c(NA, dbip) dbip ## Abbildung: Veränderungsrate plot(x = 1: n, y = dbip, type = "l", xaxt = "n", ylab = expression(italic(w)), xlab = "Jahr") # Achsen: Quartale und Jahre axis(1, at = seq(from = 1, to = n, by = 1), labels = NA, col="darkgrey") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # Label für Quartale pchv <c(18,20,17,15) for(i in 1: 4) { points(x = (1: n)[d$k==i], y = dbip[d$k==i], pch = pchv[i]) } legend("bottomright", pch = pchv, bty = "n", ncol = 2, c("1. Quartal","2. Quartal","3. Quartal","4. Quartal")) abline(h = 0, col = "grey") <?page no="215"?> 12.6 R-Code 215 R-12-2 # Veränderungsraten des BIP (ohne NA) dbip <dbip[-1] # korrespondierende Quartale k <d$k[-1] # Funktion für empirische Standardabweichung erstellen SdEmp <function(x) { n <length(x) var.emp <- (n-1)/ n * var(x) sd.emp <sqrt(var.emp) return(sd.emp) } # Funktion für mittlere absolute Abweichung (siehe Kapitel 4) erstellen MAA <function(x) { maa <mean( abs(x-median(x)) ) return(maa) } # Daten aus der Tabelle tapply(X = dbip, INDEX = k, FUN = mean) tapply(X = dbip, INDEX = k, FUN = median) tapply(X = dbip, INDEX = k, FUN = SdEmp) tapply(X = dbip, INDEX = k, FUN = MAA) c(mean(dbip), median(dbip), SdEmp(dbip), MAA(dbip)) R-12-3 ### Codes für Tabelle 1.2 aus Fachserie 18 Reihe 1.3 # x_bip: Saison- und kalenderbereinigte Werte ## Faktoren: # x_t: Trend; x_k: Kalender; x_s: Saison; x_r: Rest ## vereinfachte Darstellung # 1 plot(x = 1: n, y = d$x_t, ylab = "Index", xlab = "Jahr", main = "glatte Komponenten", type = "l", xaxt = "n") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # 2 plot(x = 1: n, y = d$x_s/ 100, ylab = "Index", xlab = "Jahr", main = "Saisonkomponenten", type = "l", xaxt = "n") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # 3 plot(x = 1: n, y = d$x_k/ 100, ylab = "Index", xlab = "Jahr", main = "Kalenderkomponente", type = "l", xaxt = "n") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) <?page no="216"?> 216 12 Zeitreihen # 4 plot(x = 1: n, y = d$x_r/ 100, ylab = "Index", xlab = "Jahr", main = "Restkomponente", type = "l", xaxt = "n") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) R-12-4 # Trends x <- 1: n # lineare Trendfunktion reg1 <lm(d$bip ~ x) # Polynom 13.-Grades reg2 <lm(d$bip ~ poly(x = x, degree = 13, raw = TRUE)) ## vereinfachte Darstellung # Originalwerte plot(x = 1: n, y = d$bip, ylab = "Index", xlab = "Jahr", type = "l", xaxt = "n", col = "darkgray") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # Legende legend("topleft", legend = c("Originalwerte", "Lineare Trendfkt.", "Polynom 13.-Grades"), lty = c(1,2,1), lwd = c(1,1,1), col = c("darkgray",1,1), bty = "n") # lineare Trendfunktion lines(x = x, y = reg1$fitted, lty = 2) # Polynom 13.-Grades lines(x = x, y = reg2$fitted) R-12-5 ## gleitendes 4er-Mittel lambda <- 4 l <lambda / 2 x <- 1: n n <length(d$bip) # Vektor für die Ergebnisse g <rep(x = NA, times = n) # gerades Lambda -> zwei halbe Werte gehen mit ein for (i in (l+1): (n-l)){ g[i] <- 1/ (2*l) * sum(c(0.5*d$bip[i-l], d$bip[(i-l+1): (i+l-1)], 0.5*d$bip[i+l])) } g ## vereinfachte Darstellung # Originalwerte plot(x = 1: n, y = d$bip, ylab = "Index", xlab = "Jahr", <?page no="217"?> 12.6 R-Code 217 type = "l", xaxt = "n", col = "darkgray") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # 4er-Mittel eintragen lines(x = x, y = g, lty = 2) R-12-6 # Periodogrammverfahren ## Schritt 1: 4er-Mittel aus dem Teil zuvor g ## Schritt 2: Trendabweichungen # (l+1): (n-l): Werte für die g berechnet werden konnte # hier: l=2, die ersten und letzten beiden Werte fallen weg a <d$bip[(l+1): (n-l)] / g[(l+1): (n-l)] a ## Schritt 3: mittlere relative Trendabweichungen der Phasen k <d$k[(l+1): (n-l)] k dq <tapply(X = a, INDEX = k, FUN = mean) dq ## Schritt 4: Normierung s <dq / mean(dq) s ## Schritt 5: saisonbereinigten Werte # normierte Werte an Ursprungsreihe anpassen sv <s[d$k] sv # saisonbereinigten Werte sb <d$bip / sv ## vereinfachte Darstellung # Originalwerte plot(x = 1: n, y = d$bip, ylab = "Index", xlab = "Jahr", type = "l", xaxt = "n", col = "darkgray") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # saisonbereinigte Werte eintragen lines(x = x, y = sb) # Veränderungsraten dbip <c(NA, (d$bip[-1] / d$bip[-n]*100 - 100)) dsb <c(NA, (sb[-1] / sb[-n]*100 - 100)) ## vereinfachte Darstellung # Originalwerte plot(x = 1: n, y = dbip, ylab = "Index", xlab = "Jahr", type = "l", xaxt = "n", col = "darkgray") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # saisonbereinigte Werte eintragen lines(x = x, y = dsb) <?page no="218"?> 218 12 Zeitreihen R-12-7 ## Originalwerte, ARIMA, BV plot(x = 1: n, y = d$bip, ylab = "Index", xlab = "Jahr", type = "l", xaxt = "n", col = "darkgray") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # ARIMA lines(x = x, y = d$x_bip, lty = 2) # BV lines(x = x, y = d$b_bip) ## Veränderung # Veränderungsraten dar <c(NA, (d$x_bip[-1] / d$x_bip[-n]*100 - 100)) dbv <c(NA, (d$b_bip[-1] / d$b_bip[-n]*100 - 100)) # Plot plot(x = 1: n, y = dbip, ylab = "Index", xlab = "Jahr", type = "l", xaxt = "n", col = "darkgray") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2019, las = 2) # ARIMA lines(x = x, y = dar, lty = 2) # BV lines(x = x, y = dbv) <?page no="219"?> Formelsammlung Hinweise zu Summen 1 + 2 + 3 + . . . + n = n ∑ i=1 i = n ( n + 1) 2 1 2 + 2 2 + 3 2 + . . . + n 2 = n ∑ i=1 i 2 = n ( n + 1)(2 n + 1) 6 Kerndichteschätzung Kernfunktion K ( u i ) = { 1 − |u i | falls |u i | ≤ 1 0 sonst , mit u i = x − x i w Kerndichteschätzer ˆ f ( x ) = 1 nw n ∑ i=1 K ( u i ) = 1 nw n ∑ i=1 K ( x − x i w ) . Spezielle Kernfunktionen Kernfunktion Definition Rechteck-Kern K(u) = { 0.5 falls |u| ≤ 1, 0 sonst Dreieck-Kern K(u) = { 1 − |u| falls |u| ≤ 1, 0 sonst Normal-Kern K(u) = 1 √ 2π e −0.5u 2 Epanechnikov-Kern K(u) = { 3 4 (1 − u 2 ) falls |u| ≤ 1, 0 sonst <?page no="220"?> 220 Formelsammlung Beschreibung von Häufigkeitsverteilungen Quantil Q ( p ) = F −1 ( p ) = ˜ x p = min {x|F ( x ) ≥ p} ˜ x p = { x np falls np ganzzahlig , x [np]+1 sonst Arithmetisches Mittel ¯ x = 1 n n ∑ i=1 x i = J ∑ j=1 ˜ x j f j Harmonisches Mittel ¯ x H = 1 1 n n ∑ i=1 1 x i = 1 J ∑ j=1 1 ˜ x j f j Geometrisches Mittel ¯ x G = ( n ∏ i=1 x i ) 1 n = J ∏ j=1 ˜ x f j j Mittlere absolute Abweichung MA = 1 n n ∑ i=1 |x i − ¯ x| Varianz σ 2 = 1 n n ∑ i=1 ( x i − ¯ x ) 2 = 1 n n ∑ i=1 x 2 i − ¯ x 2 = J ∑ j=1 (˜ x j − ¯ x ) 2 f j Standardabweichung σ = √ σ 2 <?page no="221"?> Formelsammlung 221 Schiefe µ 3 σ 3 = 1 n n ∑ i=1 ( x i − ¯ x σ ) 3 = 1 n n ∑ i=1 ( x i − ¯ x ) 3 (√ 1 n n ∑ i=1 ( x i − ¯ x ) 2 ) 3 Wölbung µ 4 σ 4 − 3 = 1 n n ∑ i=1 ( x i − ¯ x σ ) 4 − 3 = 1 n n ∑ i=1 ( x i − ¯ x ) 4 (√ 1 n n ∑ i=1 ( x i − ¯ x ) 2 ) 4 − 3 Approximation der Verteilungsfunktion bei klassierten Daten F ( x ) ≈ F ( x u ) + ( x − x u ) F ( x o ) − F ( x u ) x o − x u Konzentrationsmessung Konzentrationsrate CR i = i ∑ r=1 h r mit h r = x r n ∑ i=1 x i = x r n ¯ x r = 1 , . . . , n Rosenbluth-Index RK = 1 2 A = 1 (2 n ∑ i=1 ih i ) − 1 Hirschman-Herfindahl-Index HK = n ∑ i=1 h 2 i Variationskoeffizient VK = σ/ ¯ x <?page no="222"?> 222 Formelsammlung Gini-Koeffizient G = 1 − J ∑ j=1 f j ( H j−1 + H j ) (Klassierte Daten) G = n ∑ i=1 h i ( 2 i − n − 1 n ) (Individualdaten) Vergleichsmaßzahlen Normierte Strukturdifferenz NSD = 0 . 5 J ∑ j=1 |a m j − a w j | Euklidische Norm EN = √√ √ √ J ∑ j=1 ( a m j − a w j ) 2 Komponentenzerlegung (Niveau-, Struktur-, Mischeffekt) ¯ l m − ¯ l w = J ∑ j=1 ( ¯ l m j − ¯ l w j ) a m j + J ∑ j=1 ¯ l m j ( a m j − a w j ) − J ∑ j=1 ( ¯ l m j − ¯ l w j )( a m j − a w j ) Preisindizes Laspeyres-Preisindex P l t 0 ,t 1 = ∑ n j=1 q t 0 j p t 1 j ∑ n j=1 q t 0 j p t 0 j = q ′ t 0 p t 1 q ′ t 0 p t 0 Paasche-Preisindex P p t 0 ,t 1 = ∑ n j=1 q t 1 j p t 1 j ∑ n j=1 q t 1 j p t 0 j = q ′ t 1 p t 1 q ′ t 1 p t 0 <?page no="223"?> Formelsammlung 223 Streuungszerlegung σ 2 X = K ∑ k=1 σ 2 X|˜ y k P( Y = ˜ y k ) + K ∑ k=1 (¯ x k − ¯ x ) 2 P( Y = ˜ y k ) Zusammenhangsmaße Kovarianz σ XY = 1 n n ∑ i=1 ( x i − ¯ x ) ( y i − ¯ y ) = 1 n n ∑ i=1 x i y i − ¯ x ¯ y Linearer Korrelationskoeffizient r XY = σ XY σ X σ Y = 1 n ∑ n i=1 ( x i − ¯ x ) ( y i − ¯ y ) √ 1 n ∑ n i=1 ( x i − ¯ x ) 2 √ 1 n ∑ n i=1 ( y i − ¯ y ) 2 Rangkorrelationskoeffizient ρ XY = 1 n ∑ n i=1 (r x ( i ) − ¯r x ) (r y ( i ) − ¯r y ) √ 1 n ∑ n i=1 (r x ( i ) − ¯r x ) 2 √ 1 n ∑ n i=1 (r y ( i ) − ¯r y ) 2 ¯r X = 1 n n ∑ i=1 r x ( i ) = n + 1 2 Rangkorrelationskoeffizient (keine Bindungen) ρ XY = 1 − 6 ∑ n i=1 (r x ( i ) − r y ( i )) 2 n ( n 2 − 1) . Chi-Quadrat χ 2 = n J ∑ j=1 K ∑ k=1 ( f jk − f ∗ jk ) 2 f ∗ jk mit f ∗ jk = f j· f ·k Kontingenzkoeffizient C C = √ χ 2 χ 2 + n · min {J, K} min {J, K} − 1 <?page no="224"?> 224 Formelsammlung Einfachregression Regressionskoeffizienten ˆ β = ∑ n i=1 x i y i − n ¯ x ¯ y ∑ n i=1 x 2 i − n ¯ x 2 = σ XY σ 2 X , ˆ α = ¯ y − ˆ β ¯ x Bestimmtheitsmaß R 2 = σ 2 ˆ Y σ 2 Y = 1 − σ 2 U σ 2 Y Multiple Regression Bestimmungsgleichungen (zwei erklärende Variablen) ˆ β 0 = ¯ y − ˆ β 1 ¯ x 1 − ˆ β 2 ¯ x 2 ˆ β 1 = ∑ n i=1 x ∗ 2i 2 ∑ n i=1 x ∗ 1i y ∗ i − ∑ n i=1 x ∗ 1i x ∗ 2i ∑ n i=1 x ∗ 2i y ∗ i ∑ n i=1 x ∗ 1i 2 ∑ n i=1 x ∗ 2i 2 − (∑ n i=1 x ∗ 1i x ∗ 2i ) 2 = σ 2 x 2 σ x 1 y − σ x 1 x 2 σ x 2 y σ 2 x 1 σ 2 x 2 − σ 2 x 1 x 2 ˆ β 2 = ∑ n i=1 x ∗ 1i 2 ∑ n i=1 x ∗ 2i y ∗ i − ∑ n i=1 x ∗ 1i x ∗ 2i ∑ n i=1 x ∗ 1i y ∗ i ∑ n i=1 x ∗ 1i 2 ∑ n i=1 x ∗ 2i 2 − (∑ n i=1 x ∗ 1i x ∗ 2i ) 2 = σ 2 x 1 σ x 2 y − σ x 1 x 2 σ x 1 y σ 2 x 1 σ 2 x 2 − σ 2 x 1 x 2 x ∗ 1i = x 1i − ¯ x 1 , x ∗ 2i = x 2i − ¯ x 2 , y ∗ i = y i − ¯ y Bestimmungsgleichung (allgemeiner Fall) ˆ β = ( X ′ X ) −1 X ′ y <?page no="225"?> Formelsammlung 225 Zeitreihenanalyse Zeitreihen-Komponenten-Modelle y i = g i + k i + s i + u i (additives Modell) y i = g i k i s i u i (multiplikatives Modell) Gleitende Durchschnitte g i = 1 2 l + 1 ( y i−l + ... + y i + ... + y i+l ) ( λ = 2 l + 1 ungerade) g i = 1 2 l (0 . 5 y i−l + ... + y i + ... + 0 . 5 y i+l ) ( λ = 2 l gerade) Trendbereinigung d jk = y jk / g jk = k jk s jk u jk Phasenmittel ¯ d k = 1 J ∗ J ∗ ∑ j=1 d jk Normierung s k = ¯ d k 1 K ∑ K k=1 ¯ d k <?page no="227"?> Probeklausuren Klausur 1 X : 1 6 6 6 6 6 9 20 Y : 2 3 4 5 6 7 8 9 1. [20 Punkte] Betrachten Sie die in der obigen Tabelle angegeben Werte und ermitteln Sie a) [2] das arithmetische Mittel ¯ x. b) [2] den Quantilswert ˜ x 0.7 . c) [3] die Standardabweichung σ X . d) [4] die Kovarianz σ XY . e) [9] den Rangkorrelationskoeffizienten ρ XY . 2. [20 Punkte] Die nachfolgenden Tabellen enthalten die unbereinigten Werte des Bruttoinlandsprodukts des Zeitraums 2011 (1. Quartal) bis 2014 (3. Quartal). Ermitteln Sie den saisonbereinigten Wert für das 3. Quartal 2014 nach dem Periodogrammverfahren. Gehen Sie dabei von einem multiplikativen Modell aus, verwenden Sie ein gleitendes 4er-Mittel für die Ermittlung der Trendwerte und verzichten Sie zur Vereinfachung auf die Normierung. Jahr 2011 2012 Quartal 1 2 3 4 1 2 3 4 BIP 661 . 86 664 . 75 688 . 24 684 . 25 680 . 68 675 . 68 699 . 39 694 . 15 <?page no="228"?> 228 Probeklausuren Jahr 2013 2014 Quartal 1 2 3 4 1 2 3 BIP 682 . 42 694 . 31 718 . 47 714 . 28 714 . 05 714 . 75 739 . 96 3. [20] Regression a) [15] Gehen Sie von folgender linearen Regressionsfunktion aus y i = β 0 + β 1 x i + u i und leiten Sie folgenden Bestimmungsgleichungen für die Parameter ˆ β 0 und ˆ β 1 nach der Methode der kleinsten Quadrate her. b) [5] Wie lauten ihre numerischen Schätzwerte ˆ β 0 und ˆ β 1 für die beiden Parameter β 0 und β 1 (Werte aus obiger Tabelle am Anfang der Klausur ( X / Y ))? 4. [20 Punkte] Gini-Koeffizient a) [10] Leiten Sie die nachfolgende Berechnungsvorschrift des Gini-Koeffizienten für klassifizierte Daten unter Zuhilfenahme einer kleinen Skizze her. G = 1 − J ∑ j=1 f j ( H j−1 + H j ) b) [10] Ermitteln Sie den Gini-Koeffizienten der statistischen Variable X . n j ¯ x j 11 1 7 2 3 5 <?page no="229"?> Probeklausuren 229 5. [20 Punkte] Die nachfolgende Tabelle enthält die Preise und die Mengen von 4 Gütern zu zwei verschiedenen Zeitpunkten: j 1 2 3 4 Preis/ Menge p q p q p q p q t = 0 1 . 05 4 2 . 11 6 3 . 40 8 4 . 10 10 t = 1 1 . 07 5 2 . 14 7 3 . 50 9 4 . 80 11 Berechnen Sie a) [6] das mit den relativen Ausgaben der Periode t = 0 gewichtete arithmetische Mittel der Preismesszahlen p j1 / p j0 . b) [6] das mit den relativen Ausgaben der Periode t = 1 gewichtete harmonische Mittel der Preismesszahlen p j1 / p j0 . c) [4] Berechnen Sie P f t 0 t 1 . P f t 0 t 1 ist ein von Fisher vorgeschlagener Preisindex, der sich als geometrisches Mittel aus den beiden Preisindizes von Paasche und Laspeyres ergibt. d) [4] Wie heißt die unter b) berechnete Maßzahl? Nehmen Sie an, Sie haben nach diesem Konzept die Preissteigerung von Periode 1 gegenüber Periode 0 und von Periode 2 gegenüber Periode 1 ermittelt. Können Sie hieraus auch die isolierte Preisveränderung von Periode 2 gegenüber Periode 0 ermitteln? <?page no="230"?> 230 Probeklausuren Klausur 2 1. [20 Punkte] Gegeben sind die folgenden Merkmalswerte x 1 = 5, x 2 = 7, x 3 = 8, x 4 = 24. Ermitteln Sie a) [3] das arithmetische Mittel. b) [2] den Zentralwert. c) [3] die Standardabweichung. d) [7] das Schiefemaß zum arithmetischen Mittel. Warum deutet das berechnete Schiefemaß auf eine rechtsschiefe Verteilung hin? e) [5] Nehmen Sie nun an, die vier Werte geben den Wert einer Variable zu vier aufeinanderfolgenden Zeitpunkten an. Ermitteln Sie die mittlere Wachstumsrate von X. 2. [20 Punkte] Preisindizes a) [8] Gängige Preisindizes werden nicht als ungewichtete, sondern als gewichtete Mittelwerte von Preismeßzahlen berechnet. Warum? Wie werden die Gewichte ermittelt? b) [8] Für die beiden Perioden 0 und 1 wurden für drei Güter j = 1 , 2 , 3 die folgenden Preise ( p ) und Mengen ( q ) ermittelt. Berechnen Sie die mittlere Preisveränderung mit Hilfe des Laspeyres- und mit Hilfe des Paasche-Preisindex. t = 0 t = 1 j p q p q 1 3 . 4 6 3 . 7 7 2 1 . 2 5 1 . 1 6 3 5 . 6 4 6 . 2 2 c) [4] Dass der Preisindex nach Laspeyres über dem Preisindex nach Paasche liegt ist nicht unüblich. Warum? <?page no="231"?> Probeklausuren 231 3. [20 Punkte] Leiten Sie die nachfolgende Berechnungsvorschrift des Gini-Koeffizienten unter Zuhilfenahme einer kleinen Skizze her. G = n ∑ i=1 h i ( 2 i − n − 1 n ) 4. [20 Punkte] Zeigen Sie, dass folgender Zusammenhang (Streuungszerlegung) gilt: σ 2 X = J ∑ j=1 (˜ x j − ¯ x ) 2 P( X = ˜ x j ) = K ∑ k=1 σ 2 X|˜ y k P( Y = ˜ y k ) + K ∑ k=1 (¯ x k − ¯ x ) 2 P( Y = ˜ y k ) Hilfe: x ji − ¯ x = x ji − ¯ x j + ¯ x j − ¯ x 5. [20 Punkte] Die nachfolgende Tabelle enthält Informationen über die Einkommensverteilung von 509 Erwerbstätigen in Ostdeutschland im Jahr 2018 (in Euro). n ¯ x σ 2 (0,1000] 79 782.532 46590.654 (1000,2500] 335 1641.693 164873.192 (2500,5000] 85 3277.200 439627.736 (5,20000] 10 7725.000 7480625.000 a) [5] Zeigen Sie, dass Sie ausgehend von den Angaben in der Tabelle das arithmetische Mittel exakt berechnen können. b) [4] Warum können Sie auch die Varianz exakt berechnen? c) [4] Ermitteln Sie das arithmetische Mittel des Einkommens. d) [7] Ermitteln Sie die Standardabweichung des Einkommens. <?page no="232"?> 232 Probeklausuren 6. [20 Punkte] Gehen Sie von folgender Konsumfunktion ( c sei der Konsum, y sei das Einkommen) aus c i = e α y β i e u a) [3] Gelingt Ihnen eine Linearisierung dieser Funktion? b) [3] Wie könnten Sie Schätzwerte der Parameter α und β ermitteln? (Eine Berechnung ist nicht notwendig.) c) [2] Als Schätzwerte resultieren für die untenstehenden Werte ˆ α = 0 . 915 , ˆ β = 0 . 818 . Welche Konsumausgaben würden Sie bei einem Einkommen von 4000 Euro vermuten? d) [10] Ermitteln Sie ausgehend von den Beobachtungen von drei Personen numerische Werte für die Parameter δ und ϕ der folgenden einfachen linearen Konsumfunktion: c i = δ + ϕy i + u i Konsumausgaben in e Einkommen in e 400 500 1800 3000 2500 4800 e) [2] Welche Konsumausgaben würden Sie ausgehend von der einfachen linearen Konsumfunktion bei einem Einkommen von 4000 Euro vermuten? <?page no="233"?> Probeklausuren 233 Klausur 3 1. [20 Punkte] Kerndichte a) [14] Gehen Sie von den fünf Merkmalswerten x 1 = 0 . 5 , x 2 = 1 . 8 , x 3 = 2 . 2 , x 4 = 2 . 8 , x 5 = 3 . 8 aus und berechnen Sie für eine Bandweite w = 1 . 5 an der Stützstelle x = 2 . 2 unter Verwendung eines Dreieck-Kerns einen Schätzwert der Dichte. b) [6] Welcher Schätzwert der Dichte an der Stelle x = 2 . 2 resultiert bei einem Histogramm mit den Klassengrenzen 0 , 1 , 2 , 3 . 5 , 5? 2. [20 Punkte] Preisindizes Nehmen Sie an, Sie hätten im Jahr 2018 für 250 Euro Brot zu 2.50 Euro je Laib, für 1500 Euro Schnaps für 15 Euro je Flasche und für 500 Euro Zigaretten für 5 Euro je Päckchen gekauft. Im Jahr 2019 haben Sie 90 Brote zu 3 Euro je Laib, für 2160 Euro 120 Flaschen Schnaps und für 660 Euro Zigaretten zu 6 Euro die Packung gekauft. a) [6] Wie haben sich die einzelnen Preise der drei Güter von 2018 auf 2019 verändert? b) [2] Wie viel Prozent Ihrer gesamten Ausgaben entfielen in 2018 auf Schnaps? c) [2] Wie viel Prozent Ihrer gesamten Ausgaben entfielen in 2019 auf Zigaretten? d) [6] Sie möchten berechnen, wie sich für Sie insgesamt die Preise von 2018 auf 2019 verändert haben. Welche Formel schlagen Sie hierfür vor? Begründen Sie Ihre Wahl. e) [4] Ermitteln Sie die Preisveränderung von 2018 auf 2019 mit der von Ihnen vorgeschlagenen Methode. <?page no="234"?> 234 Probeklausuren 3. [20 Punkte] Varianzzerlegung a) [14] Zeigen Sie, dass folgende Umformung gilt: σ 2 Y = 1 n n ∑ i=1 ( y i − ¯ y ) 2 = 1 n n ∑ i=1 ( y i − ˆ y i ) 2 + 1 n n ∑ i=1 (ˆ y i − ¯ y ) 2 b) [6] Was messen die beiden Varianzkomponenten? 4. [20 Punkte] Zeitreihenanalyse Die nachfolgene Tabelle enthält die vierteljährlichen Werte des Bruttoinlandsprodukts (preisbereinigt, verkettet, 2015 = 100). 2015 2016 2017 2018 2019 1. Quartal 98.03 99.97 103.58 105.28 106.24 2. Quartal 98.51 102.14 103.17 105.75 105.69 3. Quartal 101.06 102.96 105.54 106.69 107.76 4. Quartal 102.4 103.85 106.71 107.66 a) [4] Ermitteln Sie die Veränderungsraten des Bruttoinlandsprodukts des zweiten und dritten Quartals in 2019 gegenüber dem jeweiligen Vorquartal in Prozent. b) [2] Lässt sich aus dem Vergleich auf eine Verbesserung der aktuellen konjunkturellen Situation schließen? Begründen Sie Ihre Antwort. c) [7] Ermitteln Sie ausgehend vom multiplikativen Komponentenmodell den saisonbereinigten Wert für das aktuellste Quartal. Verwenden Sie dabei zur Berechnung der Trendwerte ein gleitendes 4er-Mittel und verzichten Sie auf eine Normierung der Phasenmittel. <?page no="235"?> Probeklausuren 235 Die folgende Tabelle enthält die gleitenden Vierermittel: 2015 2016 2017 2018 2019 1. Quartal 101.63 103.71 105.96 106.7 2. Quartal 102.05 104.39 106.23 3. Quartal 100.24 102.68 104.96 106.47 4. Quartal 100.94 103.26 105.5 106.58 d) [4] Die auf die gleiche Weise saisonbereinigten Werte lauten für das erste Quartal 2019 106.70 und für das zweite Quartal 106.23. Berechnen Sie für die beiden aktuellen Quartale die prozentualen Veränderungen gegenüber dem Vorquartal auf Basis saisonbereinigter Werte. e) [3] Wie beurteilen Sie die aktuelle konjunkturelle Entwicklung? <?page no="236"?> 236 Probeklausuren Klausur 4 1. [20] Gehen Sie von den folgenden fünf Merkmalswerten aus: x 1 = 2 , x 2 = 3 , x 3 = 7 , x 4 = 18 , x 5 = 30 und berechnen Sie a) [2] das arithmetische Mittel ¯ x. b) [2] den Quantilswert ˜ x 0.3 . c) [3] die mittlere absolute Abweichung ( M A ) . d) [3] die Standardabweichung σ X . e) [6] Zeigen Sie, wie sich die Standardabweichung verändert, wenn alle Merkmalswerte mit dem Faktor c multipliziert werden. f) [4] Wie lautet die Standardabweichung, wenn alle Merkmalswerte mit dem Faktor c = − 2 multipliziert werden? 2. [20] Konzentrationsmessung Gehen Sie von den Merkmalswerten in Aufgabe 1 aus, die nun Umsätze von Unternehmen darstellen. a) [3] Berechnen Sie den Rosenbluth-Koeffizienten. b) [3] Berechnen Sie den Herfindahl-Index. c) [4] Welchen Wert nimmt der Herfindahl-Index an, wenn sich der Umsatz jedes Unternehmens um 3 . 14159% erhöht? d) [7] Leiten Sie die Grenzen des Herfindahl-Koeffizienten für die beiden extremen Fälle minimaler und maximaler Konzentration her. e) [3] Welchen Wert nimmt der Herfindahl-Index ungefähr an, wenn sich der Umsatz jedes Unternehmens um 27913 erhöht? (Eine genaue Berechnung ist nicht notwendig.) <?page no="237"?> Probeklausuren 237 3. [20] Streuungszerlegung Zeigen Sie, dass folgende Umformung gilt: σ 2 X = J ∑ j=1 (˜ x j − ¯ x ) 2 P ( X = ˜ x j ) = K ∑ k=1 σ 2 X|˜ y P ( Y = ˜ y k ) + K ∑ k=1 (¯ x k − ¯ x ) 2 P ( Y = ˜ y k ) 4. [20] Bedingte Häufigkeiten, Chi-Quadrat, Kontingenzkoeffizient Die nachfolgende Tabelle enthält die absoluten Häufigkeiten der gemeinsamen Verteilung der beiden binären Variablen X und Y. Y = 0 Y = 1 X = 0 5 14 X = 1 28 3 a) [4] Berechnen Sie P ( X = 1 |Y = 0) und P ( X = 0 |Y = 1) . b) [4] Ermitteln Sie die relativen Häufigkeiten der gemeinsamen Verteilung und die hypothetischen Häufigkeiten im Fall der Unabhängigkeit. c) [2] Berechnen Sie für alle vier Tabellenfelder die Differenzen von bebachteten und hypothetischen Häufigkeiten im Fall der Unabhängigkeit. d) [2] Berechnen Sie für alle vier Tabellenfelder die Differenzen von bebachteten und hypothetischen Häufigkeiten relativ zu den hypothetischen Häufigkeiten im Fall der Unabhängigkeit. e) [2] Berechnen Sie für alle vier Tabellenfelder die Produkte der Differenzen und der relativen Differenzen. f) [2] Berechnen Sie χ 2 . g) [4] Berechnen Sie den Kontingenzkoeffizienten und beurteilen Sie die Stärke des Zusammenhangs (mit einem Satz der Begründung). <?page no="238"?> 238 Probeklausuren Klausur 5 1. [20 Punkte] Klassierte Daten Klasse v. b. u. abs. Häuf. arithm. Mittel Standardabw. ˜ x ∗ 1 0 50 280 30 15 ˜ x ∗ 2 50 250 550 120 50 ˜ x ∗ 3 250 500 170 320 40 a) [4] Berechnen Sie das arithmetische Mittel. b) [4] Zeigen Sie formal, dass sich hier das arithmetische Mittel exakt berechnen lässt. c) [12] Berechnen Sie die Varianz. 2. [20 Punkte] Varianz, Kovarianz, Korrelation Gehen Sie von den folgenden drei Wertepaaren aus: x 1 , y 1 = (1 , 1) , x 2 , y 2 = (2 , 5) , x 3 , y 3 = (7 , 14) . a) [3] Berechnen Sie σ 2 X . b) [3] Berechnen Sie σ 2 Y . c) [3] Berechnen Sie σ XY . d) [3] Berechnen Sie den Korrelationskoeffizienten r XY . e) [6] Wie lautet σ 2 X ∗ mit X ∗ = a + bX ? f) [2] Ermitteln Sie σ 2 X ∗ numerisch für a = − 2 und b = 3. 3. [20 Punkte] Bedingte Häufigkeiten, Chi-Quadrat, Kontingenzkoeffizient Die nachfolgende Tabelle enthält die absoluten Häufigkeiten der gemeinsamen Verteilung der beiden binären Variablen X und Y. Y = 0 Y = 1 X = 0 30 2 X = 1 6 12 <?page no="239"?> Probeklausuren 239 a) [4] Berechnen Sie P ( X = 1 |Y = 0) und P ( Y = 0 |X = 0) . b) [2] Ermitteln Sie die relativen Häufigkeiten der gemeinsamen Verteilung. c) [4] Ermitteln Sie die hypothetischen Häufigkeiten im Fall der Unabhängigkeit. d) [8] Berechnen Sie χ 2 . e) [2] Berechnen Sie den Kontingenzkoeffizienten. 4. [20 Punkte] Zeitreihenanalyse Die nachfolgende Tabelle enthält die unbereinigten Quartalszahlen des Bruttoinlandsprodukts in jeweiligen Preisen in Milliarden Euro: 1. Quart. 2. Quart. 3. Quart. 4. Quart. 2018 824 834 843 867 2019 853 852 877 892 2020 860 774 853 880 2021 847 863 914 a) [2] Berechnen Sie am aktuellen Rand die prozentuale Veränderung gegenüber dem Vorquartal. b) [2] Warum ist diese prozentuale Veränderung für die Beurteilung der aktuellen Entwicklung nicht aussagekräftig? c) [4] Berechnen Sie das aktuellste mögliche gleitende 4er- Mittel. d) [2] Warum ist das 4er-Mittel nicht zur Beurteilung der aktuellen Entwicklung geeignet? e) [2] Berechnen Sie die prozentuale Veränderung des aktuellsten Wertes gegenüber dem Vorjahreswert des gleichen Quartals. <?page no="240"?> 240 Probeklausuren f) [2] Erscheint Ihnen dieser Wert zur Beurteilung der aktuellen Entwicklung geeignet? Die mit dem Verfahren X13 saisonbereinigten Werte für das zweite und dritte Quartal des Jahres 2021 lauten 873 und 909. g) [3] Wie beurteilen Sie die aktuelle Entwicklung? h) [3] Was können Sie aus diesen Werten über die Saisonkomponente schließen? <?page no="241"?> Probeklausuren 241 Klausur 6 1. [20 Punkte] Maßzahlen für Häufigkeitsverteilungen Gehen Sie von den folgenden Merkmalswerten aus: x 1 = 0, x 2 = 1, x 3 = 1, x 4 = 8. a) [2] Berechnen Sie das arithmetische Mittel. b) [2] Berechnen Sie den Median. c) [2] Berechnen Sie den Modus. d) [4] Berechnen Sie die Varianz. e) [4] Berechnen Sie eine Maßzahl der Schiefe. f) [6] Handelt es sich um eine rechts- oder linksschiefe Verteilung? Begründen Sie ihre Aussage. 2. [20 Punkte] Varianz, Kovarianz, Korrelation und Regression Gehen Sie von den folgenden drei Wertepaaren aus: x 1 , y 1 = (1 , 1) , x 2 , y 2 = (1 , 5) , x 3 , y 3 = (8 , 14) a) [3] Berechnen Sie σ 2 X . b) [3] Berechnen Sie σ 2 Y . c) [3] Berechnen Sie σ XY . d) [3] Berechnen Sie den Korrelationskoeffizienten r XY . e) [8] Berechnen Sie die den Achsenabschnitt und den Steigungsparameter einer nach der Methode der kleinsten Quadrate angepassten Regressionsgeraden. 3. [20 Punkte] Streuungszerlegung Gehen Sie von folgender Streuungszerlegung σ 2 X = K ∑ k=1 σ 2 X|˜ y P ( Y = ˜ y k ) + K ∑ k=1 (¯ x k − ¯ x ) 2 P ( Y = ˜ y k ) <?page no="242"?> 242 Probeklausuren und den folgenden vier Wertepaaren x 1 , y 1 = (1 , 1) , x 2 , y 2 = (3 , 1) , x 3 , y 3 = (5 , 2) , x 4 , y 4 = (15 , 2) aus. a) [4] Berechnen Sie σ 2 X|˜ y=1 und σ 2 X|˜ y=2 . b) [2] Berechnen Sie P ( Y = ˜ y 1 ) und P ( Y = ˜ y 2k ) . c) [3] Berechnen Sie ∑ K k=1 σ 2 X|˜ y P ( Y = ˜ y k ) . Wie heißt diese Streuungskomponente? d) [4] Berechnen Sie (¯ x 1 − ¯ x ) 2 und (¯ x 2 − ¯ x ) 2 . e) [3] Berechnen Sie ∑ K k=1 ( ¯ x k − ¯ x ) 2 P ( Y = ˜ y k ) . Wie heißt diese Streuungskomponente? f) [4] Ermitteln Sie den Anteil der externen Streuung an der Gesamtstreuung. 4. [20 Punkte] Zeitreihenanalyse Die nachfolgende Tabelle enthält die unbereinigten Quartalszahlen des Bruttoinlandsprodukts in jeweiligen Preisen in Milliarden Euro: 1. Quart. 2. Quart. 3. Quart. 4. Quart. 2018 824 834 843 867 2019 853 852 877 892 2020 860 774 853 880 2021 847 863 914 Ermitteln Sie • ausgehend von dem multiplikativen Modell • unter Verwendung eines gleitenden 4-er Mittels zur Ermittlung der Trendwerte und • unter Verzicht auf eine Normierung der mittleren Trendabweichung • einen saisonbereinigten Wert für das 3. Quartal 2021. <?page no="243"?> Lösungshinweise Kapitel 1 1. a) 14 b) 28 c) 72 d) 1728 e) 25 , 396 2. a) − 1180 b) 81 , 535 c) 44 , 360 3. a) 20 b) 22 c) 22 d) 55 e) 24 4. a) Querschnittserhebung: Einheiten werden einmalig an einem Zeitpunkt befragt. Panelerhebung: Gleiche Einheiten werden an mehreren Zeitpunkten befragt. b) Stichprobe aus Einwohnermelderegistern. c) Die Ziehungswahrscheinlichkeiten in West- und Ostdeutschland unterscheiden sich, mit einer deutlich höheren Ziehungswahrscheinlichkeit für in Ostdeutschland lebende Personen. d) Der ALLBUS liefert Informationen über verschiedene soziodemographische Aspekte. e) In 2018 waren u.a. die Bereiche Wirtschaft, Mediennutzung, Politik, Soziale Ungleichheit und soziales Kapital, Nationalstolz und Rechtsextremismus und Einstellungen zur Wiedervereinigung Schwerpunkte. 5. Geschlecht: nominal, Beruf: nominal, Warengruppe: nominal, Immobilienbesitz: nominal, Bonität: ordinal (Risikoklassen) oder metrisch (,Ausfallwahrscheinlichkeit‘), Einkommen: metrisch, Vermögen: metrisch. <?page no="244"?> 244 Lösungshinweise 6. j ˜ x j n j f j 1 1 5 5 / 15 2 2 2 2 / 15 3 4 4 4 / 15 4 5 3 3 / 15 5 6 1 1 / 15 7. Klasse von bis unter abs. Häuf. rel. Häuf. ˜ x ∗ 1 0 500 22 0.018 ˜ x ∗ 2 500 1000 142 0.115 ˜ x ∗ 3 1000 1500 183 0.148 ˜ x ∗ 4 1500 2500 454 0.367 ˜ x ∗ 5 2500 5000 369 0.298 ˜ x ∗ 6 5000 20000 68 0.055 Kapitel 2 1. Histogramm: In den Klassen wird eine gleiche Verteilung (gleiche Dichte) über das gesamte Intervall unterstellt. Dies ist meist unplausibel. An den Intervallgrenzen macht die geschätzte Dichte einen Sprung. Dies ist meist unplausibel. Das Erscheinungsbild der Verteilung hängt stark von der genauen Lage der Klassengrenzen und von der Anzahl der gebildeten Klassen ab. Die Berechnung ist einfacher als bei einer Kerndichteschätzung. <?page no="245"?> Lösungshinweise 245 Kerndichteschätzung: Die Schätzung hängt von der Wahl der Kernfunktion und der gewählten Bandweite ab. Bessere Darstellungsweise bei stetigen Variablen. 2. i x i u i K ( u i ) R K ( u i ) R / ( nw ) 1 1 1.167 0.000 0.000 2 5 -0.167 0.500 0.033 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.099 3. a)-b) (D: Dreieck-Kern, N: Normalkern) i x i u i K(u i ) D K(u i ) N K(u i ) D / (nw) K(u i ) N / (nw) 1 1 1.167 0.000 0.202 0.000 0.013 2 5 -0.167 0.833 0.393 0.056 0.026 3 6 -0.500 0.500 0.352 0.033 0.023 4 6 -0.500 0.500 0.352 0.033 0.023 5 8 -1.167 0.000 0.202 0.000 0.013 Summe 0.122 0.098 4. a) i x i u i K ( u i ) K ( u i ) / ( nw ) 1 1 1.400 0.000 0.000 2 5 -0.200 0.800 0.064 3 6 -0.600 0.400 0.032 4 6 -0.600 0.400 0.032 5 8 -1.400 0.000 0.000 Summe 0.128 <?page no="246"?> 246 Lösungshinweise b) i x i u i K ( u i ) K ( u i ) / ( nw ) 1 1 1.000 0.000 0.000 2 5 -0.143 0.857 0.049 3 6 -0.429 0.571 0.033 4 6 -0.429 0.571 0.033 5 8 -1.000 0.000 0.000 Summe 0.115 Kapitel 3 1. a) D = 3 b) ˜ x 0.5 = 3 c) ¯ x = 3 . 75 d) H = 2 . 8141 e) G = 3 . 330 f) σ 2 = 2 . 688 g) σ = 1 . 639 h) ¯ d = 1 . 25 i) g = 0 . 404 j) k = − 0 . 021 k) a) Verändert sich nicht b) Verändert sich nicht c) Wird deutlich größer d) Wird etwas größer e) Wird etwas größer f) Nimmt extrem zu g) Nimmt extrem zu h) Nimmt deutlich zu i) Nimmt extrem zu j) Nimmt extrem zu l) a) 3 b) 3 c) 6 . 25 d) 2 . 923 e) 3 . 942 f) 62 . 688 g) 7 . 918 h) 5 . 188 i) 2 . 181 j) 2 . 933 2. a) 10 . 2 km/ Std. b) 9 . 9 km/ Std. c) 8 . 4 % 3. a) v.: von; b.u.: bis unter b) Die dichteste Klasse ist die 4-te Klasse. Als Näherung kann die Klassenmitte 1 . 75 (in Tsd. Euro) verwendet werden. <?page no="247"?> Lösungshinweise 247 K v. b. u. rel. Häuf. kum. rel. H. K v. b. u. rel. Häuf. kum. rel. H. ˜ x 1 0.0 0.5 0.018 0.018 ˜ x 7 3.0 4.0 0.132 0.898 ˜ x 2 0.5 1.0 0.115 0.132 ˜ x 8 4.0 5.0 0.047 0.945 ˜ x 3 1.0 1.5 0.148 0.280 ˜ x 9 5.0 7.0 0.040 0.985 ˜ x 4 1.5 2.0 0.184 0.464 ˜ x 10 7.0 10.0 0.011 0.997 ˜ x 5 2.0 2.5 0.183 0.647 ˜ x 11 10.0 15.0 0.002 0.999 ˜ x 6 2.5 3.0 0.119 0.766 ˜ x 12 15.0 20.0 0.001 1.000 c) 5-te Klasse, Näherungswert: 2 . 097 (in Tsd. Euro) d) 2 . 392 (in Tsd. Euro) e) Die gefundene Abfolge (arithm. Mittel > Zentralwert > Modus) ist typisch für eine linkssteile, rechtsschiefe Verteilung. f) Unteres Quartil (lineare Interpolation): 1 . 398, oberes Quartil (lineare Interpolation): 2 . 934 (in Tsd. Euro), totaler Quartilsabstand: 1 . 536 (in Tsd. Euro). g) 1 . 558 (in Tsd. Euro) Hinweis: Es wird nur die Streuung zwischen den Klassen (approximativ) berücksichtigt. h) Lediglich die Streuung zwischen den Klassen wird bei der Näherung berücksichtigt (Unterschätzung). Überkompensation durch Überschätzung der externen Streuung. Kapitel 4 1. a) 40 b) h 1 = 0 . 5; h 2 = 0 . 25; h 3 = 0 . 175 c) CR 2 = 0 . 75; i/ n = 0 . 5 d) 0 . 25 e) Siehe Abschnitt 4.1 auf Seite 72. f) CR 1 = 0 . 5 , CR 2 = 0 . 75 , CR 3 = 0 . 925 , CR 4 = 1 <?page no="248"?> 248 Lösungshinweise 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 i CR i A g) Kurven bei minimaler und maximaler Konzentration 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 i CR i Konzentrationskurve max min h) h r = x r ∑ n k=1 x k i) h r = c+x r nc+ ∑ n k=1 x k (geringere absolute Konzentration) 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 i CR i vorher nachher j) HK = 0 . 34875, wobei 1 n ≤ HK ≤ 1 <?page no="249"?> Lösungshinweise 249 k) RK = 0 . 37736, wobei 1 n ≤ RK ≤ 1 2. a) H 1 = 0 . 075 , H 2 = 0 . 25 , H 3 = 0 . 5 , H 4 = 1 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F j H j b) Kurven bei minimaler und maximaler relativer Konzentration 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F j H j min Lorenzkurve max c) H j = ∑ j r=1 x r ∑ n r=1 x r d) ∑ j r=1 x r ∑ n r=1 x r < ∑ j r=1 ( x r + c ) ∑ n r=1 ( x r + c ) = jc + ∑ j r=1 x r nc + ∑ n r=1 x r (geringere relative Konzentration) <?page no="250"?> 250 Lösungshinweise 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F j H j nachher vorher e) G = 0 . 3375 f) G = 0 . 16875 g) G = 0 . 375 Kapitel 5 1. SD = 0 . 06; NSD = 0 . 03; EN = 0 . 037 2. a) ¯ l m = 15 . 03; ¯ l w = 12 . 31 b) ¯ l w (a m ) = 12 . 23; ¯ l w (¯l m ) = 15 . 11 c) ¯ l m − ¯ l w (a m ) = 2 . 81; ¯ l m − ¯ l w (¯l m ) = − 0 . 08 d) ¯ l m − ¯ l w = 2 . 72 e) Die vorgefundene Lohndifferenz lässt sich fast vollständig auf die unterschiedliche Lohnhöhe in den Bildungsgruppen zurückführen. 3. a) ¯ l m = 14 . 19; ¯ l w = 10 . 55 b) ¯ l w (a m ) = 10 . 59; ¯ l w (¯l m ) = 12 . 43 c) ¯ l m − ¯ l w (a m ) = 3 . 47; ¯ l m − ¯ l w (¯l m ) = 1 . 63 d) ¯ l m − ¯ l w = 3 . 51 <?page no="251"?> Lösungshinweise 251 e) Die vorgefundene geringe Lohndifferenz 3 . 51 resultiert aus einem aus Sicht der Nicht-Dienstleister positiven Niveaueffekt 3 . 47, der praktisch vollständig durch den negativen Struktureffekt in Höhe von 1 . 63 kompensiert wird. Kapitel 6 1. a) - Ausgaben t Gut A Gut B A+B 0 72 500 572 1 120 432 552 2 105 765 870 - Relative Ausgaben t Gut A Gut B 0 72 / 572 = 0 . 12587 500 / 572 = 0 . 87413 1 120 / 552 = 0 . 21739 432 / 552 = 0 . 78261 2 105 / 870 = 0 . 12069 765 / 870 = 0 . 87931 b) - Messzahlen p t1 p t0 = m ( t 0 , t 1 ) mit fester Basis ( t 0 ): t Gut A Gut B 1 20 / 18 = 1 . 1111 48 / 50 = 0 . 96 2 21 / 18 = 1 . 1667 51 / 50 = 1 . 02 - Messzahlen p ti p ti−1 = m ( t i−1 , t i ) mit Vorjahresbasis ( t i−1 ): t Gut A Gut B 1 20 / 18 = 1 . 1111 48 / 50 = 0 . 9600 2 21 / 20 = 1 . 0500 51 / 48 = 1 . 0625 <?page no="252"?> 252 Lösungshinweise c) P l t 0 ,t 1 = 0 . 97904; P l t 0 ,t 2 = 1 . 0385 d) P p t 0 ,t 1 = 0 . 98919 e) P p t 1 ,t 2 = 1 . 0610 f) P l t 0 ,t 1 = 0 . 9790; P l t 0 ,t 2 = 1 . 0385; P p t 0 ,t 1 = 0 . 9893; P p t 1 ,t 2 = 1 . 0610 g) P p t 0 ,t 2 P p t 0 ,t 1 = n ∑ j=1 p jt 2 q jt 2 n ∑ j=1 p jt 0 q jt 2 n ∑ j=1 p jt 0 q jt 1 n ∑ j=1 p jt 1 q jt 1 h) P l t 0 ,t 2 P l t 0 ,t 1 = n ∑ j=1 p t 2 j q t 0 j n ∑ j=1 p t 1 j q t 0 j i) Q l t 0 ,t 2 = 1 . 4685; Q p t 0 ,t 1 = 0 . 98571 2. a) Vgl. Abschnitt 6.7.2 b) Vgl. Abschnitt 6.7.2 c) Vgl. Abschnitt 6.7.1 Kapitel 7 1. P (Frau | Führungkr.) = 0 . 14 2. Vgl. Abschnitt 7.3 3. interne Varianz: 464 . 8, externe Varianz: 486, Gesamtvarianz: 950 . 8 4. 0 . 249 2 . 1383 = 0 . 116 <?page no="253"?> Lösungshinweise 253 Kapitel 8 1. a) Streudiagramm 1 2 3 4 5 0.4 0.6 0.8 1.0 1.2 x y b) Der Zusammenhang ist postiv, halbwegs linear und relativ eng. c) ¯ x = 3; ¯ y = 0 . 76 d) Streudiagramm mittelwertbereinigte Daten -2 -1 0 1 2 -0.4 -0.2 0.0 0.2 0.4 x − ¯ x y − ¯ y e) I: ( x i − ¯ x )( y i − ¯ y ) > 0 (+,+) II: ( x i − ¯ x )( y i − ¯ y ) < 0 (-,+) III ( x i − ¯ x )( y i − ¯ y ) > 0 (-,-) IV: ( x i − ¯ x )( y i − ¯ y ) < 0 (+,-) f) σ 2 X = 1 . 414; σ 2 Y = 0 . 334 <?page no="254"?> 254 Lösungshinweise g) σ Y X = 0 . 41 h) r XY = 0 . 869 i) Es liegt ein sehr starker positiver linearer Zusammenhang vor. 2. Siehe Abschnitt 8.3 auf Seite 143 und Abschnitt 3.3.2 auf Seite 54. 3. a) r XY = 0 b) Es besteht kein linearer Zusammenhang, aber ein nichtlinearer funktionaler: y = x 4 . Kapitel 9 1. a) ρ XY = 0 . 9 b) ρ XY = 0 . 9 c) Einkommen ist ein metrisches Merkmal, daher wird der lineare Korrelationskoeffizient verwendet. Beim Rangkorrelationskoeffizient geht die Information über die Einkommensabstände verloren. 2. a) ρ XY = − 0 . 211 b) ρ XY ̸ = 1 − 6 ∑ n i=1 ( r i −r ′ i ) 2 n ( n 2 −1 ) = − 0 . 15 3. a) P( Y = 1 |X = 1) = 0 . 287; P( Y = 1 |X = 0) = 0 . 457 b) P( X = 1 |Y = 1) = 0 . 326; P( X = 0 |Y = 0) = 0 . 504 c) Tabelle bei Unabhängigkeit d) χ 2 = 37 . 581 e) C = 0 . 243 f) Nur wenn χ 2 exakt 0 wäre, ergäbe sich auch ein Kontingenzkoeffizient von 0. In diesem Fall wären die empirische und die hypothetisch Verteilung unter Unabhängigkeit identisch. <?page no="255"?> Lösungshinweise 255 Y = 0 Y = 1 Insg. X = 0 0.348 0.216 0.564 X = 1 0.269 0.167 0.436 Insg. 0.617 0.383 1.000 Kapitel 10 1. a) Streudiagramm: 1 2 3 4 5 0.4 0.6 0.8 1.0 1.2 x y b) Siehe Abschnitt 10.2 auf Seite 171ff. c) Siehe Abschnitt 10.2.2 auf Seite 173. d) Siehe Abschnitt 10.2.3 auf Seite 174. e) Siehe Abschnitt 10.2.3 auf Seite 174. f) Siehe Abschnitt 10.2.2 auf Seite 173. g) Siehe Abbildung 10.3. h) Siehe Abbildung 10.3. i) β = 0 . 205, d.h. eine Änderung des Einkommens um 1000 Euro führt zu einer Erhöhung der Mietausgaben um 205 Euro. j) α = 0 . 145; ˆ y i = 0 . 145 + 0 . 205 · x i k) ˆ y i ( x i = ¯ x ) = ¯ y − β ¯ x + β ¯ x = ¯ y <?page no="256"?> 256 Lösungshinweise l) ˆ y 1 = 0 . 35; ˆ y 2 = 0 . 555; ˆ y 3 = 0 . 76; ˆ y 4 = 0 . 965; ˆ y 5 = 1 . 17 m) Q = 0 . 137; σ 2 U = 0 . 027 n) n ∑ i=1 (ˆ y i − ¯ y i ) 2 = 0 . 42; σ 2 ˆ Y = 0 . 084 o) σ 2 Y = σ 2 ˆ Y + σ 2 U 0 . 111 = 0 . 084 + 0 . 027 p) R 2 = 0 . 754. Diese Maßzahl wird Bestimmtheitsmaß genannt. 2. a) ˆ β = σ XY σ 2 X ; ˆ δ = σ XY σ 2 Y b) r 2 = (σ XY ) 2 σ 2 X σ 2 Y = ˆ β · ˆ δ c) ˆ δ = σ XY σ 2 Y = 3 . 68 d) Es ist wohl eher eine „kausale Determinierung“ der Mieten durch das Einkommen ( y i = α + βx i + u i ) als umgekehrt zu vermuten. Kapitel 11 1. Siehe Abschnitt 11.1.1 auf Seite 185. 2. a) ˆ β 1 = 0 . 463, ˆ β 2 = − 0 . 396, ˆ β 0 = 2 . 269, ˆ y i = 2 . 269 + 0 . 463 x 1i − 0 . 396 x 2i b) Geschätzte Koeffizienten: ˆ β = ( X ′ X ) −1 X ′ y = [ 2 . 269 0 . 463 − 0 . 396 ] Regressionswerte und Residuen: ˆ y = X ˆ β =    2 . 007 0 . 953 3 . 067 5 . 973    ; u = y − X ˆ β =    − 0 . 007 0 . 047 − 0 . 067 0 . 027    <?page no="257"?> Lösungshinweise 257 Kapitel 12 1. a) Siehe Abschnitt 12.2 auf Seite 200. b) Lösung: Gleitendes 4er-Mittel 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 373.74 402.69 2011 429.97 454.49 473.84 484.99 2012 488.05 482.51 473.99 465.39 2013 457.60 455.92 458.06 462.70 2014 471.40 483.42 498.18 515.19 2015 534.71 556.92 580.54 603.97 2016 626.49 646.43 663.17 678.82 2017 696.91 718.79 741.59 762.26 2018 780.02 792.30 c) Lösung: Trendabweichungen und Saisonindexzahlen 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 1.0576 0.9731 2011 0.9573 1.0347 1.0489 1.0027 2012 0.9671 1.0344 1.0392 0.9592 2013 0.9696 1.0060 1.0277 0.9830 2014 0.9597 1.0077 1.0273 0.9898 2015 0.9638 1.0059 1.0248 1.0008 2016 0.9733 1.0106 1.0284 0.9973 2017 0.9631 0.9976 1.0287 1.0115 2018 0.9737 1.0022 Mittelwert 0.9660 1.0124 1.0353 0.9897 Saisonindexzahlen 0.9629 0.9974 1.0285 1.0113 d) Lösung: Saisonbereinigte Werte <?page no="258"?> 258 Lösungshinweise 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 307.93 354.69 384.31 387.49 2011 427.48 471.48 483.23 480.85 2012 490.18 500.43 478.93 441.42 2013 460.80 459.84 457.68 449.74 2014 469.81 488.40 497.61 504.24 2015 535.23 561.65 578.45 597.72 2016 633.24 654.97 663.08 669.41 2017 697.05 718.92 741.77 762.44 2018 788.81 796.09 805.11 795.10 e) - Ursprungswerte: ( 804.086 828.058 − 1 ) · 100 = − 2 . 89 - Saisonbereinigte Werte: ( 795.1 805.11 − 1 ) · 100 = − 1 . 24 <?page no="259"?> Lösungshinweise 259 Probeklausuren Klausur 1 1. a) ¯ x = 7 . 5 b) ˜ x 0.7 = 6 c) σ X = 5 . 147 8 d) σ XY = 9 . 25 e) ρ XY = 0 . 8729 2. Beachte: Da die Normierung entfällt, muss nur das dritte Quartal betrachtet werden! Gleitende Durchschnitte: g 2011,3 = 677 . 13, g 2012,3 = 687 . 69, g 2013,3 = 706 . 32 Trendbereinigte Werte: d 2011,3 = 1 . 0164, d 2012,3 = 1 . 0170, d 2013,3 = 1 . 0172 Phasenmittel: ¯ d 3 = 1 . 0169 Normierung entfällt: ¯ d 3 = s 3 Saisonbereinigter Wert: y sb 2014,3 = 727 . 66 3. a) Siehe Abschnitt 10.2.2 Seite 172ff. b) ˆ β 1 = 0 . 3491 , ˆ β 0 = 2 . 883 4. a) Siehe Abschnitt 4.3.2 Seite 78ff. b) G = 0 . 3238 5. Zu a) und b): j 1 2 3 4 p 1 / p 0 a p 1 / p 0 a p 1 / p 0 a p 1 / p 0 a t = 0 1.05·4 85.06 2.11·6 85.06 3.40·8 85.06 4.10·10 85.06 t = 1 1.07 1.05 1.07·5 104.63 2.14 2.11 2.14·7 104.63 3.50 3.40 3.50·9 104.63 4.80 4.10 4.80·11 104.63 <?page no="260"?> 260 Lösungshinweise 1 . 05 · 4 + 2 . 11 · 6 + 3 . 40 · 8 + 4 . 10 · 10 = 85 . 06 1 . 07 · 5 + 2 . 14 · 7 + 3 . 50 · 9 + 4 . 80 · 11 = 104 . 63 a) P l t 0 t 1 = 1 . 07 1 . 05 · 1 . 05 · 4 85 . 06 + 2 . 14 2 . 11 · 2 . 11 · 6 85 . 06 + 3 . 50 3 . 40 · 3 . 40 · 8 85 . 06 + 4 . 80 4 . 10 · 4 . 10 · 10 85 . 06 = 1 . 094 8 Alternativ: P l t 0 t 1 = 1 . 07 · 4 + 2 . 14 · 6 + 3 . 50 · 8 + 4 . 80 · 10 1 . 05 · 4 + 2 . 11 · 6 + 3 . 40 · 8 + 4 . 10 · 10 = 1 . 0948 b) P p t 0 t 1 = 1 1 1.07 1.05 · 1.07·5 104.63 + 1 2.14 2.11 · 2.14·7 104.63 + 1 3.50 3.40 · 3.50·9 104.63 + 1 4.80 4.10 · 4.80·11 104.63 = 1 . 0931 Alternativ: P p t 0 t 1 = 1 . 07 · 5 + 2 . 14 · 7 + 3 . 50 · 9 + 4 . 80 · 11 1 . 05 · 5 + 2 . 11 · 7 + 3 . 40 · 9 + 4 . 10 · 11 = 1 . 0931 c) P f t 0 t 1 = √ P l t 0 t 1 · P p t 0 t 1 = √ 1 . 0948 · 1 . 0931 = 1 . 093 9 d) Preisindex nach Paasche P p t 0 t 1 P p t 1 t 2 = ∑ p 1 q 1 ∑ p 0 q 1 ∑ p 2 q 2 ∑ p 1 q 2 ̸ = ∑ p 2 q 2 ∑ p 0 q 2 = P p t 0 t 2 <?page no="261"?> Lösungshinweise 261 Klausur 2 1. a) ¯ x = 11 b) ˜ x 0.5 = 7 c) σ = 7 . 5829 d) µ 3 σ 3 = 1 . 0837. Es gibt drei kleine negative und eine große positive Abweichung. Durch die dritte Potenz überwiegt die große positive Abweichung und führt zu einem positiven Wert des Schiefemaßes. Dies deutet auf eine rechtsschiefe Verteilung hin. e) n−1 √∏ n−1 i=1 x i+1 x i = 1 . 6869; 1 . 6869 · 100 − 100 = 68 . 6 2. a) Eine Gewichtung erfolgt, um die unterschiedliche ,Bedeutung’ der verschiedenen Güter bzw. Gütergruppen zu berücksichtigen. Die Gewichtung erfolgt durch die Auswertung von ,Ausgabebüchern’ der Teilnehmer der EVS. D.h. es werden für die verschiedenen Gütergruppen die Ausgabenanteile von vielen Personen gemittelt, so dass die Ausgabenanteile den Verbrauchsgewohnheiten eines typischen Haushalts entsprechen sollen. Tatsächlich ist entsprechend seiner Ausgabenstruktur jeder Haushalt individuell unterschiedlich von Preissteigerungen betroffen. b) P l t 0 t 1 = 1 . 0758; P p t 0 t 1 = 1 . 0640 c) In den Preisindex nach Paasche gehen aktuelle Gütermengen ein. Tendenziell substitutieren Menschen sehr stark verteuerte Güter durch weniger stark verteuerte, so dass die besonders hohen Preismeßzahlen beim Paasche-Index etwas geringer gewichtet werden als beim Laspeyres-Index. 3. Siehe Abschnitt 4.3.2 Seite 80ff. 4. Siehe Abschnitt 7.3 Seite 133ff. <?page no="262"?> 262 Lösungshinweise 5. a) ¯ x = ∑ J j=1 ¯ x j · f j = ∑ J j=1 1 n j ∑ n j i=1 x ji · n j n = 1 n ∑ n i=1 x i b) Es gilt die Streuungszerlegung. Sowohl die interne als auch die externe Varianz lassen sich mit den Tabellenangaben berechnen. c) ¯ x = 1900 . 98 d) interne Varianz: 336 , 125 . 32; externe Varianz: 1 , 221 , 072 . 25; σ 2 = 1 , 557 , 197 . 57; σ = 1247 . 88 6. a) c i = e α y β i e u i ln c i = ln ( e α y β i e u i ) ln c i = ln e α + ln y β i + ln e u i = α + β ln y i + u i b) ˆ β = cov(ln y,ln c) var(ln y) , ˆ α = mean(ln c ) − ˆ β · mean(ln y ) c) ˆ c i = e ˆ α y ˆ β i = e 0.915 4000 0.818 = 2207 . 3 d) ˆ δ = 202 . 7 , ˆ ϕ = 0 . 493 e) ˆ c i = ˆ δ + ˆ ϕy i = 202 . 7 + 0 . 493 · 4000 = 2174 . 7 <?page no="263"?> Lösungshinweise 263 Klausur 3 1. a) ˆ f ( x = 2 . 2) = 0 . 3111 b) P ( X ∈ ˜ x ∗ 2 ) = 0 . 2667 2. a) m 1 = p 2019,1 p 2018,1 = 3 2.5 ; m 2 = p 2019,2 p 2018,2 = 18 15 ; m 3 = p 2019,3 p 2018,3 = 18 15 b) g 2018,3 = 2 3 c) g 2019,3 = 0 . 2136 d) I P L = ∑ i p i,19 ·q i.18 ∑ i p i,18 ·q i.18 e) I P L = 1 . 2 3. a) Herleitung: σ 2 Y = 1 n n ∑ i=1 ( y i − ¯ y ) 2 = 1 n n ∑ i=1 (( y i − ˆ y i ) + (ˆ y i − ¯ y )) 2 = 1 n n ∑ i=1 ( y i − ˆ y i ) 2 + (ˆ y i − ¯ y ) 2 + 2 ( y i − ˆ y i ) (ˆ y i − ¯ y ) Dritter Summand ist 0, wegen n ∑ i=1 ( y i − ˆ y i ) (ˆ y i − ¯ y ) = n ∑ i=1 ˆ y i ( y i − ˆ y i ) + ¯ y n ∑ i=1 ( y i − ˆ y i ) = n ∑ i=1 ˆ y i u i + ¯ y n ∑ i=1 u i = 0 wg. n ∑ i=1 ˆ y i u i = n ∑ i=1 ( α + βx i ) u i = α n ∑ i=1 u i + β n ∑ i=1 x i u i = 0 und n ∑ i=1 u i = 0 <?page no="264"?> 264 Lösungshinweise Daraus folgt σ 2 Y = 1 n n ∑ i=1 ( y i − ˆ y i ) 2 + (ˆ y i − ¯ y ) 2 b) 1. Komponente: Varianz der Beobachtungen um die Regressionslinie, d.h. Varianz der Residuen, da die Residuen den Mittelwert 0 haben, 2. Komponente Varianz der Regressionswerte um das arithmetische Mittel, da die Regressionswerte den Mittlwert ¯ y haben. 4. a) 3 geg. 2 : 1 . 9586%, 2 geg. 1 : − 0 . 5177% b) Die Originalwerte deuten auf eine Verbesserung hin. Aufgrund eines Saisonmusters könnte die saisonbereinigte Entwicklung jedoch ein anderes Bild ergeben. c) Mittlere Trendabweichung: d 2015,3 = 1 . 0082 , d 2016,3 = 1 . 0027 , d 2017,3 = 1 . 0055 , d 2018,3 = 1 . 0021 , ¯ d 3 = 1 . 0046 Saisonbereinigter Wert: y b 2019,3 = y 2019,3 / ¯ d 3 = 107 . 27 d) 2019 , 3 geg. 2019 , 2 : 0 . 979% , 2019 , 2 geg. 2019 , 1 : − 0 . 4405% e) Nach einem Rückgang um 0 . 44% im zweiten Quartal, aktuell Anstieg um 0 . 985% im aktuellen Quartal (Erholung). <?page no="265"?> Lösungshinweise 265 Klausur 4 1. a) ¯ x = 12 b) ˜ x 0.5 = x 2 = 3 c) M A = 9 . 6 d) s X = 10 . 64 e) σ X = √ 1 n ∑ n i=1 ( cx i ) 2 − ( c ¯ x ) 2 = √ c 2 1 n ∑ n i=1 x 2 i − ¯ x 2 = |c| √ 1 n ∑ n i=1 x 2 i − ¯ x 2 = |c| s X f) σ cX = 21 . 28 2. a) RK = 0 . 3798 b) HK = 0 . 3572 c) h i = cx i ∑ n i=1 cx i = x i ∑ n i=1 x i D.h. keine Veränderung. d) Minimale Konzentration: h i = 1 / n HK = n ∑ i=1 ( 1 n ) 2 = n n 2 = 1 / n Maximale Konzentration: h 1 = 1 , 0 sonst HK = n ∑ i=1 h 2 i = 1 + 0 + 0 + ... = 1 e) h i ≈ 1 / n, damit HK ≈ 1 / n <?page no="266"?> 266 Lösungshinweise 3. Herleitung: σ 2 X = J ∑ j=1 (˜ x j − ¯ x ) 2 K ∑ k=1 P ( X = ˜ x j |Y = ˜ y k ) P ( Y = ˜ y k ) = K ∑ k=1 J ∑ j=1 (˜ x j − ¯ x ) 2 P ( X = ˜ x j |Y = ˜ y k ) P ( Y = ˜ y k ) = K ∑ k=1 J ∑ j=1 ((˜ x j − ¯ x k ) + (¯ x k − ¯ x )) 2 P ( X = ˜ x j |Y = ˜ y k ) P ( Y = ˜ y k ) = K ∑ k=1 J ∑ j=1 (˜ x j − ¯ x k ) 2 P ( X = ˜ x j |Y = ˜ y k ) ︸ ︷︷ ︸ =σ 2 X|˜ y P ( Y = ˜ y k ) + K ∑ k=1 J ∑ j=1 (¯ x k − ¯ x ) 2 P ( X = ˜ x j |Y = ˜ y k ) P ( Y = ˜ y k ) = K ∑ k=1 σ 2 X|˜ y P ( Y = ˜ y k ) + K ∑ k=1 (¯ x k − ¯ x ) 2 P ( X = ˜ x j |Y = ˜ y k ) σ 2 X|˜ y = K ∑ k=1 ((˜ x j − ¯ x k ) + (¯ x k − ¯ x )) 2 P ( X = ˜ x j |Y = ˜ y k ) K ∑ k=1 J ∑ j=1 (¯ x k − ¯ x ) 2 P ( X = ˜ x j |Y = ˜ y k ) P ( Y = ˜ y k ) = K ∑ k=1 (¯ x k − ¯ x ) 2 P ( Y = ˜ y k ) J ∑ j=1 P ( X = ˜ x j |Y = ˜ y k ) ︸ ︷︷ ︸ =1 = K ∑ k=1 (¯ x k − ¯ x ) 2 P ( X = ˜ x j |Y = ˜ y k ) <?page no="267"?> Lösungshinweise 267 2 K ∑ k=1 J ∑ j=1 (˜ x j − ¯ x k ) (¯ x k − ¯ x ) P ( X = ˜ x j |Y = ˜ y k ) P ( Y = ˜ y k ) = 2 K ∑ k=1 (¯ x k − ¯ x ) P ( Y = ˜ y k ) J ∑ j=1 (˜ x j − ¯ x k ) P ( X = ˜ x j |Y = ˜ y k ) ︸ ︷︷ ︸ =0 = 0 4. a) P ( X = 1 |Y = 0) = 0 . 8485, P ( X = 0 |Y = 1) = 0 . 8235 b) Empirisch Y = 0 Y = 1 X = 0 1 10 7 25 X = 1 14 25 3 50 Bei Unabhängigkeit Y = 0 Y = 1 X = 0 0.2508 0.1292 X = 1 0.4092 0.2108 c) Y = 0 Y = 1 X = 0 −0.1508 0.150 8 X = 1 0.1508 −0.1508 d) Y = 0 Y = 1 X = 0 −0.60128 1.16720 X = 1 0.36852 −0.715 37 <?page no="268"?> 268 Lösungshinweise e) Y = 0 Y = 1 X = 0 0.090673 0.176 01 X = 1 0.055573 0.10788 f) χ 2 = 21 . 507 g) C = 0 . 7756. Wg. 0 ≤ C ≤ 1 und C = 0 . 7756 ist der Zusammenhang als recht stark zu bezeichnen. <?page no="269"?> Lösungshinweise 269 Klausur 5 1. a) ¯ x = 128 . 8 b) Herleitung: ¯ x = ∑ J j=1 ¯ x j n j ∑ J j=1 n j = ∑ J j=1 1 n j ∑ n j i=1 x i n j ∑ J j=1 n j = ∑ J j=1 ∑ n j i=1 x i ∑ J j=1 n j = 1 n n ∑ i=1 x i c) σ 2 = ∑ J j=1 σ 2 j n j ∑ J j=1 n j + ∑ J j=1 ( ¯ x j −¯ x ) 2 n j ∑ J j=1 n j = 1710 + 8990 . 6 = 10701 2. a) ¯ x = 10 3 , σ 2 X = 6 . 8889 b) ¯ y = 20 3 , σ 2 Y = 29 . 556 c) σ XY = 14 . 111 d) r XY = σ XY σ X σ Y = 0 . 9889 e) σ 2 X ∗ = b 2 σ 2 X f) σ 2 X ∗ = b 2 σ 2 X = 3 2 · 6 . 8889 = 62 3. a) P ( X = 1 |Y = 0) = 1 6 , P ( Y = 0 |X = 0) = 15 16 b) Y = 0 Y = 1 X = 0 3 5 1 25 X = 1 3 25 6 25 c) Y = 0 Y = 1 X = 0 288 625 112 625 X = 1 162 625 63 625 <?page no="270"?> 270 Lösungshinweise d) χ 2 = 20 . 858 e) C = 0 . 7673 4. a) 2021 , 3 geg. 2021 , 2 : 5 . 9096% b) Aufgrund wiederkehrender saisonaler Schwankungen haben die Quartale unterschiedliche Niveaus. c) g 2021,4 = 868 . 38 d) Am aktuellen Rand gehen 2 Quartale verloren. e) 2021 , 3 geg. 2020 , 3 : 7 . 1512% f) Die verglichenen Werte haben die gleiche Saisonkomponente, allerdings wird die zwischenzeitliche Entwicklung ignoriert. Damit könnte z.B. bei aktuellem Rückgang zum Vormonat im Vorjahresvergleich ein Anstieg resultieren. Die mit dem Verfahren X13 saisonbereinigten Werte für das zweite und dritte Quartal des Jahres 2021 lauten 873 und 909. g) 2021 , 3 geg. 2021 , 2 : 4 . 1237%. Die aktuelle Entwicklung ist günstig, allerdings um knapp 2% schwächer als beim Vergleich mit den Originalwerten. h) Die Saisonkomponente des dritten Quartals hat einen höheren Wert als die des zweiten Quartals. D.h. im langfristigen Trend liegen die unbereinigten Werte des dritten Quartals weiter über dem Trendwert als im zweiten Quartal (bzw. weniger darunter). <?page no="271"?> Lösungshinweise 271 Klausur 6 1. a) ¯ x = 2 . 5 b) ˜ x 0.5 = x 2 = 1 c) ( x|f ( x ) = max) = 1 d) σ 2 X = 10 . 25 e) µ 3 X σ 3 X = 1 . 097 f) Da der Wert > 0, wird eine rechtsschiefe Verteilung vermutet. Durch die ungerade Potenz bleiben die Vorzeichen erhalten. Die kubierten Abweichungen rechts vom arithm. Mittle überwiegen hier die kubierten Abweichungen links davon. 2. a) ¯ x = 10 3 , σ 2 X = 10 . 889 b) ¯ y = 20 3 , σ 2 Y = 29 . 556 c) σ XY = 17 . 111 d) r XY = σ XY σ X σ Y = 0 . 9538 e) b = σ XY σ 2 X = 1 . 5714, a = ¯ y − b ¯ x = 1 . 4287 3. a) σ 2 X|˜ y=1 = 1, σ 2 X|˜ y=2 = 25 b) P ( Y = ˜ y 1 ) = 0 . 5; P ( Y = ˜ y 2 ) = 0 . 5 c) ∑ K k=1 σ 2 X|˜ y P ( Y = ˜ y k ) = 13. Interne Varianz, mittlere Varianz der Werte innerhalb einer Klasse um die Klassenmittel. d) (¯ x 1 − ¯ x ) 2 = 16, (¯ x 2 − ¯ x ) 2 = 16 e) ∑ K k=1 (¯ x k − ¯ x ) 2 P ( Y = ˜ y k ) = 16. Externe Streuung, Varianz der Klassenmittel. f) ∑ K k=1 (¯ x k −¯ x) 2 P (Y =˜ y k ) ∑ K k=1 σ 2 X|˜ y P (Y =˜ y k )+ ∑ K k=1 (¯ x k −¯ x) 2 P (Y =˜ y k ) = 0 . 5517 <?page no="272"?> 272 Lösungshinweise 4. • Multiplikatives Modell: y i = g i s i u i • Trendwerte für 3. Quartal: g 2018,3 = 845 . 63, g 2019,3 = 869 . 38, g 2020,3 = 840 . 13 • Trendabweichungen im 3. Quartal: d 2018,3 = 0 . 9969, d 2019,3 = 1 . 0088, d 2020,3 = 1 . 0153 • Mittelere Trendabweichung im 3. Quartal: ¯ d 3 = 1 . 007 • Saisonbereinigter Wert 3. Quartal 2021: y ∗ 2021,3 = y 2021,3 ¯ d 3 = 907 . 65 <?page no="273"?> Index χ 2 , 159 Abschneidepraxis, 75 absolute Konzentration, 72 Abstandsquadratsumme, 184 ALLBUS, 21 Anteilsdifferenz, 91 Approximationen, 59 Arithmetisches Mittel, 50 Approximation, 61 Minimumeigenschaft, 51 Nulleigenschaft, 51 Ausgabenanteile, 117 Bandweite, 35 Wahl der, 38 bedingte Häufigkeit, 131 Berliner-Verfahren, 205, 209 Bestimmtheitsmaß, 176 Bindungen, 158 Bruttoinlandsprodukt, 198 Census-Verfahren, 205, 209 Daten klassierte, 59 Deflationierung, 123 Deskriptive Statistik Ziele, 16 dichtester Wert, 39 Disparität, 76 Dissimilaritätsindex, 92 Dreieck-Kern, 34 Durchschnitt, 51 Einkommensdaten, 20 Einkommenskonzentration, 72 Einkommensregression, 176 Epanechnikov-Kern, 36 Erweiterungen tautologische, 99 euklidische Norm, 92 Funktion lineare, 170 Gauß, 171 Geometrisches Mittel, 52 Gini-Koeffizient, 78 Individualdaten, 80 klassierte Daten, 79 glatte Komponente, 200 gleitende Durchschnitte, 203 Harmonisches Mittel, 52 Hirschman-Herfindahl- Koeffizient, 75 Histogramm Klassenzahl, 31 Häufigkeiten bedingte, 131 empirische, 159 hypothetische, 159 Indexkonstruktionen, 110 Indexreihen verkettete, 119 <?page no="274"?> 274 Index Indexziffern für Preise, 115 Inflationsrate, 116 Interaktion, 191 Kalenderkomponente, 201 Kerndichteschätzung, 34 Bandweite, 38 Kernfunktion, 34 Kettenindex Nachteile, 123 Kettenindizes, 121 Deflationierung, 123 Klassenzahl optimale, 31 klassierten Daten, 59 Komponentenzerlegung, 92, 98 additive, 92 multiplikative, 99 konstanten Preisen, 121 Kontingenzkoeffizient, 161 Konzentration absolute, 72 relative, 76 Konzentrationskurve, 73 Konzentrationsmessung, 72 Konzentrationsrate, 72 Korrelation Ausbildung und Einkommen, 149 Korrelationskoeffizient, 146 Eigenschaften, 147 Kovarianz, 143 Eigenschaften, 144 Umformung, 144 Kurtosis, 57 Lagemaße, 50 Laspeyres, 110 leptokurtisch, 55, 58 lineare Regression, 170 Lorenzkurve, 78 Marktpreis, 109 Median, 48 Mengenindex nach Laspeyres, 110 nach Paasche, 111 Mengensurrogat, 123 Merkmal kardinales, 18 metrisches, 18 nominales, 18 ordinales, 18 Merkmalsraum, 18 mesokurtisch, 58 Messziffernmittelung, 112 Methode der kleinsten Quadrate, 171, 184 Minimumeigenschaft, 51 Mischeffekt, 97 Mittlere absolute Abweichung, 53 Modus, 39, 50 Approximation, 59 multiple Regression, 184 Niveaueffekt, 95 Normal-Kern, 36 Normalgleichungen, 173 normierte Strukturdifferenz, 92 Normierung, 91 Nulleigenschaft, 51 Paasche, 111 Paasche-Indizes implizite, 124 <?page no="275"?> Index 275 Periodogrammverfahren, 206 platykurtisch, 55, 58 Preisbegriff, 108 preisbereinigte Wertgrößen, 121 Preisindex nach Laspeyres, 110 nach Paasche, 111 Preisindizes, 109 Quantile, 47 Quantilsfunktion, 47, 48 Quartilsabstand, 53 Randverteilungen, 130, 142 Rangkorrelation Bindungen, 158 Eigenschaften, 157 Rangkorrelationskoeffizient, 157 Rechteck-Kern, 35 Regression Anpassungsgüte, 175 einfache, 170 Einkommen und Ausbildung, 176 multiple, 184 relative Konzentration, 72, 76 Repräsentativgewichtung, 114 Restkomponente, 201 Rosenbluth-Koeffizient, 74 saisonale Komponente, 201 Satz von Bayes, 132 Schiefemaß, 56 Skalenniveau, 18 Sprungstellen, 46 Standardabweichung, 54 Approximation, 61 Standardisierung, 94, 148 Streuungsmaße, 53 Streuungszerlegung, 133 Strukturanalyse, 92 Strukturdifferenz, 91 normierte, 92 Struktureffekt, 96 Strukturunterschied, 91 Trendfunktion, 202 lineare, 203 Unabhängigkeit, 159 Ungleichheit, 76 Unternehmenskonzentration, 72 Variable, 18 zweidimensionale, 130, 142 Varianz, 54 Varianzkomponenten, 135 Varianzzerlegung, 176 Variationskoeffizient, 77 Verbraucherpreisindex, 114, 116 Entwicklung, 119 Wägungsschema, 117 Verschiebungssatz, 54 Verteilung gemeinsame, 131 Verteilungsfunktion, 46 Verwendungsrechnung, 124 Wachstumsraten reale, 123 Warenkorb, 111 Warenkorbvergleich, 109 Wägungsschema, 115, 117 <?page no="276"?> 276 Index X-12-ARIMA, 201 Zeitreihen, 198 Komponenten, 200 Zeitreihenanalyse, 198 Zentralmoment, 55 drittes, 56 viertes, 57 Zentralwert, 48 Approximation, 59 Zusammenhang metrische Merkmale, 143 nominale Merkmale, 158 ordinale Merkmale, 156 <?page no="277"?> BUCHTIPP Ingolf Terveer Mathematik für Wirtschaftswissenschaften mit über 300 Aufgaben und Online-Lösungen 5., vollständig überarbeitete und erweiterte Auflage 2023, 503 Seiten €[D] 39,90 ISBN 978-3-8252-8818-1 eISBN 978-3-8385-8818-6 Wer Wirtschaftswissenschaften studiert, muss fit in Mathematik sein. Dieses Buch hilft dabei. Es geht auf lineare, quadratische, rationale und spezielle Funktionen wie Exponential-, Logarithmus- oder trigonometrische Funktionen ein und erklärt Folgen sowie Reihen. Auch die Differential- und Integralrechnung stellt es vor, ebenso lineare Gleichungen und Optimierungen. Vektoren und Matrizen berücksichtigt es zudem. Zusammenfassungen, Aufgaben und Musterklausuren bereiten ideal auf die Prüfung vor. Neu: Das Buch schließt gleich zu Beginn Wissenslücken durch schulmathematische Grundlagen. Das Buch richtet sich an Studierende der Betriebs- und Volkswirtschaftslehre sowie Wirtschaftsinformatik. UVK Verlag - Ein Unternehmen der Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 \ 72070 Tübingen \ Germany Tel. +49 (0)7071 97 97 0 \ Fax +49 (0)7071 97 97 11 \ info@narr.de \ www.narr.de <?page no="278"?> BUCHTIPP Wolfgang Ortmanns, Ralph Sonntag Umfragen erstellen und auswerten kompakt und leicht verständlich für Studierende und junge Forschende 1. Auflage 2023, 140 Seiten €[D] 34,90 ISBN 978-3-7398-3241-8 eISBN 978-3-7398-8241-3 Idealer Ratgeber für Haus-, Bachelor- und Masterarbeiten Bei Haus-, Bachelor- und Masterarbeiten ist die Umfrage eine beliebte Forschungsmethode. Wolfgang Ortmanns und Ralph Sonntag vermitteln dazu alles Wissenswerte - angefangen von den Rahmenbedingungen, den Fragetypen bis hin zum Umfrageaufbau und der Stichprobenauswahl. Wichtiges statistisches Know-how vermitteln sie zudem, u.a. wichtige Testverfahren und die Korrelationsanalyse. Das Buch richtet sich an Studierende und junge Forschende aus den Bereichen der Wirtschafts- und Sozialwissenschaften. Gefördert vom Konsortium der sächsischen Hochschulbibliotheken. UVK Verlag - Ein Unternehmen der Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 \ 72070 Tübingen \ Germany Tel. +49 (0)7071 97 97 0 \ Fax +49 (0)7071 97 97 11 \ info@narr.de \ www.narr.de <?page no="279"?> BUCHTIPP Jutta Arrenberg Wirtschaftsstatistik: 77 Aufgaben, die Bachelorstudierende beherrschen müssen 2., überarbeitete Auflage 2021, 210 Seiten €[D] 25,90 ISBN 978-3-8252-5648-7 eISBN 978-3-8385-5648-2 Jutta Arrenberg stellt 77 Klausuraufgaben mit Lösungen vor. Im Mittelpunkt stehen u.a. Kennzahlen aus Daten, das Rechnen mit Wahrscheinlichkeiten sowie die Binomial- und Normalverteilung. Auch auf Skalierung von Variablen, Zufallsvariablen und Indexrechnung geht die Autorin ein. Sie behandelt zudem Lineare Regression, Konfidenzintervalle sowie statistische Tests. Auf häufig gemachte Fehler in Klausuren weist sie explizit hin, ebenso auf die aufzuwendende Zeit und den Schwierigkeitsgrad pro Aufgabe. Auch alle wichtigen Formeln aus dem Studium sind im Buch zu finden. Zudem verrät sie, wie sich Studierende richtig auf die Prüfung vorbereiten, und gibt Tipps für die Klausur. UVK Verlag - Ein Unternehmen der Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 \ 72070 Tübingen \ Germany Tel. +49 (0)7071 97 97 0 \ Fax +49 (0)7071 97 97 11 \ info@narr.de \ www.narr.de <?page no="280"?> Mit R-Code! Kenntnisse der Deskriptiven Statistik gehören für Studierende der Wirtschafts- und Sozialwissenschaften zum wichtigen Handwerkszeug. Auf kompakte Art und Weise stellt diese 3., überarbeitete und erweiterte Auflage die relevanten Fachtermini vor und vermittelt das Wichtigste zur Verteilung, Kerndichteschätzung, zu Maßzahlen sowie zur Korrelations- und Regressionsrechnung. Auch auf Konzentrationsmessung sowie Preis- und Mengenindizes geht sie ein. Übungen mit Lösungen, neue Musterklausuren und ein Formelteil unterstützen das Lernen. Kurzum: Der ideale Einstieg in das Thema für Studierende der Wirtschafts- und Sozialwissenschaften. Wirtschaftswissenschaften Dies ist ein utb-Band aus dem UVK Verlag. utb ist eine Kooperation von Verlagen mit einem gemeinsamen Ziel: Lehr- und Lernmedien für das erfolgreiche Studium zu veröffentlichen. utb.de QR-Code für mehr Infos und Bewertungen zu diesem Titel ISBN 978-3-8252-6175-7 mit neuen Klausuren