Grundwissen Deskriptive Statistik
mit Aufgaben, Klausuren und Lösungen
0814
2017
978-3-8385-4825-8
978-3-8252-4825-3
UTB
Andreas Behr
An der Deskriptiven Statistik kommt kein Bachelorstudierender der BWL und VWL vorbei. Auf kompakte Art und Weise stellt das Buch deshalb die relevanten Fachtermini vor und vermittelt das Wichtigste zur Verteilung, Kerndichteschätzung, Maßzahlen sowie der Korrelations- und Regressionsrechnung. Auch die Konzentrationsmessung sowie Preis- und Mengenindizes werden erklärt. Musterklausuren und ein Formelteil runden das Buch ab.
<?page no="2"?> UVK Verlagsgesellschaft mbH • Konstanz mit UVK/ Lucius • München Andreas Behr Grundwissen Deskriptive Statistik mit Aufgaben, Klausuren und Lösungen <?page no="3"?> Prof. Dr. Andreas Behr lehrt Statistik an der Universität Duisburg-Essen. Online-Angebote oder elektronische Ausgaben sind erhältlich unter www.utb-shop.de. Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über <http: / / dnb.ddb.de> abrufbar. Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. © UVK Verlagsgesellschaft mbH, Konstanz und München 2017 Lektorat: Rainer Berger Einbandgestaltung: Atelier Reichert, Stuttgart Umschlagmotiv: © Rawpixel | iStockphoto.de Druck und Bindung: Pustet, Regensburg UVK Verlagsgesellschaft mbH Schützenstr. 24 · 78462 Konstanz Tel. 07531-9053-0 · Fax 07531-9053-98 www.uvk.de UTB-Nr. 4825 ISBN 978-3-8252-4825-3 <?page no="4"?> Vorwort Der vorliegende Text soll Einblicke in die Grundlagen der Deskriptiven Statistik vermitteln. Er ist entstanden auf der Grundlage von Vorlesungsfolien und Skripten meiner Lehrveranstaltungen an den Universitäten in Frankfurt/ M., Münster und Essen. Als didaktisches Konzept wurde versucht, die vorgestellten Methoden mit Hilfe einfachster Zahlenbeispiele transparent darzustellen, bevor sie auf einen Datensatz, der Informationen über 1000 Personen enthält und aus der Panel Study of Income Dynamics (USA) stammt, angewendet werden. Der Text enthält neben der Darstellung der ausgewählten statistischen Methoden jeweils am Kapitelende kurze Blöcke, in denen Code zur Berechnung der numerischen Ergebnisse und zur Erstellung der Graphiken der statistischen Programmierumgebung R präsentiert wird. Die dargestellten und besprochenen Ergebnisse lassen sich damit recht einfach reproduzieren. Ein einführender Text in die statistische Analyse mit R ist Behr, Andreas / Pötter, Ulrich, Einführung in die Statistik mit R, 2. Auflage, Vahlen Verlag, München, 2011. Aus Platzgründen wurde in der Regel ein etwas vereinfachter R-Code angegeben, so dass die im Text enthaltenen Graphiken nicht mit den aus dem angegeben R-Code resultierenden identisch sind. Zu beachten ist, dass die dargestellten Ergebnisse gerundet wurden, wodurch sich u.U. geringfügige Abweichungen von exakten oder weniger stark gerundeten Ergebnissen - etwa bei Verwendung des angegebenen R-Codes - erklären. In Anlehnung an die übliche Darstellung in statistischer Software wird im gesamten Text als 1000er Trennzeichen ein Komma und als Dezimaltrennzeichen ein Punkt verwendet. Am Ende jedes Kapitels befinden sich Übungsaufgaben, mit deren Hilfe die in dem jeweiligen Kapitel besprochenen Inhalte vertieft und deren Anwendung geübt werden kann. Am Ende des Buches finden sich gekürzte Lösungen der Übungsaufgaben. Zudem enthält das Buch eine Formelsammlung, in der die wichtigsten Formeln des Textes zusammengestellt sind. Üblich ist die Bereitstellung derartiger Formelsammlungen als Hilfe in Klausuren. Formeln, die in der Formelsammlung enthalten sind, sind im Text grau hinterlegt, womit auf deren herausgehobene Bedeutung verwiesen wird. <?page no="5"?> 6 Für die eigenständige Überprüfung des Kenntnisstands sind zudem zwei Klausuren im Text enthalten. Auch für diese finden sich am Ende des Buches kurze Lösungshinweise. Bedanken möchte ich mich bei Götz Rohwer für Hinweise und Beiträge, insbesondere zu den Kapiteln 2 und 11; und bei Christoph Schiwy, ohne dessen Unterstützung in L A T E Xund knitr das Buch nicht entstanden wäre. Zudem danke ich Katja Theune, Lucy Hong, Neele Daun, Jurij Weinblat, Gerald Fugger und Kevin Gründker für die Durchsicht des Manuskripts. Digitale Zusatzmaterialien Die im Text verwendeten Daten können Sie unter www.utbshop.de auf Titelebene des Buches unter dem Reiter Zusatzmaterial herunterladen. <?page no="6"?> Inhaltsverzeichnis 1 Einführung 13 1.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.1 Ziele . . . . . . . . . . . . . . . . . . . . . . 14 1.1.2 Motivation . . . . . . . . . . . . . . . . . . 14 1.2 Variablen und Häufigkeiten . . . . . . . . . . . . . 15 1.2.1 Variablen und Daten . . . . . . . . . . . . . 15 1.2.2 Merkmalsarten und Skalenniveaus . . . . . 16 1.2.3 Absolute und relative Häufigkeiten . . . . . 16 1.2.4 Stabdiagramme . . . . . . . . . . . . . . . . 17 1.2.5 Klassierung . . . . . . . . . . . . . . . . . . 18 1.3 Ein Beispiel mit Einkommensdaten . . . . . . . . . 18 1.3.1 Datenquelle: Panel Study of Income Dynamics (PSID) . . . . . . . . . . . . . . . . . . 19 1.3.2 Die Variablen im Datensatz . . . . . . . . . 19 1.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 21 1.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 24 2 Darstellung von Häufigkeitsverteilungen 25 2.1 Histogramme . . . . . . . . . . . . . . . . . . . . . 26 2.1.1 Beschreibung der Methode . . . . . . . . . 26 2.1.2 Bestimmung der Klassen . . . . . . . . . . . 27 2.2 Kerndichteschätzung . . . . . . . . . . . . . . . . . 29 2.2.1 Die grundlegende Idee der Kerndichteschätzung . . . . . . . . . . . . . . . . . . . . . . 30 2.2.2 Kernfunktionen . . . . . . . . . . . . . . . . 30 2.2.3 Berechnung für Stützstellen . . . . . . . . . 33 2.2.4 Verfahren der Bandweitenwahl . . . . . . . 34 2.2.5 Auswirkung von Bandweiten- und Kernfunktionswahl . . . . . . . . . . . . . . . . . . . 34 2.2.6 Bestimmung des Modus . . . . . . . . . . . 35 2.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 37 2.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 38 <?page no="7"?> 8 Inhaltsverzeichnis 3 Charakterisierungen von Häufigkeitsverteilungen 41 3.1 Verteilungsfunktion . . . . . . . . . . . . . . . . . . 42 3.2 Quantilsfunktion . . . . . . . . . . . . . . . . . . . 43 3.3 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . 45 3.3.1 Lagemaße . . . . . . . . . . . . . . . . . . . 46 3.3.2 Streuungsmaße . . . . . . . . . . . . . . . . 49 3.3.3 Schiefe- und Wölbungsmaße . . . . . . . . . 51 3.4 Approximationen mit klassierten Daten . . . . . . 54 3.4.1 Approximation des Modus . . . . . . . . . . 55 3.4.2 Approximation des Zentralwerts . . . . . . 55 3.4.3 Approximation des arithmetischen Mittels . 57 3.4.4 Approximation der Standardabweichung . . 57 3.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 58 3.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 61 4 Konzentrationsmessung 65 4.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 66 4.2 Maßzahlen der absoluten Konzentration . . . . . . 66 4.2.1 Die Konzentrationsrate . . . . . . . . . . . 66 4.2.2 Die Konzentrationskurve . . . . . . . . . . . 67 4.2.3 Der Rosenbluth-Koeffizient . . . . . . . . . 68 4.2.4 Der Hirschman-Herfindahl-Koeffizient . . . 69 4.3 Maßzahlen der relativen Konzentration . . . . . . . 70 4.3.1 Der Variationskoeffizient . . . . . . . . . . . 71 4.3.2 Die Lorenzkurve und der Gini-Koeffizient . 71 4.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 77 4.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 79 5 Strukturanalysen 83 5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 84 5.2 Maßzahlen für Strukturunterschiede . . . . . . . . 84 5.2.1 Strukturdifferenz und normierte Strukturdifferenz . . . . . . . . . . . . . . . . . . . . . 85 5.2.2 Euklidische Norm . . . . . . . . . . . . . . . 86 5.3 Additive Komponentenzerlegung . . . . . . . . . . 87 5.3.1 Standardisierung . . . . . . . . . . . . . . . 88 5.3.2 Niveau- und Struktureffekt . . . . . . . . . 89 5.3.3 Niveau-, Struktur- und Mischeffekt . . . . . 90 5.4 Multiplikative Komponentenzerlegung . . . . . . . 93 <?page no="8"?> Inhaltsverzeichnis 9 5.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 95 5.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 97 6 Preis- und Mengenindizes 101 6.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 102 6.2 Transaktionen, Mengen und Preise . . . . . . . . . 102 6.3 Preisindizes auf Basis von Warenkorbvergleichen . 103 6.4 Messziffernmittelung . . . . . . . . . . . . . . . . . 106 6.5 Repräsentativgewichtung: Einzelpreise und Ausgabenanteile . . . . . . . . . . . . . . . . . . . . . . . 108 6.6 Konstruktion von Indexziffern . . . . . . . . . . . . 109 6.6.1 Der Verbraucherpreisindex . . . . . . . . . 110 6.6.2 Entwicklung der Verbraucherpreise seit 1881 111 6.7 Kettenindizes . . . . . . . . . . . . . . . . . . . . . 113 6.7.1 Definition von Kettenindizes . . . . . . . . 114 6.7.2 Vor- und Nachteile von Kettenindizes . . . 115 6.7.3 Deflationierung mit Kettenindizes . . . . . 116 6.8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 118 6.9 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 120 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und Streuungszerlegung 123 7.1 Mehrdimensionale Variablen . . . . . . . . . . . . . 124 7.2 Bedingte Häufigkeiten . . . . . . . . . . . . . . . . 125 7.3 Streuungszerlegung . . . . . . . . . . . . . . . . . . 127 7.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 131 7.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 132 8 Korrelation: Metrische Variablen 135 8.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 136 8.2 Eine zweidimensionale Variable . . . . . . . . . . . 136 8.3 Die Kovarianz . . . . . . . . . . . . . . . . . . . . . 137 8.3.1 Ein Zahlenbeispiel . . . . . . . . . . . . . . 138 8.3.2 Eigenschaften der Kovarianz . . . . . . . . . 138 8.4 Der Korrelationskoeffizient von Pearson . . . . . . 140 8.4.1 Eigenschaften des Korrelationskoeffizienten 141 8.4.2 Die Kovarianz standardisierter Variablen . . 142 8.4.3 Ausbildungsjahre und Einkommen . . . . . 143 8.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 144 <?page no="9"?> 10 Inhaltsverzeichnis 8.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 146 9 Korrelation: Ordinale und nominale Variablen 149 9.1 Spearmans Rangkorrelationskoeffizient . . . . . . . 150 9.1.1 Ordinale Variablen und Ränge . . . . . . . 150 9.1.2 Ein Rangkorrelationskoeffizient . . . . . . . 151 9.1.3 Eigenschaften . . . . . . . . . . . . . . . . . 151 9.1.4 Eine vereinfachte Rechenmethode . . . . . . 152 9.2 Zusammenhangsmaße für nominale Variablen . . . 152 9.2.1 Empirische und hypothetische Häufigkeiten 153 9.2.2 Kontingenzkoeffizient . . . . . . . . . . . . 155 9.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 156 9.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 158 10 Einfache Regressionsrechnung 161 10.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 162 10.2 Methode der kleinsten Quadrate . . . . . . . . . . 162 10.2.1 Grundlagen . . . . . . . . . . . . . . . . . . 163 10.2.2 Berechnung der Parameter . . . . . . . . . 163 10.2.3 Achsentransformation . . . . . . . . . . . . 166 10.2.4 Varianzzerlegung und Bestimmtheitsmaß . 166 10.2.5 Ausbildungsjahre und Stundenlöhne . . . . 168 10.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 170 10.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 173 11 Multiple Regressionsanalyse 175 11.1 Das multiple Regressionsmodell . . . . . . . . . . . 176 11.1.1 Anpassungskriterium und Zielfunktion . . . 176 11.2 Das multiple Regressionsmodell in Matrixnotation 178 11.3 Eine multiple Lohnregression . . . . . . . . . . . . 181 11.4 Partielle Regressionskoeffizienten und Residuenregressionen . . . . . . . . . . . . . . . . . . . . . . . 182 11.5 Interaktionen erklärender Variablen . . . . . . . . . 183 11.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 185 11.7 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 186 12 Zeitreihen 189 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . 190 12.2 Komponenten von Zeitreihen . . . . . . . . . . . . 192 <?page no="10"?> Inhaltsverzeichnis 11 12.3 Trendermittlung . . . . . . . . . . . . . . . . . . . 193 12.3.1 Trendfunktionen . . . . . . . . . . . . . . . 194 12.3.2 Gleitende Durchschnitte . . . . . . . . . . . 195 12.4 Saisonbereinigung . . . . . . . . . . . . . . . . . . . 197 12.4.1 Periodogrammverfahren . . . . . . . . . . . 198 12.4.2 Census- und Berliner Verfahren . . . . . . . 201 12.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . 203 12.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . 206 Formelsammlung 211 Probeklausuren 219 Lösungshinweise 225 Index 245 <?page no="12"?> 1 Einführung Mit Hilfe der Methoden der Deskriptiven Statistik sollen Daten, die für eine Anzahl an Einheiten (Personen, Unternehmen, etc.) gewonnen wurden, so dargestellt und beschrieben werden, dass ihr Informationsgehalt einfach und anschaulich sichtbar wird. Ausgangspunkt sind Werte einer oder mehrerer statistischer Variablen, mit denen Eigenschaften der Einheiten erfasst sind. In diesem einleitenden Kapitel erläutern wir dies Ziel, geben einige grundlegende Definitionen an sowie ein Beispiel, das auch in späteren Kapiteln verwendet wird. 1.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.1 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . 14 1.2 Variablen und Häufigkeiten . . . . . . . . . . . . . . . . . 15 1.2.1 Variablen und Daten . . . . . . . . . . . . . . . . 15 1.2.2 Merkmalsarten und Skalenniveaus . . . . . . . . . . 16 1.2.3 Absolute und relative Häufigkeiten . . . . . . . . . 16 1.2.4 Stabdiagramme . . . . . . . . . . . . . . . . . . . 17 1.2.5 Klassierung . . . . . . . . . . . . . . . . . . . . . 18 1.3 Ein Beispiel mit Einkommensdaten . . . . . . . . . . . . . 18 1.3.1 Datenquelle: Panel Study of Income Dynamics (PSID) 19 1.3.2 Die Variablen im Datensatz . . . . . . . . . . . . . 19 1.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1 1 <?page no="13"?> 14 1 Einführung 1.1 Einleitung In diesem Buch beschäftigen wir uns mit der deskriptiven (beschreibenden) Statistik. Vordringlich geht es darum, Methoden zu besprechen, mit denen vorliegende Daten anschaulich dargestellt und wesentliche Charakteristika der Verteilung der Daten herausgearbeitet werden können. Methoden der Wahrscheinlichkeitsrechnung und der Inferenzstatistik werden in einem anderen Buch (Grundwissen: Induktive Statistik) dargestellt. 1.1.1 Ziele Ziele Das Ziel besteht darin, Einblicke in die Methoden und die Probleme der statistischen Begriffsbildung, der Datengewinnung und der Datenauswertung zu geben. Obwohl Fragen der Operationalisierung in der empirischen Wirtschaftsforschung von ganz zentraler Bedeutung sind, wird im Rahmen dieser Einführung nur in begrenztem Umfang darauf eingegangen und der Schwerpunkt auf die statistische Auswertung von Daten gelegt. Fragen der Operationalisierung müssen in der Praxis jeweils gesondert für das aktuelle Forschungsprojekt behandelt werden und sind nur eingeschränkt einer allgemeinen Behandlung zugänglich. Ein Grundwissen über statistische Methoden der Datenanalyse in Form von tabellarischen und grafischen Darstellungen und der Charakterisierung durch Kennzahlen sollte jedoch jeder Wirtschafts- und Sozialwissenschaftler besitzen. 1.1.2 Motivation Die Statistik kann zwar einerseits als eine Hilfswissenschaft für die Wirtschaftswissenschaften verstanden werden, sie hat jedoch andererseits eine zentrale Funktion. Die meisten Phänomene, die in den Wirtschaftswissenschaften interessieren, sind einer unmittelbaren Beobachtung oder Erfahrung nicht zugänglich. Erst durch eine adäquate Begriffsbildung und Datenerhebung werden diese Phänomene empirisch zugänglich. Zu denken ist hier z. B. an das Niveau der Arbeitslosigkeit, die allgemeine Entwicklung von Verbraucherpreisen, die Mietpreisentwicklung und dergleichen mehr. In diesem Sinne kann die Statistik als ein „Sinnesorgan“ der Wirtschaftswissenschaften verstanden werden. <?page no="14"?> 1.2 Variablen und Häufigkeiten 15 Als eine weitere Motivation lässt sich die zunehmende Datenverfügbarkeit und damit einhergehend die zunehmende Bedeutung von Datenanalysen anführen. Die Fähigkeit, Ergebnisse von Datenanalysen verstehen und interpretieren und die dabei verwendeten Methoden kritisch hinterfragen zu können, ist sicherlich von herausragender Bedeutung. 1.2 Variablen und Häufigkeiten In diesem Abschnitt erläutern wir einige Begriffe, die für alle weiteren Kapitel von grundlegender Bedeutung sind. 1.2.1 Variablen und Daten Deskriptive Statistik beginnt mit Daten. Diese Daten sind fast immer in der Form einer Datenmatrix gegeben, deren Schema folgendermaßen verdeutlicht werden kann: i x i y i z i 1 x 1 y 1 z 1 2 x 2 y 2 z 2 ... ... . .. ... n x n y n z n Jede Zeile bezieht sich auf eine Einheit (z. B. eine Person oder ein Unternehmen). Die erste Spalte enthält eine Nummer, die die jeweilige Einheit angibt. Die Anzahl der Einheiten wird durch die Zahl n angegeben. Die weiteren Spalten enthalten die Werte von Variablen. Im obigen Schema gibt es drei Variablen: X, Y und Z. Dies ist eine allgemeine Konvention: Variablen werden durch kursive Großbuchstaben bezeichnet, ihre Werte durch entsprechende Kleinbuchstaben. So ist x i der Wert, den die Variable X bei der Einheit i annimmt; und entsprechend sind y i und z i zu verstehen. Diese Werte sind die eigentlichen Daten, aber wir betrachten sie nicht isoliert, sondern als Werte von Variablen, die für die jeweilige Gesamtheit der Einheiten definiert sind. 1 <?page no="15"?> 16 1 Einführung Dementsprechend kann der Begriff ,Variable‘ in zwei Bedeutungen verwendet werden. Einerseits bezieht er sich auf die Spalten einer Datenmatrix; bei einer formalen Betrachtung handelt es sich dann um Spaltenvektoren. Andererseits kann man mit dem Begriffeine Abbildung bezeichnen, die jeder Einheit einen bestimmten Wert in einem Merkmalsraum zuordnet, d.h. in einer Menge möglicher Merkmalsausprägungen. 1.2.2 Merkmalsarten und Skalenniveaus In der Statistik ist es allgemein üblich, Merkmalswerte durch Zahlen zu repräsentieren (so dass man mit ihnen rechnen kann). Natürlich muss ihre Bedeutung angegeben werden, z. B. dass es sich um Monatslöhne in Euro handelt. Merkmale haben ein bestimmtes Skalenniveau . Bei nominalen Merkmalen kann lediglich die Unterschiedlichkeit festgestellt werden, aber verschiedene Ausprägungen können nicht sinnvoll angeordnet werden und Abstände zwischen den Ausprägungen haben keine bestimmte Bedeutung. Nominale Merkmale sind z. B. das Geschlecht oder der Beruf. Bei einem ordinalen Merkmal lassen sich die verschiedenen Ausprägungen in eine sinnvoll interpretierbare Reihenfolge bringen, jedoch haben auch in diesem Fall die Abstände keine bestimmte Bedeutung. Insbesondere bei subjektiven intensitätsmäßigen Auskünften findet oft die Ordinalskala Anwendung, etwa bei Wertungen wie ,gut‘, ,mittel‘, ,schlecht‘ o.ä. Ein Merkmal ist kardinal skalierbar , oft auch metrisches Merkmal genannt, wenn die verschiedenen Ausprägungen unterscheidbar sind, in eine Rangfolge gebracht werden können und die Abstände eine bestimmte Bedeutung haben. Bei einer Intervallskala existiert kein absoluter Nullpunkt, so dass zwar Abstände aber nicht sinnvoll Verhältnisse interpretiert werden können, wie etwa bei der Temperatur. Bei einer Verhältnisskala existiert ein absoluter Nullpunkt, etwa bei Gewichten oder Längenangaben. 1.2.3 Absolute und relative Häufigkeiten Mit den Methoden der deskriptiven Statistik interessiert man sich nicht für die Merkmalswerte bestimmter (identifizierbarer) Einheiten, sondern nur dafür, mit welchen Häufigkeiten Merkmalswerte <?page no="16"?> 1.2 Variablen und Häufigkeiten 17 in der jeweiligen Gesamtheit der n Einheiten (oder in Teilgesamtheiten) auftreten. Man unterscheidet absolute und relative Häufigkeiten. Die absolute Häufigkeit, mit der eine Variable einen Wert x annimmt, ist die Anzahl der Einheiten, die diesen Merkmalswert aufweisen. Die relative Häufigkeit ist der entsprechende Anteil, also die absolute Häufigkeit geteilt durch n. Wenn einfach von Häufigkeiten gesprochen wird, sind in diesem Buch stets relative Häufigkeiten gemeint. Als grundlegende Notation verwenden wir P(X = x), womit die Häufigkeit gemeint ist, mit der die Variable X den Wert x annimmt. Ganz analog bedeutet P ( X = x, Y = y ) die Häufigkeit, mit der X den Wert x und Y den Wert y annimmt. Zur Illustration betrachten wir eine Gesamtheit von n = 8 Einheiten. Für die Variable X gibt es folgende Merkmalswerte (z. B. Altersjahre): x 1 = 1, x 2 = 2, x 3 = 2, x 4 = 4, x 5 = 4, x 6 = 4, x 7 = 7 und x 8 = 16. Dann kann man bespielsweise folgende Häufigkeiten ermitteln: P(X = 1) = 1/ 8, P(X = 4) = 3/ 8, P(X = 9) = 0. Offenbar kann man auch x-Werte verwenden, die bei den Einheiten nicht vorkommen; dann ist die Häufigkeit Null. Schließlich verwenden wir auch manchmal eine Notation, die sich auf mehrere mögliche Merkmalswerte bezieht: P(X ∈ A), womit die Häufigkeit dafür gemeint ist, dass X irgendeinen Wert in der Menge A annimmt. Beispielsweise findet man mit den eben angegebenen Werten, dass P(X ∈ { 1, 4 } ) = 1/ 2 ist. Beziehen wir uns auf die Elemente eines explizit definierten Merkmalsraums, bezeichnen wir diese mit ˜ x j ( j = 1 , . . . , J ) und ihre Häufigkeiten mit f j = P ( X = ˜ x j ). Mit n j = f j n bezeichnen wir die absolute Häufigkeit. 1.2.4 Stabdiagramme Durch die Häufigkeiten P(X = x) wird die Verteilung der Variablen X beschrieben. Viele Methoden der deskriptiven Statistik haben das Ziel, anschauliche und informative Bilder solcher Verteilungen zu liefern. Wenn es nicht zu viele unterschiedliche Merkmalswerte gibt, kann man Stabdiagramme verwenden, bei denen die X-Achse die möglichen Merkmalswerte und die Y-Achse die zugehörigen 1 <?page no="17"?> 18 1 Einführung 0.0 0.1 0.2 0.3 ˜ x Pr[X](˜ x) 1 2 4 7 16 Abbildung 1.1: Relative Häufigkeiten des Zahlenbeispiels. Häufigkeiten angibt. Abbildung 1.1 zeigt das Stabdiagramm für die 8 Beispielswerte. R-1-1 1.2.5 Klassierung Wenn es sehr viele unterschiedliche Merkmalswerte gibt, ist es oft hilfreich, Merkmalsklassen zu verwenden. Wenn z. B. eine Variable die monatlichen Einkommen von Haushalten erfasst, könnten Einkommensklassen gebildet werden, und die klassierte Variable erfasst dann nur, in welcher Einkommensklasse sich ein Haushalt befindet. In dem oben angeführten Zahlenbeispiel könnten vier Klassen gebildet werden: ˜ x ∗ 1 = { 1 , 2 } , ˜ x ∗ 2 = { 3 , 4 } , ˜ x ∗ 3 = { 5 , 6 } , ˜ x ∗ 4 = { 7 , 8 } . Die klassierte Variable X ∗ nimmt dann einen dieser vier Werte an, und es gilt: P(X ∗ = ˜ x ∗ j ) = P(X ∈ ˜ x ∗ j ); zum Beispiel P(X ∗ = ˜ x ∗ 1 ) = 3/ 8. 1.3 Ein Beispiel mit Einkommensdaten In diesem Abschnitt erläutern wir einen Beispielsdatensatz, der dann in den meisten folgenden Kapiteln zur Illustration von Konzepten und Methoden verwendet wird. <?page no="18"?> 1.3 Ein Beispiel mit Einkommensdaten 19 1.3.1 Datenquelle: Panel Study of Income Dynamics (PSID) Als Beispieldatensatz verwenden wir Daten der amerikanischen Panel Study of Income Dynamics (PSID) des Jahres 2007. Das PSID ist ein Haushaltspanel, d.h. Haushalte werden zufällig ausgewählt und dann wiederholt in einbzw. zweijährigem Abstand befragt. Während eine Querschnittsbefragung nur einmalig zu einem Zeitpunkt (oder in einem abgegrenzten Zeitraum) erfolgt, bietet die wiederholte Befragung von Haushalten die Möglichkeit, die Entwicklung interessierender Merkmale (etwa der Erwerbsstatus, das Einkommen, die Mietausgaben, usw.) im Zeitablauf zu beobachten. Die erste Befragungswelle des PSID stammt aus dem Jahr 1968. Bis 1997 wurde jährlich eine neue Welle erhoben, seither erfolgt die Befragung nur 2-jährlich, um die hohen Kosten der Panelerhebung zu reduzieren. Während in 1986 ungefähr 4,800 Haushalte befragt wurden, ist die Zahl der befragten Haushalte auf rund 10,000 (und rund 24,000 Personen) in 2013 angewachsen. Ursächlich für das Anwachsen ist die Weiterverfolgung der Personen eines Haushalts bei einer Aufteilung (z. B. dem Auszug eines Kindes oder der Trennung eines Paares) des Haushalts und die dann zusätzliche Befragung eventuell weiterer Personen in beiden Haushalten (z. B. neue Partner). 1.3.2 Die Variablen im Datensatz Der Datensatz enthält für n = 1,000 Personen die folgenden Variablen (in Klammern die Bedeutung): geschl (Mann (0), Frau (1)), alter (Lebensalter), bildung (Zahl der notwendigen Ausbildungsjahre bis zum erreichten Bildungsniveau), stunden (Zahl der Arbeitsstunden im Jahr), lohn (Jahreslohn in US-Dollar), stlohn (Stundenlohn in US-Dollar), sektor (Sektor, in dem die Person arbeitet). Die Sektoren sind mit 1 bis 8 nummeriert und haben folgende Bedeutung (in Klammern die im Folgenden verwendeten Abkürzungen): 1 keine Angabe (k.A.), 2 Landwirtschaft, Energie, Bergbau (LEB), 3 Verarbeitendes Gewerbe (VG), 4 Baugewerbe (Bau), 5 Handel (Handel), 6 Transportgewerbe (Transp.), 7 Banken und Versicherungen (BuV), 8 Dienstleistungen (Dienste). Tabelle 1.1 zeigt einen Ausschnitt des Datensatzes. Die erste Spalte ( nr ) enthält eine durchgängige Nummerierung aller n = 1 <?page no="19"?> 20 1 Einführung Tabelle 1.1: Ein Ausschnitt des Datensatzes. nr geschl alter bildung stunden lohn stlohn sektor 1 0 31 12 96 350 3.65 1 2 1 48 12 96 500 5.21 1 3 1 40 12 200 600 3 1 ... ... ... ... ... ... ... ... 998 0 46 16 3430 570000 166.18 3 999 0 58 17 2736 590000 215.64 8 1000 0 55 17 3600 1050000 291.67 8 1,000 Personen. Für die ersten und letzten drei Personen sind in diesem Ausschnitt jeweils in einer Zeile die Ausprägungen der aufgeführten Merkmale angegeben. R-1-2 <?page no="20"?> 1.4 Aufgaben 21 1.4 Aufgaben 1. Mit dieser Aufgabe soll der Umgang mit Summen und Produkten, die in der Statistik sehr häufig verwendet werden, in Erinnerung gerufen werden. Gegeben sind: i 1 2 3 4 x i 6 4 1 3 y i 1 3 4 2 Berechnen Sie: a) 4 ∑ i =1 x i b) 4 ∑ i =1 x i y i c) 4 ∏ i =1 x i d) 4 ∏ i =1 x i y i e) 4 ∏ i =1 x 2 i y 0 . 5 i 2. Berechnen Sie möglichst einfach (Hinweise zu Summen finden Sie in der Formelsammlung S. 211): a) 20 ∑ i =1 (6 − 4i) + 20 ∑ i =1 (2i + 2) + 20 ∑ i =1 ( − 4 − 4i) b) 30 ∑ i =1 ( i 2 + 2i − 3 ) + 30 ∑ i =1 ( 3i 2 + 5i + 8 ) + 30 ∑ i =1 ( 4i 2 + 6i − 10 ) c) 40 ∑ i =1 (1 + i) 2 + 40 ∑ i =1 (1 − i) 2 3. Gegeben ist folgende Matrix B = ( b ij ); i = 1 , . . . , I ist der Zeilenindex und j = 1, . . . , J der Spaltenindex: B = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ 1 4 4 7 8 4 2 3 6 6 2 3 6 9 7 6 7 2 5 7 8 8 9 6 4 6 2 3 4 5 3 5 2 3 7 7 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ 1 <?page no="21"?> 22 1 Einführung Berechnen Sie: a) 2 ∑ i =1 3 ∑ j =1 b ij b) 2 ∑ i =2 J ∑ j =1 b ij c) J ∑ j =1 b 2 j d) I ∑ i =1 2 ∑ j =1 b ij e) 4 ∑ i =3 6 ∑ j =5 b ij 4. Informieren Sie sich im Internet über das PSID und versuchen Sie, folgende Fragen zu beantworten: a) Was ist eine Panelerhebung? b) Welchen Vorteil bietet eine Panelerhebung im Vergleich zu unabhängigen Querschnittserhebungen? c) Wie werden die befragten Haushalte ausgewählt? d) Hat jeder Haushalt in den USA die gleiche Chance ausgewählt zu werden? e) Wann wurde das Panel gestartet und was ist die letzte verfügbare Welle? f) Welche Informationen liefert das PSID? 5. Geben Sie bei den nachfolgenden Variablen an, welches Skalenniveau sie besitzen: Geschlecht, Beruf, Warengruppe, Immobilienbesitz, Bonität, Einkommen, Vermögen. 6. Ermitteln Sie für die folgenden Werte einer Variablen X 1, 4, 5, 4, 5, 4, 5, 4, 6, 1, 2, 1, 1, 2, 1 die vorkommenden Merkmalsausprägungen ( ˜ x j ) und deren absolute (n j ) und relative (f j ) Häufigkeiten. <?page no="22"?> 1.4 Aufgaben 23 7. Die folgende Tabelle enthält die Häufigkeiten der PSID-Jahreslöhne (in 1000 US-Dollar) von Frauen für 6 Lohnklassen unterschiedlicher Klassenbreite. Klasse von bis unter abs. Häuf. ˜ x ∗ 1 0 20 169 ˜ x ∗ 2 20 40 212 ˜ x ∗ 3 40 70 103 ˜ x ∗ 4 70 100 24 ˜ x ∗ 5 100 150 5 ˜ x ∗ 6 150 300 3 Ermitteln Sie für die Lohnklassen die Häufigkeiten P(X = ˜ x ∗ j ). 1 <?page no="23"?> 24 1 Einführung 1.5 R-Code R-1-1 # Vektor a mit Merkmalswerten erstellen x <c(1,2,2,4,4,4,7,16) # Anzahl an Merkmalswerten n <length(x) # absolute Häufigkeiten table(x) # relative Häufigkeiten f.x <table(x) / n f.x # Stabdiagramm der relativen Häufigkeiten plot(f.x) R-1-2 # Daten einlesen d <read.csv2(file = "usa_2007.csv") # Übersicht: Erste und letzte 6 Beobachtungen anzeigen head(d) tail(d) # Anzahl an Beobachtungen n <nrow(d) n <?page no="24"?> 2 Darstellung von Häufigkeitsverteilungen Eine wichtige Aufgabe der deskriptiven Statistik besteht darin, anschauliche und informative Beschreibungen von Häufigkeitsverteilungen zu liefern. In diesem Kapitel besprechen wir Histogramme und Methoden zur Berechnung von Dichtefunktionen. 2.1 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . 26 2.1.1 Beschreibung der Methode . . . . . . . . . . . . . 26 2.1.2 Bestimmung der Klassen . . . . . . . . . . . . . . 27 2.2 Kerndichteschätzung . . . . . . . . . . . . . . . . . . . . 29 2.2.1 Die grundlegende Idee der Kerndichteschätzung . . . 30 2.2.2 Kernfunktionen . . . . . . . . . . . . . . . . . . . 30 2.2.3 Berechnung für Stützstellen . . . . . . . . . . . . . 33 2.2.4 Verfahren der Bandweitenwahl . . . . . . . . . . . 34 2.2.5 Auswirkung von Bandweiten- und Kernfunktionswahl 34 2.2.6 Bestimmung des Modus . . . . . . . . . . . . . . . 35 2.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 1 2 <?page no="25"?> 26 2 Darstellung von Häufigkeitsverteilungen Tabelle 2.1: Histogramm mit Beispieldaten Klasse von bis b j f j h j ˜ x 1 0 3 3 0.05 0.0167 ˜ x 2 3 7 4 0.25 0.0625 ˜ x 3 7 13 6 0.55 0.0917 ˜ x 4 13 20 7 0.15 0.0214 2.1 Histogramme 2.1.1 Beschreibung der Methode Sei X eine Variable mit den Werten x 1 , . . . , x n für n Einheiten. Um die Häufigkeitsverteilung von X durch ein Histogramm graphisch darzustellen, geht man folgendermaßen vor. Man bestimmt zunächst den kleinsten Merkmalswert x min und den größten Merkmalswert x max , so dass alle vorkommenden Merkmalswerte im Intervall [ x min , x max ] liegen. Dann werden Zahlen a 0 < a 1 < · · · < a m bestimmt, wobei a 0 ≤ x min und a m > x max ist, wodurch m Klassen (Intervalle) entstehen: ˜ x ∗ j = [ a j − a j− 1 [. Diese Klassen bilden die X-Achse des Historgramms. Für die Breite b j eines Intervalls gilt b j = a j − a j− 1 . Für jede Klasse wird dann ein Rechteck gebildet, so dass die Fläche des Rechtecks der Häufigkeit entspricht, mit der X einen Wert in der Klasse annimmt. Die Höhe h j für die Klasse ˜ x ∗ j , die auch als Dichte bezeichnet wird, wird also so bestimmt, dass gilt h j (a j − a j− 1 ) = P(X ∈ ˜ x ∗ j ). Wir betrachten als Zahlenbeispiel die Werte 1, 3, 5, 5, 5, 6, 8, 8, 8, 8, 8, 10, 10, 10, 11, 12, 12, 14, 17, 19. Wir wählen a 0 = 0, a 1 = 3, a 2 = 7, a 3 = 13, a 4 = 20, wodurch m = 4 Klassen (Intervalle) entstehen. Die resultierenden Klassenbreiten, Häufigkeiten und Dichten sind in Tabelle 2.1 und das resultierende Histogramm ist in Abbildung 2.1 dargestellt. R-2-1 <?page no="26"?> 2.1 Histogramme 27 x Dichte 0 5 10 15 20 0.00 0.02 0.04 0.06 0.08 0.10 Abbildung 2.1: Histogramm für 20 Beispielwerte. 2.1.2 Bestimmung der Klassen Das Erscheinungsbild eines Histogramms hängt davon ab, wie die Klassen gewählt werden. Oft wird für alle Klassen die gleiche Breite a j − a j− 1 verwendet; dann ist nur noch die Anzahl der Klassen (m) zu wählen. Werden zu wenige Klassen gewählt, werden Verdichtungsstellen in den Daten verschmiert. Fasst man z. B. zwei Klassen, eine mit hoher und eine mit geringer Dichte zu einer Klasse zusammen, dann erhält diese eine mittlere Dichte und der Unterschied in den Dichten der beiden Klassen ist nicht mehr zu erkennen. Werden zu viele Klassen gewählt, wird die Verteilung zu rau und sehr hohe Dichten (Spitzen) können sich zufällig ergeben. Prinzipiell gibt es zwei Möglichkeiten, die Anzahl der Klassen zu wählen. Entweder man probiert verschiedene Klassenzahlen und entscheidet nach Augenschein, oder man versucht mittels formaler Kriterien eine optimale Anzahl zu berechnen. Zur Illustration betrachten wir die Lohnangaben in unserem PSID-File, das in der Einleitung erläutert wurde. Dabei beschränken wir uns auf die n = 986 Merkmalswerte der Lohnvariable, die 2 <?page no="27"?> 28 2 Darstellung von Häufigkeitsverteilungen Tabelle 2.2: Klassierte Lohndaten in 1 , 000 US-Dollar Klasse von bis f j h j Klasse von bis f j h j ˜ x 1 0 25 0.340 0.014 ˜ x 6 125 150 0.015 0.001 ˜ x 2 25 50 0.413 0.017 ˜ x 7 150 175 0.009 0.000 ˜ x 3 50 75 0.147 0.006 ˜ x 8 175 200 0.004 0.000 ˜ x 4 75 100 0.046 0.002 ˜ x 9 200 225 0.004 0.000 ˜ x 5 100 125 0.021 0.001 ˜ x 10 225 250 0.001 0.000 Tabelle 2.3: Klassierte Lohndaten in 1 , 000 US-Dollar Klasse von bis f j h j Klasse von bis f j h j ˜ x 1 0 15 0.173 0.012 ˜ x 6 75 100 0.046 0.002 ˜ x 2 15 30 0.273 0.018 ˜ x 7 100 125 0.021 0.001 ˜ x 3 30 45 0.252 0.017 ˜ x 8 125 150 0.015 0.001 ˜ x 4 45 60 0.129 0.009 ˜ x 9 150 200 0.013 0.000 ˜ x 5 60 75 0.073 0.005 ˜ x 10 200 250 0.005 0.000 kleiner als 250,000 US-Dollar sind, da sich so die Charakteristika der Verteilung der Löhne unter 250,000 US-Dollar besser erkennen lassen. Wählen wir m = 10 Klassen der Breite von 25,000 US-Dollar, resultiert die Häufigkeitstabelle 2.2. Dabei ist f j = P(X ∈ ˜ x j ) und h j = f j / 25. R-2-2 Für die graphische Darstellung in Abbildung 2.2a werden die Höhen h j verwendet, die gesamte Histogrammfläche ist dann ∑ j h j 25 = ∑ j f j = 1. R-2-3 Alternativ haben wir ein zweites Histogramm mit m = 25 Klassen gezeichnet (Abbildung 2.2b). Man sieht, dass bei diesem die Stelle der höchsten Verdichtung besser zu bestimmen ist, jedoch bei den oberen 14 Klassen die Dichten zu- und abnehmen und die Verteilung etwas rau dargestellt wird. Für eine dritte Variante des Histogramms (Abbildung 2.2c) bilden wir erneut m = 10 Klassen, wählen jedoch unterschiedliche Klassenbreiten. Wir wählen nun für die Löhne unter 75,000 , eine Klassenbreite von 15,000 , für die Löhne zwischen 75,000 und 150,000 eine Klassenbreite von 25,000 und abschließend zwei Klassen der Breite von 50,000 . Es resultiert die Häufigkeitstabelle 2.3. Die Höhen h j der Säulen in der graphischen Darstellung ergeben sich wiederum dadurch, dass die Häufigkeit f j durch die Breite der j.ten Klasse dividiert wird. <?page no="28"?> 2.2 Kerndichteschätzung 29 Lohn Dichte 0 50 100 200 0.000 0.005 0.010 0.015 0.020 (a) 10 Klassen Lohn Dichte 0 50 100 200 0.000 0.005 0.010 0.015 0.020 (b) 25 Klassen Lohn Dichte 0 50 100 200 0.000 0.005 0.010 0.015 0.020 (c) 10 Klassen (variable Klassenbreite) Abbildung 2.2: Auswirkungen unterschiedlicher Klassenbildung. Jahreslöhne unter 250 Tsd. USD (in Tsd. USD). 2.2 Kerndichteschätzung Eine exakte Dichtefunktion für eine Variable X ist eine (stückweise) stetige Funktion f(x), die für beliebige Intervalle [ a, b ] die Bedingung P(X ∈ [a, b]) = ∫ b a f(x) dx erfüllt. Für empirische Verteilungen begnügt man sich meistens mit Dichtefunktionen, die eine Approximation liefern, also P(X ∈ [a, b]) ≈ ∫ b a ˆ f(x) dx. Die Notation ˆ f(x) soll anzeigen, dass es sich um eine approximative Dichtefunktion handelt. Auch Histogramme sind approximative Dichtefunktionen. In diesem Abschnitt besprechen wir Methoden der Kerndichteschätzung, mit denen stetige und mehr oder weniger glatte approximative Dichtefunktionen konstruiert werden können. 2 <?page no="29"?> 30 2 Darstellung von Häufigkeitsverteilungen 2.2.1 Die grundlegende Idee der Kerndichteschätzung Methoden der Kerndichteschätzung verwenden zur Konstruktion von ˆ f ( x ) alle Werte von X , die in einer symmetrischen Umgebung von x liegen. Die Idee lässt sich so veranschaulichen: Auf jeden Wert x i wird eine Kernfunktion (z. B. ein Rechteck oder ein Dreieck) mit der Fläche 1 / n gestellt, und die Flächen werden abschließend vertikal aufsummiert. Abbildung 2.3 veranschaulicht das Vorgehen. Für n = 5 Einheiten liegen die x i -Werte 2, 3, 3.3, 4.5 und 7 vor. Wir wählen Dreiecke mit einer Grundbreite von 4. D.h. die Breite des Fensters, in welchem die darin liegenden Beobachtungen berücksichtigt werden, beträgt b = 4. Die Bandweite w ist die halbe Fensterbreite, also w = 2. Die Fläche der n Dreiecke insgesamt ist auf 1 normiert. Um jeweils eine Fläche von 1 / n = 1 / 5 = 0.2 zu haben, müssen die n = 5 Dreiecke eine Höhe von 0.1 haben, da 0.5 · 4 · 0.1 = 0.2 (die Fläche ergibt sich als halbe Grundseite mal Höhe). Betrachten wir als Beispiel ein Dreieck auf dem Wert x 2 = 3, dessen Grundfläche von 1 bis 5 reicht, dann hat dieses Dreieck an der Stelle x = 4 eine Höhe von 0.05. Dies ist der Beitrag des Datenpunktes x 2 = 3 zur Dichte an dieser Stelle x = 4. R-2-4 2.2.2 Kernfunktionen Die Dichte an der Stelle x , also ˆ f ( x ), lässt sich auch als eine Funktion der Abstände zwischen x und den x i -Werten ausdrücken. Dafür definiert man zunächst eine so genannte Kernfunktion K(u). Für einen Dreieck-Kern lautet diese Definition K(u i ) = { 1 − | u i | falls | u i | ≤ 1 0 sonst, wobei u i = x − x i w . Der Wert u i gibt also den Abstand von x i zu x in Einheiten der Bandweite w an. Wenn x i = x ist, liefert die Funktion den maximalen Wert 1. Mit zunehmendem Abstand zwischen x i und x nimmt der Funktionswert linear ab. Liegt x i z. B. eine halbe Bandweite von x entfernt, liefert die Funktion den Wert 0.5. Die <?page no="30"?> 2.2 Kerndichteschätzung 31 0 2 4 6 8 10 0.00 0.05 0.10 0.15 0.20 0.25 0.30 x Dichte Abbildung 2.3: Idee des Kerndichteschätzers. Über jede Beobachtung des Zahlenbeispiels ist ein Dreieck-Kern gelegt. Der resultierende Kerndichteschätzer ist als graue Linie eingezeichnet. Bandweite w gibt den maximalen Abstand der berücksichtigten Werte von x an. Das Integral der Kernfunktion hat den Wert 1. Der Kerndichteschätzer kann also folgendermaßen definiert werden ˆ f(x) = 1 nw n ∑ i =1 K(u i ) = 1 nw n ∑ i =1 K ( x − x i w ) . Eine unterschiedliche Wahl von Kernfunktionen K ( u ) führt zu unterschiedlichen Kerndichteschätzern (siehe Tabelle 2.4 und Abbildung 2.4). Nur bei Rechteck-Kernen (gleitenden Histogrammen) gehen die benachbarten x i -Werte gleich gewichtet in die Bestimmung der Dichte ein. Bei anderen üblicherweise verwendeten Kernfunktionen, etwa dem dargestellten Dreieck-Kern, nimmt das Gewicht mit dem Abstand zu x ab. Betrachten wir als Beispiel erneut den Datenpunkt x 2 = 3 und die Stelle x = 4. Als Kernfunktion wählen wir erneut den Dreieck- Kern. Wir erhalten u 2 = ( x − x 2 ) / w = (4 − 3) / 2 = 0 . 5. Der Wert der Kernfunktion ist dann K ( u 2 ) = 1 − | u 2 | = 1 − 0.5 = 0.5 . 2 <?page no="31"?> 32 2 Darstellung von Häufigkeitsverteilungen Tabelle 2.4: Definition alternativer Kernfunktionen Kernfunktion Definition Rechteck-Kern K ( u ) = { 0 . 5 falls |u| ≤ 1 , 0 sonst Dreieck-Kern K ( u ) = { 1 − |u| falls |u| ≤ 1 , 0 sonst Normal-Kern K ( u ) = 1 √ 2 π e − 0 . 5 u 2 Epanechnikov-Kern K ( u ) = { 3 4 (1 − u 2 ) falls |u| ≤ 1 , 0 sonst -2 -1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 x Dichte Dreieck Epanechnikov Rechteck Normal Abbildung 2.4: Verschiedene Kernfunktionen. Die Normierung, d.h. die Division durch nw , führt dann zu dem Beitrag von x 2 zur Dichte an der Stelle x = 4 von K ( u 2 ) / ( nw ) = 0.5/ (5 · 2) = 0.05 . Die Kerndichte f ( x = 4) ergibt sich aus der Summation der Beiträge aller n = 5 x -Werte, von denen wir hier nur einen, den von x 2 = 3, zur Veranschaulichung ermittelt haben. <?page no="32"?> 2.2 Kerndichteschätzung 33 0 2 4 6 8 10 0.00 0.05 0.10 0.15 0.20 0.25 0.30 x Dichte x 0 = Abbildung 2.5: Darstellung von Stützstellen. Für die Stützstelle x 0 = 6 wird im Text vorgeführt wie man die Höhe der Dichte für den Kerndichteschätzer berechnet. 2.2.3 Berechnung für Stützstellen Eine Dichtefunktion ˆ f ( x ) ist für beliebige reelle Zahlenwerte definiert. Praktisch wird sie nur für eine endliche Anzahl beliebig gewählter Stützstellen berechnet. Dafür wird die oben angegebene Formel verwendet. Zur Illustration verwenden wir erneut das in Abbildung 2.3 angegebene Beispiel. In diesem Beispiel hat die Dichtefunktion die Gestalt ˆ f(x) = 1 5 · 2 5 ∑ i =1 K ( x − x i 2 ) = 1 10 5 ∑ i =1 ( 1 − ∣ ∣ ∣ x − x i 2 ∣ ∣ ∣ ) . Z. B. für x = 6 findet man ˆ f(6) = 1 10 [( 1 − ∣ ∣ ∣ 6 − 4.5 2 ∣ ∣ ∣ ) + ( 1 − ∣ ∣ ∣ 6 − 7 2 ∣ ∣ ∣ )] = 1 10 [( 1 − 1.5 2 ) + ( 1 − 1 2 )] = 0.075. 2 <?page no="33"?> 34 2 Darstellung von Häufigkeitsverteilungen 2.2.4 Verfahren der Bandweitenwahl Das Ergebnis ist weniger von der Wahl der Kernfunktion als von der gewählten Bandweite abhängig. Die Bandweiten können naiv gebildet werden, also durch einfache Variation und intuitive Beurteilung des Ergebnisses. Gesucht ist ein Kompromiss, so dass einerseits ein möglichst glatter Verlauf erreicht wird und andererseits noch alle wichtigen Charakteristika der Verteilung sichtbar sind. Es gibt auch Ansätze zur Bestimmung einer optimalen Bandweite, die sich als Funktion bestimmter Stichprobenmaßzahlen ergibt. Dafür muß allerdings eine maßgebliche Dichtefunktion vorausgesetzt (angenommen) werden, die man nicht kennt. Oft wird eine Normalverteilung angenommen. Wir begnügen uns damit, zwei gebräuchliche Regeln anzugeben. Eine Regel von Silverman schlägt die Bandweite w = 0.9 · min ( σ, (˜ x 0 . 75 − ˜ x 0 . 25 ) · 1.34 − 1 ) n − 1 / 5 vor, wobei σ und ˜ x 0 . 75 − ˜ x 0 . 25 aus den Daten ermittelt werden. 1 Bei einer sehr ähnlichen Regel von Scott wird anstelle des Faktors 0.9 der Faktor 1.06 verwendet, so dass man eine etwas glattere Dichtefunktion erhält. 2.2.5 Auswirkung von Bandweiten- und Kernfunktionswahl Die Auswirkungen der Wahl des Kerns lassen sich in einer Graphik veranschaulichen (Abbildung 2.6). Als Daten verwenden wir wieder die PSID-Lohndaten bis 250,000 US-Dollar. Die Bandweite wählen wir entsprechend der Regel von Silverman (s.o.). Für einen Vergleich der Auswirkungen verschiedener Bandweiten wählen wir einen Dreieck-Kern (vgl. Abbildung 2.7). 2 Es ist 1 Die Symbole σ, ˜ x 0.25 und ˜ x 0.75 bezeichnen die Standardabweichung, das 25 %- und das 75 %-Quantil. Vergleiche hierzu Kapitel 3. 2 In R können mit der Funktion density() Kerndichten berechnet werden. Beim Aufruf der Funktion kann mit dem Argument bw die Bandweite festgelegt werden. Zu beachten ist, dass diese Bandweite die Fensterbreite in Einheiten der Standardabweichung σ der Kernfunktion ( σ = √ 1 / 24 im Falle des Dreieck-Kerns) angibt. D.h. in unserer Notation mit b für Fensterbreite und w für die Bandweite ergibt sich die R-Bandweite bw als bw = bσ = 2 wσ . <?page no="34"?> 2.2 Kerndichteschätzung 35 Jahreslöhne (in Tsd. USD) 0 50 100 150 200 250 Dichte ˜ x M = 27.39 (a) Rechteck-Kern Jahreslöhne (in Tsd. USD) 0 50 100 150 200 250 Dichte ˜ x M = 28.69 (b) Dreieck-Kern Jahreslöhne (in Tsd. USD) 0 50 100 150 200 250 Dichte ˜ x M = 27.65 (c) Epanechnikov-Kern Jahreslöhne (in Tsd. USD) 0 50 100 150 200 250 Dichte ˜ x M = 28.43 (d) Normal-Kern Abbildung 2.6: Auswirkungen der Wahl des Kernes. Jahreslöhne unter 250 Tsd. USD (in Tsd. USD). Bandweite nach der Regel von Silverman. ersichtlich, dass die Wahl der Bandweite im Vergleich zur Wahl der Kernfunktion die geschätzten Kerndichten weit stärker beeinflusst. 2.2.6 Bestimmung des Modus Der Modus ˜ x M einer Dichtefunktion ˆ f(x), auch dichtester Wert genannt, ist derjenige x -Wert, bei dem die Dichtefunktion den höchsten Wert hat. Da die berechnete Dichte sowohl von der gewählten Kernfunktion als auch von der gewählten Bandweite abhängt, ist auch die numerische Bestimmung des Modus davon abhängig. Als Beispiel verwenden wir eine Kerndichteschätzung mit Normalkern und automatisch gewählter Bandweite nach der Regel von Silverman (vgl. die Darstellung in Abbildung 2.6). In 2 <?page no="35"?> 36 2 Darstellung von Häufigkeitsverteilungen Jahreslöhne (in Tsd. USD) 0 50 100 150 200 Dichte ˜ x M = 29.9 (a) bw = 2500 USD Jahreslöhne (in Tsd. USD) 0 50 100 150 200 250 Dichte ˜ x M = 29.9 (b) bw = 7500 USD Jahreslöhne (in Tsd. USD) 0 50 100 150 200 250 Dichte ˜ x M = 28.54 (c) bw = 10000 USD Jahreslöhne (in Tsd. USD) 0 50 100 150 200 250 Dichte ˜ x M = 28.04 (d) bw = 15000 USD Abbildung 2.7: Auswirkungen der Wahl der Bandweite. Jahreslöhne unter 250 Tsd. USD (in Tsd. USD). Jeweils mit Nomalkern. diesem Fall resultiert ˜ x M = 28.43. In den Abbildungen 2.6 und 2.7 sind jeweils die aus der Wahl von Kernfunktion und Bandweite resultierenden Modalwerte eingetragen. R-2-5 <?page no="36"?> 2.3 Aufgaben 37 2.3 Aufgaben 1. Betrachten Sie die beiden folgenden Darstellungen der PSID- Lohnverteilung mit Hilfe eines Histogramms und mit Hilfe einer Kerndichteschätzung. Zur Verbesserung der Übersichtlichkeit werden nur Löhne bis 250.000 US-Dollar betrachtet. Welches sind die Vor- und Nachteile der beiden Darstellungsweisen? Jahreslöhne (in Tsd. USD) Dichte 0 50 100 150 200 250 0.000 0.005 0.010 0.015 0.020 Vergleich von Histogramm und Kerndichteschätzung. 2. Gehen Sie von folgenden Werten aus: 1, 5, 6, 6, 8, und berechnen Sie für die Stützstelle x = 4.5 die Kerndichte bei einer Bandweite von w = 3 und einem Rechteck-Kern. 3. Berechnen Sie für die Stützstelle x = 4 . 5 und die Bandweite w = 3 die Kerndichte auch mit (a) einem Dreieck-Kern und (b) einem Normalkern. 4. Berechnen Sie mit einem Dreieck-Kern für die Stützstelle x = 4.5 die Kerndichte mit den Bandweiten (a) w = 2.5 und (b) w = 3.5. 2 <?page no="37"?> 38 2 Darstellung von Häufigkeitsverteilungen 2.4 R-Code R-2-1 # Histogramm - Zahlenbeispiel x <c(1,3,5,5,5,6,8,8,8,8,8,10,10,10,11,12,12,14,17,19) n <length(x) # Klassengrenzen breaks1 <c(0,3,7,13,20) # Anzahl an Grenzen b <length(breaks1) # Beobachtungen in Klassen einteilen lc <cut(x = x, breaks = breaks1, right = FALSE) # Klassenuntergrenzen cu <breaks1[-b] # Klassenobergrenzen co <breaks1[-1] # Dichten bj <co-cu fj <table(lc) / n hj <fj / bj # Histogramm (4 Klassen) hist(x = x, breaks = breaks1, prob = TRUE, right = FALSE, xlim = c(0,20), ylim = c(0,0.1), xlab = "x", ylab = "Dichte") R-2-2 ## Daten einlesen d <read.csv2(file = "usa_2007.csv") # Löhne in Vektor e speichern e <d$lohn ## Nur Löhne < 250000 US-Dollar w <e[e < 250000] # Anzahl an Löhnen < 250000 US-Dollar n <length(w) n # Klassengrenzen breaks1 <seq(from = 0, to = 250, by = 25) # Anzahl an Grenzen b <length(breaks1) # Beobachtungen (Löhne) in Klassen einteilen lc <cut(x = d$lohn/ 1000, breaks = breaks1, right = FALSE) # Klassenuntergrenzen cu <breaks1[-b] # Klassenobergrenzen co <breaks1[-1] # relative Klassenhäufigkeiten fj <table(lc) / n fj # Dichten <?page no="38"?> 2.4 R-Code 39 bj <co cu hj <fj / bj hj # zu 1 normierte Dichte sum(hj*25) R-2-3 # Histogramm (10 Klassen gleicher Breite) hist(x = w/ 1000, breaks = breaks1, prob = TRUE, right = FALSE, xlim = c(0,250), ylim = c(0,0.02), xlab = "Jahreslohn in 1000 USD", ylab = "Dichte") R-2-4 (Siehe hier auch die Fußnote auf Seite 34) # Vektor mit Beispielwerten erstellen x <c(2,3,3.3,4.5,7) ## Kerndichte mit Dreieck-Kern darstellen # Fensterbreite b <- 4 # Bandweite = b/ 2 bw <- 2 # Stad.abw. des Dreieck-Kerns s <sqrt(1/ 24) # Darstellung plot(density(x = x, kernel = "triangular", bw = 2*bw*s)) # Alternativ mit automatischer Wahl der Bandweite plot(density(x = x, kernel = "triangular")) R-2-5 ## Objekt der Klasse 'density' # um den Modus genauer zu bestimmen wird hier die Anzahl an Punkten an # denen die Dichte geschätzt wird erhöht auf 1024 dn <density(x = w, kernel = "gaussian", n = 2*512) # Modus xM <dn$x[dn$y == max(dn$y)] xM 2 <?page no="40"?> 3 Charakterisierungen von Häufigkeitsverteilungen In diesem Kapitel besprechen wir Methoden und unterschiedliche Maßzahlen, mit denen die Häufigkeitsverteilung einer Variablen beschrieben werden kann. 3.1 Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . 42 3.2 Quantilsfunktion . . . . . . . . . . . . . . . . . . . . . . 43 3.3 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.3.1 Lagemaße . . . . . . . . . . . . . . . . . . . . . . 46 3.3.2 Streuungsmaße . . . . . . . . . . . . . . . . . . . 49 3.3.3 Schiefe- und Wölbungsmaße . . . . . . . . . . . . . 51 3.4 Approximationen mit klassierten Daten . . . . . . . . . . . 54 3.4.1 Approximation des Modus . . . . . . . . . . . . . . 55 3.4.2 Approximation des Zentralwerts . . . . . . . . . . . 55 3.4.3 Approximation des arithmetischen Mittels . . . . . 57 3.4.4 Approximation der Standardabweichung . . . . . . 57 3.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3 <?page no="41"?> 42 3 Charakterisierungen von Häufigkeitsverteilungen 3.1 Verteilungsfunktion Wir beziehen uns auf eine Variable X mit Werten x 1 , . . . , x n für n Einheiten. Die Verteilung von X wird zunächst durch die Häufigkeitsfunktion P(X = x) beschrieben, wobei x irgendein möglicher Wert von X ist (vgl. Abschnitt 1.2.3). Nun fragen wir, welcher Anteil an den Einheiten einen Merkmalswert aufweist, der nicht größer ist als irgend ein vorgegebener x-Wert. Die Frage wird durch die Funktion F (x) = P(X ≤ x) beantwortet, die als Verteilungsfunktion von X bezeichnet wird. Als einfaches Zahlenbeispiel nehmen wir an, dass es n = 8 Einheiten mit den Werten x 1 = 1, x 2 = 2, x 3 = 2, x 4 = 4, x 5 = 4, x 6 = 4, x 7 = 7, x 8 = 16 gibt. Man findet: x P(X = x) F (x) 1 1/ 8 1/ 8 2 2/ 8 3/ 8 4 3/ 8 6/ 8 7 1/ 8 7/ 8 16 1/ 8 8/ 8 Die Häufigkeits- und die Verteilungsfunktion werden in der Graphik 3.1 dargestellt. Man beachte, dass die Verteilungsfunktion nicht nur für die jeweils vorkommenden x-Werte, sondern für alle reellen Zahlen definiert ist. Es handelt sich um eine Treppenfunktion mit Sprungstellen an den vorkommenden Merkmalsausprägungen. Die Höhen der Sprungstellen entsprechen dabei gerade den jeweiligen Häufigkeiten. Offenbar hat die Verteilungsfunktion bei allen x-Werten, die kleiner als der kleinste x i -Wert sind, den Wert 0; und sie hat den Wert 1 bei allen x-Werten, die größer oder gleich dem größten x i -Wert sind. R-3-1 Für eine weitere Illustration verwenden wir die Lohnangaben im PSID-File, wobei wir uns auf n = 986 Personen beschränken, deren Lohn kleiner als 250,000 US-Dollar ist. Zur approximativen <?page no="42"?> 3.2 Quantilsfunktion 43 0.0 0.1 0.2 0.3 ˜ x Pr[X](˜ x) 1 4 7 16 (a) Relative Häufigkeiten 0 5 10 15 0.0 0.4 0.8 ˜ x Pr[X](˜ x) (b) Verteilungsfunktion Abbildung 3.1: Relative Häufigkeiten und Verteilungsfunktion für das Zahlenbeispiel. Beschreibung der Lohnverteilung verwenden wir eine Dichtefunktion ˆ f ( x ), die mit der Methode der Kerndichteschätzung (hier mit einem Normalkern und einer automatisch gewählten Bandweite nach der Regel von Silverman) ermittelt wird. Die Graphik 3.2 zeigt auf der linken Seite diese Dichtefunktion. Auf der rechten Seite wird die daraus abgeleitete approximative Verteilungsfunktion ˆ F (x) = ∫ x −∞ ˆ f(u) du gezeigt. Die Dichtefunktion hat ihr Maximum an der Stelle 28,475 US-Dollar. In diesem Bereich weist die Verteilungsfunktion die höchste Steigung auf. Ab 75,000 US-Dollar finden sich nur noch recht geringe Dichten, entsprechend verläuft die Verteilungsfunktion rechts davon relativ flach. R-3-2 3.2 Quantilsfunktion Während wir bei der Verteilungsfunktion von einem bestimmten x- Wert ausgehen und fragen, welcher Anteil der Daten eine höchstens so große Ausprägung aufweist, wird bei der Quantilsfunktion die Blickrichtung umgedreht. Wir gehen von einem Anteilswert p aus, der zwischen 0 und 1 liegt, und fragen: welches ist der kleinste x -Wert für den die Verteilungsfunktion mindestens den 3 <?page no="43"?> 44 3 Charakterisierungen von Häufigkeitsverteilungen 0 50 100 150 200 250 0.000 0.010 0.020 Jahreseinkommen in 1000 USD ˆ f(x) (a) Dichtefunktion 0 50 100 150 200 250 0.0 0.4 0.8 Jahreseinkommen in 1000 USD ˆ F (x) (b) Verteilungsfunktion Abbildung 3.2: Dichtefunktion (links) und Verteilungsfunktion (rechts) der Jahreseinkommen (in Tsd. USD.) Wert p aufweist, so dass also der Anteil der Einheiten mit x i ≤ x mindestens p ist. Wir verwenden die Definition Q(p) = min { x | F (x) ≥ p } , die als Quantilsfunktion bezeichnet wird. Wenn die Verteilungsfunktion eine Treppenfunktion ist, führt diese Definition dazu, dass nur vorkommende Merkmalsausprägungen als Quantilswerte erscheinen können. Wir bezeichnen Quantilswerte durch ˜ x p . Eine alternative Definition geht unmittelbar von den aufsteigend sortierten x i -Werten aus: ˜ x p = { x np falls np ganzzahlig, x [ np ]+1 sonst. Die eckigen Klammern im Index ([ np ]) bedeuten, dass np auf die nächste Ganzzahl abgerundet wird. Zur Illustration verwenden wir wieder das Zahlenbeispiel aus dem vorangegangenen Abschnitt. Gesucht ist der Quantilswert für p = 0.5, der auch als Median oder Zentralwert bezeichnet wird. Mit der ersten Definition finden wir den Wert 4, denn F (2) = 3/ 8 < 0.5 und F (4) = 6/ 8 ≥ 0.5. Mit der zweiten Definition finden wir n p = 8 · 0.5 = 4, und somit hat der Median ebenfalls den Wert x 4 = 4. Wenn die Verteilungsfunktion eine Treppenfunktion ist, wie in diesem Beispiel, ist auch die Quantilsfunktion eine Treppenfunk- <?page no="44"?> 3.3 Maßzahlen 45 0.0 0.2 0.4 0.6 0.8 1.0 0 5 10 15 p Q(p) (a) Zahlenbeispiel 0.0 0.2 0.4 0.6 0.8 1.0 0 50 150 250 p Q(p) (b) Jahreseinkommen Abbildung 3.3: Quantilsfunktion Zahlenbeispiel und Quantilsfunktion der Jahreseinkommen. tion. Das wird in der linken Hälfte von Abbildung 3.3 illustriert. Anders verhält es sich, wenn die Verteilungsfunktion stetig und streng monoton steigend ist. In diesem Fall kann man die Quantilsfunktion als Umkehrfunktion der Verteilungsfunktion definieren. Zur Illustration verwenden wir die im vorangegangenen Abschnitt erläuterte Verteilungsfunktion ˆ F ( x ) für die Lohndaten im PSID- File. Die daraus gebildete Quantilsfunktion ˆ Q ( p ) = ˆ F − 1 ( p ) wird in der rechten Hälfte von Abbildung 3.3 illustriert. Natürlich könnte man auch in diesem Beispiel die zweite der obigen Definitionen verwenden. Die n = 986 Einkommenswerte im PSID-File, die kleiner als 250,000 US-Dollar sind, werden zunächst aufsteigend sortiert. Dann nimmt man den Wert an der mittleren Stelle n p = 986 · 0.5 = 493, der 32 Tsd. US-Dollar beträgt. R-3-3 3.3 Maßzahlen Maßzahlen dienen der Charakterisierung von Häufigkeitsverteilungen. Die Kenntnis einiger wichtiger Maßzahlen erlaubt es, auch ohne graphische Darstellung eine Vorstellung der Verteilung zu erlangen. Wir betrachten im Folgenden Maßzahlen des Niveaus, der Streuung, der Schiefe und der Wölbung. Denken wir an die Jahreseinkommen, dann sollen diese Maßzahlen einen Eindruck davon vermitteln, wie hoch die Einkommen sind (Niveau), wie unterschiedlich die Einkommen sind (Streuung), wie asymmetrisch die Einkommensverteilung ist (Schiefe), und ob sich bei starker 3 <?page no="45"?> 46 3 Charakterisierungen von Häufigkeitsverteilungen Konzentration der Werte im Zentrum der Verteilung nach oben und unten sehr große Abweichungen finden (Wölbung). Wie bisher beziehen wir uns auf eine Variable X mit Werten x 1 , . . . , x n für n Einheiten. 3.3.1 Lagemaße Der Zentralwert (Median) wurde bereits im vorigen Abschnitt erläutert. Die Ermittlung des dichtesten Wertes haben wir im Zusammenhang mit der Kerndichteschätzung besprochen. In diesem Abschnitt werden nur das arithmetische Mittel, das geometrische Mittel und das harmonische Mittel betrachtet, jeweils in der ungewichteten und der gewichteten Form. Arithmetisches Mittel Das arithmetische Mittel in der ungewichteten Form wird folgendermaßen definiert: ¯ x = 1 n n ∑ i =1 x i . Mit dem Zahlenbeispiel aus Abschnitt 3.1 findet man ¯ x = 1 8 (1 + 2 + 2 + 4 + 4 + 4 + 7 + 16) = 5. In der gewichteten Form verwendet man die vorkommenden Merkmalswerte ˜ x j (j = 1, . . . , J ) und ihre Häufigkeiten f j = P(X = ˜ x j ); die Definition lautet dann ¯ x = J ∑ j =1 ˜ x j f j . Mit dem Zahlenbeispiel findet man den gleichen Wert ¯ x = 1 · 1/ 8 + 2 · 2/ 8 + 4 · 3/ 8 + 7 · 1/ 8 + 16 · 1/ 8 = 5. Das arithmetische Mittel, auch Durchschnitt genannt, ist der gebräuchlichste Mittelwert. Es kann einen Wert annehmen, der in den Daten nicht vorkommt (z. B. wenn man im obigen Beispiel einen <?page no="46"?> 3.3 Maßzahlen 47 Wert x 9 = 1 hinzufügt). Zudem hängt es sehr stark von extremen Merkmalswerten (sog. Ausreißern) ab. Zum Beispiel findet man für die n = 1,000 Personen im PSID-File das Durchschnittseinkommen 44,486.67 US-Dollar. Würde eine weitere Person mit einem Einkommen von einer Milliarde US-Dollar hinzukommen, würde das Durchschnittseinkommen 1,043,443.23 US-Dollar betragen. R-3-4 Andererseits hat das arithmetische Mittel jedoch zwei Eigenschaften, die in vielen Zusammenhängen sehr nützlich sind. Zunächst die sog. Nulleigenschaft: 1 n n ∑ i =1 (x i − ¯ x) = 0. Dies bedeutet, dass die Summe der Abstände aller Werte vom arithmetischen Mittel 0 ist. Das arithmetische Mittel besitzt zudem die Minimumeigenschaft: Die Summe der quadrierten Abstände aller Werte vom arithmetischen Mittel ist kleiner als von jedem anderen Wert. Das sieht man, indem man die Funktion S(a) = n ∑ i =1 (x i − a) 2 betrachtet. Um ihr Minimum zu bestimmen, wird die Ableitung nach a, also ∂S(a) ∂a = 2 n ∑ i =1 (x i − a)( − 1) verwendet. Sie nimmt den Wert 0 gerade dann an, wenn man für a den Mittelwert ¯ x einsetzt. Harmonisches Mittel Das harmonische Mittel wird durch ¯ x H = 1 1 n n ∑ i =1 1 x i = 1 J ∑ j =1 1 ˜ x j f j definiert (zunächst in der ungewichteten, dann in der mit Häufigkeiten gewichteten Form). Es ist das reziproke arithmetische Mittel 3 <?page no="47"?> 48 3 Charakterisierungen von Häufigkeitsverteilungen der reziproken Merkmalswerte. In unserem Zahlenbeispiel finden wir ¯ x H = 1 1 8 ( 1 1 + 1 2 + 1 2 + 1 4 + 1 4 + 1 4 + 1 7 + 1 16 ) = 2.7069. Für die n = 1,000 Einkommenswerte im PSID-File findet man ¯ x H = 15,283.22 US-Dollar. R-3-5 Das harmonische Mittel wird meist nur als vereinfachtes Rechenprogramm für das arithmetische Mittel verwendet, wenn die Gewichte aus dem Zähler der Merkmalsausprägung stammen (z. B. Geschwindigkeit mit der Dimension km/ h und Gewichte in km). Ein anschauliches Beispiel: Sie radeln einen Berg 5 km lang mit 10 km/ h hinauf und 5 km lang mit 40 km/ h hinunter. Ihre Durchschnittsgeschwindigkeit beträgt dann nur 16 km/ h, da 10 1 10 · 5 + 1 40 · 5 = 10 · 30 37.5 + 40 · 7.5 37.5 = 16. Sie fahren daher 80 % der Zeit (d.h. 30 der insgesamt 37.5 Minuten) bergauf. Geometrisches Mittel Das geometrische Mittel ¯ x G = ( n ∏ i =1 x i ) 1 n = J ∏ j =1 ˜ x f j j wird verwendet, wenn es sich um multiplikative Verknüpfungen, z. B. relatives Wachstum handelt. Zum Beispiel wird das geometrische Mittel oft zur Berechnung mittlerer Veränderungsraten verwendet. Hier ist darauf zu achten, dass Vervielfachungskoeffizienten als x-Werte in die Rechenvorschrift eingehen müssen. Nehmen wir an, eine Bankeinlage verzinst sich drei Jahre lang mit 1 % und zwei Jahre lang mit 3 %. Dann zeigt ¯ x G = (1.01 · 1.01 · 1.01 · 1.03 · 1.03) 1 5 = 1.01 3 5 · 1.03 2 5 = 1.018 dass die Verzinsung im Mittel über die 5 Jahre 1.8 % beträgt. <?page no="48"?> 3.3 Maßzahlen 49 3.3.2 Streuungsmaße Streuungsmaße sollen darüber Auskunft geben, in welchem Ausmaß sich die Werte einer Variablen unterscheiden, von einem Mittelwert der Variablen abweichen. Quartilsabstand Als Streuungsmaß zum Zentralwert (Median) wird üblicherweise der Quartilsabstand QA verwendet, der die Differenz zwischen dem 0.75 -Quantil (3. Quartil) und dem 0.25 -Quantil (1. Quartil) angibt. In unserem Zahlenbeispiel findet man für die acht x i -Werte: QA = 4 − 2 = 2. Für die n = 1,000 Einkommenswerte im PSID- File findet man QA = 50,000 − 19,750 = 30,250 USD. D.h. in einem Einkommensintervall der Breite 30,250 US-Dollar befinden sich die mittleren 50 % der Einkommenswerte. R-3-6 Mittlere absolute Abweichung Die mittlere absolute Abweichung wird durch MA = 1 n n ∑ i =1 | x i − ¯ x | . definiert. Bei dieser Definition werden die Abweichungen vom arithmetischen Mittel verwendet. Stattdessen können auch Abweichungen vom Zentralwert (Median) verwendet werden. Für unser Zahlenbeispiel mit dem Zentralwert 4 findet man dann: MA = 2 . 75. R-3-7 Varianz und Standardabweichung Die zwei gebräuchlichsten Streuungsmaße sind die Standardabweichung und deren Quadrat, die Varianz . Die Varianz ist der Mittelwert der quadrierten Abweichungen der x i -Werte vom arithmetischen Mittel 3 <?page no="49"?> 50 3 Charakterisierungen von Häufigkeitsverteilungen σ 2 = 1 n n ∑ i =1 (x i − ¯ x) 2 = J ∑ j =1 (˜ x j − ¯ x) 2 f j . Wird die Variable X additiv um eine Konstante verändert, bleibt ihre Varianz unverändert 1 n n ∑ i =1 ((x i + a) − (¯ x + a)) 2 = σ 2 . Wird die Variablen X mit einer Konstanten multipliziert, verändert sich die Varianz um den quadrierten Wert der Konstanten 1 n n ∑ i =1 (ax i − a¯ x) 2 = a 2 σ 2 . Die folgende Umformung (der sog. Verschiebungssatz ) ist für die Berechnung hilfreich σ 2 = 1 n n ∑ i =1 x 2 i − ¯ x 2 Für unser Zahlenbeispiel mit ¯ x = 5 finden wir σ 2 = 362 8 − 25 = 45.25 − 25 = 20.25. Die Standardabweichung ist die Quadratwurzel der Varianz σ = √ σ 2 . Für das Zahlenbeispiel finden wir σ = √ 20.25 = 4.5. Für die n = 1,000 Einkommenswerte im PSID-File findet man die Standardabweichung σ = 59,490.19 US-Dollar. R-3-8 Der deskriptive Gehalt der Standardabweichung ist gering. Eine besondere Bedeutung hat die Standardabweichung bei symmetrischen Verteilungen, insbesondere bei der Normalverteilung. In Abbildung 3.4 ist die Standardnormalverteilung dargestellt. Der zentrale Bereich der Verteilung (grau hevorgehoben) mit einer Breite von zwei Standardabweichungen hat eine Fläche von 68.27 %. <?page no="50"?> 3.3 Maßzahlen 51 -3 -2 -1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 x Dichte Abbildung 3.4: Veranschaulichung der Standardabweichung bei der Standardnormalverteilung 3.3.3 Schiefe- und Wölbungsmaße Schiefemaße und Wölbungsmaße sollen neben den Lage- und Streuungsmaßen in komprimierter Weise Auskunft über die Gestalt der Häufigkeitsverteilung geben. Je stärker eine Verteilung von einer symmetrischen Verteilung abweicht, desto deutlicher sollte sich dies in den Schiefemaßen widerspiegeln. Wölbungsmaße sollen darüber Auskunft geben, ob eine Verteilung eher flach ( platykurtisch ) oder eher steil aufgewölbt ist (leptokurtisch). Die gebräuchlichen Schiefe- und Wölbungsmaße beruhen auf Zentralmomenten. Das k-te Zentralmoment μ k = 1 n n ∑ i =1 (x i − ¯ x) k ist definiert als Mittelwert der zur k-ten Potenz erhobenen Abweichungen vom Mittelwert. Mit der Varianz (σ 2 ) haben wir das zweite Zentralmoment bereits kennengelernt, d.h. σ 2 = μ 2 . Als Schiefemaß zum arithmetischen Mittel wird oft das Verhältnis von drittem Zentralmoment zur Standardabweichung in der dritten Potenz verwendet (skewness). Beim Zentralmoment bleibt durch Bildung 3 <?page no="51"?> 52 3 Charakterisierungen von Häufigkeitsverteilungen der dritten Potenz zum einen das Vorzeichen der Abweichungen erhalten, zum anderen erhalten wenige große Abweichungen gegenüber vielen kleinen ein höheres Gewicht. Dies führt dazu, dass bei einer linkssteilen bzw. rechtsflachen Verteilung auch rechtsschiefe Verteilung genannt die positiven Summanden überwiegen und entsprechend ein positiver Wert des Schiefemaßes resultiert. Weil das dritte Zentralmoment ins Verhältnis zur dritten Potenz der Standardabweichung gesetzt wird, erfolgt eine Relativierung der Schiefe bezüglich der Streuung der Variable X . Somit ist die Maßzahl streuungsunabhängig und dadurch leichter zu interpretieren. Das Schiefemaß lässt sich folgendermaßen berechnen μ 3 σ 3 = 1 n n ∑ i =1 ( x i − ¯ x σ ) 3 = 1 n n ∑ i =1 (x i − ¯ x) 3 ( √ 1 n n ∑ i =1 (x i − ¯ x) 2 ) 3 . Für unser kleines Zahlenbeispiel mit 8 Werten und ¯ x = 5 finden wir für das dritte Zentralmoment μ 3 μ 3 = 1 8 ( (1 − 5) 3 + (2 − 5) 3 + (2 − 5) 3 + (4 − 5) 3 +(4 − 5) 3 + (4 − 5) 3 + (7 − 5) 3 + (16 − 5) 3 ) = 1,218 8 = 152.25. Und damit unter Verwendung der bereits berechneten Standardabweichung (σ = 4.5) μ 3 σ 3 = 152.25 4.5 3 = 152.25 91.125 = 1.6708. Für unsere n = 1,000 Einkommenswerte finden wir μ 3 / σ 3 = 7.9 US-Dollar. Da das Schiefemaß in beiden Fällen positiv ist, deutet dies jeweils auf eine rechtsschiefe Verteilung hin. Offenkundig liegen rechts vom arithmetischen Mittel besonders große Abweichungen. Ein negativer Wert würde darauf hindeuten, dass links vom arithmetischen Mittel große Abweichungen liegen und es sich um eine linksschiefe Verteilung handelt. Da das Schiefemaß nicht auf einen Wertebereich normiert ist, ist eine genaue Aussage über den Grad der Schiefe schwierig. R-3-9 <?page no="52"?> 3.3 Maßzahlen 53 (a) linkssteil (b) symmetrisch (c) rechtssteil Abbildung 3.5: Verteilungen: Symmetrie und Schiefe. Auch die Abfolge der drei Lagemaße Modus ( ˜ x M ), Zentralwert ( ˜ x 0 . 5 ) und arithmetisches Mittel ( ¯ x ) gibt einen Hinweis auf die vorliegende Schiefe. Bei rechtsschiefen Verteilungen findet man üblicherweise ˜ x M < ˜ x 0 . 5 < ¯ x. Grafik 3.5 zeigt eine linkssteile (rechtsschiefe), eine symmetrische und eine rechtssteile (linksschiefe) Verteilung. Die Kurtosis μ 4 σ 4 − 3 = 1 n n ∑ i =1 ( x i − ¯ x σ ) 4 − 3 = 1 n n ∑ i =1 (x i − ¯ x) 4 ( √ 1 n n ∑ i =1 (x i − ¯ x) 2 ) 4 − 3 stellt ein Maß der Wölbung der Verteilung dar, das auf dem vierten Zentralmoment beruht. Durch die vierte Potenz erhalten wenige große Abweichungen ein deutlich stärkeres Gewicht als viele kleinere Abweichungen. Entsprechend deutet eine hohe Kurtosis auf eine steil aufgewölbte Verteilung hin. Mit der Division durch die vierte Potenz der Standardabweichung erfolgt eine Bereinigung um die Streuung der X-Werte. Um die Interpretation zu erleichtern, wird in der Definition der Kurtosis die Wölbung der Verteilung mit der Wölbung der Normalverteilung verglichen. Für die Normalverteilung hat der Quotient μ 4 / σ 4 den Wert 3. Ein positiver Wert der Kurtosis deutet auf eine im Vergleich zur Normalverteilung steiler aufgewölbte Verteilung hin. Ist die Kurtosis positiv, heißt die Verteilung leptokurtisch, bei einer negativen Kurtosis platykurtisch und bei einer Kurtosis von (ungefähr) 0 mesokurtisch. Lediglich bei annähernd symmetrischen Verteilungen ist die Kurtosis aussa- 3 <?page no="53"?> 54 3 Charakterisierungen von Häufigkeitsverteilungen (a) gering (b) normal (c) stark Abbildung 3.6: Verteilungen: Wölbung. gekräftig. Wir haben für unsere 8 Beispielswerte als auch für die Einkommensdaten mit Hilfe des Schiefemaßes eine Rechtsschiefe diagnostiziert. Daher sind die Ergebnisse für das Wölbungsmaß nur sehr eingeschränkt interpretierbar. Der Vollständigkeit halber präsentieren wir beide Ergebnisse des Wölbungsmaßes. Für unser kleines Zahlenbeispiel mit 8 Werten und ¯ x = 5 finden wir für das vierte Zentralmoment μ 4 = 1 8 ( (1 − 5) 4 + (2 − 5) 4 + (2 − 5) 4 + (4 − 5) 4 +(4 − 5) 4 + (4 − 5) 4 + (7 − 5) 4 + (16 − 5) 4 ) = 15,078 8 = 1,884.75. Und damit finden wir unter Verwendung der bereits berechneten Standardabweichung (σ = 4.5) μ 3 σ 3 − 3 = 1,884.75 4.5 4 − 3 = 4.5963 − 3 = 1.5963. Grafik 3.6 zeigt eine platykurtische (gering aufgewölbte), eine mesokurtische (normal aufgewölbte) und eine leptokurtische (stark aufgewölbte) Verteilung. Für unsere n = 1,000 Einkommenswerte finden wir μ 4 / σ 4 − 3 = 99.76 US-Dollar. R-3-10 3.4 Approximationen mit klassierten Daten Liegen keine Einzeldaten vor, sondern lediglich klassierte Daten, können Maßzahlen zur Beschreibung der Häufigkeitsverteilung nur noch approximativ berechnet werden. Im Folgenden betrachten wir Approximationen für den Zentralwert, das arithmetische Mittel <?page no="54"?> 3.4 Approximationen mit klassierten Daten 55 und die Standardabweichung. Als Beispiel betrachten wir klassierte Daten der Lohnverteilung (in 1000 US-Dollar) von Frauen (v.: von, b. u.: bis unter). R-3-11 Klasse v. b. u. abs. Häuf. rel. Häuf. kum.r.H. Dichte ˜ x ∗ 1 0 15 121 0.234 0.234 0.01563 ˜ x ∗ 2 15 35 225 0.436 0.671 0.02180 ˜ x ∗ 3 35 60 123 0.238 0.909 0.00953 ˜ x ∗ 4 60 100 39 0.076 0.984 0.00189 ˜ x ∗ 5 100 175 7 0.014 0.998 0.00018 ˜ x ∗ 6 175 300 1 0.002 1.000 0.00002 3.4.1 Approximation des Modus Der Modus (auch dichtester oder Modalwert genannt) ist die Merkmalsausprägung, bei der die Häufigkeitsfunktion ihr Maximum hat. Bei einem Histogramm wird allen Ausprägungen innerhalb eines Intervalls die gleiche Häufigkeit zugeordnet, so dass der Modus nicht genau bestimmt werden kann. Als pragmatische Lösung kann vereinfacht die Mitte der Klasse mit der höchsten Dichte als Approximation für den Modus verwendet werden. Zu beachten ist, dass bei Klassen unterschiedlicher Breite nicht die relativen Häufigkeiten, sondern die Dichten, d.h. die durch die Intervallbreiten dividierten Häufigkeiten zu verwenden sind. Im Beispiel der oben angegebenen klassierten Lohndaten mit 6 Klassen hat die Klasse ˜ x 2 die höchste Dichte (0.0218). Die Klassenmitte 25 (Tsd. US-Dollar) wäre dann eine mögliche Approximation für den Modus. R-3-12 3.4.2 Approximation des Zentralwerts Ausgangspunkt ist die Bestimmung der Klasse, in der die kumulierte relative Häufigkeit den Wert 0.5 erreicht. In den klassierten Lohndaten ist dies die zweite Klasse (siehe Abbildung 3.7). Um die Approximation an einer Stelle x zu berechnen, muss zunächst die Klasse bestimmt werden, in der x enthalten ist. Zur Bezeichnung der unteren und oberen Klassengrenze dieser Klasse verwenden wir x u bzw. x o . Der Wert der Verteilungsfunktion F ( x ) an der Stelle x, wobei x u ≤ x < x o ist, kann linear approximiert werden durch 3 <?page no="55"?> 56 3 Charakterisierungen von Häufigkeitsverteilungen Jahreslohn in 1000 USD kum. rel. Häufigk. 0 35 60 100 175 300 0 0.1 0.3 0.5 0.7 0.9 1 Abbildung 3.7: Relative Häufigkeiten der Löhne. F (x) ≈ F (x u ) + (x − x u ) F (x o ) − F (x u ) x o − x u Daraus gewinnt man: x ≈ x u + x o − x u F (x o ) − F (x u ) (F (x) − F (x u )) Wählen wir als zu bestimmende Stelle den Zentralwert ˜ x 0 . 5 , dann gilt F ( x ) = F ( ˜ x 0 . 5 ) = 0 . 5. Setzen wir dies ein, erhalten wir die folgende lineare Approximation für den Zentralwert: ˜ x 0 . 5 ≈ x u + x o − x u F (x o ) − F (x u ) (F (˜ x 0 . 5 ) − F (x u )) . Für das Beispiel der klassierten Lohndaten erhalten wir als Approximation des Zentralwerts 15 + 35 − 15 0.671 − 0.234 (0.5 − 0.234) = 27.178. Mit den nicht klassierten Daten ergibt sich mit 26 . 795 US-Dollar ein recht ähnlicher Wert. R-3-13 <?page no="56"?> 3.4 Approximationen mit klassierten Daten 57 3.4.3 Approximation des arithmetischen Mittels Sind die einzelnen Lohnwerte nicht bekannt, können die Klassenmitten als Approximationen für die Klassenmittelwerte angenommen werden. Der Näherungswert für das arithmetische Mittel resultiert dann aus einem gewichteten Mittelwert dieser Klassenmitten (˜ x ∗, m j ) ¯ x ≈ J ∑ j =1 ˜ x ∗, m j · f j . Für die Löhne der Frauen resultiert als Näherung des arithmetischen Mittels der Wert ¯ x ≈ 7.5 · 0.234 + 25 · 0.436 + 47.5 · 0.238 + 80 · 0.076 + 137.5 · 0.014 + 237.5 · 0.002 = 32.355. Mit den nicht klassierten Daten ergibt sich mit 31 . 23 US-Dollar ein recht ähnlicher Wert. R-3-14 3.4.4 Approximation der Standardabweichung Für eine Approximation der Standardabweichung kann ebenfalls mit der Annahme gearbeitet werden, dass alle Werte einer Klasse der Klassenmitte entsprechen. Die Streuung in den Klassen ist dann 0, und es wird lediglich die Streuung zwischen den Klassen, d.h. die Streuung der Klassenmitten um das approximative Gesamtmittel ¯ x ∗ , berücksichtigt. Für die Löhne der Frauen resultiert folgende Approximation (in Tsd. US-Dollar) σ ≈ (7.5 − 32.355) 2 · 0.234 + (7.5 − 32.355) 2 · 0.234 + (25 − 32.355) 2 · 0.436 + (47.5 − 32.355) 2 · 0.238 + (80 − 32.355) 2 · 0.076 + (137.5 − 32.355) 2 · 0.014 + (237.5 − 32.355) 2 · 0.002 = 25.025. Obwohl die Streuung in den Klassen unberücksichtigt bleibt, wird die Standardabweichung leicht überschätzt (σ = 24.889). Dies liegt daran, dass tatsächlich die individuellen Werte etwas näher an den dem arithmetischen Mittel näherliegenden Klassengrenzen liegen. R-3-15 3 <?page no="57"?> 58 3 Charakterisierungen von Häufigkeitsverteilungen 3.5 Aufgaben 1. Berechnen Sie für die Werte x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 1 3 3 3 4 4 5 7 folgende Maßzahlen: a) Modus (dichtester Wert), b) Zentralwert, c) arithmetisches Mittel, in ungewichteter und gewichteter Form, d) harmonisches Mittel, in ungewichteter und gewichteter Form, e) geometrisches Mittel, in ungewichteter und gewichteter Form, f) Varianz, in ungewichteter und gewichteter Form, g) Standardabweichung, h) mittlere absolute Abweichung vom arithm. Mittel, i) Schiefe, j) Wölbung. k) Wie vermuten Sie, würden sich die von Ihnen berechneten Maßzahlen verändern, wenn x 8 den Wert 27 hätte? <?page no="58"?> 3.5 Aufgaben 59 2. Sie sind leidenschaftliche(r) Jogger(in) und stellen ein paar Berechnungen an: a) Nach einer halben Stunde mit einer Geschwindigkeit von 9 km/ h haben Sie die letzten 20 Minuten Ihre Geschwindigkeit auf 12 km/ h erhöht. Wie schnell sind Sie im Durchschnitt gelaufen? b) Eine andere Joggingstrecke schließt in dem mittleren Abschnitt recht hügeliges Gelände ein. Daher sind Sie die ersten 3 und die letzten 2 Kilometer mit einer Geschwindigkeit von 11 km/ h gelaufen, auf den mittleren 5 Kilometern jedoch nur 9 km/ h. Wie schnell sind Sie im Mittel gelaufen? c) Dank des kontinuierlichen Trainings haben Sie die für Ihre Joggingstrecke benötigte Zeit in den letzten drei Jahren um 12 %, 9 % und 4 % senken können. Wie hoch war Ihre mittlere jährliche prozentuale Verbesserung? 3. Die folgende Tabelle enthält die Häufigkeiten der PSID-Jahreslöhne für 12 Lohnklassen unterschiedlicher Klassenbreite (v.: von, b. u.: bis unter). Klasse v. b. u. rel. Häuf. Klasse v. b. u. rel. Häuf. ˜ x ∗ 1 0 10 0.097 ˜ x ∗ 7 75 100 0.045 ˜ x ∗ 2 10 20 0.153 ˜ x ∗ 8 100 150 0.036 ˜ x ∗ 3 20 30 0.190 ˜ x ∗ 9 150 200 0.013 ˜ x ∗ 4 30 40 0.182 ˜ x ∗ 10 200 500 0.016 ˜ x ∗ 5 40 55 0.167 ˜ x ∗ 11 500 800 0.002 ˜ x ∗ 6 55 75 0.098 ˜ x ∗ 12 800 1200 0.001 a) Ermitteln Sie für die Lohnklassen die kumulierten relativen Häufigkeiten. b) Bestimmen Sie die modale Klasse und einen Näherungswert für den Modus (dichtesten Wert). c) Bestimmen Sie die Einfallsklasse des Zentralwertes ( ˜ x 0 . 5 ) und einen Näherungswert für den Zentralwert. 3 <?page no="59"?> 60 3 Charakterisierungen von Häufigkeitsverteilungen d) Bestimmen Sie einen Näherungswert für das arithmetische Mittel. e) Vergleichen Sie die Lage dieser drei Mittelwerte. Weist die Lage der Mittelwerte auf eine links- oder rechtsschiefe Verteilung hin? f) Ermitteln Sie näherungsweise den totalen Quartilsabstand. g) Ermitteln Sie näherungsweise die Standardabweichung. h) Dürften Sie mit Ihrer Schätzung die wahre Standardabweichung über- oder unterschätzt haben? Tatsächlich wird die Standardabweichung ausgehend von den klassierten Daten leicht überschätzt. Haben Sie dafür eine Erklärung? <?page no="60"?> 3.6 R-Code 61 3.6 R-Code R-3-1 # Vektor x mit Merkmalswerten erstellen x <c(1,2,2,4,4,4,7,16) n.x <length(x) # relative Häufigkeiten f.x <table(x) / n.x f.x plot(f.x) # Verteilungsfunktion F.x <cumsum(x = f.x) F.x Fun.x <ecdf(x = x) plot(Fun.x) R-3-2 ## Daten einlesen d <read.csv2(file = "usa_2007.csv") # Löhne in Vektor e speichern e <d$lohn ## Nur Löhne < 250000 US-Dollar in Tsd. US-Dollar w <e[e < 250000] / 1000 # relative Häufigkeiten (Darstellung über Kerndichte) dens <density(w) kdens <cumsum(dens$y)/ sum(dens$y) plot(dens, xlab = "Jahreseinkommen in 1000 USD", ylab = "Dichte") # Verteilungsfunktion plot(dens$x,kdens, xlab = "Jahreseinkommen in 1000 USD", ylab = "F(x)", type = "l") R-3-3 ## Quantilsfunktion Zahlenbeispiel # ma: Vektor der sortierten Merkmalsausprägungen ma.x <as.numeric(names(f.x)) Q.x <stepfun(x = Fun.x(ma.x), y = c(ma.x,20), right = TRUE) plot(Q.x, bty = "l", xlim = c(0,1), ylim = c(0,16.5), xlab = "p", ylab = "Q(p)", verticals = FALSE) ## Quantilsfunktion der Jahreseinkommen plot(kdens,dens$x, main="", bty="l", xlim = c(0,1), ylim = c(0,250), xlab = "p", ylab = "Q(p)", type="l") 3 <?page no="61"?> 62 3 Charakterisierungen von Häufigkeitsverteilungen ## Median # durch 'type = 1' korrespondierend zur Rechenvorschrift quantile(x = w, probs = 0.5, type = 1) # mittels Index n.w <length(w) n.w np <n.w * 0.5 # Einkommen an Stelle np w[np] R-3-4 # Mittelwert aller 1000 Einkommen mean(e) # um eine Person mit einem Einkommen von 1 Mrd. erweitert mean(c(e, 1000000000)) R-3-5 # Harmonisches Mittel aller 1000 Einkommen 1 / mean(1/ e) R-3-6 # Quartilsabstand Zahlenbeispiel IQR(x, type = 1) # Quartilsabstand 1000 Einkommen IQR(e, type = 1) # oder quantile(x = e, probs = 0.75, type = 1) quantile(x = e, probs = 0.25, type = 1) R-3-7 # Mittlere absolute Abweichung mean(abs(x-quantile(x = x, probs = 0.5, type = 1))) R-3-8 ## Zahlenbeispiel # empirische Varianz var.x.emp <- 1/ n.x * sum( (x mean(x))^2 ) var.x.emp # Standardabweichung sa.x.emp <sqrt(var.x.emp) sa.x.emp ## Merke: R berechnet mit der Funktion var() die Stichprobenvarianz var(x) # diese kann wieder in die empirische Varianz umgerechnet werden (n.x-1)/ n.x * var(x) # analog die Standardabweichung <?page no="62"?> 3.6 R-Code 63 sqrt((n.x-1)/ n.x) * sd(x) ## Empirische Varianz und Standardabweichung der Löhne n.e <length(e) var.e.emp <- (n.e-1)/ n.e * var(e) sa.e.emp <sqrt(var.e.emp) R-3-9 ## Schiefe # Zahlenbeispiel (1/ n.x * sum( (x-mean(x))^3 )) / sqrt( 1/ n.x * sum( (x mean(x))^2 ))^3 # Löhne (1/ n.e * sum( (e-mean(e))^3 )) / sqrt( 1/ n.e * sum( (e mean(e))^2 ))^3 R-3-10 ## Kurtosis # Zahlenbeispiel (1/ n.x * sum( (x-mean(x))^4 )) / sqrt( 1/ n.x * sum( (x mean(x))^2 ))^4 - 3 # Löhne (1/ n.e * sum( (e-mean(e))^4 )) / sqrt( 1/ n.e * sum( (e mean(e))^2 ))^4 - 3 R-3-11 # Löhne von Frauen in Tsd. USD ef <e[d$geschl == 1] / 1000 # Löhne sortieren und Objekt ef überschreiben ef <sort(ef, decreasing = FALSE); ef # Anzahl an Löhnen < 250000 US-Dollar n.ef <length(ef) # Klassengrenzen breaks <c(0,15,35,60,100,175,300) # Anzahl an Grenzen b <length(breaks) # Beobachtungen (Löhne) in Klassen einteilen lc <cut(x = ef, breaks = breaks, right = FALSE) # Klassenuntergrenzen cu <breaks[-b] # Klassenobergrenzen co <breaks[-1] # absolute Klassenhäufigkeiten nj <table(lc); nj # relative Klassenhäufigkeiten 3 <?page no="63"?> 64 3 Charakterisierungen von Häufigkeitsverteilungen fj <table(lc) / n.ef; fj # kum.r.H. Fj <cumsum(fj); Fj # Dichten hj <co cu dj <fj / hj; dj R-3-12 ## Approximation des Modus # Klasse mit höchster Dichte dk <which(dj == max(dj)); dk # Klassenmitte als Approximation modus <- (co[dk] + cu[dk]) / 2; modus R-3-13 ## Approximation des Zentralwerts # Abbildung plot(x = breaks, y = c(0,Fj), xlab = "Jahreslohn in 1000 USD", ylab = "kum. rel. Häufigk.") lines(x = breaks, y = c(0,Fj)) # Ausgangspunkt: Klasse des approx. Modus -> Zentralwert # p = 0.5 cu[dk] + (co[dk] cu[dk]) / (Fj[dk] - Fj[dk-1]) * (0.5 - Fj[dk-1]) R-3-14 # Approximation des arithmetischen Mittels mitten <- 0.5 * (cu+co); mitten # approx. Mittel x.approx <sum(mitten * fj); x.approx R-3-15 # Approximation der Standardabweichung sqrt(sum((mitten-x.approx)^2 * fj)) # Standardabweichung aus unklassierten Daten sd(ef) <?page no="64"?> 4 Konzentrationsmessung Haben wenige Einheiten einen hohen Anteil an der gesamten Merkmalssumme, spricht man von einer hohen absoluten Konzentration. Liegt eine sehr ungleiche Verteilung vor, wird dies als relative Konzentration bezeichnet. Während bei der Betrachtung von Unternehmensumsätzen die absolute Konzentration im Vordergrund steht, liegt bei der Einkommensverteilung das Augenmerk auf der relativen Konzentration. 4.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.2 Maßzahlen der absoluten Konzentration . . . . . . . . . . 66 4.2.1 Die Konzentrationsrate . . . . . . . . . . . . . . . 66 4.2.2 Die Konzentrationskurve . . . . . . . . . . . . . . 67 4.2.3 Der Rosenbluth-Koeffizient . . . . . . . . . . . . . 68 4.2.4 Der Hirschman-Herfindahl-Koeffizient . . . . . . . . 69 4.3 Maßzahlen der relativen Konzentration . . . . . . . . . . . 70 4.3.1 Der Variationskoeffizient . . . . . . . . . . . . . . . 71 4.3.2 Die Lorenzkurve und der Gini-Koeffizient . . . . . . 71 4.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 4 <?page no="65"?> 66 4 Konzentrationsmessung 4.1 Einleitung Bei der Konzentrationsmessung kann sowohl die absolute als auch die relative Konzentration betrachtet werden. Absolute Konzentration bedeutet, dass wenige Einheiten (z. B. Unternehmen) zusammen einen hohen Anteil an der Merkmalssumme aufweisen. So haben etwa in vielen Branchen wenige Unternehmen einen sehr hohen Anteil an dem Umsatz der gesamten Branche. Bei der relativen Konzentration wird die Ungleichheit der Verteilung, die Disparität, betrachtet. Die Betrachtung der amerikanischen Einkommensdaten hat gezeigt, dass eine große Ungleichheit vorliegt. Eine hohe relative Konzentration liegt vor, wenn ein geringer Anteil der Einheiten (z. B. Personen) einen hohen Anteil an der Merkmalssumme aufweist. Zu beachten ist, dass bei einer Verteilung gleichzeitig eine hohe absolute und eine niedrige relative Konzentration vorliegen kann (und umgekehrt). Die Unternehmenskonzentration wird als ein wesentliches Merkmal der Marktstruktur betrachtet und findet unter wettbewerbspolitischen Aspekten eine besondere Beachtung. Das Ausmaß der relativen Einkommenskonzentration ist insbesondere unter Verteilungsaspekten von Interesse. 4.2 Maßzahlen der absoluten Konzentration Um eine Vorstellung von der Berechnungsmethode und damit der möglichen Interpretation der ausgewiesenen Zahlen zu erhalten, betrachten wir ein fiktives Zahlenbeispiel mit nur fünf Unternehmen, die folgende Umsätze haben: x 1 = 70 , x 2 = 15 , x 3 = 10 , x 4 = 4, x 5 = 1. Die Merkmalssumme beträgt damit 100 und der mittlere Umsatz je Unternehmen 20. 4.2.1 Die Konzentrationsrate Die Konzentrationsrate CR ist ein einfaches und sehr anschauliches Maß der absoluten Konzentration. CR i gibt an, wie viel Prozent der gesamten Merkmalssumme die größten i Einheiten haben. Ausgangspunkt sind die absteigend sortierten Merkmalswerte x 1 ≥ x 2 ≥ x 3 ≥ . . . ≥ x n ≥ 0. <?page no="66"?> 4.2 Maßzahlen der absoluten Konzentration 67 Der Anteil der Einheit r an der Merkmalssumme ∑ n k =1 x k ist h r = x r n ∑ k =1 x k = x r n¯ x . Auch für die Merkmalsanteile h r gilt die absteigende Sortierung h 1 ≥ h 2 ≥ h 3 ≥ . . . ≥ h n ≥ 0. Die Konzentrationsrate CR i = i ∑ r =1 h r ist nun einfach die Summe der i größten Merkmalsanteile. Hat eine Einheit die gesamte Merkmalssumme (maximale Konzentration) h 1 = 1 , h 2 = h 3 = . . . = h n = 0 finden wir CR i = 1 für alle i . Haben alle Einheiten den gleichen Merkmalswert (minimale Konzentration) h 1 = h 2 = h 3 = . . . = h n = 1/ n, finden wir CR i = i/ n. Die Konzentrationsrate liegt damit immer im Intervall [i/ n; 1]. Für unser Zahlenbeispiel finden wir z. B. die Konzentrationsrate CR 3 = 3 ∑ r =1 h r = 70 100 + 15 100 + 10 100 = 0.95. Für die PSID-Einkommensdaten von 1,000 Personen finden wir CR 5 = 0.068. D.h. die fünf Personen mit den höchsten Einkommen haben 6.8 % der gesamten Einkommenssumme aller 1,000 Personen. R-4-1 4.2.2 Die Konzentrationskurve Die Darstellung der Wertepaare ( i, CR i ) wird als Konzentrationskurve bezeichnet. Zusätzlich zu den n Wertepaaren wird auch der Ursprung (0 , 0) betrachtet und alle Punkte werden mit einer Geraden verbunden. Der letzte Punkt ist (n, CR n = 1). Für unser kleines Zahlenbeispiel findet man die in Abbildung 4.1 dargestellte Konzentrationskurve. R-4-2 4 <?page no="67"?> 68 4 Konzentrationsmessung 0 1 2 3 4 5 0.0 0.2 0.4 0.6 0.8 1.0 i CR i A A 2 Abbildung 4.1: Konzentrationskurve - Zahlenbeispiel. 4.2.3 Der Rosenbluth-Koeffizient Bisher haben wir nur einzelne punktuelle Maße, d.h. die einzelnen Konzentrationsraten CR i betrachtet. Der Rosenbluth- Koeffizient (RK) knüpft an der Konzentrationskurve an und verdichtet die darin enthaltenen Informationen zu einer Maßzahl. Je weiter aufgewölbt die Konzentrationskurve ist, desto höher ist die Konzentration. Die Fläche A oberhalb der Konzentrationskurve ist damit bereits ein zusammenfassendes Maß der Konzentration, denn je kleiner die Fläche A, desto stärker ist die Konzentration. Der Rosenbluth-Koeffizient ist definiert als RK = 1 / (2 A ) . Die Fläche von A kann ausgehend von den n liegenden Trapezen A i bestimmt werden. Für ein solch liegendes Trapez finden wir die Fläche A i = h i 0.5 (i + (i − 1)) = h i 0.5 (2i − 1) , da sich die Trapezfläche als Grundseite mal mittlere Höhe ergibt. Für die Fläche des Trapezes A 2 finden wir z. B. A 2 = h 2 0.5 (2 + (2 − 1)) = 0.15 · 0.5 (2 + (2 − 1)) = 0.225. <?page no="68"?> 4.2 Maßzahlen der absoluten Konzentration 69 Die Fläche A ist die Summe der einzelnen Trapezflächen: A = n ∑ i =1 A i = 0.5 n ∑ i =1 h i (2i − 1) = n ∑ i =1 ih i − 0.5. Für das Zahlenbeispiel finden wir A = 1 . 01. Der Rosenbluth- Koeffizient ist definiert als RK = 1 2A = 1 (2 n ∑ i =1 ih i ) − 1 . Durch Einsetzen ergibt sich RK = 0.495. Der Rosenbluth-Koeffizient liegt im Intervall [1/ n; 1] und nimmt den Wert 1 / n bei minimaler Konzentration und den Wert 1 bei maximaler Konzentration an. Im Falle maximaler Konzentration gilt h 1 = 1, h 2 = 0, ..., h n = 0 und damit RK = 1 ( 2 ∑ n i =1 ih i ) − 1 = 1 (2(1 · 1 + 2 · 0 + ... + n · 0)) − 1 = 1. Im Falle minimaler Konzentration gilt h 1 = 1/ n, h 2 = 1/ n, ..., h n = 1/ n und damit RK = 1 ( 2 ∑ n i =1 ih i ) − 1 = 1 ( 2 1 n ∑ n i =1 i ) − 1 = 1 n . Zu beachten ist, dass die kleinsten Einheiten (kleine h i ) die größten Gewichte (große i ) erhalten. In vielen Unternehmenserhebungen der amtlichen Statistik werden Unternehmen mit weniger als 20 Beschäftigten aus Kosten- und Vereinfachungsgründen nicht erhoben. Auf diese sogenannte Abschneidepraxis reagiert der Rosenbluth- Koeffizient relativ stark. Für die amerikanischen Einkommensdaten von 1,000 Personen finden wir RK = 0.0018 . D.h. trotz der starken Ungleichheit der Einkommen ist die absolute Einkommenskonzentration dem Rosenbluth-Koeffizienten zufolge recht gering. R-4-3 4.2.4 Der Hirschman-Herfindahl-Koeffizient Der Hirschman-Herfindahl-Koeffizient ( HK ) ist definiert als Summe der quadrierten relativen Anteile h i 4 <?page no="69"?> 70 4 Konzentrationsmessung HK = n ∑ i =1 h 2 i und liegt im Intervall [1 / n ; 1] . Im Falle maximaler Konzentration findet man HK = n ∑ i =1 h 2 i = 1 2 + 0 2 + ... + 0 2 = 1 und im Falle minimaler Konzentration HK = n ∑ i =1 h 2 i = n ( 1 n ) 2 = 1 n . Die Sortierung der Anteile ist, anders als beim Rosenbluth-Koeffizienten, nicht relevant. Beim Hirschman-Herfindahl-Koeffizienten erhalten die kleinen Einheiten (kleine h i ) kleine Gewichte, so dass dieser Koeffizient wenig auf die Nichtberücksichtigung kleiner Einheiten reagiert. Für unser Zahlenbeispiel finden wir HK = 0.7 2 + 0.15 2 + 0.1 2 + 0.04 2 + 0.01 2 = 0.5242. Für die Lohndaten finden wir HK = 0.0028. Auch dem Hirschman- Herfindahl-Koeffizient zufolge ist die absolute Lohnkonzentration recht gering. R-4-4 4.3 Maßzahlen der relativen Konzentration Während bei der absoluten Konzentration die Frage im Vordergrund steht, ob eine Zusammenballung eines großen Teils der Merkmalssumme bei einer geringen Anzahl an Einheiten vorliegt, steht bei der relativen Konzentration die Frage nach der Ungleichheit bzw. Disparität im Vordergrund. Auch wenn z. B. die Personen mit den höchsten Einkommen nur einen geringen Teil der gesamten Einkommenssumme auf sich vereinen, kann dennoch eine große Disparität vorliegen. Dies wäre dann der Fall, wenn z. B. das reichste Prozent einen sehr viel höheren Anteil als 1 % an der gesamten Einkommenssumme hat. <?page no="70"?> 4.3 Maßzahlen der relativen Konzentration 71 4.3.1 Der Variationskoeffizient Der Variationskoeffizient ( VK ) ist definiert als Verhältnis der Standardabweichung zum arithmetischen Mittel VK = σ/ ¯ x, wobei ¯ x = 1 n ∑ n i =1 x i und σ = √ √ √ √ 1 n n ∑ i =1 (x i − ¯ x) 2 = √ √ √ √ 1 n n ∑ i =1 x 2 i − ¯ x 2 . Der Variationskoeffizient VK verändert sich bei einer Multiplikation aller Werte mit einer Konstanten c nicht, da sich sowohl die Streuung als auch der Mittelwert um den Faktor c verändern und sich dieser somit herauskürzt. (Somit führt z. B. die Verwendung von Cent oder Euro zum gleichen Ergebnis.) Für unser Zahlenbeispiel findet man für den Variationskoeffizienten: σ = √ 1 5 (70 2 + 15 2 + 10 2 + 4 2 + 1 2 ) − 20 2 = 25.464 ¯ x = 20 VK = σ ¯ x = 25.464 20 = 1.273. Für unsere amerikanischen Lohndaten von 1,000 Personen finden wir einen Durchschnittslohn von 44,486.67 US-Dollar und eine Standardabweichung von 59,490.19 US-Dollar. Als Variationskoeffizient resultiert 1.337. R-4-5 Wie auch schon die Standardabweichung für sich betrachtet, ist auch der Variationskoeffizient von geringem deskriptivem Gehalt. 4.3.2 Die Lorenzkurve und der Gini-Koeffizient Berechnung mit klassierten Daten Als Beispiel betrachten wir die Lohndaten von n = 1,000 Personen des PSID-Datensatzes. Die individuellen Löhne werden durch die Variable X erfasst. Für diese Löhne werden jetzt Lohnklassen ˜ x ∗ 1 , . . . , ˜ x ∗ 5 gebildet (siehe Tabelle 4.1), so dass man anstelle von 4 <?page no="71"?> 72 4 Konzentrationsmessung Tabelle 4.1: Klassierte Lohndaten in 1000 US-Dollar Klasse von bis unter f j F j h j H j ˜ x ∗ 1 0 20 0.250 0.250 0.062 0.062 ˜ x ∗ 2 20 40 0.372 0.622 0.244 0.306 ˜ x ∗ 3 40 75 0.265 0.887 0.313 0.619 ˜ x ∗ 4 75 150 0.081 0.968 0.179 0.798 ˜ x ∗ 5 150 1500 0.032 1.000 0.203 1.001 X eine vergröberte Variable X ∗ betrachten kann, deren Werte die Lohnklasse angeben, in der sich eine Person befindet; vgl. Tabelle 4.1. f j bezeichnet den Anteil der Personen in der Lohnklasse ˜ x ∗ j an allen Personen; h j bezeichnet den Anteil an der gesamten Lohnsumme, der auf die Personen in der Lohnklasse ˜ x ∗ j entfällt. F j und H j sind die entsprechenden kumulierten Werte. Außerdem wird definiert: f 0 = F 0 = h 0 = H 0 = 0. R-4-6 Für die Darstellung der Lorenzkurve (siehe Graphik 4.2) tragen wir an der Abszisse die fünf sukzessive kumulierten Anteile F j der Größenklassen an allen Personen und an der Ordinate die sukzessive kumulierten Anteile H j an der gesamten Lohnsumme ab. R-4-7 Ausgehend vom Ursprung (0 , 0) führt die Verbindung dieser fünf Punkte bis zum Punkt (1, 1) mit Hilfe von Geraden zur Lorenzkurve. Je weiter diese Kurve von der Diagonalen vom Punkt (0 , 0) bis zum Punkt (1 , 1) entfernt liegt (durchhängt), desto größer ist die relative Konzentration bzw. Ungleichheit. Die Fläche zwischen Lorenzkurve und Diagonale ist in der Graphik mit A gekennzeichnet. Setzen wir die Fläche A ins Verhältnis zur Fläche unterhalb der Diagonalen von 0.5 , erhalten wir ein summarisches Maß der relativen Konzentration, den Gini- Koeffizienten G = A 0.5 = 2 A. Folgende Überlegungen führen zur Berechnungsweise des Gini- Koeffizienten: Bezeichnen wir die Fläche unterhalb der Lorenzkurve mit B, gilt A+B = 0.5 bzw. A = 0.5 − B und damit auch G = 2A = 1 − 2B. Die Fläche B setzt sich bei J Größenklassen aus J vertikalen Trapezen B j zusammen, deren Fläche B j = f j 0 . 5( H j− 1 + H j ) jeweils als Grundseite mal mittlere Höhe berechnet werden kann. Z. B. ist die Fläche des in der Graphik mit B 2 markierten Trapezes B 2 = f 2 0.5(H 2 − 1 + H 2 ) = 0.372 · 0.5(0.062 + 0.306) = 0.068. <?page no="72"?> 4.3 Maßzahlen der relativen Konzentration 73 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F j H j A B B 2 Abbildung 4.2: Lorenzkurve und Gini-Koeffizient (Fläche 2A). Die Gesamtfläche B ist also B = 0.5 J ∑ j =1 f j (H j− 1 + H j ) und der Gini-Koeffizient ist G = 1 − 2B = 1 − J ∑ j =1 f j (H j− 1 + H j ). Zum Beispiel findet man mit den klassierten Lohndaten der Tabelle 4.1 R-4-8 G = 1 − [0.25(0 + 0.062) + 0.372(0.062 + 0.306) + 0.265(0.306 + 0.619) + 0.081(0.619 + 0.798) + 0.032(0.798 + 1)] = 0.430. Die relative Lohnkonzentration ist demzufolge sehr hoch. Bei diesem Befund ist zudem zu beachten, dass die tatsächliche Konzentration bei der Berechnung ausgehend von klassierten Daten etwas 4 <?page no="73"?> 74 4 Konzentrationsmessung 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F i H i A B B 4 Abbildung 4.3: Lorenzkurve (Fläche B) - Trapeze. unterschätzt wird. Die Verbindung der punktuellen Informationen an den Grenzen der Klassen mit einer Geraden impliziert die Annahme, dass die Personen in den Klassen alle einen identischen Lohn haben. Tatsächlich liegt jedoch auch innerhalb der Klassen Ungleichheit vor (die Verbindung zwischen den Punkten würde bei der Verwendung von Einzeldaten ,durchhängen‘), die hier nicht erfasst wird. Berechnung mit Individualdaten Der Gini-Koeffizient kann auch mit Individualdaten berechnet werden. Ausgangspunkt sind in diesem Fall n aufsteigend sortierte Merkmalswerte x 1 , . . . , x n . Jede Einheit i hat einen Anteil f i = 1 / n an der Gesamtheit der n Einheiten und einen Anteil h i = x i / ∑ n j =1 x j an der gesamten Merkmalssumme. Die kumulierten Größen werden wiederum durch F i bzw. H i bezeichnet. Zur Illustration verwenden wir das Zahlenbeispiel mit fünf Unternehmen, die die Umsätze x 1 = 1, x 2 = 4, x 3 = 10, x 4 = 15 und x 5 = 70 haben. Also ist f i = 1/ 5, und die Merkmalsanteile sind h 1 = 0.01, h 2 = 0.04, h 3 = 0.1, h 4 = 0.15, h 5 = 0.7. <?page no="74"?> 4.3 Maßzahlen der relativen Konzentration 75 Wie in der Graphik 4.3 illustriert wird, setzt sich die Fläche B jetzt aus n horizontalen Trapezen B i zusammen, deren untere Länge den Wert (n − i + 1)/ n und deren obere Länge den Wert (n − i)/ n hat. Die Multiplikation der mittleren Länge mit der Höhe h i führt zur Fläche B i = h i 0.5 ( (n − i + 1) + (n − i) n ) = 0.5h i ( 2n − 2i + 1 n ) . Z. B. ist in unserem Zahlenbeispiel B 4 = 0 . 045. Schließlich findet man für die Gesamtfläche den Ausdruck B = 0.5 n ∑ i =1 h i ( 2n − 2i + 1 n ) und der Gini-Koeffizient ist G = 1 − 2 B = n ∑ i =1 h i ( 2i − n − 1 n ) . In unserem Zahlenbeispiel beträgt der Wert G = 0.596 . Mit der gleichen Methode finden wir für die amerikanischen Lohndaten den Gini-Koeffizienten G = 0.458. Der Wert liegt etwas über dem Wert 0.430 , den wir auf Basis der klassierten Daten ermittelt hatten. R-4-9 Überlegen wir schließlich noch, wie die beiden Extremfälle maximaler und minimaler relativer Konzentration aussehen. Maximale Konzentration liegt dann vor, wenn eine Einheit die gesamte Merkmalssumme auf sich vereinigt, so dass h 1 = . . . = h n− 1 = 0 und h n = 1. Durch Einsetzen in die Formel findet man G = 1 − 1 / n als maximalen Wert für den Gini-Koeffizienten. Dagegen liegt eine minimale Konzentration dann vor, wenn alle n Einheiten den gleichen Merkmalswert haben: x 1 = . . . = x n , so dass h i = H/ n gilt. Durch Einsetzen in die Formel findet man dann G = 0 als minimalen Wert für den Gini-Koeffizienten. Die Graphik 4.4 illustriert diese beiden Extremfälle. 4 <?page no="75"?> 76 4 Konzentrationsmessung 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F i H i (a) maximale Konz. 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F i H i (b) minimale Konz. Abbildung 4.4: Konzentration - Extremfälle. <?page no="76"?> 4.4 Aufgaben 77 4.4 Aufgaben 1. Absolute Konzentration. Ihnen liegen die Umsätze (Tsd. e ) von allen vier Unternehmen einer Branche vor: x 1 = 20 , x 2 = 10, x 3 = 7, x 4 = 3. a) Wie hoch ist der Umsatz in der betrachteten Branche insgesamt? b) Wie hoch ist der Anteil des größten, des zweitgrößten, des drittgrößten Unternehmens am Gesamtumsatz der Branche? c) Vergleichen Sie den Anteil der beiden größten Unternehmen an der Anzahl aller Unternehmen der Branche mit ihrem Anteil am Gesamtumsatz der Branche. d) Welchen Anteil am Branchenumsatz haben die beiden kleinsten Unternehmen? e) Was versteht man unter absoluter Konzentration, was unter relativer Konzentration? f) Zeichnen Sie die Konzentrationskurve. g) Zeichnen Sie in die Graphik der Konzentrationskurve die Kurven ein, die sich bei minimaler und maximaler Konzentration ergeben würden. h) Nehmen Sie an, alle Unternehmen der Branche erhöhen ihren Umsatz um a %. Wie sieht dann die Konzentrationskurve aus? i) Vergleichen Sie die ursprüngliche Konzentrationskurve mit der Konzentrationskurve, die sich ergeben würde, wenn alle Unternehmen ihren Umsatz um 10 (Tsd. e ) ausdehnen. j) Berechnen Sie den Herfindahl-Index (Werte aus Aufgabe 1a). k) Berechnen Sie den Rosenbluth-Index (Werte aus Aufgabe 1a). 4 <?page no="77"?> 78 4 Konzentrationsmessung 2. Relative Konzentration (Zahlenwerte aus Aufgabe 1). a) Zeichnen Sie die Lorenzkurve (Werte aus Aufgabe 1a). b) Zeichnen Sie in ihre Graphik die Lorenzkurve bei maximaler und bei minimaler relativer Konzentration. c) Nehmen Sie an, dass alle Unternehmen der Branche ihren Umsatz um a % erhöhen. Wie sieht dann die Lorenzkurve aus? d) Vergleichen Sie die ursprüngliche Lorenzkurve mit der Lorenzkurve, die sich ergeben würde, wenn alle Unternehmen ihren Umsatz um 10 (Tsd. ausdehnen. e) Berechnen Sie den Gini-Koeffizienten (Werte aus Aufgabe 1a). f) Welchen Wert nimmt der Gini-Koeffizient nach einer Umsatzerhöhung von 10 (Tsd. e ) bei allen Unternehmen an? g) Nehmen Sie an, Ihnen liegende folgende Daten in klassierter Form vor: Klassengrenzen (von bis unter) Anzahl Umsatz 0-200 3 410 200-500 2 620 500-1500 3 2,570 Berechnen Sie ausgehend von den klassierten Daten den Gini-Koeffizienten. <?page no="78"?> 4.5 R-Code 79 4.5 R-Code R-4-1 ## Zahlenbeispiel x <c(70,15,10,4,1) h.x <x/ sum(x) # CR3 cr3.x <sum(h.x[1: 3]) cr3.x ## PSID # Daten einlesen d <read.csv2(file = "usa_2007.csv") # Merkmalswerte (Löhne) absteigend sortieren y <sort(x = d$lohn, decreasing = TRUE) h.y <y/ sum(y) # CR5 cr5.y <sum(h.y[1: 5]) cr5.y R-4-2 # Konzentrationskurve (Zahlenbeispiel) h.x <x / sum(x) cr.x <cumsum(h.x) plot(x = 0: 5, y = c(0,cr.x), type = "l", xlab = "i", ylab = expression(CR[~i])) points(x = 0: 5, y = c(0,cr.x), pch = 19) segments(x0 = 0, y0 = 0, x1 = 5, y1 = 1) R-4-3 ## Rosenbluth-Koeffizient # Zahlenbeispiel i.x <- 1: 5 A.i.x <h.x * 0.5 * (2 * i.x - 1) A.x <sum(A.i.x) RK.x <- 1 / (2*A.x) RK.x # Löhne h.y <y / sum(y) i.y <- 1: length(y) RK.y <- 1 / (2 * sum(i.y*h.y) - 1) RK.y R-4-4 ## Hirschman-Herfindahl-Koeffizient # Zahlenbeispiel 4 <?page no="79"?> 80 4 Konzentrationsmessung sum(h.x^2) # Löhne sum(h.y^2) R-4-5 ## Variationskoeffizient # Zahlenbeispiel n.x <length(x) var.koeff.x <sqrt( 1/ n.x * sum( (x mean(x))^2 ) ) / mean(x) var.koeff.x # Löhne n.y <length(y) var.koeff.y <sqrt( 1/ n.y * sum( (y mean(y))^2 ) ) / mean(y) var.koeff.y R-4-6 ## Löhne klassieren # Histogramm erstellen (für die automatische Wahl der Grenzen) h <hist(x = y/ 1000, breaks = c(0,20,40,75,150,1500), plot = FALSE, right = FALSE) # Anzahl an Grenzen b <length(h$breaks) # Beobachtungen (Löhne) in Klassen einteilen lc <cut(x = y/ 1000, breaks = h$breaks, right = FALSE) # Klassenuntergrenzen cu <h$breaks[-b] # Klassenobergrenzen co <h$breaks[-1] # relative Klassenhäufigkeiten fj <table(lc) / n.y fj # kumulierten Anteile Fj <cumsum(fj) Fj # relativer Anteil der Einkommenssumme pro Klasse hj <tapply(X = y, INDEX = lc, FUN = sum) / sum(y); hj # kumulierten Anteile Hj <cumsum(hj); Hj R-4-7 ## Graphik plot(x = c(0,Fj), y = c(0,Hj), type = "l", xlab = expression(F[~j]), ylab = expression(L[~j])) points(x = c(0,Fj), y = c(0,Hj), pch = 19) segments(x0 = 0, y0 = 0, x1 = 1, y1 = 1) <?page no="80"?> 4.5 R-Code 81 R-4-8 # Gini-Koeffizient 1 sum(fj * (c(0, Hj[-5]) + Hj)) R-4-9 ### Gini-Koeffizient auf Basis von Individualdaten ## Zahlenbeispiel # Werte aufsteigend sortieren h.x.auf <sort(h.x, decreasing = FALSE) # Gini-Koeffizient sum( h.x.auf * ((2*i.x n.x - 1) / n.x) ) ## Löhne h.y.auf <sort(h.y, decreasing = FALSE) # Gini-Koeffizient sum( h.y.auf * ((2*i.y n.y - 1) / n.y) ) 4 <?page no="82"?> 5 Strukturanalysen Viele interessierende Größen lassen sich definitorisch als Summe oder auch als Produkt von Komponenten darstellen. Solch einfache Komponentendarstellungen liefern oftmals interessante Einblicke, wenn nach möglichen Ursachen vorgefundener Gruppenunterschiede oder zeitlicher Veränderungen gesucht wird. Wir veranschaulichen die Verwendung einfacher Strukturanalysen in Form definitorischer Komponentenmodelle mit einfachen additiven und multiplikativen Zerlegungen, um Einblicke in Bestimmungsgründe der beobachteten Einkommensunterschiede von Männern und Frauen zu gewinnen. 5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 84 5.2 Maßzahlen für Strukturunterschiede . . . . . . . . . . . . 84 5.2.1 Strukturdifferenz und normierte Strukturdifferenz . 85 5.2.2 Euklidische Norm . . . . . . . . . . . . . . . . . . 86 5.3 Additive Komponentenzerlegung . . . . . . . . . . . . . . 87 5.3.1 Standardisierung . . . . . . . . . . . . . . . . . . 88 5.3.2 Niveau- und Struktureffekt . . . . . . . . . . . . . 89 5.3.3 Niveau-, Struktur- und Mischeffekt . . . . . . . . . 90 5.4 Multiplikative Komponentenzerlegung . . . . . . . . . . . 93 5.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 95 5.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 5 <?page no="83"?> 84 5 Strukturanalysen 5.1 Einleitung Für viele Mengen von Untersuchungseinheiten lässt sich eine Aufteilung nach Merkmalen in Teilmengen durchführen, die die Struktur bezüglich dieser Merkmale deutlich macht. So lassen sich Beschäftigte etwa nach ihrem Geschlecht und nach den Sektoren der Unternehmen, in denen sie beschäftigt sind, aufgliedern. Für die einzelnen Sektoren lassen sich die Anteile an den Beschäftigten insgesamt ermitteln. Diese sektorale Beschäftigungsstruktur kann für alle Beschäftigten, aber auch getrennt für Männer und Frauen ermittelt werden. In diesem Kapitel betrachten wir Methoden, mit denen derartige Strukturen verglichen und Unterschiede quantifiziert werden können. Zunächst betrachten wir Maßzahlen, die das Ausmaß des strukturellen Unterschieds erfassen. Im Anschluss besprechen wir Methoden der Komponentenzerlegung. Mit diesen Methoden werden definitorische Zusammenhänge genutzt, um Einblicke in Bedingungen von Unterschieden zwischen Gruppen zu gewinnen. Als Beispiel verwenden wir erneut das PSID-Datenfile für n = 1,000 Personen mit Angaben über deren Geschlecht, Lohnhöhe, geleistete Arbeitsstunden und Sektorzugehörigkeit. 5.2 Maßzahlen für Strukturunterschiede In unserem Datensatz gibt es für n = 1,000 Personen Angaben darüber, in welchem Sektor die Person beschäftigt ist. Um die Analyse etwas übersichtlicher zu halten, vergröbern wir die Sektorinformation von ursprünglich acht Sektoren auf drei Sektoren: 1 Produktion, 2 Handel, 3 Dienste. 1 R-5-1 Für die drei Sektoren finden wir die in Tabelle 5.1 angegebenen Beschäftigungsanteile a j für die Sektoren Produktion ( j = 1), Handel (j = 2) und Dienste (j = 3). Die Angaben in Spalte 2 sind die Beschäftigungsanteile der Sektoren insgesamt, Spalte 3 enthält die Beschäftigungsanteile der Sektoren a w j der Frauen und Spalte 4 enthält die Anteile a m j der Männer. R-5-2 1 Die Vergröberung wurde dabei folgendermaßen vorgenommen: 2 Landwirtschaft, Energie, Bergbau, 3 Verarbeitendes Gewerbe und 4 Baugewerbe wurden zum Sekor Produktion, 5 Handel, 6 Transportgewerbe und 7 Banken und Versicherungen wurden zum Sektor Handel und 1 keine Angabe <?page no="84"?> 5.2 Maßzahlen für Strukturunterschiede 85 Tabelle 5.1: Sektorale Beschäftigungsanteile. Sektor Alle (a j ) Frauen (a w j ) Männer (a m j ) Produktion 0.230 0.120 0.347 Handel 0.233 0.223 0.244 Dienste 0.537 0.657 0.409 Offenbar gilt für die Anteile a j , a w j und a m j , dass sie sich für die J = 3 Sektoren jeweils zu 1 summieren: 3 ∑ j =1 a j = 3 ∑ j =1 a w j = 3 ∑ j =1 a m j = 1. Es ist ersichtlich, dass nur relativ wenige Frauen im Sektor Produktion, aber fast zwei Drittel im Sektor Dienste tätig sind. Hingegen ist gut ein Drittel der Männer im Sektor Produktion tätig und der Anteil des Sektors Dienste ist bei den Männern deutlich geringer als bei den Frauen. Im Folgenden betrachten wir mehrere Maßzahlen zur Quantifizierung von Strukturunterschieden. Für die beiden zu vergleichenden Gruppen verwenden wir unserem Beispiel folgend die Indizes m und w. In analoger Weise könnten auch andere Gruppen (Länder, Regionen, etc.) verglichen werden. Die beiden Indizes m und w könnten dann durch geeignete andere Indizes ersetzt werden. 5.2.1 Strukturdifferenz und normierte Strukturdifferenz Die Strukturdifferenz SD = J ∑ j =1 | a m j − a w j | ist die Summe der absoluten Anteilsdifferenzen , hier zwischen den sektoralen Beschäftigungsanteilen von Männern und Frauen. Für unsere Beispieldaten mit drei Sektoren finden wir SD = | 0.347 − 0.12 | + | 0.244 − 0.223 | + | 0.409 − 0.657 | = | 0.227 | + | 0.021 | + |− 0.248 | = 0.496. und 8 Dienstleistungen wurden zum Sektor Dienste zusammengefasst. 5 <?page no="85"?> 86 5 Strukturanalysen Für die Strukturdifferenz gilt 0 ≤ SD ≤ 2. Die Interpretation wird durch eine Normierung erleichtert. Üblich ist die Normierung auf den Bereich [0 , 1]. Die Intervallgrenzen geben dann den minimalen (0) und den maximalen (1) Unterschied an. Die Multiplikation der Strukturdifferenz mit dem Faktor 0.5 führt zur normierten Strukturdifferenz (NSD), auch Dissimilaritätsindex genannt NSD = 0.5 J ∑ j =1 | a m j − a w j | = 0.5 SD, mit 0 ≤ NSD ≤ 1. Für unser Beispiel finden wir NSD = 0.5 SD = 0.5 · 0.496 = 0.248. Die normierte Strukturdifferenz NSD gibt den Anteil der Beschäftigten an, der zwischen Sektoren wandern müsste, um eine Gleichheit der Struktur zu erreichen. In unserem Beispiel müssten 24.8 % der Männer (Frauen) den Sektor wechseln, um die gleiche Anteilsstruktur der Frauen (Männer) zu erreichen. R-5-3 5.2.2 Euklidische Norm Die euklidische Norm EN = √ √ √ √ J ∑ j =1 (a m j − a w j ) 2 ist die Quadratwurzel der Summe der quadrierten Anteilsdifferenzen. Für die euklidische Norm gilt 0 ≤ EN ≤ √ 2 . Durch das Quadrieren erhalten große Anteilsdifferenzen ein etwas stärkeres Gewicht als bei der Strukturdifferenz. Für unsere Beispieldaten mit drei Sektoren finden wir EN = √ (0.347 − 0.12) 2 + (0.244 − 0.223) 2 + (0.409 − 0.657) 2 = √ (0.227) 2 + (0.021) 2 + ( − 0.248) 2 = 0.337. Für die euklidische Norm gibt es keine vergleichbar anschauliche Interpretation wie für die normierte Strukturdifferenz. R-5-4 <?page no="86"?> 5.3 Additive Komponentenzerlegung 87 5.3 Additive Komponentenzerlegung Die Komponentenzerlegung ist eine einfache und anschauliche Methode der Strukturanalyse. Das Ziel ist, durch definitorische Zerlegungen bzw. tautologische Erweiterungen Einblicke in mögliche Bedingungen von vorliegenden Unterschieden zwischen Gruppen zu gewinnen. Als Beispiel betrachten wir erneut Männer und Frauen und deren Stundenlöhne. In unserem Datensatz finden wir einen Durchschnittslohn für Männer von 25.79 US-Dollar und für Frauen von 17.46 US-Dollar. Männer verdienen im Durchschnitt je Stunde somit 48 % bzw. 8.33 US-Dollar mehr als Frauen. Bei der Suche nach möglichen Ursachen für diese erstaunlich große Differenz können Komponentenzerlegungen hilfreich sein. Zum Beispiel könnte eine unterschiedliche sektorale Beschäftigungsstruktur von Männern und Frauen zur Erklärung der Lohndifferenz beitragen, wenn etwa Frauen in größerem Ausmaß als Männer in Niedriglohnsektoren beschäftigt wären. Tabelle 5.2 enthält nochmals die sektorale Beschäftigungsstruktur von Männern und Frauen - erneut für die drei aggregierten Sektoren - und daneben die sektoralen Durchschnittslöhne. Den durchschnittlichen Stundenlohn der Männer in Sektor j bezeichnen wir mit ¯l m j und den der Frauen mit ¯l w j . Die Durchschnittslöhne für Männer bzw. Frauen insgesamt ergeben sich aus den mit den sektoralen Beschäftigungsanteilen gewichteten sektoralen Durchschnittlöhnen R-5-5 ¯l m = J ∑ j =1 ¯l m j a m j = 0.347 · 24.56 + 0.244 · 27.75 + 0.409 · 25.68 = 25.79 ¯l w = J ∑ j =1 ¯l w j a w j = 0.12 · 18.45 + 0.223 · 17.92 + 0.657 · 17.12 = 17.46. 5 <?page no="87"?> 88 5 Strukturanalysen Tabelle 5.2: Beschäftigungsanteile und Durchschnittslöhne Beschäftigung Stundenlöhne Sektor Alle Frauen Männer Alle Frauen Männer Produktion 0.230 0.120 0.347 22.91 18.45 24.56 Handel 0.233 0.223 0.244 22.90 17.92 27.75 Dienste 0.537 0.657 0.409 20.28 17.12 25.68 5.3.1 Standardisierung Die Höhe des Durchschnittslohns hängt sowohl von der Höhe der geschlechtsspezifischen sektoralen Durchschnittslöhne (Niveau) als auch von der geschlechtsspezifischen sektoralen Beschäftigungsstruktur ab. Um den Beitrag einer der beiden Komponenten - Niveau und Struktur - zu isolieren, kann bzgl. der anderen Komponente standardisiert werden. Wählen wir z. B. die Beschäftigungsstruktur der Männer als Standard, ergibt sich für Frauen ein fiktiver durchschnittlicher Stundenlohn. Dieser gibt an, welchen durchschnittlichen Stundenlohn Frauen verdienen würden, wenn sie ihre tatsächlichen sektoralen Durchschnittslöhne hätten, ihre Beschäftigungsstruktur aber der der Männer gleichen würde. Dieser fiktive (kontrafaktische) Stundenlohn ¯l w ( a m ) ergibt sich als ¯l w ( a m ) = J ∑ j =1 ¯l w j a m j = 17.78. Man kann ebenso auf die durchschnittlichen sektoralen Stundenlöhne der Männer standardisieren. In diesem Fall erhalten wir den fiktiven durchschnittlichen Stundenlohn der Frauen, den sie erhalten würden, wenn sie bei ihrer tatsächlichen sektoralen Beschäftigungsstruktur die sektoralen Durchschnittslöhne der Männer erhalten würden. Dieser fiktive (kontrafaktische) Stundenlohn ¯l w (¯ l m ) ergibt sich als ¯l w (¯ l m ) = J ∑ j =1 ¯l m j a w j = 26.01. Analog kann bzgl. der sektoralen Beschäftigungsstruktur und der sektoralen Lohnhöhe der Frauen standardisiert werden. In diesem <?page no="88"?> 5.3 Additive Komponentenzerlegung 89 Fall resultieren fiktive durchschnittliche Stundenlöhne der Männer ¯l m ( a w ) = J ∑ j =1 ¯l m j a w j = 26.01 ¯l m (¯ l w ) = J ∑ j =1 ¯l w j a m j = 17.78. Offenkundig gilt ¯l w (¯ l m ) = ¯l m ( a w ) und ¯l w ( a m ) = ¯l m (¯ l w ) . R-5-6 5.3.2 Niveau- und Struktureffekt Ausgehend von den standardisierten Durchschnittslöhnen der Frauen ¯l w ( a m ) und ¯l w (¯ l m ) lassen sich Bedingungen des Unterschieds der Durchschnittslöhne von Männern und Frauen isolieren. Vergleichen wir den tatsächlichen Durchschnittslohn der Männer ¯l m mit dem fiktiven auf die sektorale Beschäftigungsstruktur der Männer standardisierten Durchschnittslohn der Frauen ¯l w ( a m ) , wird der Einfluss unterschiedlicher sektoraler Lohnhöhen isoliert. Wir können deshalb schreiben ¯l m − ¯l w ( a m ) = J ∑ j =1 ¯l m j a m j − J ∑ j =1 ¯l w j a m j = J ∑ j =1 (¯l m j − ¯l w j )a m j = 25.8 − 17.78 = 8.02. Diese Lohndifferenz bei gleicher sektoraler Beschäftigungsstruktur isoliert den Einfluss des unterschiedlichen Niveaus der sektoralen Durchschnittslöhne, wir bezeichnen ihn als Niveaueffekt. Vergleichen wir hingegen den tatsächlichen Durchschnittslohn der Männer ¯l m mit dem fiktiven auf die sektoralen Durchschnittslöhne der Männer standardisierte Durchschnittslohn der Frauen ¯l w (¯ l m ) , wird der Einfluss der unterschiedlichen sektoralen Beschäftigungsstruktur isoliert. Es ergibt sich ¯l m − ¯l w (¯ l m ) = J ∑ j =1 ¯l m j a m j − J ∑ j =1 ¯l m j a w j = J ∑ j =1 ¯l m j (a m j − a w j ) = 25.8 − 26.01 = − 0.21. 5 <?page no="89"?> 90 5 Strukturanalysen Diese Lohndifferenz bei gleichen sektoralen Durchschnittslöhnen isoliert den Beitrag der unterschiedlichen sektoralen Beschäftigungsstruktur, wir bezeichnen ihn als Struktureffekt. Für unsere Daten erhalten wir einen hohen Niveau- und einen vernachlässigbaren Struktureffekt. Bei gleicher sektoraler Beschäftigungsstruktur und tatsächlichen geschlechtsspezifischen sektoralen Durchschnittslöhnen ergibt sich für Männer ein um rund 8 Dollar höherer Durchschnittslohn. Bei gleichen sektoralen Durchschnittslöhnen und tatsächlichen geschlechtsspezifischen sektoralen Beschäftigungsstrukturen ergibt sich praktisch kein Lohnunterschied zwischen Männern und Frauen. Die Ergebnisse weisen darauf hin, dass die sektoralen Lohnunterschiede für Männer und Frauen, nicht aber die unterschiedlichen sektoralen Beschäftigungsstrukturen als eine wesentliche Bedingung für den Lohnunterschied von Männern und Frauen betrachtet werden können. Verwenden wir zur Standardisierung die sektorale Beschäftigungsstruktur und Lohnhöhe der Frauen, erhalten wir ebenfalls einen Niveau- und einen Struktureffekt. Der Niveaueffekt ist ¯l m ( a w ) − ¯l w = J ∑ j =1 ¯l m j a w j − J ∑ j =1 ¯l w j a w j = J ∑ j =1 (¯l m j − ¯l w j )a w j = 26.01 − 17.46 = 8.55. und der Struktureffekt ist ¯l m (¯ l w ) − ¯l w = J ∑ j =1 ¯l w j a m j − J ∑ j =1 ¯l w j a w j = J ∑ j =1 ¯l w j (a m j − a w j ) = 17.78 − 17.46 = 0.32. Diese Standardisierung führt zu geringfügig anderen Werten, die qualitative Aussage bleibt jedoch unverändert. R-5-7 5.3.3 Niveau-, Struktur- und Mischeffekt Ausgangspunkt unserer Überlegungen war die Differenz der durchschnittlichen Stundenlöhne zwischen Männern und Frauen ¯l m − ¯l w = J ∑ j =1 ¯l m j a m j − J ∑ j =1 ¯l w j a w j = 25.8 − 17.46 = 8.34. <?page no="90"?> 5.3 Additive Komponentenzerlegung 91 Durch Standardisierung auf die sektorale Beschäftigungsstruktur bzw. die sektoralen Durchschnittslöhne der Männer haben wir den Niveau- und den Struktureffekt ermittelt. Für die Summe der beiden Effekte erhalten wir ¯l m − ¯l w ( a m ) + ¯l m − ¯l w (¯ l m ) = J ∑ j =1 (¯l m j − ¯l w j )a m j + J ∑ j =1 ¯l m j (a m j − a w j ) = 8.02 + ( − 0.21) = 7.81. Die Summe von Niveau- und Struktureffekt entspricht nicht der gesamten Differenz der Durchschnittslöhne. Betrachten wir die Summe der beiden isolierten Effekte genauer, finden wir J ∑ j =1 (¯l m j − ¯l w j )a m j + J ∑ j =1 ¯l m j (a m j − a w j ) = J ∑ j =1 ¯l m j a m j − J ∑ j =1 ¯l w j a m j + J ∑ j =1 ¯l m j a m j − J ∑ j =1 ¯l m j a w j . Um zur gesamten Differenz der Durchschnittslöhne zu gelangen, müssen folgende Terme addiert bzw. subtrahiert werden − J ∑ j =1 ¯l w j a w j + J ∑ j =1 ¯l w j a m j − J ∑ j =1 ¯l m j a m j + J ∑ j =1 ¯l m j a w j = − J ∑ j =1 (¯l m j − ¯l w j )(a m j − a w j ). In diesen Term gehen die Produkte der Differenzen von Durchschnittslöhnen und Beschäftigungsanteilen der Sektoren ein. Er wird als Mischeffekt bezeichnet. Eine Komponentenzerlegung ist umso erkenntnisträchtiger, je kleiner der Mischeffekt ist, da dann eine weitgehende Aufteilung der zu erklärenden Gesamtdifferenz in Niveau- und Struktureffekt gelingt. Für die vollständige Zerlegung der Differenz in den Durchschnittslöhnen finden wir somit 5 <?page no="91"?> 92 5 Strukturanalysen ¯l m − ¯l w = J ∑ j =1 ¯l m j a m j − J ∑ j =1 ¯l w j a w j = 25.8 − 17.46 = 8.34 = J ∑ j =1 (¯l m j − ¯l w j )a m j + J ∑ j =1 ¯l m j (a m j − a w j ) − J ∑ j =1 (¯l m j − ¯l w j )(a m j − a w j ) = 8.02 + ( − 0.21) − ( − 0.53) = 8.34, d.h. die Differenz besteht aus dem Niveau-, Struktur- und Mischeffekt. In analoger Weise kann auch auf die sektoralen Durchschnittslöhne und Beschäftigungsanteile der Frauen standardisiert werden. In diesem Fall resultiert die Zerlegung ¯l m − ¯l w = J ∑ j =1 ¯l m j a m j − J ∑ j =1 ¯l w j a w j = J ∑ j =1 (¯l m j − ¯l w j )a w j + J ∑ j =1 ¯l w j (a m j − a w j ) + J ∑ j =1 (¯l m j − ¯l w j )(a m j − a w j ) = 8.55 + 0.32 + ( − 0.53) = 8.34. Beide Komponentenzerlegungen führen zur Schlussfolgerung, dass die beträchtliche Differenz in den Durchschnittslöhnen von Männern und Frauen fast vollständig auf Differenzen in den sektoralen Durchschnittslöhnen zurückgeführt werden kann und die unterschiedliche sektorale Beschäftigungsstruktur kaum einen Beitrag liefert. Kein expliziter Mischeffekt tritt auf, wenn bei der Ermittlung von Niveau- und Struktureffekt nicht einheitlich standardisiert wird. Wählen wir z. B. die Beschäftigungsstruktur der Männer für die Ermittlung des Niveaueffekts und die sektoralen Durchschnittslöhne der Frauen für die Ermittlung des Struktureffekts <?page no="92"?> 5.4 Multiplikative Komponentenzerlegung 93 zur Standardisierung, resultiert die Zerlegung ¯l m − ¯l w = J ∑ j =1 ¯l m j a m j − J ∑ j =1 ¯l w j a w j = J ∑ j =1 (¯l m j − ¯l w j )a m j + J ∑ j =1 ¯l w j (a m j − a w j ) = 8.02 + 0.32 = 8.34. Zu beachten ist jedoch, dass durch die Wahl unterschiedlicher Gruppen zur Standardisierung keine reinen Niveau- und Struktureffekte ermittelt werden, sondern einer der beiden Terme implizit den Mischeffekt enthält. Es gelingt somit nur scheinbar eine vollständige Zerlegung ohne Mischeffekt. R-5-8 5.4 Multiplikative Komponentenzerlegung Mittels einfacher tautologischer Erweiterungen lassen sich multiplikativ verknüpfte Komponenten gewinnen, denen eine eigenständige sachlogische Bedeutung zukommt. Als Beispiel betrachten wir den durchschnittlichen Jahreslohn ¯ Y , der sich als Quotient von Lohnsumme Y und Zahl der Beschäftigten ergibt. Für die n = 1,000 Personen in unserem Datensatz finden wir (in US-Dollar je Beschäftigten): ¯ Y = Y E = 44486674 1000 = 44,486.67. Der Durchschnittslohn lässt sich darstellen als Produkt von durchschnittlichem Stundenlohn ( l ) und durchschnittlicher Anzahl an Arbeitsstunden (z), die sich als Quotient von insgesamt geleisteten Arbeitsstunden ( S ) und Anzahl der Beschäftigten ( E ) ergibt. Es resultiert ¯ Y = Y S S E = l · z = 44,486,674 2,010,609 · 2,010,609 1,000 = 22.13 · 2,010.61 = 44,486.67. Betrachten wir nun die durchschnittlichen Jahreslöhne von Männern und Frauen, finden wir ¯ Y m = 58,620.35 und ¯ Y w = 31,229.51 5 <?page no="93"?> 94 5 Strukturanalysen US-Dollar. Das Verhältnis der Löhne ¯ Y m ¯ Y w = 58620.35 31229.51 = 1.88 zeigt, dass der Durchschnittslohn der Männer um 88 % über dem der Frauen liegt. Für Männer und Frauen resultiert der mittlere Jahreslohn jeweils aus dem Produkt von mittlerem Stundenlohn und mittlerer jährlicher Arbeitszeit ¯ Y m = l m · z m = 26.62 · 2202.11 = 58620.35 ¯ Y w = l w · z w = 17.06 · 1830.98 = 31229.51. Der relative Lohnunterschied lässt sich somit durch zwei multiplikative Komponenten darstellen: das Verhältnis der durchschnittlichen Stundenlöhne und das Verhältnis der durchschnittlichen jährlichen Arbeitsstunden. Es resultiert: ¯ Y m ¯ Y w = l m l w · z m z w = 26.62 17.06 · 2,202.11 1,830.98 = 1.56 · 1.2 = 1.88. Die gegenüber den Frauen um 88 % höheren durchschnittlichen Jahreslöhne der Männer sind somit einerseits auf den um 56 % höheren durchschnittlichen Stundenlohn und andererseits auf die um 20 % höhere durchschnittliche Jahresarbeitszeit zurückzuführen. R-5-9 <?page no="94"?> 5.5 Aufgaben 95 5.5 Aufgaben Für die ersten beiden Aufgaben sei folgender Datensatz gegeben: Anteile Stundenlöhne Bildungsgrad Alle Frauen Männer Alle Frauen Männer Kein Abitur 0.17 0.16 0.19 13.82 11.52 15.87 Abitur 0.58 0.61 0.55 19.01 16.67 21.76 Studium 0.24 0.23 0.26 32.83 23.58 41.71 1. Betrachten Sie die Bildungsstruktur von Frauen und Männern und berechnen Sie als summarische Maße der Unterschiedlichkeit die normierte Strukturdifferenz und die euklidische Norm. 2. Führen Sie eine Komponentenzerlegung zur Erklärung der Differenz der Durchschnittslöhne von Männern und Frauen durch. a) Ermitteln Sie die Durchschnittslöhne von Männern und Frauen. b) Ermitteln Sie den kontrafaktischen Durchschnittslohn der Frauen, der sich aus der Standardisierung auf die Bildungsstruktur der Männer ergibt (¯l w ( a m ) ), und den kontrafaktischen Durchschnittslohn der Frauen, der sich aus der Standardisierung auf die Löhne der Männer ergibt (¯l w (¯ l m ) ). c) Ermitteln Sie ausgehend von den kontrafaktischen (standardisierten) Durchschnittslöhnen der Frauen den Niveau- und den Struktureffekt. d) Führen Sie eine vollständige Zerlegung der gesamten Lohndifferenz ¯l m − ¯l w durch. e) Was folgern Sie aus der durchgeführten Komponentenzerlegung über die Bestimmungsgründe der vorgefundenen Lohndifferenz? 5 <?page no="95"?> 96 5 Strukturanalysen 3. Führen Sie eine Komponentenzerlegung zur Erklärung der Differenz der Durchschnittslöhne von Beschäftigten des Sektors Dienstleistung und den Beschäftigten anderer Sektoren durch. Anteile Stundenlöhne Bildungsgrad Alle Dienstl. Andere Alle Dienstl. Andere Kein Abitur 0.17 0.14 0.20 13.82 12.96 14.29 Abitur 0.58 0.55 0.61 19.01 18.00 19.73 Studium 0.24 0.31 0.19 32.83 30.29 36.12 a) Ermitteln Sie die Durchschnittslöhne von Dienstleistern (w) und Nicht-Dienstleistern (m). b) Ermitteln Sie den kontrafaktischen Durchschnittslohn der Dienstleister, der sich aus der Standardisierung auf die Bildungsstruktur der Nicht-Dienstleister ergibt (¯l w ( a m ) ), und den kontrafaktischen Durchschnittslohn der Dienstleister, der sich aus der Standardisierung auf die Löhne der Nicht- Dienstleister ergibt (¯l w (¯ l m ) ). c) Ermitteln Sie ausgehend von den kontrafaktischen (standardisierten) Durchschnittslöhnen der Dienstleister den Niveau- und den Struktureffekt. d) Führen Sie eine vollständige Zerlegung der Lohndifferenz ¯l m − ¯l w durch. e) Was folgern Sie aus der durchgeführten Komponentenzerlegung über die Bestimmungsgründe der vorgefundenen Lohndifferenz? <?page no="96"?> 5.6 R-Code 97 5.6 R-Code R-5-1 ## Daten einlesen d <read.csv2(file = "usa_2007.csv") # absolute Häufigkeiten (pro Sektor) s <d$sektor table(s) ## 8 Sektoren auf 3 aggregieren s3 <s s3[s<=4 & s! =1] <- 1 # 2,3,4 zu 1 s3[s>=5 & s<=7] <- 2 # 5,6,7 zu 2 s3[s==8 | s==1] <- 3 # 1,8 zu 3 # absolute Häufigkeiten (pro Sektor) table(s3) ## neue Sektorzugehörigkeit an Datensatz anfügen d$s3 <s3 head(d) R-5-2 # Anzahl an Beobachtungen n <nrow(d) # Beschäftigungsanteile der Sektoren insgesamt a <table(d$s3) / n a # Beschäftigungsanteile der Sektoren der Frauen s3w <d$s3[d$geschl == 1] nw <length(s3w) aw <table(s3w) / nw aw # Beschäftigungsanteile der Sektoren der Männer s3m <d$s3[d$geschl == 0] nm <length(s3m) am <table(s3m) / nm am R-5-3 # Strukturdifferenz SD <sum( abs(am-aw) ) SD # normierte Strukturdifferenz NSD <- 0.5 * SD NSD 5 <?page no="97"?> 98 5 Strukturanalysen R-5-4 # euklidische Norm EN <sqrt( sum((am-aw)^2) ) EN R-5-5 # Stundenlöhne in Vektor w speichern w <d$stlohn # Stundenlöhne getrennt nach Geschlecht wf <w[d$geschl == 1] wm <w[d$geschl == 0] ## sektorale Durchschnittslöhne (dl) # Alle dl <tapply(X = w, INDEX = d$s3, FUN = mean) dl # Frauen dlw <tapply(X = wf, INDEX = s3w, FUN = mean) dlw # Männer dlm <tapply(X = wm, INDEX = s3m, FUN = mean) dlm ## Durchschnittslöhne # Männer lmd <sum(am * dlm) lmd # Frauen lwd <sum(aw * dlw) lwd # Alternativ aus Individualdaten mean(wf) # Frauen mean(wm) # Männer R-5-6 # Frauen lwam <sum(dlw * am) lwam lwlm <sum(dlm * aw) lwlm # Männer lmaw <sum(dlm * aw) lmaw lmlw <sum(dlw * am) lmlw <?page no="98"?> 5.6 R-Code 99 R-5-7 # Einfluss unterschiedlicher sektoraler Lohnhöhen sum(dlm*am) sum(dlw*am) # Einfluss der unterschiedlichen sektoralen Beschäftigungsstruktur sum(dlm*am) sum(dlm*aw) # Niveaueffekt sum(dlm*aw) sum(dlw*aw) # Struktureffekt sum(dlw*am) sum(dlw*aw) R-5-8 # Ausgangspunkt: Diff. der durchschn. Löhnen sum(dlm*am) sum(dlw*aw) # Summe von Niveau- und Struktureffekt sum(dlm*am) sum(dlw*am) + sum(dlm*am) sum(dlm*aw) # vollständige Zerlegung der Differenz in den Durchschnittslöhnen sum(dlm*am) sum(dlw*aw) # bzw. (sum(dlm*am) sum(dlw*am)) + (sum(dlm*am) sum(dlm*aw)) - (sum((dlm-dlw)*(am-aw))) # Analog: Standardisierung auf sektoralen Durchschnittslöhne # und Beschäftigungsanteile der Frauen (sum(dlm*aw) sum(dlw*aw)) + (sum(dlw*am) sum(dlw*aw)) + (sum((dlm-dlw)*(am-aw))) # kein expliziter Mischeffekt ... (sum(dlm*am) sum(dlw*am)) + (sum(dlw*am) sum(dlw*aw)) R-5-9 # Variablen aus dem Datensatz w <d$lohn sex <d$sex st <d$stunden # Variablen nach Beispiel im Buch Y <sum(w) E <nrow(d) S <sum(st) # Löhne getrennt nach Geschlecht wf <w[d$geschl == 1] wm <w[d$geschl == 0] # Arbeitsstunden getrennt nach Geschlecht sf <st[d$geschl == 1] sm <st[d$geschl == 0] # Durchschnittslohn Yd <- Y / E 5 <?page no="99"?> 100 5 Strukturanalysen Yd # oder mean(w) # andere Darstellung Y/ S * S/ E # Durchschnittslöhne der Männer Ydm <mean(wm) Ydm # Durchschnittslöhne der Frauen Ydw <mean(wf) Ydw # Verhältnis Ydm / Ydw ## mittlerer Stundenlohn über alle Sektoren # Männer lm <- (sum(wm)/ sum(sm)) zm <mean(sm) lm * zm # Frauen lw <- (sum(wf)/ sum(sf)) zw <mean(sf) lw * zw # relative Lohnunterschied lm/ lw * zm/ zw <?page no="100"?> 6 Preis- und Mengenindizes In diesem Kapitel beschäftigen wir uns mit der Konstruktion von Preis- und Mengenindizes. In der amtlichen Statistik dominieren Preisindizes vom Typ Laspeyres, vom Typ Paasche und Kettenindizes, deren Konzeption wir darstellen. Für die Preisentwicklung in Deutschland präsentieren wir einige empirische Ergebnisse. 6.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.2 Transaktionen, Mengen und Preise . . . . . . . . . . . . . 102 6.3 Preisindizes auf Basis von Warenkorbvergleichen . . . . . . 103 6.4 Messziffernmittelung . . . . . . . . . . . . . . . . . . . . 106 6.5 Repräsentativgewichtung: Einzelpreise und Ausgabenanteile 108 6.6 Konstruktion von Indexziffern . . . . . . . . . . . . . . . 109 6.6.1 Der Verbraucherpreisindex . . . . . . . . . . . . . 110 6.6.2 Entwicklung der Verbraucherpreise seit 1881 . . . . 111 6.7 Kettenindizes . . . . . . . . . . . . . . . . . . . . . . . . 113 6.7.1 Definition von Kettenindizes . . . . . . . . . . . . 114 6.7.2 Vor- und Nachteile von Kettenindizes . . . . . . . . 115 6.7.3 Deflationierung mit Kettenindizes . . . . . . . . . . 116 6.8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 118 6.9 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 6 <?page no="101"?> 102 6 Preis- und Mengenindizes 6.1 Einleitung In diesem Kapitel werden Preis- und Mengenindizes besprochen. Umsätze zweier Perioden resultieren aus den jeweils in diesen Perioden gekauften Mengen zu den zu diesen Zeitpunkten geltenden Preisen. Damit verbunden sind sowohl Veränderungen der Mengen von der einen auf die andere Periode als auch Veränderungen der Preise. Die Entscheidungen über die Mengen sind dabei auch von den aktuell geltenden relativen Preisen bestimmt. Welche Mengen zu anderen Preisen gekauft worden wären, ist eine hypothetische Frage, die sich nicht beantworten lässt. Obwohl es sich somit um Fiktionen handelt, wenn Umsatzveränderungen in „reine“ Preis- und „reine“ Mengenveränderungen aufgegliedert werden, besteht ein großes Interesse an Informationen dieser Art. So ist etwa die Preisveränderung zum Vorjahr wesentliche Bestimmungsgröße für Nominallohnforderungen von Gewerkschaften, Anpassungen von Sozialleistungen usw. Weil statistische Informationen über Preise und ihre Entwicklung fast immer in Form von Preisindizes dargestellt werden, stellen wir im Folgenden die wichtigsten Methoden der Berechnung von Preisindizes dar. Die Konstruktionsideen von Preisindizes lassen sich auf die Berechnung von Mengenindizes übertragen. 6.2 Transaktionen, Mengen und Preise Den gedanklichen Ausgangspunkt der Preisstatistik bilden einzelne Transaktionen, in denen eine jeweils bestimmte Menge einer bestimmten Gütersorte gegen eine bestimmte Menge Geld (ausgedrückt in Geldeinheiten, z. B. in Euro) verkauft bzw. gekauft wird. Wir verwenden folgende Definition von P. v. d. Lippe (1996: 401): „Preise sind bei Kaufverträgen verabredete Geldbeträge je Produkteinheit.“ Der Preisbegriffbezieht sich demnach auf eine Einheit des Gutes. Von weiteren Leistungen oder Diensten (etwa Beratungstätigkeiten, Erläuterungen des adäquaten Gebrauchs, das Ambiente, usw.), die beim Güterkauf unter Umständen miterworben werden, abstrahieren wir. Diese Definition entspricht auch einer statistischen Betrachtungsweise, bei der durch Durchschnittsbildungen von den <?page no="102"?> 6.3 Preisindizes auf Basis von Warenkorbvergleichen 103 Tabelle 6.1: Mengen, Preise und Umsätze in 4 Perioden. Periode q 1 q 2 q 3 p 1 p 2 p 3 u 1 1 2 3 4 3 2 16 2 2 2 3 4 3 3 23 3 1 1 4 5 5 2 18 4 2 2 3 4 4 1 19 individuellen Transaktionen bzw. Marktpreisen abstrahiert wird. Wir nehmen an, dass es n Güter gibt und man für jedes Gut c j folgende Größen kennt: Die gesamte Gütermenge q tj , die in der Periode t umgesetzt worden ist, und den gesamten Geldbetrag u tj , der dafür gezahlt worden ist. Der Marktpreis des Guts in der Periode t ist dann p tj = u tj / q tj . 1 6.3 Preisindizes auf Basis von Warenkorbvergleichen Der Konstruktion von Preisindizes liegt die Fragestellung zugrunde, wie man sich ein Bild von der zeitlichen Entwicklung von Gesamtumsätzen machen kann, bei dem hypothetisch zwischen zwei Komponenten unterschieden wird: Veränderungen in den umgesetzten Gütermengen und Veränderungen in den Preisen. Zu betonen ist, dass es sich um fiktive Konstruktionen handelt, da den „Komponenten“ keine empirischen Sachverhalte entsprechen. Um das Problem zu verdeutlichen, kann ein kleines Zahlenbeispiel dienen. Es wird angenommen, dass Daten für drei Gütersorten und vier Perioden verfügbar sind (Tabelle 6.1). R-6-1 Ein Problem besteht darin, dass man zur Repräsentation sowohl der Mengen als auch der Preise Vektoren benötigt; für die Mengen die Vektoren q t = (q t 1 , . . . , q tn ) ′ und für die Preise die Vektoren p t = (p t 1 , . . . , p tn ) ′ . 1 Dies ist eine theoretische Betrachtung. Tatsächlich werden nicht Umsätze von tatsächlichen Transaktionen in der Preisstatistik erfasst, sondern lediglich die Preise in Verkaufsstätten und Katalogen, zu denen Güter angeboten werden. 6 <?page no="103"?> 104 6 Preis- und Mengenindizes (Durch das Häckchen für die Transposition wird angezeigt, dass es sich um Spaltenvektoren handelt.) Wie sich diese Vektoren verändern, kann jedoch nicht durch einfache Zahlen ausgedrückt werden. Z. B. kann man nicht sagen, um wie viel Prozent q 2 größer ist als q 1 . Man kann jedoch monetäre Gesamtumsätze u t = n ∑ j =1 q tj p tj = q ′ t p t berechnen. Für unser Beispiel sind die Werte in der letzten Spalte von Tabelle 6.1 angegeben. Somit kann man z. B. sagen, dass dieser Gesamtumsatz von der ersten zur zweiten Periode um rund 44 % zugenommen hat. Aber man kann nicht sagen, welcher Teil davon durch Veränderungen in den Mengen und welcher Teil durch Veränderungen in den Preisen zustande gekommen ist. Um für dieses unlösbare Problem dennoch zu behelfsmäßigen Lösungen zu gelangen, haben sich Statistiker eine Vielzahl unterschiedlicher Indexkonstruktionen ausgedacht. In der Praxis werden hauptsächlich zwei Arten von Indizes verwendet. Beide können als Preis- und als Mengenindizes verwendet werden. Die erste Variante wird nach dem Statistiker Etienne Laspeyres (1834- 1913) benannt. In der Form eines Preisindex lautet die Definition P l t 0 t 1 = ∑ n j =1 q t 0 j p t 1 j ∑ n j =1 q t 0 j p t 0 j = q ′ t 0 p t 1 q ′ t 0 p t 0 . Um die Veränderung der Preise zwischen einer Anfangsperiode t 0 und einer späteren Periode t 1 „unter Ausschaltung von Mengenänderungen“ zu erfassen, wird hypothetisch angenommen, dass die in der Periode t 1 beobachteten Preise auch realisiert worden wären, wenn sich die Mengen nicht verändert hätten. Analog lautet die Definition für den Mengenindex nach Laspeyres Q l t 0 t 1 = ∑ n j =1 q t 1 j p t 0 j ∑ n j =1 q t 0 j p t 0 j = q ′ t 1 p t 0 q ′ t 0 p t 0 . In diesem Fall wird angenommen, dass sich die Preise nicht verändert hätten, d.h. es werden zur Bewertung der Mengen jedes Mal <?page no="104"?> 6.3 Preisindizes auf Basis von Warenkorbvergleichen 105 die Preise der Basisperiode t 0 verwendet. 2 Eine andere Variante wurde von dem Statistiker Hermann Paasche (1851-1925) vorgeschlagen. Seine Definitionen verwenden nicht die Mengen bzw. Preise der Basisperiode t 0 , sondern der jeweils aktuellen Periode t 1 . Für den Preisindex gelangt man dann zur Definition P p t 0 t 1 = ∑ n j =1 q t 1 j p t 1 j ∑ n j =1 q t 1 j p t 0 j = q ′ t 1 p t 1 q ′ t 1 p t 0 und für den korrespondierenden Mengenindex zur Definition Q p t 0 t 1 = ∑ n j =1 q t 1 j p t 1 j ∑ n j =1 q t 0 j p t 1 j = q ′ t 1 p t 1 q ′ t 0 p t 1 . Zur Illustration berechnen wir die Indizes mit den Zahlen aus Tabelle 6.1. Zwei ausgewählte Preis- und Mengenindizes berechnen wir dabei in sehr ausführlicher Darstellung. Für den Preisindex nach Laspeyres für die Preisentwicklung von Periode 3 auf die Periode 4, d.h. t 0 = 3 und t 1 = 4 ergibt sich P l 3 , 4 = ∑ n j =1 q t 0 j p t 1 j ∑ n j =1 q t 0 j p t 0 j = 1 · 4 + 1 · 4 + 4 · 1 1 · 5 + 1 · 5 + 4 · 2 = 0.67. Für den Mengenindex nach Paasche für die Mengenentwicklung von Periode 1 auf die Periode 2, d.h. t 0 = 1 und t 1 = 2 ergibt sich Q p 1 , 2 = Q p 1 , 2 = ∑ n j =1 q t 1 j p t 1 j ∑ n j =1 q t 0 j p t 1 j = 2 · 4 + 2 · 3 + 3 · 3 1 · 4 + 2 · 3 + 3 · 3 = 1.21. Tabellen 6.2 und 6.3 zeigen die Werte der beiden Preis- und der beiden Mengenindizes für alle Perioden. R-6-2 Man erkennt, dass sich die Werte erheblich unterscheiden können. So wird verständlich, dass im Laufe der Zeit zahlreiche weitere Vorschläge für Indexkonstruktionen gemacht worden sind und die Diskussion über Vor- und Nachteile der verschiedenen Indizes bis heute anhält. Darauf soll hier nicht näher eingegangen werden. 3 2 In der Literatur werden die hypothetisch als konstant angenommenen Vektoren der Basisperiode (bei Preisindizes q t 0 , bei Mengenindizes p t 0 ) oft als ‘Wägungsschemas’, in manchen Zusammenhängen auch als ‘Warenkorb’ bezeichnet. 3 Man vgl. z. B. D. Kunz (1987: 282ff.), P. v. d. Lippe (1996: 407ff.), W. 6 <?page no="105"?> 106 6 Preis- und Mengenindizes Tabelle 6.2: Preis- und Mengenindizes (1). t 0 t 1 q ′ t 0 p t 0 q ′ t 1 p t 0 q ′ t 0 p t 1 q ′ t 1 p t 1 1 2 16 20 19 23 2 3 23 19 26 18 3 4 18 26 12 19 Tabelle 6.3: Preis- und Mengenindizes (2). t 0 t 1 P l t 0 t 1 P p t 0 t 1 Q l t 0 t 1 Q p t 0 t 1 1 2 1.19 1.15 1.25 1.21 2 3 1.13 0.95 0.83 0.69 3 4 0.67 0.73 1.44 1.58 6.4 Messziffernmittelung Die dargestellten Preisindizes nach Laspeyres lassen sich auch in der Form der Messziffernmittelung darstellen. Ausgangspunkt sind die n Messziffern m t 0 t 1 ,j = p t 1 j / p t 0 j der betrachteten Güter für die Zeitpunkte t 1 und t 0 . Um diese n verschiedenen Informationen über die Preisentwicklung zu aggregieren und dabei die unterschiedliche Bedeutung der einzelnen Güter zu berücksichtigen, bietet es sich an, diese gewichtet zu mitteln. Als Gewichte können die Ausgabenanteile in der Periode t 1 g t 1 j = q t 1 j p t 1 j ∑ n k =1 q t 1 k p t 1 k oder in der Periode t 0 g t 0 j = q t 0 j p t 0 j ∑ n k =1 q t 0 k p t 0 k verwendet werden. Die Werte für das Zahlenbeispiel finden sich in den Tabellen 6.4 und 6.5. R-6-3 Berechnet man ein mit den Ausgabenanteilen der Periode t 0 gewichtetes arithmetisches Mittel der n Preismesszahlen, resultiert Neubauer (1996), H. Rinne (1996: 321ff.), W. Krug, M. Nourney und J. Schmidt (1999: 368ff.). <?page no="106"?> 6.4 Messziffernmittelung 107 Tabelle 6.4: Messziffern und Ausgabenanteile (1). t 0 t 1 m t 0 ,t 1 1 m t 0 ,t 1 2 m t 0 ,t 1 3 1 2 1.000 1.000 1.500 2 3 1.250 1.667 0.667 3 4 0.800 0.800 0.500 Tabelle 6.5: Messziffern und Ausgabenanteile (2). t 0 t 1 g t 0 1 g t 0 2 g t 0 3 g t 1 1 g t 1 2 g t 1 3 1 2 0.250 0.375 0.375 0.348 0.261 0.391 2 3 0.348 0.261 0.391 0.278 0.278 0.444 3 4 0.278 0.278 0.444 0.421 0.421 0.158 der Preisindex nach Laspeyres: P l t 0 t 1 = n ∑ j =1 m t 0 t 1 ,j g t 0 j = n ∑ j =1 p t 1 j p t 0 j q t 0 j p t 0 j ∑ n k =1 q t 0 k p t 0 k = ∑ n j =1 q t 0 j p t 1 j ∑ n j =1 q t 0 j p t 0 j . Das mit den Ausgabenanteilen der Periode t 1 gewichtete harmonische Mittel der Preismesszahlen führt zum Preisindex nach Paasche: P p t 0 t 1 = 1 ∑ n j =1 1 m t 0 t 1 ,j g t 1 j = 1 ∑ n j =1 p t 0 j p t 1 j q t 1 j p t 1 j ∑ n k=1 q t 1 k p t 1 k = ∑ n j =1 q t 1 j p t 1 j ∑ n j =1 q t 1 j p t 0 j . Ermitteln wir zur Veranschaulichung den Laspeyres-Preisindex für die Preisentwicklung der Periode 1 auf die Periode 2: P l t 1 t 2 = n ∑ j =1 m t 0 t 1 ,j g t 0 j = 1 · 0.250 + 1 · 0.375 + 1.5 · 0.375 = 1.19. 6 <?page no="107"?> 108 6 Preis- und Mengenindizes Für den Preisindex nach Paasche für die Entwicklung der Preise von der Periode 3 auf die Periode 4 ergibt sich P p t 3 t 4 = 1 ∑ n j =1 1 m t 0 t 1 ,j g t 1 j = 1 1 0 . 8 · 0.421 + 1 0 . 8 · 0.421 + 1 0 . 5 · 0.158 = 0.73. 6.5 Repräsentativgewichtung: Einzelpreise und Ausgabenanteile Die Darstellung in der Form der Messziffernmittelung ist von praktischer Bedeutung, weil z. B. beim Verbraucherpreisindex zwar rund 300,000 Einzelpreise, aber Ausgabenanteile nur für 700 Güter und Dienstleistungen ermittelt werden. Die vielen (im Mittel 429) Einzelpreise p ij ( i = 1 , . . . , n j ) eines Gutes oder einer Dienstleistung c j werden in den Perioden t 0 und t 1 ungewichtet gemittelt, und aus diesen mittleren Preisen wird eine Preismesszahl gebildet, die dann mit dem Ausgabenanteil gewichtet wird. Dieses Vorgehen wird als Repräsentativgewichtung bezeichnet. 4 Im Fall des Verbraucherpreisindex wird somit gerechnet P l t 0 ,t 1 = n ∑ j =1 ¯ p t 1 j ¯ p t 0 j g t 0 j , mit ¯ p t 1 j = 1 n j n j ∑ i =1 p t 1 ij und ¯ p t 0 j = 1 n j n j ∑ i =1 p t 0 ij . Hier ist zu beachten, dass durch diese Vorgehensweise teure Güter in stärkerem Maße berücksichtigt werden, weil das Verhältnis der Durchschnittspreise gerade das mit den Preisen der Periode t 0 gewichtete arithmetische Mittel der Preismesszahlen ist (vgl. W. Neubauer 1996: 77f). Dies lässt sich darstellen durch ¯ p t 1 j ¯ p t 0 j = ∑ n j i =1 p t 1 ij ∑ n j i =1 p t 0 ij = ∑ n j i =1 p t 1 ij p t 0 ij p t 0 ij ∑ n j i =1 p t 0 ij . 4 Preise, Verbraucherpreisindizes für Deutschland, Jahresbericht 2010, Statistisches Bundesamt, Wiesbaden 2011. <?page no="108"?> 6.6 Konstruktion von Indexziffern 109 Die angeführten Definitionen zeigen, dass sich Preisindizes stets auf zwei Zeitperioden beziehen. Man kann also nicht von einem absoluten Preisniveau, sondern nur von Veränderungen des Preisniveaus sprechen, wobei natürlich die Veränderungen auch davon abhängen, welche Arten von Preisindizes verwendet werden. Außerdem ist klar, dass stets eine Angabe der Gütersorte erfolgen muss, auf deren Transaktionen sich Veränderungen des Preisniveaus beziehen sollen. Das Statistische Bundesamt berechnet deshalb eine Vielzahl unterschiedlicher Preisindizes, die sich auf jeweils unterschiedlich ausgesuchte Arten von Gütern beziehen. 6.6 Konstruktion von Indexziffern Da in der amtlichen Statistik zumeist Indexziffern (auch Indexzahlen genannt) ausgewiesen werden, sollen diese kurz besprochen werden. Als Beispiel wird auf Preisindizes Bezug genommen (ganz analoge Überlegungen gelten für Mengenindizes). Das Ziel besteht in diesem Fall darin, die Preisentwicklung (Veränderungen des Preisniveaus) während einer Folge von Perioden t 0 , t 1 , t 2 , . . . darzustellen. t 0 wird als Basisperiode bezeichnet. Werden Laspeyres-Indizes verwendet, bezieht sich auch meistens das Wägungsschema auf diese Basisperiode, und es wird dann für alle weiteren Perioden unverändert beibehalten, bis (in größeren zeitlichen Abständen) ein neues Wägungsschema eingeführt wird. Das Wägungsschema gibt die Ausgabenanteile für Gütergruppen an und dient der Gewichtung der Preismessziffern. Der Indexziffer, mit der Veränderungen des Preisniveaus erfasst werden sollen, wird in der Basisperiode der Wert 100 gegeben. Bezeichnet I t die Indexziffer, wird also I t 0 = 100 gesetzt. Die weiteren Werte ergeben sich dann aus den Preisindizes. Tabelle 6.6 verdeutlicht die Berechnung. Zur Illustration können folgende Indexziffern für die Erzeugerpreise gewerblicher Produkte der Gütergruppe 10 11 12 (Schweinefleisch, frisch oder gekühlt) dienen. 5 Tabelle 6.7 zeigt die Preisentwicklung von 2010 bis 2015. R-6-4 Als Basisperiode dient in diesem Fall das Jahr 2010. Im Übergang 5 Statistisches Bundesamt (2016), Index der Erzeugerpreise gewerblicher Produkte (Inlandsabsatz), nach dem Güterverzeichnis für Produktionsstatistiken, Ausgabe 2009 (GP 2009), Lange Reihen der Fachserie 17, Reihe 2 von Januar 2000 bis September 2016, Wiesbaden, S. 16. 6 <?page no="109"?> 110 6 Preis- und Mengenindizes Tabelle 6.6: Berechnung von Indexziffern für das Preisniveau. t Preisindex Indexziffer t 0 I t 0 = 100 t 1 P t 0 t 1 I t 1 = I t 0 P t 0 t 1 t 2 P t 1 t 2 I t 2 = I t 1 P t 1 t 2 t 3 P t 2 t 3 I t 3 = I t 2 P t 2 t 3 t 4 P t 3 t 4 I t 4 = I t 3 P t 3 t 4 Tabelle 6.7: Erzeugerpreisentwicklung, Schweinefleisch, frisch oder gekühlt. Jahr 2010 2011 2012 2013 2014 2015 Indexziffer 100 105 . 7 113 . 7 116 . 3 109 . 7 100 . 3 Proz. Ver. 5 . 7 7 . 6 2 . 3 − 5 . 7 − 8 . 6 von 2010 nach 2011 hat das Preisniveau um 5.7 % zugenommen, im Übergang von 2011 nach 2012 um ( 113.7 105.7 − 1 ) · 100 ≈ 7.6 %, im Übergang von 2012 nach 2013 um 2.3 % usw. Zugrunde liegen Preisindizes nach Laspeyres, die, wie Tabelle 6.6 zeigt, direkt aus den prozentualen Veränderungen der Indexziffern berechnet werden können. 6.6.1 Der Verbraucherpreisindex Der Verbraucherpreisindex (früher Preisindex der Lebenshaltung) ist der meistbeachtete Preisindex und seine prozentuale Veränderung wird üblicherweise als Inflationsrate bezeichnet. Der Index wird nach der Indexformel von Laspeyres berechnet, und im Schnitt wird alle fünf Jahre das Wägungsschema aktualisiert. Die Datengrundlage des Verbraucherpreisindex wird sehr aufwendig ermittelt. Monatlich erfassen ungefähr 600 Preiserheber in 188 Gemeinden rund 300,000 Einzelpreise in knapp 40,000 Berichtsstellen (z. B. Einzelhandelsgeschäfte, Dienstleister, Internetanbieter). Die Berichtsgemeinden sind regional über das gesamte Bundesgebiet verteilt und bestehen sowohl aus Großstädten als auch aus mittleren und kleinen Gemeinden. Der Warenkorb besteht aus rund 700 <?page no="110"?> 6.6 Konstruktion von Indexziffern 111 Tabelle 6.8: Verbraucherpreisindex (VPI): Wägungsschema (1995, 2000, 2005, 2010), ∑ = 1000. Abteilungen 1995 2000 2005 2010 Nahrungsm. und alkoholfreie Getränke 131 . 26 103 . 35 103 . 55 102 . 71 Alkoholische Getränke und Tabakwaren 41 . 67 36 . 73 38 . 99 37 . 59 Bekleidung und Schuhe 68 . 76 55 . 09 48 . 88 44 . 93 Wohnung, Wasser, Strom, Gas etc. 274 . 77 302 . 66 308 . 00 317 . 29 Einrichtungsgegenstände 70 . 56 68 . 54 55 . 87 49 . 78 Gesundheitspflege 34 . 39 35 . 46 40 . 27 44 . 44 Verkehr 138 . 82 138 . 65 131 . 90 134 . 73 Nachrichtenübermittlung 22 . 66 25 . 21 31 . 00 30 . 10 Freizeit, Unterhaltung, Kultur 103 . 57 110 . 85 115 . 68 114 . 92 Bildungswesen 6 . 51 6 . 66 7 . 40 8 . 80 Beherbergungs- und Gaststättendienstl. 46 . 08 46 . 57 43 . 99 44 . 67 Andere Waren und Dienstleistungen 60 . 95 70 . 23 74 . 47 70 . 04 Gütern und Dienstleistungen. Für diese Güter und Dienstleistungen werden ausgehend von den rund 300,000 Einzelpreisen mittlere Preisveränderungen berechnet. In die Indexformel gehen die für diese Güter und Dienstleistungen ermittelten Preismessziffern ein, die mit den jeweiligen Ausgabenanteilen im Basisjahr gewichtet werden. Grundlage der Ermittlung des Wägungsschemas sind die Einkommens- und Verbrauchsstichprobe (EVS), die das Ausgabeverhalten von rund 6,000 Haushalten erfasst, sowie die Laufenden Wirtschaftsrechnungen und die Steuerstatistik. Für die letzten vier Basisjahre - 1995, 2000, 2005 und 2010 - sind für 12 Gütergruppen (Abteilungen des Güterverzeichnisses) die Anteile an den Ausgaben in der Tabelle 6.8 dargestellt. 6 Innerhalb des Zeitraums von 15 Jahren haben sich teilweise deutliche Veränderungen der Ausgabenanteile ergeben. So hat sich z. B. der Anteil für Nachrichtenübermittlung um 37 % erhöht, der Anteil der Ausgaben für Bekleidung und Schuhe um 29 % verringert. 6.6.2 Entwicklung der Verbraucherpreise seit 1881 Das Statistische Bundesamt veröffentlicht in der Fachserie 17 Preise 7 eine lange Zeitreihe zur Entwicklung der Verbraucherpreise, die 6 Statistisches Bundesamt (2013), Preise, Verbraucherpreisindex für Deutschland, Wägungsschema f.d. Basisjahr 2010, Wiesbaden, S.2. 7 Statistisches Bundesamt (2011), Fachserie 17, Preise, Verbraucherpreisindizes für Deutschland, Jahresbericht 2010, Wiesbaden. 6 <?page no="111"?> 112 6 Preis- und Mengenindizes Jahr Preisindex 1880 1900 1920 1940 1960 1980 2000 2020 0 20 40 60 80 100 120 Abbildung 6.1: Preisentwicklung 1881-2010, 2010=100. bis 1881 zurückreicht (vgl. Abb. 6.1). Für die Zusammenstellung mussten dabei mehrere Indexreihen verwendet werden, die sich auf verschiedene Gebietsstände und verschiedene Haushaltstypen beziehen. Die genaueren Angaben über die verketteten Indexreihen übernehmen wir vom Statistischen Bundesamt. Folgende Daten dienten als Grundlage der Nachweisung: 1. Für die Jahre 1881 bis 1913 ist der Durchschnitt aus 10 Indexziffern (Ernährung) verschiedener privater Autoren ermittelt worden. 2. In den Jahren 1914 bis 1923 wurde die Preisentwicklung in den wichtigsten Teilbereichen der Lebenshaltung durch die amtliche Statistik beobachtet. Für die Zeit von 1914 bis 1919 wurde der Durchschnitt aus den Gütergruppen Ernährung, Wohnung, Hausrat und Bekleidung berechnet, für die Jahre 1920 und 1921 der Durchschnitt aus den Gütergruppen Ernährung, Wohnung, Heizung, Beleuchtung und Bekleidung. 3. Wegen der sprunghaften Geldentwertung erschien eine Berechnung für die Jahre 1922 und 1923 nicht angebracht. <?page no="112"?> 6.7 Kettenindizes 113 4. Indizes, die die Verbraucherpreisentwicklung in allen Bereichen der Lebenshaltung in Deutschland aufzeigen, werden seit 1924 berechnet. Das Statistische Reichsamt veröffentlichte bis 1944 die „Reichsindexziffer für die Lebenshaltungskosten“. 5. Seit 1945 werden verschiedene Preisindizes für die Lebenshaltung vom Statistischen Bundesamt bzw. dessen Vorgängerorganisation berechnet. Der Reihe liegt von 1945 bis 1961 der „Preisindex für die Lebenshaltung von 4-Personen-Haushalten von Arbeitern und Angestellten mit mittlerem Einkommen“ zu Grunde. 6. Ab 1962 ist der „Preisindex für die Lebenshaltung aller Privaten Haushalte“ in den jeweiligen Gebietsständen maßgeblich. 7. Die Jahresdurchschnitte ab 1949 wurden als arithmetisches Mittel aus den gerundeten Monatsindizes berechnet und auf eine Nachkommastelle gerundet. Bei der Berechnung der Monatswerte ab Juni 1948 wurden die jeweils auf der Originalbasis berechneten Indizes zu Grunde gelegt. Abbildung 6.2 zeigt bis zum Beginn der extremen Inflation im Jahre 1919 einen erratischen Verlauf mit mäßigen Preisveränderungen. Für die Jahre der Hyperinflation 1920 bis 1924 werden keine Preisveränderungen ausgewiesen. In den Jahren der Depression 1931 und 1932 betragen die Preisrückgänge − 8.1 % und − 11.4 %. In den Jahren unmittelbar nach dem zweiten Weltkrieg zeigen sich extreme Preisveränderungen (1948: 15.3 %, 1950: − 6.2 %). In den Jahren 1971 bis 1975 sowie in den Jahren 1981 und 1982 waren Inflationsraten von über 5 % zu verzeichnen. Seit Mitte der 90er Jahre sind die Preisveränderungen sehr moderat. 6.7 Kettenindizes Im Rahmen der Revision der Volkswirtschaftlichen Gesamtrechnung des Jahres 2005 wurden in Deutschland Kettenindizes eingeführt. 8 Anstelle der bisher verwendeten Laspeyres-Indizes zur 8 Statistisches Bundesamt, Revision der Volkswirtschaftlichen Gesamtrechnungen 2005 für den Zeitraum 1991 bis 2004, Wirtschaft und Statistik, 2005, 5, S.425-462. 6 <?page no="113"?> 114 6 Preis- und Mengenindizes Jahr Inflationsrate -10 -5 0 5 10 15 20 1880 1900 1920 1940 1960 1980 2000 2020 Abbildung 6.2: Jährliche Preisveränderung 1881-2010. Preismessung mit fester Basis werden nun verkettete Lasypeyres- Indizes mit Vorjahresbasis verwendet. Wurde bisher lediglich im Fünf-Jahresrhythmus bei Anpassung des Basisjahres verkettet, wird nun jährlich verkettet. Damit geht auch bei der Ermittlung der „preisbereinigten Größen“ eine Änderung einher. Anstelle des Ausweises in konstanten Preisen einer Basisperiode werden nun lediglich Kettenindizes der preisbereinigten Wertgrößen veröffentlicht. 6.7.1 Definition von Kettenindizes Betrachten wir zunächst im Vergleich den bisherigen Laspeyres- Preisindex für die Perioden t 1 und t 2 auf fester Basis t 0 : P l t 0 t 1 = ∑ n j =1 p t 1 j q t 0 j ∑ n j =1 p t 0 j q t 0 j und P l t 0 t 2 = ∑ n j =1 p t 2 j q t 0 j ∑ n j =1 p t 0 j q t 0 j . Aus den beiden Preisindizes der Perioden t 1 und t 2 lässt sich die Preisveränderung von Periode t 1 auf Periode t 2 mit fester Basis t 0 ermitteln: P l t 1 t 2 , ( t 0 ) = P l t 0 t 2 P l t 0 t 1 = ∑ n j =1 p t 2 j q t 0 j ∑ n j =1 p t 1 j q t 0 j <?page no="114"?> 6.7 Kettenindizes 115 Im Vergleich hierzu wird beim aktuell verwendeten Verfahren der Index P l t 1 t 2 = ∑ n j =1 p t 2 j q t 1 j ∑ n j =1 p t 1 j q t 1 j anstelle von P l t 1 t 2 , ( t 0 ) berechnet. Für den Zeitraum von t 0 bis t 2 wird nun die Preisveränderung P K t 0 t 2 = P l t 0 ,t 1 P l t 1 ,t 2 = ∑ n j =1 p t 1 j q t 0 j ∑ n j =1 p t 0 j q t 0 j ∑ n j =1 p t 2 j q t 1 j ∑ n j =1 p t 1 j q t 1 j ermittelt, indem die beiden Laspeyres-Preisindizes verkettet werden. Zwar sind aus beiden verketteten Laspeyres-Preisindizes Mengenveränderungen ausgeschaltet, jedoch gehen durch die beiden unterschiedlichen Basisjahre indirekt Mengenveränderungen in die Preismessung ein. 6.7.2 Vor- und Nachteile von Kettenindizes Beim Laspeyres-Index werden bei zurückliegendem Basisjahr nicht mehr aktuelle Mengenrelationen verwendet. Da tendenziell zwischen den Mengen- und Preismesszahlen der Güter eine negative Korrelation vorliegt, überzeichnet der Laspeyres-Preisindex die Preissteigerung umso stärker, je weiter das Basisjahr zurückliegt. Mit der Vorjahrespreisbasis wird dieses „Veralten des Warenkorbs“ vermieden. Bei der Anpassung des Basisjahres eines Laspeyres- Index ergeben sich bei den Revisionen (rückwirkend) immer Änderungen der zuvor ausgewiesenen Preis- und Mengenveränderungen. Für die Preisveränderung des Jahres t 4 gegenüber t 3 z. B. ergibt sich vor bzw. nach Revision, d.h. Anpassung des Basisjahres von t 0 auf t 5 P l t 3 t 4 , ( t 0 ) = ∑ n j =1 p t 4 j q t 0 j ∑ n j =1 p t 3 j q t 0 j = P l t 3 t 4 , ( t 5 ) = ∑ n j =1 p t 4 j q t 5 j ∑ n j =1 p t 3 j q t 5 j Und für die Mengenveränderungen ergibt sich Q l t 3 t 4 , ( t 0 ) = ∑ n j =1 p t 0 j q t 4 j ∑ n j =1 p t 0 j q t 3 j = Q l t 3 t 4 , ( t 5 ) = ∑ n j =1 p t 5 j q t 4 j ∑ n j =1 p t 5 j q t 3 j . 6 <?page no="115"?> 116 6 Preis- und Mengenindizes Derartige rückwirkende Änderungen sind bei der Verwendung der Vorjahrespreisbasis ausgeschlossen. Den Vorteilen stehen allerdings auch gravierende Nachteile gegenüber: Wie oben erwähnt, liefern Kettenpreisindizes keine konsistente Isolierung einer Preisveränderung. Der Bedeutungsgehalt eines bestimmten Indexstandes ist somit unklar. Der Kettenindex ist zudem nicht pfadinvariant. Sind etwa in Periode t 2 die Preise identisch zu denen in t 0 , resultiert beim Laspeyres-Index P l t 0 ,t 2 = ∑ n j =1 p t 2 j q t 0 j ∑ n j =1 p t 2 j q t 0 j = 1 und beim Kettenindex hingegen P K t 0 ,t 2 = P l t 0 ,t 1 P l t 1 ,t 2 = ∑ n j =1 p t 1 j q t 0 j ∑ n j =1 p t 2 j q t 0 j ∑ n j =1 p t 0 j q t 1 j ∑ n j =1 p t 1 j q t 1 j = 1. 6.7.3 Deflationierung mit Kettenindizes Mit dem Übergang zur Vorjahrespreisbasis geht einher, dass vom Statistischen Bundesamt keine Zeitreihen von „realen Größen“, d.h. von Mengensurrogaten durch die Verwendung konstanter Preise, mehr veröffentlicht werden. Informationen über den Privaten Verbrauch zweier Perioden t 0 und t 4 in den Preisen des Basisjahres t 0 werden z. B. nicht mehr veröffentlicht. Stattdessen werden lediglich jährliche „reale Wachstumsraten“ ermittelt und zu Zeitreihen von Indizes verknüpft. Somit ist ein Vergleich etwa von ∑ n j =1 p t 0 j q t 4 j und ∑ n j =1 p t 0 j q t 0 j nicht mehr möglich. Veröffentlicht wird lediglich die aufmultiplizierte relative Veränderung Q K t 0 ,t 4 = Q l t 0 ,t 1 Q l t 1 ,t 2 Q l t 2 ,t 3 Q l t 3 ,t 4 . Auch hier gilt, dass aus den einzelnen Faktoren (Mengenindizes) Preisveränderungen eliminiert sind, aber durch die unterschiedlichen Basisjahre indirekt Preisveränderungen eingehen. Während in der Preisstatistik, etwa beim Verbraucherpreisindex, Laspeyres-Preisindizes berechnet werden, sind die Preisindizes der Verwendungsrechnung der Volkswirtschaftlichen Gesamtrechnungen implizite Kettenindizes vom Typ Paasche. Ausgangsbasis <?page no="116"?> 6.7 Kettenindizes 117 sind die mit Vorjahrespreisen berechneten („deflationierten“) Größen ∑ n j =1 p t 0 j q t 1 j . Die Division der Werte in jeweiligen Preisen führt zu „impliziten“ Paasche-Indizes P p t 0 ,t 1 = ∑ n j =1 p t 1 j q t 1 j ∑ n j =1 p t 0 j q t 1 j . 6 <?page no="117"?> 118 6 Preis- und Mengenindizes 6.8 Aufgaben 1. Die nachfolgende Tabelle enthält die Preise und Mengen von zwei Gütern in drei Perioden: Preise Mengen t Gut A Gut B Gut A Gut B 0 18 50 4 10 1 20 48 6 9 2 21 51 5 15 a) Ermitteln Sie eine Tabelle mit den absoluten und den relativen Ausgaben für die beiden Güter in den drei Perioden. b) Ermitteln Sie die Preismesszahlen der beiden Güter mit konstanter Basisperiode 0 und variabler Basisperiode (jeweilige Vorperiode). c) Ermitteln Sie das mit den relativen Ausgaben der Periode 0 gewichtete arithmetische Mittel der Preismesszahlen der Perioden 1 bzw. 2 auf Basis der Periode 0. Wie nennt man dieses gewichtete arithmetische Mittel? d) Ermitteln Sie das mit den relativen Ausgaben der Periode 1 gewichtete harmonische Mittel der Preismesszahlen der Periode 1 auf Basis der Periode 0. e) Ermitteln Sie analog zu Aufgabe d das gewichtete harmonische Mittel der Preismeßzahlen der Periode 2 auf Basis der Periode 1 unter Verwendung der Ausgaben der Periode 2. Wie nennt man die von Ihnen berechneten harmonischen Mittelwerte? f) Die von Ihnen ermittelten Preisindizes lassen sich auch anstelle über die Mittelung von Messzahlen über den Vergleich von Warenkörben, tatsächlichen und fiktiven, ermitteln. Berechnen Sie die Preisindizes auch auf diesem Wege. <?page no="118"?> 6.8 Aufgaben 119 g) Die beiden von Ihnen berechneten harmonischen Mittel messen die isolierte mittlere Preisveränderung von Periode 1 gegenüber Periode 0 bzw. von Periode 2 gegenüber Periode 0. Prüfen Sie, ob Sie aus diesen beiden isolierten Preisentwicklungen die isolierte Preisentwicklung von Periode 2 gegenüber Periode 1 ermitteln können. h) Gelingt Ihnen die Ermittlung der isolierten Preisveränderung von Periode 1 auf Periode 2 bei den Preisindizes nach Laspeyres? i) Berechnen Sie die beiden Mengenindizes Q l t 0 ,t 2 und Q p t 0 ,t 1 . 2. Erläutern Sie die nachfolgenden drei Aussagen. a) Kettenindizes besitzen im Vergleich zu Preisindizes vom Typ Laspeyres den Vorteil, dass weniger veraltete Gewichtungsschemata verwendet werden. b) Kettenindizes sind nicht pfadinvariant. c) Bei der Messung der Preisveränderung von Periode t 2 gegenüber t 0 mit Hilfe von Kettenindizes werden indirekt auch Mengenänderung erfasst. 6 <?page no="119"?> 120 6 Preis- und Mengenindizes 6.9 R-Code R-6-1 ## Daten generieren # Mengen q1 <c(1,2,3) q2 <c(2,2,3) q3 <c(1,1,4) q4 <c(2,2,3) # Preise p1 <c(4,3,2) p2 <c(4,3,3) p3 <c(5,5,2) p4 <c(4,4,1) # Matrix der Mengen qm <rbind(q1,q2,q3,q4) qm # Matrix der Preise pm <rbind(p1,p2,p3,p4) pm # Umsatz pro Gut u.pro.Gut <qm*pm u.pro.Gut u <rowSums(u.pro.Gut) u R-6-2 ## Preis- und Mengenindizes # Daten Basisperiode q0 <qm[-4,] q0 p0 <pm[-4,] p0 # Daten Berichtsperiode q1 <qm[-1,] q1 p1 <pm[-1,] p1 # verschiedene Warenkörbe berechnen q0p0 <rowSums(q0*p0) q0p0 q1p1 <rowSums(q1*p1) q1p1 q0p1 <rowSums(q0*p1) q0p1 q1p0 <rowSums(q1*p0) q1p0 # Preisindex nach Laspeyres P_L <q0p1/ q0p0 <?page no="120"?> 6.9 R-Code 121 P_L # Preisindex nach Paasche P_P <q1p1/ q1p0 P_P # Mengenindex nach Laspeyres Q_L <q1p0/ q0p0 Q_L # Mengenindex nach nach Paasche Q_P <q1p1/ q0p1 Q_P R-6-3 # Messziffern m <p1 / p0 m # Ausgabenanteile g <qm*pm/ u g0 <g[-4,] g0 g1 <-g[-1,] g1 R-6-4 # Erzeugerpreisentwicklung, Schweinefleisch, frisch oder gekühlt Index <c(100.0,105.7,113.7,116.3,109.7,100.3) dIndex <- Index[-1]/ Index[-6]*100 - 100 dIndex 6 <?page no="122"?> 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und Streuungszerlegung Die Varianz und die Standardabweichung sind wenig anschauliche Streuungsmaße. Lassen sich die Einheiten verschiedenen Klassen zuordnen, dann erlaubt die Streuungszerlegung eine vollständige Aufteilung der Gesamtstreuung in die Streuung innerhalb der Klassen und zwischen den Klassen. Bestehen zwischen den Komponenten einer mehrdimensionalen Variable Abhängigkeiten, dann liefern bedingte Häufigkeiten und bedingte Verteilungen Informationen über diese Abhängigkeiten. 7.1 Mehrdimensionale Variablen . . . . . . . . . . . . . . . . 124 7.2 Bedingte Häufigkeiten . . . . . . . . . . . . . . . . . . . . 125 7.3 Streuungszerlegung . . . . . . . . . . . . . . . . . . . . . 127 7.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 131 7.5 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 7 <?page no="123"?> 124 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und . . . Tabelle 7.1: Zweidimensionale Variable, Beispielswerte. i x i y i i x i y i i x i y i 1 0 2 5 1 1 9 1 1 2 1 2 6 1 3 10 1 1 3 0 3 7 0 3 11 1 1 4 0 3 8 0 1 12 1 1 7.1 Mehrdimensionale Variablen Viele Fragen der Statistik betreffen Zusammenhänge zwischen zwei oder mehr Variablen. Mehrere Variablen müssen dann simultan betrachtet werden, und wir sprechen von zwei- oder mehrdimensionale Variablen. Für eine zweidimensionale Variable verwenden wir beispielsweise die Notation (X, Y ), um deutlich zu machen, dass die beiden Komponenten, X und Y , simultan betrachtet werden sollen. Eine solche Variable ordnet jeder Einheit zwei Merkmalswerte zu, einen Wert x i von X und einen Wert y i von Y . Um auszudrücken, dass beide Werte zur gleichen Einheit gehören, schreiben wir sie auch in der Form ( x i , y i ) als einen Wert der Variablen (X, Y ). Zur Illustration zeigt Tabelle 7.1 zufällig erzeugte Werte einer zweidimensionalen Variable (X, Y ) für 12 Einheiten. R-7-1 Die Häufigkeitsfunktion einer zweidimensionalen Variablen (X, Y ) hat die Form P ( X = x, Y = y ). Sie gibt den Anteil der Einheiten an, bei denen X den Wert x und Y den Wert y annimmt; beispielsweise P(X = 0, Y = 3) = 3/ 12 in unserem Zahlenbeispiel. Natürlich kann man auch die beiden Komponenten separat betrachten. Die Verteilungen der einzelnen Variablen werden dann als Randverteilungen bezeichnet. Die Randverteilung von X wird durch P(X = x) = K ∑ k =1 P(X = x, Y = ˜ y k ) ausgedrückt, wobei ˜ y 1 , . . . , ˜ y K die möglichen Merkmalswerte von Y sind. Ganz analog kann die Randverteilung von Y definiert werden. Tabelle 7.2 zeigt für unser Zahlenbeispiel die gemeinsame Verteilung und die Randverteilungen. Zu beachten ist, dass ausgehend von den Randverteilungen von <?page no="124"?> 7.2 Bedingte Häufigkeiten 125 Tabelle 7.2: Gemeinsame Verteilung und Randverteilungen für das Zahlenbeispiel. X/ Y Y=1 Y=2 Y=3 Insg. X=0 0.083 0.083 0.25 0.417 X=1 0.417 0.083 0.083 0.583 Insg. 0.5 0.167 0.333 1 X und Y nicht auf die gemeinsamen Verteilung von ( X, Y ) geschlossen werden kann. In der Regel gibt es sehr viele verschiedene gemeinsame Verteilungen, die die gleichen Randverteilungen haben. R-7-2 7.2 Bedingte Häufigkeiten Wir setzen wieder eine zweidimensionale Variable ( X, Y ) voraus. Oft gilt das Interesse der Verteilung von X unter der Bedingung, dass Y einen bestimmten Wert annimmt. Dies führt zur Idee einer bedingten Verteilung bzw. zu bedingten Häufigkeiten . Wir verwenden die Notation P(X = x | Y = y), womit die Häufigkeit von X = x in der Gesamtheit derjenigen Einheiten gemeint ist, bei denen Y den Wert y hat. Ganz analog kann man sich auf P(Y = y | X = x) beziehen. Man kann diese bedingten Häufigkeiten durch die gemeinsame Verteilung und die Randverteilungen ausdrücken. So gilt zum Beispiel: P(X = x | Y = y) = P(X = x, Y = y) P(Y = y) . Für das Zahlenbeispiel der Tabelle 7.1 findet man beispielsweise die Häufigkeit von X = 0 unter der Bedingung, dass Y = 1 ist, durch P(X = 0 | Y = 1) = 0.083 0.5 = 0.166. Betrachten wir jetzt eine zweidimensionale Variable (X, Y ) für die n = 1,000 Personen in unserem PSID-File. X erfasst das Geschlecht (0 = männlich, 1 = weiblich), Y erfasst den Beschäftigungssektor 7 <?page no="125"?> 126 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und . . . Tabelle 7.3: Gemeinsame Verteilung inklusive der Randhäufigkeiten. Geschlecht/ Sektor 0 1 Insg. 0 0.161 0.323 0.484 1 0.279 0.237 0.516 Insg. 0.44 0.56 1 (0 = Dienstleistungen, 1 = andernfalls). Die gemeinsame Verteilung und die Randhäufigkeiten werden in Tabelle 7.3 dargestellt. R-7-3 Wir finden z. B.: P(X = 1 | Y = 0) = P(X = 1, Y = 0) P(Y = 0) = 0.279 0.44 = 0.634 d.h., 63.4 % der Personen im Dienstleistungssektor sind Frauen. Andererseits ist der Anteil der Männer in den Nicht-Dienstleistungssektoren P(X = 0 | Y = 1) = 57.7 %. Eine weitere wichtige Gleichung ist der Satz von Bayes . Für seine Formulierung nehmen wir an, dass die Merkmalswerte von X durch ˜ x 1 , . . . , ˜ x J , die Merkmalswerte von Y durch ˜ y 1 , . . . , ˜ y K bezeichnet werden. Dann gilt folgende Gleichung: P(Y = ˜ y k | X = ˜ x j ) = P(X = ˜ x j | Y = ˜ y k ) P(Y = ˜ y k ) P(X = ˜ x j ) = P(X = ˜ x j | Y = ˜ y k ) P(Y = ˜ y k ) ∑ K k =1 P(X = ˜ x j | Y = ˜ y k ) P(Y = ˜ y k ) Zur Illustration bleiben wir bei dem Beispiel. Wären die Anteile der Frauen in den beiden Sektoren, d.h. P(X = 1 | Y = 0) und P(X = 1 | Y = 1) sowie die unbedingten Sektoranteile P ( Y = 0) und P(Y = 1) bekannt, ließe sich daraus mit Hilfe des Satzes von Bayes die bedingte Häufigkeit einer Tätigkeit im Dienstleistungssektor für Frauen ausrechnen: P(Y = 0 | X = 1) = P(X = 1 | Y = 0) P(Y = 0) P(X = 1 | Y = 0) P(Y = 0) + P(X = 1 | Y = 1) P(Y = 1) = 0.634 · 0.44 0.634 · 0.44 + 0.429 · 0.56 = 0.537. <?page no="126"?> 7.3 Streuungszerlegung 127 7.3 Streuungszerlegung Wir betrachten wieder eine zweidimensionale Variable (X, Y ) mit Werten (x i , y i ) für n Einheiten. Die Merkmalswerte von X werden durch ˜ x 1 , . . . , ˜ x J , die Merkmalswerte von Y durch ˜ y 1 , . . . , ˜ y K bezeichnet. Wir stellen uns vor, dass die Gesamtheit der Einheiten entsprechend den Werten von Y aus K Klassen besteht, und wir möchten zeigen, dass sich die Varianz von X im Hinblick auf diese Klassen auf eine interessante Weise zerlegen lässt. Wir beginnen mit der Varianz von X: σ 2 X = J ∑ j =1 (˜ x j − ¯ x) 2 P(X = ˜ x j ) = J ∑ j =1 (˜ x j − ¯ x) 2 K ∑ k =1 P(X = ˜ x j | Y = ˜ y k ) P(Y = ˜ y k ) = K ∑ k =1 J ∑ j =1 (˜ x j − ¯ x) 2 P(X = ˜ x j | Y = ˜ y k ) P(Y = ˜ y k ). Wenn ¯ x k den Mittelwert von X in der Klasse Y = ˜ y k bezeichnet lässt sich in der letzten Zeile anstelle von (˜ x j − ¯ x) 2 auch (˜ x j − ¯ x k + ¯ x k − ¯ x) 2 = (˜ x j − ¯ x k ) 2 + (¯ x k − ¯ x) 2 + 2 (˜ x j − ¯ x k ) (¯ x k − ¯ x). schreiben. Der letzten Zeile entsprechen also drei Summanden. Der erste Summand ist K ∑ k =1 J ∑ j =1 (˜ x j − ¯ x k ) 2 P(X = ˜ x j | Y = ˜ y k ) P(Y = ˜ y k ) = K ∑ k =1 σ 2 X| ˜ y k P(Y = ˜ y k ), wobei σ 2 X| ˜ y k = ∑ J j =1 ( ˜ x j − ¯ x k ) 2 P ( X = ˜ x j | Y = ˜ y k ) die Varianz 7 <?page no="127"?> 128 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und . . . von X in der Klasse Y = ˜ y k ist. Der zweite Summand ist K ∑ k =1 J ∑ j =1 (¯ x k − ¯ x) 2 P(X = ˜ x j | Y = ˜ y k ) P(Y = ˜ y k ) = K ∑ k =1 (¯ x k − ¯ x) 2 P(Y = ˜ y k ). Der dritte Summand ist 0, wie man durch folgende Umformung zeigen kann: 2 K ∑ k =1 J ∑ j =1 (˜ x j − ¯ x k ) (¯ x k − ¯ x) P(X = ˜ x j | Y = ˜ y k ) P(Y = ˜ y k ) = 2 K ∑ k =1 (¯ x k − ¯ x) P(Y = ˜ y k ) J ∑ j =1 (˜ x j − ¯ x k ) P(X = ˜ x j | Y = ˜ y k ) = 2 K ∑ k =1 (¯ x k − ¯ x) P(Y = ˜ y k ) · 0 = 0, da in jeder der K Klassen die Summe der mit den Häufigkeiten gewichteten Abweichungen vom arithmetischen Mittel gerade 0 ist (Nulleigenschaft des arithmetischen Mittels). Die Varianz von X besteht also aus zwei Summanden σ 2 X = K ∑ k =1 σ 2 X| ˜ y k P(Y = ˜ y k ) + K ∑ k =1 (¯ x k − ¯ x) 2 P(Y = ˜ y k ). Der erste Summand ist ein Mittelwert der Varianzen in den einzelnen Klassen (interne Varianz), der zweite Summand zeigt die Streuung der Klassenmittelwerte um den gesamten Mittelwert und kann als Varianz zwischen den Klassen (externe Varianz) interpretiert werden. Zur Illustration betrachten wir eine Variable (X, Y ) für die 1000 Personen in unserem PSID-File. X erfasst die Löhne, Y erfasst den Beschäftigungssektor, wobei wir jetzt alle K = 8 Sektoren unterscheiden. Tabelle 7.4 zeigt Sektoranteile P(Y = ˜ y k ), die Durchschnittslöhne in den Sektoren ¯ x k , die Varianzen in den Sektoren <?page no="128"?> 7.3 Streuungszerlegung 129 Tabelle 7.4: Streuungszerlegung, Lohn und Sektorzugehörigkeit. Sektor P(Y = ˜ y k ) ¯ x k σ 2 X| ˜ y k (¯ x k − ¯ x) 2 1 k.A. 0.097 22.990 810.311 462.101 2 LEB 0.024 63.509 3156.285 361.841 3 VG 0.128 55.138 4051.006 113.449 4 Bau 0.078 44.469 2181.771 0.000 5 Handel 0.102 45.458 2889.734 0.943 6 Transp. 0.045 42.194 755.621 5.256 7 BuV 0.086 52.784 3600.941 68.847 8 Dienste 0.440 43.480 4506.500 1.013 σ 2 X| ˜ y k und die quadrierten Abweichungen vom Gesamtmittelwert. 1 Um allzu große Zahlen zu vermeiden, betrachten wir in diesem Beispiel die Löhne in 1,000 US-Dollar. R-7-4 Für die durchschnittliche Streuung der Löhne in den Sektoren erhalten wir K ∑ k =1 σ 2 X| ˜ y k P(Y = ˜ y k ) = 3,464.355. Für die Streuung der Durchschnittslöhne der Sektoren ergibt sich K ∑ k =1 (¯ x k − ¯ x) 2 P(Y = ˜ y k ) = 74.729. Beide Varianzkomponenten addieren sich zur Gesamtvarianz σ 2 X = 3,539.083 . Das Verhältnis der Varianz zwischen den Klassen zur Gesamtvarianz gibt Auskunft darüber, welcher Anteil der Gesamtvarianz durch die Klassenzugehörigkeit (hier: die Beschäftigungssektoren) erklärt werden kann. In unserem Beispiel ist der Anteil sehr klein: 74.729 3,539.083 = 0.021. 1 Wir verwenden für die Darstellung in Tabelle 7.4 folgende Abkürzungen: 1 keine Angabe (k.A.), 2 Landwirtschaft, Energie, Bergbau (LEB), 3 Verarbeitendes Gewerbe (VG), 4 Baugewerbe (Bau), 5 Handel (Handel), 6 Transportgewerbe (Transp.), 7 Banken und Versicherungen (BuV), 8 Dienstleistungen (Dienste). 7 <?page no="129"?> 130 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und . . . Die Varianz der Löhne ist also nur zu einem sehr geringen Anteil (rund 2 %) auf die Unterschiede zwischen den Durchschnittslöhnen der Sektoren zurückzuführen und beruht im Wesentlichen auf der Varianz der Löhne in den Sektoren. R-7-5 <?page no="130"?> 7.4 Aufgaben 131 7.4 Aufgaben 1. Gehen Sie von der in Abschnitt 7.2 definierten Variablen (X, Y ) aus. Ihnen ist bekannt, dass 51 . 6 % der Personen Frauen sind. Zudem wissen Sie, dass der Anteil der Dienstleisterinnen unter den Frauen 54 . 1 % und der Anteil der Dienstleister unter den Männern 33 . 3 % beträgt. Wie hoch ist der Anteil der Frauen unter allen im Dienstleistungssektor beschäftigten Personen? (Verwenden Sie den Satz von Bayes.) 2. Leiten Sie ausgehend von der Definition der Varianz σ 2 X = J ∑ j =1 (˜ x j − ¯ x) 2 P(X = ˜ x j ) den Ausdruck σ 2 X = K ∑ k =1 σ 2 X| ˜ y k P(Y = ˜ y k ) + K ∑ k =1 (¯ x k − ¯ x) 2 P(Y = ˜ y k ) her. 3. Ihnen liegen die Einkommen von fünf Personen vor (in Tsd. e ): x 1 = 20 , x 2 = 26 , x 3 = 45 , x 4 = 52 , x 5 = 107. Fassen Sie die zwei kleinsten und die drei größten Werte zu jeweils einer Klasse zusammen und berechnen Sie für diese Situation mit einer Streuungszerlegung die interne und die externe Varianz. 4. Folgende Tabelle enthält Angaben über Löhne in drei Bildungsklassen. Führen Sie davon ausgehend eine Streuungszerlegung durch. Wie hoch ist der Anteil der Lohnvarianz, der durch die unterschiedlichen Bildungsniveaus erklärt werden kann? Bildungsniveau P(Y = ˜ y k ) ¯ x k σ 2 X| ˜ y k (¯ x k − ¯ x) 2 1 Kein A-Level 0.174 26.267 728.321 331.952 2 A-Level 0.468 36.573 958.748 62.621 3 Studium 0.358 63.687 7666.537 368.645 7 <?page no="131"?> 132 7 Mehrdimensionale Variablen, bedingte Häufigkeiten und . . . 7.5 R-Code R-7-1 ## Daten generieren # Daten werden zufällig gezogen, mittels set.seed() wird das Ergebnis # reproduzierbar set.seed(3) n <- 12 X <sample(x = 0: 1, size = n, replace = TRUE) X Y <sample(x = 1: 3, size = n, replace = TRUE) Y R-7-2 # Kontingenztabelle (absolut) tab.abs <table(X, Y) tab.abs # Kontingenztabelle (relativ) tab.rel <tab.abs / n tab.rel # Randverteilung addmargins(A = tab.rel) R-7-3 ## Daten einlesen d <read.csv2(file = "usa_2007.csv") # Anzahl an Beobachtungen n <nrow(d) # Variablen geschlecht <d$geschl s <d$sektor s[1: 20] # umkodieren: Sektor 1-7 = 1, Sektor 8 = 0 s8 <as.numeric(s ! = 8) s8[1: 20] # Kontingenztabelle (relativ) tab.psid.rel <table(geschlecht, s8) / n tab.psid.rel # Randverteilung addmargins(A = tab.psid.rel) R-7-4 # Vektor mit Löhnen erstellen (in Tsd.) e <d$lohn / 1000 # relative Sektorgröße <?page no="132"?> 7.5 R-Code 133 njn <table(s) / n njn # mittleres Lohnniveau über alle Sektoren x.quer <mean(e) x.quer # mittleres Lohnniveau der Sektoren xj.quer <tapply(X = e, INDEX = s, FUN = mean) xj.quer # Varianz der Löhne in den Sektoren # Funktion für empirische Varianz erstellen VarEmp <function(x) { n <length(x) var.emp <- (n-1)/ n * var(x) return(var.emp) } # jetzt wird die Funktion in tapply() genutzt sigma2j <tapply(X = e, INDEX = s, FUN = VarEmp) sigma2j # quadrierte Differenz des Lohnniveaus ... diff2 <- (xj.quer x.quer)^2 diff2 R-7-5 # Lohnstreuung in den Klassen lsik <sum(njn * sigma2j) lsik # Varianz der Löhne zwischen den Klassen vlzk <sum(njn * diff2) vlzk # Varianzkomponenten addieren sich zur Gesamtvarianz var.ges <lsik + vlzk var.ges # Verhältnis der Varianz zwischen den Klassen zur Gesamtvarianz vlzk / var.ges 7 <?page no="134"?> 8 Korrelation: Metrische Variablen Um das Ausmaß des Zusammenhangs verschiedener metrischer Merkmale zu untersuchen, sind Daten für die einzelnen Einheiten von diesen Merkmalen Voraussetzung. Wichtige Maßzahlen des Zusammenhangs sind die Kovarianz und die Korrelation. Beide Maßzahlen werden in diesem Kapitel besprochen. 8.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 136 8.2 Eine zweidimensionale Variable . . . . . . . . . . . . . . . 136 8.3 Die Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . 137 8.3.1 Ein Zahlenbeispiel . . . . . . . . . . . . . . . . . . 138 8.3.2 Eigenschaften der Kovarianz . . . . . . . . . . . . . 138 8.4 Der Korrelationskoeffizient von Pearson . . . . . . . . . . . 140 8.4.1 Eigenschaften des Korrelationskoeffizienten . . . . . 141 8.4.2 Die Kovarianz standardisierter Variablen . . . . . . 142 8.4.3 Ausbildungsjahre und Einkommen . . . . . . . . . 143 8.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 144 8.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 8 <?page no="135"?> 136 8 Korrelation: Metrische Variablen 8.1 Einleitung Viele Fragestellungen der Statistik beziehen sich auf Zusammenhänge zwischen Variablen. Zum Beispiel werden Zusammenhänge zwischen dem verfügbaren Einkommen und den Konsumausgaben untersucht, oder Zusammenhänge zwischen der Zahl der Bildungsjahre und dem erzielten Einkommen. Notwendig ist hierfür, dass für die einzelnen untersuchten Einheiten die Informationen jeweils für beide Merkmale bekannt sind. Grundlegende Methoden der Zusammenhangsanalyse sind die Korrelationsrechnung und die Regressionsrechnung. In diesem Kapitel betrachten wir die Korrelationsrechnung für metrische Variablen. 8.2 Eine zweidimensionale Variable Wir gehen von einer zweidimensionalen statistischen Variablen ( X, Y ) aus, durch die jeder Einheit zwei Merkmalswerte zugeordnet werden. Der Einheit i werden die Merkmalswerte x i und y i zugeordnet ( i = 1 , . . . , n ). Als ein einfaches Zahlenbeispiel betrachten wir eine Gesamtheit von n = 5 Einheiten, für die die Merkmalswerte (x 1 , y 1 ) = (1, 2), (x 2 , y 2 ) = (2, 3), (x 3 , y 3 ) = (3, 9), (x 4 , y 4 ) = (4, 6), (x 5 , y 5 ) = (5, 10) vorliegen (Siehe Abbildung 8.1). Die separaten Verteilungen von X bzw. Y werden als Randverteilungen der Variablen ( X, Y ) bezeichnet. Sie können z. B. durch Mittelwerte und Varianzen charakterisiert werden. Für das Zahlenbeispiel finden wir ¯ x = 3, ¯ y = 6, σ 2 X = 2, σ 2 Y = 10. Diese Mittelwerte und Varianzen liefern aber offenbar keine Information über die gemeinsame Verteilung von X und Y ; dafür müssen andere Charakterisierungen verwendet werden. R-8-1 <?page no="136"?> 8.3 Die Kovarianz 137 1 2 3 4 5 2 4 6 8 10 x y Abbildung 8.1: Streudiagramm für das Zahlenbeispiel. 8.3 Die Kovarianz Ein Maß des Zusammenhangs von X und Y ist die Kovarianz σ XY = 1 n n ∑ i =1 (x i − ¯ x) (y i − ¯ y) . Sie ist definiert als Mittelwert der Produkte der Abweichungen der Werte der Variablen X und Y von ihren Mittelwerten. Die Kovarianz ist positiv, falls tendenziell überdurchschnittliche X -Werte mit überdurchschnittlichen Y -Werten und unterdurchschnittliche X-Werte mit unterdurchschnittlichen Y -Werten einhergehen. In diesem Fall resultieren tendenziell mehrheitlich positive Summanden. Sie ist hingegen negativ, wenn tendenziell überdurchschnittliche X -Werte mit unterdurchschnittlichen Y -Werten und unterdurchschnittliche X-Werte mit überdurchschnittlichen Y -Werten einhergehen. In diesem Fall resultieren überwiegend negative Summanden. Ist keine von beiden Tendenzen vorhanden, liegt kein deutliches Kovariieren vor und die Kovarianz ist (etwa) gleich Null. 8 <?page no="137"?> 138 8 Korrelation: Metrische Variablen Die folgende Umformung erleichtert oft die Berechnung der Kovarianz: σ XY = 1 n n ∑ i =1 (x i − ¯ x) (y i − ¯ y) = 1 n n ∑ i =1 x i y i − ¯ x¯ y In dieser Darstellung wird ersichtlich, dass die Kovarianz auch als Mittelwert der Produkte der X - und Y -Werte abzüglich des Produkts der Mittelwerte berechnet werden kann. 8.3.1 Ein Zahlenbeispiel Für das in der Graphik 8.1 angegebene Zahlenbeispiel finden wir σ XY = 1 n n ∑ i =1 (x i − ¯ x) (y i − ¯ y) = 1 5 (8 + 3 + 0 + 0 + 8) = 3.8. Verwenden wir die aus der Umformung hervorgegangene Darstellung der Kovarianz, erhalten wir das Ergebnis auf folgende Weise: σ XY = 1 n n ∑ i =1 x i y i − ¯ x¯ y = 1 5 (1 · 2 + 2 · 3 + 3 · 9 + 4 · 6 + 5 · 10) − 3 · 6 = 3.8. Betrachten wir nochmals die Darstellung in der Form des Mittelwertes der Produkte der Mittelwertabweichungen. Zur Veranschaulichung zeichnen wir ein Streudiagramm (siehe Abbildung 8.2) der Mittelwertabweichungen x i − ¯ x und y i − ¯ y , die jeweils einen Mittelwert von 0 haben. Wir sehen, dass drei Summanden, d.h. drei Produkte von Mittelwertabweichungen, positiv sind und zwei den Wert 0 haben. R-8-2 8.3.2 Eigenschaften der Kovarianz Bei Betrachtung der Definition der Kovarianz ist unmittelbar ersichtlich, dass σ XY = σ Y X . Die Kovarianz einer Variablen mit sich selbst ist gerade die Varianz, da σ XX = 1 n n ∑ i =1 (x i − ¯ x) (x i − ¯ x) = 1 n n ∑ i =1 (x i − ¯ x) 2 = σ 2 X . <?page no="138"?> 8.3 Die Kovarianz 139 -2 -1 0 1 2 -4 -2 0 2 4 x − ¯ x y − ¯ y Abbildung 8.2: Streudiagramm der Mittelwertabweichungen. Werden die Variablen X und Y additiv um eine Konstante verändert, verändert sich die Kovarianz nicht: σ X + a,Y + b = 1 n n ∑ i =1 ((x i + a) − (¯ x + a)) ((y i + b) − (¯ y + b)) = 1 n n ∑ i =1 (x i − ¯ x) (y i − ¯ y) = σ XY . Wird die Variablen X mit einer Konstanten a und Y mit einer Konstanten b multipliziert, verändert sich die Kovarianz um den Faktor ab: σ aX,bY = 1 n n ∑ i =1 (ax i − a¯ x) (by i − b¯ y) = ab 1 n n ∑ i =1 (x i − ¯ x) (y i − ¯ y) = ab σ XY . 8 <?page no="139"?> 140 8 Korrelation: Metrische Variablen Betrachten wir die Kovarianz von X und Y + Z, finden wir σ X,Y + Z = 1 n n ∑ i =1 (x i − ¯ x) ((y i + z i ) − (¯ y + ¯ z)) = 1 n n ∑ i =1 (x i − ¯ x) ((y i − ¯ y) + (z i − ¯ z)) = 1 n n ∑ i =1 (x i − ¯ x) (y i − ¯ y) + 1 n n ∑ i =1 (x i − ¯ x) (z i − ¯ z) = σ XY + σ XZ . 8.4 Der Korrelationskoeffizient von Pearson Eine Interpretation der Kovarianz wird dadurch erschwert, dass ihre Werte nicht normiert sind und stark von der Streuung der Variablen abhängen. Um ein Maß für den Zusammenhang zu erhalten, wird deshalb ein normierter Korrelationskoeffizient verwendet, der folgendermaßen definiert ist: r XY = σ XY σ X σ Y = 1 n ∑ n i =1 (x i − ¯ x) (y i − ¯ y) √ 1 n ∑ n i =1 (x i − ¯ x) 2 √ 1 n ∑ n i =1 (y i − ¯ y) 2 Die Normierung wird dadurch erreicht, dass die Kovarianz durch die beiden Standardabweichungen dividiert wird. So wird erreicht, dass − 1 ≤ r XY ≤ 1 gilt. Für das Zahlenbeispiel hatten wir bereits die Kovarianz und die Varianzen berechnet, so dass wir den Korrelationskoeffizienten folgendermaßen berechnen können: r XY = σ XY σ X σ Y = 3.8 √ 2 √ 10 = 0.8497. Offenbar weist der Wert auf einen starken positiven Zusammenhang von X und Y hin. R-8-3 Um einen Eindruck verschieden starker Korrelationen zu erhalten, sind in der Graphik 8.3 jeweils Streudiagramme für n = 100 Beobachtungen für die Korrelationen 0, − 0.3 , 0.7 und 0.9 dargestellt. <?page no="140"?> 8.4 Der Korrelationskoeffizient von Pearson 141 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 x y r = 0 r 2 = 0 (a) keine Korrelation -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 x y r = -0.4 r 2 = 0.16 (b) schwache negative Korrelation -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 x y r = 0.7 r 2 = 0.49 (c) mittlere positive Korrelation -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 x y r = 0.9 r 2 = 0.81 (d) starke positive Korrelation Abbildung 8.3: Visuelle Darstellung von Korrelationen unterschiedlicher Stärke und Richtung. 8.4.1 Eigenschaften des Korrelationskoeffizienten Werden die Variablen X und Y additiv um eine Konstante verändert, bleibt der Korrelationskoeffizient unverändert: r X + a,Y + b = σ X + a,Y + b σ X + a σ Y + b = σ XY σ X σ Y = r XY . Werden die Variablen X und Y mit Konstanten a bzw. b multipliziert, verändert sich der Betrag des Korrelationskoeffizienten nicht. Jedoch kann sein Vorzeichen wechseln, wenn sich a und b 8 <?page no="141"?> 142 8 Korrelation: Metrische Variablen im Vorzeichen unterscheiden. Wir erhalten dann r aX,bY = ab | a || b | r XY . Zu beachten ist auch, dass der Korrelationskoeffizient nur die Stärke des linearen Zusammenhanges erfasst. Besteht zwischen X und Y kein irgendwie gearteter Zusammenhang, gilt σ XY = r XY = 0. Aufgrund eines Korrelationskoeffizienten, der einen Wert nahe 0 aufweist, kann jedoch nur geschlossen werden, dass praktisch kein linearer Zusammenhang vorliegt. Auch wenn r XY ≈ 0 ist, können andere Arten des Zusammenhanges vorliegen. Das können wir uns mit einem weiteren Zahlenbeispiel veranschaulichen: (x 1 , y 1 ) = ( − 2, 4), (x 2 , y 2 ) = ( − 1, 1), (x 3 , y 3 ) = (0, 0), (x 4 , y 4 ) = (1, 1), (x 5 , y 5 ) = (2, 4). Wir finden r XY = 0, obwohl Y = X 2 . Schließlich muss auch erwähnt werden, dass aufgrund einer Korrelation zwischen zwei Variablen nicht geschlossen werden kann, dass es einen kausalen Zusammenhang gibt. R-8-4 8.4.2 Die Kovarianz standardisierter Variablen Die zu einer Variablen X korrespondierende standardisierte Variable ist definiert als X ∗ = X − ¯ x σ X . Wegen der Nulleigenschaft des arithmetischen Mittels hat X ∗ den Mittelwert 0. Und wegen σ 2 X +¯ x = σ 2 X finden wir für die Varianz von X ∗ : σ 2 X ∗ = 1 σ 2 X σ 2 X− ¯ x = 1. Schließlich findet man für die Kovarianz von X ∗ und Y ∗ : σ X ∗ Y ∗ = σ XY σ X σ Y = r X,Y , d.h. die Kovarianz standardisierter Variablen X ∗ und Y ∗ hat den gleichen Wert wie die Korrelation der nicht standardisierten Variablen X und Y . <?page no="142"?> 8.4 Der Korrelationskoeffizient von Pearson 143 6 8 10 12 14 16 0 200 400 600 800 1000 x y 6 7 8 9 10 11 12 13 14 15 16 17 Abbildung 8.4: Ausbildungsjahre ( x ) und Jahreseinkommen in Tsd. USD ( y ). 8.4.3 Ausbildungsjahre und Einkommen Abschließend betrachten wir die Anzahl der Ausbildungsjahre (X) und das Jahreseinkommen ( Y ) in 1,000 US-Dollar von n = 1,000 Personen im PSID-File. Da sehr viele Personen eine gleiche Anzahl an Bildungsjahren aufweisen, z. B. haben 354 Personen 12 Ausbildungsjahre, wurde für die graphische Darstellung die Zahl der Ausbildungsjahre zufällig leicht variiert. In der Abbildung 8.4 ist deutlich zu erkennen, dass die meisten Personen, tatsächlich genau 93.2 %, weniger als 100,000 US-Dollar im Jahr verdienen. Die wenigen sehr hohen Einkommen finden sich für Personen mit einer relativ hohen Zahl an Ausbildungsjahren. Alle 9 Personen, die mehr als 300,000 US-Dollar verdienen, weisen 16 oder 17 Ausbildungsjahre auf. Daher entsteht optisch der Eindruck eines recht starken Zusammenhangs zwischen der Zahl der Ausbildungsjahre und dem Jahreseinkommen. Der lineare Korrelationskoeffizient weist mit einem Wert von 0.287 jedoch auf einen nur recht schwachen positiven Zusammenhang hin. Zusätzlich sind in Graphik 8.4 mit dünnen waagrechten Linien die Durchschnittslöhne der Personen mit 6, 7, usw. Ausbildungsjahren eingetragen. Vom Durchschnittslohn der Personen mit 6 Ausbildungsjahren abgesehen, steigt der Durchschnittslohn mit jedem weiteren Ausbildungsjahr an. R-8-5 8 <?page no="143"?> 144 8 Korrelation: Metrische Variablen 8.5 Aufgaben 1. Sie befragen fünf Personen nach ihrem monatlichen verfügbaren Nettoeinkommen (X) und ihren monatlichen Mietausgaben (Y ) und erhalten folgende Werte (jeweils in 1000 e ): (x 1 , y 1 ) = (1, 0.3), (x 2 , y 2 ) = (2, 0.45), (x 3 , y 3 ) = (3, 0.9), (x 4 , y 4 ) = (4, 1.2), (x 5 , y 5 ) = (5, 0.95) a) Stellen Sie die Wertepaare als Streudiagramm graphisch dar. b) Urteilen Sie aufgrund Ihrer Zeichnung: Besteht ein positiver oder negativer Zusammenhang zwischen dem Einkommen und den Mietausgaben? Liegt ein starker oder schwacher Zusammenhang vor? c) Berechnen Sie die Mittelwerte von X und Y . d) Beziehen Sie sich jetzt auf die X - und Y -Werte als Differenzen zu Ihren Mittelwerten und fertigen Sie ein Streudiagramm für diese Mittelwertabweichungen an. e) Erläutern Sie, welche Vorzeichen die Produkte der Mittelwertabweichungen von X und Y in den vier Quadranten Ihres Koordinatensystems haben. f) Berechnen Sie für X und Y die Varianzen und Standardabweichungen. g) Berechnen Sie für die n Wertepaare jeweils das Produkt aus den Mittelwertabweichungen, summieren Sie es über alle n Beobachtungen auf und teilen Sie diese Summe durch die Anzahl der Beobachtungen. Wie nennt man die von Ihnen berechnete Maßzahl? h) Die von Ihnen berechnete Kovarianz erfasst den linearen Zusammenhang von X und Y , allerdings ist sie nicht normiert und damit schwierig zu interpretieren. Dividieren sie zur Normierung die Kovarianz durch das Produkt der beiden von Ihnen berechneten Standardabweichungen σ Y und σ X . Wie heißt die resultierende Maßzahl? <?page no="144"?> 8.5 Aufgaben 145 i) Beurteilen Sie Stärke des Zusammenhangs zwischen dem verfügbaren Einkommen und den Mietausgaben anhand des Korrelationskoeffizienten. 2. Zeigen Sie, dass gilt: σ Y X = 1 n n ∑ i =1 (y i − ¯ y)(x i − ¯ x) = 1 n n ∑ i =1 y i x i − ¯ y ¯ x und σ 2 X = 1 n n ∑ i =1 (x i − ¯ x) 2 = 1 n n ∑ i =1 x 2 i − ¯ x 2 3. Betrachten Sie die folgenden Wertepaare für die Variable (X, Y ): (x 1 , y 1 ) = ( − 2, 16), (x 2 , y 2 ) = ( − 1, 1), (x 3 , y 3 ) = (0, 0), (x 4 , y 4 ) = (1, 1), (x 5 , y 5 ) = (2, 16) (a) Berechnen Sie den Korrelationskoeffizient r XY . (b) Besteht zwischen X und Y ein Zusammenhang? 8 <?page no="145"?> 146 8 Korrelation: Metrische Variablen 8.6 R-Code R-8-1 # Daten generieren x <- 1: 5 y <c(2,3,9,6,10) # Streudiagramm plot(x = x, y = y, pch = 19) # Mittelwerte mx <mean(x) mx my <mean(y) my # empirische Varianz # Funktion für empirische Varianz erstellen VarEmp <function(x) { n <length(x) var.emp <- (n-1)/ n * var(x) return(var.emp) } vx <- VarEmp(x) vx vy <- VarEmp(y) vy R-8-2 # Anzahl an Beobachtungen n <length(x) # Kovarianz cov.xy <- 1/ n * sum( (x-mx)*(y-my) ) cov.xy # alternativ nach Umformung mean(x*y) mx*my # Streudiagramm plot(x = (x-mx), y = (y-my), pch = 19, xlab = expression(x-bar(x)), ylab = expression(y-bar(y))) abline(h = 0) abline(v = 0) R-8-3 # Korrelationskoeffizient von Pearson rxy <cov.xy / ( sqrt(vx) * sqrt(vy)) rxy <?page no="146"?> 8.6 R-Code 147 # alternativ cor(x, y) R-8-4 # Weiteres Zahlenbeispiel x2 <c(-2,-1,0,1,2) y2 <x2^2 # Korrelation cor(x2, y2) R-8-5 ## Daten einlesen d <read.csv2(file = "usa_2007.csv") # Anzahl an Beobachtungen n <nrow(d) # Vektor mit Löhnen erstellen (in Tsd.) e <d$lohn / 1000 # Ausbildungsjahre b <d$bildung min(b); max(b) # Durchschnittslöhne nach Ausbildungsjahren de.b <tapply(X = e, INDEX = b, mean) de.b ## Abbildung # leicht modifizierte Ausbildungsjahre set.seed(123) b.mod <b + runif(n = n, min = -0.15, max = 0.15) # Streudiagramm plot(x = b.mod, y = e, pch = 19, cex = 0.2, xlab = "x", ylab = "y", xaxt = "n") axis(side = 1, at = 6: 17, label = 6: 17) # Durchschnittslöhne darstellen ub <sort(x = unique(b), decreasing = FALSE) ub for (i in 1: length(ub)) { segments(x0 = ub[i]-0.5, y0 = de.b[i], x1 = ub[i]+0.5, y1 = de.b[i]) } # Anteil an Personen mit einem Einkommen < 100 Tsd. mean(e < 100) * 100 # hohe Einkommen und Ausbildungsjahre order.e <order(e, decreasing = TRUE) cbind(b[order.e], e[order.e])[1: 15,] 8 <?page no="147"?> 148 8 Korrelation: Metrische Variablen # Korrelation zwischen Löhnen und Ausbildungsjahren reb <cor(e, b) reb # Quadrat des Korrelationskoeffizienten reb^2 # Korrelation ohne die höchsten 9 Einkommen e.ohne9 <e[order.e][-(1: 9)] b.ohne9 <b[order.e][-(1: 9)] cor(e.ohne9, b.ohne9) <?page no="148"?> 9 Korrelation: Ordinale und nominale Variablen In diesem Kapitel besprechen wir Maße des Zusammenhangs für ordinale und nominalskalierte Variablen. Zunächst erläutern wir Spearmans Rangkorrrelation, mit der ein Zusammenhang zwischen zwei ordinalen Variablen erfasst werden kann, dann besprechen wir die Maßzahl χ 2 und den darauf basierenden Kontingenzkoeffizienten für zwei nominale Variablen. Anschließend betrachten wir Zusammenhangsmaße für nominal skalierte Merkmale. 9.1 Spearmans Rangkorrelationskoeffizient . . . . . . . . . . . 150 9.1.1 Ordinale Variablen und Ränge . . . . . . . . . . . 150 9.1.2 Ein Rangkorrelationskoeffizient . . . . . . . . . . . 151 9.1.3 Eigenschaften . . . . . . . . . . . . . . . . . . . . 151 9.1.4 Eine vereinfachte Rechenmethode . . . . . . . . . . 152 9.2 Zusammenhangsmaße für nominale Variablen . . . . . . . . 152 9.2.1 Empirische und hypothetische Häufigkeiten . . . . . 153 9.2.2 Kontingenzkoeffizient . . . . . . . . . . . . . . . . 155 9.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 156 9.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 9 <?page no="149"?> 150 9 Korrelation: Ordinale und nominale Variablen 9.1 Spearmans Rangkorrelationskoeffizient 9.1.1 Ordinale Variablen und Ränge Bei einer ordinalen Variablen können die Merkmalswerte in einer sinnvoll interpretierbaren Reihe angeordnet werden, die numerischen Abstände zwischen den Merkmalswerten haben jedoch keine bestimmte Bedeutung. Als Beispiel kann man an Schulnoten von 1 bis 5 denken. Die numerischen Differenzen zwischen 1 und 2 und zwischen 4 und 5 sind gleich groß, aber ihnen entspricht nicht unbedingt eine gleich große Leistungsdifferenz. Als ein weiteres Beispiel kann man daran denken, dass Personen gebeten werden, den Grad ihrer Zufriedenheit (inbezug auf irgendeinen Sachverhalt) auf einer Skala von 1 bis 10 anzugeben. Um eine allgemeine Notation zu erreichen, beziehen wir uns auf eine Variable X . Merkmalswerte für n Einheiten werden wie bisher durch x 1 , . . . , x n bezeichnet. Es wird angenommen, dass die numerische Kodierung so erfolgt, dass die unterstellte Ordnung der Merkmalswerte der numerischen Ordnung der x i -Werte entspricht. Zur Definition von Rangkorrelationskoeffizienten werden Ränge verwendet. Der Rang eines Werts x i ist die Ordnungsnummer, die die Position von x i in der Reihe aller der Größe nach geordneten x i -Werte angibt. Dabei sind zwei Fälle zu unterscheiden. Der erste Fall liegt vor, wenn alle x i -Werte unterschiedlich sind. Dann hat jeder x i -Wert genau einen Rang. Gibt es z. B. vier Werte x 1 = 6, x 2 = 1, x 3 = 9 und x 4 = 4, gibt es die Reihe x 2 < x 4 < x 1 < x 3 so dass x 2 den ersten Rang hat, x 4 den zweiten Rang, usw. Allgemein verwenden wir für den Rang von x i die Notation r x ( i ); also r x (1) = 3, r x (2) = 1, r x (3) = 4, r x (4) = 2. Der zweite Fall liegt vor, wenn zwei oder mehr x i -Werte gleich sind. Man spricht dann von Bindungen. Dann werden bei gleichen x i -Werten als Ränge Durchschnittswerte ihrer Ordnungszahlen verwendet. Wenn also im obigen Beispiel x 1 = 4 wäre, gäbe es die Reihe x 2 < x 4 = x 1 < x 3 und die Ränge wären r x (2) = 1, r x (1) = r x (4) = 2.5 und r x (3) = 4. <?page no="150"?> 9.1 Spearmans Rangkorrelationskoeffizient 151 9.1.2 Ein Rangkorrelationskoeffizient Sei nun ( X, Y ) eine zweidimensionale Variable, bei der X und Y ordinale Variablen sind. Dann kann man sowohl für X als auch für Y Ränge bilden: r x (i) und r y (i). Ihre Mittelwerte werden durch ¯r x bzw. ¯r y bezeichnet. Pearsons Korrelationskoeffizient angewendet auf diese Ränge liefert Spearmans Rangkorrelationskoeffizient ρ XY = 1 n ∑ n i =1 (r x (i) − ¯r x ) (r y (i) − ¯r y ) √ 1 n ∑ n i =1 (r x (i) − ¯r x ) 2 √ 1 n ∑ n i =1 (r y (i) − ¯r y ) 2 . Zur Illustration betrachten wir ein Zahlenbeispiel mit n = 4 Werten: R-9-1 X r x Y r y x 1 = 6 r x (1) = 3 y 1 = 2 r y (1) = 2 x 2 = 1 r x (2) = 1 y 2 = 1 r y (2) = 1 x 3 = 9 r x (3) = 4 y 3 = 4 r y (3) = 3 x 4 = 4 r x (4) = 2 y 4 = 6 r y (4) = 4 Mit diesen Zahlen finden wir den Wert ρ XY = 0.4. R-9-2 9.1.3 Eigenschaften Der Rangkorrelationskoeffizient ist dimensionslos , da sich die Dimensionen (z. B. US-Dollar) herauskürzen, und symmetrisch bezüglich X und Y . Zudem ist er invariant bezüglich streng monoton wachsender Transformationen. D.h., werden die Werte von X und/ oder Y so transformiert, dass deren Ränge unverändert bleiben, ändert sich der Wert des Rangkorrelationskoeffizienten nicht. Der Rangkorrelationskoeffizient ist normiert auf − 1 ≤ ρ XY ≤ 1. Dies erleichtert die Interpretation des numerischen Ergebnisses. Bei einem vollständig gleichgerichteten monotonen Zusammenhang gilt ρ XY = 1. Bei einem vollständig gegenläufigen monotonen 9 <?page no="151"?> 152 9 Korrelation: Ordinale und nominale Variablen Zusammenhang gilt ρ XY = − 1. Bei Werten von 0 oder nahe 0 gibt es keinen bzw. nur einen sehr schwachen Zusammenhang. 9.1.4 Eine vereinfachte Rechenmethode Wenn keine Bindungen vorliegen, kann der Korrelationskoeffizient mit einer einfacheren Formel berechnet werden ρ XY = 1 − 6 ∑ n i =1 (r x (i) − r y (i)) 2 n (n 2 − 1) . Für das obige Zahlenbeispiel finden wir mit dieser Formel ρ XY = 1 − 6 · 6 4 (4 2 − 1) = 1 − 36 60 = 0.4. Zu beachten ist, dass die vereinfachte Formel des Rangkorrelationskoeffizienten nicht verwendet werden darf, wenn Bindungen vorliegen. Als ein Beispiel, bei dem viele Bindungen vorliegen, betrachten wir den Zusammenhang zwischen jährlichen Arbeitsstunden und jährlichem Einkommen der n = 1000 Personen in unserem amerikanischen Datensatz. Wir wollen der Frage nachgehen, ob Personen, die mehr arbeiten, tendenziell einen höheren Lohn erhalten. Anstelle der metrischen Angaben über Arbeitsstunden und Einkommen betrachten wir deren Ränge. 1 Für die Ränge finden wir eine Korrelation von ρ XY = 0.51. Es besteht also ein positiver, aber nicht sehr enger Zusammenhang zwischen den Rängen von Jahresarbeitszeit und Einkommenshöhe. 2 R-9-3 9.2 Zusammenhangsmaße für nominale Variablen In diesem Abschnitt besprechen wir ein Zusammenhangsmaß für eine zweidimensionale Variable ( X, Y ), bei der X und Y jeweils nominal skalierte Merkmale repräsentieren, d.h. die Merkmalswerte 1 Für die Jahresstunden finden sich 535 und für das Einkommen 337 unterschiedliche Angaben. Es liegen somit viele Bindungen vor und die vereinfachte Rechenvorschrift für den Rangkorrelationskoeffizienten kann nicht verwendet werden. 2 Zwischen den metrischen Merkmalen Jahresarbeitszeit und Einkommenshöhe ist die Korrelation mit r XY = 0 . 317 aufgrund weniger sehr hoher Einkommen noch deutlich geringer. <?page no="152"?> 9.2 Zusammenhangsmaße für nominale Variablen 153 sind qualitativ unterschiedlich, und es gibt keine sinnvolle lineare Anordnung. Als Beispiel verwenden wir unseren amerikanischen Datensatz. X erfasst das Geschlecht (0 = männlich, 1 = weiblich), und Y erfasst den Sektor, in dem die Person arbeitet (1 = Dienstleistungen, 0 = andernfalls). Wir finden folgende Verteilung: Y = 0 Y = 1 Insg. X = 0 0.323 0.161 0.484 X = 1 0.237 0.279 0.516 Insg. 0.560 0.440 1.000 Ausgehend von dieser gemeinsamen Verteilung wollen wir nun der Frage nachgehen, ob zwischen den Werten von X und Y ein Zusammenhang besteht und wie die Stärke dieses Zusammenhangs quantifiziert werden kann. Man könnte vermuten, dass Frauen häufiger im Dienstleistungssektor tätig sind als Männer. Die bedingten Häufigkeiten P ( Y = 1 | X = 1) = 0.541 und P ( Y = 1 | X = 0) = 0.333 weisen auf das Vorliegen eines Zusammenhangs hin. R-9-4 9.2.1 Empirische und hypothetische Häufigkeiten Wir betrachten die Maßzahl χ 2 , die den Zusammenhang zwischen zwei nominalen Merkmalen erfasst. Um eine allgemeine Notation zu erreichen, nehmen wir an, dass X die Werte ˜ x 1 , . . . , ˜ x J und Y die Werte ˜ y 1 , . . . , ˜ y K annehmen kann. Wir verwenden folgende Abkürzungen: f jk = P ( X = ˜ x j , Y = ˜ y k ) ist die Häufigkeit, mit der X = ˜ x j und Y = ˜ y k auftritt; die Häufigkeiten in den Randverteilungen werden durch f j. = P(X = ˜ x j ) = K ∑ k =1 f jk und f .k = P(Y = ˜ y k ) = J ∑ j =1 f jk bezeichnet. Die Maßzahl χ 2 beruht auf einem Vergleich der empirischen gemeinsamen Verteilung mit einer hypothetischen gemeinsamen 9 <?page no="153"?> 154 9 Korrelation: Ordinale und nominale Variablen Verteilung, die sich bei gegebenen Randhäufigkeiten und Unabhängigkeit ergeben würde. Diese hypothetischen Häufigkeiten werden durch f ∗ jk = f j· f ·k definiert. Im allgemeinen Fall resultiert folgende gemeinsame hypothetische Verteilung bei Unabhängigkeit: X \ Y ˜ y 1 ˜ y 2 . . . ˜ y K ˜ x 1 f 1 · f · 1 f 1 · f · 2 . . . f 1 · f ·K ˜ x 2 f 2 · f · 1 f 2 · f · 2 . . . f 2 · f ·K ... ... ... ... ˜ x J f J · f · 1 f J · f · 2 . . . f J · f ·K . Hiervon ausgehend wird χ 2 folgendemaßen definiert χ 2 = n J ∑ j =1 K ∑ k =1 ( f jk − f ∗ jk ) 2 f ∗ jk . Für unser empirisches Beispiel finden wir ausgehend von den oben angegebenen empirischen Randhäufigkeiten folgende hypothetische gemeinsame Verteilung: R-9-5 Y = 0 Y = 1 Insg. X = 0 0.271 0.213 0.484 X = 1 0.289 0.227 0.516 Insg. 0.560 0.440 1.000 Als numerischer Wert ergibt sich χ 2 = 1,000 ( (0.323 − 0.271) 2 0.271 + (0.161 − 0.213) 2 0.213 + (0.237 − 0.289) 2 0.289 + (0.279 − 0.227) 2 0.227 ) = 43.941. Da die Maßzahl χ 2 nicht normiert ist, lässt sich dieser Wert allerdings kaum interpretieren. R-9-6 <?page no="154"?> 9.2 Zusammenhangsmaße für nominale Variablen 155 9.2.2 Kontingenzkoeffizient Deshalb wird oft der Kontingenzkoeffizient C = √ χ 2 χ 2 + n · min { J, K } min { J, K } − 1 verwendet, der aus einer Normierung von χ 2 resultiert. Für den Kontingenzkoeffizient gilt 0 ≤ C ≤ 1. C = 0 ist genau dann der Fall, wenn die empirischen Häufigkeiten f jk und die hypothetischen Häufigkeiten f ∗ jk gleich sind. Dies ist aber praktisch nie der Fall, und wenn n eine Primzahl ist, kann dieser Fall auch theoretisch nicht auftreten. Sehr kleine Werte von C deuten auf einen sehr schwachen Zusammenhang von X und Y hin. Der Fall C = 1 tritt dann auf, wenn X und Y vollständig zusammenhängen. Für unser Beispiel finden wir C = √ χ 2 χ 2 + n · min { J, K } min { J, K } − 1 = √ 43.941 43.941 + 1000 · min { 2, 2 } min { 2, 2 } − 1 = √ 0.042 · 2 = 0.29. Es besteht demnach nur ein relativ schwacher Zusammenhang zwischen Geschlecht und Tätigkeit im Dienstleistungssektor. R-9-7 Betrachten wir abschließend eine fiktive Situation, in der bei gegebenen Randhäufigkeiten alle Personen im Dienstleistungssektor Frauen sind. Dann würde folgende gemeinsame Verteilung resultieren: Y = 0 Y = 1 Insg. X = 0 0.484 0.000 0.484 X = 1 0.076 0.440 0.516 Insg. 0.560 0.440 1.000 In diesem Fall würde der Kontingenzkoeffizient den Wert C = 0.921 annehmen und damit auf einen sehr engen Zusammenhang von Geschlecht und sektoraler Tätigkeit hindeuten. R-9-8 9 <?page no="155"?> 156 9 Korrelation: Ordinale und nominale Variablen 9.3 Aufgaben 1. Sie befragen fünf Personen nach ihrem Einkommen in zwei Jahren (1 und 2) und erhalten folgende Tabelle mit Rängen: i 1.Jahr (r x (i)) 2. Jahr (r y (i)) 1 2 2 2 1 1 3 3 4 4 5 5 5 4 3 a) Berechnen Sie den linearen Korrelationskoeffizienten der Ränge vom 1. und 2. Jahr. b) Ermitteln Sie den Korrelationskoeffizienten auch nach folgender Formel: ρ XY = 1 − 6 ∑ n i =1 (r x (i) − r y (i)) 2 n (n 2 − 1) c) Wenn Ihnen sowohl die Einkommen selbst als auch die Ränge der Einkommen vorlägen, welchen Korrelationskoeffizienten würden Sie dann wählen? Begründen Sie ihre Wahl. 2. Die nachfolgende Tabelle enthält die Ränge der Variablen X und Y für vier Beobachtungen. i r x r y 1 2 4 2 1 2 3 3.5 1 4 3.5 3 <?page no="156"?> 9.3 Aufgaben 157 (a) Berechnen Sie die Rangkorrelation. (b) Können Sie hier auch die vereinfachte Formel des Rangkorrelationskoeffizienten anwenden? 3. Gehen Sie von folgender empirischer Vierfeldertafel für die Variablen X (Geschlecht, 0 = männlich, 1 = weiblich) und Y (Lohnklasse, unterdurchschnittlicher Stundenlohn: Y = 0, überdurchschnittlicher Stundenlohn Y = 1) aus. Y = 0 Y = 1 Insg. X = 0 0.293 0.191 0.484 X = 1 0.385 0.131 0.516 Insg. 0.678 0.322 1.000 a) Wie viel Prozent der Frauen und wie viel Prozent der Männer haben einen überdurchschnittlichen Lohn? b) Wie hoch ist der Anteil der Frauen an den Personen mit überdurchschnittlichem Lohn, wie hoch an den Personen mit unterdurchschnittlichem Lohn? c) Ermitteln Sie die Tabelle bei hypothetischer Unabhängigkeit. d) Berechnen Sie χ 2 . e) Berechnen Sie den Kontingenzkoeffizienten als normiertes Maß der Abhängigkeit und beurteilen Sie die Stärke der Abhängigkeit. f) Für welchen Fall ergäbe sich ein Kontingenzkoeffizient von 0 und was ließe sich dann über die beiden Tabellen der tatsächlichen und hypothetischen Besetzungszahlen sagen? 9 <?page no="157"?> 158 9 Korrelation: Ordinale und nominale Variablen 9.4 R-Code R-9-1 # Daten generieren x <c(6,1,9,4) y <c(2,1,4,6) # Ränge berechnen rx <rank(x) rx ry <rank(y) ry R-9-2 # benötigte Variablen mrx <mean(rx) mrx srx2 <sum(rx^2) srx2 n <length(rx) # wegen Symmetrie: mrx = mry, srx2 = sry2 # Rangkorrelationskoeffizient (1/ n * sum(rx*ry) mrx*mrx) / (sqrt(((1/ n * srx2) mrx^2)) * sqrt(((1/ n * srx2) mrx^2))) # alternativ cor(rx, ry) R-9-3 ## Daten einlesen d <read.csv2(file = "usa_2007.csv") # Vektor Löhnen erstellen e <d$lohn # Arbeitsstunden im Jahr h <d$stunden # Bindungen length(unique(h)) length(unique(e)) # Rangkorrelationskoeffizient cor(rank(e), rank(h)) # Korrelation cor(e, h) <?page no="158"?> 9.4 R-Code 159 R-9-4 # Variablen erstellen X <d$geschl Y <d$sektor == 8 # Anzahl an Beobachtungen n <nrow(d) # Kontingenztabelle tab.rel <table(X,Y) / n # Randverteilung tab <addmargins(A = tab.rel) tab ## bedingte Häufigkeiten # (Y=1|X=1) = tab[2,2] / tab[2,3] # (Y=1|X=0) = tab[1,2] / tab[1,3] R-9-5 # hypothetische gemeinsame Verteilung tab.hyp <tab[1: 2,3] %*% t(tab[3,1: 2]) addmargins(A = tab.hyp) R-9-6 # Variablen erstellen f.emp <as.vector(tab[1: 2, 1: 2]) f.emp f.hyp <as.vector(tab.hyp[1: 2, 1: 2]) f.hyp n <nrow(d) # Damit finden wir (Beachte: Rundungsdifferenzen) c2 <n * sum((f.emp-f.hyp)^2 / f.hyp) c2 R-9-7 ## Anzahl möglicher Ausprägungen n.x <length(unique(X)) n.x # Geschlecht: m/ w n.y <length(unique(Y)) n.y # Sektor 8: TRUE/ FASE # Kontingenzkoeffizient sqrt( (c2 / (c2 + n)) * (min(n.x, n.y) / (min(n.x, n.y) - 1)) ) 9 <?page no="159"?> 160 9 Korrelation: Ordinale und nominale Variablen R-9-8 # Ausgangspunkt: Empirisches Beispiel tab.fiktiv <tab # fiktives Beispiel erzeugen tab.fiktiv[1: 2,1: 2] <matrix(data = c(0.484,0.56-0.484,0,0.44), ncol = 2) tab.fiktiv f.fiktiv <as.vector(tab.fiktiv[1: 2, 1: 2]) # C2 c2.neu <n * sum((f.fiktiv-f.hyp)^2 / f.hyp) # Kontingenzkoeffizient sqrt( (c2.neu / (c2.neu + n)) * (min(n.x, n.y) / (min(n.x, n.y) - 1)) ) <?page no="160"?> 10 Einfache Regressionsrechnung In diesem Kapitel besprechen wir die Regressionsrechnung, wobei wir uns auf eine lineare Regression mit nur einer erklärenden und einer abhängigen Variablen beschränken. Zur Berechnung verwenden wir die Methode der kleinsten Quadrate, die in der empirischen Wirtschaftsforschung sehr oft verwendet wird. 10.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 162 10.2 Methode der kleinsten Quadrate . . . . . . . . . . . . . . 162 10.2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . 163 10.2.2 Berechnung der Parameter . . . . . . . . . . . . . 163 10.2.3 Achsentransformation . . . . . . . . . . . . . . . . 166 10.2.4 Varianzzerlegung und Bestimmtheitsmaß . . . . . . 166 10.2.5 Ausbildungsjahre und Stundenlöhne . . . . . . . . . 168 10.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 170 10.4 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 10 <?page no="161"?> 162 10 Einfache Regressionsrechnung 10.1 Einleitung Fragen nach Zusammenhängen zwischen statistischen Variablen stehen in den Wirtschaftswissenschaften im Zentrum des Interesses. Ausgangspunkt sind die gemeinsame Verteilung von zwei (oder mehr) Variablen und die daraus resultierenden bedingten Verteilungen. Allerdings lässt sich die gemeinsame Verteilung von zwei metrischen Variablen, insbesondere bei vielen vorkommenden Merkmalsausprägungen, nur schwierig beschreiben. Die lineare Regression stellt eine sehr oft verwendete Methode dar, um zu beschreiben, wie die bedingte Verteilung einer Variablen von Werten anderer Variablen abhängt. Ausgangspunkt sind die Werte ( x i , y i ) einer zweidimensionalen Variablen (X, Y ) für n Einheiten (i = 1, . . . , n). Wir betrachten Y als abhängige Variable und X als eine Variable, von deren Werten die Verteilung von Y abhängt. Die Grundidee besteht darin, für jeden Wert y i einen durch x i berechenbaren Näherungswert ˆ y i zu finden. Bei der linearen Regression geschieht dies mit Hilfe einer linearen Funktion f(x) = α + β x, α und β sind Parameter, für die mit Hilfe der Daten bestimmte numerische Werte, die wir durch ˆ α und ˆ β bezeichnen, gefunden werden müssen. Dann kann man Näherungswerte ˆ y i = f(x i ) = ˆ α + ˆ β x i berechnen. Zu überlegen ist, wie optimale Parameter definiert werden können, denn grundsätzlich kann man für α und β beliebige Zahlenwerte verwenden. Das wird in Abbildung 10.1 mit n = 4 Werten illustriert. Je nachdem, welche Werte man für α und β einsetzt, entsteht eine unterschiedliche lineare Funktion (Regressionsgerade). 10.2 Methode der kleinsten Quadrate Zur Berechnung bestimmter Parameter ˆ α und ˆ β wird sehr oft die Methode der kleinsten Quadrate verwendet, die wir in diesem Abschnitt besprechen. <?page no="162"?> 10.2 Methode der kleinsten Quadrate 163 0 2 4 6 8 10 0 2 4 6 8 x y Abbildung 10.1: Auswahl an möglichen Ausgleichsgeraden. 10.2.1 Grundlagen Das Ziel besteht darin, dass die durch ˆ α und ˆ β bestimmte Regressionsgerade möglichst gut in das Streuungsdiagramm der ( x i , y i )- Werte passt. Man bezieht sich dafür auf die Abweichungen u i = y i − f(x i ) = y i − (α + β x i ). Bei der Methode der kleinsten Quadrate, die auf Carl Friedrich Gauß (1777-1855) zurückgeht, wird gefordert, dass die Summe der quadrierten Abweichungen , also ∑ n i =1 u 2 i , möglichst klein sein soll. In Abbildung 10.2 wird dies durch die eingezeichneten Quadrate veranschaulicht. 10.2.2 Berechnung der Parameter Wir betrachten die Funktion Q(α, β) = n ∑ i =1 (y i − α − β x i ) 2 , die zeigt, wie die Summe der quadrierten Abweichungen von den Parametern abhängt. Die optimalen Parameter sind diejenigen, die 10 <?page no="163"?> 164 10 Einfache Regressionsrechnung -2 0 2 4 6 8 10 12 0 2 4 6 8 x y Abbildung 10.2: Intuition: Methode der kleinsten Quadrate. diese Funktion möglichst klein machen. Um das Minimum dieser Funktion zu finden, müssen zunächst die partiellen Ableitungen gebildet werden. Man findet: ∂Q(α, β) ∂α = 2 n ∑ i =1 (y i − α − βx i )( − 1) und ∂Q(α, β) ∂β = 2 n ∑ i =1 (y i − α − βx i )( − x i ). Parameterwerte für das Minimum findet man aus den Nullstellen der Ableitungen. Die Ableitung nach α liefert die 1. Normalgleichung n ∑ i =1 (y i − ˆ α − ˆ β x i ) = 0 und die Ableitung nach β die 2. Normalgleichung n ∑ i =1 (y i − ˆ α − ˆ β x i ) x i = 0. <?page no="164"?> 10.2 Methode der kleinsten Quadrate 165 Aus der 1. Normalgleichung findet man zunächst n ∑ i =1 y i − n ˆ α − ˆ β n ∑ i =1 x i = 0 und indem man durch n teilt, erhält man ¯ y = ˆ α + ˆ β ¯ x, bzw. ˆ α = ¯ y − ˆ β ¯ x. Die optimale Regressionsgerade geht also durch den Schwerpunkt des Streuungsdiagramms. Ersetzt man nun ˆ α in der 2. Normalgleichung durch ¯ y − ˆ β ¯ x, findet man: n ∑ i =1 (x i y i − (¯ y − ˆ β ¯ x) x i − ˆ β x 2 i ) = n ∑ i =1 x i y i − (¯ y − ˆ β ¯ x) n ∑ i =1 x i − ˆ β n ∑ i =1 x 2 i ) = n ∑ i =1 x i y i − n ¯ x ¯ y − ˆ β( n ∑ i =1 x 2 i − n ¯ x 2 ) = 0 Daraus folgt dann ˆ β = ∑ n i =1 x i y i − n ¯ x ¯ y ∑ n i =1 x 2 i − n ¯ x 2 . Um die Anwendung zu illustrieren, betrachten wir das Zahlenbeispiel aus Abbildung 10.1 mit den Werten ( x 1 , y 1 ) = (2 , 3), (x 2 , y 2 ) = (4, 2), (x 3 , y 3 ) = (6, 5) und (x 4 , y 4 ) = (8, 6). Wir finden n ∑ i =1 y i x i = 92, n ∑ i =1 x 2 i = 120, ¯ x = 5, ¯ y = 4 und damit ˆ β = 92 − 4 · 4 · 5 120 − 4 · 5 2 = 0.6 und ˆ α = ¯ y − ˆ β ¯ x = 4 − 0.6 · 5 = 1. 10 <?page no="165"?> 166 10 Einfache Regressionsrechnung 10.2.3 Achsentransformation Die Variablen X und Y können um ihre Mittelwerte verschoben werden, indem man X ∗ = X − ¯ x und Y ∗ = Y − ¯ y verwendet. Dann kann man eine lineare Regression für den Zusammenhang zwischen X ∗ und Y ∗ berechnen. Die optimalen Parameter bezeichnen wir durch ˆ α ∗ und ˆ β ∗ . Wendet man die oben abgeleitete Formel an, findet man (da ¯ x ∗ = ¯ y ∗ = 0 ist) ˆ β ∗ = ∑ n i =1 x ∗ i y ∗ i ∑ n i =1 (x ∗ i ) 2 . Ersetzt man x ∗ i durch x i − ¯ x und y ∗ i durch y i − ¯ y , entsteht die Formel für ˆ β, so dass ˆ β ∗ = ˆ β = ∑ n i =1 (x i − ¯ x) (y i − ¯ y) ∑ n i =1 (x i − ¯ x) 2 gilt. Die Division von Zähler und Nenner durch n führt zu ˆ β = σ XY σ 2 X . Offenbar gilt auch ¯ y ∗ = ˆ α ∗ + ˆ β ∗ ¯ x ∗ ; und daraus folgt unmittelbar, dass ˆ α ∗ = 0 ist. Abbildung 10.3 veranschaulicht diese Achsentransformation anhand des Beispiels aus dem vorangegangenen Abschnitt. 10.2.4 Varianzzerlegung und Bestimmtheitsmaß Die Varianz der abhängigen Variablen Y kann folgendermaßen geschrieben werden: σ 2 Y = 1 n n ∑ i =1 (y i − ¯ y) 2 = 1 n n ∑ i =1 (y i − ˆ y i + ˆ y i − ¯ y) 2 = 1 n n ∑ i =1 ((y i − ˆ y i ) 2 + (ˆ y i − ¯ y) 2 + 2(y i − ˆ y i )(ˆ y i − ¯ y)) = 1 n n ∑ i =1 (y i − ˆ y i ) 2 + 1 n n ∑ i =1 (ˆ y i − ¯ y) 2 + 2 n n ∑ i =1 (y i − ˆ y i )(ˆ y i − ¯ y). <?page no="166"?> 10.2 Methode der kleinsten Quadrate 167 x y 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 -5 -4 -3 -2 -1 0 1 2 3 4 5 -4 -3 -2 -1 0 1 2 3 4 5 x ∗ y ∗ Abbildung 10.3: Achsentransformation. Wie man durch Ausrechnen zeigen kann, ist der dritte Summand in der letzten Zeile gleich 0. Da der Mittelwert der ˆ y i -Werte gleich ¯ y ist, beschreibt der zweite Summand die Varianz von ˆ Y , also σ 2 ˆ Y . Schließlich liefert der erste Summand die Varianz der Residualvariablen U , die die Werte u i = y i − ˆ y i hat, deren Mittelwert gleich 0 ist. Zusammenfassend folgt also σ 2 Y = σ 2 ˆ Y + σ 2 U . Ausgehend von dieser Varianzzerlegung wird das Bestimmtheitsmaß R 2 = σ 2 ˆ Y σ 2 Y = 1 − σ 2 U σ 2 Y definiert. Es zeigt den Anteil der Varianz von ˆ Y an der Gesamtvarianz von Y . Da die Werte von ˆ Y durch die Werte von X bestimmt werden, kann man auch sagen: R 2 gibt den Anteil der Varianz von Y an, der durch eine lineare Beziehung zwischen X und Y bestimmt werden kann. Es gilt: 0 ≤ R 2 ≤ 1. Außerdem liefert R 2 die lineare Korrelation zwischen Y und ˆ Y , also R 2 = r 2 Y ˆ Y ; und bei der einfachen linearen 10 <?page no="167"?> 168 10 Einfache Regressionsrechnung 6 8 10 12 14 16 0 50 100 150 200 250 300 x y 6 7 8 9 10 11 12 13 14 15 16 17 Abbildung 10.4: Ausbildungsjahre ( x ) und Einkommen ( y ). Regression ist dies auch gerade die lineare Korrelation zwischen X und Y . Für das Zahlenbeispiel aus den vorangegangenen Abschnitten findet man die Varianzzerlegung σ 2 Y = 2.5 = σ 2 ˆ Y + σ 2 U = 1.8 + 0.7 und daraus das Bestimmtheitsmaß R 2 = σ 2 ˆ Y σ 2 Y = 0.72 = 1 − σ 2 U σ 2 Y = 1 − 0.28. Mit Hilfe der linearen Regression werden also in diesem Beispiel 0.72 % der Varianz von Y durch X bestimmt. 10.2.5 Ausbildungsjahre und Stundenlöhne Abschließend betrachten wir eine Regression des Stundenlohns (Y ) auf die Zahl der Ausbildungsjahre (X). Die Daten stammen aus dem PSID-File für n = 1,000 Personen. Abbildung 10.4 zeigt <?page no="168"?> 10.2 Methode der kleinsten Quadrate 169 das Streudiagramm. 1 Als Ergebnis einer linearen Regression finden wir die Parameter ˆ α = − 19.8 und ˆ β = 3.19 , durch die die Regressionsgerade in der Abbildung bestimmt wird. Würde man sich an dieser Regressionsgeraden orientieren, würde mit jedem zusätzlichen Ausbildungsjahr der Stundenlohn um 3.19 US-Dollar steigen. Tatsächlich wäre das aber irreführend, denn die Regressionsgerade passt offenbar nur sehr schlecht zu den Daten. Dem entspricht der niedrige Wert des Bestimmtheitsmaßes: R 2 = 0.10. Bei den hier verwendeten Daten hängen die Stundenlöhne offenbar nur sehr geringfügig von den Ausbildungsjahren ab. R-10-1 1 Da sehr viele Personen identische Ausbildungsjahre haben, wurden die x i - Werte zufällig etwas variiert, um die Streuung besser sichtbar zu machen. Die Regression wird jedoch mit den unveränderten x i -Werten berechnet. 10 <?page no="169"?> 170 10 Einfache Regressionsrechnung 10.3 Aufgaben 1. Sie befragen fünf Personen nach ihrem monatlichen verfügbaren Nettoeinkommen (X) und ihren monatlichen Mietausgaben (Y ) und erhalten folgende Werte (jeweils in 1000 e ): (x 1 , y 1 ) = (1, 0.3), (x 2 , y 2 ) = (2, 0.45), (x 3 , y 3 ) = (3, 0.9), (x 4 , y 4 ) = (4, 1.2), (x 5 , y 5 ) = (5, 0.95) a) Stellen Sie die Wertepaare als Streudiagramm graphisch dar. b) Das Streudiagramm zeigt, dass sich der Zusammenhang zwischen dem verfügbaren Einkommen und den Mietausgaben recht gut durch ein Gerade darstellen läßt. Überlegen Sie, warum üblicherweise als Anpassungskriterium die Minimierung der Abstandsquadratensumme zwischen den Y -Werten und den Regressionswerten und nicht die Minimierung der Abstandssumme gewählt wird. c) Ermitteln Sie aus den Ableitungen der Abstandsquadratensumme Q(α, β) die beiden Normalgleichungen. d) Ersetzen Sie in der 2. Normalgleichung x i durch ( x i − ¯ x ) und y i durch (y i − ¯ y), dann lösen Sie die Gleichung für den Parameter β. e) Welche Größen resultieren, wenn Sie in Ihrer Bestimmungsgleichung für β den Zähler und den Nenner durch n dividieren? f) Ermitteln Sie die Bestimmungsgleichung für α durch Umformung der 1. Normalgleichung. g) Wenn Sie den Ursprung Ihres Koordinatensystems in den Punkt ( ¯ x, 0) legen, entspricht dies einer Messung der X - Werte in Abständen zum Mittelwert. Der Achsenabschnitt Ihrer Regressionsgeraden im transformierten Koordinatensystem entspricht dann ¯ y, die Steigung der Geraden bleibt jedoch unverändert. Zeigen Sie dies in Ihrem Streudiagramm. <?page no="170"?> 10.3 Aufgaben 171 h) Wenn Sie den Ursprung Ihres Koordinatensystems in den Punkt ( ¯ x, ¯ y ) legen, entspricht dies einer Messung sowohl der Xals auch der Y -Werte in Abständen zum Mittelwert. Der Achsenabschnitt Ihrer Regressionsgeraden im transformierten Koordinatensystem ist dann 0 , die Steigung der Geraden bleibt aber auch in diesem Fall unverändert. Zeigen Sie dies in Ihrem Streudiagramm. i) Berechnen Sie das Steigungsmaß Ihrer Mietausgabenfunktion und interpretieren sie den numerischen Wert. j) Berechnen Sie den Achsenabschnitt Ihrer Mietausgabenfunktion. Wie lautet Ihre Mietausgabenfunktion. k) Zeigen Sie, dass eine nach der Methode der kleinsten Quadrate berechnete Regressionsfunktion durch den Punkt (¯ x, ¯ y) geht. l) Wie lauten die Regressionswerte, also die auf das jeweilige Einkommen x i bedingten mittleren Mietausgaben ˆ y i ? m) Berechnen Sie die Abstandsquadratsumme Q( ˆ α, ˆ β) und die Varianz σ 2 U n) Berechnen Sie die Summe und den Mittelwert der quadrierten Abstände der Regressionswerte ˆ y i von dem arithmetischen Mittel ¯ y. o) Vergleichen Sie die Summe der durch die Regression erklärten Varianz ( σ 2 ˆ Y ) und der von der Regression nicht erklärten Varianz (σ 2 U ) mit der gesamten Varianz (σ 2 Y ). p) Wieviel Prozent der gesamten Varianz von Y können durch die Regression bestimmt werden? Wie nennt man diese Maßzahl? 10 <?page no="171"?> 172 10 Einfache Regressionsrechnung 2. Betrachten Sie die beiden folgenden Regressionen: y i = α + βx i + u i x i = ψ + δy i + v i a) Wie lauten die Bestimmungsgleichungen für ˆ β und ˆ δ? b) Vergleichen Sie die beiden Bestimmungsgleichungen mit der Definition des linearen Korrelationskoeffizienten. Sehen Sie einen Zusammenhang? c) Berechnen Sie ˆ δ sowohl mit Hilfe der Bestimmungsgleichung (Aufgabe 2a) als auch über den Zusammenhang mit dem linearen Korrelationskoeffizienten. d) Welche der beiden in Aufgabe 2a dargestellten Regressionen erscheint Ihnen sachlogisch sinnvoller? <?page no="172"?> 10.4 R-Code 173 10.4 R-Code R-10-1 ## Daten einlesen d <read.csv2(file = "usa_2007.csv") n <nrow(d) # Stundenlohn in US-Dollar y <d$stlohn # Ausbildungsjahre x <d$bildung ## Einfache lineare Regression reg <lm(y ~ x) # Ergebnis a <coef(reg)[1] a b <coef(reg)[2] b # durch Schätzung vorhergesagte Werte (eng.: fitted values) yd <reg$fitted # Residuen r <y yd ## Funktionen # Funktion für empirische Varianz erstellen VarEmp <function(x) { n <length(x) var.emp <- (n-1)/ n * var(x) return(var.emp) } ## R2 VarEmp(yd) / VarEmp(y) ## Abbildung #-------------------------------------------------------- # leicht modifizierte Ausbildungsjahre set.seed(123) x.mod <x + runif(n = n, min = -0.15, max = 0.15) # Streudiagramm plot(x = x.mod, y = y, pch = 19, cex = 0.2, xlab = "x", ylab = "y", xaxt = "n") axis(side = 1, at = 6: 17, label = 6: 17) # Regressiongerade einzeichnen lines(x = x, y = yd, lwd = 2) #--------------------------------------------------------------------- 10 <?page no="174"?> 11 Multiple Regressionsanalyse Im vorangegangenen Kapitel haben wir eine einfache Variante der linearen Regression besprochen, bei der es nur eine erklärende Variable gibt. In diesem Kapitel besprechen wir eine Verallgemeinerung, bei der es zwei oder mehr erklärende Variablen geben kann. Diese multiple Regressionsanalyse ist das in den empirischen Wirtschafts- und Sozialwissenschaften am häufigsten verwendete Verfahren. 11.1 Das multiple Regressionsmodell . . . . . . . . . . . . . . . 176 11.1.1 Anpassungskriterium und Zielfunktion . . . . . . . 176 11.2 Das multiple Regressionsmodell in Matrixnotation . . . . . 178 11.3 Eine multiple Lohnregression . . . . . . . . . . . . . . . . 181 11.4 Partielle Regressionskoeffizienten und Residuenregressionen 182 11.5 Interaktionen erklärender Variablen . . . . . . . . . . . . . 183 11.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 185 11.7 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 11 <?page no="175"?> 176 11 Multiple Regressionsanalyse 11.1 Das multiple Regressionsmodell Um den Modellansatz zu erklären, verwenden wir eine abhängige Variable Y und zwei erklärende Variablen X 1 und X 2 . Wir beziehen uns also auf eine dreidimensionale Variable ( X 1 , X 2 , Y ) und nehmen an, dass Werte (x 1 i , x 2 i , y i ) für n Einheiten gegeben sind. Ausgangspunkt ist die folgende Regressionsgleichung y i = β 0 + β 1 x 1 i + β 2 x 2 i + u i . β 0 , β 1 und β 2 sind die Parameter der Regressionsfunktion f(x 1 , x 2 ) = β 0 + β 1 x 1 + β 2 x 2 , die für beliebige Argumente definiert ist. Wie bei der einfachen Regression werden die Residuen durch u i bezeichnet. Wenn es nur zwei erklärende Variablen gibt, lässt sich das Regressionsproblem noch im dreidimensionalen Raum darstellen. Die drei Parameter β 0 , β 1 und β 2 bestimmen die Lage der Regressionsebene. Die vertikalen Abstände der Datenpunkten ( x 1 i , x 2 i , y i ) von der Ebene entsprechen den Residuen u i . 11.1.1 Anpassungskriterium und Zielfunktion Die numerischen Werte der Parameter β 0 , β 1 und β 2 bestimmen wir, wie im Fall der linearen Einfachregression, mit Hilfe der Methode der kleinsten Quadrate. Gesucht ist diejenige Regressionsebene, die die Summe der quadrierten Residuen, also ∑ n i =1 u 2 i , minimal macht. Die zu minimierende Abstandsquadratsumme ist Q(β 0 , β 1 , β 2 ) = n ∑ i =1 (y i − β 0 − β 1 x 1 i − β 2 x 2 i ) 2 Diese Funktion hängt von den drei Parametern β 0 , β 1 und β 2 ab. Um ihr Minimum zu bestimmen, werden zunächst die partiellen <?page no="176"?> 11.1 Das multiple Regressionsmodell 177 Ableitungen gebildet: ∂Q(β 0 , β 1 , β 2 ) ∂β 0 = 2 n ∑ i =1 (y i − β 0 − β 1 x 1 i − β 2 x 2 i )( − 1) ∂Q(β 0 , β 1 , β 2 ) ∂β 1 = 2 n ∑ i =1 (y i − β 0 − β 1 x 1 i − β 2 x 2 i )( − x 1 i ) ∂Q(β 0 , β 1 , β 2 ) ∂β 2 = 2 n ∑ i =1 (y i − β 0 − β 1 x 1 i − β 2 x 2 i )( − x 2 i ) Durch das Nullsetzen dieser Ableitungen lassen sich Bestimmungsgleichungen zur Berechnung der optimalen Parameter ˆ β 0 , ˆ β 1 und ˆ β 2 ermitteln. Werden die Variablen als Mittelwertabweichungen betrachtet, d.h. x ∗ 1 i = x 1 i − ¯ x 1 , x ∗ 2 i = x 2 i − ¯ x 2 und y ∗ i = y i − ¯ y anstelle von x 1 i ,x 2 i und y i , resultieren folgende Bestimmungsgleichungen: ˆ β 0 = ¯ y − ˆ β 1 ¯ x 1 − ˆ β 2 ¯ x 2 ˆ β 1 = ∑ n i =1 x ∗ 2 i 2 ∑ n i =1 x ∗ 1 i y ∗ i − ∑ n i =1 x ∗ 1 i x ∗ 2 i ∑ n i =1 x ∗ 2 i y ∗ i ∑ n i =1 x ∗ 1 i 2 ∑ n i =1 x ∗ 2 i 2 − ( ∑ n i =1 x ∗ 1 i x ∗ 2 i ) 2 ˆ β 2 = ∑ n i =1 x ∗ 1 i 2 ∑ n i =1 x ∗ 2 i y ∗ i − ∑ n i =1 x ∗ 1 i x ∗ 2 i ∑ n i =1 x ∗ 1 i y ∗ i ∑ n i =1 x ∗ 1 i 2 ∑ n i =1 x ∗ 2 i 2 − ( ∑ n i =1 x ∗ 1 i x ∗ 2 i ) 2 Wir betrachten ein kleines Zahlenbeispiel mit n = 4 Beobachtungen (siehe Abbildung 11.1): (x 11 , x 21 , y 1 ) = (2, 1, 4), (x 12 , x 22 , y 2 ) = (4, 5, 3), (x 13 , x 23 , y 3 ) = (6, 3, 6), (x 14 , x 24 , y 4 ) = (8, 7, 7). Wir finden: ˆ β 1 = 20 · 12 − 16 · 6 20 · 20 − 256 = 1, ˆ β 2 = 20 · 6 − 16 · 12 20 · 20 − 256 = − 0.5 und ˆ β 0 = 5 − 1 · 5 − ( − 0.5) · 4 = 2. Die numerischen Regressionswerte ˆ y i ergeben sich aus der Regressionsfunktion ˆ y i = 2 + 1x 1 i − 0.5x 2 i Siehe Abbildung 11.2 zur Regressionsebene. R-11-1 Schließlich sei angemerkt, dass sich die Bestimmungsgleichungen auch mit Varianz- und Kovarianzausdrücken 11 <?page no="177"?> 178 11 Multiple Regressionsanalyse 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 x 1 y x 2 Abbildung 11.1: Zwei erklärende Variablen. ˆ β 1 = σ 2 x 2 σ x 1 y − σ x 1 x 2 σ x 2 y σ 2 x 1 σ 2 x 2 − σ 2 x 1 x 2 und ˆ β 2 = σ 2 x 1 σ x 2 y − σ x 1 x 2 σ x 1 y σ 2 x 1 σ 2 x 2 − σ 2 x 1 x 2 darstellen lassen. 11.2 Das multiple Regressionsmodell in Matrixnotation Im allgemeinen Fall mit zwei oder mehr erklärenden Variablen ist es hilfreich, eine Matrixnotation zu verwenden. Ausgangspunkt sind folgende Regressionsgleichungen mit p erklärenden Variablen: y i = β 0 x 0 i + β 1 x 1 i + β 2 x 2 i + ... + β p x pi + u i , wobei x 0 i = 1 ist, für i = 1, . . . , n. Werden die n Gleichungen untereinander geschrieben, kann man stattdessen in einer Matrixnotation die Gleichung y = Xβ + u betrachten. y ist ein Spaltenvektor der Dimension n × 1, X ist eine Matrix der Dimension n × (p+1), u ist ein Spaltenvektor der Dimension n × 1. Gesucht ist ein Parametervektor β = ( β 0 , β 1 , . . . , β p ) ′ . <?page no="178"?> 11.2 Das multiple Regressionsmodell in Matrixnotation 179 2 4 6 8 2 4 6 0 5 10 y x 2 x 1 Abbildung 11.2: Regressionsebene für die Regression mit zwei erklärenden Variablen. Die schwarzen Pfeile deuten an, ob der Punkt über oder unter der Ebene liegt. Wenn der Pfeil nach oben zeigt liegt der Punkt über der Ebene. Die zu minimierende Zielfunktion ist Q( β ) = ( y − Xβ ) ′ ( y − Xβ ). Die Ableitung nach dem Vektor β ist ∂Q( β ) ∂ β = − 2 X ′ y + 2 X ′ Xβ = 0. Als Lösung findet man ˆ β = ( X ′ X ) − 1 X ′ y . Die Varianz der Residuen ergibt sich in Matrixnotation als 1 ˆ σ 2 = 1 n u ′ u . 1 Im Kontext stochastischer Modelle wird die auf Basis der Residuen berechnete Varianz als Schätzwert für die Varianz des Störterms interpretiert und üblicherweise nicht durch n , sondern durch die Zahl der Freiheitsgrade n − p − 1 dividiert. 11 <?page no="179"?> 180 11 Multiple Regressionsanalyse Wir illustrieren die Berechnung mit den oben eingeführten Beispieldaten ( n = 4, p = 2). Ausgehend von der Modellmatrix X und dem Vektor der erklärenden Variablen X = ⎡ ⎢ ⎣ 1 2 1 1 4 5 1 6 3 1 8 7 ⎤ ⎥ ⎦ y = ⎡ ⎢ ⎣ 4 3 6 7 ⎤ ⎥ ⎦ berechnen wir die Bestandteile für die Schätzgleichung: X ′ X = [ 4 20 16 20 120 96 16 96 84 ] , ( X ′ X ) − 1 = [ 1.5 − 0.25 0 − 0.25 0.139 − 0.111 0 − 0.111 0.139 ] , X ′ y = [ 20 112 86 ] und erhalten schließlich die geschätzten Koeffizienten mit ˆ β = ( X ′ X ) − 1 X ′ y = [ 2 1 − 0.5 ] . Die Regressionswerte ergeben sich als ˆ y = X ˆ β = ⎡ ⎢ ⎣ 3.5 3.5 6.5 6.5 ⎤ ⎥ ⎦ . Für die Residuen finden wir ˆ u = y − X ˆ β = ⎡ ⎢ ⎣ 0.5 − 0.5 − 0.5 0.5 ⎤ ⎥ ⎦ . Die Varianz der Residuen ist ˆ σ 2 = ˆ u ′ ˆ u / n = 0.25. R-11-2 <?page no="180"?> 11.3 Eine multiple Lohnregression 181 6 8 10 12 14 16 18 0 50 100 150 200 250 300 20 30 40 50 60 x 1 y x 2 Abbildung 11.3: Ausbildungsjahre ( x 1 ), Alter ( x 2 ) und Einkommen ( y ). 11.3 Eine multiple Lohnregression Jetzt verwenden wir unser PSID-Datenfile, um zu untersuchen, wie der Stundenlohn (Y ) sowohl von den Ausbildungsjahren (X 1 ) als auch vom Alter (X 2 ) abhängt. Die Daten für n = 1,000 Personen sind in Abbildung 11.3 dargestellt. Die Regressionsfunktion hat die Gestalt y = f(x 1 , x 2 ) = β 0 + β 1 x 1 + β 2 x 2 . Mit der Methode der kleinsten Quadrate findet man die optimalen Parameter ˆ β 0 = − 28 . 56, ˆ β 1 = 2 . 98 und ˆ β 2 = 0 . 29, so dass die Regressionsfunktion folgendermaßen aussieht: ˆ y = f(x 1 , x 2 ) = − 28.56 + 2.98 x 1 + 0.29 x 2 . Bei der Interpretation ist zunächst zu beachten, dass ˆ y eine Approximation des bedingten Mittelwerts von Y ist, wenn als Bedingung die Werte X 1 = x 1 und X 2 = x 2 gegeben sind. Die Funktion zeigt also, wie ein Durchschnittslohn von der Anzahl der Ausbildungsjahre und dem Alter abhängt. So kann man z. B. sagen: In unserem Datenfile beträgt die Stundenlohndifferenz zwischen Per- 11 <?page no="181"?> 182 11 Multiple Regressionsanalyse sonen gleichen Alters, deren Ausbildungsdauer sich um ein Jahr unterscheidet, im Durchschnitt 2.98 US-Dollar. Man könnte auch sagen: Wenn man bei gleichem Alter die Ausbildungsdauer um ein Jahr erhöht, erhöht sich der durchschnittliche Stundenlohn um 2.98 US-Dollar. Aber hier muss man aufpassen. Im Rahmen der deskriptiven Statistik liefert die Regressionsrechnung eine deskriptive Aussage über die durch ein Datenfile gegebenen Daten, in unserem Beispiel über 1000 Lohnempfänger im Jahr 2007. Darüber was passiert, wenn sich bei diesen Personen das Alter oder die Ausbildungsdauer verändert, liefert die Regressionsfunktion keine verlässlichen Informationen. Wichtig ist auch, dass die Ergebnisse davon abhängen, welche erklärenden Variablen verwendet werden. Im Kapitel 10 haben wir mit den gleichen Daten untersucht, wie der Stundenlohn von den Ausbildungsjahren abhängt, und als Ergebnis die Regressionsfunktion ˆ y = − 19.8 + 3.19 x 1 gefunden. Offenbar hat sich der ermittelte Zusammenhang mit den Ausbildungsjahren durch die Hinzunahme des Alters als weitere erklärende Variable verändert. R-11-3 11.4 Partielle Regressionskoeffizienten und Residuenregressionen Die Regressionswerte liegen auf der berechneten Regressionsebene ˆ y = ˆ β 0 + ˆ β 1 x 1 + ˆ β 2 x 2 . Wegen ∂ ˆ y ∂x 1 = ˆ β 1 und ∂ ˆ y ∂x 2 = ˆ β 2 gibt der partielle Regressionskoeffizient ˆ β 1 an, wie sich ˆ y verändert, wenn die Variable X 1 um eine Einheit zunimmt, gegeben dass die Variable X 2 konstant bleibt. Ganz analog gibt ˆ β 2 an, wie sich ˆ y verändert, wenn die Variable X 2 um eine Einheit zunimmt, gegeben dass die Variable X 1 konstant bleibt. Im Lohnbeispiel sind jedoch X 1 und X 2 korreliert (r = 0.14), so dass praktisch Differenzen bei einer Variablen bei Konstanz der anderen Variablen kaum beobachtet wurden. Für die Interpretation von partiellen Regressionskoeffizienten ist es hilfreich, sich zu verdeutlichen, dass diese auch aus einfachen linearen Regressionen mit Residuen berechnet werden können. <?page no="182"?> 11.5 Interaktionen erklärender Variablen 183 Der partielle lineare Einfluss von X 1 auf ˆ y entspricht dem Einfluss von X 1 , nachdem der lineare Einfluss von X 2 auf X 1 eliminiert wurde, auf ˆ y , nachdem auch aus Y der lineare Einfluss von X 2 eliminiert wurde. Für das Zahlenbeispiel finden wir für die Regression von X 1 auf X 2 ˆ x 1 |x 2 = 11.84 + 0.03x 2 . Die Residuen dieser Regression bezeichnen wir mit ˆ u x 1 |x 2 . Für die Regression von y auf x 2 finden wir ˆ y |x 2 = 6.73 + 0.38x 2 und bezeichnen die Residuen dieser Regression mit ˆ u y|x 2 . Für die Regression der Residuen ˆ u y|x 2 auf die Residuen ˆ u x 1 |x 2 ergibt sich ˜ u y|x 2 = 0 + 2.98ˆ u x 1 |x 2 . Der Steigungskoeffizient dieser linearen Einfachregression für Residuen entspricht gerade dem partiellen Regressionskoeffizient ˆ β 1 der multiplen Lohnregression. Aus diesem Grund verändern sich partielle Regressionskoeffizienten, wenn eine Variable zusätzlich in eine Regression aufgenommen oder aus dieser entfernt wird, es sei denn, diese Variable ist mit allen anderen Kovariaten (erklärenden Variablen) unkorreliert. Ein Fall, der in empirischen Analysen praktisch nie auftritt. R-11-4 11.5 Interaktionen erklärender Variablen Bei der eben verwendeten multiplen Regressionsfunktion hängt der Zusammenhang zwischen der abhängigen Variablen und einer erklärenden Variablen nicht davon ab, welchen Wert die jeweils andere erklärende Variable hat. Z. B. beträgt die durchschnittliche Stundenlohndifferenz bei einer Ausbildungsdifferenz von einem Jahr stets 2.98 US-Dollar, unabhängig vom Alter. Es ist aber durchaus möglich, dass es eine Interaktion zwischen Ausbildungsdauer und Alter gibt. Um das zu untersuchen, kann eine weitere Variable X 3 = X 1 X 2 mit Werten x 3 i = x 1 i x 2 i verwendet werden. Die Regressionsfunktion sieht dann so aus: y = f(x 1 , x 2 ) = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 . 11 <?page no="183"?> 184 11 Multiple Regressionsanalyse Mit der Methode der kleinsten Quadrate findet man nun die Parameter ˆ β 0 = 27 . 43, ˆ β 1 = − 1 . 4, ˆ β 2 = − 1 . 08 und ˆ β 3 = 0 . 11, so dass die Regressionsfunktion folgendermaßen aussieht: ˆ y = f(x 1 , x 2 ) = 27.43 − 1.4 x 1 − 1.08 x 2 + 0.11 x 1 x 2 . Für die partiellen Ableitungen finden wir nun ∂ ˆ y ∂x 1 = ˆ β 1 + x 2 ˆ β 3 und ∂ ˆ y ∂x 2 = ˆ β 2 + x 1 ˆ β 3 . Dies bedeutet, dass der Effekt einer Erhöhung der Anzahl der Ausbildungsjahre um ein weiteres Jahr auf den linear approximierten bedingten Mittelwert des Stundenlohnes von dem Alter der Person abhängt. Für eine 30-jährige Person finden wir z. B. einen Anstieg von ˆ y um − 1.4 + 30 · 0.11 = 1.81. Für eine 40-jährige Person finden wir hingegen einen Anstieg von ˆ y um − 1.4+40 · 0.11 = 2.88. R-11-5 <?page no="184"?> 11.6 Aufgaben 185 11.6 Aufgaben 1. Leiten Sie die Berechnungsvorschriften der Parameter ˆ β 0 , ˆ β 1 und ˆ β 2 her (vgl. Seite 177). 2. Wir betrachten ein kleines Zahlenbeispiel mit n = 4 Beobachtungen: (x 11 , x 21 , y 1 ) = (2, 3, 2), (x 12 , x 22 , y 2 ) = (4, 8, 1), (x 13 , x 23 , y 3 ) = (6, 5, 3), (x 14 , x 24 , y 4 ) = (8, 0, 6). a) Berechnen Sie die Regressionsparameter ˆ β 0 , ˆ β 1 und ˆ β 2 mit Hilfe der in der vorherigen Aufgabe hergeleiteten Berechnungsvorschriften. b) Berechnen Sie die Regressionsparameter mit Hilfe von Matrixoperationen. Ermitteln Sie auch die Regressionswerte und die Residuen. Hilfe: ( X ′ X ) − 1 = [ 3.328 − 0.407 − 0.261 − 0.407 0.063 0.022 − 0.261 0.022 0.037 ] 11 <?page no="185"?> 186 11 Multiple Regressionsanalyse 11.7 R-Code R-11-1 ### Daten einlesen x1 <c(2,4,6,8) x2 <c(1,5,3,7) y <c(4,3,6,7) ### 3D-Plot library(scatterplot3d) scatterplot3d(x1, x2, y, xlab = "x1", ylab = "x2", zlab = "y", color = "darkgrey", pch = 20, type = "h", xlim = c(0,10), ylim = c(0,10), zlim = c(0,10)) ### Regression n <length(y) mx1 <mean(x1) mx2 <mean(x2) my <mean(y) x1s <x1-mx1 x2s <x2-mx2 ys <y-my # geschätzter Koeffizient für beta 1 b1 <- (sum(x2s^2) * sum(x1s*ys) sum(x1s*x2s) * sum(x2s*ys)) / (sum(x1s^2) * sum(x2s^2) sum(x1s*x2s)^2) b1 # geschätzter Koeffizient für beta 2 b2 <- (sum(x1s^2) * sum(x2s*ys) sum(x1s*x2s) * sum(x1s*ys)) / (sum(x1s^2) * sum(x2s^2) sum(x1s*x2s)^2) b2 # geschätzter Koeffizient für beta 0 b0 <my b1*mx1 b2*mx2; b0 # alternativ via lm() reg <lm(y ~ x1 + x2); reg ### Regressionsebene library(rockchalk) plotPlane(model = reg, plotx1 = "x1", plotx2 = "x2", drawArrows = TRUE, alwd = 1, pch = 19, pcol = 1, alength = 0.3, alty = 1, acol = "black", lcol = "darkgrey", ticktype = "detailed", cex.axis = 1) R-11-2 X <cbind(1, x1, x2) # geschätzte Koeffizienten beta <solve(t(X) %*% X) %*% t(X) %*% y; beta <?page no="186"?> 11.7 R-Code 187 # Regressionswerte y.d <- X %*% beta; y.d # Residuen u.d <y - X %*% beta; u.d # Varianz der Residuen t(u.d) %*% u.d / n R-11-3 ## Daten einlesen d <read.csv2(file = "usa_2007.csv") n <nrow(d) # Stundenlohn in US-Dollar y <d$stlohn # Ausbildungsjahre x1 <d$bildung # Alter x2 <d$alter ## 3D-Plot library(scatterplot3d) scatterplot3d(x1, x2, y, color = "darkgrey", pch = 20, type = "h") ## Regression reg <lm(y ~ x1 + x2); reg R-11-4 # Korrelation von Ausbildungsjahren und Alter cor(x1, x2) # Koeffizient der Ausbildungsjahre über # Einzelregressionen berechnen reg.x1x2 <lm(x1 ~ x2) reg.yx1 <lm(y ~ x1) reg.yx2 <lm(y ~ x2) u.x1x2 <reg.x1x2$resid u.yx2 <reg.yx2$resid reg2 <lm(u.yx2 ~ u.x1x2) reg2 R-11-5 # Regression mit Interaktion x3 <x1*x2 reg3 <lm(y ~ x1 + x2 + x3); reg3 11 <?page no="188"?> 12 Zeitreihen Viele statistische Variablen, mit denen wirtschaftliche Aktivitäten erfasst werden, werden als Zeitreihen dargestellt. Üblich ist die Messung und Darstellung für äquidistante (d.h. gleiche Abstände aufweisende) Beobachtungszeitpunkte, z. B. für Monate, Quartale oder Jahre. Die meisten ökonomischen Aktivitäten unterliegen dabei jahreszeitlichen Einflüssen. In der Zeitreihenanalyse wird versucht, verschiedene Komponenten der zeitlichen Entwicklung einer Zeitreihe zu identifizieren. 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 190 12.2 Komponenten von Zeitreihen . . . . . . . . . . . . . . . . 192 12.3 Trendermittlung . . . . . . . . . . . . . . . . . . . . . . . 193 12.3.1 Trendfunktionen . . . . . . . . . . . . . . . . . . . 194 12.3.2 Gleitende Durchschnitte . . . . . . . . . . . . . . . 195 12.4 Saisonbereinigung . . . . . . . . . . . . . . . . . . . . . . 197 12.4.1 Periodogrammverfahren . . . . . . . . . . . . . . . 198 12.4.2 Census- und Berliner Verfahren . . . . . . . . . . . 201 12.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . 203 12.6 R-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 12 <?page no="189"?> 190 12 Zeitreihen 12.1 Einleitung Als Beispiel für eine Zeitreihe betrachten wir in diesem Kapitel durchgängig die zeitliche Entwicklung des Bruttoinlandsprodukts (BIP), für das vom Statistischen Bundesamt Vierteljahreswerte veröffentlicht werden. Das Bruttoinlandsprodukt quantifiziert die in einer Periode, hier in einem Vierteljahr, im Inland im Rahmen der Produktion entstandenen Einkommen. Über die reine Beschreibung der zeitlichen Entwicklung hinaus wird in der Zeitreihenanalyse versucht, mit Hilfe eines Modells verschiedene Komponenten der zeitlichen Entwicklung zu identifizieren. Weitere interessierende betriebswirtschaftliche und volkswirtschaftliche Sachverhalte, die in Form von Zeitreihen dargestellt werden, sind z. B. Entwicklungen von Preisindizes, von Aktienkursen und der Arbeitslosenquote. Zur Notation einer Zeitreihe verwenden wir eine Variable Y mit Werten y i ( i = 1 , . . . , n ). Diese Werte beziehen sich auf (meistens äquidistante) Zeitpunkte t i , wobei eine zeitliche Reihenfolge t 1 < t 2 < · · · < t n angenommen wird. Die beiden Abbildungen 12.1 und 12.2 zeigen die zeitliche Entwicklung der Vierteljahreswerte des preisbereinigten Bruttoinlandsprodukts, das als Index mit dem Basisjahr 2010 dargestellt wird, d.h. im Jahr 2010 hat der Index im Durchschnitt gerade den Wert 100. Abbildung 12.2 zeigt die Veränderungsrate (w) für jedes Quartal gegenüber dem Vorquartal. R-12-1 Die erste Abbildung zeigt einen langfristigen Anstieg von 90.6 Punkten zu Beginn des Jahres 2002 bis auf 110.2 im zweiten Quartal des Jahres 2016. Auffällig sind die beiden starken Einbrüche im vierten Quartal 2008 und im ersten Quartal 2009 in Folge der internationalen Finanzkrise. Die Veränderungsraten betrugen hier gegenüber dem Vorquartal − 4.1 und − 5.1 %. Der Einbruch der Einkommensentstehung (preisbereinigt) innerhalb eines halben Jahres vom ersten Quartal 2009 gegenüber dem dritten Quartal in 2008 um − 9 % ist bemerkenswert. Die Abbildung der prozentualen Veränderungsraten ( w ) lässt deutlich ein saisonales Muster erkennen. Die Veränderungsraten der vier Quartale unterscheiden sich deutlich. Tabelle 12.1 zeigt einige Maßzahlen, die diese Unterschiede quantifizieren (Mittelwert ¯ w , Median ˜ w 0 . 5 , Standardabweichung σ w und mittlere absolute Abwei- <?page no="190"?> 12.1 Einleitung 191 Jahr Index 90 95 100 105 110 115 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 1. Quartal 2. Quartal 3. Quartal 4. Quartal Abbildung 12.1: Zeitliche Entwicklung der Vierteljahreswerte des preisbereinigten Bruttoinlandsprodukts. Jahr w -6 -4 -2 0 2 4 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 1. Quartal 2. Quartal 3. Quartal 4. Quartal Abbildung 12.2: Zeitliche Entwicklung des BIP - Veränderungsrate ( w ) für jedes Quartal gegenüber dem Vorquartal. 12 <?page no="191"?> 192 12 Zeitreihen Tabelle 12.1: Veränderungsrate des BIP. ¯ w ˜ w 0 . 5 σ w MA w 1. Quartal -0.82 -0.29 1.84 1.28 2. Quartal 1.00 1.31 1.15 0.91 3. Quartal 2.82 3.07 0.64 0.45 4. Quartal -1.59 -1.39 0.99 0.76 Alle 0.37 0.13 2.10 1.74 chung MA w der Veränderungsraten). Anhand der Mittelwerte lässt sich folgender typische Jahresverlauf charakterisieren: Im ersten Quartal sinkt das BIP leicht ( − 0.82 %). Im zweiten Quartal wächst das BIP verhalten (1.00 %) und im dritten Quartal kräftig (2.82 %). Im vierten Quartal folgt ein deutlicher Rückgang ( − 1.59 %). Die beiden Streuungsmaße ( σ w und MA w ) weisen aus, dass die Entwicklung im ersten Quartal über die Jahre besonders stark streut. Zu vermuten ist, dass im ersten Quartal der klimatische Einfluss in Form milder oder strenger Winter stark variiert. R-12-2 12.2 Komponenten von Zeitreihen Gedanklicher Ausgangspunkt der Zeitreihenanalyse ist die Vorstellung, dass sich die Werte der Zeitreihe als Summen oder als Produkte von vier Komponenten ergeben. Das additive Modell lässt sich in der Form y i = g i + k i + s i + u i , das multiplikative Modell in der Form y i = g i k i s i u i darstellen. Beide Modelle werden in der Praxis verwendet. Das Veröffentlichungsprogramm des Statistischen Bundesamtes umfasst sowohl mit dem Census X-12-ARIMA-Verfahren (multiplikatives Modell) als auch mit dem BV4.1-Verfahren (additives Modell) ermittelte Komponenten. Die vier Komponenten lassen sich folgendermaßen charakterisieren: Die glatte Komponente g i stellt die mittel- und längerfristi- <?page no="192"?> 12.3 Trendermittlung 193 gen Entwicklung dar. In der glatten Komponente sind sowohl die langfristige Trendals auch die mittelfristige (i.d.R. mehrjährige) Konjunkturentwicklung zusammengefasst. Die Kalenderkomponente k i erfasst Abweichungen, die durch unterschiedliche Anzahlen an Arbeitstagen bedingt sind. Das Statistische Bundesamt ermittelt sog. Normperioden, d.h. übliche Anzahlen an Arbeitstagen für verschiedene Perioden. Ein Durchschnittsmonat hat 20.8 , ein Durchschnittsquartal hat 62.4 und ein Durchschnittsjahr hat 249.7 Arbeitstage. Aufgrund von Vor- und Nachholeffekten sind die tatsächlichen Abweichungen in den betrachteten Größen (z. B. das Bruttoinlandsprodukt) geringer als die arbeitstäglichen Unterschiede. Die meisten Zeitreihen weisen eine saisonale Komponente s i auf. Saisonschwankungen sind regelmäßige unterjährige Schwankungen. Ursachen sind meist klimatische Bedingungen, die sich auf wirtschaftliche Aktivitäten auswirken (Urlaubsreisen, Bautätigkeit, etc.). Die Restkomponente u i beinhaltet Einflüsse, die nicht durch die drei anderen Komponenten erfasst werden. In ihr sind auch Sondereinflüsse wie Streiks, Wettereinflüsse u.ä. enthalten. Üblich ist die Modellannahme, dass für eine ausreichende Anzahl an Beobachtungen die Restkomponente keinen Trend aufweist, so dass der Mittelwert der u i -Werte im additiven Modell 0 und im multiplikativen Modell 1 ist. Abbildung 12.3 zeigt für das preisbereinigte BIP die zeitliche Entwicklung der vier Komponenten, die ausgehend von einem multiplikativen Modell mit dem X-12-ARIMA-Verfahren berechnet wurden. 1 R-12-3 12.3 Trendermittlung Bei der Berechnung der glatten Komponente können verschiedene Methoden verwendet werden. Bei einem globalen Ansatz werden zur Berechnung eines Trendwerts g i alle n Beobachtungswerte verwendet. Dies ist z. B. der Fall, wenn ein Trend mit der Methode 1 Statistisches Bundesamt, Fachserie 18 Reihe 1.3, Volkswirtschaftliche Gesamtrechnungen, Inlandsproduktsberechnung, Saisonbereinigte Vierteljahresergebnisse nach Census X-12-ARIMA und BV4.1, 2. Vierteljahr 2016, Tabelle 1.2, Wiesbaden 2016. 12 <?page no="193"?> 194 12 Zeitreihen Jahr Index 90 95 100 105 110 2002 2004 2006 2008 2010 2012 2014 2016 (a) glatte Komponenten Jahr Index 0.98 0.99 1 1.01 1.02 2002 2004 2006 2008 2010 2012 2014 2016 (b) Saisonkomponenten Jahr Index 0.994 1.002 1.01 2002 2004 2006 2008 2010 2012 2014 2016 (c) Kalenderkomponente Jahr Index 0.996 1 1.004 2002 2004 2006 2008 2010 2012 2014 2016 (d) Restkomponente Abbildung 12.3: Komponenten des X-12-ARIMA-Verfahrens. der kleinsten Quadrate durch eine Regressionsfunktion bestimmt wird. Alternativ kann ein lokaler Ansatz verwendet werden. Bei diesem Ansatz werden zur Berechnung eines Trendwertes g i nur y i und einige zeitlich benachbarte Werte von y i verwendet. Als Beispiel besprechen wir weiter unten die Methode der gleitenden Durchschnitte. 12.3.1 Trendfunktionen Als Trendfunktion kann im einfachsten Fall ein linearer Trend mit der Methode der kleinsten Quadrate berechnet werden. Als erklärende Variable werden die Zeitpunkte t i verwendet. Die er- <?page no="194"?> 12.3 Trendermittlung 195 Jahr Index 90 95 100 105 110 115 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 Originalwerte Lineare Trendfkt. Polynom 13.-Grades Abbildung 12.4: Lineare Trendfunktion. mittelten Regressionswerte ergeben dann die Werte der glatten Komponente g i . In der Abbildung 12.4 ist eine so berechnete lineare Trendfunktion eingezeichnet. Man erkennt, dass die Gerade die lang- und mittelfristige Entwicklung nur unzureichend nachzeichnet. Zusätzlich ist ein Polynom (vom Grad 13) eingezeichnet, das sehr viel flexibler ist. Aber auch dieses hochgradige Polynom macht die Entwicklung während der Krise Ende 2008/ Anfang 2009 nur unzureichend sichtbar. R-12-4 12.3.2 Gleitende Durchschnitte Eine Alternative zu parametrischen Trendfunktionen sind gleitende Durchschnitte. Zu einem Zeitpunkt t i wird als Ausgleichswert ein arithmetisches Mittel aus den λ um die Zeitstelle liegenden Y − Werten berechnet. Je größer λ gewählt wird, desto stärker ist die Glättung. Enthält die Zeitreihe eine Saisonkomponente, sollte λ so gewählt werden, dass es ein Vielfaches der Zahl der Phasen ist. Bei Quartalswerten, d.h. einer Zeitreihe mit vier Phasen, sollte λ demnach ein Vielfaches von vier sein. Bei einem ungeraden Wert von λ werden neben y i auch die 12 <?page no="195"?> 196 12 Zeitreihen l = (λ − 1)/ 2 Y-Werte links und rechts von y i berücksichtigt. Als Trendwert ergibt sich dann g i = 1 2l + 1 (y i−l + . . . + y i + . . . + y i + l ). Wenn λ eine gerade Zahl ist, werden zwar λ+1 Werte verwendet (so dass λ + 1 = 2l + 1 ist), jedoch werden die beiden Randwerte jeweils mit dem Faktor 0.5 gewichtet, so dass ein gewichteter Mittelwert entsteht g i = 1 2l (0.5y i−l + y i−l +1 + . . . + y i + . . . + y i + l− 1 + 0.5y i + l ). Wird z. B. für das dritte Quartal 2015 ein gleitendes 4er-Mittel berechnet, gehen in den Wert g i das zweite, dritte und vierte Quartal aus 2015 mit einem Gewicht von 1, die beiden ersten Quartale von 2015 und 2016 mit einem Gewicht von jeweils 0.5 ein. Gleitende Durchschnittswerte enthalten fast nur eine glatte Komponente , weil sich die übrigen drei Komponenten annahmegemäß über vier Phasen weitgehend ausgleichen. Dies lässt sich folgendermaßen darstellen: g i = 1 2l (0.5y i−l + . . . + y i + . . . + .0.5y i + l ) = 1 2l ( 0.5y i−l + j = i + l− 1 ∑ j = i−l +1 y j + 0.5y i + l ) Ersetzt man nun die y -Werte durch den theoretischen Ansatz g + k + s + u, findet man g i = 1 2l ( 0.5g i−l + j = i + l− 1 ∑ j = i−l +1 g j + 0.5g i + l ) + 1 2l ( 0.5k i−l + j = i + l− 1 ∑ j = i−l +1 k j + 0.5k i + l ) + 1 2l ( 0.5s i−l + j = i + l− 1 ∑ j = i−l +1 s j + 0.5s i + l ) <?page no="196"?> 12.4 Saisonbereinigung 197 + 1 2l ( 0.5u i−l + j = i + l− 1 ∑ j = i−l +1 u j + 0.5u i + l ) . Der weitgehende Ausgleich von Kalender-, Saison- und Restkomponente ist eine vorteilhafte Eigenschaft der gleitenden Durchschnitte. Problematisch ist jedoch, dass am Reihenanfang und -ende jeweils l Werte verloren gehen. Damit sind gleitende Mittelwerte für Beurteilungen der aktuellen Entwicklung nicht geeignet. Um eine stärkere Glättung zu erreichen, kann entweder ein höherer Wert für λ gewählt werden, oder es kann auf die gleitenden Durchschnitte erneut eine gleitende Mittelung angewendet werden. Zur Illustration zeigt Abbildung 12.5 neben den Ursprungswerten die ein- und zweifach gemittelten 4er-Mittel und ein 8er-Mittel. Zu beachten ist, dass bei dem 4er-Mittel am Reihenanfang und am Reihenende jeweils zwei und bei dem hintereinander geschalteten 4er-Mittel und dem 8er-Mittel jeweils 4 Werte nicht berechnet werden können. Es ist ersichtlich, dass der Glättungseffekt bei der doppelten 4er Mittelung aufgrund der höheren Gewichtung der zentralen Werte geringer als bei dem einfachen 8er Mittel ist. R-12-5 12.4 Saisonbereinigung Im Rahmen der Konjunkturbeobachtung ist das Interesse auf die Entwicklung der mittel- und längerfristigen Komponente gerichtet. Der saisonale Einfluss wird als störend betrachtet, so dass man durch eine Saisonbereinigung eine Eliminierung der Saisonkomponte erreichen möchte. Zu beachten ist natürlich, dass die Saisonkomponente (wie auch die anderen Komponenten) durch das jeweils verwendete Modell definiert wird. In Deutschland werden vom Statistischen Bundesamt für jedes Quartal zwei saisonbereinigte Werte veröffentlicht, die auf Basis zweier unterschiedlicher Verfahren berechnet werden. Das Berliner-Verfahren (BV4.1) beruht auf einem additiven Modell und einem parametrischen Ansatz zur Ermittlung der glatten Komponente. Das Census-Verfahren (X-12-ARIMA) beruht auf einem multiplikativen Modell und verwendet eine gleitende Mittelung zur Ermittlung der glatten Komponente. Im Folgenden betrachten 12 <?page no="197"?> 198 12 Zeitreihen Jahr Index 90 95 100 105 110 115 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 Originalwerte 4er-Mittel 4er-Mittel der 4er-Mittel 8er-Mittel Abbildung 12.5: Ursprungswerte, ein- und zweifach gemittelte 4er-Mittel und ein 8er-Mittel. wir das Periodogrammverfahren, das eine vereinfachte Variante des Census-Verfahrens darstellt. 12.4.1 Periodogrammverfahren Wir verwenden jetzt anstelle von y i den Ausdruck y jk , wobei j der Index für das Jahr und k der Index für die Phase (Quartale) ist. Beispielsweise ist y 2 , 1 der erste Quartalswert des Jahres 2002. Das vereinfachte Verfahren beruht auf dem multiplikativen Modell und der Annahme einer zeitlich stabilen Saisonfigur, so dass s jk = s k gilt. Das Verfahren enthält fünf Schritte: (1) Ermittlung der glatten Komponente durch gleitende Mittelung. (2) Bereinigung der Originalwerte um die glatte Komponente (Trendbereinigung). (3) Ermittlung der mittleren relativen Trendabweichungen der Phasen (Quartale). (4) Normierung der mittleren relativen Trendabweichungen. (5) Ermittlung von saisonbereinigten Werten. Für die Ermittlung der glatten Komponente ( g jk ) wählen wir ein gleitendes 4er-Mittel (Schritt 1). Die Trendbereinigung <?page no="198"?> 12.4 Saisonbereinigung 199 (Schritt 2) führt zu Werten d jk = y jk / g jk = k jk s jk u jk , die noch die Kalender-, Saison- und Restkomponente enthalten. Die mittleren Phasenmittel (Quartalsmittel) ¯ d k = 1 J ∗ J ∗ ∑ j =1 d jk werden aus den jeweiligen Werten der betrachteten Phase k ermittelt (Schritt 3). Die Anzahl der Werte je Phase, J ∗ , kann dabei unterschiedlich sein. Die Normierung (Schritt 4) der ¯ d k gewährleistet, dass sich die vier Saisonkomponenten s k = ¯ d k 1 K ∑ K k =1 ¯ d k zur Anzahl der Phasen (z. B. 4 bei Quartalen) summieren und keine Niveauverschiebung bei der Saisonbereinigung erfolgt. Für die Werte s k gilt jetzt, dass ∑ K k =1 s k = K ist. Für die Zeitreihe des preisbereinigten BIP ergeben sich für die Quartale die folgenden Saisonkomponenten: s 1 = 0.988, s 2 = 0.994, s 3 = 1.019 , s 4 = 0.999. Im Mittel waren die BIP-Werte demnach im ersten Quartal um 1.2 % saisonbedingt zu niedrig. Werden die Ursprungswerte durch die Saisonkomponente der entsprechenden Phase (Quartal) dividiert (Schritt 5), erhalten wir die saisonbereinigten Werte y s jk = 1 s k g jk k jk s jk u jk = g jk k jk u jk (wegen der Annahme s jk = s k ). Zu beachten ist, dass die saisonbereinigten Werte in diesem vereinfachen Verfahren neben der glatten Komponente nicht nur die Restkomponente, sondern auch noch die Kalenderkomponente enthalten. Abbildung 12.6 zeigt die Ursprungswerte und die mittels des einfachen Periodogrammverfahrens ermittelten saisonbereinigten Werte. Abbildung 12.7 zeigt die Veränderung. R-12-6 12 <?page no="199"?> 200 12 Zeitreihen Jahr Index 90 95 100 105 110 115 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 Originalwerte Saisonber. Werte Abbildung 12.6: Ursprungswerte und die mittels des einfachen Periodogrammverfahrens ermittelten saisonbereinigten Werte. Jahr Index -6 -4 -2 0 2 4 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 Originalwerte Saisonber. Werte Abbildung 12.7: Veränderung der saisonbereinigten Werte. <?page no="200"?> 12.4 Saisonbereinigung 201 Jahr Index 90 95 100 105 110 115 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 Originalwerte Berliner-Verfahren Census-Verfahren Abbildung 12.8: Originalwerte des preisbereinigten BIP und die beiden saisonbereinigten Zeitreihen. 12.4.2 Census- und Berliner Verfahren Abschließend vergleichen wir die mit dem Census X-12-ARIMA- Verfahren und die mit dem Berliner-Verfahren BV4.1 ermittelten saisonbereinigten Werte. Abbildung 12.8 enthält neben den Originalwerten des preisbereinigten BIP die beiden saisonbereinigten Zeitreihen. In Abbildung 12.9 sind die Veränderungsraten dargestellt. Es lässt sich feststellen, dass die Veränderungsraten des mit dem Berliner-Verfahren saisonbereinigten BIP etwas weniger stark variieren. Dieser Befund deckt sich mit Ausführungen des Statistischen Bundesamtes: „Die Ergebnisse der beiden Verfahren unterscheiden sich vor allem dadurch, dass BV4.1 gegenüber Census X-12-ARIMA einen ruhigeren Trendverlauf, eine flexiblere Saisonkomponente, weniger irreguläre saison-bereinigte Werte und häufig geringere Restwerte ermittelt.“ 2 R-12-7 2 Statistisches Bundesamt, Fachserie 18 Reihe 1.3, Volkswirtschaftliche Gesamtrechnungen, Inlandsproduktsberechnung, Saisonbereinigte Vierteljahresergebnisse nach Census X-12-ARIMA und BV4.1, 2. Vierteljahr 2016, S. 5, Wiesbaden 2016. 12 <?page no="201"?> 202 12 Zeitreihen Jahr Index -6 -4 -2 0 2 4 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 Originalwerte Berliner-Verfahren Census-Verfahren Abbildung 12.9: Originalwerte des preisbereinigten BIP und die beiden saisonbereinigten Zeitreihen (Veränderung). <?page no="202"?> 12.5 Aufgaben 203 12.5 Aufgaben 1. Folgende Tabelle enthält die nicht saisonbereinigten Werte (Ursprungswerte) der Zahl der gemeldeten offenen Stellen vom ersten Quartal 2010 bis zum vierten Quartal 2016 (Quartalsmittelwerte in 1000). In der Graphik ist die Zeitreihe graphisch dargestellt. 3 Zahl der offenen Stellen (in Tsd.), 2010-2016 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 296.50 353.77 395.26 391.86 2011 411.62 470.25 497.00 486.28 2012 472.00 499.13 492.58 446.40 2013 443.70 458.65 470.73 454.82 2014 452.38 487.13 511.79 509.93 2015 515.37 560.19 594.93 604.48 2016 609.75 653.26 681.98 676.97 Jahr Zahl der offenen Stellen (in Tsd.) 300 350 400 450 500 550 600 650 700 2010 2011 2012 2013 2014 2015 2016 Ursprungswerte 3 Bundesagentur für Arbeit, Arbeitsmarkt in Zahlen, Monats-/ Jahreszahlen, Arbeitsstellen im Zeitverlauf, Dezember 2016, Tabelle 1.1. 12 <?page no="203"?> 204 12 Zeitreihen a) Beschreiben Sie verbal den Verlauf der Zeitreihe. Lässt sich eine wiederkehrende Saisonfigur erkennen? Ist die Saisonkomponente sehr stabil oder eher etwas unregelmäßig? b) Folgende Tabelle enthält die gleitenden 4er-Mittel der Ursprungswerte aus obiger Tabelle. Ergänzen Sie die fehlenden Werte. Überlegen Sie dabei zunächst, für welche Quartale ausgehend von Ursprungswerten tatsächlich gleitende 4er-Mittel berechnet werden können. Gleitendes 4er-Mittel. 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 2011 429.97 454.49 473.84 484.99 2012 488.05 482.51 473.99 465.39 2013 2014 471.40 483.42 498.18 515.19 2015 534.71 556.92 580.54 603.97 2016 c) Die nächste Tabelle enthält die relativen Trendabweichungen. Ergänzen Sie zunächst die fehlenden Werte. Ermitteln Sie anschließend die fehlenden Mittelwerte der relativen Trendabweichungen in den Quartalen. Die resultierenden Mittelwerte summieren sich nicht exakt zu dem Wert 4. Ermitteln Sie ausgehend von den Mittelwerten durch Normierung die fehlenden Saisonindexzahlen. <?page no="204"?> 12.5 Aufgaben 205 Trendabweichungen und Saisonindexzahlen. 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 2011 0.9573 1.0347 1.0489 1.0027 2012 0.9671 1.0344 1.0392 0.9592 2013 2014 0.9597 1.0077 1.0273 0.9898 2015 0.9638 1.0059 1.0248 1.0008 2016 Mittelwert 0.9651 0.9848 Saisonindexzahlen 1.0156 1.0365 d) Folgende Tabelle enthält die nach dem Periodogrammverfahren saisonbereinigten Werte. Ergänzen Sie die fehlenden Werte. Saisonbereinigte Werte. 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 307.54 348.33 381.34 398.32 2011 426.95 479.50 494.29 2012 489.57 491.46 453.76 2013 460.23 451.60 454.15 2014 469.23 479.65 493.77 518.33 2015 534.56 551.59 573.98 614.43 2016 643.23 657.96 688.12 e) Vergleichen Sie für das vierte Quartal 2016 die Veränderungsrate gegenüber dem Vorquartal für die Ursprungswerte und für die saisonbereinigten Werte. 12 <?page no="205"?> 206 12 Zeitreihen 12.6 R-Code R-12-1 ## Daten einlesen d <read.csv2(file = "bip.csv") head(d) ### Codes für Tabelle 1.2 aus Fachserie 18 Reihe 1.3 # j: Jahre; k: Quartal; bip: Zeitreihe BIP (Deutschland) # Anzahl an Quartalen n <nrow(d) ## Abbildung: preisbereinigtes BIP plot(x = 1: n, y = d$bip, type = "l", xaxt = "n", ylab = "Index", xlab = "Jahr") # Achsen: Quartale und Jahre axis(1, at = seq(from = 1, to = n, by = 1), labels = NA, col="darkgrey") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2016, las = 2) # Label für Quartale pchv <c(18,20,17,15) for(i in 1: 4) { points(x = (1: n)[d$k==i], y = d$bip[d$k==i], pch = pchv[i]) } legend("topleft", pch = pchv, bty = "n", c("1. Quartal","2. Quartal","3. Quartal","4. Quartal")) # Veränderungsrate dbip <d$bip[-1] / d$bip[-n]*100 - 100 # NA einfügen damit die Reihe die gleiche Länge wie vorher hat dbip <c(NA, dbip) dbip ## Abbildung: Veränderungsrate plot(x = 1: n, y = dbip, type = "l", xaxt = "n", ylab = expression(italic(w)), xlab = "Jahr") # Achsen: Quartale und Jahre axis(1, at = seq(from = 1, to = n, by = 1), labels = NA, col="darkgrey") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2016, las = 2) # Label für Quartale pchv <c(18,20,17,15) for(i in 1: 4) { points(x = (1: n)[d$k==i], y = dbip[d$k==i], pch = pchv[i]) } legend("bottomright", pch = pchv, bty = "n", ncol = 2, c("1. Quartal","2. Quartal","3. Quartal","4. Quartal")) abline(h = 0, col = "grey") <?page no="206"?> 12.6 R-Code 207 R-12-2 # Veränderungsraten des BIP (ohne NA) dbip <dbip[-1] # korrespondierende Quartale k <d$k[-1] # Funktion für empirische Standardabweichung erstellen SdEmp <function(x) { n <length(x) var.emp <- (n-1)/ n * var(x) sd.emp <sqrt(var.emp) return(sd.emp) } # Funktion für mittlere absolute Abweichung (siehe Kapitel 4) erstellen MAA <function(x) { maa <mean( abs(x-median(x)) ) return(maa) } # Daten aus der Tabelle tapply(X = dbip, INDEX = k, FUN = mean) tapply(X = dbip, INDEX = k, FUN = median) tapply(X = dbip, INDEX = k, FUN = SdEmp) tapply(X = dbip, INDEX = k, FUN = MAA) c(mean(dbip), median(dbip), SdEmp(dbip), MAA(dbip)) R-12-3 ### Codes für Tabelle 1.2 aus Fachserie 18 Reihe 1.3 # x_bip: Saison- und kalenderbereinigte Werte ## Faktoren: # x_t: Trend; x_k: Kalender; x_s: Saison; x_r: Rest ## vereinfachte Darstellung # 1 plot(x = 1: n, y = d$x_t, ylab = "Index", xlab = "Jahr", main = "glatte Komponenten", type = "l", xaxt = "n") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2016, las = 2) # 2 plot(x = 1: n, y = d$x_s/ 100, ylab = "Index", xlab = "Jahr", main = "Saisonkomponenten", type = "l", xaxt = "n") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2016, las = 2) # 3 plot(x = 1: n, y = d$x_k/ 100, ylab = "Index", xlab = "Jahr", main = "Kalenderkomponente", type = "l", xaxt = "n") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2016, las = 2) # 4 12 <?page no="207"?> 208 12 Zeitreihen plot(x = 1: n, y = d$x_r/ 100, ylab = "Index", xlab = "Jahr", main = "Restkomponente", type = "l", xaxt = "n") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2016, las = 2) R-12-4 # Trends x <- 1: n # lineare Trendfunktion reg1 <lm(d$bip ~ x) # Polynom 13.-Grades reg2 <lm(d$bip ~ poly(x = x, degree = 13, raw = TRUE)) ## vereinfachte Darstellung # Originalwerte plot(x = 1: n, y = d$bip, ylab = "Index", xlab = "Jahr", type = "l", xaxt = "n", col = "darkgray") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2016, las = 2) # Legende legend("topleft", legend = c("Originalwerte", "Lineare Trendfkt.", "Polynom 13.-Grades"), lty = c(1,2,1), lwd = c(1,1,1), col = c("darkgray",1,1), bty = "n") # lineare Trendfunktion lines(x = x, y = reg1$fitted, lty = 2) # Polynom 13.-Grades lines(x = x, y = reg2$fitted) R-12-5 ## gleitendes 4er-Mittel lambda <- 4 l <lambda / 2 x <- 1: n n <length(d$bip) # Vektor für die Ergebnisse g <rep(x = NA, times = n) # gerades Lambda -> zwei halbe Werte gehen mit ein for (i in (l+1): (n-l)){ g[i] <- 1/ (2*l) * sum(c(0.5*d$bip[i-l], d$bip[(i-l+1): (i+l-1)], 0.5*d$bip[i+l])) } g ## vereinfachte Darstellung # Originalwerte plot(x = 1: n, y = d$bip, ylab = "Index", xlab = "Jahr", type = "l", xaxt = "n", col = "darkgray") <?page no="208"?> 12.6 R-Code 209 axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2016, las = 2) # 4er-Mittel eintragen lines(x = x, y = g, lty = 2) R-12-6 # Periodogrammverfahren ## Schritt 1: 4er-Mittel aus dem Teil zuvor g ## Schritt 2: Trendabweichungen # (l+1): (n-l): Werte für die g berechnet werden konnte # hier: l=2, die ersten und letzten beiden Werte fallen weg a <d$bip[(l+1): (n-l)] / g[(l+1): (n-l)] a ## Schritt 3: mittlere relative Trendabweichungen der Phasen k <d$k[(l+1): (n-l)] k dq <tapply(X = a, INDEX = k, FUN = mean) dq ## Schritt 4: Normierung s <dq / mean(dq) s ## Schritt 5: saisonbereinigten Werte # normierte Werte an Ursprungsreihe anpassen sv <s[d$k] sv # saisonbereinigten Werte sb <d$bip / sv ## vereinfachte Darstellung # Originalwerte plot(x = 1: n, y = d$bip, ylab = "Index", xlab = "Jahr", type = "l", xaxt = "n", col = "darkgray") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2016, las = 2) # saisonbereinigte Werte eintragen lines(x = x, y = sb) # Veränderungsraten dbip <c(NA, (d$bip[-1] / d$bip[-n]*100 - 100)) dsb <c(NA, (sb[-1] / sb[-n]*100 - 100)) ## vereinfachte Darstellung # Originalwerte plot(x = 1: n, y = dbip, ylab = "Index", xlab = "Jahr", type = "l", xaxt = "n", col = "darkgray") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2016, las = 2) # saisonbereinigte Werte eintragen lines(x = x, y = dsb) 12 <?page no="209"?> 210 12 Zeitreihen R-12-7 ## Originalwerte, ARIMA, BV plot(x = 1: n, y = d$bip, ylab = "Index", xlab = "Jahr", type = "l", xaxt = "n", col = "darkgray") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2016, las = 2) # ARIMA lines(x = x, y = d$x_bip, lty = 2) # BV lines(x = x, y = d$b_bip) ## Veränderung # Veränderungsraten dar <c(NA, (d$x_bip[-1] / d$x_bip[-n]*100 - 100)) dbv <c(NA, (d$b_bip[-1] / d$b_bip[-n]*100 - 100)) # Plot plot(x = 1: n, y = dbip, ylab = "Index", xlab = "Jahr", type = "l", xaxt = "n", col = "darkgray") axis(1, at = seq(from = 1, to = n, by = 4), labels = 2002: 2016, las = 2) # ARIMA lines(x = x, y = dar, lty = 2) # BV lines(x = x, y = dbv) <?page no="210"?> Formelsammlung Hinweise zu Summen 1 + 2 + 3 + . . . + n = n ∑ i =1 i = n(n + 1) 2 1 2 + 2 2 + 3 2 + . . . + n 2 = n ∑ i =1 i 2 = n(n + 1)(2n + 1) 6 Kerndichteschätzung Kernfunktion K(u i ) = { 1 − | u i | falls | u i | ≤ 1 0 sonst, mit u i = x − x i w Kerndichteschätzer ˆ f(x) = 1 nw n ∑ i =1 K(u i ) = 1 nw n ∑ i =1 K ( x − x i w ) . Spezielle Kernfunktionen Kernfunktion Definition Rechteck-Kern K ( u ) = { 0 . 5 falls |u| ≤ 1 , 0 sonst Dreieck-Kern K ( u ) = { 1 − |u| falls |u| ≤ 1 , 0 sonst Normal-Kern K ( u ) = 1 √ 2 π e − 0 . 5 u 2 Epanechnikov-Kern K ( u ) = { 3 4 (1 − u 2 ) falls |u| ≤ 1 , 0 sonst F <?page no="211"?> 212 Formelsammlung Beschreibung von Häufigkeitsverteilungen Quantil Q(p) = F − 1 (p) = ˜ x p = min { x | F (x) ≥ p } ˜ x p = { x np falls np ganzzahlig, x [ np ]+1 sonst Arithmetisches Mittel ¯ x = 1 n n ∑ i =1 x i = J ∑ j =1 ˜ x j f j Harmonisches Mittel ¯ x H = 1 1 n n ∑ i =1 1 x i = 1 J ∑ j =1 1 ˜ x j f j Geometrisches Mittel ¯ x G = ( n ∏ i =1 x i ) 1 n = J ∏ j =1 ˜ x f j j Mittlere absolute Abweichung MA = 1 n n ∑ i =1 | x i − ¯ x | Varianz σ 2 = 1 n n ∑ i =1 (x i − ¯ x) 2 = 1 n n ∑ i =1 x 2 i − ¯ x 2 = J ∑ j =1 (˜ x j − ¯ x) 2 f j Standardabweichung σ = √ σ 2 <?page no="212"?> Formelsammlung 213 Schiefe μ 3 σ 3 = 1 n n ∑ i =1 ( x i − ¯ x σ ) 3 = 1 n n ∑ i =1 (x i − ¯ x) 3 ( √ 1 n n ∑ i =1 (x i − ¯ x) 2 ) 3 Wölbung μ 4 σ 4 − 3 = 1 n n ∑ i =1 ( x i − ¯ x σ ) 4 − 3 = 1 n n ∑ i =1 (x i − ¯ x) 4 ( √ 1 n n ∑ i =1 (x i − ¯ x) 2 ) 4 − 3 Approximation der Verteilungsfunktion bei klassierten Daten F (x) ≈ F (x u ) + (x − x u ) F (x o ) − F (x u ) x o − x u Konzentrationsmessung Konzentrationsrate CR i = i ∑ r =1 h r mit h r = x r n ∑ i =1 x i = x r n¯ x r = 1, . . . , n Rosenbluth-Index RK = 1 2A = 1 (2 n ∑ i =1 ih i ) − 1 Hirschman-Herfindahl-Index HK = n ∑ i =1 h 2 i Variationskoeffizient VK = σ/ ¯ x F <?page no="213"?> 214 Formelsammlung Gini-Koeffizient G = 1 − J ∑ j =1 f j (H j− 1 + H j ) (Klassierte Daten) G = n ∑ i =1 h i ( 2i − n − 1 n ) (Individualdaten) Vergleichsmaßzahlen Normierte Strukturdifferenz NSD = 0.5 J ∑ j =1 | a m j − a w j | Euklidische Norm EN = √ √ √ √ J ∑ j =1 (a m j − a w j ) 2 Komponentenzerlegung (Niveau-, Struktur-, Mischeffekt) ¯l m − ¯l w = J ∑ j =1 (¯l m j − ¯l w j )a m j + J ∑ j =1 ¯l m j (a m j − a w j ) − J ∑ j =1 (¯l m j − ¯l w j )(a m j − a w j ) Preisindizes Laspeyres-Preisindex P l t 0 ,t 1 = ∑ n j =1 q t 0 j p t 1 j ∑ n j =1 q t 0 j p t 0 j = q ′ t 0 p t 1 q ′ t 0 p t 0 Paasche-Preisindex P p t 0 ,t 1 = ∑ n j =1 q t 1 j p t 1 j ∑ n j =1 q t 1 j p t 0 j = q ′ t 1 p t 1 q ′ t 1 p t 0 <?page no="214"?> Formelsammlung 215 Streuungszerlegung σ 2 X = K ∑ k =1 σ 2 X| ˜ y k P(Y = ˜ y k ) + K ∑ k =1 (¯ x k − ¯ x) 2 P(Y = ˜ y k ) Zusammenhangsmaße Kovarianz σ XY = 1 n n ∑ i =1 (x i − ¯ x) (y i − ¯ y) = 1 n n ∑ i =1 x i y i − ¯ x¯ y Linearer Korrelationskoeffizient r XY = σ XY σ X σ Y = 1 n ∑ n i =1 (x i − ¯ x) (y i − ¯ y) √ 1 n ∑ n i =1 (x i − ¯ x) 2 √ 1 n ∑ n i =1 (y i − ¯ y) 2 Rangkorrelationskoeffizient ρ XY = 1 n ∑ n i =1 (r x (i) − ¯r x ) (r y (i) − ¯r y ) √ 1 n ∑ n i =1 (r x (i) − ¯r x ) 2 √ 1 n ∑ n i =1 (r y (i) − ¯r y ) 2 ¯r X = 1 n n ∑ i =1 r x (i) = n + 1 2 Rangkorrelationskoeffizient (keine Bindungen) ρ XY = 1 − 6 ∑ n i =1 (r x (i) − r y (i)) 2 n (n 2 − 1) . Chi-Quadrat χ 2 = n J ∑ j =1 K ∑ k =1 ( f jk − f ∗ jk ) 2 f ∗ jk mit f ∗ jk = f j· f ·k Kontingenzkoeffizient C C = √ χ 2 χ 2 + n · min { J, K } min { J, K } − 1 F <?page no="215"?> 216 Formelsammlung Einfachregression Regressionskoeffizienten ˆ β = ∑ n i =1 x i y i − n ¯ x ¯ y ∑ n i =1 x 2 i − n ¯ x 2 = σ XY σ 2 X , ˆ α = ¯ y − ˆ β ¯ x Bestimmtheitsmaß R 2 = σ 2 ˆ Y σ 2 Y = 1 − σ 2 U σ 2 Y Multiple Regression Bestimmungsgleichungen (zwei erklärende Variablen) ˆ β 0 = ¯ y − ˆ β 1 ¯ x 1 − ˆ β 2 ¯ x 2 ˆ β 1 = ∑ n i =1 x ∗ 2 i 2 ∑ n i =1 x ∗ 1 i y ∗ i − ∑ n i =1 x ∗ 1 i x ∗ 2 i ∑ n i =1 x ∗ 2 i y ∗ i ∑ n i =1 x ∗ 1 i 2 ∑ n i =1 x ∗ 2 i 2 − ( ∑ n i =1 x ∗ 1 i x ∗ 2 i ) 2 = σ 2 x 2 σ x 1 y − σ x 1 x 2 σ x 2 y σ 2 x 1 σ 2 x 2 − σ 2 x 1 x 2 ˆ β 2 = ∑ n i =1 x ∗ 1 i 2 ∑ n i =1 x ∗ 2 i y ∗ i − ∑ n i =1 x ∗ 1 i x ∗ 2 i ∑ n i =1 x ∗ 1 i y ∗ i ∑ n i =1 x ∗ 1 i 2 ∑ n i =1 x ∗ 2 i 2 − ( ∑ n i =1 x ∗ 1 i x ∗ 2 i ) 2 = σ 2 x 1 σ x 2 y − σ x 1 x 2 σ x 1 y σ 2 x 1 σ 2 x 2 − σ 2 x 1 x 2 x ∗ 1 i = x 1 i − ¯ x 1 , x ∗ 2 i = x 2 i − ¯ x 2 , y ∗ i = y i − ¯ y Bestimmungsgleichung (allgemeiner Fall) ˆ β = ( X ′ X ) − 1 X ′ y <?page no="216"?> Formelsammlung 217 Zeitreihenanalyse Zeitreihen-Komponenten-Modelle y i = g i + k i + s i + u i (additives Modell) y i = g i k i s i u i (multiplikatives Modell) Gleitende Durchschnitte g i = 1 2l + 1 (y i−l + ... + y i + ... + y i + l ) (λ = 2l + 1 ungerade) g i = 1 2l (0.5y i−l + ... + y i + ... + 0.5y i + l ) (λ = 2l gerade) Trendbereinigung d jk = y jk / g jk = k jk s jk u jk Phasenmittel ¯ d k = 1 J ∗ J ∗ ∑ j =1 d jk Normierung s k = ¯ d k 1 K ∑ K k =1 ¯ d k F <?page no="218"?> Probeklausuren Klausur 1 X : 1 6 6 6 6 6 9 20 Y : 2 3 4 5 6 7 8 9 1. [20 Punkte] Betrachten Sie die in der obigen Tabelle angegeben Werte und ermitteln Sie a) [2] das arithmetische Mittel ¯ x. b) [2] den Quantilswert ˜ x 0 . 7 . c) [3] die Standardabweichung σ X . d) [4] die Kovarianz σ XY . e) [9] den Rangkorrelationskoeffizienten ρ XY . 2. [20 Punkte] Die nachfolgenden Tabellen enthalten die unbereinigten Werte des Bruttoinlandsprodukts des Zeitraums 2011 (1. Quartal) bis 2014 (3. Quartal). Ermitteln Sie den saisonbereinigten Wert für das 3. Quartal 2014 nach dem Periodogrammverfahren. Gehen Sie dabei von einem multiplikativen Modell aus, verwenden Sie ein gleitendes 4er-Mittel für die Ermittlung der Trendwerte und verzichten Sie zur Vereinfachung auf die Normierung. Jahr 2011 2012 Quartal 1 2 3 4 1 2 3 4 BIP 661.86 664.75 688.24 684.25 680.68 675.68 699.39 694.15 K <?page no="219"?> 220 Probeklausuren Jahr 2013 2014 Quartal 1 2 3 4 1 2 3 BIP 682.42 694.31 718.47 714.28 714.05 714.75 739.96 3. [20] Regression a) [15] Gehen Sie von folgender linearen Regressionsfunktion aus y i = β 0 + β 1 x i + u i und leiten Sie folgenden Bestimmungsgleichungen für die Parameter ˆ β 0 und ˆ β 1 nach der Methode der kleinsten Quadrate her. b) [5] Wie lauten ihre numerischen Schätzwerte ˆ β 0 und ˆ β 1 für die beiden Parameter β 0 und β 1 (Werte aus obiger Tabelle)? 4. [20 Punkte] Gini-Koeffizient a) [10] Leiten Sie die nachfolgende Berechnungsvorschrift des Gini-Koeffizienten für klassifizierte Daten unter Zuhilfenahme einer kleinen Skizze her. G = 1 − J ∑ j =1 f j (H j− 1 + H j ) b) [10] Ermitteln Sie den Gini-Koeffizienten der statistischen Variable X. <?page no="220"?> Probeklausuren 221 5. [20 Punkte] Die nachfolgende Tabelle enthält die Preise und die Mengen von 4 Gütern zu zwei verschiedenen Zeitpunkten: j 1 2 3 4 Preis/ Menge p q p q p q p q t = 0 1.05 4 2.11 6 3.40 8 4.10 10 t = 1 1.07 5 2.14 7 3.50 9 4.80 11 Berechnen Sie a) [6] das mit den relativen Ausgaben der Periode t = 0 gewichtete arithmetische Mittel der Preismesszahlen p j 1 / p j 0 . b) [6] das mit den relativen Ausgaben der Periode t = 1 gewichtete harmonische Mittel der Preismesszahlen p j 1 / p j 0 . c) [4] Berechnen Sie P f t 0 t 1 . P f t 0 t 1 ist ein von Fisher vorgeschlagener Preisindex, der sich als geometrisches Mittel aus den beiden Preisindizes von Paasche und Laspeyres ergibt. d) [4] Wie heißt die unter b) berechnete Maßzahl? Nehmen Sie an, Sie haben nach diesem Konzept die Preissteigerung von Periode 1 gegenüber Periode 0 und von Periode 2 gegenüber Periode 1 ermittelt. Können Sie hieraus auch die isolierte Preisveränderung von Periode 2 gegenüber Periode 0 ermitteln? K <?page no="221"?> 222 Probeklausuren Klausur 2 1. [20 Punkte] Gegeben sind die folgenden Merkmalswerte x 1 = 5, x 2 = 7, x 3 = 8, x 4 = 24. Ermitteln Sie a) [3] das arithmetische Mittel. b) [2] den Zentralwert. c) [3] die Standardabweichung. d) [7] das Schiefemaß zum arithmetischen Mittel. Warum deutet das berechnete Schiefemaß auf eine rechtsschiefe Verteilung hin? e) [5] Nehmen Sie nun an, die vier Werte geben den Wert einer Variable zu vier aufeinanderfolgenden Zeitpunkten an. Ermitteln Sie die mittlere Wachstumsrate von X. 2. [20 Punkte] Preisindizes a) [8] Gängige Preisindizes werden nicht als ungewichtete, sondern als gewichtete Mittelwerte von Preismeßzahlen berechnet. Warum? Wie werden die Gewichte ermittelt? b) [8] Für die beiden Perioden 0 und 1 wurden für drei Güter j = 1, 2, 3 die folgenden Preise (p) und Mengen (q) ermittelt. Berechnen Sie die mittlere Preisveränderung mit Hilfe des Laspeyres- und mit Hilfe des Paasche-Preisindex. t = 0 t = 1 j p q p q 1 3.4 6 3.7 7 2 1.2 5 1.1 6 3 5.6 4 6.2 2 c) [4] Dass der Preisindex nach Laspeyres über dem Preisindex nach Paasche liegt ist nicht unüblich. Warum? <?page no="222"?> Probeklausuren 223 3. [20 Punkte] Leiten Sie die nachfolgende Berechnungsvorschrift des Gini-Koeffizienten unter Zuhilfenahme einer kleinen Skizze her. G = n ∑ i =1 h i ( 2i − n − 1 n ) 4. [20 Punkte] Zeigen Sie, dass folgender Zusammenhang (Streuungszerlegung) gilt: σ 2 X = J ∑ j =1 (˜ x j − ¯ x) 2 P(X = ˜ x j ) = K ∑ k =1 σ 2 X| ˜ y k P(Y = ˜ y k ) + K ∑ k =1 (¯ x k − ¯ x) 2 P(Y = ˜ y k ) Hilfe: x ji − ¯ x = x ji − ¯ x j + ¯ x j − ¯ x 5. [20 Punkte] Die nachfolgende Tabelle enthält Informationen über die Einkommensverteilung von 10029 amerikanischen Erwerbstätigen im Jahr 2005 (1000 US-Dollar). n ¯ x σ 2 (0,100] 9617 30.71 477.88 (100,250] 442 141.04 1340.66 (250,500] 53 326.39 4320.43 (500,6e+03] 17 1372.58 1461706.78 a) [5] Zeigen Sie, dass Sie ausgehend von den Angaben in der Tabelle das arithmetische Mittel exakt berechnen können. b) [4] Warum können Sie auch die Varianz exakt berechnen? c) [4] Ermitteln Sie das arithmetische Mittel des Einkommens. d) [7] Ermitteln Sie die Standardabweichung des Einkommens. K <?page no="223"?> 224 Probeklausuren 6. [20 Punkte] Gehen Sie von folgender Konsumfunktion ( c sei der Konsum, y sei das Einkommen) aus c i = e β 0 y β 1 i e u i a) [3] Gelingt Ihnen eine Linearisierung dieser Funktion? b) [3] Wie könnten Sie Schätzwerte der Parameter β 0 und β 1 ermitteln? (Eine Berechnung ist nicht notwendig.) c) [2] Als Schätzwerte resultieren für die untenstehenden Werte ˆ β 0 = 0 . 915 , ˆ β 1 = 0 . 818 . Welche Konsumausgaben würden Sie bei einem Einkommen von 4,000 Euro vermuten? d) [10] Ermitteln Sie ausgehend von den Beobachtungen von drei Personen numerische Werte für die Parameter α 0 und α 1 der folgenden einfachen linearen Konsumfunktion: c i = α 0 + α 1 y i + u i Konsumausgaben in e Einkommen in e 400 500 1 , 800 3 , 000 2 , 500 4 , 800 e) [2] Welche Konsumausgaben würden Sie ausgehend von der einfachen linearen Konsumfunktion bei einem Einkommen von 4,000 Euro vermuten? <?page no="224"?> Lösungshinweise Kapitel 1 1. a) 14 b) 28 c) 72 d) 1,728 e) 25,396 2. a) − 1,180 b) 81,535 c) 44,360 3. a) 20 b) 22 c) 22 d) 55 e) 24 4. a) Panelerhebung: Gleiche Einheiten werden an mehreren Zeitpunkten befragt. b) Siehe Abschnitt 1.3.1 auf Seite 19. c) Die Haushalte entstammen zwei unterschiedlichen Stichproben (,low income families‘ und zufällig ausgewählte Familien). d) Ärmere Haushalte haben eine deutlich höhere Chance als nicht-arme Haushalte ausgewählt zu werden. e) Erste Welle 1968, 4,802 Haushalte, 18,230 Personen. Aktuelle Welle 2013, 9,063 Haushalte, 24,952 Personen f) Das PSID liefert Informationen über verschiedene soziodemographische Aspekte. 5. Geschlecht: nominal, Beruf: nominal, Warengruppe: nominal, Immobilienbesitz: nominal, Bonität: ordinal (Risikoklassen) oder metrisch (,Ausfallwahrscheinlichkeit‘), Einkommen: metrisch, Vermögen: metrisch. L <?page no="225"?> 226 Lösungshinweise 6. j ˜ x j n j f j 1 1 5 5/ 15 2 2 2 2/ 15 3 4 4 4/ 15 4 5 3 3/ 15 5 6 1 1/ 15 7. Klasse von bis unter abs. Häuf. rel. Häuf. ˜ x ∗ 1 0 20 169 0.328 ˜ x ∗ 2 20 40 212 0.411 ˜ x ∗ 3 40 70 103 0.200 ˜ x ∗ 4 70 100 24 0.047 ˜ x ∗ 5 100 150 5 0.010 ˜ x ∗ 6 150 300 3 0.006 Kapitel 2 1. In den Klassen wird eine gleiche Verteilung (gleiche Dichte) über das gesamte Intervall unterstellt. Dies ist meist unplausibel. An den Intervallgrenzen macht die geschätzte Dichte einen Sprung. Dies ist meist unplausibel. Das Erscheinungsbild der Verteilung hängt stark von der genauen Lage der Klassengrenzen und von der Anzahl der gebildeten Klassen ab. <?page no="226"?> Lösungshinweise 227 2. i x i u i K(u i ) R K(u i ) R / (nw) 1 1 1.167 0.000 0.000 2 5 -0.167 0.500 0.033 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.099 3. a)-b) (D: Dreieck-Kern, N: Normalkern) i x i u i K ( u i ) D K ( u i ) N K ( u i ) D / ( nw ) K ( u i ) N / ( nw ) 1 1 1.167 0.000 0.202 0.000 0.013 2 5 -0.167 0.833 0.393 0.056 0.026 3 6 -0.500 0.500 0.352 0.033 0.023 4 6 -0.500 0.500 0.352 0.033 0.023 5 8 -1.167 0.000 0.202 0.000 0.013 Summe 0.122 0.098 4. a)-b) (1: w = 3, 2: w = 2.5, 3: w = 3.5) i x i u 1 i K(u i ) 1 K(u i ) 1 / (nw) 1 1 1.167 0.000 0.000 2 5 -0.167 0.833 0.056 3 6 -0.500 0.500 0.033 4 6 -0.500 0.500 0.033 5 8 -1.167 0.000 0.000 Summe 0.122 L <?page no="227"?> 228 Lösungshinweise i x i u 2 i K(u i ) 2 K(u i ) 2 / (nw) 1 1 1.400 0.000 0.000 2 5 -0.200 0.800 0.064 3 6 -0.600 0.400 0.032 4 6 -0.600 0.400 0.032 5 8 -1.400 0.000 0.000 Summe 0.128 i x i u 3 i K(u i ) 3 K(u i ) 3 / (nw) 1 1 1.000 0.000 0.000 2 5 -0.143 0.857 0.049 3 6 -0.429 0.571 0.033 4 6 -0.429 0.571 0.033 5 8 -1.000 0.000 0.000 Summe 0.115 Kapitel 3 1. a) D = 3 b) ˜ x 0 . 5 = 3 c) ¯ x = 3.75 d) H = 2.8141 e) G = 3.330 f) σ 2 = 2.688 g) σ = 1.639 h) ¯ d = 1.25 i) g = 0.404 j) k = − 0.021 k) a) Verändert sich nicht b) Verändert sich nicht c) Wird deutlich größer d) Wird etwas größer e) Wird etwas größer f) Nimmt extrem zu g) Nimmt extrem zu h) Nimmt deutlich zu i) Nimmt extrem zu j) Nimmt extrem zu <?page no="228"?> Lösungshinweise 229 l) a) 3 b) 3 c) 6.25 d) 2.923 e) 3.942 f) 62.688 g) 7.918 h) 5.188 i) 2.181 j) 2.933 2. a) 10.2 km/ Std. b) 9.9 km/ Std. c) 8.4 % 3. a) v.: von; b.u.: bis unter K v. b. u. rel. Häuf. kum. rel. H. K v. b. u. rel. Häuf. kum. rel. H. ˜ x 1 0 10 0.097 0.097 ˜ x 7 75 100 0.045 0.932 ˜ x 2 10 20 0.153 0.250 ˜ x 8 100 150 0.036 0.968 ˜ x 3 20 30 0.190 0.440 ˜ x 9 150 200 0.013 0.981 ˜ x 4 30 40 0.182 0.622 ˜ x 10 200 500 0.016 0.997 ˜ x 5 40 55 0.167 0.789 ˜ x 11 500 800 0.002 0.999 ˜ x 6 55 75 0.098 0.887 ˜ x 12 800 1200 0.001 1.000 b) Die dichteste Klasse ist die 3-te Klasse. Als Näherung kann die Klassenmitte 25 (in Tsd. US-Dollar) verwendet werden. c) 4-te Klasse, Näherungswert: 33.297 (in Tsd. US-Dollar) d) 46.815 (in Tsd. US-Dollar) e) Die gefundene Abfolge (arithm. Mittel > Zentralwert > Modus) ist typisch für eine linkssteile, rechtsflache Verteilung. f) Unteres Quartil (lineare Interpolation): 20 , oberes Quartil (lineare Interpolation): 51.497 (in Tsd. US-Dollar), totaler Quartilsabstand: 31.497 (in Tsd. US-Dollar). g) 63.937 (in Tsd. US-Dollar) Hinweis: Es wird nur die Streuung zwischen den Klassen (approximativ) berücksichtigt. h) Lediglich die Streuung zwischen den Klassen wird bei der Näherung berücksichtigt (Unterschätzung). Überkompensation durch Überschätzung der externen Streuung. L <?page no="229"?> 230 Lösungshinweise Kapitel 4 1. a) 40 b) h 1 = 0.5; h 2 = 0.25; h 3 = 0.175 c) CR 2 = 0.75; i/ n = 0.5 d) 0.25 e) Siehe Abschnitt 4.1 auf Seite 66. f) CR 1 = 0.5, CR 2 = 0.75, CR 3 = 0.925, CR 4 = 1 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 i CR i A g) Kurven bei minimaler und maximaler Konzentration 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 i CR i Konzentrationskurve max min h) h r = x r ∑ n i=1 x i i) h r = c + x r nc + ∑ n i=1 x i (geringere absolute Konzentration) <?page no="230"?> Lösungshinweise 231 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 i CR i vorher nachher j) HK = 0.34875, wobei 1 n ≤ HK ≤ 1 k) RK = 0.37736, wobei 1 n ≤ RK ≤ 1 2. a) H 1 = 0.075, H 2 = 0.25, H 3 = 0.5, H 4 = 1 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F j H j b) Kurven bei minimaler und maximaler relativer Konzentration 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F j H j min Lorenzkurve max L <?page no="231"?> 232 Lösungshinweise c) H j = ∑ j r =1 x r ∑ n r =1 x r d) ∑ j r =1 x r ∑ n r =1 x r < ∑ j r =1 (x r + c) ∑ n r =1 (x r + c) = jc + ∑ j r =1 x r nc + ∑ n r =1 x r (geringere relative Konzentration) 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 F j H j nachher vorher e) G = 0.3375 f) G = 0.16875 g) G = 0.375 Kapitel 5 1. SD = 0.12; NSD = 0.06; EN = 0.073 2. a) ¯l m = 25.79; ¯l w = 17.46 b) ¯l w ( a m ) = 17.49; ¯l w (¯ l m ) = 25.41 c) ¯l m − ¯l w ( a m ) = 8.34; ¯l m − ¯l w (¯ l m ) = 0.42 d) ¯l m − ¯l w = 8.39 <?page no="232"?> Lösungshinweise 233 e) Die vorgefundene Lohndifferenz lässt sich fast vollständig auf die unterschiedliche Lohnhöhe in den Bildungsgruppen zurückführen. 3. a) ¯l m = 21.76; ¯l w = 21.15 b) ¯l w ( a m ) = 19.33; ¯l w (¯ l m ) = 24.05 c) ¯l m − ¯l w ( a m ) = 2.43; ¯l m − ¯l w (¯ l m ) = − 2.29 d) ¯l m − ¯l w = 0.65 e) Die vorgefundene geringe Lohndifferenz 0.65 resultiert aus einem aus Sicht der Nicht-Dienstleister positiven Niveaueffekt 2.43 , der praktisch vollständig durch den negativen Struktureffekt in Höhe von − 2.29 kompensiert wird. Kapitel 6 1. a) - Ausgaben t Gut A Gut B A+B 0 72 500 572 1 120 432 552 2 105 765 870 - Relative Ausgaben t Gut A Gut B 0 72/ 572 = 0.12587 500/ 572 = 0.87413 1 120/ 552 = 0.21739 432/ 552 = 0.78261 2 105/ 870 = 0.12069 765/ 870 = 0.87931 b) - Messzahlen p t 1 p t 0 = m(t 0 , t 1 ) mit fester Basis (t 0 ): t Gut A Gut B 1 20/ 18 = 1.1111 48/ 50 = 0.96 2 21/ 18 = 1.1667 51/ 50 = 1.02 L <?page no="233"?> 234 Lösungshinweise - Messzahlen p t i p t i−1 = m(t i− 1 , t i ) mit Vorjahresbasis (t i− 1 ): t Gut A Gut B 1 20/ 18 = 1.1111 48/ 50 = 0.9600 2 21/ 20 = 1.0500 51/ 48 = 1.0625 c) P l t 0 ,t 1 = 0.97904; P l t 0 ,t 2 = 1.0385 d) P p t 0 ,t 1 = 0.98919 e) P p t 1 ,t 2 = 1.0610 f) P l t 0 ,t 1 = 0.9790 ; P l t 0 ,t 2 = 1.0385 ; P p t 0 ,t 1 = 0.9893 ; P p t 1 ,t 2 = 1.0610 g) P p t 0 ,t 2 P p t 0 ,t 1 = n ∑ j =1 p jt 2 q jt 2 n ∑ j =1 p jt 0 q jt 2 n ∑ j =1 p jt 0 q jt 1 n ∑ j =1 p jt 1 q jt 1 h) P l t 0 ,t 2 P l t 0 ,t 1 = n ∑ i =1 p t 2 q t 0 n ∑ i =1 p t 1 q t 0 i) Q l t 0 ,t 2 = 1.4685; Q p t 0 ,t 1 = 0.98571 2. a) Vgl. Abschnitt 6.7.2 b) Vgl. Abschnitt 6.7.2 c) Vgl. Abschnitt 6.7.1 Kapitel 7 1. P (F | D) = 0.634 2. Vgl. Abschnitt 7.3 <?page no="234"?> Lösungshinweise 235 3. 219.0411 950.8 = 0.23 4. 219.0411 3,539.0833 = 0.062 Kapitel 8 1. a) Streudiagramm 1 2 3 4 5 0.4 0.6 0.8 1.0 1.2 x y b) Der Zusammenhang ist postiv, halbwegs linear und relativ eng. c) ¯ x = 3; ¯ y = 0.76 d) Streudiagramm mittelwertbereinigte Daten -2 -1 0 1 2 -0.4 -0.2 0.0 0.2 0.4 x − ¯ x y − ¯ y e) I: (x i − ¯ x)(y i − ¯ y) > 0 (+,+) II: (x i − ¯ x)(y i − ¯ y) < 0 (-,+) L <?page no="235"?> 236 Lösungshinweise III (x i − ¯ x)(y i − ¯ y) > 0 (-,-) IV: (x i − ¯ x)(y i − ¯ y) < 0 (+,-) f) σ 2 X = 1.414; σ 2 Y = 0.334 g) σ Y X = 0.41 h) r XY = 0.869 i) Es liegt ein sehr starker positiver linearer Zusammenhang vor. 2. Siehe Abschnitt 8.3 auf Seite 137 und Abschnitt 3.3.2 auf Seite 49. 3. a) r XY = 0 b) Es besteht kein linearer Zusammenhang, aber ein nichtlinearer funktionaler: y = x 4 . Kapitel 9 1. a) ρ XY = 0.9 b) ρ XY = 0.9 c) Einkommen ist ein metrisches Merkmal, daher wird der lineare Korrelationskoeffizient verwendet. Beim Rangkorrelationskoeffizient geht die Information über die Einkommensabstände verloren. 2. a) ρ XY = − 0.211 b) ρ XY = 1 − 6 ∑ n i=1 ( r i − r ′ i ) 2 n ( n 2 − 1 ) = − 0.15 <?page no="236"?> Lösungshinweise 237 Y = 0 Y = 1 P[X] X = 0 0.328 0.156 0.484 X = 1 0.350 0.166 0.516 P[Y ] 0.678 0.322 1.000 3. a) P(Y = 1 | X = 1) = 0.254; P(Y = 1 | X = 0) = 0.395 b) P(X = 1 | Y = 1) = 0.407; P(X = 0 | Y = 0) = 0.568 c) Tabelle bei Unabhängigkeit d) χ 2 = 22.467 e) χ 2 = 22.663 f) C = 0.21 g) Nur wenn χ 2 exakt 0 wäre, ergäbe sich auch ein Kontingenzkoeffizient von 0. In diesem Fall wären die empirische und die hypothetisch Verteilung unter Unabhängigkeit identisch. Kapitel 10 1. a) Streudiagramm: 1 2 3 4 5 0.4 0.6 0.8 1.0 1.2 x y b) Siehe Abschnitt 10.2 auf Seite 162ff. c) Siehe Abschnitt 10.2 auf Seite 164. L <?page no="237"?> 238 Lösungshinweise d) Siehe Abschnitt 10.2 auf Seite 166. e) Siehe Abschnitt 10.2 auf Seite 166. f) Siehe Abschnitt 10.2 auf Seite 165. g) Siehe Abbildung 10.3. h) Siehe Abbildung 10.3. i) β = 0.205 , d.h. eine Änderung des Einkommens um 1000 Euro führt zu einer Erhöhung der Mietausgaben um 205 Euro. j) α = 0.145; ˆ y i = 0.145 + 0.205 · x i k) ˆ y i (x i = ¯ x) = ¯ y − β ¯ x + β ¯ x = ¯ y l) ˆ y 1 = 0.35; ˆ y 2 = 0.555; ˆ y 3 = 0.76; ˆ y 4 = 0.965; ˆ y 5 = 1.17 m) Q = 0.137; σ 2 U = 0.027 n) n ∑ i =1 (ˆ y i − ¯ y i ) 2 = 0.42; σ 2 ˆ Y = 0.084 o) σ 2 Y = σ 2 ˆ Y + σ 2 U 0.111 = 0.084 + 0.027 p) R 2 = 0.754 2. a) β = σ XY σ 2 X ; δ = σ XY σ 2 Y b) r 2 = ( σ XY ) 2 σ 2 X σ 2 Y = βδ c) δ = σ XY σ 2 Y = 3.68 d) Es ist wohl eher eine „kausale Determinierung“ der Mieten durch das Einkommen ( y i = α + βx i + u i ) als umgekehrt zu vermuten. Kapitel 11 1. Siehe Abschnitt 11.1.1 auf Seite 177. <?page no="238"?> Lösungshinweise 239 2. a) ˆ β 1 = 0.463, ˆ β 2 = − 0.396, ˆ β 0 = 2.269, ˆ y i = 2.269 + 0.463x 1 i − 0.396x 2 i b) Geschätzte Koeffizienten: ˆ β = ( X ′ X ) − 1 X ′ y = [ 2.269 0.463 − 0.396 ] Regressionswerte und Residuen: ˆ y = X ˆ β = ⎡ ⎢ ⎣ 2.007 0.953 3.067 5.973 ⎤ ⎥ ⎦ ; u = y − X ˆ β = ⎡ ⎢ ⎣ − 0.007 0.047 − 0.067 0.027 ⎤ ⎥ ⎦ Kapitel 12 1. a) Siehe Abschnitt 12.2 auf Seite 192. b) Lösung: Gleitendes 4er-Mittel 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 373.74 402.69 2011 429.97 454.49 473.84 484.99 2012 488.05 482.51 473.99 465.39 2013 457.60 455.92 458.06 462.70 2014 471.40 483.42 498.18 515.19 2015 534.71 556.92 580.54 603.97 2016 626.49 646.43 L <?page no="239"?> 240 Lösungshinweise c) Lösung: Trendabweichungen und Saisonindexzahlen 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 1.0576 0.9731 2011 0.9573 1.0347 1.0489 1.0027 2012 0.9671 1.0344 1.0392 0.9592 2013 0.9696 1.0060 1.0277 0.9830 2014 0.9597 1.0077 1.0273 0.9898 2015 0.9638 1.0059 1.0248 1.0008 2016 0.9733 1.0106 Mittelwert 0.9651 1.0166 1.0376 0.9848 Saisonindexzahlen 0.9641 1.0156 1.0365 0.9838 d) Lösung: Saisonbereinigte Werte 1. Quart. 2. Quart. 3. Quart. 4.Quart. 2010 307.54 348.33 381.34 398.32 2011 426.95 463.03 479.50 494.29 2012 489.57 491.46 475.23 453.76 2013 460.23 451.60 454.15 462.31 2014 469.23 479.65 493.77 518.33 2015 534.56 551.59 573.98 614.43 2016 632.45 643.23 657.96 688.12 e) - Ursprungswerte: ( 676 . 973 681 . 975 − 1 ) · 100 = − 0.73 - Saisonbereinigte Werte: ( 688 . 12 657 . 96 − 1 ) · 100 = 4.58 <?page no="240"?> Lösungshinweise 241 Probeklausuren Klausur 1 1. a) ¯ x = 7.5 b) ˜ x 0 . 7 = 6 c) σ X = 5.147 8 d) σ XY = 9.25 e) ρ XY = 0.8729 2. Beachte: Da die Normierung entfällt, muss nur das dritte Quartal betrachtet werden! Gleitende Durchschnitte: g 2011 , 3 = 677.13 , g 2012 , 3 = 687.69 , g 2013 , 3 = 706.32 Trendbereinigte Werte: d 2011 , 3 = 1 . 0164, d 2012 , 3 = 1 . 0170, d 2013 , 3 = 1.0172 Phasenmittel: ¯ d 3 = 1.0169 Normierung entfällt: ¯ d 3 = s 3 Saisonbereinigter Wert: y sb 2014 , 3 = 727.66 3. a) Siehe Abschnitt 10.2.2 Seite 163ff. b) ˆ β 1 = 0.3491, ˆ β 0 = 28818 4. a) Siehe Abschnitt 4.3.2 Seite 72ff. b) G = 0.44343 5. Zu a) und b): j 1 2 3 4 p 1 / p 0 a p 1 / p 0 a p 1 / p 0 a p 1 / p 0 a t = 0 1 . 05 · 4 85 . 06 2 . 11 · 6 85 . 06 3 . 40 · 8 85 . 06 4 . 10 · 10 85 . 06 t = 1 1 . 07 1 . 05 1 . 07 · 5 104 . 63 2 . 14 2 . 11 2 . 14 · 7 104 . 63 3 . 50 3 . 40 3 . 50 · 9 104 . 63 4 . 80 4 . 10 4 . 80 · 11 104 . 63 L <?page no="241"?> 242 Lösungshinweise 1.05 · 4 + 2.11 · 6 + 3.40 · 8 + 4.10 · 10 = 85.06 1.07 · 5 + 2.14 · 7 + 3.50 · 9 + 4.80 · 11 = 104.63 a) P l t 0 t 1 = 1.07 1.05 · 1.05 · 4 85.06 + 2.14 2.11 · 2.11 · 6 85.06 + 3.50 3.40 · 3.40 · 8 85.06 + 4.80 4.10 · 4.10 · 10 85.06 = 1.094 8 Alternativ: P l t 0 t 1 = 1.07 · 4 + 2.14 · 6 + 3.50 · 8 + 4.80 · 10 1.05 · 4 + 2.11 · 6 + 3.40 · 8 + 4.10 · 10 = 1.0948 b) P p t 0 t 1 = 1 1 1.07 1.05 · 1.07·5 104.63 + 1 2.14 2.11 · 2.14·7 104.63 + 1 3.50 3.40 · 3.50·9 104.63 + 1 4.80 4.10 · 4.80·11 104.63 = 1.0931 Alternativ: P p t 0 t 1 = 1.07 · 5 + 2.14 · 7 + 3.50 · 9 + 4.80 · 11 1.05 · 5 + 2.11 · 7 + 3.40 · 9 + 4.10 · 11 = 1.0931 c) P f t 0 t 1 = √ P l t 0 t 1 · P p t 0 t 1 = √ 1.0948 · 1.0931 = 1.093 9 d) Preisindex nach Paasche P p t 0 t 1 P p t 1 t 2 = ∑ p 1 q 1 ∑ p 0 q 1 ∑ p 2 q 2 ∑ p 1 q 2 = ∑ p 2 q 2 ∑ p 0 q 2 = P p t 0 t 2 <?page no="242"?> Lösungshinweise 243 Klausur 2 1. a) ¯ x = 11 b) ˜ x 0 . 5 = 7 c) σ = 7.5829 d) μ 3 σ 3 = 1.0837 . Es gibt drei kleine negative und eine große positive Abweichung. Durch die dritte Potenz überwiegt die große positive Abweichung und führt zu einem positiven Wert des Schiefemaßes. Dies deutet auf eine rechtsschiefe Verteilung hin. e) n √ ∏ n i =1 x i = 1.6869; 1.6869 · 100 − 100 = 68.6 2. a) Eine Gewichtung erfolgt, um die unterschiedliche ’Bedeutung’ der verschiedenen Güter bzw. Gütergruppen zu berücksichtigen. Die Gewichtung erfolgt durch die Auswertung von ’Ausgabebüchern’ der Teilnehmer der EVS. D.h. es werden für die verschiedenen Gütergruppen die Ausgabenanteile von vielen Personen gemittelt, so dass die Ausgabenanteile den Verbrauchsgewohnheiten eines typischen Haushalts entsprechen sollen. Tatsächlich ist entsprechend seiner Ausgabenstruktur jeder Haushalt individuell unterschiedlich von Preissteigerungen betroffen. b) P l t 0 t 1 = 1.0758; P p t 0 t 1 = 1.0640 c) In den Preisindex nach Paasche gehen aktuelle Gütermengen ein. Tendenziell substitutieren Menschen sehr stark verteuerte Güter durch weniger stark verteuerte, so dass die besonders hohen Preismeßzahlen beim Paasche-Index etwas geringer gewichtet werden als beim Laspeyres-Index. 3. Siehe Abschnitt 4.3.2 Seite 74ff. 4. Siehe Abschnitt 7.3 Seite 127ff. L <?page no="243"?> 244 Lösungshinweise 5. a) ¯ x = ∑ J j =1 ¯ x j · f j = ∑ J j =1 1 n j ∑ n j i =1 x ji · n j n = 1 n ∑ n i =1 x i b) Es gilt die Streuungszerlegung. Sowohl die interne als auch die externe Varianz lassen sich mit den Tabellenangaben berechnen. c) ¯ x = 39.716 d) interne Varianz: 3,017.9; externe Varianz: 3,975.9; σ 2 = 6,993.8; σ = 83.629 6. a) c i = e β 0 y β 1 i e u i ln c i = ln ( e β 0 y β 1 i e u i ) ln c i = ln e β 0 + ln y β 1 i + ln e u i = β 0 + β 1 ln y i + u i b) ˆ β 1 = σ ln Y ln C σ 2 ln Y ; ˆ β 0 = ¯ ln c − ˆ β 1 · ¯ ln y c) ˆ c i = e ˆ β 0 y ˆ β 1 i = e 0 . 915 · 4,000 0 . 818 = 2,207.3 d) ˆ α 1 = 0.52257; ˆ α 0 = 87.506 e) ˆ c i = ˆ α 0 + ˆ α 1 y i = 87.506 + 0.52257 · 4,000 = 2,177.8 <?page no="244"?> Index χ 2 , 153 Abschneidepraxis, 69 absolute Konzentration, 66 Abstandsquadratsumme, 176 Anteilsdifferenz, 85 Approximationen, 54 Arithmetisches Mittel, 46 Approximation, 57 Minimumeigenschaft, 47 Nulleigenschaft, 47 Ausgabenanteile, 111 Bandweite, 31 Wahl der, 34 bedingte Häufigkeit, 125 Berliner-Verfahren, 197, 201 Bestimmtheitsmaß, 167 Bindungen, 152 Bruttoinlandsprodukt, 190 Census-Verfahren, 197, 201 Daten klassierte, 54 Deflationierung, 116 Deskriptive Statistik Ziele, 14 dichtester Wert, 35 Disparität, 70 Dissimilaritätsindex, 86 Dreieck-Kern, 30 Durchschnitt, 46 Einkommensdaten, 18 Einkommenskonzentration, 66 Einkommensregression, 168 Epanechnikov-Kern, 32 Erweiterungen tautologische, 93 euklidische Norm, 86 Funktion lineare, 162 Gauß, 163 Geometrisches Mittel, 48 Gini-Koeffizient, 72 Individualdaten, 74 klassierte Daten, 73 glatte Komponente, 192 gleitende Durchschnitte, 195 Häufigkeiten bedingte, 125 empirische, 153 hypothetische, 153 Harmonisches Mittel, 47 Hirschman-Herfindahl- Koeffizient, 69 Histogramm Klassenzahl, 27 Indexkonstruktionen, 104 Indexreihen verkettete, 112 Indexziffern für Preise, 109 <?page no="245"?> 246 Index Inflationsrate, 110 Interaktion, 183 Kalenderkomponente, 193 Kerndichteschätzung, 30 Bandweite, 34 Kernfunktion, 30 Kettenindex Nachteile, 116 Kettenindizes, 113 Deflationierung, 116 Klassenzahl optimale, 27 klassierten Daten, 54 Komponentenzerlegung, 87, 92 additive, 87 multiplikative, 93 konstanten Preisen, 114 Kontingenzkoeffizient, 155 Konzentration absolute, 66 relative, 70 Konzentrationskurve, 67 Konzentrationsmessung, 66 Konzentrationsrate, 66 Korrelation Ausbildung und Einkommen, 143 Korrelationskoeffizient, 140 Eigenschaften, 141 Kovarianz, 137 Eigenschaften, 138 Umformung, 138 Kurtosis, 53 Lagemaße, 46 Laspeyres, 104 leptokurtisch, 51, 53 lineare Regression, 162 Lorenzkurve, 72 Marktpreis, 103 Median, 44 Mengenindex nach Laspeyres, 104 nach Paasche, 105 Mengensurrogat, 116 Merkmal kardinales, 16 metrisches, 16 nominales, 16 ordinales, 16 Merkmalsraum, 16 mesokurtisch, 53 Messziffernmittelung, 106 Methode der kleinsten Quadrate, 162, 176 Minimumeigenschaft, 47 Mischeffekt, 91 Mittlere absolute Abweichung, 49 Modus, 35 Approximation, 55 multiple Regression, 176 Niveaueffekt, 89 Normal-Kern, 32 Normalgleichungen, 164 normierte Strukturdifferenz, 86 Normierung, 86 Nulleigenschaft, 47 Paasche, 105 Paasche-Indizes implizite, 117 Periodogrammverfahren, 198 platykurtisch, 51, 53 <?page no="246"?> Index 247 Preisbegriff, 102 preisbereinigte Wertgrößen, 114 Preisindex nach Laspeyres, 104 nach Paasche, 105 Preisindizes, 103 PSID, 19 Quantile, 43 Quantilsfunktion, 43, 44 Quartilsabstand, 49 Randverteilungen, 124, 136 Rangkorrelation Bindungen, 152 Eigenschaften, 151 Rangkorrelationskoeffizient, 151 Rechteck-Kern, 31 Regression Anpassungsgüte, 166 einfache, 162 Einkommen und Ausbildung, 168 multiple, 176 relative Konzentration, 66, 70 Repräsentativgewichtung, 108 Restkomponente, 193 Rosenbluth-Koeffizient, 68 saisonale Komponente, 193 Satz von Bayes, 126 Schiefemaß, 52 Skalenniveau, 16 Sprungstellen, 42 Standardabweichung, 49 Approximation, 57 Standardisierung, 88, 142 Streuungsmaße, 49 Streuungszerlegung, 127 Strukturanalyse, 87 Strukturdifferenz, 85 normierte, 86 Struktureffekt, 90 Strukturunterschied, 85 Trendfunktion, 194 lineare, 195 Unabhängigkeit, 154 Ungleichheit, 70 Unternehmenskonzentration, 66 Variable, 16 zweidimensionale, 124, 136 Varianz, 49 Varianzkomponenten, 129 Varianzzerlegung, 167 Variationskoeffizient, 71 Verbraucherpreisindex, 108, 110 Entwicklung, 111 Wägungsschema, 111 Verschiebungssatz, 50 Verteilung gemeinsame, 125 Verteilungsfunktion, 42 Verwendungsrechnung, 116 Wägungsschema, 109, 111 Wachstumsraten reale, 116 Warenkorb, 105 Warenkorbvergleich, 103 X-12-ARIMA, 193 <?page no="247"?> 248 Index Zeitreihen, 190 Komponenten, 192 Zeitreihenanalyse, 190 Zentralmoment, 51 drittes, 51 viertes, 53 Zentralwert, 44 Approximation, 55 Zusammenhang metrische Merkmale, 137 nominale Merkmale, 152 ordinale Merkmale, 150