Brückenkurs Statistik für Wirtschaftswissenschaften
Was Sie vor Vorlesungsbeginn wissen sollten
0218
2015
978-3-8385-4333-8
UTB
Peter von der Lippe
Die erste Vorlesung zu einem neuen Thema ist stets ein Sprung ins kalte Wasser, denn Studierende werden darin mit neuen Begriffen, Methoden und Denkweisen konfrontiert. Der Brückenkurs vermittelt vorab Wissenswertes zur Statistik für BWLer und VWLer. Kreuzworträtsel und Single-Choice-Tests helfen beim Verständnis. Die Lektüre lohnt sich, denn sie ist der ideale Einstieg in das Fach und verschafft in der Vorlesung zahlreiche Aha-Erlebnisse.
<?page no="1"?> utb 4333 <?page no="2"?> Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Was Sie vor Vorlesungsbeginn wissen sollten UVK Verlagsgesellschaft mbH ∙ Konstanz mit UVK/ Lucius ∙ München <?page no="3"?> Autorenangaben Prof. Dr. Peter von der Lippe lehrte an der Universität Essen. Die Deutsche Bibliothek - CIP Einheitsaufnahme Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliographie; detaillierte bibliographische Daten sind im Internet über <http: / / dnb.ddb.de> abrufbar. Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. © UVK Verlagsgesellschaft mbH, Konstanz und München 2015 Lektorat: Rainer Berger Gestaltung: Claudia Rupp, Stuttgart Illustrationen: © dragonstock - fotolia.com Einbandgestaltung: Atelier Reichert, Stuttgart Druck und Bindung: Memminger MedienCentrum, Memmingen UVK Verlagsgesellschaft mbH Schützenstraße 24 · 78462 Konstanz Tel. 07531-9053-0 · Fax 07531-9053-98 www.uvk.de UTB-Band-Nr.: 4333 ISBN 978-3-8252-4333-3 Lösungen der Verständnisfragen sowie weitere Übungsfragen finden Sie online unter www.uvk-lucius.de/ brueckenkurse. <?page no="4"?> 5 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften Inhalt 1 Was ist Statistik? . . . . . . . . . . . . . . . . . . . . . . . . 7 Verständnisfragen . . . . . . . . . . . . . . . . . . . . . . . . 9 2 Gegenstände der Statistik . . . . . . . . . . . . . . . . . 10 Deskriptive Statistik . . . . . . . . . . . . . . . . . . . . . . 10 Induktive Statistik . . . . . . . . . . . . . . . . . . . . . . . 12 Wirtschaftsstatistik . . . . . . . . . . . . . . . . . . . . . . 14 Verständnisfragen . . . . . . . . . . . . . . . . . . . . . . . . 14 3 Deskriptive Statistik . . . . . . . . . . . . . . . . . . . . . . 16 Zeitreihenanalyse . . . . . . . . . . . . . . . . . . . . . . . . 17 Querschnittsdaten, Häufigkeitsverteilungen . . . . 18 Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Streuungsmaße und Momente . . . . . . . . . . . . . . . 23 Indexzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Zweidimensionale Häufigkeitsverteilung und Streuungsdiagramm . . . . . . . . . . . . . . . . . . . . . . 27 Kovarianz und Korrelation . . . . . . . . . . . . . . . . . 28 Regressionsgerade . . . . . . . . . . . . . . . . . . . . . . . . 30 Trend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Verständnisfragen . . . . . . . . . . . . . . . . . . . . . . . . 32 4 Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . 34 Verständnisfragen . . . . . . . . . . . . . . . . . . . . . . . . 38 5 Induktive Statistik . . . . . . . . . . . . . . . . . . . . . . . 39 Schätzen von Parametern . . . . . . . . . . . . . . . . . . 39 Testen von Hypothesen über Parameter . . . . . . . . 42 Notwendiger Stichprobenumfang und „Repräsentativität“ . . . . . . . . . . . . . . . . . . . . . . . 43 Verständnisfragen . . . . . . . . . . . . . . . . . . . . . . . . 46 <?page no="5"?> 6 www.uvk-lucius.de/ brueckenkurse Brückenkurs 6 Service . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Kreuzworträtsel . . . . . . . . . . . . . . . . . . . . . . . . . 49 Wie lernt man Statistik und wie nutzt man sie im Studium und später im Beruf? . . . . . . . . . . . . 50 Stichwortverzeichnis . . . . . . . . . . . . . . . . . . . . . . 55 <?page no="6"?> 7 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften 1 Was ist Statistik? Wichtige Begrifflichkeiten Gesamtheit: Eine Zusammenfassung von Einheiten (Elementen), bei denen Merkmale erhoben werden und die somit Gegenstand einer Statistik ist. Merkmale: Sie werden mit x oder y bezeichnet. Der bei Einheit i beobachtete (gemessene, oder allgemein „erhobene“) Wert bezüglich der Variable x ist x i . Ein Merkmal ist durch seine Merkmalsausprägungen (im Falle des Merkmals Geschlechts: männlich und weiblich), bzw. möglichen Messwerte oder einfach „Werte“ definiert. Merkmale werden auch Variablen genannt. Stichprobe: Die Stichprobe ist eine Teilerhebung, wenn die Einheiten aus der „Grundgesamtheit“ nach dem Zufallsprinzip ausgewählt werden. Statistik: Die Statistik ist (1.) eine Wissenschaft, (2.) eine empirische Untersuchung (ein entsprechender Text mit Tabellen, Graphiken usw.) und (3.) eine Kennzahl auf Basis von Stichprobendaten. Die Statistik begegnet Ihnen in vielen Bereichen des täglichen Lebens. Denken Sie nur an Ihre Semesterarbeit, in der Sie statistisches Datenmaterial auswerten müssen, oder an Glücksspiele wie zum Beispiel Würfeln oder Lotto. Sie ist die Lehre der Methoden zur Gewinnung und Analyse von zahlenmäßigen Informationen über die Wirklichkeit. <?page no="7"?> 8 www.uvk-lucius.de/ brueckenkurse Brückenkurs Diese Informationen stammen aus der Befragung, Beobachtung oder Messung von Merkmalen (z. B. Alter, Einkommen etc.) an Einheiten (z. B. Personen, Betriebe oder auch Objekte wie z. B. Wohnungen) einer statistischen Masse ( Gesamtheit ). Statistiker sammeln also Informationen und werten sie aus. Wissenschaftlich ausgedrückt erheben sie Daten über eine Gesamtheit, Teilgesamtheit oder speziell eine Stichprobe - letztere wird nach dem Zufallsprinzip ausgewählt. Sie tun dies, indem sie feststellen, welche Merkmalsausprägungen bzw. welche Messwerte bei einer Einheit vorliegen. Beispiele für Merkmalsausprägungen in der Statistik Das Alter x nimmt bei Person i den Wert x i = 21 Jahre an. Oder: Der Umsatz eines Unternehmens liegt in der Größenklasse zwischen 150.000 und 200.000 €. Das Ziel der Statistik ist es, Aussagen über „Massen“ in Bezug auf Merkmale (Variablen) zu machen und zu prüfen, ob derartige Feststellungen, wenn sie aufgrund einer Stichprobe gewonnen wurden, verallgemeinerungsfähig sind. Diese Massen sind hinsichtlich sachlicher, räumlicher und zeitlicher Kriterien sinnvoll gebildete Gesamtheiten. <?page no="8"?> 9 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften Verständnisfragen Haben Sie alles verstanden? Mit den folgenden Fragen können Sie das Gelernte schnell prüfen: 1) Ergänzen Sie den Satz: Die Statistik ist die Lehre der Methode zur _______________ und ______________ von zahlenmäßigen Informationen über die Wirklichkeit. 2) Was untersuchen StatistikerInnen nicht? Merkmale Beschreibung einer einzelnen Einheit statistische Masse (Gesamtheit) 3) Was ist kein Merkmal? Alter Einkommen eine einzelne Person P 4) Wo verfährt man nach dem Zufallsprinzip? Bei der … Auswahl der Einheiten der Grundgesamtheit im Falle einer Stichprobe Befragung einer wie immer bestimmten Teilgesamtheit (z. B. der zufällig anwesenden Hörer einer Vorlesung) Die Lösungen finden Sie online unter www.uvk-lucius.de/ brueckenkurse <?page no="9"?> 10 www.uvk-lucius.de/ brueckenkurse Brückenkurs 2 Gegenstände der Statistik Deskriptive Statistik „beschreiben“ Statistik Induktive Statistik „schätzen/ testen“ Wirtschaftsstatistik Wahrscheinlichkeitsrechnung Abb. 1: Die Statistik im Überblick Die Statistik lässt sich in die Beschreibende bzw. Deskriptive und die Schließende bzw. Induktive Statistik unterscheiden. An einigen Hochschulen wird auch noch Wirtschaftsstatistik gelehrt. Deskriptive Statistik Bei der Deskriptiven Statistik geht es um die Gewinnung aussagekräftiger Maßzahlen , wie z. B. Mittelwerte, Streuungsmaße, Indexzahlen, Korrelationskoeffizienten usw. Diese Maßzahlen helfen dabei, einen Datensatz sinnvoll zu beschreiben und zu charakterisieren. Mittelwerte kennzeichnen die Größenordnung oder das Niveau, in der bzw. auf dem sich die einzelnen Werte bewegen. <?page no="10"?> 11 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften Beispiel für Mittelwerte Ein Mittelwert x beantwortet die Frage, ob aktuell die Preise für Laptops „im Schnitt“ bei 500 Euro liegen. Da es in der Regel Abweichungen nach oben oder unten gibt, sollte nicht nur ein Mittelwert , sondern auch die Streuung gemessen werden. Dabei hilft die Varianz s x 2 . Sie zeigt die Unterschiedlichkeit der erhobenen Merkmalsausprägungen (Werte) für eine Variable x an und damit die Homogenität einer Masse (Gesamtheit) bezüglich x. Eine Streuung liegt bezogen auf das obige Beispiel vor, wenn es auch Laptops gibt, die günstiger oder auch teurer als 500 € angeboten werden. In der Deskriptiven Statistik spielt es keine Rolle, ob die Daten für die Berechnung einer Maßzahl (wie z. B. der oben genannte Mittelwert x oder die Varianz s 2 = s x 2 ) aus einer Stichprobe (Zufallsauswahl), einer nichtzufälligen Teilerhebung oder aus einer Vollerhebung stammen. Statistiker sprechen von einer Vollerhebung , wenn die gesamte Grundgesamtheit untersucht wird. Das ist zum Beispiel der Fall, wenn ohne Ausnahme alle Absolventen eines Jahrgangs zu einem Thema befragt werden. Eine Teilerhebung - insbesondere wenn die Einheiten nach dem Zufallsprinzip ausgewählt wurden - liegt vor, wenn lediglich eine Stichprobe aus der Grundgesamtheit befragt wird, also zum Beispiel nur 25 von 1.000 Absolventen befragt werden. Im Zusammenhang mit Stichproben ist es üblich, griechische Buchstaben zu verwenden, wie zum Beispiel μ oder σ ; lassen Sie sich davon nicht abschrecken. <?page no="11"?> 12 www.uvk-lucius.de/ brueckenkurse Brückenkurs Aber berücksichtigen Sie im Hinblick auf die Induktive Statistik das Folgende: In der Induktiven Statistik müssen Sie durch Symbole unterscheiden, ob sich etwas auf die Grundgesamtheit oder auf die Stichprobe bezieht. Um hier Klarheit zu schaffen verwenden Statistiker lateinische Buchstaben (z. B. Standardabweichung s) wenn es sich um die Stichprobe handelt und griechische Buchstaben (Standardabweichung der Grund- gesamtheit σ ) wenn die Grundgesamtheit gemeint ist. Induktive Statistik Bei der Induktiven Statistik geht um die Beurteilung einer Maßzahl (etwa x) im Vergleich zur unbekannten entsprechenden Größe μ x in der Grundgesamtheit, die mit x geschätzt wird (μ x wird „Parameter“ genannt). 1 Zentrale Gegenstände der Induktiven Statistik sind deshalb das Schätzen von Parametern (wie μ bzw. σ 2 usw.) aufgrund entsprechender Schätzfunktionen (wie x oder s 2 , bzw. ˆ σ 2 ) mit Werten aus der Stichprobe, und das Testen von Hypothesen über Parameter. Eine Hypothese ist in der Statistik eine Annahme über die Grundgesamtheit, die durch Daten der Stichprobe geprüft werden kann. Beispiel Prüfung einer Hypothese Die Wirkung von Schlankheitspillen kann durch zwei Gruppen getestet werden: Die erste Stichprobe ( Experimentgruppe ) nimmt die Pillen ein und eine zweite Stich- 1 Denn x wird nicht geschätzt, sondern μ x wird durch x geschätzt (x ist ein Schätzwert für μ x ). <?page no="12"?> 13 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften probe ( Kontrollgruppe ) nicht. Nach der Einnahme zeigt sich, dass die durchschnittliche Gewichtsabnahme x 1 in der Experimentgruppe mit n 1 = 10 Personen größer ist als die durchschnittliche Gewichtsabnahme x 2 in der Kontrollgruppe mit n 2 =10 Personen. In Zahlen lässt sich das wie folgt ausdrücken: x 1 − x 2 = 5 kg − 1 kg = 4 kg. Sie sind der Meinung, dass die Pillen wirken? Vorsicht: Dadurch ist noch nicht bewiesen, dass die Pillen tatsächlich gewirkt haben, denn x 1 und x 2 wurden jeweils nur in einer Stichprobe erhoben und sind folglich nur Schätzwerte für die wahren Werte μ 1 und μ 2 . Es kann durchaus sein, dass die wahren Werte μ 1 und μ 2 gleich sind, und die Pillen wirkungslos sind. Statistiker stellen deswegen die sogenannte Nullhypothese auf, die lautet H 0 = μ 1 − μ 2 = 0, und sie stellen sich die Frage, wie wahrscheinlich x 1 − x 2 = 4 ist, wenn in der Tat μ 1 − μ 2 = 0 ist. Wenn dieses Ergebnis noch im Rahmen des Zufalls liegt, dann wird die Nullhypothese H 0 nicht verworfen und die Wirksamkeit der Pillen wird als „nicht gesichert“ bezeichnet. Wenn es dagegen wenig wahrscheinlich ist, kann die Hypothese „verworfen“ werden. Der Unterschied ist „signifikant“, die Pillen dürften also wirksam sein. Dieses Beispiel zeigt, dass bei Stichproben immer ein Auswahlfehler vorliegt. Aber dieser Auswahlfehler ist ein Zufallsfehler, weil der Stichprobe eine Zufallsauswahl zugrunde liegt. Auf ihn, und damit auch auf das Schätzen und Testen sind die Regeln und Sätze der Wahrscheinlichkeitsrechnung anwendbar. Die Wahrscheinlichkeitsrechnung ist deshalb auch die theoretische Grundlage für die Induktive Statistik. <?page no="13"?> 14 www.uvk-lucius.de/ brueckenkurse Brückenkurs Wirtschaftsstatistik Neben der Deskriptiven und der Induktiven Statistik gibt es ein drittes Teilgebiet der Statistik - die Wirtschaftsstatistik (Wirtschafts- und Sozialstatistik), die heute allerdings im Bachelorstudium oft nicht mehr gelehrt wird. Sie widmet sich der Analyse der begrifflichen und methodischen Grundlagen der Daten der amtlichen Statistik. Dazu zählt z. B. die Berechnung von Sterbetafeln (woraus sich die Lebenserwartung ergibt), der Arbeitslosenquote, des Kapitalstocks, des Inlandsprodukts usw. oder die Bestimmung von Indizes, wie ein Verbraucherpreis-, Auftragseingangs- oder Produktionsindex. Verständnisfragen Haben Sie alles verstanden? Mit den folgenden Fragen können Sie das Gelernte schnell prüfen: 1) Was ist kein Teilbereich der Statistik? Deskriptive Statistik Analyse der Eigenschaften einer einzelnen Einheit (z. B. der Person P) Induktive Statistik 2) Was bedeutet deskriptiv? beschreiben erklären vorhersagen 3) Was berechnet die deskriptive Statistik nicht? Mittelwerte Korrelationen Auswahlfehler <?page no="14"?> 15 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften 4) Ergänzen Sie den Satz: Zentrale Gegenstände der induktiven Statistik sind das ___ ______________ von Parametern und das _____________ von Hypothesen über Parameter. 5) Was ist ein Gegenstand der Wirtschaftsstatistik? Daten und Formeln zur Berechnung der Arbeitslosenquote sowie deren Interpretation Auswertung einer Stichprobe um Schätzwerte für die Grundgesamtheit zu gewinnen 6) Was besagt die „Nullhypothese“? μ 1 - μ 2 = 0 x 1 - x 2 = 0 Schlankheitspillen wirken nicht weil die Gewichtsabnahme mit (μ 1 ) und ohne Pillen (μ 2 ) gleich groß ist 7) Was das Bruttoinlandsprodukt BIP ist (bedeutet) und wie die Größe des BIPs berechnet (geschätzt) wird ist ein Gegenstand der Deskriptiven Statistik Wirtschaftsstatistik Induktiven Statistik Die Lösungen finden Sie online unter www.uvk-lucius.de/ brueckenkurse <?page no="15"?> 16 www.uvk-lucius.de/ brueckenkurse Brückenkurs 3 Deskriptive Statistik Wichtige Begrifflichkeiten Deskriptive Statistik: Teilgebiet der Statistik, in dem es um die zahlenmäßige (numerische) Beschreibung von Datensätzen durch geeignete Maßzahlen geht. Häufigkeitsverteilung: Sie ist eine Zusammenstellung der vorkommenden Merkmalsausprägungen und ihrer jeweiligen absoluten und relativen Häufigkeiten - in einer Tabelle oder grafisch in einem Säulendiagramm. Maßzahlen: Maßzahlen sind rechnerische Größen, mit denen Daten zusammenfassend gekennzeichnet werden, z. B. Mittelwerte, Streuungsmaße, Korrelationskoeffizienten oder Indexzahlen usw. Legt man Wert auf die Unterscheidung zwischen einer Maßzahl auf Basis von Stichprobenwerten oder aufgrund der Daten der Grundgesamtheit, dann spricht man im ersten Fall auch von einer Kennzahl (Stichproben- oder Schätzfunktion, engl. statistic ) und im Falle der Grundgesamtheit von einem Parameter. Querschnittsdaten: Daten (Zahlenwerte) eines Merkmals (x). also x 1 , x 2 , …, x n oder mehrerer Merkmale (x, y, …), die verschiedene Einheiten (z. B. n Personen) zu einem Zeitpunkt (oder Intervall, allgemein: in einer Periode) betreffen. Skala: Skalen ordnen Merkmalsausprägungen Zahlen zu. Es gibt unterschiedliche Skalenniveaus, je nachdem welche Aussagen die Zahlen erlauben. Beispiel: Ein Preis von 100 Euro ist doppelt so hoch wie ein Preis von 50 Euro und der Abstand zwischen 50 und 100 ist genauso groß, wie zwischen 100 und 150. Solche Aussagen, die nur bei <?page no="16"?> 17 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften einer metrischen Skala möglich sind, kann man z. B. nicht bei Zensuren oder gar bei einer 0-1 Codierung (hier ist x = 0 nur „anders“, nicht weniger als x = 1) treffen, da hier eine andere Skala zugrunde liegt. Zeitreihen: Zeitreihen sind Daten (Zahlenwerte) x 1 , x 2 , …, x T (oder y 1 , y 2 , …, y T ) die sich auf die gleiche Einheit zu T aufeinanderfolgenden Zeitpunkten oder Zeitintervallen beziehen, im Unterschied zu Querschnittsdaten, die verschiedene Einheiten (z. B. n Personen) zu nur einem Zeitpunkt (oder Intervall) betreffen. In der Deskriptiven Statistik müssen Sie zwischen den folgenden Daten unterscheiden: Querschnittsdaten beziehen sich auf Merkmalswerte von n verschiedenen Einheiten (x-Werte x 1 , x 2 , …, x n ) zu einem Zeitpunkt oder Zeitraum (allgemein Periode) - z. B. das Einkommen x von n weiblichen Singles im letzten Jahr. Zeitreihen betreffen die gleiche Variable (meist y genannt) über mehrere Perioden (z. B. über T aufeinanderfolgende Jahre y 1 , y 2 , …, y T ). So können Sie z. B. den „Trend“ im Einkommen weiblicher Singles von 2002 bis heute analysieren. Zeitreihenanalyse Ziel der Zeitreihenanalyse ist es, die „Ursprungswerte“ y t , also die Daten der Zeitreihe, in „Komponenten“ zu zerlegen, wie etwa in einen Trend (m t ), eine Saisonkomponente (s t ) und eine Restkomponente (r t ), wobei sich diese Komponenten gemäß y t = m t + s t + r t überlagern. Es ist naheliegend, den Trend m t als eine Art Mittelwert zu definieren, als Funktion der Zeit m t = f (t), etwa ein linearer Trend <?page no="17"?> 18 www.uvk-lucius.de/ brueckenkurse Brückenkurs m t = a + b · t oder ein parabolischer Trend m t = a + b · t + c · t 2 , wobei a, b und c feste Größen (sogenannte Parameter) sind, die aus den Daten zu schätzen sind. Zeitreihen werden in den Wirtschaftswissenschaften übrigens sehr häufig betrachtet: Beispiele hierfür sind Wachstumsraten oder Indexzahlen (z. B. Preisindizes). Querschnittsdaten, Häufigkeitsverteilungen Querschnittsdaten über eine Variable x oder mehrere Variablen x, y, … werden üblicherweise in Form von ein- oder mehrdimensionalen Häufigkeitsverteilungen analysiert. Bei ihnen (wie auch bei Zeitreihen) wird im Folgenden davon ausgegangen, dass die Daten x i (i = 1, …, n) Zahlen auf einer metrischen Skala darstellen, mit einer Maßeinheit (z. B. Liter beim Kraftstoffverbrauch eines Autos) und einem Nullpunkt, so dass Summen und Quotienten gebildet werden können. Beispiel metrische Skala Weil der Kraftstoffverbrauch gemessen als Liter pro 100 km metrisch skaliert ist, kann man sagen, dass ein Verbrauch von 4 Liter nicht nur „mehr“ ist als ein Verbrauch von 2 Litern, sondern doppelt so viel. Aber bei Zensuren kann man nur argumentieren, dass die Note 2 besser, aber nicht „doppelt so gut“ ist wie eine 4. Der Grund: Zensuren sind auf einem niedrigeren Skalenniveau gemessen. <?page no="18"?> 19 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften Es ist sehr wichtig, bei statistischen Methoden darauf zu achten, ob sie auch für das betreffende Skalenniveau geeignet sind. Das bereits erwähnte arithmetische Mittel x oder die Varianz s 2 sind z. B. nicht anwendbar, wenn für das Merkmal x keine metrische Skala definiert ist. Im besonderen Fall einer 0-1-Codierung (etwa x = 0 für männlich und x = 1 für weiblich) wäre jedoch die Summe x 1 + x 2 + … + x n = x (wobei einzelne Werte, etwa x 1 oder x 3 usw. 0 sind, andere, etwa x 2 , x 4 , x 5 usw. 1 sind) eine sinnvolle Größe, nämlich die An zahl und entsprechend ˆ π = x n der An teil der Frauen in der Stichprobe. Man kann den Anteil ˆ π als Schätzwert (Schätzer) für den wahren Anteil π der Frauen in der Grundgesamtheit betrachten, so wie x ein Schätzwert für μ ist. Bei einer 0-1-Variable x übernimmt ˆ π die Rolle, die x bei einer metrisch skalierten Variable x spielt. Die Werte x 1 , x 2 , …, x n können als n Einzelwerte (x i , i = 1, …, n) vorliegen, etwa die 11 bereits der Größe nach geordneten Zahlen 0, 0, 0, 1, 1, 2, 2, 3, 3, 4, 6 oder als Häufigkeitsverteilung . Dies geschieht in der folgenden Tabelle (dunkelgrauer Teil), in der auch noch weitere Spalten aufgenommen worden sind. Tab. 1: (eindimensionale) Häufigkeitsverteilung x j n j h j H j x j n j 0 3 3/ 11 = 0,273 3/ 11 =0,273 0 1 2 2/ 11 = 0,182 5/ 11 = 0,455 2 2 2 2/ 11 = 0,182 7/ 11 = 0,636 4 3 2 2/ 11 = 0,182 9/ 11 = 0,818 6 4 1 1/ 11 = 0,091 10/ 11 = 0,909 4 5 0 0/ 11 = 0,000 10/ 11 = 0,909 0 6 1 1/ 11 = 0,091 11/ 11 = 1,000 6 11 1 22 <?page no="19"?> 20 www.uvk-lucius.de/ brueckenkurse Brückenkurs Die hellgraue Zeile oben ist die Kopfzeile und die letzte, hellgraue Zeile unten ist die Summenzeile. Die Summe der absoluten Häufigkeiten ist gleich n (also ∑ n j = n) und deshalb addieren sich auch die relativen Häufigkeiten h j = n j ∑ n j zu 1 (also 100 %). Der Merkmalswert x = 3 kommt z. B. zweimal vor, oder mit einer relativen Häufigkeit von 0,182 (also 18,2 %). Mit H j sind die (bis j) kumulierten (aufaddierten) relativen Häufigkeiten (Summenhäufigkeiten) gemeint H j = h 1 + h 2 + … + h j . Beispielsweise x ≤ 3 kommt in 81,8 % der Fälle vor (H = 0,818). Bei der ersten und vierten Spalte (also x j und H j ) ist es nicht sinnvoll, eine Summe zu bilden. Mittelwerte In der Folge werden drei Mittelwerte unterschieden, das arithmetische Mittel , geometrische Mittel und harmonische Mittel . Aber zunächst müssen Sie den Zentralwert oder Median ˜ x kennen lernen: Er teilt eine „Reihe“ x 1 , …, x n in zwei gleiche Teile und ist bei n Werten der (n + 1)/ 2-te Wert, im Beispiel (siehe Häufigkeitstabelle oben) mit den n = 11 Werten der sechste Wert, also 2. Es sind nämlich 5 Werte kleiner als 2 und auch 5 Werte größer oder gleich 2. Das arithmetische Mittel ist nach der Formel x = 1 n ∑ i = 1 n x i = 1 n (x 1 + x 2 + … + x n ) zu berechnen, also im Beispiel (0 + 0 + … + 6)/ 11 = 22/ 11 = 2, wenn es aus Einzelwerten berechnet wird. Man nennt das auch ein ungewogenes arithmetisches Mitte l und es ist das, was <?page no="20"?> 21 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften im Alltag auch als „ Durchschnitt “ bezeichnet wird. Es ist klar, dass man das gleiche Ergebnis, nämlich 2 erhält, wenn man das gewogene arithmetische Mittel nach der Formel x = 1 n ∑ j = 1 m x j n j = ∑ x j n j ∑ n j = ∑ j = 1 m x j h j berechnet, mit n j bzw. h j als sogenannte „Gewichte“. Im Beispiel ist ∑ x j n j = 22 und ∑ n j = n = 11. Gewogen oder ungewogen geht nur auf die Frage ein, wie die Daten vorliegen: als Häufigkeitsverteilung (gruppierte Daten) oder als n Einzelwerte. Statt „ungewogen“ könnte man auch „gleichgewogen“ sagen, weil jeder Wert x 1 , x 2 , …, x n gleich stark (mit 1/ n) ins Gewicht fällt. Im Beispiel ist der Median ˜ x = 2, und auch das arithmetische Mittel x ist 2. Das ist nicht notwendigerweise so: Wäre z. B. der größte Wert nicht 6 sondern 5, dann wäre x = 21/ 11 = 1,909, oder wäre er 16 statt 6, dann wäre x = 32/ 11 = 2,909, aber ˜ x wäre in beiden Fällen weiterhin 2, weil die Mitte weiter an der 6-ten Stelle ist. Der Median ˜ x ist also weniger „empfindlich“ gegenüber Ausreißern als x. Statistiker sagen auch, er ist „robuster“. Das arithmetische Mittel kann in vielen Fällen berechnet werden, aber es gibt auch Fälle, in denen es nicht angebracht ist: Ein Mittelwert von Zinssätzen (etwa 1 %, 2 % und 6 % in drei aufeinanderfolgenden gleich langen Perioden) dürfen Sie nicht als (1 + 2 + 6)/ 3 = 3 % bestimmen. Hier müssen Sie das geometrische Mittel x G der Wachstumsfaktoren bestimmen: 3 √ ------------- 1,01 · 1,02 · 1,06 = 1,0298. Das Ergebnis sind also 2,98 % (anstatt 3 %). Zur Bestimmung des geometrischen Mittels gilt: x G = n √ -------- x 1 x 2 … x n . <?page no="21"?> 22 www.uvk-lucius.de/ brueckenkurse Brückenkurs Einen Mittelwert aus Geschwindigkeiten errechnet man als harmonisches Mittel x H . Bei zwei gleich langen Strecken (etwa 10 km hin und 10 km zurück) ist es das ungewogene harmonische Mittel. Die Durchschnittsgeschwindigkeit bei 30 km/ h auf dem Hinweg und 90 km/ h auf dem Rückweg ist nicht etwa x = 60, sondern nur 45 km/ h. Das ergibt sich aus x H = n ∑ 1 x i = ( 1 n ∑ 1 x i ) −1 = 2 1 30 + 1 90 = 45. Werfen Sie einen Blick auf die Zeiten, die Sie für den Hin- und Rückweg aufbringen müssten. Sie erkennen dann sehr schnell, dass x = 60 falsch und x H = 45 richtig ist. Denn bei einer Durchschnittsgeschwindigkeit von 60 hm/ h benötigen Sie für die gesamte Strecke von 20 km (hin und zurück) 20 Minuten. Wenn Sie aber mit 30 km/ h auf dem Hinweg fahren, benötigen Sie für diese 10 km bereits 20 Minuten. Sie müssten also zurück mit unendlich hoher Geschwindigkeit fahren, um auf einem Schnitt von 60 km/ h zu kommen. Also kann x bei Geschwindigkeiten nicht der richtige Mittelwert sein. Die Mittelwerte x, x G und x H sind Spezialfälle eines allgemeineren Mittels, des sogenannten „ power mean “, dessen Formel im gewogenen Fall x p, r = (x 1 r h 1 + x 2 r h 2 + ... + x m r h m ) 1r = ( ∑ j = 1 m x j r h j ) 1r ist. Die Berechnung aus Einzelwerten (ungewogen) ist wieder der Spezialfall gleicher Häufigkeiten (einheitlich h i = 1/ n), also x p, r = ( 1 n ∑ i = 1 n x i r ) 1r in unserer Symbolik. Spezialfälle hinsichtlich r sind: r = -1 liefert das harmonische Mittel und r = 1 das arithmetische Mittel sowie r → 0 (also r strebt gegen 0) liefert das geometrische Mittel . <?page no="22"?> 23 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften Es lässt sich zeigen, dass aus -1 < 0 < 1 für r auch folgt x H ≤ x G ≤ x. Das Gleichheitszeichen gilt nur dann, wenn alle Werte gleich sind, wenn also gilt x 1 = x 2 = … = x n . In diesem Fall ist dann auch x H = x G = x. Streuungsmaße und Momente Wenn die einzelnen Werte x 1 , x 2 , …, x n zwischen 80 und 120 € oder aber zwischen 10 und 210 € liegen, kann in beiden Fällen das arithmetische Mittel durchaus gleich groß sein, etwa x = 100 €. Aber im ersten Fall ist die Streuung geringer (und x typischer für die einzelnen Werte x i ) als im zweiten. Das in Zahlen auszudrücken, ist Aufgabe eines Streuungsmaßes. Es gibt verschieden konstruierte Streuungsmaße. In Ihrem Bachelorstudium lernen Sie in der Regel die Varianz s 2 und die Standardabweichung s kennen. Die Varianz berechnet sich mit s 2 = 1 n ∑ i = 1 n (x i − x) 2 bzw. mit s 2 = ∑ j = 1 m (x j − x) 2 h i , woraus auch folgt, dass s 2 nicht negativ sein kann. Die Berechnung lässt sich auch vereinfachen zu s 2 = 1 n ∑ i = 1 n x i 2 − x 2 bzw. zu s 2 = ∑ j = 1 m x j 2 h j − x 2 . Sind die x-Werte Eurobeträge, dann hat die Varianz die Dimension € 2 , was unschön ist und vermieden wird, wenn man <?page no="23"?> 24 www.uvk-lucius.de/ brueckenkurse Brückenkurs die Standardabweichung als s = + √ -- s 2 bestimmt. Betont man den Charakter von s 2 als Schätzwert für die Varianz σ 2 in der Grundgesamtheit kann man auch ˆ σ 2 statt s 2 schreiben (man dividiert dann in der Regel durch n - 1 statt durch n wie bei s 2 ). Ein anderes Konstruktionsprinzip der Streuungsmessung wäre z. B. die Berechnung des Abstands zwischen zwei Werten (etwa dem größten x max und dem kleinsten x min ), was man Spannweite (range) R nennt (R = x max - x min ). Schließlich kann man Streuung auch als mittlerer Abstand aller Merkmalswerte untereinander, also der Größen |x 1 - x 2 |, |x 1 - x 3 |, |x 2 - x 3 | usw. messen. Der Variationskoeffizient V = s/ x ist ein Maß der relativen Streuung, denn hier wird ein absolutes Streuungsmaß (s) dividiert durch einen Mittelwert x und weil beide die gleiche Maßeinheit haben ist V dimensionslos (Sie können V mit 100 multiplizieren, die Standardabweichung also in Prozent des Mittelwerts x ausdrücken). Das arithmetische Mittel x und die Varianz s 2 sind Spezialfälle einer allgemeineren Größe, den sogenannten Momenten . Die Größe m k (a) = 1 n ∑ i = 1 n (x i − a) k ist das k-te Moment um einen Wert a. Man unterscheidet Anfangsmomente (oder Momente um Null, also um a = 0) m k = m k (a = 0) und zentrale Momente (um a = x, also um ein „Zentrum“, d. h. Mittel) z k = m k (a = x) . Wie man sieht ist m 1 = m 1 (a = 0) = x = ∑ x i 1 / n = ∑ x i / n und z 2 = s 2 (die Varianz ist also das zweite zentrale Moment und das arithmetische Mittel das erste Anfangsmoment). Ferner gilt z 1 = 0 und m 0 = 1. Die Größe m k = 1 (a, b) = 1 n ∑ i = 1 n (x i − a) (y i − b) <?page no="24"?> 25 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften ist ein Produktmoment . Das dritte zentrale Moment z 3 erscheint im Schiefemaß γ = z 3 __ s 3 . Ist γ positiv, dann ist die Häufigkeitsverteilung linkssteil (kleine x-Werte sind häufig, große selten) und bei γ < 0 rechtssteil (was viel seltener vorkommt). Bei γ = 0 ist die Verteilung symmetrisch (wie z. B. die Normalverteilung, also die bekannte Glockenkurve , siehe Abb. 4). Das vierte zentrale Moment z 4 spielt eine Rolle bei der sog. Wölbung einer Verteilung. Indexzahlen In der Ökonomie wird die durchschnittliche Entwicklung einer Gruppe verschiedener Größen (z. B. der Preise von n Waren) im Zeitablauf gerne in Gestalt von Indizes dargestellt. Ein gutes Beispiel dafür ist ein Preisindex. Man bezieht die Preise p 1 t , p 2 t , …, p n t in der jeweiligen Berichtsperiode t (t = 0, 1, 2, …, etwa die Jahre 2000, 2001, 2002, …) auf den entsprechenden Preis in der Basisperiode 0 (z. B. das Jahr 2000) p 10 , p 20 , …, p n 0 (allgemein p i0 ) dann ist p i t / p i 0 = 1,2 gleichbedeutend damit, dass sich die Ware i von 0 bis t um 20 % verteuert hat. Ein sinnvolles Maß der durchschnittlichen Teuerung könnte ein gewogenes Mittel dieser Preismesszahlen sein, also ∑ i p i t p i 0 · g i . Das Gewicht g i bringt die Wichtigkeit der Ware i zum Ausdruck. Es gilt 0 ≤ g i ≤ 1 und ∑ g i = 1. Eine Möglichkeit wäre für g i den Ausgabenanteil zur Basiszeit p i 0 q i 0 ∑ p i 0 q i 0 <?page no="25"?> 26 www.uvk-lucius.de/ brueckenkurse Brückenkurs einzusetzen, wobei q i0 die entsprechende Menge der Ware i ist, die man in 0 gekauft hat. Man erhält dann den bekannten Preisindex von E. Laspeyres P 0t L = ∑ p t q 0 ∑ p 0 q 0 (wir lassen ab jetzt zur Vereinfachung das „Subskript“ i weg; und es ist klar, dass über i summiert wird), den man auch so interpretieren kann: der Warenkorb (gleiche Güter i = 1, …, n und gleiche Mengen q i 0 in 0 und t), der in 0 ∑ p 0 q 0 gekostet hat, kostet jetzt bei den aktuellen Preisen (p t statt p 0 ) ∑ p t q 0 . Der Standardeinwand gegen diese Formel ist die allmähliche Veralterung der (Mengen) Gewichte, weil diese konstant bleiben. Andererseits stellt der Laspeyres-Index auch einen reinen Preisvergleich dar, weil sich aufeinanderfolgende Wert nur durch die Preise unterscheiden P 01 L = ∑ p 1 q 0 ∑ p 0 q 0 , P 02 L = ∑ p 2 q 0 ∑ p 0 q 0 , …usw. Die feste Gewichtung wird aber oft als so unpassend empfunden, dass man vermehrt einen Kettenindex (statt einen direkten Index) nach Laspeyres berechnet. Die einzelnen Kettenglieder werden miteinander multipliziert und man erhält beispielsweise bei nur zwei Kettengliedern P 02 L = ∑ p 1 q 0 ∑ p 1 q 0 ∑ p 2 q 1 ∑ p 1 q 1 ≠ P 02 L . Die andere sehr verbreitete Formel stammt von H. Paasche , als direkter Index: P 0t P = ∑ p t q t ∑ p 0 q t . Dieser Index verwendet also die Mengen der Berichtsperiode t und nicht der Basisperiode, wie bei Laspeyres. Auch diese <?page no="26"?> 27 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften Formel - wie jede Indexformel - lässt sich als Kettenindex schreiben, und man erhält z. B. bei drei Kettengliedern P 03 P = ∑ p 1 q 1 ∑ p 1 q 1 ∑ p 2 q 2 ∑ p 1 q 2 ∑ p 3 q 3 ∑ p 2 q 3 , was auch hier wieder in der Regel nicht gleich dem direkten Index ist: P 03 P = ∑ p 3 q 3 ∑ p 0 q 3 . Zweidimensionale Häufigkeitsverteilung und Streuungsdiagramm Wie im eindimensionalen Fall können auch hier die Daten als Einzelbeobachtungen oder gruppiert vorliegen. Im ersten Fall liegt eine Liste von sogenannten Tupeln (Wertepaaren) (x 1 , y 1 ), (x 2 , y 2 ), …, (x n , y n ) vor. Eine grafische Darstellung von n Tupel (x i , y i ) ist das Streudiagramm (scatter plot; vgl. Abb. 2), oder Streuungsdiagramm. Jedes Tupel i stellt darin einen Punkt dar mit den Koordinaten x i (Abszisse) und y i (Ordinate). In einer zweidimensionalen Häufigkeitsverteilung werden zwei Variablen (Merkmale) betrachtet: x nimmt die Werte x j (j = 1, …, J) und y die Werte y k (k = 1, …, K) an, und h j k ist die relative Häufigkeit für x = x j und y = y k . Summieren Sie über die Spalten, so erhalten Sie ganz rechts die Spalte der Randverteilung von x. Dabei ist h j. = h j 1 + … + h j K . Entsprechend erhalten Sie durch Summation über die Zeilen (h .k = h 1 k + … + h J k ) die Randverteilung von y als letzte Zeile unten. <?page no="27"?> 28 www.uvk-lucius.de/ brueckenkurse Brückenkurs Tab. 2: Zweidimensionale Häufigkeitsverteilung (relative Häufigkeiten): Variable x Variable y Randverteilung x y 1 y 2 ... y k ... y K x 1 h 11 h 12 ... h 1k ... h 1K h 1. x 2 h 21 h 22 ... h 2k ... h 2K h 2. ... ... ... ... ... ... ... ... x j h j1 h j2 ... h jk ... h jK h j. ... ... ... ... ... ... ... ... x J h J1 h J2 ... h Jk ... h JK h J. Randverteilung y h .1 h .2 ... h .k ... h .K 1 Kovarianz und Korrelation Maßzahlen der Randverteilungen sind die Mittelwert x und y sowie die Varianzen s x 2 und s y 2 . Eine Maßzahl der gemeinsamen Verteilung (joint distribution) von x und y ist die so genannte Kovarianz mit: s xy = ∑ j = 1 J ∑ k = 1 K (x j − x) (y k − y) h jk = ∑ j = 1 J ∑ k = 1 K x j y k h jk − x · y bei Berechnung aus der Häufigkeitstabelle. bzw. s xy = 1 n ∑ i = 1 n (x i − x) (y i − y) = 1 n ∑ i = 1 n x i y i − x · y bei Berechnung aus den einzelnen Wertepaaren (quasi „ungewogen“). Die Kovarianz ist nach unten und oben nicht beschränkt. Dividiert man sie durch das Produkt der beiden Standardabweichungen erhält man den Korrelationskoeffizient r xy (oder einfach r) mit r xy = s xy / s x s y . Er ist auf den Wertebereich von -1 bis +1 normiert (d. h. es gilt -1 ≤ r xy ≤ +1). Die Kovarianz kann dagegen z. B. auch 83 oder -267 betragen. <?page no="28"?> 29 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften Sie ist übrigens das oben erwähnte Produktmoment mit a = x und b = y. Der Korrelationskoeffizient r (es gibt auch andere Maße der Korrelation) heißt deshalb auch Produkt-Moment- Korrelation . Es ist gut möglich, dass man bei jeweils zwei gleichen Randverteilungen eine sehr unterschiedliche gemeinsame Verteilung hat. Im Fall J = K = 2 (Vierfeldertafel) und den beiden Merkmalen x = Geschlecht (x = 0 männlich, x = 1 weiblich) und y = Klausurerfolg (y = 0 bestanden, y = 1 nicht bestanden) könnte man z. B. folgende Daten der Tab. 3 haben: Tab. 3: Beispiel für zwei Vierfeldertafeln (0 - 1 Variablen für x und y) y = 0 y = 1 Σ y = 0 y = 1 Σ x = 0 0,525 0,225 0,75 x = 0 0,45 0,3 0,75 x = 1 0,175 0,075 0,25 x = 1 0,25 0 0,25 Σ 0,7 0,3 1 Σ 0,7 0,3 1 Die Randverteilungen (hellgrau hinterlegt) sind gleich. In beiden Fällen haben 70 % bestanden und 30 % nicht bestanden und es waren jeweils 75 % der Teilnehmer männlich, 25 % weiblich. Im linken Fall sind Geschlecht und Klausurerfolg unkorreliert (die „Durchfallquote“ ist bei beiden Geschlechtern gleich, nämlich 30 % (0,225/ 0,75 und 0,075/ 0,25 ist jeweils 0,3). Aber im rechten Fall sind Geschlecht und Klausurerfolg in der Weise korreliert, dass alle Frauen die Klausur bestehen, die Männer aber nur zu 60 %, denn 0,45/ 0,75 = 0,6. Wenn Sie die Zusammenhänge zwischen zwei Variablen x und y feststellen möchten, dann reicht es nicht aus, allein die beiden eindimensionalen Randverteilungen zu betrachten. <?page no="29"?> 30 www.uvk-lucius.de/ brueckenkurse Brückenkurs 5 10 15 20 25 0 0 2 4 6 8 10 12 14 16 y x 5 10 15 20 25 0 2 4 6 8 10 12 0 x y 5 10 15 20 25 0 5 10 15 20 25 30 0 x y Abb. 2: Verschiedene Streuungsdiagramme Abb. 2 zeigt, ob sich die Regressionsgeraden ˆ y bei einem positiven (linke Punktwolke) oder negativen (rechts) linearen Zusammenhang den Beobachtungen (Punkten) gut (die Punkte streuen dann wenig um die Gerade und die Korrelation ist betragsmäßig hoch) oder weniger gut anpasst, und ob nicht vielleicht ein nichtlinearer (z. B. parabolischer) Zusammenhang besteht (wie im mittleren Teil). Die Korrelationen sind hier r = + 0,2408, r = 0 und r = - 0,9727. Regressionsgerade Das Streuungsdiagramm zeigt an, ob ein Zusammenhang zwischen x und y besteht, etwa in der Weise, dass y im Wesentlichen linear von x abhängt, in Gestalt von einer Regressionsgerade: ˆ y i = a + b x i . Aber weil die Punkte in der Regel nicht genau auf der Geraden, sondern oberhalb (u i = y i - ˆ y i > 0) oder unterhalb (u i < 0) liegen, ist der Zusammenhang nicht streng funktional, sondern von einer „Störgröße“ u i überlagert, so dass gilt y i = a + bx i + u i = ˆ y i + u i . <?page no="30"?> 31 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften Es gilt nun a und b zu schätzen. Die hier übliche Methode der kleinsten Quadrate beruht darauf, dass man die Funktion ∑ u i 2 = f (a, b) bezüglich a und b minimiert. Das ergibt zwei Gleichungen: b = ∑ (x i − x) (y i − y) ∑ (x v − x) 2 = s xy s x 2 und a = y − b x. Sie bestimmen also am besten zunächst die Steigung b der Geraden als Verhältnis zwischen Kovarianz s xy und Varianz von x und können dann leicht a berechnen. Mit der gleichen Methode der kleinsten Quadrate können Sie auch die Regressionskoeffizienten b 0 , b 1 , …, b K in einer multiplen linearen Regressionsfunktion bestimmen: ˆ y i = b 0 + b 1 x 1i + b 2 x 2i + … + b K x Ki . Es heißt „multipel“ (und nicht, wie leider oft zu lesen ist, „multivariat“) weil, es hier mehrere (K > 1) Einflussfaktoren (Regressoren) x 1 , x 2 , …, x K gibt und weiterhin nur eine zu erklärende Variable (Regressand) y. Trend Auf die Analyse von Komponenten einer Zeitreihe wurde bereits hingewiesen. Sie können einen linearen Trend m t bestimmen, wenn Sie in ˆ y i = a + b x i statt x die Zeit t einsetzen, also a und b in m t = ˆ y t = a + b t schätzen (t = 1, …, T). Eine andere Art einen Trend aus den T Ursprungswerten y t zu bestimmen sind gleitende Mittelwerte ˜ y t zu je p Perioden. Im einfachen Fall von p = 3 gilt ˜ y 2 = 1 3 (y 1 + y 2 + y 3 ), ˜ y 3 = 1 3 (y 2 + y 3 + y 4 ) usw. <?page no="31"?> 32 www.uvk-lucius.de/ brueckenkurse Brückenkurs Die so entstehende Kurve verläuft glatter als die Zeitreihe der Ursprungswerte, aber es geht am Anfang und am Ende jeweils ein Wert verloren. Der erste ˜ y-Wert ist ˜ y 2 und der letzte ist ˜ y T - 1 = 1 3 (y T−2 + y T−1 + y T ). Verständnisfragen Haben Sie alles verstanden? Mit den folgenden Fragen können Sie das Gelernte schnell prüfen: 1) Worauf beziehen sich Querschnittsdaten? Merkmalswerte von n verschiedenen Einheiten zu einem Zeitpunkt oder Zeitraum Einheiten im Zeitverlauf 2) Was betrachten Zeitreihen? Die Streuung einer Wertes Eine Variable über mehrere Perioden 3) Was ist kein Mittelwert aus der Statistik? arithmetisches Mittel zweidimensionales Mittel geometrisches Mittel harmonisches Mittel 4) Was ist kein Streuungsmaß? die Varianz die Standardabweichung die Kovarianz <?page no="32"?> 33 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften 5) Ergänzen Sie den Satz: In der Ökonomie wird ein zusammenfassendes Maß für die zeitliche Entwicklung vieler Preise (einer Gesamtheit von Preisen), etwa der Preise von n Waren, als _ __________________ bezeichnet. Entsprechend wäre ein Maß für die Entwicklung der Umsätze von n Betrieben ein ___________________ . 6) Wie bestimmt man die Größen a und b einer Regressionsgerade? Mit der Methode der kleinsten Quadrate der größten Quadrate der kürzesten Abstände Die Lösungen finden Sie online unter www.uvk-lucius.de/ brueckenkurse <?page no="33"?> 34 www.uvk-lucius.de/ brueckenkurse Brückenkurs 4 Wahrscheinlichkeitsrechnung Wichtige Begrifflichkeit Wahrscheinlichkeitsrechnung: Teilgebiet der Statistik und Mathematik, das sich mit Rechenregeln für Zufallsereignisse und -variablen sowie mit Wahrscheinlichkeitsverteilungen und Grenzwertsätzen beschäftigt. Letztere sind die Grundlage für das Schätzen und Testen. Das Wort Stochastik (das Wort leitet sich aus dem Altgriechischen und Lateinischen ab; Ratekunst) ist ein Oberbegriff für Wahrscheinlichkeitsrechnung/ Statistik. Die theoretische Basis für die Induktive Statistik ist die Wahrscheinlichkeitsrechnung. In der Wahrscheinlichkeitsrechnung geht es um das Rechnen mit Wahrscheinlichkeiten für „Ereignisse“ und „Zufallsvariablen“, Wahrscheinlichkeitsverteilungen (wie z. B. die unten genannte Binomial- und die Normalverteilung und viele andere Verteilungen) und um Grenzwertsätze (Gesetz der großen Zahl und asymptotische Verteilungen). Beispiel Sie möchten wissen, wie wahrscheinlich es ist, beim Ziehen aus einer Urne mit schwarzen und weißen Kugeln eine schwarze zu ziehen? Oder Sie fragen sich, wie wahrscheinlich es ist, beim Würfeln eine „Sechs“ zu haben? Die Wahrscheinlichkeitsrechnung gibt Ihnen auf diese Fragen präzise mathematische Antworten. <?page no="34"?> 35 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften Enthält eine Urne 5 weiße und 3 schwarze Kugeln - also 8 Kugeln -, dann ist die Wahrscheinlichkeit P (W) für das Ereignis W = Ziehen einer weißen Kugel: P(W) = 5/ 8 und für S = Ziehen einer schwarzen Kugel: P(S) = 3/ 8. Zwischen Ereignissen (wie W oder S) und Zufallsvariablen bestehen enge Beziehungen. Die Augenzahl, die man beim Werfen eines Würfels erhält kann man als Zufallsvariable auffassen (man schreibt X weil die Variable verschiedene Werte annehmen kann, die man x nennt, wie z. B. bei einem Würfel x = 1, x = 2, …, x = 6). Ein „Ereignis“ A kann auch sein, dass die Augenzahl beim Würfeln x ≥ 5 ist, dann ist P(A) = 2/ 6 = 1/ 3 (nämlich 1/ 6 für x = 5 plus 1/ 6 für x = 6). Oder man kann X verabreden als die Anzahl der weißen Kugeln, die man bei n maligem Ziehen aus der Urne mit schwarzen und weißen Kugeln erhält. Dabei spielt es eine große Rolle, ob man mit oder ohne Zurücklegen zieht. Im einfacheren ersten Fall ist die Wahrscheinlichkeit P (W) bei jedem Zug gleich π = P (W) = 5/ 8, und entsprechend ist auch die Wahrscheinlichkeit für eine schwarze Kugel 1 - π konstant 3/ 8). Bei n = 2 Zügen mit Zurücklegen kann X die Werte x = 0, x = 1 oder x = 2 annehmen, und zwar mit den Wahrscheinlichkeiten (1 - π) 2 = 0,1406, 2π (1 - π) = 0,4688 und π 2 = (5/ 8) 2 = 0,3906 (die Summe dieser Wahrscheinlichkeiten ist 1). Sie haben es hier mit einer Wahrscheinlichkeitsverteilung zu tun. Siehe hierzu Abb. 3; im Unterschied zur Häufigkeitsverteilung stehen jetzt an der Ordinate Wahrscheinlichkeiten statt relative Häufigkeiten h j : <?page no="35"?> 36 www.uvk-lucius.de/ brueckenkurse Brückenkurs 0 1 2 0 0,1 0,2 0,3 0,4 Abb. 3: Wahrscheinlichkeitsverteilung Die speziell in diesem Beispiel vorliegende Wahrscheinlichkeitsverteilung ist die Binomialverteilung , die zwei Parameter nämlich n und π hat, die für die Gestalt der Verteilung verantwortlich sind (bei n ≠ 2 und/ oder π ≠ 5/ 8 sieht sie anders aus als in Abb. 3). Im etwas schwierigeren Fall „ohne Zurücklegen“ erhält man dagegen die hypergeometrische Verteilung . Beides sind diskrete Verteilungen weil die Zufallsvariable X nur ganz bestimmte Werte annehmen kann, im Fall der Anzahl weißer Kugeln sogar nur die natürlichen Zahlen 0, 1, 2, …, n. Neben solchen diskreten gibt es auch stetige Zufallsvariablen, die beliebig viele Abstufungen erlauben, und entsprechend stetige Verteilungen . Es gibt auch Beziehungen zwischen Wahrscheinlichkeitsverteilungen. Bei π = ½ und n → ∞ (also mit wachsendem n) geht die Binomialverteilung in die Normalverteilung (als asymptotische Verteilung ) über, die eine stetige Verteilung ist und zwei Parameter hat, μ und σ . <?page no="36"?> 37 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften Das ist die bekannte Glockenkurve (Abb. 4), die symmetrisch ist um μ und zwei Wendepunkte hat, x = μ - σ und x = μ + σ . Die Größe σ entspricht der Standardabweichung , die wir bisher mit s bezeichneten und der Erwartungswert μ bei einer Wahrscheinlichkeitsverteilung entspricht x bei einer Häufigkeitsverteilung. Für die spezielle Standardnormalverteilung mit μ = 0 und σ = 1 der („standardisierten“) Variable z gibt es Tabellen, denen man Wahrscheinlichkeiten (das sind Flächenabschnitte unter der Glockenkurve) entnehmen kann: z = -1 z = +1 0 Abb. 4: Standardnormalverteilung („Glockenkurve“) Tab. 4: Einige Tabellenwerte zur Standardnormalverteilung Wahrscheinlichkeit für ein gegebenes z z für eine gegebene Wahrscheinlichkeit z Φ (z) Φ (z) z 1 0,6827 90% 1,645 2 0,9545 95% 1,960 3 0,9973 99% 2,576 Danach liegen zwischen z = -1 und z = +1 (also im 1 Sigma Bereich) 68,27 % der Werte und im 3 Sigma Bereich (also zwischen z = -3 und z = +3) ist die Wahrscheinlichkeit 99,73 %. Für die Praxis ist es oft interessanter zu wissen, zwischen welchen z-Werten 90 %, 95 % usw. der Beobachtungen liegen. <?page no="37"?> 38 www.uvk-lucius.de/ brueckenkurse Brückenkurs Nach obiger Tabelle liegen z. B. 95 % der Werte (Wahrscheinlichkeit Φ (z) = 0,95) zwischen -1,96 und +1,96. Verständnisfragen Haben Sie alles verstanden? Mit den folgenden Fragen können Sie das Gelernte schnell prüfen: 1) Ergänzen Sie den Satz: Die theoretische Basis der ___________________ Statistik ist die Wahrscheinlichkeitsrechnung. 2) Eine Urne enthält 10 Kugeln; 7 weiße und 3 schwarze Kugeln. Wie hoch ist die Wahrscheinlichkeit, eine schwarze Kugel zu ziehen? 3/ 10 3/ 7 7/ 3 3) Wann ist eine Zufallsvariable X (und damit auch ihre Verteilung) stetig? Wenn X innerhalb eines Intervalls (etwa im Intervall 10 ≤ x ≤ 13) nur endlich viele Werte x annehmen kann wie z. B. x = 10, x = 11, x = 12 und x = 13 Wenn X innerhalb eines solchen Intervalls unendlich viele Werte annehmen kann, also nicht nur 10, 11 usw., sondern auch x = 10,1 oder x = 10,104 oder x = 12,34567 usw. 4) Wie wird eine Standardnormalverteilung noch genannt? Wahrscheinlichkeitskurve Glockenkurve Beobachtungskurve Die Lösungen finden Sie online unter www.uvk-lucius.de/ brueckenkurse <?page no="38"?> 39 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften 5 Induktive Statistik Wichtige Begrifflichkeiten Induktive Statistik: Sie beschäftigt sich mit Schlüssen (also Schätzen und Testen von Parametern) von Stichproben auf die zugrundeliegende Grundgesamtheit. Testen von Hypothesen über Parameter der Grundgesamtheit: Ein Verfahren, in dem angesichts eines Stichprobenergebnisses über Annahme oder Ablehnung einer Hypothese entschieden wird. Die Hypothese ist immer eine Vermutung über die Grundgesamtheit. Sie kann - wie im folgenden Text, der nur Parametertests behandelt - darin bestehen, dass ein Parameter, etwa m einen ganz bestimmten (Zahlen)Wert hat, sie kann aber z. B. auch besagen, dass x in der Grundgesamtheit normalverteilt ist, oder dass bei einer Regressionsgleichung bestimmte Modellannahmen erfüllt sind. Schätzen von Parametern Nach dem zentralen Grenzwertsatz, sind Summen und arithmetische Mittel von Zufallsvariablen, asymptotisch (also bei großem n) normalverteilt. Abb. 5 veranschaulicht, dass die Wahrscheinlichkeitsverteilung der Augensumme X =∑ X i (i = 1,…, n) beim n-maligen Würfeln schon bei 4 oder 5 Würfen ganz gut nach einer Normalverteilung aussieht. Die Verteilung hat, wie man sieht den Erwartungswert n μ (beim Würfeln 3,5 wenn n = 1 ist, 7 bei n = 2 usw.) und die Standardabweichung σ √ -- n, die mit zunehmendem n von n = 1 bis n =5 immer grö- <?page no="39"?> 40 www.uvk-lucius.de/ brueckenkurse Brückenkurs ßer wird, so dass die Glocke immer breiter wird. Entsprechend ist die Zufallsvariable X = 1 n X asymptotisch normalverteilt mit einem Erwartungswert von X der gleich μ ist (man schreibt dann (E (X) = μ) und einer Standardabweichung von X in Höhe von σ x = σ √ -- n . 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16 0,18 n = 1 n = 2 n = 3 n = 4 n = 5 Abb. 5: Verteilung der Augensumme bei n = 1, 2, … Würfeln (bzw. n-mal Werfen eines Würfels) Gibt man einen konkreten Wert etwa ˆ μ = 498 als Schätzwert für das unbekannte „wahre“ μ der Grundgesamtheit an, spricht man von Punktschätzung . Man kann zeigen, dass das arithmetische Mittel der konkreten Stichprobe ˆ μ 1 = x ein besserer (gemessen an Kriterien, wie „Effizienz“, „Konsistenz“ usw., auf die hier nicht weiter eingegangen werden kann) Punktschätzer für μ ist, als z. B. der Median ˆ μ 2 = ˜ x (konkret: x ist effizienter als ˜ x, weil σ x < σ ˜ x ). <?page no="40"?> 41 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften Bei einer Intervallschätzung wird dagegen ein Wertebereich (etwa von 496,43 und 499,57) für den zu schätzenden Parameter angegeben, der z. B. bei einer vorgegebenen Vertrauenswahrscheinlichkeit 1 - α = 0,95 gelten soll. Die beiden Grenzen dieses sogenannte Konfidenzintervalls für μ bei einer Wahrscheinlichkeit von 95 % (oder einem α von 5 %) errechnen sich nach der Formel: x ± z α σ √ -- n wobei dann 1,96 für z α einzusetzen ist weil 1 - α = 0,95 also 95 % sein soll. Da man hier (wegen des zentralen Grenzwertsatzes) mit der Normalverteilung rechnen darf, gelten für z α = z und 1 - α = Φ (z) die Werte der obigen Tabelle. Beispiel Angenommen man habe bei einer Qualitätskontrolle in der Getränkeindustrie eine Stichprobe von n = 100 Flaschen gezogen und dabei eine mittlere Füllmenge von x = 498 cm 3 gefunden. Die Standardabweichung σ sei bekannt (oder geschätzt ˆ σ ) als 8 Kubikzentimeter. Ein 95 % Konfidenzintervall hätte dann die Grenzen 498 ± 1,96 · 8 √ ---- 100 d. h. 496,43 und 499,57. Bei einer Sicherheit von 1 - α = 0,99 also 99 % wäre z α = 2,576 und die Grenzen wären dann 498 ± 2,576 · 8 √ ---- 100 d. h. 495,95 und 500,05. Wegen der größeren Sicherheit (99 % statt 95 %) ist das Intervall auch breiter. <?page no="41"?> 42 www.uvk-lucius.de/ brueckenkurse Brückenkurs Testen von Hypothesen über Parameter Jeder Hypothesentest hat folgende fünf Bestandteile: 1) eine Nullhypothese H 0 und eine Alternativhypothese H 1 (hier möge gelten H 0 : μ = μ 0 = 500 und H 1 : μ ≠ 500), 2) eine Prüfgröße (Teststatistik), die hier z = x − μ 0 σ x = x − μ 0 σ √ -- n ist und wofür man in unserem Beispiel z = (498 - 500)/ 0,8 = -2,5 erhält (z ist praktisch eine mit σ x standardisierte Abweichung von x von μ 0 ), und 3) eine bekannte Verteilung der Prüfgröße (in unserem Fall ist z standardnormalverteilt, so dass die obigen Tabellenwerte für z α gelten, vgl. Tab. 4), 4) ein vorgegebenes Signifikanzniveau α und damit eine Schranke z α für den „kritischen Bereich“, die der Tab. 4 zu entnehmen ist 5) eine Entscheidungsregel : wenn |z| ≤ |z α | dann H 0 annehmen, wenn |z| > |z α | ist die Abweichung groß und z fällt in den „kritischen Bereich“ (oder „Ablehnungsbereich“), so dass dann H 0 abzulehnen ist. Im Beispiel war der absolute Wert der Prüfgröße 2,5. Testet man auf dem 5 % Signifikanzniveau, dann ist H 0 zu verwerfen, weil 2,5 > 1,96, aber auf dem 1 % Niveau ist H 0 nicht abzulehnen, weil 2,5 < 2,576. Anders gesagt x ist „signifikant“ (oder: „signifikant verschieden von 500“) aber nicht „hochsignifikant“. Es ist klar, dass ein Test und ein Konfidenzintervall nur eine etwas andere Formulierung desselben Sachverhalts sind. Das Ergebnis beim Test (signifikant bei 5 % aber nicht bei 1 %) ist nichts anderes als die Feststellung, dass μ 0 = 500 nicht im 95 %, wohl aber im 99 % Konfidenzintervall enthal- <?page no="42"?> 43 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften ten ist (die Obergrenze beim 95 % Intervall ist 499,57 < 500 und beim 99 % mit 500,06 knapp über 500). Die hinter dem Test stehende Logik lässt sich wie folgt zusammenfassen: Man tut so, als wäre H 0 (dass μ = μ 0 = 500 ist) richtig und fragt sich, wie wahrscheinlich dann das Ergebnis x ≠ μ 0 ist. Ist die Differenz x - μ 0 gering, dann dürfte sie noch „im Rahmen des Zufalls“ liegen, also ziemlich wahrscheinlich sein. H 0 ist dann nicht zu verwerfen. Ist die Wahrscheinlichkeit dagegen klein (genauer: geringer als α ), dürfte es vernünftig sein, H 0 zu verwerfen. Der Unterschied zwischen x und μ 0 ist dann „signifikant“. Das heißt nicht (wie es leider oft missverstanden wird), dass H 0 falsch ist, sondern nur: wenn H 0 richtig wäre, dann wäre das Stichprobenergebnis sehr wenig wahrscheinlich. Was hier am Beispiel von x und μ demonstriert wurde gilt ganz entsprechend für andere Parameter, etwa für die Varianz σ 2 , einen Regressionskoeffizienten β , oder Korrelationskoeffizienten ϱ usw. im Verhältnis zu den entsprechenden Stichprobengrößen b und r usw. Jetzt können jedoch für die Prüfgrößen (als Funktionen der entsprechenden Stichprobengrößen s 2 , b oder r usw.) auch andere Wahrscheinlichkeitsverteilungen als die Normalverteilung auftreten. Notwendiger Stichprobenumfang und „Repräsentativität“ Oft interessiert, wie viele Einheiten befragt werden müssen, d. h. wie groß eine Stichprobe sein muss und es wird oft argumentiert, dass die Stichprobe nicht „repräsentativ“ ist, weil z. B. nur n = 50 Personen befragt wurden. <?page no="43"?> 44 www.uvk-lucius.de/ brueckenkurse Brückenkurs Der notwendige Stichprobenumfang n hängt offensichtlich von der geforderten Genauigkeit und Sicherheit ab, aber auch von der Homogenität der Grundgesamtheit, gemessen an der Varianz σ 2 . Dass die Varianz σ 2 von x in der Grundgesamtheit eine große Rolle spielt, ist leicht zu sehen: Wie groß muss eine Stichprobe sein? Ist σ 2 = 0, dann sind alle Werte in der Grundgesamtheit von N > n Einheiten x 1 , x 2 , …, x N gleich und damit auch gleich μ = x, dann reicht eine Stichprobe vom Umfang n = 1 aus N aus, um μ mit Sicherheit und ohne Fehler zu „schätzen“. Genaugenommen ist es im Grenzfall σ 2 = 0 eigentlich kein Schätzen mehr, denn mit x 1 ist auch μ bekannt, weil x ja keine anderen Werte als μ annimmt. Ist σ 2 > 0 wird n > 1 sein müssen, und je größer σ 2 ist, desto größer wird auch n sein müssen. Das zeigt übrigens auch: Wenn σ 2 entsprechend klein ist, dann kann n = 50 also sehr wohl repräsentativ sein. Worauf es ankommt, ist der Stichprobenfehler σ x und nicht eine nicht exakt zu definierende „Repräsentativität“ (was deshalb auch kein Fachbegriff der Statistik ist). Versteht man unter Genauigkeit eine (möglichst) geringe halbe Breite (Länge) e des Konfidenzintervalls, dann kann man den mindestens erforderlichen Stichprobenumfang bestimmen, indem man e = z α σ x = z α σ √ -- n nach n auflöst. Danach muss n mindestens ( z α σ e ) 2 sein. Im oben erwähnten Beispiel mit der Flaschenfüllmenge gilt danach: ist σ = 8 und verlangt man ein e von ± 2 Kubikzentimeter und eine Sicherheit von 95 % (so dass z α = 1,96 ist), dann sollte n mindestens ((1,96 · 8)/ 2) 2 = 61,47 also 62 sein. <?page no="44"?> 45 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften Verlangt man 99 % (also z α = 2,576) und ± 1,5 Kubikzentimeter steigt der mindestens erforderliche Stichprobenumfang nach obiger Formel auf 189. Das Problem bei dieser Art der Abschätzung des erforderlichen Stichprobenumfangs ist jedoch, dass man eine Vorstellung von der Varianz des Merkmals x in der Grundgesamtheit haben muss, was häufig nicht der Fall ist. „Repräsentativität“ ist, wie gesagt, kein Fachbegriff der Statistik. Oft heißt es, eine Stichprobe sei „repräsentativ“, wenn sie die gleiche Struktur hat wie die Grundgesamtheit. Am Beispiel der Struktur in Bezug auf das Merkmal „Geschlecht“ wird schnell klar, wohin ein solches Denken führt. Wenn es in der Grundgesamtheit genauso viele Männer wie Frauen gibt, dann ist danach also eine Stichprobe mit 3 Männern und 3 Frauen gut und eine mit 305 Männern und 295 Frauen schlecht. Oder hat man 3 Männer gezogen, aber 4 Frauen (nämlich A, B, C und D) dann müsste die Stichprobe dadurch besser werden, dass man einfach die Daten einer der Frauen unter den Tisch fallen lässt. Aber von welcher der vier Frauen? Die von A oder die von B? Oder gar die von D? Mehr noch: bei solchen unsinnigen Betrachtungen über „Repräsentativität“ ist kein Zusammenhang mit n oder mit der Varianz σ 2 in der Grundgesamtheit gegeben, aber das sind genau die Größen, auf die es ankommt. Ganz anders ist das beim Stichprobenfehler, der wie erwähnt σ x = σ √ -- n ist. <?page no="45"?> 46 www.uvk-lucius.de/ brueckenkurse Brückenkurs Verständnisfragen Haben Sie alles verstanden? Mit den folgenden Fragen können Sie das Gelernte schnell prüfen: 1) Was sind nach dem zentralen Grenzwertsatz Summen und arithmetische Mittel von Zufallsvariablen? Asymptotisch normalverteilt Linkssteil verteilt Rechtssteil verteilt 2) Das Ergebnis beim Schätzen von Parametern (etwa von dem Mittelwert μ = μ x also dem mittleren x-Wert in der Grundgesamtheit) mit Daten einer Stichprobe kann sein eine konkrete Zahl, etwa ˆ μ = x = 14,5 (Punktschätzung) ein Trend ˆ μ = 9 + 0,8 · t mit der Variable t als Zeit eine Regressionsgerade ˆ x = 3 + 2,1 · y wobei y eine andere Variable (als x) ist ein Konfidenzintervall (Intervallschätzung) 3) Was ist kein Bestandteil des Signifikanztests? Nullhypothese Prüfgröße Verteilung der Prüfgröße Median Vorgegebenes Signifikanzniveau Entscheidungsregel <?page no="46"?> 47 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften 4) Was führt einen Statistiker zum genauest möglichen bzw. sichersten Ergebnis? Kleine Stichprobe Vollerhebung Große Stichprobe 5) Ein Signifikanztest, wenn die Daten praktisch eine Vollerhebung der Grundgesamtheit darstellen, zeigt Ihnen, dass beispielsweise Ihr Ergebnis x = 14,5 signifikant größer ist als μ = 0 („Nullhypothese“), dass Sie also etwas herausgefunden haben, was wesentlich (= „signifikant“) ist. macht keinen Sinn; denn Sie könnten hier zwar ein Konfidenzintervall für μ berechnen, aber keinen Test über eine μ betreffende Hypothese durchführen. macht überhaupt keinen Sinn, weil x = μ ist, denn Sie kennen bereits den „wahren“ Mittelwert der Grundgesamtheit, weil Ihre Daten ja keine Stichprobe sind, sondern die Grundgesamtheit schon vollständig erfassen (praktisch eine Vollerhebung). 6) Wann ist das Ergebnis einer kleinen Stichprobe sicher bzw. genau? Wenn die Grundgesamtheit sehr homogen ist. Wenn die Grundgesamtheit sehr heterogen ist. Die Lösungen finden Sie online unter www.uvk-lucius.de/ brueckenkurse <?page no="47"?> 48 www.uvk-lucius.de/ brueckenkurse Brückenkurs 6 Service Kreuzworträtsel 1. Ordnet Merkmalsausprägungen Zahlen zu 2. Ein Streuungsmaß 3. Anderes Wort für Totalerhebung 4. Fallende oder steigende Grundtendenz im Zeitverkauf 5. Ein Fehler, der notwendigerweise bei allen Teilerhebungen vorkommt und der darin besteht, dass Sie nicht alle Einheiten befragen, heißt …fehler 6. Ein Skalenniveau 7. Annahme über die Grundgesamtheit, die Sie durch einen statistischen Test überprüfen möchten 6 1 5 8 4 4 7 3 1 2 2 7 5 9 6 3 1 2 3 4 5 6 7 8 9 10 <?page no="48"?> 49 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften Service 1. Anderes Wort für Zentralwert 2. Standardnormalverteilung (Kurve) 3. Gerade, die mit Hilfe der kleinsten Quadrate bestimmt wird 4. Teilgebiet der Statistik (beschreiben) 5. Zusammenfassung von (allen) Einheiten 6. Teilgebiet der Statistik (schätzen/ testen) 7. Wahrscheinlichkeitsrechnung 8. Anderes Wort für Merkmal 5 3 1 9 6 8 4 2 10 4 8 11 7 3 1 6 2 7 1 2 3 4 5 6 7 8 9 10 11 <?page no="49"?> 50 www.uvk-lucius.de/ brueckenkurse Brückenkurs Wie lernt man Statistik und wie nutzt man sie im Studium und später im Beruf? Statistik fällt in vieler Hinsicht aus dem Rahmen, weil sie anders ist als andere Fächer im wirtschaftswissenschaftlichen Studium. Es ist nicht unbedingt sinnvoll, viele Bücher zu lesen, zumal in ihnen ohnehin meist das Gleiche steht, nur mit anderen Worten und mit anderen Symbolen in den entsprechenden Formeln. Vor allem aber ist es völlig sinnlos, etwas auswendig zu lernen, was man nicht verstanden hat. Es ist schwer, sich Sinnloses zu merken, auch wenn es nur wenig ist. Aber es ist vergleichsweise leicht, etwas zu überblicken, auch wenn es viel Stoff ist, wenn man es verstanden hat, d. h. wenn man Zusammenhänge und dahinter stehende Prinzipien erkannt hat. Bloß muss man erst einmal bis zum Verstehen kommen und viele haben damit die größten Schwierigkeiten (weshalb es ja auch gerade auf diesem Gebiet so viele Bücher und für sie immer noch genug Käufer gibt), weil man dazu leider auch viel Zeit und Übung braucht. Das und natürlich auch die hohen Durchfallquoten, sowie das verbreitete Vorurteil, man brauche so etwas nur für den „Schein“ und später nicht mehr (ein Vorurteil basierend auf der unbewiesenen Behauptung, dass ein großer Schaden entsteht, wenn man zu viel gelernt hat), machen das Fach Statistik ausgesprochen unbeliebt. Statistik ist nicht leicht zu verstehen und es ist ein Quatsch zu meinen, man verstünde es besser mit den heutzutage so beliebten wortreichen Büchern, die einem versprechen, dass man alles mit ihnen auch ganz ohne Formeln und Mathematik super leicht versteht. Niemand versteht Statistik, der nur darüber geredet hat und sich nicht die Mühe gemacht hat, einen genauen Blick auf die Formeln zu werfen und auch das <?page no="50"?> 51 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften Service eine oder andere Rechenbeispiel durchzurechnen. Es reicht eben nicht aus, etwas einmal gehört oder gelesen zu haben. Jeder kennt das: man glaubt, etwas in der Vorlesung oder in einem Buch verstanden zu haben und bei einer konkreten Frage oder Rechenaufgabe steht man dann trotzdem „auf dem Schlauch“. Ganz wichtig ist es, sich klar zu machen, dass Statistik nicht Mathematik und auch nicht Rechnen ist. Anders als viele Mathematiker glauben, kann man Statistik auch ohne die in der Mathematik obligatorischen Beweise verstehen. Statistik ist aber auch nicht Rechnen. Zwar sind Rechenbeispiele unbedingt notwendig, um zu sehen, was genau bei einer Formel „gespielt“ wird, aber die Zahlenbeispiele müssen nicht realistisch sein. Denn bei Beispielen mit wirklichen Daten hat man meist unheimlich viele Zahlenangaben und kann das dann ohnehin nicht auf einem Blatt Papier und mit dem Taschenrechner, sondern nur mit dem Computer durchrechnen. Per Mausklick allein hat aber noch nie jemand einen Rechengang verstanden. Viel nützlicher sind kleine fiktive Beispiele, die dann meist auch mit wenigen „glatten“ Zahlen auskommen und die man schnell mit dem Taschenrechner durchrechnen kann. Dass mehr Motivation und Spaß aufkommt, wenn man stattdessen mit ellenlangen Listen von tatsächlichen Daten einer Firma F oder eines Lands L rechnet, ist sehr zu bezweifeln. Auf der Website www.von-der-lippe.org des Autors finden Sie unter Downloads-Bücher viel Hilfreiches, u. a. Formelsammlungen , Rechenbeispiele sowie Klausuraufgaben zum freien Download. <?page no="51"?> 52 www.uvk-lucius.de/ brueckenkurse Brückenkurs Ebenfalls kostenlos downloaden kann man dort unter Downloads-Allgemein (dann unter Nummer 16, 21, 22 und 25/ 25a) Aufsätze, die besonders für Studierende der Wirtschaftswissenschaften zu empfehlen sind 1. Statistik für Schaumschläger (16) 2. Wie argumentiert man gegen eine Statistik, die einem nicht passt? (21) 3. Lügen mit Statistik (22) 4. Das statistische Paralleluniversum in der BWL (25a und 25 worauf sich 25a bezieht) Es sind sehr einfach zu lesende, meist etwas ironische und satirische Texte, die aber ernst zu nehmende Probleme und Fehlentwicklungen bei der Anwendung von Statistik betreffen: 1. Gerade weil viele Statistik und Mathematik als schwierig empfinden, kann man mit so etwas Eindruck machen, zumal sich nur wenige Menschen trauen, Defizite in ihren Statistikkenntnissen zuzugeben. Man erlebt also nicht selten in der Wissenschaft Schaumschlägerei vor Hörern, die sich mit gewichtiger (Verstehen signalisierender) Miene den ganzen Unsinn anhören und bemüht sind, sich nicht anmerken zu lassen, dass sie in Wahrheit nur Bahnhof verstehen. 2. Ganz anders kann es unter Praktikern der Wirtschaft zugehen, vor allem dann, wenn es um (viel) Geld geht. Dort ist nicht Zuhören mit einer nach Durchblick aussehenden Miene angesagt, sondern Kopfschütteln, Widerspruch und den Gegner auseinandernehmen. Für diesen Fall ist es beruhigend zu wissen, dass man immer wirkungsvoll gegen eine Statistik argumentieren kann, die einem nicht passt, auch dann, wenn man nur wenig Ahnung von Statistik hat. Man findet immer etwas, was an der Methode auszu- <?page no="52"?> 53 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften Service setzen wäre oder was zumindest als „problematisch“ hingestellt werden kann. 3. Sehr beliebt ist das - bei genauem Hinsehen allerdings ausgesprochen alberne - Gerede über „Lügen“ mit Statistik. Natürlich kann man alles, je nach Bedarf, in hellem oder dunklem Licht erscheinen lassen (nicht nur mit Zahlen). Viel reifer und fortgeschrittener ist es zu sehen, dass die zahlenmäßige Beschreibung der Wirklichkeit schnell an natürliche Grenzen stößt. Wie will man z. B. das „Glück“ messen, oder ob und in welchem Maße A „glücklicher“ ist als B? Was immer man hier ausrechnet, wird schon wegen des vagen Begriffs „Glück“ leicht als „Lüge“ bezeichnet werden können. Die Krankheit ist nicht die Statistik, sondern der Glaube mit ihr alles messen zu können und zu sollen. 4. Eine andere Krankheit ist, zu glauben man müsse einen Signifikanztest rechnen, auch da wo so etwas eigentlich ziemlich unsinnig ist, nur weil alle anderen das auch so machen oder weil andernfalls die Arbeit als „unwissenschaftlich“ belächelt wird. Viele glauben, eine Arbeit wird umso „wissenschaftlicher“, je mehr in ihr mit komplizierten statistischen Methoden herumgewirbelt wird. Dabei beschränken sich die Methodenkenntnisse solcher Leute oft nur auf einige einführende Texte z. B. bei Wikipedia oder in den Handbüchern zur Statistiksoftware. Das ist nicht weiter schlimm, weil man ja oft auch gar nicht die viele Zeit hat, die nötig ist, um sich in Statistik so zu vertiefen, dass man sie wirklich versteht. Schlimm ist es nur, wenn man sich auf einer solchen Basis sein eigenes „Paralleluniversum“ aufbaut und meint, Statistiker seien überflüssig. Es ist kein Zufall, dass es heutzutage gerade in Sachen Statistik so viel Schaumschlägerei und Besserwisserei gibt; denn beide Dinge sind ein Produkt der enorm gestiegenen Bedeu- <?page no="53"?> 54 www.uvk-lucius.de/ brueckenkurse Brückenkurs tung der Statistik und sie haben viel gemeinsam: man glaubt, man blamiert sich, wenn man nicht versucht, „Erkenntnisse“, die eigentlich kaum der Rede wert sind, mit neuesten statistischen Methoden zu „veredeln“ und man will unbedingt den Eindruck erwecken, dass man mitreden kann und einem nichts zu kompliziert ist (mit der Zeit glaubt man selbst daran, vor allem wenn man nur unter Seinesgleichen verkehrt). Klar dass man sich dann auch von Leuten, die sich hauptberuflich mit Statistik beschäftigen nichts sagen lassen will. Wer wirklich etwas von Statistik versteht, wird so etwas nur kindisch und albern finden und er/ sie wird nur zu genau wissen, dass man auf diesem Gebiet nicht einfach mal so eben und ganz nebenbei zu einem Experten wird und dass man sich auch nicht schämen muss zuzugeben, dass man bei manchen Methoden der Statistik keine Ahnung hat oder selbst große Schwierigkeiten hat, sie zu verstehen. <?page no="54"?> 55 www.uvk-lucius.de/ brueckenkurse Statistik für Wirtschaftswissenschaften Service Stichwortverzeichnis A Alternativhypothese 42 Auswahlfehler 13 B Binomialverteilung 36 D Durchschnitt 21 E Einheiten 8 Entscheidungsregel 42 Erwartungswert 37 F Formelsammlung 51 G Gesamtheit 7 Glockenkurve 37 Grenzwertsätze 34 Grundgesamtheit 39 H Häufigkeitsverteilung 16 , 19 , 27 Hypothese 12 I Indexzahlen 25 Intervallschätzung 41 K Kettenindex 26 Konfidenzintervall 41 Korrelation 28 Kovarianz 28 L Laspeyres 26 M Maßzahlen 10 , 16 Merkmale 7 , 8 Methode der kleinsten Quadrate 31 Mittel (arithmetisches, geometrisches, harmonisches) 20, 21, 22 Mittelwert 11, 20, 21, 22 Moment 24 N Nullhypothese 13 , 42 P Paasche 26 power mean 22 Produktmoment 25 Produkt-Moment-Korrelation 29 Punktschätzung 40 Q Querschnittsdaten 16 , 17 R Regressionsgerade 30 Repräsentativität 43 <?page no="55"?> 56 www.uvk-lucius.de/ brueckenkurse Brückenkurs S Schätzen von Parametern 12 , 39 Signifikanzniveau 42 Skala 16 -, metrische 18 Standardabweichung 23 , 37 Standardnormalverteilung 37 Statistik 7 -, deskriptive 10 , 16 -, induktive 10 , 39 Stichprobe 7 , 11 , 44 Stichprobenumfang 43 Streudiagramm 27 Streuung 11 T Teilerhebung 11 Testen von Hypothesen 12 , 42 Tupel 27 V Varianz 11 , 23 Variationskoeffizient 24 Verteilung -, asymptotische 36 -, diskrete 36 -, hypergeometrische 36 -, stetige 36 Vollerhebung 11 W Wahrscheinlichkeitsrechnung 13 , 34 Wahrscheinlichkeitsverteilung 35 Wirtschaftsstatistik 14 Z Zeitreihen 17 Zeitreihenanalyse 17 <?page no="56"?> www utb-shop de ! ! ! ! ? ? ? ? Ideal zur Prüfungsvorbereitung Alexander Hennig, Renate Ohr, Thieß Petersen, Gerald Pilz, Christian Vranckx, Achim Zimmermann Prüfungstraining Wirtschaftswissenschaften 1001 Aufgaben mit Lösungen 220 Seiten ISBN 978-3-8252-8619-4 € (D) 19,99 Trainieren, worauf es in der Prüfung ankommt: Dieses Buch bereitet anhand von 1001 Single-Choice- und Multiple-Coice-Fragen aus BWL, VWL und Recht für Ökonomen auf die Prüfung vor. Gelerntes wird überprüft und eventuell verbliebene Wissenslücken entdeckt. Die verschiedenen Fragetypen bereiten optimal auf die Prüfungssituation vor und schaffen Sicherheit, um die Klausur erfolgreich zu bestehen. Mit Schablonen zur Kontrolle der Richtigkeit. <?page no="57"?> Weitere Lernposter gibt es unter www.fit-lernhilfen.de Lernposter • helfen Zusammenhänge zu verstehen • sind übersichtlich und leicht einprägsam • sorgen für die bildliche Vermittlung des Stoffs • sind ideal zur Prüfungsvorbereitung Tapetenwechsel mit unseren Lernpostern <?page no="59"?> Von Schmalenbach bis zur verhaltenstheoretischen BWL www uvk lucius de Günther Schanz Eine kurze Geschichte der Betriebswirtschaftslehre 1. Auflage 2014, 150 Seiten ISBN 978-3-8252-4106-3 Bereits in der Antike, im Mittelalter und in der Renaissance beschäftigten sich Gelehrte mit ökonomischen Fragestellungen. Die akademische Betriebswirtschaftslehre ist dennoch eine junge Disziplin, die erst im 20. Jahrhundert aufblühte. Ihre Geschichte wird vom Verfasser anhand der Wissenschaftsprogramme von Eugen Schmalenbach, Wilhelm Rieger, Heinrich Nicklisch, Erich Gutenberg, Edmund Heinen und Hans Ulrich kritisch nachgezeichnet. Dargestellt werden des Weiteren Das Buch richtet sich an Studierende der Betriebswirtschaftslehre, die die möchten. Zudem ist es auch für Doktoranden, Habilitanden und Professoren
