Methoden der Politikwissenschaft
Eine anwendungsbezogene Einführung
0611
2019
978-3-8385-5235-4
978-3-8252-5235-9
UTB
PD Dr. Björn Egner
Dieses Buch ist so gestaltet, dass es eine umfassende, dabei aber nachvollziehbar praxisorientierte Einführung in den Gebrauch der gängigen Methoden in der Politikwissenschaft darstellt. Beginnend bei den wissenschaftstheoretischen Grundlagen über die Erarbeitung des Forschungsdesigns, die Methodenauswahl bis zur Durchführung wird alles darin abgedeckt. Dabei werden die einzelnen Methoden nicht nur theoretisch erläutert, sondern ihre Verwendung wird auch anhand eines politikwissenschaftlichen Beispiels dargestellt und veranschaulicht. Auf diese Weise werden sie von abstrakten Erklärungen auf beispielhafte, greifbare Beispiele und Anleitungen heruntergebrochen.
Dies ist für Studierende deshalb besonders wichtig, weil sie zunehmend vor die Herausforderung gestellt sind, neben dem Verstehen von empirischen Arbeiten anderer im Studium bereits eigene empirische Arbeiten zu verfassen (Hausarbeiten bzw. Abschlussarbeiten).
Die Beispiele entstammen verschiedenen Subdisziplinen der Politikwissenschaft. Gleichwohl wird die Methodenauswahl immer auch kritisch diskutiert, um nicht den Eindruck zu vermitteln, für bestimmte Themen eigne sich grundsätzlich immer eine bestimmte Methode.
<?page no="0"?> Björn Egner Methoden der Politikwissenschaft basics <?page no="1"?> Eine Arbeitsgemeinschaft der Verlage Böhlau Verlag · Wien · Köln · Weimar Verlag Barbara Budrich · Opladen · Toronto facultas · Wien Wilhelm Fink · Paderborn Narr Francke Attempto Verlag · Tübingen Haupt Verlag · Bern Verlag Julius Klinkhardt · Bad Heilbrunn Mohr Siebeck · Tübingen Ernst Reinhardt Verlag · München Ferdinand Schöningh · Paderborn Eugen Ulmer Verlag · Stuttgart UVK Verlag · München Vandenhoeck & Ruprecht · Göttingen Waxmann · Münster · New York wbv Publikation · Bielefeld utb 5235 <?page no="2"?> basics <?page no="3"?> Björn Egner Methoden der Politikwissenschaft Eine anwendungsbezogene Einführung unter Mitarbeit von Melina Lehning UVK Verlag · München <?page no="4"?> Björn Egner und Melina Lehning sind wissenschaftliche Mitarbeiter/ innen am Institut für Politikwissenschaft der Technischen Universität Darmstadt. Online-Angebote oder elektronische Ausgaben sind erhältlich unter www.utb-shop.de. Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über >http: / / dnb.ddb.de< abrufbar. Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. UVK Verlag München 2019 - ein Unternehmen der Narr Francke Attempto Verlag GmbH & Co. KG Einbandgestaltung: Atelier Reichert, Stuttgart Einbandmotiv: iStockphoto, Pavliha Druck und Bindung: CPI books GmbH, Leck UVK Verlag Nymphenburger Straße 48 · 80335 München Tel. 089/ 452174-65 www.uvk.de Narr Francke Attempto Verlag GmbH & Co. KG Dischingerweg 5 · 72070 Tübingen Tel. 07071/ 9797-0 www.narr.de UTB-Nr. 5235 ISBN 978-3-8252-5235-9 <?page no="5"?> 5 Inhalt 1 Einleitung 7 2 Erkenntnis- und Wissenschaftstheorie 14 2.1 Erkenntnis- und wissenschaftstheoretische Zugänge 15 2.2 Zentrale Begriffe des Kritischen Rationalismus 24 2.3 Das Verhältnis von Theorie und empirischer Forschung 31 2.4 Verstehen und Erklären 34 3 Forschungsdesign und Forschungsprozess 40 3.1 Fragestellung und Erkenntnisinteresse 40 3.2 Was sind Methoden? 43 3.3 Untersuchungsanordnung 46 3.4 Konzeptspezifikation und Operationalisierung 53 3.5 Methoden und der Forschungsprozess 56 4 Methoden der Datenerhebung 62 4.1 Wege und Probleme der Datenerhebung 62 4.2 Skalenniveaus und Indizes 68 4.3 Fallauswahl und Repräsentativität 71 4.4 Gütekriterien der Messung 77 4.5 Gütekriterien der qualitativen Sozialforschung 82 <?page no="6"?> 6 I n h a l t 5 Methoden der Datenanalyse 86 5.1 Qualitative Inhaltsanalyse: Realismus in den IB 87 5.2 Qualitativ-komparative Analyse: Direkte Demokratie 110 5.3 Lineare Regression: Wohnungspolitik in Städten 134 5.4 Logistische Regression: Die Wahl der „Grünen“ 158 5.5 Faktoranalyse: Vergleichende Demokratieforschung 176 6 Checklisten zum Arbeiten 200 Literaturverzeichnis 202 Tabellenverzeichnis 214 Abbildungsverzeichnis 215 Schlagwortverzeichnis 216 <?page no="7"?> 7 Einleitung Methoden gelten - aus meiner Sicht natürlich völlig zu Unrecht - als eher trockene Materie. In Vorlesungen für Studienanfänger ernte ich zwar allseits bedächtiges Kopfnicken, wenn ich die Bedeutung von Methoden im Forschungsprozess anspreche. Sind »methodenlastige« Lehrveranstaltungen jedoch Teil von Wahlbereichen in Studiengängen, kann man die Studierenden, die sich zu Semesterbeginn in solchen Kursen einfinden, zumeist an einer Hand abzählen. Methodische Fragen tauchen ebenso regelmäßig bei der Vor- und Nachbesprechung von studentischen Hausarbeiten auf. Auch in wissenschaftlichen Kolloquien, auf Panels in Tagungen sowie bei der Auswertung von Literatur dreht sich ein beachtlicher Teil der Kommentare und Überlegungen um zentrale Methodenfragen wie etwa die Messung von Dimensionen komplexer Konzepte, die Fallauswahl im Rahmen eines Forschungsprojekts oder die Qualität eines statistischen Modells. Geht es dann aber um die Details, kann man schnell feststellen, dass sich viele eben noch engagierte Debattenteilnehmer/ innen desinteressiert abwenden. Methodenfragen wirken oftmals wie ein Fremdkörper in der fachlichen Diskussion: Sie beziehen sich zumeist nicht direkt auf die bearbeiteten Themen wie z. B. die vergleichende Analyse von lateinamerikanischen Systemen, die Legitimität von UN-Blauhelmeinsätzen oder die Entwicklung der Mitgliederzahlen der deutschen Parteien. Vielmehr haben Methodenfragen immer etwas »Unthematisches« an sich, etwas Technisches, etwas Mechanisches, etwas, was scheinbar nicht in die laufende »inhaltliche« Diskussion über den Gegenstand passt. Zudem umweht die Methoden aus der Perspektive einiger Kolleg/ innen aus mir unverständlichen Gründen eine Art geheimnisvoller Nebel: Da werden statistische Fachausdrücke verwendet, Ziffern gleich mit mehreren Sternchen garniert und schwer verständliche Tabellen präsentiert. Wenn dann noch griechische Buchstaben und Formeln hinzukommen, wird schwer geseufzt. Dabei sind wir doch auch deshalb Sozialwissenschaftler/ innen geworden, weil wir uns im Mathematikunterricht immer weggeduckt haben! Es sind häufig die gleichen Kolleg/ innen, die die Anwendung quantitativer Metho- 1 <?page no="8"?> 8 E I n l E I t u n g den in den Sozialwissenschaften grundsätzlich mit dem Argument verwerfen, die Sozialwissenschaften seien eben im Gegensatz zu den Naturwissenschaften keine »exakten Wissenschaften«. Ihnen sei als Antwort J. S. Mills Überlegungen zu den empirischen Wissenschaften empfohlen. Mill (1843: 490 ff.) argumentiert, dass der Unterschied zwischen »exakten« und »nicht exakten« Wissenschaften nicht durch die Art der Phänomene definiert wird. Die Gezeitenlehre ist nicht deshalb eine exakte Wissenschaft, weil es um die Natur geht. Vielmehr stellt Mill klar, dass ein Teil der Bewegung von Ebbe und Flut schon durch die Mondbewegung und andere Phänomene erklärbar ist, andererseits die Rolle anderer Einflussfaktoren unklar bleibt, z. B. die Windrichtung und die Beschaffenheit des Meeresbodens. Die Gezeitenlehre wird genau dann von der nicht-exakten zur exakten Wissenschaft, wenn das Phänomen genügend aufgeklärt ist. Sie ist nicht von vorneherein »exakt«. Das Gleiche gilt für die Sozialwissenschaften, sie sind nicht per se »unexakt«; in bestimmten Bereichen wurde schon ein hoher Grad von Exaktheit erreicht. In den Bereichen, wo sie noch nicht exakt- bzw. nicht exakt genug - sind, ist es keineswegs so, dass es für immer so bleiben muss. Neben den Kolleg/ innen, die quantitative Methoden als »Erbsenzählerei« ablehnen, gibt es aber auch das andere Extrem: Forschende, für die Methoden dann besonders schön sind, wenn sie nur für »Nerds« nachvollziehbar und verständlich sind. Sie verwenden möglichst unverständliche Begriffe, verkürzen die Darstellung von Modellen so, dass nur Eingeweihte sie nachvollziehen können und degradieren damit durchaus wohlwollende und interessierte Leser zu bloßen Zuschauern. Beide Positionen sind sowohl für die Debatten innerhalb als auch für Studierende, die sich im Fach orientieren möchten, wenig hilfreich. Die Methoden sind gerade in den sozialwissenschaftlichen Disziplinen aus meiner Sicht eine entscheidende Säule des Fachs. Ein kurzer Blick in die Naturwissenschaften soll das verdeutlichen. Dort ist die Beschäftigung mit den Methoden zentral. Es finden vornehmlich die Methoden des Experiments und der Naturbeobachtung Anwendung. Es ist in diesen Disziplinen selbstverständlich, dass Kolleg/ innen ihre Versuche peinlich genau planen, dokumentieren und auswerten. Kein/ e Chemiker/ in würde ernst genommen, wenn bekannt würde, dass die Bedingungen (Luftdruck, Temperatur) in ihrem/ seinem Labor während der Durchführung von Experimenten nicht ständig gemessen und kontrolliert werden, wenn die Experimente aber von genau diesen Umweltfaktoren abhängen. Ein/ e Kolleg/ in aus der Biologie könnte seine Studien des Verhaltens von Schimpansen kaum in einer wissenschaftlichen Zeitschrift publizieren, wenn nicht vorher nachgewiesen wurde, dass die Begleitumstände der Beobachtung (z. B. die eigene Anwesenheit) das Verhalten der Tiere nicht entscheidend beeinflusst haben. Wenn ein/ e Physiker/ in nicht genau definiert, wie dieses oder jenes <?page no="9"?> 9 E I n l E I t u n g physikalische Phänomen beschaffen ist, ergeben die Berechnung später wenig Sinn. In den vorgenannten Disziplinen sind Methodenfragen also selbstverständlich. Niemand stellt sie in Frage, und alle Beteiligten akzeptieren, dass es ohne die Beachtung grundlegender Regeln wenig Sinn ergibt, zu forschen. Der Grund liegt auf der Hand: Die Ergebnisse der Forschung sind ohne methodische Absicherung viel zu wackelig, als dass man sie reproduzieren oder gar weitere Überlegungen darauf aufbauen könnte. In den Sozialwissenschaften stehen wir vor den gleichen Problemen. Im Gegensatz zu den Naturwissenschaften verfügen die Sozialwissenschaften aber nicht über einen Kanon an Naturgesetzen, welche einmal entdeckt und dann über lange Zeiträume als gültig akzeptiert werden. Im Vergleich zu den »erwachsenen« Naturwissenschaften wirkt es so, als steckten die Sozialwissenschaften noch in den Kinderschuhen (oder zumindest in der frühen Pubertät). Manchmal wissen wir überhaupt nicht, ob das, was wir untersuchen wollen, überhaupt vorhanden ist - z. B. die politische Prägung einer Person durch ihr Elternhaus. Manchmal existiert eine starke Vermutung, was der Grund für etwas sein könnte, es fehlt aber die experimentelle Möglichkeit, den direkten Zusammenhang nachzuweisen. Manchmal ist die Messung eines Phänomens auch sehr schwer zu bewerkstelligen - z. B., ob eine Person ausländerfeindlich ist oder nicht; oder noch schwieriger: zu welchem Grad sie ausländerfeindlich ist. Gerade weil wir uns in den Sozialwissenschaften - und damit auch in der Politikwissenschaft - mit schwierig zu messenden Phänomenen beschäftigen, ist es umso wichtiger, dass methodische Probleme, die im Verlauf unserer Forschung auftauchen, nicht ausgeblendet werden. Vielmehr müssen sie offensiv angegangen werden. Oft genug müssen dabei pragmatische Wege eingeschlagen werden, z. B. durch die Formulierung von Annahmen, wo nichts belegt werden kann. Um die Forschungsergebnisse robust zu machen, ist es unerlässlich, dass transparent ist, wie die Forschenden zu den Befunden gekommen sind, so dass Interessierte die Forschung wiederholen und die Befunde überprüfen können. Insbesondere Studierende tun sich schwer, die Bedeutung und die Zentralität von Methoden für das Fach zu erkennen. Die Begründung der Fallauswahl, die Auswahl der Erhebungsmethode oder die Planung einer Stichprobe, sind bei vielen Studierenden tendenziell derjenigen Teile der Hausarbeit, welche lästig sind und einen beim Anfertigen der Arbeit nur unnötig aufhalten. Man kann bei der Einführung von Studienanfängern in die Methoden der Politikwissenschaft viel falsch machen. Es fängt damit an, dass motivierte Studierende mancherorts gleich zu Studienbeginn mit den nackten Grundlagen der Statistik konfrontiert werden, ohne dass dieses - zweifellos notwendige - Grundwissen zusammen mit einer ausreichenden Erklärung darüber vermittelt wird, warum denn die Statistik überhaupt wichtig ist. Vielfach gibt es den Hinweis, man »müsse da einfach durch« - was bei Stu- <?page no="10"?> 10 E I n l E I t u n g dierenden den Eindruck erweckt, dass Methoden ein notwendiges Übel seien, welches man für die Klausur lernen müsse, man aber später niemals mehr brauche. Noch schlimmer ist, dass mancherorts offenbar davon ausgegangen wird, dass Statistik die einzige Methode ist, um wissenschaftliche Befunde zu erzeugen. Es geht damit weiter, dass in vielen politikwissenschaftlichen Lehrveranstaltungen interessant referiert und pointiert diskutiert wird, die zur Lehre eingesetzten Texte - in der Regel Publikationen anderer - zu wenig auf methodische Fragen hin abgeklopft werden. Es endet damit, dass Studierende sich aufgrund unzureichender Methodenausbildung in vielen Fällen beim Abfassen von Hausarbeiten und Abschlussarbeiten (! ) quälen, weil ihnen entscheidende methodischen Einblicke und die Fähigkeiten zum Reflektieren der eigenen methodischen Entscheidungen fehlen. Dabei ist aus meiner Sicht die mathematische Ausbildung an den Schulen gut genug, dass kein Studierender bei einer Einführung in die Methoden und die Statistik abschalten muss, weil fehlende Vorkenntnisse das Verständnis von Methodenfragen erschweren. Es besteht auch kein Mangel an guten Büchern zu Methoden der Politikwissenschaft. In den von mir geleiteten Lehrveranstaltungen habe ich allerdings häufig die Erfahrung gemacht, dass ich mir viele Arbeiten von verschiedenen Kolleg/ innen zusammensuchen muss, um eine passable Arbeitsgrundlage für die einführenden Themen zu haben. Das ist für einen Lehrenden an der Universität noch verkraftbar. Schwieriger wird es, wenn bestimmte Methoden vorgestellt und anhand von Beispielen vertieft werden sollen. Hier sucht man ein konsequent aufgestelltes, konsistentes Buch vergeblich. Andere Fächer, z. B. die Betriebswirtschaftslehre, sind didaktisch bereits weiter fortgeschritten. Gut für die Lehre geeignet ist beispielsweise der Band »Multivariate Analysemethoden« von Backhaus et al. (2016), welcher anhand eines einzigen (! ) Praxisbeispiels, nämlich Unterschieden bei verschiedenen Bratfetten, in die Funktionsweise verschiedener quantitativer Methoden einführt und damit ihre Logik sowie die Anwendungsgebiete der Methoden nachvollziehbar demonstriert. Die eingeführten Methoden sind im Wesentlichen auch die, welche in ein Einführungsbuch für Methoden der Politikwissenschaft gehören. Allerdings sind die Bratfette nicht wirklich didaktisch geeignet, den Studierenden der Politikwissenschaft sozialwissenschaftliche Methodenfragen näher zu bringen. Ich habe mich deshalb entschlossen, ein eigenes Buch zu verfassen, welches sowohl die »Basics« der Methodenlehre enthält als auch einen breiten Teil, welcher in einzelne Methoden einführt, indem nachvollziehbare und realistische Beispiele aus der Politikwissenschaft vorgeführt werden. Zunächst wird in Kapitel 2 auf die wissenschafts- und erkenntnistheoretischen Grundlagen eingegangen. Hierzu werden verschiedene epistemologische Zugänge thematisiert, wobei anzumerken ist, dass ich mir im weite- <?page no="11"?> 1 1 E I n l E I t u n g ren Verlauf die Perspektive des kritischen Rationalismus zu Eigen mache. Zum anderen wird erläutert, was zentrale wissenschaftstheoretische Konzepte und Begriffe dieser Perspektive bedeuten und wie sie die zeitgenössische politikwissenschaftliche Forschung prägen. Auch die Unterscheidung zwischen Verstehen und Erklären wird behandelt. In Kapitel 3 geht es um die praktische Organisation des Forschungsprozesses. Hierzu zählen die Formulierung der Fragestellung, die Auswahl des Forschungsdesigns, den idealtypischen Ablauf eines Forschungsprojektes (auch eine fünfzehnseitige Hausarbeit im Rahmen eines Bachelorstudiums ist ein kleines Forschungsprojekt! ) sowie die Frage, wie Forschende sicherstellen können, dass die Messungen, die vorgenommen werden, korrekt sind. Kapitel 4 widmet sich danach den wesentlichen Fragen der Datenerhebung. Behandelt werden hierfür die Wahl der Erhebungsmethode, ihrer Vor- und Nachteile sowie die Herausforderungen bei der Verwendung der einzelnen Methoden. In diesem Zusammenhang wird zudem auf Skalenniveaus und Indizes, Fragen der Fallauswahl und Repräsentativität sowie auf die Probleme der Gütekriterien der Messung. Nachdem in den Kapiteln 2 bis 4 die Grundlagen der Methodenlehre gelegt wurden, werden in Kapitel 5 schließlich fünf zentrale politikwissenschaftliche Methoden der Datenanalyse vorgestellt, davon eine qualitative Analysemethode (qualitative Inhaltsanalyse), drei quantitative Analysemethoden (lineare Regression, logistische Regression, Faktoranalyse) sowie die qualitativ-komparative Analyse (QCA), welche zwischen der qualitativen und der quantitativen Gruppe steht, indem sie Elemente beider Methodengruppen aufgreift. Jede Methode wird zunächst mit ihren Anwendungsgebieten eingeführt, d. h. es wird diskutiert, wie die Methode anwendbar ist und für die Beantwortung welcher Forschungsfragen sich die Methode eignet. Danach wird die Methode »technisch« beleuchtet, indem die Grundannahmen und Mechanismen der Methode erläutert werden. Dabei halte ich mich stark zurück, was die mathematische Seite der Methode angeht, d. h. es werden nur diejenigen Aussagen mathematisch abgeleitet, welche unabdingbar für das Verständnis sind, wie die Methode funktioniert. Der Kern der Behandlung besteht bei jeder Methode in einem ausführlichen Beispiel, welches die Anwendung Schritt für Schritt nachvollziehbar aufbereitet und weitere Hinweise zum Arbeiten gibt. Damit die Darstellung nicht langweilig wird, habe ich mich dafür entschieden, jede Methode anhand einer anderen politikwissenschaftlichen Fragestellung darzustellen, die alle größeren politikwissenschaftlichen »Subdisziplinen« streift. So wird die qualitative Inhaltsanalyse anhand eines Beispiels aus den Internationalen Beziehungen demonstriert, während die Methode der QCA auf eine Frage der Politischen Theorie angewendet wird. Die lineare Regression <?page no="12"?> 12 E I n l E I t u n g beschäftigt sich mit einer Fragestellung aus der Policy-Analyse, die logistische Regression wird anhand eines Beispiels aus der Wahlforschung erläutert. Die Faktoranalyse schließlich untersucht eine Fragestellung aus der vergleichenden Demokratieforschung. Kapitel 6 bietet statt einer Zusammenfassung in Textform vier Checklisten zum erfolgreichen studentischen Arbeiten bei Methodenfragen. Es ist mir wichtig festzuhalten, dass dieses Buch weder Anspruch auf Vollständigkeit erhebt - dies wäre in diesem Band nicht zu leisten -, sondern ein Einführungsbuch darstellt, das an vielen Stellen wissenschaftliche Debatten in der Darstellung verkürzt oder sogar ausblendet. Das Buch kann und will kein Nachschlagewerk für Methoden der Politikwissenschaft sein, welches jeden Fachbegriff aufgreift und lexikalisch abhandelt. Vielmehr möchte ich Studierende neben der Einführung in die »Basics« der Methoden vor allem an die weitere Lektüre heranführen. Deshalb empfehle ich an jedem Kapitelende zusätzliche Literatur, an denen sich die Leser/ innen orientieren können. Diese Literaturliste dient zwei Zwecken: Erstens enthält sie Beiträge, welche die im entsprechenden Kapitel angesprochenen Fragen vertieft. Zweitens ist Literatur aufgeführt, die die Darstellung im Kapitel um Aspekte ergänzt, die ich für wichtig halte, aber der Übersichtlichkeit halber im Verlauf des Kapitels ignoriert habe. Zum Schluss sollte ich noch mit einem weiteren Missverständnis aufräumen, welches sich vielleicht ergeben kann, wenn man sich dieses Buch besorgt hat: Es enthält keine Tipps und Tricks, wie man sich als Studierender am besten auf Referate und Prüfungen vorbereitet oder erfolgreich Haus- oder Abschlussarbeiten schreibt. Auch hierfür gibt es natürlich Methoden (! ), diese werden aber in diesem Buch nicht behandelt. Nach meiner Erfahrung sind hierfür zwei Bücher als Einstieg gut geeignet: Christoph Metzger (2013) behandelt ausführlich Strategien zum Lernen, Präsentieren, Vorbereiten von Prüfungen und Schreiben von Hausarbeiten. Wer insbesondere bei Letzterem immer wieder Probleme hat, sollte Otto Kruses (2000) Bestseller konsultieren. Ich bin froh, dass ich beim Abfassen des Manuskripts auf die Unterstützung vieler (teilweise ehemaliger) Kolleg/ innen am Institut für Politikwissenschaft der Technischen Universität Darmstadt zählen konnte, bei denen ich mich an dieser Stelle bedanke. An der grundlegenden Konzeption des Buches hat Katharina Grabietz entscheidenden Anteil. Wertvolle Kommentare und Anregungen haben insbesondere Heike Böhler, Hubert Heinelt, Max Kayser, Jörg Kemmerzell, Timo Richter und Sebastian Widmuch gegeben. Von meinen studentischen Hilfskräften Charlotte Friederich, Katrin Hühner und Marie Lortz habe ich hervorragende organisatorische Unterstützung erhalten. In gleich drei verschiedenen Rollen war Melina Lehning entscheidend an der Erstellung des Buches beteiligt: als langjährige studen- <?page no="13"?> 13 E I n l E I t u n g tische Hilfskraft, als wissenschaftliche Mitarbeiterin und schließlich als Autorin eines eigenen Abschnitts. Darmstadt, im Frühjahr 2019 Björn Egner <?page no="14"?> 14 Erkenntnis- und Wissenschaftstheorie 2.1 Erkenntnis- und wissenschaftstheoretische Zugänge 2.2 Zentrale Begriffe des Kritischen Rationalismus 2.3 Das Verhältnis von Theorie und empirischer Forschung 2.4 Verstehen und Erklären Bevor in den weiteren Kapiteln praktische und technische Fragen der Methodenlehre besprochen werden, widmet sich dieses Kapitel zunächst den erkenntnis- und wissenschaftstheoretischen (epistemologischen) Grundlagen der Sozialwissenschaften. Vereinfacht ausgedrückt geht es darum, dass wir uns vor der Beschäftigung mit der Frage, wie man Wissen systematisch generiert, zunächst mit anderen, viel grundsätzlicheren Dingen auseinandersetzen müssen. Zuerst muss überlegt werden, wie menschliche Erkenntnis gebildet wird, d. h. wie wir die Welt um uns herum erkennen können. Weshalb das relevant ist, liegt auf der Hand: Wenn in späteren Kapiteln etwa davon die Rede ist, dass die Anzahl der politischen Parteien bestimmt werden soll, dann sollte man sich zunächst beispielsweise darüber verständigen, ob der Prozess der Bestimmung objektivierbar ist und die Anzahl der Parteien bestimmt werden kann. Deshalb enthält Abschnitt 2.1 einen Überblick über die wichtigsten erkenntnis- und wissenschaftstheoretischen Perspektiven. In Abschnitt 2.2 wird der derzeit zentrale und prominenteste Ansatz, der Kritische Rationalismus, breiter ausgeführt - inklusive einer Klärung seiner wichtigsten Begriffe. Diese Betrachtung liefert wiederum die Basis für die Klärung der Frage, in welchem Verhältnis Theorie und empirische Forschung stehen ( → Abschnitt 2.3). Das Kapitel schließt mit der Unterscheidung von verstehendem und erklärendem Vorgehen ( → Abschnitt 2.4). 2 <?page no="15"?> 15 E r k E n n t n I s u n d w I s s E n s c h a f t s t h E o r E t I s c h E Z u g ä n g E Erkenntnis- und wissenschaftstheoretische Zugänge Die Frage, wie Wissen generiert wird, ist schon sehr alt und bereits Bestandteil philosophischer Betrachtung in der Antike. Für die moderne Wissenschaft ist die Frage zumeist »abgehakt«, da schlicht davon ausgegangen wird, dass die Welt, die wir wahrnehmen, mit der realen Welt zumindest einigermaßen übereinstimmt, wenn nicht sogar identisch ist. In anderen Epochen wurde die Frage jedoch unterschiedlich beantwortet. Deshalb wird im Folgenden ein kurzer »Galopp« durch die Geschichte der Erkenntnis- und Wissenschaftstheorie unternommen. Aufgrund des begrenzten Raumes beschränken wir uns darauf, wesentliche Vertreter der Perspektiven und zentrale, zur damaligen Zeit diskutierte, erkenntnistheoretische Probleme zu benennen. Ziel dabei ist es, einen Überblick über die zeitliche Phase der Debatte und ihre jeweils spezifischen Fragestellungen zu gewinnen. Für die vertiefende Beschäftigung mit einzelnen erkenntnistheoretischen Perspektiven wird in den einzelnen Abschnitten auf weitere Literatur verwiesen. Die »moderne« Erkenntnistheorie beginnt im 17. Jahrhundert mit den Rationalisten (Descartes, Leibniz, Spinoza). Für die Vertreter dieser Schule steht das Argumentieren mit logischen Schlüssen im Vordergrund von Wissenschaft, d. h. die »Schönheit« bzw. »Reinheit« einer lückenlosen Argumentationskette. Typisch für diese Perspektive ist etwa Descartes’ Idee, die menschliche Vernunft sei Grundstein der Erkenntnis und im Prinzip unter den Menschen gut verteilt - nur dass es am rechten Gebrauch der Vernunft fehle. Ein anderes Beispiel ist sein onthologischer Gottesbeweis (den in ähnlicher Form schon Anselm von Canterbury geführt hat). Descartes schöpft den Beweis aus seinem eigenen Bewusstsein. In diesem hat sich die Idee geformt, dass Gott das vollkommenste Wesen sei, welches es gibt. Der größte Makel für ein vollkommenes Wesen wäre, wenn es nicht existierte. Also, so schlussfolgert Descartes, muss Gott existieren. Überhaupt ist das Verhältnis von Gott als Schöpfer der Natur das Hauptmotiv dieser Zeit. Für die Rationalisten ist dabei übrigens zweitrangig, ob die aneinander gereihten logischen Schlüsse die Wirklichkeit abbilden oder nicht. Das bedeutet, dass Sinneserfahrungen des Forschenden eine eher geringe Rolle spielen; völlig ausgeblendet werden Erfahrungen »aus zweiter Hand«, also beispielsweise Erzählungen jeder Art. Die Gegenposition zum Rationalismus nehmen die Empiristen (Locke, Berkeley, Hume) ein, die am Übergang zwischen dem 17. und 18. Jahrhundert in die Debatte eintreten. Diese verabschieden sich von der Idee der von der Realität abgekoppelten logischen Schlüsse und stellen die Sinneswahrnehmung des Menschen in den Mittelpunkt. Im Zentrum stehen beispielweise bei Hume »Eindrücke«, welche die Konfrontation des Menschen mit 2.1 Rationalisten Empiristen <?page no="16"?> 16 E r k E n n t n I s u n d w I s s E n s c h a f t s t h E o r I E der Wirklichkeit hervorbringt. Diese Eindrücke werden unterteilt in drei Kategorien (Wahrnehmungen, Leidenschaften und Gefühle). Die zentrale Frage ist, wie Eindrücke erzeugt werden und welche Rolle der Mensch bei der Wahrnehmung und bei der Verarbeitung der Eindrücke spielt. Die Empiristen unterscheiden dabei zwischen physischen Prozessen in der Außenwelt und psychischen Prozessen, die innerhalb des Menschen ablaufen. Das Gegenstück zu den Eindrücken aus der Außenwelt bilden die Ideen, die vom Menschen entwickelt werden (Hume 2007: 45). Erkenntnis entsteht demnach aus Ideen, die sich aufgrund von Eindrücken formieren (Chalmers 2007: 7). Einen weiteren Schritt gehen ab dem späten 18. Jahrhundert die Idealisten; der bekannteste Vertreter dieser Gruppe ist Kant. Sie differenzieren nicht mehr nur zwischen Eindrücken und Ideen, sondern zwischen körperlichen Gegenständen (»Dingen«) und geistigen Gegenständen (»Ideen«). Dabei stellen sie wegweisende Fragen, die auch in den folgenden Epochen im Mittelpunkt der Debatten stehen: Woher weiß ich, dass die Welt so ist, wie ich sie erfahre? Wie kann ich Aussagen über die Wirklichkeit machen? Existieren Dinge unabhängig vom Beobachtenden? Einig sind sie sich darüber, dass Dinge, die wahrgenommen werden, nicht physisch in den Menschen eindringen, wovon man bislang ausgegangen war. Sah ein Mensch beispielsweise ein Pferd, so wurde nach geltender Lehre ein winziges Stückchen pferdeähnlicher Materie im Menschen »eingelagert« - dies versetzte den Menschen in die Lage, sich an das Pferd zu erinnern, über es nachdenken und über es sprechen zu können. Die Idealisten erteilen dieser Art der Erkenntnis durch materiellen Transfer eine Absage: Aus ihrer Perspektive erschafft der Mensch durch die Wahrnehmung in sich eine Repräsentation des Pferdes, statt Materie aufzunehmen. Der Mensch, so Kant, führt die beiden Quellen der Erkenntnis, nämlich Verstand und Sinnlichkeit, zusammen und schafft damit die Synthese - ein aus vernünftiger Überlegung und empirischer Erfahrung kombinierte Aussage über die Wirklichkeit. Kant ist sich dabei allerdings bewusst, dass die menschliche Vernunft »endlich« (begrenzt) ist. Die wegweisenden theoretischen Arbeiten der Idealisten bleiben fast ein Jahrhundert für die erkenntnistheoretische Debatte prägend. Auf der Schwelle zum 20. Jahrhundert allerdings folgt abermals eine paradigmatische Wende durch das Aufkommen der Positivisten. Als Hauptvertreter gelten die Mitglieder des »Wiener Kreises«, Carnap und Neurath sowie weitere Wissenschaftler wie Mach und Avenarius. Diese zeichneten sich vor allem dadurch aus, dass sie die Metaphysik der Idealisten ablehnen. Stattdessen stellen sie die Erfahrung des Individuums in das Zentrum der Erkenntnis - und die Fähigkeit des Individuums, mit anderen Individuen die Erfahrung auszutauschen bzw. Erfahrungen gegenüber zu stellen. Zugleich identifi- Idealisten Positivisten <?page no="17"?> 17 E r k E n n t n I s u n d w I s s E n s c h a f t s t h E o r E t I s c h E Z u g ä n g E zieren sie weitere wichtige Fragen: Ist das Subjekt selbst Gegenstand der Empirie? Und welche Folgen hat das für den Erkenntnisgewinn? Was ist Wahrheit, wenn die Wahrnehmung individuell ist? Kritisiert werden die Positivisten später hauptsächlich aufgrund des Induktionsproblems (Chalmers 2007: 37 ff.), das schon die Empiristen angegriffen hatten. Es besteht darin, die immer wiederkehrende Bestätigung von Wahrnehmungen als Bestätigung von Theorien gelten zu lassen. Als klassisches Beispiel gilt Poppers Argumentation über die Farbe von Schwänen. Stellen wir uns einen Positivisten vor, der jeden Morgen durch den Park spaziert und dabei die Schwäne beobachtet. Er stellt fest, dass sie ausnahmslos weiß sind. Er macht diese Beobachtung sehr häufig, denn er geht seit zwanzig Jahren jeden Morgen dort spazieren. Deshalb folgert er, dass Schwäne immer weiß seien. Damit zählt er tausende von Einzelbeobachtungen (»dieser einzelne Schwan ist weiß«) zusammen und formuliert als Schlussfolgerung einen allgemeinen Aussagesatz (»alle Schwäne sind weiß«). Dieser induktive Schluss vom Einzelfall auf alle Fälle ist aber aus logischen Gründen nicht zulässig. Ein einziger nichtweißer Schwan führt schon dazu, dass der allgemeine Satz widerlegt ist. Dies wiederum bedeutet, dass man diesen Fall zwingend ausschließen können muss. Das ist aber nicht möglich, denn der Spaziergänger kann nicht wissen, ob es vielleicht in einem anderen Teil der Welt noch unentdeckte nichtweiße Schwäne gibt. Er kann auch nicht wissen, ob es vielleicht in Zukunft Schwäne anderer Farbe geben wird. Aber nicht nur die Herangehensweise beim Schließen vom Einzelfall auf die Gesamtheit wird kritisch eingeschätzt, sondern auch die maßgebliche Stoßrichtung der Positivisten im Hinblick auf das Verhältnis von Erkenntnis und Realität. Denn für die Positivisten ist nicht unbedingt entscheidend, ob sich die Realität tatsächlich so verhält, wie es das Modell voraussagt. Es geht zuerst darum, ob das Modell die richtige Prognose ermöglicht. Damit kann es korrekt prognostizierende Modelle geben, die die Wirklichkeit völlig falsch einfangen. Beispiel für ein falsches Modell auf Grundlage des Positivismus Wir beobachten jahrelang den Nachthimmel und stellen fest, dass sich bei Auftreten bestimmter Sternkonstellationen das Klima ändert. Die Zeiten von Aufgang und Untergang der Plejaden, einer Sternengruppe, sind beispielsweise sehr wichtig für den frühen bäuerlichen Kalender. Auf- und Untergangszeit variieren über das Sonnenjahr, so dass sich Extrempunkte gut zur Bestimmung von Zeiträumen eignen. Wenn die Plejaden in Europa zum letzten Mal am Abendhimmel im Westen zu sehen sind (10. März), geht dieses Ereignis mit steigenden Temperaturen einher - die Zeit ist also güns- Beispiel <?page no="18"?> 18 E r k E n n t n I s u n d w I s s E n s c h a f t s t h E o r I E tig für die Aussaat des Getreides im Hinblick auf den optimalen Ernteertrag im Herbst. Sehen wir die Plejaden hingegen zum letzten Mal am Morgenhimmel untergehen, markiert dies den spätesten Zeitpunkt für den Beginn der Ernte (17. Oktober). Aus heutiger Perspektive wissen wir, weshalb das so ist: Gemäß unserem Weltbild dreht sich die Erde um die Sonne, während sich die weit weg befindlichen Sterne im Verhältnis dazu nur unwesentlich bewegen. Die Jahreszeiten hängen von der Konstellation von Erde und Sonne ab. Immer, wenn Erde und Sonne so stehen, dass bald der Frühling beginnt (welcher der optimale Zeitpunkt zum Säen ist), sehen wir die Plejaden am Abendhimmel - eben weil diese in dieser Konstellation von Erde und Sonne dort stehen, wo sie jedes Jahr stehen. Die beiden Ereignisse (Frühling in Mitteleuropa) und die Sichtachse Erde/ Plejaden fallen also zufällig zusammen; das Verbindungsglied ist die Drehung der Erde um die Sonne und die Entfernung zwischen dem Sonnensystem und den Plejaden. Eine komplette Alternativerklärung wäre: Erde und Sonne stehen still im Raum. Die Plejaden sind sehr heiß und bewegen sich auf einer großen Umlaufbahn schnell um unser Sonnensystem herum. Immer, wenn sie näher sind, erwärmen sie die Erde und führen dadurch den Frühling herbei. Aus streng positivistischer Sicht ist es unerheblich, welche von beiden alternativen Erklärungen zutrifft, denn die Korrelation der Plejaden am Abendhimmel mit dem Frühling spielt die entscheidende Rolle. Solange man aufgrund der Sichtung der Plejaden den Frühling vorhersagen kann, ist es zweitrangig, welche Theorie zutrifft. Deshalb wird die positivistische Perspektive auch als »Als-ob-Physik« bezeichnet - weil sie eine falsche Erklärung akzeptiert, solange die Prognosen, welche auf der Erklärung basieren, zutreffen. Eine neue Sicht auf die Dinge bringt der Dialektische Materialismus, welcher in der zweiten Hälfte des 19. Jahrhunderts im Wesentlichen von Karl Marx und Friedrich Engels entwickelt wurde. Er wendet sich von der vom Menschen im Inneren entwickelten »Idee« zumindest teilweise ab und erhebt die Außenwelt zum Ausgangspunkt der menschlichen Erfahrung. Die Materie beeinflusst von außen die Sichtweise des Menschen auf die Welt - »das Sein bestimmt das Bewusstsein«. Wie dieser Einfluss der Außenwelt auf die innere Befindlichkeit des Menschen stattfindet, ist eine der Kernfragen dieser Perspektive. Denn die Ergründung dieser Mechanismen ist auch der Schlüssel für Veränderungen der Welt: Wenn Menschen durch kritische Reflexion über die Außenwelt ihre eigene Wahrnehmung gleichsam überprüfen und damit objektivieren können, können sie damit zu neuen Schlüs- Dialektischer Materialismus <?page no="19"?> 19 E r k E n n t n I s u n d w I s s E n s c h a f t s t h E o r E t I s c h E Z u g ä n g E sen über die Welt und ihre Rolle in der Welt kommen. Nur so ist die Überwindung des Kapitalismus durch die Proletarier möglich: Sie müssen ihre eigene Rolle im Kapitalismus erkennen, was das System mit ihnen macht und wie es ihre Weltsicht bestimmt - damit sie erkennen können, wo der Ausweg aus der Misere ihrer Ausbeutung liegt. Der dialektische Materialismus ist vor allem wegen eines Punktes immer kritisiert worden, nämlich wegen des inhärenten Determinismus. Wenn man seiner strengen Logik folgt, dann muss sich die Entwicklung der Menschheit zwangsweise in quasi vorbestimmten Bahnen bewegen, denn zur Selbsterkenntnis und Selbstreflexion und der daraus folgenden Handlungen gibt es keine Alternative. Inzwischen sind wir in der Mitte des 20. Jahrhunderts angekommen, in der der Kritische Rationalismus formuliert wird, als dessen wesentlicher Vertreter Karl Popper gilt. Er bezieht sich im Kern auf den Rationalismus (siehe oben), indem er auf eine streng logische Argumentationskette zielt. »Kritisch« ist die neue Variante des Rationalismus deshalb, weil sie zwar die logische Argumentation in den Mittelpunkt stellt, aber ein völlig anderes Verhältnis zwischen Theorie und Realität fordert: Es geht nicht mehr darum, eine schöne logische Argumentationskette zu entwickeln, die unabhängig von der Realität funktioniert (und im besten Fall etwas mit der Realität zu tun hat). Die Realität selbst wird vielmehr als Maßstab für die Qualität der Argumentationskette genommen. Logisch muss die Theorie sein, in sich widerspruchsfrei, plausibel und überzeugend. Sie ist aber, so schön und elegant sie auch sein mag, nichts wert, wenn sie sich in der Realität nicht bewährt. Diese Perspektive wendet sich damit direkt gegen die Positivisten, deren Weltsicht sie bestenfalls für naiv hält. Das Konzept der »Als-ob-Physik« ist aus dieser Sicht unerträglich: Wie, fragen sich die kritischen Rationalisten, kann man nur auf der Basis von wiederkehrenden Ereignissen Aussagen treffen, die mir helfen sollen, die Welt zu verstehen, auch wenn der Begründungszusammenhang falsch ist? Diese Vorgehensweise hilft mir allenfalls, mich in der Welt zurecht zu finden (z. B. deshalb, weil ich weiß, wann ich mein Getreide säen muss - siehe oben). Ich bin aber meinem eigentlichen Ziel als Wissenschaftler, die Ursache für bestimmte Phänomene herauszufinden, kein Stück nähergekommen. Das unterscheidet für die kritischen Rationalisten Wissenschaft (Wissen wollen um des Wissens willen) von Handwerk (Wissen wollen wegen der guten Ernte). Die kritischen Rationalisten schlagen deshalb eine einfache Hierarchie von Theorien und Empirie vor: Eine Theorie wird formuliert. Dies kann auf der Basis von Erfahrungen geschehen oder ohne Betrachtung der Realität. Danach werden aus den Theorien Aussagesätze abgeleitet, die überprüfbar sind. Diese Sätze werden anhand der Realität überprüft. So ist es möglich, Theorien daraufhin zu überprüfen, ob sie wahr sind, d. h. ob sie die Realität korrekt in abstrakten Aussagen abbilden. Stellt sich eine Theorie aufgrund der Kritischer Rationalismus <?page no="20"?> 20 E r k E n n t n I s u n d w I s s E n s c h a f t s t h E o r I E Fakten als falsch heraus, dann ist sie falsifiziert. Aus dieser Perspektive ist es allerdings nicht möglich, eine Hypothese im positiven Sinne zu bestätigen - das »beste« Ergebnis kann nur sein, dass die Falsifikation der Hypothese immer wieder scheitert. Im Vordergrund der Perspektive steht also die kritische Prüfung der Theorie (welche immer in Gefahr ist, falsifiziert zu werden) statt des naiven »Beweisdenkens« der Positivisten, die Theorien als wahr bezeichnen, obwohl sie eigentlich genau wissen müssten, dass sie morgen schon als falsch entlarvt wird. Da der Kritische Rationalismus keine eigene Programmatik entfaltet, sondern auf die stetige Verbesserung des Wissens durch das Streichen unwahrer Erklärungen setzt, gilt er als undogmatisch-pragmatische Perspektive, die den Wissensbestand als Objekt evolutionärer Entwicklung sieht. Unbeantwortete Kernprobleme des Kritischen Rationalismus sind demnach Urteilsfragen: Ab wann hat sich eine Hypothese so bewährt, dass man sie im pragmatischen Sinne als »wahr« bezeichnen kann? Welche Modifikationen an Theorien sind erlaubt, wenn sie sich als teilweise unwahr herausgestellt haben? Unterstützung für den Kritischen Rationalismus aus wissenschaftshistorischer Perspektive liefert Thomas S. Kuhn (1995: 65-103), der untersucht hat, wie wissenschaftlicher Fortschritt funktioniert. Nach seiner Beobachtung besetzen die Vertreter einer bestimmten wissenschaftlichen Theorie (die Kuhn »Paradigma« nennt) dabei die Mehrheit der Lehrstühle in den Universitäten und Forschungseinrichtungen, welche sich mit den entsprechenden Phänomenen beschäftigen. Über die Zeit werden Widersprüche zwischen Theorie und Realität entdeckt, langsam häufen sich die Anomalien, bis ein Wissenschaftler (oder eine Gruppe von Wissenschaftlern) eine neue Theorie formuliert, welche die Realität besser fasst als die bisherige Theorie. Die Unterstützer der alten Theorie lassen sich entweder überzeugen oder gehen in Rente, und die Anhänger der neuen Theorie besetzen schließlich die entscheidenden Funktionen - damit ist der »Paradigmenwechsel« auch personell abgeschlossen. Dann beginnt eine neue Runde des Abgleichs zwischen Theorie und Empirie und die nächste Revolution zeichnet sich ab. In den nächsten beiden Abschnitten werden noch weitere moderne Perspektiven auf die menschliche Erkenntnis präsentiert; dennoch erlauben wir uns an dieser Stelle bereits ein Zwischenfazit. Denn der Kritische Rationalismus ist in den Naturwissenschaften bis heute der geltende wissenschaftstheoretische Standard. So ist Forschung in den Naturwissenschaften auf der Methode des Experiments aufgebaut, in dem der Forschende genau das tut, was die Perspektive fordert. Durch die geplante Variation von Einflüssen und durch immer wieder wiederholte und variierte Versuche zielt der Forschende darauf, die aus der Theorie abgeleitete Hypothese zu falsifizieren (und wenn sie letztlich falsifiziert ist, die Theorie zu modifizieren). In den Sozialwissenschaften dauert die Debatte um den Kritischen Rationalis- <?page no="21"?> 21 E r k E n n t n I s u n d w I s s E n s c h a f t s t h E o r E t I s c h E Z u g ä n g E mus und seine Stellung für die Forschung allerdings noch immer an, hier ist er nicht das »Maß aller Dinge«. Es ist allerdings unübersehbar, dass die übergroße Mehrheit der in diesen Disziplinen Forschenden und Lehrenden nach der Logik des Kritischen Rationalismus forscht, auch wenn die Kolleginnen und Kollegen dies vielfach nicht betonen bzw. damit nicht offensiv umgehen. Es ist uns wichtig, zu betonen, dass der Kritische Rationalismus damit faktisch der »Marktführer« auch unter den wissenschaftstheoretischen Perspektiven der Sozialwissenschaften ist. Der wissenschaftstheoretische Pluralismus ist in diesen Disziplinen allerdings stärker ausgeprägt als in den Naturwissenschaften. Die beiden folgenden Perspektiven sind zwar folglich nicht der »Mainstream« in den Sozialwissenschaften. Sie sind aber doch zu weit verbreitet, als dass wir sie einfach ignorieren könnten. Offen bleiben muss hier auch, ob mit dem Kritischen Rationalismus Poppers und der Perspektive Kuhns die wissenschaftstheoretische Debatte gleichsam »entschieden« ist, oder ob die Wissenschaftsgemeinschaft vielmehr eine »pragmatische Wende« (Gamm 2009: 160) vollzogen hat, die wissenschafts- und erkenntnistheoretische Fragen (vorläufig) zurückstellt, um sich anderen Fragen zu widmen. Die erste zeitgenössische Perspektive ist der Poststrukturalismus bzw. Postmodernismus. Als dessen Hauptvertreter gelten Foucault und Derrida, welche Mitte bis Ende des 20. Jahrhunderts wirkten. Ihr wesentliches Argument zielt auf die Sprache des Menschen, wobei sie Sprache als Symbolsystem betrachten, welches durch Assoziation von Symbolen zu Gegenständen und Ideen aufgespannt wird. Wahrnehmung bedeutet also nicht nur, primäre Reize aus der Umwelt zu verarbeiten, wie z. B. den Lichteinfall ins Auge. Der Mensch bildet und verbindet mit den Wahrnehmungen auch Begriffe. Das ist notwendig, denn erst über die Sprache ist der Mensch in der Lage, zu differenzieren, also etwa einen Stuhl von einem Sessel zu unterscheiden. Diese Begriffe wiederum sind gesellschaftlich geformt und tradiert, weil das Individuum die Begriffe mit der Sprache von den Menschen um ihn herum aufnimmt und verinnerlicht. Deshalb ist die Erfahrung zusätzlich geprägt vom Einfluss des Sprachlernens - und man kann Sprache verwenden, um die Wahrnehmung, zumindest aber die Einschätzung bzw. die Schlussfolgerungen eines Individuums, zu manipulieren. Das ist ein Vorgang, der uns nur allzu bekannt vorkommt, beispielsweise wenn die Ermordung politischer Gegner als »Säuberung« bezeichnet wird oder die Kürzung von Sozialleistungen als »Reform der Sicherungssysteme«. In beiden Fällen wird den Vorgängen ein positiv besetzter Begriff »übergestülpt«, um Akzeptanz beim Zuhörer zu erzielen und den wahren Charakter der Maßnahme zu verschleiern. Nach den Strukturalisten bzw. Postmodernisten ist es deshalb notwendig, sich beim Beobachten von sozialen Phänomenen immer zu vergewissern, welche Rolle die Sprache für die Vorgänge spielt und wie Poststrukturalismus Postmodernismus <?page no="22"?> 22 E r k E n n t n I s u n d w I s s E n s c h a f t s t h E o r I E die Verwendung der Sprache auch den Forschenden in seiner Rolle als Beobachtender und Analysierender in eine bestimmte Richtung drängen kann. Der Forschende muss sich daher immer fragen, ob die Sprache verwendet wird, um etwas zu manipulieren. Er muss gleichzeitig seine eigene Abhängigkeit von der Sprache begreifen und reflektieren können - und er muss im besten Fall in der Lage sein, gleichsam »hinter« die Sprache zu sehen. Es bleibt die ungelöste Frage, ob objektive Erkenntnis, die das Ziel der anderen Perspektiven ausmacht, eigentlich möglich ist, wenn Erkenntnis letztlich anhängig von Sprache bleiben muss. Foucault betont noch ein weiteres Problem, nämlich die aus seiner Sicht künstliche Trennung zwischen Sozialgeschichte und Geistesgeschichte. »Demnach soll die Sozialgeschichte beschreiben, wie die Menschen handeln, ohne zu denken, und die Geistesgeschichte soll beschreiben, wie Menschen denken, ohne zu handeln. Aber jeder Mensch handelt und denkt zugleich. Das Handeln und die Reaktionen von Menschen sind mit ihrem Denken verknüpft, und natürlich ist das Denken mit der Tradition verbunden« (Foucault 2005: 964). Zudem hat der Begriff der »Diskurse« die Sozialwissenschaften entscheidend geprägt. Einen der Hauptbezugspunkte bildet der Philosoph Derrida, welcher in der Analyse noch radikaler als Foucault ist. Derrida schaut nicht nur in die Texte, sondern auch »hinter« die Texte, indem er die beteiligten Personen, ihren Kontext und die bislang unsichtbaren oder versteckten Verbindungen betrachtet. So mischt er sich beispielsweise in den 1990ern in die Debatte um den Kollaps der kommunistischen Systeme ein (siehe hierzu Lüdemann 2011: 134 ff.). Den von vielen politischen Akteuren, aber auch von Wissenschaftlern als Tatsache dargestellten Sieg der liberalen Demokratie und des Kapitalismus über den Sozialismus hinterfragt Derrida kritisch, indem er thematisiert, wie Verfechter des »Sieges der Demokratie« mit amerikanischen Denkfabriken und der US-Regierung verbunden waren. Auf diese Weise kann nachvollzogen werden, wie ein herrschender Diskurs entstanden ist, wie er sich verfestigt hat und wie schließlich daraus die Forderung nach der amerikanischen Hegemonie im internationalen System entstand. Die zweite zeitgenössische Perspektive ist die der Systemtheorie und des mit ihr in wissenschaftstheoretischer Sicht ähnlichen Konstruktivismus, welche seit dem späten 20. Jahrhundert Verbreitung finden. Dessen Hauptvertreter sind Wiener (sein zentraler Bezugspunkt ist die Kybernetik) und Parsons (Strukturfunktionalismus), während die deutsche Systemtheorie vor allem durch Luhmann vertreten wurde. Die Kernüberlegung ist in beiden Perspektiven, dass es wichtig für das Nachvollziehen der Erkenntnis ist, den Standpunkt des Beobachtenden vom Standpunkt des Beteiligten zu unterscheiden. So basiert die Systemtheorie auf der Annahme, dass alle Wahrnehmung letztlich vom Individuum selbst generiert ist und nicht Systemtheorie Konstruktivismus <?page no="23"?> 23 E r k E n n t n I s u n d w I s s E n s c h a f t s t h E o r E t I s c h E Z u g ä n g E notwendiger Weise mit der Außenwelt korrelieren muss (Maturana 1985: 32 ff.). Sie definiert Menschen, aber auch gesellschaftliche Subsysteme (Politik, Wirtschaft, Recht, Sport, Wissenschaft) als abgeschlossene, selektive und selbstreferenzielle Einheiten, welche nach ihrer inneren Logik folgen und mit ihren inneren kommunikativen Codes jonglieren - beides ist für andere Systeme unverständlich (Luhmann 1987: 242 ff.). Der Konstruktivismus hingegen betont die konstitutive Bedeutung von Verständigung über Ereignisse und Tatsachen zwischen den Beteiligten. So ist beispielsweise das Verhalten von Steuerzahlern dadurch zu erklären, dass sich diese Gesellschaft gemeinsam auf die Existenz der Steuergesetze geeinigt hat. Obwohl die Regel keine physische Existenz besitzt (also nicht »greifbar« ist) und die wenigsten Steuerzahler tatsächlich die Verabschiedung des Gesetzes im Parlament, die Ausfertigung durch den Präsidenten sowie die Veröffentlichung des Gesetzestextes verfolgt haben, sind sie sich doch darüber einig, dass das Gesetz existiert und befolgen daher die Regeln des Gesetzes. Das Steuergesetz ist also ein Konstrukt der beteiligten Personen, die die Existenz des Konstrukts für wahr halten und sich entsprechend verhalten. Diese Perspektive wird natürlich dann interessant, wenn es einen Dissens darüber gibt, was die Wahrheit ist und welche Regel gilt. Insgesamt stehen die beiden zuletzt thematisierten Perspektiven für die interpretativen Ansätze der Sozialwissenschaften. Sie konzentrieren sich auf die Bedeutung von Begriffen und wie diese Handlungen von Akteuren und Institutionen formen (Bevir und Rhodes 2004: 130). Diese Perspektive ist besonders in der Policy-Analyse prominent, ihr wird aber auch für die anderen Teildisziplinen der Politikwissenschaft eine gewisse Bedeutung eingeräumt (vgl. Heinelt 2016: 17 f.). Als strittig kann gelten, ob interpretative Ansätze eine besondere Form der qualitativen Ansätze sind, oder ob sie gleichsam als dritte Säule neben den quantitativen und qualitativen Ansätzen stehen. Die Einschätzung hängt u. a. davon ab, ob man Diskurse und Narrative als Variablen handhabbar zu machen versucht (was die interpretativen Ansätze der Familie der qualitativen Ansätze zuordnen würde) oder ihnen eine eigene Logik jenseits von Variablen zubilligt (was für eine eigene Familie interpretativer Ansätze sprechen würde). Soweit der »Schnelldurchlauf« durch wissenschafts- und erkenntnistheoretische Perspektiven der letzten Jahrhunderte. Im Folgenden Abschnitt wird - der Bedeutung der Perspektive für die heutige Wissenschaft folgend - der Kritische Rationalismus vertieft. <?page no="24"?> 24 E r k E n n t n I s u n d w I s s E n s c h a f t s t h E o r I E Zum Rationalismus liegen viele sehr gute Darstellungen vor. So erläutert Röd (2009) verständlich den ontologischen Gottesbeweis, Poser (2005) lädt zum Nachvollziehen von Leibniz’ Denkweise ein, und Czichos (2013: 48 ff.) porträtiert eindrucksvoll Grundlagen und Schlussfolgerungen der Rationalisten. Einen guten Einblick in die Denkweise der Positivisten bieten Leerhoff et al. (2009: 93 ff.). Lesenswert sind auch die Positivisten selbst, beispielsweise das Grundlagenwerk von Mach (1980) über die Erkenntnis. Die Grundlagentexte von Popper zum kritischen Rationalismus hingegen sind teilweise schwer verständlich und formal. Es empfiehlt sich stattdessen, Sekundärliteratur zu lesen, die die Ideen Poppers aufarbeitet (z. B. Keuth 2011, Gadenne 2013). Eine gute Aufarbeitung der Kritik an Popper findet man bei Niemann (2005). Auch im englischen Original packend ist Kuhns Porträt der Revolutionen in der Wissenschaft (2012). Zu Foucaults Denken und Forschung bieten sich die Werke von Kögler (1994) und Keller (2008) an. Einen sehr gut verständlichen Überblick über verschiedene wissenschafts- und erkenntnistheoretische Ansätze bieten Schülein und Reitze (2012). ● Welche Perspektive auf Wissen und Erkenntnis nehmen die Positivisten ein? ● Was bezeichnet man als »Induktionsproblem«? ● Weshalb wird der positivistische Ansatz auch »Als-ob-Physik« genannt? ● Wie würde ein Konstruktivist das Verhalten eines populistischen Politikers erklären? ● Wie beschreibt Thomas S. Kuhn Fortschritt in der Wissenschaft? Zentrale Begriffe des Kritischen Rationalismus Wie oben schon erwähnt, bildet der Kritische Rationalismus derzeit das herrschende wissenschaftstheoretische Paradigma in den Sozialwissenschaften, obwohl nicht alle Forschung unter dieses Paradigma fällt (vgl. S. 26). Im Folgenden werden deshalb die Grundbegriffe der Perspektive aufgegriffen und durch weitere Grundbegriffe ergänzt. Lesetipps Kontrollfragen ▼ ▲ 2.2 <?page no="25"?> 25 Z E n t r a l E B E g r I f f E d E s k r I t I s c h E n r a t I o n a l I s m u s Eine Theorie wird im kritischen Rationalismus als ein komplexes Gedankengebäude verstanden, das eine abstrakte Beschreibung der Wirklichkeit enthält und dabei mindestens zwei (zumeist aber viel mehr) Hypothesen enthält, die sie miteinander inhaltlich in Beziehung setzt. Zusätzlich können Annahmen bzw. Axiome (grundsätzlich als wahr definierte Aussagen) Elemente einer Theorie sein und mit den Hypothesen in Verbindung stehen. Für Wissenschaftler fast aller Disziplinen ist dies die Bedeutung des Begriffs »Theorie«. Eine schöne Definition bietet das Oxford English Dictionary: »theory - an explanation of a phenomenon arrived at through examination and contemplation of the relevant facts; a statement of one or more laws or principles which are generally held as describing an essential property of something.« In der Sozialwissenschaft werden dabei nach dem Vorbild von Mertons Betrachtung der soziologischen Theorien (1996) verschiedene »Reichweiten« unterschieden. Merton beschreibt darin »universelle Theorien« oder »Haupttheorien«, die abstrakt und hochkomplex sind, sowie einen logischen und widerspruchsfreien Aufbau besitzen - sich aber genau deshalb der Überprüfung in der Realität faktisch entziehen, weil bei der empirischen Forschung aus forschungspragmatischen Gründen zu große Kompromisse gemacht werden müssen, die letztlich die Überprüfung »verwässern«. Am anderen Ende der Skala stehen für Merton Ad-hoc-Theorien, die rein auf Beobachtung basieren und die in den Beobachtungen (scheinbar) auftretenden Regelmäßigkeiten enthalten, ohne dass diese zu einem übergeordneten Konstrukt miteinander »verwoben« werden - hier berührt sich die Betrachtung mit dem Induktivismus ( → siehe Abschnitt 2.1). In der Mitte stehen nach Merton die »Theorien mittlerer Reichweite«, welche nicht so abstrakt sind, dass sie sich einer empirischen Bearbeitung entziehen, aber auch nicht so theorielos, dass die Forschung faktisch eine beliebige Richtung nehmen kann. Ein typisches Beispiel scheinen uns die Theorien des Wahlverhaltens zu sein: Diese bauen auf kausalen Annahmen über die Motivation von Wählern auf (z. B. Orientierung an Kosten-Nutzen-Überlegungen, kulturellen Faktoren, Sozialisierung, Einstellungen zu Themen, Sympathie für Kandidaten und Parteien), sind aber nicht so abstrakt, dass sie sich einer empirischen Überprüfung entziehen. Auf der anderen Seite würde Wahlforschung keinen Sinn ergeben, wenn sie sich ausschließlich auf induktives Beobachten und Zusammenzählen stützen würde. Eine Hypothese ist eine Aussage über den Zusammenhang zwischen mindestens zwei Phänomenen. Es ist zwar technisch möglich, mehr als zwei Phänomene in einem Aussagesatz zu verbinden, etwa »Wenn A und B zutreffen, passiert C oder D«). Allerdings wird bei solchen Aussagen später die Theorie Hypothese <?page no="26"?> 26 E r k E n n t n I s u n d w I s s E n s c h a f t s t h E o r I E empirische Überprüfung kompliziert, da viele Methoden darauf ausgerichtet sind, den Zusammenhang von zwei Phänomenen zu prüfen (z. B. bivariate Korrelationen). Am Einfachsten (und auch am Gebräuchlichsten) ist deshalb, in einer Hypothese den Zusammenhang von zwei Phänomenen zu beschreiben, also die »Mindestform« zu wählen. Eine Hypothese kann auf unterschiedlichen Wegen generiert werden. Entweder sie wird induktiv gebildet, d. h. auf der Basis einer Serie von Ereignissen (siehe S. 21) - diese Form tritt meist bei neuen Forschungsfragen oder neuen Forschungsfeldern auf, wenn noch keine Theorie besteht, unter deren Verwendung der Forschende die Frage angehen kann. Oder die Hypothese wird aus der verwendeten Theorie abgeleitet; dann spricht man von einer deduktiven Hypothesenbildung. Die Hypothese kann unterschiedliche Formen auf zwei Dimensionen annehmen. Zum einen ist entscheidend, ob die Hypothese eine absolute Aussage über den Zusammenhang der Phänomene macht (deterministisch) oder eine Wahrscheinlichkeitsaussage (probabilistisch). Im Rückgriff auf Duvergers Gesetz lautet die deterministische Hypothese: »Wenn ein Land ein Mehrheitswahlrecht aufweist, dann besitzt das Land ein Zweiparteiensystem.« Die probabilistische Hypothese könnte lauten: »Wenn ein Land ein Mehrheitswahlrecht aufweist, dann ist die Wahrscheinlichkeit, dass es auch ein Zweiparteiensystem besitzt, größer als 85 %«. Der Unterschied ist offensichtlich: Während die deterministische Hypothese keine Ausnahme duldet (ein Land, auf das die Hypothese nicht zutrifft, würde sie schon als falsch zurückweisen), lässt die probabilistische Hypothese Spielraum für Wahrscheinlichkeiten. Um die beiden Formen auseinander zu halten, kann die deterministische Hypothese auch in der Form »Immer wenn, dann ...« formuliert werden; das »immer« erhöht gewissermaßen sprachlich den Nachdruck, dass Ausnahmen nicht erlaubt sind. Die beiden oben geschilderten Hypothesen repräsentieren allerdings beide gemeinsam nur den Typ der »Wenn-dann-Hypothese«. Hinzu kommt eine weitere Form, die »Je-desto- Hypothese«. Diese kann ebenfalls deterministisch (»Je stärker Elemente des Mehrheitswahlrechts, desto weniger Parteien«) oder probabilistisch sein (»Je stärker Elemente des Mehrheitswahlrechts, desto weniger Parteien gibt es mit einer Wahrscheinlichkeit von 85 %«). In der Praxis werden Hypothesen zumeist deterministisch formuliert, um die Formulierung einfach zu halten. Die Ergebnisse des Hypothesentest werden dann oft probabilistisch interpretiert. Wichtig ist, dass die Hypothese prüfbar sein muss, d. h. sie muss sich auch als falsch erweisen können. Im Gegensatz zu einer Hypothese ist eine Definition gerade keine Aussage über den Zusammenhang zweier Phänomene, welche empirisch prüfbar ist. Eine Definition stellt eine Tautologie dar, denn sie setzt zwei Begriffe gleich oder erläutert die Bedeutung eines Begriffs durch die Verwendung anderer Begriffe. induktive Hypothesenbildung deduktive Hypothesenbildung deterministisch probabilistisch Definition <?page no="27"?> 27 Z E n t r a l E B E g r I f f E d E s k r I t I s c h E n r a t I o n a l I s m u s Definitionen Copi (1998) erläutert sehr schön, was Definitionen sind, indem er auf ein Beispiel zurückgreift, und zwar den Begriff »Berg«. Seine Definition von »Berg« wäre demnach: »Das Wort ›Berg‹ bedeutet eine größere Masse Erde oder Steine, welche sich zu einer nicht unerheblichen Höhe um das umgebende Land erhebt.« Der Fehler, der von Studierenden häufig gemacht wird, ist, diese Definition in einen Satz umzuformulieren, der die Form einer Hypothese hat, aber keine Hypothese darstellt. Eine Möglichkeit wäre: »Wenn ich ein Ding einen ›Berg‹ nenne, dann besteht er aus einer größeren Masse Erde oder Steine.« Die Wenn-dann-Struktur, die eigentlich ein typisches Kennzeichen der Hypothese ist, wird hier gewissermaßen »umgebogen«. Dabei ist der Unterschied deutlich: Die o. g. Wenn-dann-Aussage ersetzt, wie die Definition in ihrer Ursprungsform, nur einen Begriff durch einen anderen bzw. durch einen beschreibenden Ausdruck aus mehreren Worten. Die Aussage ist nicht empirisch prüfbar (kann also nicht falsch sein), denn es ist keine Behauptung über einen Zusammenhang vorhanden. Im Übrigen ist auch der zweite Teil einer Definition nicht beliebig. Definitionen können auch falsch sein. Copi (1998: 51) gibt - wiederum für den Begriff »Berg« - ein Beispiel für eine falsche Definition: »Das Wort ›Berg‹ bedeutet eine ebene Figur, welche von drei geraden Linien eingeschlossen ist.« Dies ist offensichtlich falsch, solange eine lexikalische Definition gemeint ist, d. h. eine Definition eines bekannten Sachverhalts - um diese geht es hier. Die Definition liest sich eher so wie die Beschreibung eines Dreiecks (welches eben nicht das ist, was der Begriff »Berg« aussagt). Eine andere Lage ergibt sich, wenn ein Begriff zum ersten Mal eingeführt wird und dafür definiert werden muss (stipulative Definition). In diesem Fall ist der Definierende frei in der Festlegung. Dies ist z. B. der Fall bei technischen Neuerungen. So ist der Begriff »DVD« definiert als »digitales Massenspeichermedium, welches mit gebündeltem Licht ausgelesen werden kann«. Diese Definition aus den 1990er Jahren kann nicht falsch sein, da sie die DVD einführte und so dem Begriff überhaupt erst Bedeutung verleiht. Würde man hingegen zum jetzigen Zeitpunkt DVD definieren als »Laubbaum mit immergrünen Blättern«, wäre dies keine stipulative Definition mehr, sondern eine lexikalische, und zwar eine falsche. Gleiches gilt für normative Sätze, also Aussagen, welche formulieren, wie etwas sein soll. Beispielsweise drückt die Aussage »Wenn ein Mehrheitswahlsystem vorliegt, sollte es auch nur zwei Parteien geben« aus, dass das Zweiparteiensystem wünschenswert ist. Das hat aber nichts damit zu tun, ob es Exkurs <?page no="28"?> 28 E r k E n n t n I s u n d w I s s E n s c h a f t s t h E o r I E auch tatsächlich ein Zweiparteiensystem gibt, weshalb die Aussage nicht überprüft werden kann. Gleiches gilt für Sätze nach dem Muster der Bauernweisheit »Wenn der Hahn kräht auf dem Mist, [dann] ändert sich das Wetter oder es bleibt wie es ist«. Auch dieser Satz stellt keine Hypothese dar, denn er ist nicht falsifizierbar; er ist immer wahr, denn entweder es ändert sich das Wetter, oder es ändert sich nicht. Ein solcher Satz kann keine Hypothese sein, denn er kann unter keinen Umständen falsch sein. Ebenso verhält es sich mit sprachlichen Einschränkungen bei der Hypothesenformulierung. So sind »Wenn ein Mehrheitswahlsystem vorliegt, gibt es vielleicht nur zwei Parteien« und »Wenn ein Mehrheitswahlsystem vorliegt, könnte es nur zwei Parteien geben« auch keine Hypothesen, denn bei der Prüfung würde man immer auf die Frage stoßen, was denn jetzt »könnte« oder »vielleicht« genau bedeutet. Um herauszufinden, ob wirklich eine Hypothese vorliegt, eignen sich folgende Daumenregeln: ● Hat der Satz eine Wenn-dann- oder Je-desto-Form? ● Macht der Satz eine Aussage über den Zusammenhang von Phänomenen? ● Ist der Satz empirisch überprüfbar, d. h. kann man durch eine auf geeigneten Methoden basierende Forschung herausfinden, ob er richtig bzw. falsch ist? Ein Gesetz liegt dann vor, wenn sich eine Hypothese bewährt hat, d. h. wenn sie Versuchen von Wissenschaftlern, sie zu widerlegen, überstanden hat. Es gibt aber keine allgemein anerkannte Anzahl von Versuchen, die eine Hypothese über sich ergehen lassen muss, ebenso so wie es kein anerkanntes, standardisiertes »Testverfahren« gibt, dem eine Hypothese unterzogen werden muss. Vielmehr ist es eine Frage des Konsenses innerhalb der Gemeinschaft der Forschenden, welche Hypothese sich dermaßen bewährt hat (Gadenne 2004: 40; 2013), dass sie in den Rang eines Gesetzes erhoben wird. In der Forschungspraxis stehen Gesetze und Hypothesen aber auf der gleichen Stufe; es sind beides Behauptungen über den Zusammenhang von Phänomenen. Der Unterschied besteht lediglich darin, wie viele Angriffe die Aussagen schon erfolgreich bestanden haben, ohne dass sie verworfen werden mussten. In den Sozialwissenschaften sind wenige Gesetze bekannt (eines stellt Duvergers Gesetz dar, welches aber schon viele Modifikationen erfahren hat). In den Naturwissenschaften gelten bislang mehr Gesetze als identifiziert, beispielsweise Newtons Gravitationsgesetz, sowie die Hauptsätze der Thermodynamik. Häufig wird der Begriff des Gesetzes auch ironisch oder karikierend verwendet, etwa Murphys Gesetz (»Anything that can go wrong will go wrong«). Der Begriff der Falsifikation steht für die Strategie des Kritischen Rationalismus. Der Forschende versucht mittels der Falsifikation von Hypothesen falsche Aussagen aus einer gedachten »ewigen Liste« aller möglichen Hypothesen zu eliminieren. Dabei ist wichtig, dass sich der Forschende Gesetz Falsifikation <?page no="29"?> 29 Z E n t r a l E B E g r I f f E d E s k r I t I s c h E n r a t I o n a l I s m u s nicht zu stark mit den Hypothesen identifiziert - eine Forderung, die nicht einfach zu bewältigen ist. Zumeist haben Sozialwissenschaftler eine positive Beziehung zu »ihrer« Theorie; sie hegen und pflegen die Theorie und sehen es ungern, wenn sie widerlegt wird. Deshalb sollte der Forschende nicht zu zimperlich mit den Hypothesen umgehen, sondern ehrlich versuchen, die Hypothesen zu falsifizieren. Dazu ist jedes nachvollziehbare und systematische Mittel recht. Der Publizist Gero von Randow (2011: 149) beschreibt nachdrücklich, was dies bedeutet: »Wir stellen eine Hypothese auf und testen sie - das ist der beste Weg, um zu Erkenntnissen über die Außenwelt zu gelangen. ›Testen‹ muss aber heißen: überprüfen, auf die Probe stellen, herausfordern. Materialprüfer belasten ihre Proben mit schweren Gewichten, pressen sie zusammen, ziehen sie auseinander, werfen sie mal ins Wasser, mal ins Feuer und gießen Säure darüber.« Das Verhalten, tendenziell die eigenen Annahmen bestätigen zu wollen, ist übrigens keine spezifische Eigenschaft von Wissenschaftlern, sondern ein typisch menschlicher Denkfehler. Schöne Beispiele hierzu bieten Frey und Frey (2009: 106 ff.). Eine andere Variante des gleichen Fehlers ist die affirmative (bestätigende) Fallauswahl. Der Forschende, der seine Theorie bestätigen möchte, wählt die Fälle aus, die zu seiner Theorie passen und damit ist von vorneherein klar, dass die Untersuchung die Theorie bestätigen wird. Noch unkritischer ist die Vorgehensweise, die Beck-Bornholt und Dubben den »texanischen Scharfschützen« (2005: 38) nennen. Der Forschende sucht nicht nach einer theoretisch fundierten Kausalität, sondern nach irgendeiner Erklärung für das Phänomen. So werden wahllos Variablen darauf getestet, ob sie mit dem zu erklärenden Phänomen in Zusammenhang stehen, ohne darauf zu achten, ob es überhaupt eine sinnvolle theoretische Erklärung für den Zusammenhang gibt. Diese Vorgehensweise ähnelt jemandem, der mit einem Gewehr auf ein großes Tor schießt, um danach (! ) die Zielscheibe aufzumalen und sich über den Treffer zu freuen (deshalb »texanischer Scharfschütze«). Die Phänomene, deren Zusammenhang wir im Rahmen der Forschung untersuchen wollen, werden in der Methoden-Fachsprache auch häufig Variablen genannt. Streng genommen ist das nicht korrekt, da die Variablen nicht mit den Phänomenen identisch sind. Variablen sind vielmehr Konzepte, die mit den Phänomenen dergestalt zusammenhängen, dass Variablen eine bestimmte Eigenschaft des Phänomens abbildet. Wenn wir zurück zu Duvergers Gesetz kommen, werden dort zwei Phänomene miteinander in Beziehung gesetzt, nämlich die Beschaffenheit des Wahlsystems sowie die Anzahl der politischen Parteien. Die Hypothese sagt, dass bei Variable <?page no="30"?> 30 E r k E n n t n I s u n d w I s s E n s c h a f t s t h E o r I E starker Tendenz zu Mehrheitswahlsystemen auch eine Tendenz zum Zweiparteiensystem besteht. Also ist die Beschaffenheit des Wahlsystems die unabhängige Variable, denn sie übt Einfluss auf die zweite Größe aus, das Parteiensystem. Letzteres wird als abhängige Variable bezeichnet, denn die Hypothese behauptet, dass ihr Wert abhängig vom Wert der ersten Größe ist. Variablen können direkt oder indirekt gemessen werden ( → siehe hierzu auch Abschnitt 4.2). Lesenswert hier ist van Evera (1997: 8-12), welcher die Begriffe anschaulich erläutert. Der letzte wichtige Begriff ist der des Falles bzw. der Beobachtung. Diese Begriffe werden häufig synonym verwendet und bezeichnen die Untersuchungseinheiten. Die synonyme Verwendung ist zumeist sachlich richtig, nämlich wenn die Untersuchungseinheiten nachvollziehbar und natürlich voneinander abgegrenzt sind. Wollen wir beispielsweise Duvergers Gesetz überprüfen, wählen wir geeignete Länder aus, um in ihnen die Stärke der Tendenz zur Mehrheitswahl und die Anzahl der Parteien zu messen. Jedes Land wäre in diesem Beispiel eine Untersuchungseinheit, d. h. wenn wir zwölf Länder untersuchen, haben wir auch zwölf Fälle (und zwölf Beobachtungen pro Variable). Auch bei Befragungen ergibt sich zumeist intuitiv, dass ein/ e Befragte/ r jeweils einen Fall darstellt (z. B. 1.254 per Telefon interviewte Wahlberechtigte). Es gibt aber auch Forschungsdesigns, in denen Fälle und Beobachtungen auseinanderfallen. Dies ist typischerweise der Fall, wenn Zeitreihen bearbeitet werden. Ein Forschungsprojekt, das die Bildungsausgaben aller deutschen Bundesländer über 25 Jahre hinweg statistisch erklären soll, besitzt dann 16 Fälle (da es 16 Bundesländer sind), erstreckt sich aber über 16*25=400 Beobachtungen. Es gibt viele Überblicksdarstellungen zum Verhältnis von Theorie und Empirie in den Sozialwissenschaften. Eine sehr gut verständliche und kurze Problematisierung bietet - trotz des Alters der Publikation - Merton (1996: 41 ff.). Einen weiteren Klassiker stellt van Everas »Guide to Methods for Students of Political Science« (1997) dar. Leicht nachvollziehbare Beispiele für Theorien inklusive der zugehörigen miteinander verknüpften Aussagen bieten Schnell et al. (2013: 49 ff.) und Häder (2010: 60 f.). Ein schönes Beispiel für den »texanischen Scharfschützen« aus der Medizin präsentieren Austin et al. (2006), die zeigen, wie man mit Hilfe eines solchen »Scharfschützen« erklären kann, dass Personen mit einem bestimmten Sternzeichen stärker von bestimmten Krankheiten betroffen sind. Falle Beobachtung Lesetipps <?page no="31"?> 31 d a s V E r h ä l t n I s V o n t h E o r I E u n d E m p I r I s c h E r f o r s c h u n g ● In welchem Verhältnis zueinander stehen Theorie und Hypothese im Kritischen Rationalismus? ● Was ist der Unterschied zwischen Hypothese und Definition? ● Welche Formen von Hypothesen gibt es? ● Weshalb kann man Hypothesen nicht bestätigen, sondern nur falsifizieren? ● Wann wird eine Hypothese zu einem Gesetz? Das Verhältnis von Theorie und empirischer Forschung Nur in seltenen Fällen findet sozialwissenschaftliche Forschung ohne theoretischen Rahmen statt. Besonders häufig ist eine solche explorative Herangehensweise zu finden, wenn es um etwas grundlegend Neues geht, also etwa um Phänomene, die ganz neu auftreten oder um Phänomene, die schon länger zu beobachten sind, die man aber jetzt erst als »beforschungswürdig« erkannt hat. Sehr häufig steht solches »Neuland« in Verbindung mit technologischen Innovationen. Beispielsweise kann die Dynamik der Verbreitung von politischen Positionen in den sozialen Netzwerken natürlich erst untersucht werden, seitdem die entsprechende Technologie existiert und auch von vielen Menschen genutzt wird. Auch Forschung zu Wahlwerbespots politischer Parteien konnte schließlich erst beginnen, nachdem die Technologie eine gewisse Verbreitung gefunden hatte und die Parteien diese Form der politischen Kommunikation ernst genommen haben. Aber selbst bei neuartigen Phänomenen ist es zumeist üblich, nicht völlig ohne theoretischen Hintergrund an einen Gegenstand heranzutreten. So gibt es beispielsweise aus der Subdisziplin der politischen Kommunikation genügend sozialwissenschaftliche Theorien. Diese mögen für die Beschäftigung mit den neuen Medien vielleicht nicht vollständig befriedigend sein, können aber zumeist als Ausgangspunkt für die Entwicklung einer modifizierten Theorie genutzt werden. Der Forschende fängt also nie bei »Null« an, sondern er hat schon Erklärungsansätze oder Theorien im Hinterkopf, die ihn bei den folgenden Untersuchungen anleiten. Dass Theorien oder theoretische Vorstellungen bei der Forschung schwer »auszublenden« sind, ist vor dem Hintergrund des obigen Abschnitts deutlich geworden. Dies begründet jedoch noch nicht die Bedeutung von Theorien für sozialwissenschaftliche Forschung. Es ergibt sich vielmehr aus der Logik der Wissenschaft selbst, welche sich knapp als »theoriegeleitete Empirie« Kontrollfragen ▼ ▲ 2.3 <?page no="32"?> 32 E r k E n n t n I s u n d w I s s E n s c h a f t s t h E o r I E bezeichnen lässt. Demnach funktioniert wissenschaftliche Erkenntnis immer nach dem gleichen Muster: Wir beschreiben eine Theorie, leiten aus dieser Theorie überprüfbare Sätze ab und prüfen diese Sätze in der Realität. Aus dem Ergebnis der Überprüfung leiten wir Schlussfolgerungen über die Hypothese ab, welche uns dann auch einen Rückschluss auf die Theorie selbst erlaubt. Mittels dieses Instrumentariums sind wir in der Lage, fehlerhafte Theorien »auszusortieren«, bis nur noch die Theorien übrigbleiben, die sich bewährt haben. Diese methodische und systematische Vorgehensweise unterscheidet die Sozialwissenschaften von »Alltagsgesprächen« über soziale Gegenstände. So lässt sich am Stammtisch durchaus unterhaltsam darüber streiten, weshalb eine bestimmte Partei die letzte Wahl gewonnen hat. Jeder am Gespräch Teilnehmende hat unter Umständen dafür seine eigene »Erklärung«, und der Abend vergeht damit, dass man sich gegenseitig seine »Erklärungen« an den Kopf wirft. Oft genug geht am Ende des Abends die Runde auseinander und jeder beharrt auf seiner »Erklärung«. Gelegentlich hat man den einen oder anderen von seiner Meinung überzeugt bzw. wurde überzeugt; dies war aber nicht mehr als eine Art Wettbewerb, wer seine Argumente rhetorisch gut verpackt hat und welche Erklärung von den anderen Teilnehmern als besonders »plausibel« oder »passend« eingeschätzt wurde. Dem wahren Grund, weshalb die Partei die Wahl gewonnen hat, sind wir natürlich keinen Schritt nähergekommen. Dieser Frage nach der Wahrheit geht die Wissenschaft nach, und deshalb muss sie auch systematisch und methodisch vorgehen. Dies geht nur, indem wir eine Theorie formulieren (z. B. darüber, wie sich Wähler/ innen verhalten), auf dieser theoretischen Basis Voraussagen über das Wählerverhalten machen und dann in der Realität beobachten, ob die Voraussagen zutreffen. Dann kann die Theorie sich bewähren. Es kann aber auch sein, dass die Realität uns einen Streich spielt und nur zufällig so ist, wie wir es vorausgesagt haben. Dann denken wir, die Theorie sei bestätigt, obwohl sie in Wirklichkeit nicht zutrifft. Festzuhalten bleibt: Politikwissenschaftliche Forschung ist theoriegeleitete empirische Forschung, d. h. in einem theoretischen Rahmen werden Phänomene daraufhin untersucht, ob sie sich zueinander so verhalten, wie die Theorie es behauptet. Das Verhältnis zwischen Theorie und Empirie ist allerdings keine Einbahnstraße dergestalt, dass die Theorie den allseits »richtigen«, unveränderlichen Rahmen für die Durchführung von empirischer Forschung bildet. Vielmehr befinden sich Theorie und Empirie in einem spannungsreichen gegenseitigen Abhängigkeitsverhältnis. Empirische Forschungsergebnisse wiederum wirken auf die Theorie zurück. So kann eine Theorie zwar insgesamt durch empirische Forschung falsifiziert werden, d. h. als falsch zurückgewiesen werden. In der Praxis dominiert allerdings eher die teilweise Zurückweisung von Theorien. So zielt ein empirisches Forschungsprojekt nicht immer auf den Kerngedanken einer Theorie, sondern kann sich <?page no="33"?> 33 d a s V E r h ä l t n I s V o n t h E o r I E u n d E m p I r I s c h E r f o r s c h u n g durchaus mit abgeleiteten Aspekten oder »Nebenprodukten« einer Theorie befassen. Möglicherweise entscheiden sich Forschende auch dazu, nur eine von vielen Zusammenhängen, die eine Theorie postuliert, zu überprüfen. Dies bedeutet, dass das Ergebnis dann auch nur etwas über dieses Element der Theorie aussagt. Es wäre also, um auf das Beispiel mit Duvergers Gesetz zurück zu kommen, keinesfalls eine komplette Falsifikation des Gesetzes, wenn wir ein Land mit starkem Mehrheitswahlsystem fänden, in dem es vier große Parteien gibt (statt zwei, wie es die Theorie voraussagt). Vielmehr müsste man sich fragen, ob das System Besonderheiten besitzt, die eine Modifikation der Theorie nahelegen. So könnte es z. B. sein, dass es in diesem Land zwei unterschiedliche Ethnien gibt, die räumlich stark getrennt sind und jeweils ihr »eigenes« Parteiensystem besitzen. Es würde darauf hinauslaufen, dass national vier Parteien existieren. Diese Überlegung könnte man auf weitere Systeme übertragen und sich fragen, ob Duvergers Theorie grundsätzlich richtig ist, aber vielleicht von einer Annahme ausgeht, die nicht immer korrekt ist (weitgehende kulturelle Homogenität der Wähler). Die Theorie wäre also nicht einfach abzulehnen, sondern könnte um eine kulturelle Komponente erweitert werden, etwa so: [1] Je mehr Elemente der Mehrheitswahl bestehen, desto wahrscheinlicher ist das Auftreten eines Zweiparteiensystems. [2] Treten kulturelle Konfliktlinien auf, wird die Zahl der Parteien mit der Anzahl der Konfliktlinien multipliziert. Dies ist offenbar wieder nicht für alle Länder treffend, denn es können sich auch Konfliktlinien überlagern. Diese Konfliktlinien können auch bedeutungslos für das Parteiensystem sein, wenn die Wähler/ innen nicht regional konzentriert auftreten. So erhalten über das Land verstreute Minderheiten in Einmannwahlkreissystemen in der Regel keine Vertretung im Parlament, während regional konzentrierte Minderheiten zwar nur in wenigen Wahlkreisen überhaupt Chancen haben, Sitze zu erobern. In diesen wenigen Wahlkreisen stehen aufgrund der Konzentration der entsprechenden Wähler/ innen die Chancen für die Partei aber wiederum sehr gut. Wie aus dem obigen Beispiel ersichtlich ist, bringt ein einziger Fall, der gegen die allgemeine Aussage der Theorie spricht, prinzipiell die Theorie zu Fall, wenn man stark formal argumentiert. Da der Forschende aber in der Regel nicht an der »Vernichtung« von Theorien interessiert ist, sondern an der Verbesserung von Theorien, liegt es also nahe, die Theorie so zu reformulieren, dass sie auf die »neuen« Fälle bzw. das neue empirische Material passt. In Kauf nehmen wir dabei, dass die Allgemeingültigkeit der Theorie eingeschränkt wird, d. h. die Theorie geht dann von mehr Annahmen aus als vorher. Dies ist jedoch kein Verlust, sondern bedeutet letztlich eine Art »Profilschärfung« der Theorie. <?page no="34"?> 34 E r k E n n t n I s u n d w I s s E n s c h a f t s t h E o r I E Wie Wissenschaft aus verschiedenen Blickwinkeln »funktioniert«, ist in diesem Abschnitt behandelt worden. Wie Wissenschaft nicht funktioniert, beschreiben Lack und Rousseau (2016) sehr anschaulich, indem sie auf Pseudowissenschaft, Verschwörungstheorien, Kryptozoologie, Religion und andere gesellschaftliche Phänomene eingehen, die in einem Spannungsverhältnis zur wissenschaftlichen Methode stehen. Aufgrund der sehr klaren Argumentation ist der Band auch für Einsteiger gut verständlich. ● Wie unterscheidet sich die Sozialwissenschaft vom Kneipengespräch über soziale Phänomene? ● Beginnt der Forschende mit einer Theorie oder mit der Empirie? ● Welche Rolle spielen Theorien für die Forschung? ● Wie wirkt sich die Forschung auf Theorien aus? Verstehen und Erklären Aus den o. g. dargestellten Überlegungen und Perspektiven ergibt sich eine konzeptionelle Trennung der sozialwissenschaftlichen Forschung in eine verstehende und eine erklärende Perspektive. Worin aber besteht der Unterschied? Verstehen bezieht sich auf grundlegende Einsichten des Forschenden über den Gegenstand seiner Forschung. Ein Beispiel, welches wir uns von Schnell et al. (2013: 104 f.) leihen, soll das verdeutlichen. Es geht um einen Forschenden, der eine Parteiversammlung beobachtet. Dabei fällt ihm ein Mitglied auf, welches gegen einen eingebrachten Antrag zum Ausbau der Nutzung der Kernenergie stimmt. Der Forschende fragt sich, wie dieses Verhalten zu erklären ist. Dazu versucht er, sich in das Parteimitglied hineinzuversetzen, indem er z. B. mit ihm spricht und so dessen Einschätzungen und dessen »Weltsicht« einzufangen versucht. Schließlich bekommt er so ein insgesamt »rundes Bild« von der Gedankenwelt des Parteimitglieds; er kann dessen Vorstellungen und Handlungen gedanklich nachvollziehen, auch wenn er selbst vielleicht andere politische Einschätzungen hat oder sich sicher ist, in einer vergleichbaren Situation völlig anders zu handeln. Es ist dem Forschenden gelungen, sich in die Perspektive des Anderen hineinzu- Lesetipps Kontrollfragen ▼ ▲ 2.4 Verstehen <?page no="35"?> 35 V E r s t E h E n u n d E r k l ä r E n denken und so zu verstehen, wie dieser die Welt sieht und wie er dazu kommt, sich so zu verhalten. Der Forschende hat also einen wichtigen Schritt gemacht. Er hat sich von der Außenperspektive (er beobachtet das Parteimitglied) in die Innenperspektive versetzt, d. h. er versucht, die Welt mit den Augen des Parteimitglieds zu sehen. So kann er dessen Wahrnehmung von der Realität analysieren, kann sich in dessen Ideen darüber, was womit zusammenhängt, »hineindenken« und gewinnt damit Erfahrung aus der Perspektive des Parteimitglieds. Das Verstehen ist dabei sowohl für qualitative als auch für quantitative Forschungsprojekte wichtig (wir kommen darauf in Abschnitt 3.5 noch zurück). An dieser Stelle ist es notwendig festzuhalten, dass das Verstehen für bestimmte Forschungsfragen bereits das zu erreichende Ziel der Forschung sein kann. Dies ist regelmäßig der Fall, wenn es um Gegenstände der Politischen Theorie geht. Stellen wir uns einen Forschenden vor, der versucht, die Motivation der Väter der US-Verfassung von 1791 zu ergründen, die das institutionelle Gefüge der USA so festschrieb, wie wir es heute kennen - mit einem starken Präsidenten, einem starken Kongress und starken unabhängigen Gerichten - mithin drei Gewalten, die sich gegenseitig kontrollieren (System der »checks and balances«). Wie geht der Forschende also vor? Es gibt offensichtlich keine Möglichkeit, mit den Verfassungsvätern über ihre Gedanken zu sprechen. Die nächstliegende Möglichkeit wäre, mit Personen zu sprechen, die die Verfassungsväter sehr gut kannten - auch das scheidet natürlich aus. Damit bleibt dem Forschenden nur die Möglichkeit, andere Quellen hinzuzuziehen, um den Verfassungstext aus der Perspektive der Autoren zu betrachten. Der Forschende wird also versuchen, alle weiteren Hinweise zu suchen, die ihm helfen, sich in diese Personen hineinzuversetzen. Glücklicherweise ist dieser Teil der amerikanischen Geschichte gut dokumentiert, so liegen beispielsweise Aufsätze von drei Verfassungsvätern vor (Hamilton et al. 2003), die sich mit den Regelungen der einzelnen Verfassungsartikeln beschäftigen und erläutern, welche Überlegungen bei deren Formulierung eine Rolle gespielt haben. Zudem galt die Zustimmung zur neuen Verfassung keineswegs als sicher, weshalb vielerorts vor und während des Ratifikationsprozesses der neuen Verfassung öffentliche Debatten abgehalten wurden, in denen sich die Befürworter der Verfassungsreform sowohl zur Sinnhaftigkeit der Verfassungsgebung an sich als auch zu einzelnen Passagen des geplanten Verfassungstextes äußerten. Es besteht also zu dieser Frage ein relativ großes Kompendium an Texten, die es dem Forschenden erlauben, die Perspektive der Verfassungsväter einzunehmen. Dass sich dabei Lücken ergeben können - möglicherweise sind bestimmte Gedanken oder Debatte zu einzelnen Aspekten schlicht nicht dokumentiert - muss in Kauf genommen werden. Der Forschende kann schließlich keine Belege herbeizaubern, wo keine sind. Die Quellenlage ermöglicht aber einen guten Einblick in die Gedan- <?page no="36"?> 36 E r k E n n t n I s u n d w I s s E n s c h a f t s t h E o r I E kenwelt der Verfassungsväter, ihre Befürchtungen, ihren Blick auf das Verhältnis zwischen Bürger/ innen und Staat etc. Der Forschende kann so sein Ziel gut erreichen: Er kann verstehen, weshalb die Verfassung bestimmte Regeln enthält, weil er sich in die Denkstrukturen der Autoren eingelesen hat und deren Argumente nachvollziehen kann. Das bedeutet - wir erinnern uns an das Beispiel mit dem Parteitagsdelegierten - nicht, dass sich der Forschende die Argumente inhaltlich zu eigen macht, d. h. dass er die Welt persönlich so sieht wie die Verfassungsväter. Manche Gedanken, beispielsweise dass nur Männer wählen sollten, lehnt er als aufgeklärter Mensch des 21. Jahrhunderts sehr wahrscheinlich ab. Dennoch kann er versuchen, sich durch das Studium der Texte in die Gedankenwelt der Verfassungsväter hineinzuversetzen. Der Forschende hätte so sein Ziel erreicht zu verstehen, wie der Verfassungstext zustande gekommen ist. Verstehen kann allerdings nicht nur selbständiges Ziel der Forschung sein, wie wir eben dargelegt haben; es kann auch eine wichtige Vorstufe zum Erklären sein. Hierzu müssen wir uns erst klar werden, was mit einer »Erklärung« gemeint ist. Wenn von einer Erklärung gesprochen wird, meint dies nicht im alltagssprachlichen Sinne einer Rechtfertigung, beispielweise wenn ein Schüler seinem Lehrer »erklären« muss, weshalb er die Hausaufgaben nicht erledigt hat. Vielmehr bezieht sich eine Erklärung im wissenschaftlichen Sinne auf den gedanklichen Zusammenhang zwischen einem beobachteten Phänomen und einer Ursache. Im Hintergrund steht das Konzept der Kausalität (von lateinisch »causa«, d. h. »Grund«). Es besagt, dass etwas, das man beobachtet, einen Grund bzw. eine Ursache hat. Die Ergründung dieser Ursache steht im Mittelpunkt der Forschung. Beispielsweise ist in der Politikwissenschaft Duvergers Gesetz sehr bekannt, welches behauptet, dass eine Verbindung zwischen dem Wahlsystem eines Landes und seinem Parteiensystem besteht. Das Wahlsystem wird als Ursache des Parteiensystems gesehen und zwar insofern, als dass Mehrheitswahlsysteme eher Zweiparteiensysteme hervorbringen, während sich in Verhältniswahlsystemen eher Mehrparteiensysteme entwickeln. Das Wahlsystem beeinflusst also das Parteiensystem, oder anders ausgedrückt: Das Parteiensystem eines Landes lässt sich durch das Wahlsystem erklären. Diese Erklärung ist aber in der Forschung schon der zweite Schritt. Zuvor muss der Forschende noch etwas leisten: Er muss verstehen, warum die beiden Phänomene zusammenhängen. Ein Ingenieur würde von einem Mechanismus sprechen, der Ursache und Folge miteinander verbindet. Im Fall von Duvergers Gesetz ist es die eine Sache, festzustellen, dass sich bei der Betrachtung von Wahlsystemen und Parteiensystemen Muster ergeben. Eine andere Sache ist es zu verstehen, wie es dazu kommt. Der Mechanismus liegt in diesem Fall - so die Theorie - darin begründet, dass sich Wähler/ innen an der Urne strategisch verhalten. In Verhältniswahl- Erklären Kausalität Ursache Mechanismus <?page no="37"?> 37 V E r s t E h E n u n d E r k l ä r E n systemen werden die Sitze im Parlament nach den Anteilen der Parteien bei den abgegebenen Stimmen vergeben. Dies bedeutet, dass eine Partei, die 7 % der Stimmen erhält, ungefähr mit 7 % der Sitze rechnen kann (Mindeststimmanteile wie die 5 %-Hürde und andere Einschränkungen lassen wir einmal beiseite, um das Prinzip zu demonstrieren). Dies bedeutet, dass eine Partei sich darauf beschränken kann, eine bestimmte Gruppe von Wählern zu vertreten, solange diese Gruppe groß genug ist, um der Partei zumindest ein paar Sitze zu sichern, damit die Partei nicht in der Bedeutungslosigkeit verschwindet. Im Gegenzug kann der Wählende ruhigen Gewissens auch für kleinere Parteien stimmen, ohne dass er Angst haben muss, dass seine Stimme nicht zählt. Es können sich also »Nischenparteien« bilden, die Schwerpunkte auf bestimmten Politikfeldern besitzen (z. B. Die Grünen) oder sich auf ganz bestimmte Wählergruppen fokussieren (z. B. auf Besserverdienende). Dies ist das Bild, das wir in den meisten europäischen Ländern finden; hier bestehen regelmäßig sozialdemokratische, konservative, christliche, liberale, grüne, kommunistische Parteien usw., auf welche die Parlamentssitze nach dem Verhältnis der Stimmen aufgeteilt werden. Die Folge ist, dass eine Partei selten eine eigene Mehrheit besitzt und dann mit Koalitionen regiert wird bzw. Minderheitsregierungen gebildet werden. Ganz anders stellt sich das Bild in Mehrheitswahlsystemen dar - der Prototyp ist hier das Wahlsystem für das US-Repräsentantenhaus. In derzeit 435 Wahlkreisen mit jeweils einem Mandat werden die Wahlen abgehalten. Wer in einem Wahlkreis die meisten Stimmen erringt, und sei der Abstand zum Zweitplatzierten noch so klein, gewinnt das Mandat. Wähler/ innen in solchen Wahlkreisen müssen sich gut überlegen, für wen sie ihre Stimme abgeben. Stellen wir uns die Wahl in einem beliebigen US-Wahlkreis vor. Die beiden Kandidaten der großen Parteien sind typische Vertreter ihrer Parteien: Der Kandidat der Demokraten ist verhalten progressiv, der Kandidat der Republikaner neigt etwas zur konservativen Seite. Aber auch ein dritter Kandidat ist im Rennen; er vertritt stark religiöse Ansichten und wirft seinem republikanischen Kontrahenten eine zu laxe Position zur Abtreibungsfrage vor. Ein Wähler, der die gleichen Positionen vertritt wie der zuletzt beschriebene Kandidat muss jetzt eine schwierige Entscheidung treffen: Wählt er den dritten Kandidaten, der politisch eigentlich genau auf seiner Linie liegt? Wenn dies genügend Wähler/ innen tun, verteilen sich die Stimmen rechts der Mitte möglicherweise so unglücklich auf die beiden konservativen Kandidaten, dass am Ende der Demokrat im Wahlkreis den Sieg davonträgt - ein Ergebnis, das der Wählende in unserem Beispiel ganz und gar nicht möchte! Stattdessen ist er vielleicht besser beraten, wenn er den gemäßigten Republikaner wählt. So hat er zwar nicht den Kandidaten gewählt, der seine politische Position am besten vertritt. Er hat aber zumindest etwas getan, um den für ihn ungünstigsten Wahlausgang zu verhindern. Egal, mit wie vielen Par- <?page no="38"?> 38 E r k E n n t n I s u n d w I s s E n s c h a f t s t h E o r I E teien das Experiment startet: Von Wahl zu Wahl steigt die Zahl der Wähler, die sich strategisch verhalten und lieber den gemäßigten Kandidaten wählen, der zumindest in die richtige Richtung neigt, um den Hauptkontrahenten zu verhindern. Die Wahrscheinlichkeit, als Wähler/ in dritter Parteien die Stimme zu verschenken, steigt von Wahl zu Wahl. Da die Kandidaten der beiden großen Parteien sich auch miteinander absprechen (Wahlkampfführung, gemeinsame Programme etc.), bleibt für die kleinen Parteien immer weniger Platz. Am Ende bleiben zwei große Parteien übrig, die sich politisch auch relativ ähnlich sind und die beide die Mitte der Wählerschaft ansprechen - dies müssen sie auch, um wettbewerbsfähig zu sein. Der Aufstieg von weiteren Parteien ist dann sehr unwahrscheinlich. Das hier ausgeführte Beispiel illustriert gut die Bedeutung, die das Verstehen als vorgeschaltete Phase vor dem Erklären besitzt. Der Forschende hat zunächst ein Verständnis davon entwickelt, wie sich Parteien und Wähler/ innen verhalten. Unterschiedliche Wahlsysteme bieten unterschiedliche Verhaltensanreize - im Rahmen des oben skizzierten Gedankenexperiments hat der Forschende die Perspektive von Parteistrategen, Kandidaten und Wählern in beiden Systemen eingenommen und versucht zu verstehen, wie sie sich jeweils verhalten. Basierend auf diesem Verständnis davon, wie sich Einzelentscheidungen von vielen Individuen in der Summe auswirken (z. B. aller Wähler/ innen in einem Wahlkreis), erschließt sich dem Forschenden dann auch, wie die Ergebnisse zustande kommen und damit letztlich auch, warum unterschiedliche Wahlsysteme unterschiedliche Parteiensysteme hervorbringen. Jetzt ist er in der Lage, die Unterschiedlichkeit von Parteiensystemen über zwei oder noch viel mehr Länder hinweg zu erklären. Es muss allerdings betont werden, dass hier bewusst ein vereinfachtes Beispiel gewählt wurde, um den Unterschied zwischen Verstehen und Erklären zu erläutern. Selbstverständlich ist das Wahlsystem nicht der einzige Grund für die Ausgestaltung von Parteiensystemen, wenngleich unstrittig ist, dass es einen großen Einfluss hat. Ob das Verstehen mit dem Erklären gleichberechtigt auf einer Stufe der wissenschaftlichen Erkenntnis steht, ist in den Sozialwissenschaften umstritten. Man kann argumentieren, dass das interpretative Sinnverstehen und das Erklären zwei verschiedene Vorgänge sind, die jeweils für sich eine wissenschaftstheoretische Berechtigung haben. Man kann aber genauso gut argumentieren, dass auch das Verstehen letztlich auf die Grundform des Erklärens zurückgreift (Schnell et al 2013: 105 f.). So kann der Forschende die Ablehnung des mit »Nein« stimmenden Parteimitglieds nachvollziehen, wenn er erfährt, dass sich das Parteimitglied z. B. intensiv mit den technischen Aspekten der Kernenergie beschäftigt hat und deshalb das Risiko eines Unfalls größer einschätzt als seine weniger informierten Parteifreunde. Genau dieses »Verstehen« aber kann man auch als Erklä- <?page no="39"?> 39 V E r s t E h E n u n d E r k l ä r E n rung bezeichnen, denn der höhere Grad der Expertise führt gemäß der Überlegung des Forschenden zur Ablehnung des Antrags durch das Parteimitglied. Damit aber liegt eine Behauptung über einen Zusammenhang zweier Variablen vor - eine klassische Hypothese, die in Wenn-dann-Form sogar empirisch anhand mehrerer Fälle geprüft werden könnte. Dem Unterschied zwischen Verstehen und Erklären geht Greshoff (2008) nachvollziehbar auf den Grund. Eine gut erzählte Geschichte der Hermeneutik unter Verwendung von Beispielen - allerdings mit Schwerpunkt auf der Philosophie - hat Grondin (2009) vorgelegt. Einen guten Überblick über die technischen Aspekte der Hermeneutik mit Anwendungsbeispielen und weiterführender Literatur mit Schnelleinstieg in die Methode für Eilige bietet Wernet (2009). Mit dem Konzept der Kausalität beschäftigt sich Schurz (2006: 146 ff.), der sehr gut nachvollziehbare Beispiele aufführt. ● Wo liegt der Unterschied zwischen »Verstehen« und »Erklären«? ● In welchem Verhältnis stehen »Verstehen« und »Erklären« zueinander? ● Was ist Kausalität? ● Auf welcher Kausalität baut Duvergers Gesetz auf? Lesetipps Kontrollfragen ▼ ▲ <?page no="40"?> 40 Forschungsdesign und Forschungsprozess 3.1 Fragestellung und Erkenntnisinteresse 3.2 Was sind Methoden? 3.3 Untersuchungsanordnung 3.4 Konzeptspezifikation und Operationalisierung 3.5 Methoden und der Forschungsprozess Dieses Kapitel orientiert sich am typischen Verlauf eines Forschungsprojektes, der mit einem Erkenntnisinteresse und der Formulierung der Forschungsfrage beginnt - weshalb sich auch Abschnitt 3.1 damit beschäftigt, woher das Erkenntnisinteresse kommt und wie man am besten solche Forschungsfragen formuliert. Weiterhin wird der Begriff der »Methode« behandelt und ergründet, was methodisches Handeln auszeichnet ( → Abschnitt 3.2). Danach geht es um das Forschungsdesign, welches in der wissenschaftlichen Forschung die Funktion des »Rezepts« übernimmt ( → Abschnitt 3.3). Weiterhin wird angesprochen, welche theoretischen Konzepte verwendet werden und wie diese Konzepte gemessen werden sollen ( → Abschnitt 3.4). Zuletzt wird gezeigt, welchen typischen Ablauf ein Forschungsprojekt aufweist und wie sich in dieser Hinsicht qualitative und quantitative Projekte unterscheiden ( → Abschnitt 3.5). Fragestellung und Erkenntnisinteresse Typischerweise beginnt die Forschung immer mit einer Frage. In der Fachgemeinschaft ist unumstritten, dass die Eingrenzung und Formulierung der Forschungsfrage einer der wichtigsten Punkte in einer wissenschaftlichen Arbeit darstellen. Viele Studierende tun sich erfahrungsgemäß damit 3 3.1 <?page no="41"?> 41 f r a g E s t E l l u n g u n d E r k E n n t n I s I n t E r E s s E schwer. Einer der Gründe dafür ist, dass die Forschungsfrage oft nicht klar formuliert wird und daher die Forschungsfrage ihre klärende Funktion für die weiteren Schritte gar nicht entfalten kann. Vor der Formulierung der Fragestellung steht jedoch das Erkenntnisinteresse, welches die grundlegende Neugier des Forschenden repräsentiert. Es ist schlicht das Fernziel des Forschenden: Was möchte er wissen, welches Phänomen möchte er beleuchten, welche Forschungslücke hat er identifiziert, worüber möchte er etwas erfahren? Das Erkenntnisinteresse kann sehr konkret sein, beispielsweise kann es darin bestehen, herauszufinden, welchen Stimmanteil eine bestimmte Partei bei den nächsten Wahlen erhält. Es kann auch abstrakt formuliert sein und z. B. darin bestehen, mehr über unterschiedliche politische Kulturen zu erfahren. Das Erkenntnisinteresse ist also als »Zielvorgabe« zu verstehen, d. h. als der Gegenstand, auf den sich die geplante Forschung konzentriert. Auf das Erkenntnisinteresse gerichtet, aber konkreter ist die Forschungsfrage. Sie ist zunächst der Ausgangspunkt eines Forschungsprojekts. Sie gibt die generelle Richtung der folgenden Arbeit vor. Gleichzeitig ist sie während der Bearbeitung des Projekts ein wichtiger Orientierungspunkt für den Forschenden. Auch in komplexen Forschungsprojekten muss der Forschende in jedem beliebigen Stadium des Projekts begründen können, weshalb er gerade diesen oder jeden Schritt tut und welchen Beitrag dieser Schritt zur Beantwortung der Forschungsfrage hat. Diese häufige Rückbesinnung auf den eigentlichen »Arbeitsauftrag«, den die Forschungsfrage zu Beginn formuliert hat, trägt zur Stringenz von Arbeiten bei. Die strikte Orientierung an der Forschungsfrage ermöglicht es, sich auf die Frage zu konzentrieren und zu entscheiden, welche Dinge im weiteren Prozess relevant sind und welche nicht. Das hilft nicht nur dem Forschenden selbst, sondern ist auch wesentlich für Personen, die die Publikation der Forschungsergebnisse lesen. Sie müssen sich darauf verlassen können, dass jeder Schritt, den sie beim Lesen nachvollziehen und verstehen müssen, notwendig ist, um die Frage zu beantworten, für die sie sich interessieren (sonst würden sie die Publikation nicht lesen). So webt sich auch der berühmte, von allen Professoren für Hausarbeiten geforderte »rote Faden« ganz von alleine. Schließlich spielt die Forschungsfrage auch am Ende des Berichts wieder eine entscheidende Rolle als Textanker. Denn am Ende leitet der Rückbezug auf die eingangs gestellte Frage zuverlässig auf die Antwort des Forschenden hin, die den Lesenden besonders interessiert. Studierende, aber auch Kolleg/ innen, scheuen sich oft, die Forschungsfrage auch in Frageform zu gießen, weil dies angeblich den Lesefluss des Einleitungskapitels behindere. Dem sei entschieden entgegengetreten: Die konkrete, ausdrückliche Nennung der Forschungsfrage in Frageform (mit Fragezeichen! ) hilft sowohl dem Schreibenden als auch dem Lesenden sehr. Nichts ist ärgerlicher, als in der Rolle des Erkenntnisinteresse Forschungsfrage <?page no="42"?> 42 f o r s c h u n g s d E s I g n u n d f o r s c h u n g s p r o Z E s s »Konsumenten« von wissenschaftlicher Literatur auf drei langen Seiten die implizite Fragestellung herauslesen zu müssen, um dann festzustellen, dass der Artikel etwas anderes behandelt als man sich erhofft hat. Unterschieden werden zunächst zwei Grundtypen von Fragen. Die deskriptive Frage richtet sich auf die Art oder Eigenschaft von etwas und ist häufig in Wie-Form formuliert, z. B. »Wie funktioniert das Wahlsystem zum Deutschen Bundestag? « Hier geht es darum, etwas darzustellen, zu beschreiben, nachzuvollziehen. Im Gegensatz dazu richtet sich die analytische Frage auf die Ursachen von Phänomenen und spiegelt damit das wider, was wir im vorangegangenen Abschnitt als »Erklärung« bezeichnet haben. Analytische Fragen können sehr spezifisch sein und bereits indirekt die Formulierung der Hypothese enthalten (»Hängt der Stimmanteil der SPD bei der Bundestagswahl von der Erfahrung der/ des Spitzenkandidaten/ in ab? «) Sie können auch eher breit formuliert sein (»Welche Faktoren beeinflussen die Wahlentscheidung von Landwirten? «) und werden dann häufig als »Programmfragen« bezeichnet (Bürklin 1995: 149). Ein zusätzliches Qualitätsmerkmal wissenschaftlicher Arbeiten ist die Relevanz der aufgeworfenen Forschungsfrage. Dabei ist das zentrale Kriterium die wissenschaftliche Relevanz der Frage. Nicht alle Fragen ergeben einen Sinn (»Schmeckt blau süß oder windig? «) und nicht jede Sinn ergebende Frage bringt uns wissenschaftlich voran (»Wann kommt der IC527 an? «). King et al. (1994: 14 ff.) haben eine kurze, aber wertvolle Checkliste zusammengestellt, die wir an dieser Stelle dokumentieren. Entspricht der Charakter der formulierten Forschungsfrage einem der sechs unten aufgeführten Typen, muss sich der Forschende keine Sorgen darüber machen, ob seine Frage relevant ist: [1] Wählen Sie eine Hypothese, die in der Literatur von Fachleuten als wichtig bezeichnet wird, zu der aber niemand bereits eine systematische Studie vorgelegt hat. Finden Sie Beweise, welche für oder gegen die Hypothese sprechen, tragen Sie damit zur Forschung bei. [2] Wählen Sie eine Hypothese in der Literatur, von der Sie vermuten, dass sie falsch ist (oder von der Sie denken, dass sie nicht ausreichend bestätigt wurde) und finden Sie heraus, ob sie wirklich richtig oder falsch ist oder ob vielleicht eine andere Theorie passt. [3] Versuchen Sie, eine in der Literatur bestehende Kontroverse zu entscheiden, indem Sie weitere Beweise anführen, z. B. dass die Kontroverse von Anfang an unbegründet war. [4] Führen Sie Ihre Forschung so durch, dass Sie bislang nicht behandelte oder nicht hinterfragte Annahmen in der Literatur beleuchten oder bewerten. deskriptive Frage analytische Frage wissenschaftliche Relevanz <?page no="43"?> 43 w a s s I n d m E t h o d E n ? [5] Argumentieren Sie, dass ein wichtiges Thema in der Literatur bisher vernachlässigt wurde und leisten Sie Ihren Beitrag durch eine systematische Studie zu diesem Thema. [6] Zeigen Sie, dass Theorien oder Belege, die in der Literatur für einen bestimmten Zweck verwendet werden, auf andere Literatur übertragen werden können und so ein bestehendes, aber anders gelagertes Forschungsproblem lösen. Neben der wissenschaftlichen Relevanz kann auch die gesellschaftliche Relevanz einer Forschungsfrage eine Rolle spielen, d. h. ob die Beantwortung der Forschungsfrage dazu beitragen kann, gesellschaftliche Probleme zu lösen oder aus einer bisher nicht beachteten Perspektive zu beleuchten. Diese Frage kann im akademischen Binnenbereich getrost ignoriert werden. Hier zählt zunächst, ob die Beantwortung der Frage Erkenntnisfortschritt verheißt, auch wenn die Befunde vielleicht niemals Praxisrelevanz erreichen. Für viele sozialwissenschaftlich Forschende ist die gesellschaftliche Relevanz dennoch von Bedeutung, z. B. bei der Beantragung von Forschungsgeldern oder bei der Rechtfertigung der Existenz des eigenen Fachs. Es kann aus unserer Erfahrung jedenfalls nicht schaden, die gesellschaftliche Relevanz der eigenen Forschung herauszustellen. Welchen Anteil diese Darstellung an der gesamten Publikation einnehmen sollte (d. h. ob es sich um wenige Sätze oder um ein zwanzigseitiges Kapitel handelt), hängt sicherlich davon ab, wer der Adressat einer solchen Darstellung ist. ● Welche Funktion hat die Fragestellung im Forschungsprozess? ● Was ist der Unterschied zwischen einer deskriptiven und einer analytischen Fragestellung? ● Wie kann man die gesellschaftliche und wissenschaftliche Relevanz der Fragstellung begründen? Was sind Methoden? Eine sehr gute Perspektive auf Methoden ist es, diese als Problemlösungsmittel zu beschreiben. Methoden sind zunächst einmal Werkzeuge, die zu einem bestimmten Zweck eingesetzt werden. Alle wissenschaftgesellschaftliche Relevanz Kontrollfragen ▼ ▲ 3.2 <?page no="44"?> 44 f o r s c h u n g s d E s I g n u n d f o r s c h u n g s p r o Z E s s lichen Methoden stellen zusammen eine Art Werkzeugkasten des Forschenden dar. Wie in der realen Welt bringen Auswahl und Anwendung von Methoden allerdings wiederum Probleme mit sich, wie das folgende Beispiel zeigt, welches wir Herrmann (1999) verdanken und das sehr instruktiv ist. Das Beispiel beschreibt Herrn E., der ein Poster in seinem Partykeller an die Wand anbringen möchte. Er hat also ein Problem (das Poster befindet sich nicht an der Wand) sowie ein Ziel (das Poster soll an die Wand). Zur Lösung des Problems (Herrmann nennt dies die Transformation vom Ist-Zustand in den Soll-Zustand) bieten sich nun mehrere Methoden an. Herr E. könnte das Poster mit Reißzwecken anheften, es ankleben, es annageln bzw. eindübeln oder es mittels einer Latte und einem Faden an einem Nagel aufhängen. Einige der Methoden sind offenbar Gruppen von »Untermethoden«, so wäre beispielsweise das Ankleben mit verschiedenen Hilfsmitteln denkbar, die sich in ihrer Handhabung unterscheiden (Klebefilm, Tapetenkleister, Zement, Sekundenkleber etc.). Außerdem ist die Liste der von Herrmann angeführten Methoden bei Weitem nicht vollständig. Er nennt nur die konventionellen Methoden. Man kann durchaus weiter gehen: Herr E. könnte das Poster auch annageln, -nieten oder -schrauben. Ist er sehr religiös, könnte er auch dafür beten, dass sich das Plakat aufgrund eines göttlichen Eingriffs selbstständig an der Wand befestigt. Wie unschwer zu erkennen ist, kann Herr E. also aus einer ganzen Liste von Methoden auswählen, um das Problem zu lösen. Allerdings ist auch intuitiv klar: Es scheint Methoden zu geben, bei denen die Erfolgswahrscheinlichkeit geringer ist als bei anderen. Weiterhin spielen bei der Methodenwahl auch andere Faktoren eine Rolle. Wenn Herr E. beispielsweise gerne mal umdekoriert und der Keller obendrein nur gemietet ist, bieten sich eher Methoden an, die das häufigere Anbringen und Abnehmen von Postern erlaubt, ohne die Wand ständig in Mitleidenschaft zu ziehen. Vielleicht schenkt Herr E. seiner Cousine auch gerne die Poster, die er nach dem Umdekorieren nicht mehr benötigt. In diesem Fall wählt er besser eine Methode, die das Poster beim Abnehmen nicht beschädigt. Es könnte aber auch die Überlegung im Vordergrund stehen, dass auf den Festen von Herrn E. häufig wild getanzt wird und er deshalb eine feste Verbindung zwischen Poster und Wand bevorzugt. Offenbar eignen sich Methoden also unterschiedlich gut für die Lösung des Problems, wenn man die Randbedingungen beachtet. Die Wahl der richtigen Methode garantiert allerdings den Erfolg noch nicht: Herr E. muss die Methode auch richtig anwenden. Er könnte sich zwar beispielsweise für das Ankleben entscheiden, dabei aber den Kleister falsch anrühren. Er könnte auch versehentlich das Poster mit der Vorderseite an die Wand kleben, so dass das Motiv nicht zu sehen ist. Es bleibt dem Leser überlassen, sich weitere Varianten falsch angewendeter Methoden vorzustellen. <?page no="45"?> 45 w a s s I n d m E t h o d E n ? In der Wissenschaft verhält es sich ähnlich. Zunächst sind Methoden auch in diesem Zusammenhang Mittel der Problemlösung, denn sie sollen den Ist-Zustand (der Forschende weiß zu wenig über ein Phänomen) in den Soll-Zustand (der Forschende weiß mehr über das Phänomen als vorher) transformieren. Und auch mit der Wahl der Methode verhält es sich ähnlich: Es stehen verschiedenste Methoden zur Auswahl, aber nicht alle sind gleich gut geeignet für die Beantwortung der Forschungsfrage. Zudem müssen die Randbedingungen beachtet werden, z. B. wie die Datenlage aussieht. Mit der Auswahl der richtigen Erhebungsbzw. Analysemethode ist schon ein großer Schritt getan, aber die Methode muss danach noch korrekt angewendet werden. Dass auch dieser zweite Schritt gelegentlich schwierig zu bewältigen ist, wird anhand einiger Beispiele in den Kapiteln 4 und 5 gezeigt. Festzuhalten ist an dieser Stelle, dass die Wahl der Methode vom Erkenntnisinteresse und der Forschungsfrage abhängt. Dabei ist es häufig so, dass mehrere Methoden gleich gut geeignet sind, eine bestimmte Fragestellung zu bearbeiten. Besonders interessant ist deshalb die Bearbeitung einer Forschungsfrage mit mehr als einer Methode gleichzeitig: Führen beide Methoden zur gleichen Antwort auf die Forschungsfrage, stärkt dies die Befunde. Denn man kann es auch so verstehen, als habe der Forschende die Methoden nacheinander angewandt und die Untersuchung mit einer Methode durch die Untersuchung mit der zweiten Methode bestätigt, was die Befunde erhärtet ( → vgl. Abschnitt 2.2). Zudem hat der Forschende das Risiko verringert, dass die Antwort auf die Forschungsfrage von der Methode abhängt - in diesem Zusammenhang läge dann ein »Methodenartefakt« vor. Aber selbst wenn beide Methoden nicht exakt das gleiche Ergebnis liefern, kann der Forschende daraus Erkenntnisse gewinnen. Beispielsweise könnte er daraus ableiten, wie gut sich eine bestimmte Methode in einem Forschungsfeld eignet. Davon könnten wieder andere Forschende profitieren, denen damit mehr Wissen über die Randbedingungen beim Einsatz bestimmter Methoden zur Verfügung steht. ● Was ist damit gemeint, wenn Methoden als »Werkzeuge« bezeichnet werden? ● Welche Gefahren lauern beim Einsatz von Methoden? ● Weshalb verzichtet man nicht auf Methoden, wenn deren Einsatz fehleranfällig ist? Mittel der Problemlösung Kontrollfragen ▼ ▲ <?page no="46"?> 46 f o r s c h u n g s d E s I g n u n d f o r s c h u n g s p r o Z E s s Untersuchungsanordnung Um Forschung durchzuführen ist es unabdingbar, sich über das Forschungsdesign Gedanken zu machen. Zunächst müssen wir uns jedoch fragen, was ein Forschungsdesign ist und welche Stellung es im Forschungsprojekt einnimmt. Letztlich ist es keine Glaubensfrage, sondern eine pragmatische Entscheidung darüber, welche Festlegungen für ein Forschungsprojekt man für so zentral hält, dass man sie im Forschungsdesign festschreiben möchte. Das Forschungsdesign ist gewissermaßen die zentrale »Entscheidungssammlung« eines Forschungsprojektes. Tauchen während der Bearbeitung methodische Fragen auf, muss das Forschungsdesign diese Fragen beantworten bzw. zumindest eine Richtung für die Beantwortung der Frage vorgeben. In der Literatur werden Forschungsdesigns unterschiedlich definiert. Ein breites Verständnis vertreten beispielsweise Miller und Salkind (2002: 10 ff.), welche die generelle Ausrichtung eines Forschungsprojekts als »Forschungsdesign« bezeichnen. Die von ihnen vorgestellten Typen unterscheiden sich daher nach den angestrebten Forschungszielen und Anwendungsbereichen, beispielweise »Langzeitstudie«, »Personenstudie«, »Kontrollierte Experimente« usw. Man kann den Begriff des Forschungsdesigns aber auch sehr eng auslegen, wie es beispielsweise Lauth et al. (2015) für die Vergleichende Politikwissenschaft tun. Aus ihrer Perspektive ist das Forschungsdesign auf lediglich zwei Angaben reduziert, nämlich die Anzahl der Variablen (d. h. Phänomene, die der Forschende betrachten will) sowie die Anzahl der zu untersuchenden Fälle. Beides muss der Forschende festlegen bzw. er hat es durch die Formulierung seiner Forschungsfrage und seiner Herangehensweise möglicherweise schon vorher implizit festgelegt. Sucht man einen Kompromiss zwischen diesen beiden Extrempositionen, könnte man sich auch auf den Standpunkt stellen, dass zu einem Forschungsdesign neben der Anzahl von Variablen und Fällen auch die inhaltliche Definition der zentralen Begriffe (Konzeptspezifikation) sowie die Messbarmachung der Phänomene (Operationalisierung) gehören. Wir orientieren uns aus Gründen der Übersichtlichkeit am Minimalvorschlag von Lauth et al. Im Folgenden werden wir deshalb zunächst die neun Typen von Forschungsdesigns nach Lauth et al. (2015: 49 ff.) besprechen, welche zwar für die vergleichende Politikwissenschaft entworfen wurden, aber auch problemlos auf die anderen Subdisziplinen des Fachs übertragen werden können. Im nächsten Abschnitt werden wir uns dann der Bedeutung von Konzeptspezifikation und Operationalisierung zuwenden. Lauth et al. zeigen nachvollziehbar, wie durch die Kombination der beiden angesprochenen Dimensionen (Anzahl der Variablen und Anzahl der Fälle) Designs entstehen, die faktisch »Prototypen« von Forschungsprojekten hervorbringen. Lauth et al. reduzieren dabei beide Dimensionen auf die 3.3 Konzeptspezifikation Operationalisierung <?page no="47"?> 47 u n t E r s u c h u n g s a n o r d n u n g Zahlen »eins« (1), »einige« (i) sowie »viele/ alle« (n). Damit ergeben sich insgesamt neun prototyische Designs, die wir im Folgenden jeweils mit Beispielen kurz vorstellen möchten. Beginnen wir mit den drei Designs, welche sich nur auf eine Variable stützen. Aufgrund dieser gemeinsamen Eigenschaft ist im Rahmen aller drei Designs keine Erklärung möglich, denn zu einer Erklärung gehören mindestens zwei Variablen - die erklärende und die erklärte ( → vgl. Abschnitt 2.4). Damit ist klar, dass die Designs unabhängig von der Fallzahl nicht auf die Ermittlung von Kausalität ausgerichtet sind, sondern der verstehenden Perspektive folgen. Das Design der Einzelbeobachtung ist ein sehr gutes Anschauungsbeispiel für verstehende Forschung. Häufig wird das Endprodukt einer solchen Einzelbeobachtung auch als »thick description« (Geertz 1973: 310 ff., Creswell und Miller 2000: 128 f., Ponterotto 2006) bezeichnet, denn aus der Perspektive der Forschenden, die erklären wollen, steht die Beschreibung des Phänomens in diesem einen Fall im Vordergrund. Typische Beispiele sind Länderstudien, in denen dann das entsprechende Land den einen zu untersuchenden Fall ausmacht (z. B. die Funktionsweise des politischen Systems Großbritanniens, Peele 2004) oder Studien zur Entwicklung von Institutionen (z. B. der sozialen Struktur des Deutschen Bundestages, Ismayr 2012). Häufig sind auch Rekonstruktionen politischer oder gesellschaftlicher Prozesse (z. B. Entwicklung einer Partei). Klar ist, dass aufgrund fehlender weiterer Variablen die Aussagekraft der Studien auf die möglichst dichte und lückenlose Beschreibung des Phänomens in diesem einen Fall beschränkt ist, also auf die Nachvollziehbarkeit von Zuständen oder Prozessen - es ist Einzelbeobachtung n ideale Beschreibung umfassende Erklärung universaler Test i Einzelfallstudie MSCD / MDCD »komparative Methode« statistische Methode 1 Einzelbeobachtung Klassifikation universelle Klassifikation Var. Fälle 1 i n Untersuchungsanordnungen nach Lauth et al. 2015: 50 Abb. 1 <?page no="48"?> 48 f o r s c h u n g s d E s I g n u n d f o r s c h u n g s p r o Z E s s also keine kausale Verbindung zwischen Phänomenen demonstrierbar. Zudem gibt es keine Möglichkeit der Generalisierung von Aussagen, d. h. die Übertragung der Befunde auf weitere Fälle. Die Beschreibung des politischen Systems Großbritanniens durch Peele erlaubt demnach weder eine Aussage darüber, warum das System seine heutige Form hat, noch erlaubt es uns eine Aussage über das politische System eines anderen Landes. Die Klassifikation basiert hingegen auf mehreren Fällen. Sie erlaubt immer noch keine Erklärung, bietet allerdings immerhin die Möglichkeit, später generalisierbare Vermutungen anzustellen und eignet sich insbesondere zur Beschreibung von Unterschieden zwischen Fällen sowie - im späteren Stadium - zur Entwicklung von Typen. Wählen wir beispielsweise die Variable »Anzahl der politischen Parteien« als Untersuchungsgegenstand, können wir durch die Wahl geeigneter Länder zumindest Unterschiede ausmachen. So kommen wir zum Ergebnis, dass es Länder mit nur einer Partei (China, Nordkorea), aber auch Länder mit zwei Parteien (USA, Japan) sowie Länder mit mehr als zwei Parteien (Deutschland, Belgien, Schweden) gibt. Die unterschiedliche Anzahl von Parteien erlaubt uns eine Kategorisierung bzw. Zusammenfassung von Fällen in verschiedene Gruppen. Ein entscheidendes Nebenprodukt der Kategorisierungsmöglichkeiten ist die Auseinandersetzung mit möglichen Messinstrumenten. Denn selbst bei der (vergleichsweise einfach scheinenden) Frage nach der Anzahl der Parteien ist zunächst nicht klar, wie die Anzahl gemessen werden soll. Zunächst wäre zu bestimmen, ob man sich immer auf die Parlamentswahl bezieht, denn in vielen Ländern finden auch Wahlen zum Staatspräsidenten statt, die als ebenso wichtig eingeschätzt werden. Aber selbst wenn diese Frage geklärt wäre, blieben weitere Fragen offen: Zählen wir alle existierenden Parteien, wäre die Angabe »2« für die USA sicherlich falsch - tatsächlich traten zur letzten Wahl des US-Kongresses im Jahr 2016 laut Bundeswahlbehörde (FEC) Kandidat/ innen von insgesamt 60 Parteien und zusätzlich weit mehr als 100 unabhängige Kandidat/ innen an. Stattdessen könnte man sich auch auf die Zahl der Parteien beschränken, die eine Chance haben, die Wahl für sich zu entscheiden. Oder aber man könnte die Parteien zählen, die nach der erfolgten Wahl tatsächlich Sitze im Parlament ergattert haben. Die restriktivste Variante wäre es nur die Parteien zu zählen, die im Parlament vertreten sind und eine realistische Chance auf Regierungsbeteiligung haben. Wie auch immer sich der Forschende entscheidet: Die Möglichkeit, verschiedene Fälle anhand einer »Messlatte« miteinander zu vergleichen, erlaubt die Bildung von Typen sowie die Auseinandersetzung mit der Frage, wie man messen bzw. vergleichen möchte. Die universelle Klassifikation wird dadurch universell, dass sie alle sinnvollerweise verwendbaren Fälle auch einschließt, d. h. die zur Verfügung stehende Empirie vollständig ausschöpft. Sie eignet sich damit besonders Klassifikation universelle Klassifikation <?page no="49"?> 49 u n t E r s u c h u n g s a n o r d n u n g für die Überprüfung von bestehenden Klassifikationen, denn nur beim Betrachten aller Fälle kann der Forschende die Einordnung der Fälle daraufhin kontrollieren, ob alle Fälle auch abgedeckt sind. Ergeben sich beispielsweise Fälle, die in keine »Schublade« passen oder gibt es »Schubladen«, denen kein Fall zugeordnet wird, dann stellt sich die Frage, ob die Systematik sinnvoll ist. Auch hier ist selbstverständlich keine Aussage zur Kausalität möglich (»Warum sind es in manchen Ländern zwei, drei, vier, ... Parteien? «). Man kann aber beurteilen, ob das Klassifikationsschema die empirischen Fälle abdeckt. Ein Beispiel hierfür ist Lijpharts (2012) Untersuchung, welche alle seit 1989 durchgehend demokratischen Länder einbezieht. In der Darstellung springen wir jetzt zur oberen Zeile, nämlich zu den drei Forschungsdesigns, welche alle verfügbaren Variablen enthalten, die zur Untersuchung des entsprechenden Falls bzw. der entsprechenden Fälle notwendig sind. Durch ihren hohen Anspruch, sämtliche verfügbaren und sinnvoll integrierbaren Variablen in die Analyse einzubeziehen, sind diese Designs in der Forschungspraxis nicht realisierbar. Dennoch sollen sie hier kurz beschrieben werden. Handelt es sich um lediglich einen Fall, liegt eine ideale Beschreibung vor. Ideal ist sie, weil sie den Untersuchungsgegenstand (z. B. die politische Kultur Australiens) erschöpfend und unter Hinzunahme aller möglichen Dimensionen beschreibt. Der Lesende gewinnt damit ein lückenloses, vollständiges Bild des Untersuchungsgegenstandes. Allerdings sind die Befunde nicht generalisierbar bzw. auf andere Fälle übertragbar, da nur ein Fall untersucht wird. In der Politikwissenschaft ist es schwierig, sich ein entsprechendes Forschungsprojekt oder eine daraus resultierende Publikation vorzustellen. Das Produkt wäre wohl am Ehesten noch mit einem Universallexikon zu vergleichen, welches alle Begriffe mit Erläuterung enthält, die in einer bestimmten Sprache bekannt sind. Bei mehreren Fällen sprechen Lauth et al. von einer umfassenden Erklärung. Sie basiert darauf, dass mehrere Fälle systematisch und vollständig hinsichtlich aller möglichen und verfügbaren Einflussfaktoren untersucht werden. Ist die ideale Beschreibung schon unmöglich zu realisieren, multipliziert sich hier der vom Forschenden zu betreibende Aufwand mit der Zahl der Fälle. Um die umfassende Erklärung tatsächlich vollständig durchzuführen, sind mehrere ideale Beschreibungen notwendig, um sie miteinander zu vergleichen. Die Erklärung wäre auf einem hohen Niveau, weil sie alle möglichen Variablen enthalten würde und auf vergleichender empirischer Basis (mehrere Fälle) stünde. Damit wäre es auch möglich, unterschiedliche Theorien daraufhin zu untersuchen, welche die Varianz zwischen den Fällen am besten erklärt. Um das Bild von oben fortzuführen, wäre die umfassende Erklärung vergleichbar mit mehreren Universallexika, welche in unterschiedlichen Sprachen verfasst sind und die man mitideale Beschreibung umfassende Erklärung <?page no="50"?> 50 f o r s c h u n g s d E s I g n u n d f o r s c h u n g s p r o Z E s s einander vergleichen müsste, um herauszufinden, wie und ob sich die Begriffe von Lexikon zu Lexikon unterscheiden. Ist die umfassende Erklärung schon faktisch unmöglich, erfährt sie im universalen Test noch eine Steigerung; denn hier sind nicht nur alle verfügbaren und sinnvollerweise möglichen Variablen integriert, sondern die Untersuchung stützt sich auch auf alle verfügbaren und möglichen Fälle und besitzt damit die denkbar breiteste empirische Basis. Bezogen auf unser Beispiel müssen wir uns jetzt eine Bibliothek vorstellen, die Universallexika in allen jemals existierenden Sprachen bereithält. Als Zwischenfazit ist festzuhalten, dass sich die bisher beschriebenen sechs Forschungsdesign-Typen nicht dafür eignen, Hypothesentests aus der Perspektive des Kritischen Rationalismus durchzuführen. Den zuerst eingeführten drei Typen mit nur einer Variablen fehlt es an einem untersuchten Zusammenhang von Variablen (hierzu benötigen wir naturgemäß zwei Variablen). Das bedeutet, dass sie zwar wertvolle Hinweise für andere Forschungsvorhaben geben können, wie z. B. die möglichst vollständige Beschreibung konkreter Eigenschaften von Systemen oder Prozessen oder die vergleichende Einordnung von Fällen in Kategorien. Die zuletzt beschriebenen drei Typen bilden in der Theorie das Optimum für die Forschung. Allerdings sind die Voraussetzungen unrealistisch, so dass diese Designs in der Praxis auch ausscheiden. Aus der Perspektive des Kritischen Rationalismus konzentrieren sich politikwissenschaftliche Untersuchungen daher im Wesentlichen auf die mittlere Ebene des Schaubildes, d. h. auf die Forschungsdesigns, die sich einer mittleren Zahl von Variablen bedienen. Diese Typen werden im Folgenden dargestellt. Der erste Typ wird Einzelfallstudie genannt und behandelt, wie der Name schon sagt, lediglich einen Fall. Allerdings wird zu diesem Fall eine sehr detaillierte Untersuchung vorgenommen, in dem der Fall möglichst vollständig analysiert wird. So ist z. B. die detaillierte Untersuchung der politischen Strategie der Republikaner in den USA eine Einzelfallstudie (Mann und Ornstein 2016), denn sie hat nur einen Fall, nämlich die untersuchte Partei. Allerdings werden in der Untersuchung verschiedene politische Strategien und Ursachen für die Änderung der Strategie analysiert. Nicht unwichtig ist die Frage, welcher Fall für die Analyse ausgewählt wird. Denn üblicherweise führt man die Einzelfallanalyse nicht nur durch, um zu verstehen, wie eine politische Strategie aufgebaut sein kann (das wäre eine Einzelbeobachtung) oder um politische Strategien anhand eines Falles unter Verwendung aller möglichen Variablen zu untersuchen (das wäre eine ideale Beschreibung). Es geht vielmehr darum, anhand dieses einen Falles den möglichen Zusammenhang zwischen den Variablen herauszuarbeiten. Im Anschluss könnte man dann versuchen, a) die Zahl der Fälle zu erhöhen, universaler Test Einzelfallstudie <?page no="51"?> 51 u n t E r s u c h u n g s a n o r d n u n g um den vermuteten Zusammenhang in Form einer Hypothese zu überprüfen, oder b) die Anzahl der Variablen zu erhöhen, d. h. noch mehr über das Phänomen und seine komplexen Zusammenhängen mit anderen Variablen zu erfahren. Je nachdem, wie der Forschende nach der Einzelfallstudie weiterarbeiten will, bieten sich verschiedene Szenarien für die Fallauswahl an. Dies wird in Abschnitt 4.3 noch detaillierter ausgeführt. Den zweiten Typ bezeichnen Lauth et al. als »komparative Methode«. Sie ist neben der Einzelfallstudie das am häufigsten verwendete Design in der Politikwissenschaft. In der vergleichenden Politikwissenschaft ist sie sogar vorherrschend. Der Grund hierfür ist, dass sie einen Mittelweg beschreitet: Die Zahl der Variablen ist nicht unrealistisch hoch, aber die Studien beschränken sich auch nicht nur auf eine Variable. Gleichzeitig muss der Forschende nicht alle Fälle betrachten, aber er beschränkt sich auch nicht auf einen einzigen Fall. So erscheint die Methode als vernünftiger Kompromiss zwischen dem unrealisierbaren universalen Test und der lediglich einen Fall beschreibenden Einzelbeobachtung. Die Studie kann Zusammenhänge zwischen Variablen testen. Dies geht allerdings auf Kosten der Generalisierbarkeit, die möglicherweise dadurch eingeschränkt ist, dass nur eine Auswahl aller möglichen Fälle untersucht wird. Der Frage, wie die Fälle ausgewählt werden, kommt demnach hier eine zentrale Bedeutung zu. Zudem ist der Forschungsaufwand für die komparative Methode zumindest einigermaßen kalkulierbar. »Most similar systems« und »most different systems« In die Kategorie der »komparativen Methode« fallen auch die klassischen Vergleichsdesigns »most similar systems design« (MSSD) und »most different systems design« (MDSD). Diese Designs werden so genannt, weil sie sich i. d. R. auf politische Systeme, also zumeist Länder bzw. Staaten, beziehen - die Logik ist aber auch auf andere Bereiche übertragbar. Bei beiden Designs hat der Forschende schon eine begründete Vermutung, welches Phänomen (X 1 ) die Ursache für das zu untersuchende Phänomen (Y) sein könnte. Allerdings gibt es auch eine Reihe weiterer Phänomene (X 2 , X 3 , X 4 ...), die auch die Ursache von Y sein könnten. Beim »most similar systems design« sucht sich der Forschende, wie bereits der Name sagt, solche Fälle aus, die sich in Bezug auf die weiteren Phänomene (X 2 , X 3 , X 4 ...) gleich oder zumindest sehr ähnlich sind, während sie in X 1 und Y variieren. Denn wenn X 2 , X 3 und X 4 in allen Fällen gleich sind, während Y sich von Fall zu Fall ändert, können X 2 , X 3 und X 4 nicht der Grund für Y sein. Nachdem diese drei Phänomene damit als Erklärung auskomparative Methode Exkurs <?page no="52"?> 52 f o r s c h u n g s d E s I g n u n d f o r s c h u n g s p r o Z E s s geschlossen sind, muss der Forschende nur noch herausfinden, ob sich bei einer Änderung von X 1 auch Y ändert - und falls ja, in welcher Weise. Beim »most different systems design« ist die Logik genau umgekehrt. Der Forschende sucht sich solche Fälle aus, die bei den weiteren Phänomenen (X 2 , X 3 , X 4 ...) sehr unterschiedlich sind, während X 1 und Y immer gleich sind. Denn wenn Y immer gleich ist, können die wechselnden X 2 , X 3 , X 4 nicht der Grund für Y sein. Der einzig mögliche Grund wäre dann X 1 , weil es auch konstant ist. Der dritte Typ ist die statistische Methode. Bei dieser werden alle vernünftigerweise verwendbaren Fälle in die Analyse einbezogen und in einem multivariaten Modell verarbeitet. Ziel der Analyse ist es, Muster in den Daten zu finden, die die Varianz auf der abhängigen Variable durch die Varianz auf den unabhängigen Variablen über alle Fälle bei möglichst geringer Abweichung erklären (ein Beispiel ist die Regressionsanalyse in Abschnitt 5.3). Ist ein solches Erklärungsmodell erfolgreich konstruiert, kann es dazu verwendet werden, Prognosen zu erstellen. Dies ist zwar auch schon bei der komparativen Methode möglich. Allerdings sind hier die gefundenen Zusammenhänge insofern unsicher, als dass sie nicht auf allen möglichen Fällen basieren. Es kann z. B. sein, dass für die Fälle, welche im Rahmen der komparativen Methode für die Analyse ausgewählt wurden, ausgerechnet die Sonderfälle sind, deren gefundenes »Muster« sich nicht auf die anderen Fälle übertragen lässt. Dieses Risiko ist bei der statistischen Methode, die alle verfügbaren Fälle betrachtet, nicht gegeben. Hier besteht lediglich das Risiko, das alle hier vorgestellten Typen vereint: Der Zusammenhang, den der Forschende findet, kann zwar da sein. Es kann aber auch sein, dass der Zusammenhang nicht wegen des in der Theorie postulierten Mechanismus auftritt, sondern zufällig. Mit diesem Problem werden wir uns im Zusammenhang mit den quantitativen Methoden ab Abschnitt 5.3 noch weiter beschäftigen. Es bleibt festzuhalten, dass die neun hier beschriebenen Typen als Idealtypen zu verstehen sind. Es ist zwar relativ einfach, bereits durchgeführte Forschungsprojekte nachträglich eindeutig in eine der neun »Schubladen« einzusortieren. Vor dem Beginn des Forschungsprojekts muss dies aber nicht eindeutig klar sein; der Zuschnitt kann sich auch erst während der Bearbeitung ergeben. Dies kann beispielsweise daran liegen, dass benötigte Daten nicht vorhanden oder nicht zugänglich sind, weil eigentlich ausgewählte Fälle ausfallen oder weil etwa Konzepte nicht wie geplant anwendbar sind. Zudem können auch Mischformen auftreten oder ein Forschungsstatistische Methode <?page no="53"?> 53 k o n Z E p t s p E Z I f I k a t I o n u n d o p E r a t I o n a l I s I E r u n g projekt kann aus einer Kombination zweier Typen bestehen, die gleichzeitig oder nacheinander angeordnet werden. Beispielhaft ist hier der Aufsatz von Lieberman (2005) zur »nested analysis«, der beschreibt, wie qualitative Einzelfallstudien und statistische Analyse gewinnbringend kombiniert werden können. Eine sehr gute, tiefer gehende Erklärung der verschiedenen Designs bieten Lauth et al. (2015: 60 ff.). Eine weitere anschauliche Beschreibung von Vor- und Nachteilen bestimmter Fallstudiendesigns findet sich bei Muno (2009). ● Wozu benötigt man ein Forschungsdesign? ● Eignen sich die Typen von Lauth et al. auch über die vergleichende Politikwissenschaft hinaus? ● Weshalb sind verschiedene Designtypen nur schwer oder gar nicht realisierbar? Konzeptspezifikation und Operationalisierung Kommen wir nun zur Konzeptspezifikation und zur Operationalisierung. Diese Punkte sind ebenso zentral für das Forschungsdesign wie die prinzipielle Festlegung auf den »Designtyp«. Im Kern geht es dabei um zwei Dinge: Erstens müssen wir zentrale Begriffe des Forschungsprojekts definieren. Wir müssen also festlegen, wie diese Begriffe verstanden werden sollen und aus welchen Einzelelementen die Begriffe bestehen (Konzeptspezifikation). Dies ist in den Sozialwissenschaften oftmals sehr viel schwieriger als in den Naturwissenschaften (vgl. Schnell et al. 2013: 117), denn in letzteren liegen Konzeptspezifikation und Messung häufig auf der Hand. So ist uns das Konzept von »Geschwindigkeit« klar: Es geht um mehr oder wenige lange Wegstrecken und die für ihre Zurücklegung benötigte mehr oder weniger lange Zeit. Auch ein Messkonzept ist schnell gefunden; man ermittelt die zurückgelegte Strecke mit einem festen Maßstab (z. B. einem Maßband) und stoppt die Zeit (z. B. mit einer Armbanduhr) - bis zur Einheit »Kilometer pro Stunde« ist es nicht mehr weit. Lesetipps Kontrollfragen ▼ ▲ 3.4 Konzeptspezifikation <?page no="54"?> 54 f o r s c h u n g s d E s I g n u n d f o r s c h u n g s p r o Z E s s In den Sozialwissenschaften hingegen ist es zumeist nicht so einfach. Deshalb müssen wir mehr Aufwand für die Beantwortung der Frage treiben, wie wir die Konzepte verstehen und die Ausprägungen im konkreten Fall messen wollen. Als Beispiel wird hier das Konzept »Politikverdrossenheit« verwendet, mit der sich unter anderem Arzheimer (2002) eingehend beschäftigt hat. Er hat für seine Studie zu diesem Phänomen zunächst die Fachliteratur über mehr als zwanzig Jahre ausgewertet. Dabei fällt auf, dass Politikverdrossenheit einerseits als Sammelbegriff für verschiedene Phänomene genutzt wird, andererseits aber auch als Synonym für Phänomene, die man eher als Teilaspekte von Politikverdrossenheit ansehen würde. Als letztere lassen sich Parteiverdrossenheit, Staatsverdrossenheit, allgemeine Enttäuschung bzw. Unzufriedenheit mit dem politischen System, Misstrauen in einzelne politische Funktionsträger usw. ausmachen (Arzheimer 2002: 121 ff.). Es ist offensichtlich, dass Definition des Begriffs »Politikverdrossenheit« einen entscheidenden Einfluss darauf hat, wie man die Operationalisierung durchführt und damit dann auch, was man mit der Studie später genau untersucht. Stellen wir uns vor, wir wollten herausfinden, wie groß die Politikverdrossenheit in Deutschland, Österreich und der Schweiz ist und wovon diese abhängt. Wenn wir z. B. Politikverdrossenheit definierten als Abwendung der Bürger/ innen von den Parteien, dann ergibt es Sinn, die Messung auch darauf auszurichten. Wir würden also in diesem Beispiel messen, wie viele Bürger/ innen Mitglied von politischen Parteien sind. Dies wäre dann unsere Variable »Politikverdrossenheit«. Wir könnten auch eine Befragung durchführen, in der wir repräsentativ ausgewählte Bürger/ innen die politischen Parteien charakterisieren lassen mit Adjektiven wie »gierig«, »korrupt«, »notwendig«, »sinnvoll« usw. und daraus eine Variable konstruieren, die die Politikverdrossenheit abbildet. Wenn wir hingegen Politikverdrossenheit definierten als Abwendung der Bürger/ innen vom Staat insgesamt, müssten wir die Operationalisierung daran anpassen. Dann ergäbe es wenig Sinn, nur nach dem numerischen Verhältnis zwischen Parteimitgliedern und Einwohnerzahl des Landes oder den Parteien zugeschriebenen Adjektiven zu schauen, sondern wir müssten den Staat in den Mittelpunkt der Betrachtung rücken. Wir müssten also beispielsweise in der Befragung danach fragen, für wie effizient, durchsetzungsfähig etc. die Bürger/ innen den Staat halten - und nicht die Parteien. Es ist in jedem Fall sinnvoll, bei der Planung des eigenen Forschungsvorhabens zu prüfen, ob andere Forschende sich schon Gedanken um Konzepte und Operationalisierung gemacht haben, die man weiterverwenden kann. Im Falle der Politikverdrossenheit kommt Arzheimer (2002: 152 ff.) aber zu einem ernüchternden Ergebnis: Viele bis dahin durchgeführte Studien haben zur Messung von Politikverdrossenheit Operationalisierungen für andere Phänomene (z. B. <?page no="55"?> 55 k o n Z E p t s p E Z I f I k a t I o n u n d o p E r a t I o n a l I s I E r u n g Misstrauen oder Parteiidentifikation) schlicht übernommen, d. h. die Forschenden setzen damit die Begriffe faktisch gleich, indem sie die gleiche Operationalisierung für das Phänomen verwenden. Dies wäre etwa so, als würde man die Stärke eines Motors in einem Kraftfahrzeug dadurch messen, dass man dessen Höchstgeschwindigkeit bestimmt. Wie wir wissen, stimmt es tendenziell natürlich, dass Kraftfahrzeuge mit mehr PS schneller fahren können als Kraftfahrzeuge mit weniger PS. Kraftfahrzeuge mit sehr hohen PS-Zahlen (Lastkräne, Grubenkipper, Schwertransporte) fahren allerdings eher langsam. Also ist die Messung der PS-Zahl keine gute Operationalisierung für das Konzept »Höchstgeschwindigkeit«. Genau so ist die Messung des allgemeinen Misstrauens keine gute Operationalisierung für Politikverdrossenheit, sondern vielleicht eher für dysfunktionale soziale Beziehungen. Die Frage, welche Bedeutung ein Begriff hat und welche Dimensionen er enthält, ist also sehr wichtig für die danach folgende Durchführung des Forschungsprojekts. Zudem ist es wichtig, die festgelegten Konzepte korrekt in eine Messanleitung (Operationalisierung) zu überführen. Zwei sehr instruktive Beispiele für Operationalisierungsprobleme bieten Munck und Verkuilen (2002) sowie Müller und Pickel (2007), welche sich jeweils damit beschäftigen, wie man »Demokratie« am besten konzeptualisiert und misst. Einen guten Überblick über verschiedene Formate von Forschungsdesigns mit Beispielen sowie nützliche Schreibtipps für diese entscheidende Phase des Forschungsprozesses bietet Creswell (2014). Sechs praktische Tipps für Konzeptspezifikationen formuliert Wonka (2007). ● Wie unterscheiden sich Konzeptspezifikation und Operationalisierung? ● Inwieweit werden bei der Konzeptspezifikation Entscheidungen getroffen, die die Operationalisierung beeinflussen? ● In welchen Fällen könnte man sagen, dass die Entscheidung über Konzeptspezifikation und Operationalisierung gleichzeitig getroffen wird? Lesetipps Kontrollfragen ▼ ▲ <?page no="56"?> 56 f o r s c h u n g s d E s I g n u n d f o r s c h u n g s p r o Z E s s Methoden und der Forschungsprozess Traditionell wird in den Sozialwissenschaften zwischen qualitativen und quantitativen Methoden unterschieden. Die Unterscheidung wird oft so dargestellt, als seien alle Methoden, welche sich Zahlenmaterials bedienen, quantitative Methoden, und alles andere sei qualitativ - wobei die qualitative Forschung dann wahlweise (implizit abwertend) als Restkategorie behandelt wird oder (implizit aufwertend) als einzig wahre Methodenfamilie. Ganz so einfach ist die Unterscheidung nicht. So kann der Forschende im Rahmen einer qualitativen Textanalyse durchaus gezwungen sein, die Behauptungen des Gesprächspartners darauf zu überprüfen, ob sie empirisch korrekt sind. Auch wenn er sich dafür durch umfangreiche Statistiken wühlen muss, ist die Methode der Textbzw. Inhaltsanalyse, die er für die Bearbeitung des Interviews nutzt, eine qualitative Methode. Auf der anderen Seite kann ein Forschender ein formales statistisches Modell zur Erklärung eines Phänomens konstruieren (was die Verwendung quantitativer Methoden bedeutet). Wenn ihm in der Analyse ein unerklärlicher Effekt auffällt, schließt sich möglicherweise ein weiterer, qualitativer Projektteil an, in dem er versucht, durch Einzelfallstudien herauszufinden, weshalb dieser unerwartete Effekt auftritt. Typischerweise finden quantitative Methoden dort Anwendung, wo viele Fälle bzw. Beobachtungen vorliegen, die Datenverfügbarkeit und -qualität hinreichend hoch ist und Inferenz das Ziel ist, also das statistische Schließen bzw. Testen von probabilistischen Hypothesen ( → siehe Abschnitt 2.2). Dies ist unabhängig von der Frage, ob das Ziel, nämlich das Schließen von einem Phänomen auf ein anderes, am Ende auch erreicht wird. Denn es kommt durchaus vor, dass genügend Daten gesammelt werden, die Datenqualität aber trotzdem keine inferenzstatistische Auswertung erlaubt. Gelegentlich kritisieren stark quantitativ orientierte Forschende das Vorgehen der qualitativen Forschung, die als wenig präzise, stark interpretationsgesteuert und »weich« betrachtet wird. Die Kritik kann auf bestimmte Projekte zutreffen, ist in ihrer Pauschalität aber nicht gerechtfertigt. Sie unterschlägt, dass es Bereiche gibt, die quantitativ sehr schwer oder gar nicht erfassbar sind und in denen quantitative Studien z. B. mangels deduzierbarer Hypothesen noch nicht möglich sind. Qualitative Methoden werden sehr viel häufiger als quantitative Methoden hypothesengenerierend eingesetzt. Sie basieren i. d. R. auf wenigen Fällen, manchmal auch nur auf einem Fall. Das Ziel ist häufig nicht, Hypothesen zu testen, sondern sich Phänomenen überhaupt zu nähern bzw. sie zu beschreiben. Von Seiten der qualitativ orientierten Forschenden gibt es hingegen Kritik an der quantitativen Forschung (vgl. hierzu Lamnek und Krell 3.5 <?page no="57"?> 57 m E t h o d E n u n d d E r f o r s c h u n g s p r o Z E s s Konzeptspezifikation deskriptive Fragestellung oder Theoriebildung / Hypothesenformulierung Forschungsdesign: Bestimmung der Erhebungsmethoden und der Untersuchungseinheiten Operationalisierung / Messung Pretest Auswahl der Erhebungseinheiten Datenerhebung Datenerfassung und -bereinigung Datenanalyse Auswahl der Forschungsfrage Forschungsbericht / Publikation Abb. 2 Phasen der quantitativen Forschung (Krumm und Westle 2009: 117) <?page no="58"?> 58 f o r s c h u n g s d E s I g n u n d f o r s c h u n g s p r o Z E s s 2016: 21 ff.). Allerdings gilt hier auch: Nicht alle Kritikpunkte sind pauschal »korrekt« bzw. treffen auf alle quantitativen Forschungsprojekte zu. Die Verwendung von deskriptiver Statistik ist aus unserer Sicht weder rein qualitativ noch rein quantitativ. Sie basiert zwar, was die Erhebung betrifft, auf der Quantifizierung von Phänomenen, d. h. es werden Phänomene gemessen und Fälle eingeordnet. Allerdings ist die Auswertung der Daten in der Regel qualitativ, d. h. die weitest gehenden Aussagen, welche hier möglich sind, beschäftigen sich mit Verteilungen (z. B. »Länder des Typs A kommen häufiger vor als Länder des Typs B«). Ein anschauliches Beispiel für qualitative Forschung breitet Reh (1995) unter Rückgriff auf die Verkehrspolitik aus. Er geht dabei auf die Frage ein, wie das Textverständnis bei qualitativen Analysen zustande kommt, zeigt aber auch, wie auf der Basis von quantitativen Erhebungsmethoden qualitativ gearbeitet werden kann. Unterschiede ergeben sich bei der Betrachtung von quantitativen und qualitativen Forschungsprojekten neben den o. g. Geschichtspunkten vor allem im Forschungsprozess, d. h. im konkreten Ablauf der Forschung. Krumm und Westle (2009: 116 ff.) haben hierfür zwei hilfreiche Diagramme entwickelt, die den idealtypischen Ablauf von quantitativem und qualitativem Forschungsprozess darstellen und damit auch gleich die Unterschiede deutlich machen. Wir wiederholen an dieser Stelle nicht die sehr gute Beschreibung der einzelnen Phasen durch Krumm und Westle, sondern wollen in diesem Abschnitt vor allem zwei Dinge liefern, nämlich a) eine knappe Definition der von Krumm und Westle verwendeten Begriffe, die zur Benennung der Phasen herangezogen wurden sowie b) eine vergleichende Betrachtung der beiden Idealtypen. Wichtige Begriffe zum Verständnis der Diagramme des Forschungsprozesses: ● Forschungsfrage: Die Frage, welche das Forschungsprojekt beantworten soll. Üblicherweise in »Warum«-Form gestellt oder bereits unter Nennung konkreter Phänomene ( → siehe hierzu Abschnitt 3.1). ● Konzeptspezifikation: Benennung der zentralen Konzepte, die zur Beantwortung der Fragestellung notwendig sind, sowie der Dimensionen, auf welchen die jeweiligen Konzepte basieren ( → siehe hierzu Abschnitt 3.4). ● Forschungsdesign: Grundlegende Entscheidung über die Untersuchungsanlage, i. d. R. Anzahl der Fälle und Anzahl der Variablen ( → siehe Abschnitt 3.3). ● Operationalisierung/ Messung: Anleitung, nach der die in der Konzeptspezifikation festgelegten Dimensionen gemessen werden sollen ( → siehe Abschnitt 3.4). ● Pretest: Vorgelagerter Test des Messinstruments, um zu überprüfen, ob die Gütekriterien der Messung erfüllt sind ( → siehe Abschnitt 4.4). ● Auswahl der Erhebungseinheiten: »Fallauswahl« ( → siehe Abschnitt 4.3). <?page no="59"?> 59 m E t h o d E n u n d d E r f o r s c h u n g s p r o Z E s s ● Datenerhebung: Tatsächliche Messung der Daten, die später verwendet werden sollen ( → siehe Kapitel 4). ● Datenerfassung und -bereinigung: Die Nutzbarmachung der Daten i. d. R. in Form von elektronischen Datenbanken, ggfs. kombiniert mit einer Bereinigung der Daten durch Plausibilitätsprüfung (siehe Abschnitt) ● Datenanalyse: Die Auswertung der Daten im Hinblick auf die Fragestellung (siehe Beispiele in Kapitel 5). ● Forschungsbericht/ Publikation: Die Veröffentlichung der Forschungsergebnisse in einer Form, die es Anderen ermöglicht, die Befunde nachzuvollziehen. Konzeptspezifikation: Explikation theoretischer Vorannahmen, deskriptive, klassifikatorische oder fallrekonstruktive Vorgehensweise Forschungsdesign: Bestimmung der Erhebungsmethoden und der Untersuchungseinheiten Operationalisierung: schrittweise Auswahl und Kontrastierung (theoretisches Sampling) oder vorab Auswahl der Untersuchungseinheiten Datenerhebung und -analyse erfolgen häufig parallel Typenbildung, Strukturgeneralisierung, theoretische Verallgemeinerung Forschungsbericht / Publikation Auswahl der Forschungsfrage: häufig offene, »generative« Fragen, Prozess- oder Zustandsfragen Abb. 3 Phasen der qualitativen Forschung (Krumm und Westle 2009: 118) <?page no="60"?> 60 f o r s c h u n g s d E s I g n u n d f o r s c h u n g s p r o Z E s s Die wesentlichen Unterschiede zwischen dem quantitativen und dem qualitativen Forschungsprozess sind aus den Darstellungen schon zu erkennen. Wir fassen diese im Folgenden trotzdem kurz zusammen: ● Qualitative Forschungsprojekte sind häufig von offenen Fragestellungen geprägt. Hier wird keine stark konturierte Frage formuliert (z. B. »Beeinflusst der kollektive Wohlstand in einem Land die Sozialstaatsquote? «), sondern eher eine Wie-Frage (»Wie kam es zur Hartz-Gesetzgebung? «). Die erste Fragestellung deutet schon darauf hin, dass man möglichst viele Fälle für das Untersuchungsdesign verwenden möchte (möglichst alle Länder, über die Daten vorliegen), woraus sich fast zwangsläufig ein quantitatives Design entwickelt. Die zweite Fragestellung ist offener formuliert und deutet darauf hin, dass noch gar nicht klar ist, was genau als Ursache untersucht werden soll. Manchmal dient eine qualitative Studie dazu, das Feld zunächst einmal zu sondieren und verschiedene Erklärungsvarianten auf ihre Passgenauigkeit »abzuklopfen«, bevor ein großes vergleichendes Projekt gestartet wird. ● In qualitativen Forschungsprojekten ist der Verlauf der Forschung nicht so streng geregelt wie dies in quantitativen Projekten oft der Fall ist. An der Darstellung wird deutlich, dass es bei qualitativen Designs dazu kommen kann, dass die Reihenfolge der Phasen nicht dem »typischen« Bild entspricht und nicht streng verfolgt wird. Manchmal werden bestimmte Phasen auch übersprungen oder erst später aufgegriffen. Häufig kommt es auch zu »rekursiven« Verläufen, d. h. einzelne Phasen werden mehrmals nacheinander durchlaufen, und dabei wird das Projekt immer wieder leicht abgeändert. Dies kann z. B. notwendig sein, weil die Fallauswahl (evtl. sogar mehrfach) neu auf die Ergebnisse anderer Projektphasen eingestellt werden muss oder während der weiteren Bearbeitung die verwendeten Konzepte geändert werden müssen. Häufig treten auch in der Theorie überhaupt nicht beachtete, aber trotzdem interessante Phänomene auf, für die es sich lohnt, die Fragestellung anzupassen. ● Quantitative Forschungsprojekte sind fast immer hypothesenprüfend angelegt, d. h. der theoretische Rahmen ist abgesteckt, es wurden daraus konkrete Hypothesen abgeleitet ( → siehe Abschnitt 2.2) und diese werden dann unter Verwendung statistischer Methoden getestet. Qualitative Projekte können ebenso hypothesenprüfende Funktion haben. Selten sind dabei große Fallzahlen zu beobachten, da diese Kombination sehr aufwendig und teuer ist. Aber auch mit kleineren Fallzahlen lassen sich Hypothesen prüfen - wobei sich danach die Anschlussfrage stellt, inwieweit die Ergebnisse des Tests verallgemeinerbar sind. Weitaus häufiger werden qualitative Projekte hingegen hypothesengenerierend eingesetzt, d. h. sie dienen als erster »Ausflug« in das Feld mit dem Ziel, Hypo- <?page no="61"?> 61 m E t h o d E n u n d d E r f o r s c h u n g s p r o Z E s s thesen zu erzeugen. Diese können dann in weiteren Forschungsprojekten (qualitativ oder quantitativ) überprüft werden. Häufig ist zu beobachten, dass qualitative und quantitative Teilprojekte im Rahmen eines größeren Forschungszusammenhangs nacheinander oder sogar gleichzeitig eingesetzt werden. Dies ist keineswegs verwerflich, sondern im Gegenteil zumeist notwendig, wenn man sich mit komplexen Sachverhalten beschäftigt. Gerade die Kombination beider Typen ermöglicht es, die Vorteile zu kombinieren und so die Befunde auch stärker abzusichern. Eine für Studierende gut lesbare Einführung in die qualitative Sozialforschung bietet Mayring (2016). Die Standardwerke für die Sozialwissenschaften sind aus unserer Sicht die Bände von Lamnek (2010) und Flick (2012). Sehr gute Beispiele für Herausforderungen in qualitativen Studien bietet Kromrey (2016). Als Nachschlagewerk ist das Werk von Flick et al. (2009) unerlässlich; es bietet neben sehr gut voneinander abgegrenzten Stichpunkten auch Kurzbeschreibungen klassischer qualitativer Studien. Einen sehr guten Überblick zu quantitativen, streckenweise sehr innovativen Forschungsdesigns mit nachvollziehbaren Beispielen bieten Schnapp et al. (2009). ● Weshalb hat der prototypische Forschungsprozess eines quantitativen Projekts mehr deutlich abgegrenzte Phasen als der eines qualitativen Projekts? ● Wo liegen die wesentlichen Unterschiede der beiden Phasenmodelle? ● Ist es denkbar, dass beide Prinzipien kombiniert werden? Lesetipps Kontrollfragen ▼ ▲ <?page no="62"?> 62 Methoden der Datenerhebung 4.1 Wege und Probleme der Datenerhebung 4.2 Skalenniveaus und Indizes 4.3 Fallauswahl und Repräsentativität 4.4 Gütekriterien der Messung 4.5 Gütekriterien der qualitativen Sozialforschung In diesem Kapitel wird die Datenerhebung im Mittelpunkt stehen, d. h. es geht um die Frage, woher der Forschende die Daten bekommt, die er für seine geplante Analyse benötigt, um die Forschungsfrage zu beantworten. Deshalb werden im ersten Teil des Kapitels verschiedene Möglichkeiten betrachtet, Daten zu erheben ( → Abschnitt 4.1). Ein besonderer Schwerpunkt liegt dabei natürlich auf der Frage, welche Wege der Datenerhebung in den Sozialwissenschaften besonders geeignet und welche stärker problembehaftet sind. Im nächsten Schritt geht es um die Frage, wie Untersuchungseinheiten ausgewählt werden, insbesondere wenn es das Ziel der Forschung ist, generalisierende Aussagen über den Forschungsgegenstand zu treffen ( → Abschnitt 4.3). Die letzten beiden Teile sind der Frage gewidmet, welche Qualitätskriterien bei der Messung ( → Abschnitt 4.4) bzw. der qualitativen Erhebung von Daten ( → Abschnitt 4.5) zu beachten sind und wie wichtig die Beachtung dieser Kriterien für das Forschungsprojekt ist. Wege und Probleme der Datenerhebung Eines der zentralen Probleme der Forschung ist die Erhebung der benötigten Daten. Dies ist wiederum offensichtlich kein alleiniges Problem der Sozialwissenschaften, sondern ein generelles Problem aller Disziplinen. Es bestehen verschiedene Möglichkeiten der Datenerhebung; diese werden im Folgenden beschrieben. 4 Datenerhebung 4.1 <?page no="63"?> 63 w E g E u n d p r o B l E m E d E r d a t E n E r h E B u n g In den Naturwissenschaften ist das Experiment die wesentliche Datenquelle. Es wird von Faas (2009) beschrieben als das Mittel des Forschenden, der Natur Fragen zu stellen. Diese Beschreibung enthält das wesentliche Element des Experiments: Der Forschende kann die Frage so stellen, wie er möchte, d. h. er ist in der Variation der Frage so frei, wie es die Umstände zulassen. Möchte ein Chemiker also beispielsweise wissen, ob zwei Flüssigkeiten miteinander reagieren, kann er sie zusammenbringen und dann beobachten, was geschieht. Er kann dieses Experiment dann unter unterschiedlichen Bedingungen laufen lassen, z. B. die Temperatur der Flüssigkeiten verändern, elektrischen Strom anlegen, den Luftdruck manipulieren, eine ultraviolette Lichtquelle während des Zusammenbringens anschalten, die Flüssigkeiten beim Zusammenschütten umrühren etc. Er stellt jedes Mal der Natur eine neue, leicht veränderte Frage (»Was passiert, wenn ich ...? «). Die Variationen der »Antwort« der Natur werden protokolliert und danach vergleichend ausgewertet. Diese Vorgehensweise klingt einfach zu handhaben, aber die Komplexität der Welt macht dem Forschenden zu schaffen: Es ist oft nicht nur ein Phänomen, welches die Ursache dessen ist, was der Forschende betrachten möchte. Ob die beiden Flüssigkeiten sich nun wirklich beim Zusammenmischen entzünden, kann von einer Vielzahl von Faktoren abhängen. Der Forschende muss also zunächst möglichst viel über potenzielle Einflussfaktoren wissen, um die entsprechenden Fragen an die Natur so stellen zu können, dass die Antworten brauchbar im Sinne seines Erkenntnisinteresses sind. In den Sozialwissenschaften wird das Experiment als Methode der Datenerhebung sehr unterschiedlich beurteilt. Einige Disziplinen stützen sich sehr stark auf diese Methode, u. a. die Psychologie (was auch dazu beträgt, dass eine Debatte darüber geführt wird, ob die Psychologie zu den Natur- oder den Sozialwissenschaften gehört). Auch in anderen sozialwissenschaftlichen Disziplinen ist das Experiment möglich, wird aber selten genutzt, beispielsweise in der Volkswirtschaftslehre, in der Pädagogik und der Soziologie. Aus unserer Sicht gibt es zwei ernstzunehmende Gründe, weshalb Experimente in den Sozialwissenschaften seltener angewandt werden als in den Naturwissenschaften. Erstens sind die Möglichkeiten sehr häufig beschränkt, d. h. viele wissenschaftliche Fragen eignen sich nicht zum Experimentieren, weil der Forschende die Begleitbestimmungen gar nicht ändern kann. Dies ist regelmäßig in der Wahlforschung der Fall. Eine Fragestellung wie »Wie beeinflusst das Wahlsystem das Parteiensystem? « kann experimentell nicht bearbeitet werden, denn dazu müsste der Forschende den Wahlausgang bei einer Wahl mit Mehrheitswahl protokollieren, dann mit der Zeitmaschine in die Vergangenheit reisen, dafür sorgen, dass das Verhältniswahlrecht eingeführt wird und dann die Wahl noch einmal stattfinden lassen, den Wahlausgang erneut protokollieren - und Experiment Möglichkeiten <?page no="64"?> 64 m E t h o d E n d E r d a t E n E r h E B u n g könnte dann den Unterschied feststellen. Selbst wenn der geschilderte Versuchsaufbau theoretisch realisierbar ist, so scheitert er oft an den Kosten. Möglich wäre es z. B. zur Bearbeitung der o. g. Fragestellung Deutschland hilfsweise in zwei Gebiete aufzuteilen, in denen jeweils unterschiedliches Wahlrecht gilt. Dann könnte man das Experiment gleichzeitig ablaufen lassen und die Ergebnisse direkt vergleichen. Das Problem: Die Fälle wären nicht unabhängig voneinander; Wähler/ innen im einen Teil würden immer noch die Diskussionen im anderen Teil mitbekommen und sich möglicherweise bei der Wahl taktisch verhalten, was die Ergebnisse wieder verfälschen kann. Wie wir sehen, ist das Experiment in diesem Fall keine geeignete Erhebungsmethode. Zudem stellen sich ethische Fragen bei Experimenten, an denen Menschen teilnehmen. Bei sozialwissenschaftlicher Forschung ist es zwar nicht möglich, dass Einzelne einen individuellen Schaden erleiden können (wie es in Extremfällen z. B. bei klinischen Tests von Medikamenten vorkommen kann). Allerdings muss sich der Forschende fragen, ob die von ihm gewählte Arbeitsweise ethisch vertretbar ist. Beispielsweise könnte ein/ e Interviewer/ in die Reaktion von Passanten auf politische Ansichten testen, indem er Politikern radikale Aussagen in den Mund legt. Damit sagt er gegenüber den Interviewpartnern nicht die Wahrheit und beschädigt darüber hinaus möglicherweise den »guten Ruf« des Politikers. Gleichwohl ist das Experiment, also das möglichst sorgfältige Stellen von Fragen an die Natur, auch in den Sozialwissenschaften der Königsweg der Datenerhebung. Dass sich in vielen sozialwissenschaftlichen Forschungsprojekten Experimente nicht zur Datenerhebung eignen, mag wahr sein, ist aber kein Grund, Experimente generell als untauglich zu bezeichnen. Angelehnt an das Experiment und viel häufiger in den Sozialwissenschaften sind Ex-post-facto-Designs. Als solche bezeichnet man ein Vorgehen, welches Daten so betrachtet, als hätte ein Experiment stattgefunden, obwohl der Forschende keine Möglichkeit hat die Phänomene zu beeinflussen. Deshalb wird dieses Design häufig gewählt, wenn experimentelle Designs nicht möglich sind. Der Vorteil ist, dass man mit den Daten später prinzipiell die gleichen Auswertungsmethoden anwenden kann. Wie oben bereits ausgeführt, kann z. B. ein Forschender Duvergers Gesetz nicht experimentell testen; dazu müsste er in einem Land mehrmals das Wahlsystem ändern und dann beobachten, wie das Parteiensystem darauf reagiert. Wenn er dabei noch Nebenbedingungen testen will (z. B. die ethnische Heterogenität einer Gesellschaft), muss er noch mehr nacheinander geschaltete Experimente durchführen. Deshalb ist er gezwungen, auf ein Ex-post-facto- Design auszuweichen. Dazu sammelt er Daten über Wahlsysteme und Parteiensysteme mehrerer Länder und tut so, als ob die verschiedenen Länder nur ein Land wären, aber mit unterschiedlichen Ausgangsbedingungen. So Ex-post-facto-Designs <?page no="65"?> 65 w E g E u n d p r o B l E m E d E r d a t E n E r h E B u n g kann er verschiedene Zustände innerhalb eines Landes »simulieren«, indem er auf die Daten anderer Länder zugreift. Notwendig ist allerdings, dass die Länder ähnlich sind, damit das Argument der Einheitenhomogenität (King et al. 1994: 91) auch zutrifft. Allerdings haben Ex-post-facto-Designs einen entscheidenden Nachteil: Manchmal würde man eine bestimmte Merkmalskombination gerne nach diesem Verfahren testen, aber es findet sich partout kein Fall, in dem die Merkmale in der Realität auch so kombiniert sind (oder das Argument der Einheitenhomogenität ist nicht plausibel). In diesem Fall wird der Unterschied zum »richtigen« Experiment deutlich: Hier könnte der Forschende einfach die Randbedingungen so manipulieren, dass er den entsprechenden Fall untersuchen kann. Im Ex-post-facto- Design geht das nicht, das Design hat bei dieser Konstellation einen »blinden Fleck« und kann letztlich darüber keine Aussagen machen. Weniger häufig verwendet werden Erhebungsmethoden, die sich im Kern auf die Beobachtung von Phänomenen durch Forschende verlassen. Die Beobachtung erfolgt zumeist durch den Forschenden selbst oder durch seine Beauftragten. Dabei kann sich die Beobachtung auf einen einzelnen Aspekt konzentrieren, z. B. ob ein/ e Abgeordnete/ r sich aktiv an einer parlamentarischen Debatte beteiligt. Die Beobachtung kann aber auch allgemein durchgeführt werden, d. h. es ist vor Beginn der Beobachtung gar nicht klar definiert, worauf der Beobachtende achten soll. Vielmehr hat der Beobachtende nur eine ungefähre Vorstellung, wie das Phänomen zu entdecken ist. Erst während der Beobachtung stellt sich heraus, wie das Phänomen wirklich beschaffen ist. Wenn ein Forschender z. B. ein Parlament während einer Debatte um einen Gesetzentwurf beobachtet, möchte er z. B. herausfinden, ob die Debatte eher konflikt- oder konsensorientiert geführt wird. Hierfür kann er vor Beginn der Beobachtung zwar versuchen, Kriterien zu formulieren. Er wird dabei z. B. eine Liste von Dingen zusammenstellen, an denen man den konfliktiven Verlauf einer Debatte operationalisieren kann: Verwendung von Beleidigungen oder polarisierenden Begriffen, häufige kritische Zwischenrufe, gehobene Stimme der Redner/ innen, Unruhe im Saal, rhetorische Gegenüberstellung von Positionen, streng nach Parteien getrennter Applaus für den Redner etc. Während der Beobachtung können sich aber weitere Phänomene ergeben, die der Forschende vorher nicht als Indikatoren konfliktiven Verhaltens erwartet hatte, z. B. dass Abgeordnete einer Partei zu Beginn der Rede eines politischen Gegners in großen Zahlen das Plenum verlassen, um so dem Redner gegenüber ihre Missachtung auszudrücken. Das zentrale Problem der Beobachtung besteht darin, dass der Beobachtende eigentlich alles protokollieren muss, was stattfindet, da er sonst Gefahr läuft, wesentliche Begebenheiten zu übersehen, die möglicherweise unwiederbringlich verloren sind. Film- und Tonaufzeichnungen können hier helfen, aber die Verwendung dieser Hilfsmittel stellt den Forschen- Beobachtung <?page no="66"?> 66 m E t h o d E n d E r d a t E n E r h E B u n g den wiederum vor Probleme, denn die offensichtliche Aufnahme kann dazu führen, dass die Beteiligten sich nicht mehr »natürlich« verhalten, sondern ihr Verhalten an der Dokumentation ausrichten. Dies wiederum lässt sich durch verdeckte Beobachtung, d. h. die Beobachtung ohne Wissen der Beteiligten, kontern - was wiederum ethische Probleme aufwirft. Auch die Frage, ob die Beobachtung als »teilnehmende Beobachtung« durchgeführt wird, d. h. ob der Forschende mit den zu beobachtenden Personen interagieren darf, ist methodisch nicht trivial, denn auch die Teilnahme des Forschenden, d. h. seine Aufnahme in die Gruppe der zu beobachtenden Personen, kann sein Beobachtungs- und Urteilsvermögen beeinträchtigen. Die letzte Erhebungsmethode wird als Befragung bezeichnet. Sie kann als persönliche Befragung oder telefonisch durchgeführt werden oder aber auch vollständig schriftlich (z. B. mittels eines Fragebogens). Die Befragung bietet ein gutes Kosten-Nutzen-Verhältnis; mit ihrer Hilfe ist es möglich, große Teilnehmerzahlen in Projekten bei überschaubaren Kosten zu realisieren. Zudem gibt es Dinge, die nicht durch Experiment, Quasi-Experiment oder Beobachtung gemessen werden können. Ein Beispiel ist die bekannte »Sonntagsfrage«, die sich auf die Wahlabsicht der Befragten am nächstmöglichen Wahltermin richtet. Zukünftig geplantes Verhalten lässt sich nämlich nur in Befragungen sinnvoll erheben. So vielfältig wie die Befragungsformen sind auch die Probleme, die sich bei Befragungen ergeben können. So ist es nicht überraschend, dass das Verhalten des befragenden Forschenden Einfluss auf die vom Befragten gegebenen Antworten haben kann. Zudem können die Interviewsituation sowie der zeitliche Kontext (Phase vor der Befragung, geplante Tätigkeiten nach der Befragung) Einfluss ausüben. Auch das Design des Fragebogens (Reihenfolge der Fragen, Frageformulierung, vorgegebene Antwortkategorien etc.) sind sehr wichtig. Wie man richtig Befragungen durchführt und welche methodischen Probleme und Fallen lauern, wird von einer Vielzahl von Publikationen thematisiert. Da die Zahl der behandelten Aspekte sehr groß ist, verzichten wir an dieser Stelle auf ihre Darstellung. Im Zuge der immer weiter fortschreitenden Digitalisierung werden auch immer häufiger Online-Befragungen eingesetzt, zu deren Zuverlässigkeit Faas und Rattinger (2004) sowie Faas (2006) sehr interessante Ausführungen gemacht haben. Wesentliche Herausforderungen bei Experimenten in den Sozialwissenschaften thematisiert der Sammelband von Keuschnigg und Wolbring (2015). Schon etwas älter aber voller guter Beispiele für Experimente, die man selbst durchführen kann, ist die Einführung von Brown et al. (1975). Befragung Lesetipps <?page no="67"?> 67 w E g E u n d p r o B l E m E d E r d a t E n E r h E B u n g Auf psychologische Fragestellungen konzentriert, aber für Politikwissenschaftler/ innen trotzdem lesenswert ist die Einführung in die Methode der Beobachtung von Greve und Wentura (1997). Probleme der teilnehmenden Beobachtung bespricht Schöne (2009). Gut übertragbar auf die Politikwissenschaft ist die Einführung von Gehrau (2002) zur Beobachtung in der Kommunikationswissenschaft. Einen hervorragenden Einstieg in die Konstruktion von Fragebögen bieten Mummendey und Grau (2008), wenn sich das Buch auch auf psychologische Fragestellungen konzentriert. Gute Hinweise zur Anlage und Gestaltung von Fragebögen finden sich bei Raab-Steiner und Benesch (2012), welche auch Tipps zur Handhabung mit der Statistiksoftware SPSS bieten. Besonders für Einsteiger geeignet ist der Band von Porst (2011). Einen Überblick und eine Checkliste für Fragebogen-Designer vermittelt Kallus (2016). Eine empfehlenswerte Einführung in die Praxis sozialwissenschaftlicher Interviews geben Kvale und Brinkmann (2009). Für Einsteiger sehr gut geeignet sind auch Diekmanns (2012: 446 ff.) Ausführungen zu Fehlerquellen in Interviews. Für Experteninterviews bieten Meuser und Nagel (2009) einen sehr guten Ausgangspunkt. Probleme des Telefoninterviews werden von Rademacher und Koll (2009) aufgegriffen. Ein gut nachvollziehbares Nachschlagewerk gerade für die studentische Praxis hat Kruse (2015) vorgelegt. Eine Spezialform des Interviews, die Gruppendiskussion, behandeln Kühn und Koschel (2011). Wie man mit »heiklen« Fragen umgeht, zeigt Fox (2016) anschaulich. Der Forschende muss seine Daten jedoch nicht unbedingt selbst erheben. Er kann auch auf bereits vorhandene Daten zurückgreifen, die andere gesammelt bzw. erhoben haben. Man spricht dann von einer Sekundärdatenanalyse. Bereits existierende Datensammlungen ermöglichen es dem Forschenden, Zeit zu sparen und schützen ihn davor, »das Rad neu erfinden zu müssen«. Dies ist beispielsweise der Fall, wenn es um häufig verwendete Daten geht, wie die Einordnung von Parteien auf Links-Rechts-Skalen (eine Möglichkeit bietet das »Comparative Manifesto Project«, mehr dazu auf S. 84). Zudem gibt es Daten, deren Erhebungsmethodik weitgehend anerkannt ist und deren Eigenerhebung Forschende schlicht überfordern würden (beispielsweise das Bruttoinlandsprodukt). Der Vorteil ist, dass er sich nicht aktiv mit der Zusammenstellung der Stichprobe, dem Design des Erhebungsinstruments sowie der Datenerhebung und -aufbereitung beschäftigen muss. Es ist jedoch auch bei Sekundärdatenanalysen wichtig, dass der Forschende sich vor der Verwendung der Daten klar macht, wann und wie die Daten generiert wurden und welche Randbedingungen zu Sekundärdatenanalyse <?page no="68"?> 68 m E t h o d E n d E r d a t E n E r h E B u n g beachten sind. Ist also z. B. die Erhebung repräsentativ? Wann wurde sie durchgeführt? Wie wurden die Phänomene gemessen? Gibt es bereits Literatur zu den Daten bzw. Publikationen, in denen die Daten verwendet werden? Gibt es Angaben zu Zuverlässigkeit und Gültigkeit der Daten, wurde Objektivität gewahrt? Es kann zudem interessant sein, zu welchem Zweck die Daten erhoben wurden, wer sie erhoben hat und wer die Erhebung finanziert hat. Dies alles sollte der Forschende berücksichtigen, bevor er »fremde« Daten verwendet. Klar ist: Wenn der Forschende fremde Daten verwendet, dann kann er sich später bei methodischen Problemen nicht darauf beziehen, dass er die Daten schließlich nicht selbst erhoben habe, denn es gilt: »mitgehangen - mitgefangen«. Wenn ein Forschender Daten für gut genug erachtet, sie in seinem Forschungsprojekt benutzen zu können, dann muss er sich für die Verwendung auch so verteidigen, als ob er sie selbst erhoben hätte. ● Weshalb ist das Experiment in den Sozialwissenschaften weniger verbreitet als in den Naturwissenschaften? ● Was versteht man unter dem Begriff »Einheitenhomogenität«? ● Welche Formen der Befragung gibt es? ● Was sind Vor- und Nachteile von Sekundärdatenanalysen? Skalenniveaus und Indizes Unabhängig davon, auf welchem Weg die Daten erhoben werden, können die Daten auf verschiedenen Skalenniveaus erhoben werden. Konkret bezeichnet das Skalenniveau, wie »feinkörnig« die Daten zu einer Variablen vorliegen und welche Aussagen auf ihrer Basis gemacht werden können. Niedrige Skalenniveaus erlauben zudem weniger mathematische und statistische Verfahren als höhere Skalenniveaus. Grundsätzlich werden drei Skalenniveaus unterschieden, die im Folgenden kurz beschrieben werden. Das einfachste Niveau wird als Nominalskala bezeichnet. Wie der Begriff schon sagt, geht es hier darum, dass den einzelnen Werten andere Ausdrücke zugeordnet werden, deren alleinige Funktion es ist, die Ausprägungen zu unterscheiden. Eine Wertigkeit im Sinne von »höher«, »niedriger«, »mehr«, »weniger«, »doppelt so viel«, »halb so viel« etc. ist damit nicht verbunden. Deutlich wird es bei der Bundestagswahl, bei der der Staatsbürger Kontrollfragen ▼ ▲ 4.2 Nominalskala <?page no="69"?> 69 s k a l E n n I V E a u s u n d I n d I Z E s eine Partei wählen kann. Die Parteien sind auf dem Stimmzettel nach einer bestimmten Regel geordnet (Stimmanteil der entsprechenden Landesliste bei der vorangegangenen Bundestagswahl). Daraus resultieren die Listennummern der Parteien. Wählt eine Person z. B. SPD (Liste 1) und eine andere Person entscheidet sich für die CDU (Liste 2), dann sagt der Wert 2 gegenüber dem Wert 1 nur aus, dass sich die Werte unterscheiden. Eine CDU-Stimme ist nicht zweimal so viel Wert wie eine SPD-Stimme. Eine weitere klassische Nominalskala sind auch die Ordnungsnummern von Fakultäten an Universitäten: Niemand käme auf die Idee, dass der Fachbereich 8 viermal so viel wert ist wie der Fachbereich 2. Weitere typische Nominalskalen sind Geschlecht, Blutgruppen und auch Namen von Ländern. Die Ordinalskala enthält mehr Informationen als nur die Unterschiedlichkeit der Ausprägungen, denn hier sind die Ausprägungen logisch aufsteigend bzw. absteigend sortiert. Allerdings müssen die Abstände zwischen den Ausprägungen nicht gleich sein. Eine klassische Ordinalskala operationalisiert Bildungsabschlüsse (1 = ohne Abschluss, 2 = Hauptschulabschluss, 3 = Realschulabschluss, 4 = Abitur, 5 = Bachelor, 6 = Master, 7 = Promotion). Andere typische Anwendungsfälle sind die sogenannten »Likert-Skalen«, die in vielen Fragebögen Anwendung finden und eine ungerade Anzahl an Ausprägungen aufweisen, welche z. B. ansteigende Wichtigkeit ausdrücken (»Für wie wichtig halten Sie Sexualkunde in der Grundschule? 1 = sehr unwichtig, 2 = unwichtig, 3 = teils/ teils, 4 = wichtig, 5 = sehr wichtig«). Auch die Amtsbezeichnungen von Beamten (Obersekretär, Hauptsekretär, Inspektor, Amtmann, Amtsrat, Oberrat, Direktor ...) und militärische Ränge (Gefreiter, Feldwebel, Leutnant, General ...) können in Ordinalskalen überführt werden. Noch mehr Informationen enthalten Kardinalskalen; sie werden auch als metrische Skalen bezeichnet. Werte auf diesen Skalen zeichnen sich dadurch aus, dass neben der Unterscheidbarkeit und der Reihenfolge der Ausprägungen auch noch deren Abstände gleich sind. Die Kardinalskalen werden noch unterteilt in Intervallskalen und Verhältnisskalen. Letztere besitzen noch ein weiteres Merkmal, nämlich einen natürlichen Nullpunkt. Beispielsweise ist die Temperaturskala nach Celsius eine Intervallskala, denn der Temperaturunterschied zwischen 30 ° C und 20 ° C ist genau so groß wie der Temperaturunterschied zwischen 28 ° C und 18 ° C (nämlich 10 ° C). Ein natürlicher Nullpunkt liegt hingegen nicht vor, denn der Punkt, bei dem 0 ° C herrscht, wurde von Anders Celsius willkürlich festgelegt. Es mag zwar intuitiv einleuchtend sein, den Nullpunkt auf den Gefrierpunkt von Wasser zu legen, aber es wäre sicherlich falsch zu sagen, dass bei 0 ° C keine Temperatur herrsche. Wie wir wissen, gibt es auch negative Temperaturen. Es scheint also bei 0 ° C kein natürlicher Nullpunkt erreicht zu sein. Anders ist das bei der Temperaturangabe nach Kelvin, die eine Verhältnisskala darstellt. Weshalb? Weil Kelvin so definiert ist, dass 0 K die tiefst mögliche Tem- Ordinalskala metrische Skalen <?page no="70"?> 70 m E t h o d E n d E r d a t E n E r h E B u n g peratur darstellt. Hier besitzen die physikalischen Objekte keine Energie, die Moleküle können sich folglich auch nicht bewegen - und weniger als keine Bewegung ist nicht möglich. Kälter kann es also nicht werden. Dies ist ein natürlicher Nullpunkt. Andere Verhältnisskalen wären beispielsweise Preise (wenn der Preis gleich Null ist, bekommt man die Ware geschenkt), Entfernungen (wenn die Entfernung gleich Null ist, ist man am gleichen Ort) oder Zeitdauern (wenn die Zeitdauer zwischen zwei Ereignissen Null ist, finden sie gleichzeitig statt). Eine besondere Form der Variable ist der Index, welcher die Informationen verschiedener Indikatoren oder Variablen zusammenfasst. Dies kann dann vorkommen, wenn das Phänomen, was gemessen werden soll, sich zwar eindimensional messen lässt, die Messung aber zu ungenau ist, um sie direkt verwerten zu können. Liegt ein solcher Fall vor, wird man mit mehreren Instrumenten messen und dann versuchen, die Messungen gemeinsam auszuwerten. Ein klassischer Fall sind Indizes zur Messung der Demokratiequalität von Staaten (z. B. Stoiber 2011). Hier werden verschiedene Merkmale der Staaten bewertet, die jeweils für sich die Demokratiequalität messen. Später werden diese aggregiert (d. h. gesammelt bzw. miteinander verrechnet). Ein anderer häufiger Grund für die Errechnung eines Index ist, dass sich das Phänomen gar nicht eindimensional messen lässt, d. h. es aus unterschiedlichen Teilaspekten besteht, die getrennt gemessen werden und dann irgendwie zusammengefügt werden müssen. Schnell et al. (2013: 157 ff.) führen als Beispiel an, dass die soziale Schicht gemessen werden soll, der eine Person angehört. Dieser Begriff kann in drei Dimensionen zerlegt werden (Einkommen, Berufsposition und Bildung). Jeder dieser drei Eigenschaften kann getrennt voneinander mit entsprechenden Skalen gemessen werden. Später müssen dann die drei Werte zu einem gemeinsamen Wert für die soziale Schicht »umgerechnet« werden. Dies kann einfach sein (z. B. könnte man bei drei Dimensionen, die jeweils eine Skala von 1 bis 5 aufweisen, die drei Werte addieren oder den Mittelwert bilden). Das Beispiel von Schnell et al. bietet sich hier zur Vertiefung an, da es eine komplexere Indexbildung beschreibt. Grundsätzlich gilt - unabhängig vom Skalenniveau - dass die Ausprägungen, d. h. die jeweils verwendbaren Werte auf den Variablen, zwei Anforderungen genügen müssen: [1] Die Ausprägungen müssen erschöpfend definiert sein, d. h. jedem Objekt sollte in Bezug auf diese Variable tatsächlich ein Wert zugeordnet werden können. Ein Beispiel für eine nicht erschöpfende Operationalisierung wäre die Frage nach dem Alter von Probanden in einer Befragung. Wenn auf dem Fragebogen etwa drei Kategorien angegeben wären (»20-29 Jahre«, »30-39 Jahre« und »40-49 Jahre«), dann könnten Men- Index <?page no="71"?> 71 f a l l a u s w a h l u n d r E p r ä s E n t a t I V I t ä t schen, die vom Alter her außerhalb dieser Ausprägungen liegen, ihr Alter nicht angeben. Sinnvoll wären hier zwei weitere Kategorien (»19 und jünger« sowie »50 und älter«); damit wäre die Variable erschöpfend operationalisiert. [2] Die definierten Ausprägungen müssen zudem disjunkt (trennscharf) sein, d. h. sie dürfen sich nicht überlappen. Hinsichtlich des o. g. Beispiels wären es keine trennscharfen Kategorien, wenn die drei Ausprägungen »20-29 Jahre«, »25-34 Jahre« und »30-39 Jahre« lauten würden - es ist deutlich sichtbar, dass sich die Kategorien teilweise überlappen. Ein 28jähriger Proband wüsste nicht, welche der beiden ersten Ausprägungen er ankreuzen soll, da sein Alter in beiden enthalten ist. Somit könnten zwei gleich alte Probanden unterschiedliche Altersgruppen ankreuzen. Damit würden gleiche Fälle unterschiedlich kodiert, und das wollen wir natürlich nicht. Gute Beispiele für die Konstruktion und Verwendung von Skalen (mit Fallstricken) bietet Heidenreich (1999). ● Welche Skalenniveaus gibt es und wie lassen sie sich unterscheiden? ● Weshalb bildet man Indizes? Fallauswahl und Repräsentativität Besondere Bedeutung in Forschungsprojekten kommt der Auswahl der Untersuchungseinheiten zu. Warum dieser Schritt so bedeutsam ist, erklärt sich durch einen Rückblick auf das Erkenntnisinteresse des Forschenden und die Fragestellung des Forschungsprojektes. Will der Forschende beispielsweise eine möglichst genaue Prognose zur nächsten Bundestagswahl erstellen, muss er aus ökonomischen Gründen eine Auswahl vornehmen. Denn er kann schlecht alle Wahlberechtigten befragen, dies wäre viel zu teuer und würde zu lange dauern. Wie also wählt man die Teilnehmer der Studie aus? Das gleiche Problem haben Mediziner, die ein neu entwickeltes Medikament testen möchten und Psychologen, die sich mit dem Phäno- Lesetipps Kontrollfragen ▼ ▲ 4.3 <?page no="72"?> 72 m E t h o d E n d E r d a t E n E r h E B u n g men der Gewalt unter Sportfans beschäftigen. Auch der Politikwissenschaftler, der nicht mit Mikrodaten arbeitet, kennt das Problem: Er will z. B. untersuchen, ob ein Zusammenhang von Wahlprogrammen und Regierungshandeln besteht. Aber wie viele und welche Staaten soll er sich dafür anschauen? Was macht er mit Staaten mit Koalitionsregierungen - die Programme welcher Parteien sind dann relevant? Und welche Elemente aus dem Wahlprogramm überprüft er darauf, ob sie umgesetzt wurden und welche lässt er aus? Um die Fallauswahl vorzunehmen, bieten sich unterschiedliche Strategien an, aus denen der Forschende nach Fragestellung und Erkenntnisinteresse wählen kann. Diese werden im Folgenden dargestellt. Eine grundsätzliche Unterscheidung muss dabei zwischen Forschungsdesigns mit kleiner und großer Fallzahl gemacht werden ( → vgl. Abschnitt 3.3). Bei Vorhaben mit größerer Fallzahl will der Forschende meistens nicht nur eine Aussage über die Fälle machen, die er wirklich angeschaut hat (Stichprobe). Er möchte vielmehr die Befunde aus der Stichprobe auf alle Fälle (Grundgesamtheit) übertragen. Das ist typischerweise der Fall, wenn Wahlumfragen gemacht werden: Geben 6 % der Befragten in der Stichprobe von 1.000 Wahlberechtigten an, am kommenden Wahlsonntag eine bestimmte Partei (z. B. die Grünen) wählen zu wollen, sagt der Forschende einen Stimmanteil für die Grünen von 6 % voraus. Dabei ist allerdings das stochastische Element zu berücksichtigen, d. h. es kann aus rein zufallsbedingten (stochastischen) Gründen sein, dass die Grünen in der Stichprobe 6 % Unterstützung bekommt, unter allen Wahlberechtigten aber nur 4 % - was bei einer Sperrklausel von 5 % für die Partei keine Sitze im Deutschen Bundestag bedeuten würde und insofern ziemlich relevant wäre. Der für die Stichprobe ermittelte Wert kann aber auch aus systematischen Gründen vom Wert in der Grundgesamtheit abweichen, und zwar wegen des zugrunde gelegten Auswahlverfahrens. Führt der Forschende die Befragung beispielsweise öffentlich durch, indem er nacheinander 1.000 Passanten vor einem Universitätsgebäude einer Großstadt mitten im Semester befragt, bekommt er wahrscheinlich für seine Stichprobe ein Ergebnis, das sich nicht auf die Grundgesamtheit übertragen lässt. Warum? Weil der Anteil von Studierenden und Akademiker/ innen unter den Passant/ innen sehr viel größer sein wird als in der Gesamtbevölkerung. Von den Gruppen der Studierenden und Akademiker/ innen ist bekannt, dass sie viel häufiger die Grünen wählen als die Durchschnittsbevölkerung. Zudem nimmt viel mehr großstädtisches Publikum an der Befragung teil als an den Wahlen, und in Großstädten ist der Anteil der Grünen-Wähler/ innen viel höher als auf dem Land (ein Teil dieser Verteilung hat mit den Studierenden und Akademiker/ innen zu tun, siehe oben). Beides führt dazu, dass die Zustimmung zur Partei »Die Grünen« in der Stichprobe wesentlich größer ausfällt als ins- Fallauswahl Vorhaben mit größerer Fallzahl <?page no="73"?> 73 f a l l a u s w a h l u n d r E p r ä s E n t a t I V I t ä t gesamt. In diesem Fall spricht man davon, dass die Stichprobe nicht repräsentativ für die Grundgesamtheit ist. Dies gilt in unserem Beispiel allerdings nur, wenn die Grundgesamtheit »alle Wähler/ innen« bedeutet. Sollte der Forschende das Wahlverhalten von Studierenden und Akademiker/ innen in Universitätsstädten untersuchen wollen, wäre diese Art der Stichprobenziehung hingegen gar nicht so schlecht. Je nach Forschungsfrage gibt es also verschiedene Möglichkeiten der Fallauswahl. Die grundlegende Methode ist die einfache Zufallsauswahl, bei der alle Elemente aus der Grundgesamtheit die gleiche Chance haben, in der Auswahl zu landen. Man kann sich die Auswahl wie die Ziehung der Lottozahlen vorstellen. In den Sozialwissenschaften ist diese Art der Auswahl unüblich, da sie voraussetzt, dass der Forschende auch Zugriff auf alle Elemente hat bzw. überhaupt eine Möglichkeit besteht, jedes Element auch wirklich auswählen zu können. Für unser Beispiel aus der Wahlforschung würde das bedeuten, dass man die Namen und Adressen aller Wahlberechtigten bräuchte, damit man eine einfache Zufallsauswahl überhaupt zustande bringen könnte. Danach müsste man die 1.000 gezogenen Wahlberechtigten per Post kontaktieren und einen Fragebogen mitschicken oder zu jedem der 1.000 Wahlberechtigten eine/ n Interviewer/ in entsenden, der die/ den Wahlberechtigte/ n befragt. Realistischerweise kann diese Strategie nur dann angewandt werden, wenn die benötigte Liste schon komplett vorliegt; z. B. ist eine Befragung unter Studierenden einer Universität gut möglich, da eine Universität eine Liste aller immatrikulierten Studierenden besitzt. Eine Variante der einfachen Zufallsauswahl ist die systematische Zufallsauswahl, bei der die Fälle in Intervallen gezogen werden. Auch hier ist eine vollständige Liste der Fälle notwendig. Westle (2009: 157) gibt als Beispiel eine Befragung unter Studierenden einer Universität an, bei der 1.000 Befragte aus einer Grundgesamtheit von insgesamt 20.000 Studierenden ausgewählt werden sollen. Dies bedeutet demnach ein Intervall von 20. Den ersten Studierenden wählt man zufällig aus (z. B. durch Ziehen eines Loses), danach geht man die Studierendenliste durch und wählt jeden 20. Eintrag in der Liste aus. Allerdings muss gewährleistet sein, dass die Liste so sortiert ist, dass durch die Intervallauswahl keine verzerrende Stichprobe gezogen wird. Werden z. B. bei der Immatrikulation die Matrikelnummern rundum nach Fakultäten vergeben und ist die Studierendenliste nach Matrikelnummern sortiert, erhält man bei 10 Fakultäten bei der Stichprobe nur Studierende von zwei bestimmten Fakultäten - diese wiederum müssen nicht repräsentativ für alle Studierenden sein, was das Wahlverhalten betrifft. Häufiger angewendet wird die Klumpenauswahl (auch Clusterauswahl). Sie ermöglicht eine Auswahl von Fällen, ohne eine Gesamtliste der Fälle zu erstellen, was die maßgebliche Hürde für die beiden zuvor beschriebenen einfache Zufallsauswahl systematische Zufallsauswahl Klumpenauswahl <?page no="74"?> 74 m E t h o d E n d E r d a t E n E r h E B u n g Verfahren darstellt. Wollten Forschende also beispielsweise Aussagen über alle Studierenden der Politikwissenschaft machen, müssten sie, um eines der beiden o. g. Auswahlverfahren zu verwenden, zunächst von jeder Universität eine entsprechende Liste der Studierenden anfordern, diese dann zusammenfügen und die Fälle auswählen. Die Sammlung, Zusammenführung und Aufbereitung der Listen benötigt indes eine gewisse Zeit, in der sich die Grundgesamtheit wieder verändert, d. h. viele Studierende kommen dazu, andere Studierende beenden ihr Studium, so dass sich die Gesamtliste im permanenten Wandel befindet. Deshalb ist es möglicherweise sinnvoll, nicht alle Studierenden des Fachs an allen Universitäten auf die Liste aufzunehmen und dann aus allen eine Zufallsauswahl zu ziehen, sondern stattdessen nur einige Universitäten auszuwählen, unter den Politikwissenschaftsstudierenden dieser Universitäten dann aber jeweils Vollerhebungen durchzuführen (die Studierenden an den Universitäten, die ausgewählt werden, bilden dann die »Klumpen«). Insgesamt ist die Anzahl der Studierenden, die man befragen möchte (z. B. 1.000 Studierende), so leichter zu erreichen. Allerdings liegt das Problem dann bei der Auswahl der Universitäten, die ihrerseits repräsentativ sein muss. Wenn man beispielsweise nur Universitäten auswählen würde, an denen lediglich ein Bachelorstudium in Politikwissenschaft möglich ist, hätte man überhaupt keine Masterstudierenden in der Stichprobe. Komplexer ist die geschichtete Zufallsauswahl, für die Merkmale der gezogenen Fälle beachtet werden, welche hinsichtlich des zu untersuchenden Phänomens entscheidend sein können. Bleiben wir beim Beispiel einer Befragung von Studierenden der Politikwissenschaft; bei der sich die Forschende für deren Studienzufriedenheit interessieren. Sie vermuten, dass Studierende verschiedener Studiengänge (Bachelor, Master, Lehramt) sich hinsichtlich der Studienzufriedenheit unterscheiden. Deshalb ziehen die Forschenden die Stichprobe so, dass der Anteil der Studierenden in der Stichprobe, die die einzelnen Studiengänge studieren, dem Anteil der Studierenden in der Grundgesamtheit mit diesem Studiengang entspricht (z. B. 50 % Bachelor, 30 % Master, 20 % Lehramt). Dieses Vorgehen wird proportionale Schichtung genannt. Nehmen die Forschenden hingegen auch Promotionsstudierende in ihre Arbeit auf, fällt ihnen auf, dass die proportionale Schichtung nicht funktioniert. Die Verteilung 50: 30: 20 lässt möglicherweise bei genügend großer Stichprobe noch Aussagen über die einzelnen Gruppen zu. Promotionsstudierende machen typischerweise aber nur 2 % der Politikstudierenden aus, d. h. bei 1.000 zufällig ausgewählten Studierenden werden ca. 20 davon Promotionsstudierende sein - viel zu wenig, um über diese Gruppe eine allgemeine Aussage zu treffen. Die Forschenden sind für stichhaltige Aussagen über alle Gruppen darauf angewiesen, dass genügend BA-, MA-, Lehramts- und Promotionsstudierende in der Stichgeschichtete Zufallsauswahl proportionale Schichtung <?page no="75"?> 75 f a l l a u s w a h l u n d r E p r ä s E n t a t I V I t ä t probe enthalten sind, damit für die einzelnen Gruppen jeweils Rückschlüsse auf die Grundgesamtheit möglich sind. Deshalb könnten die Forschenden jeweils 500 Studierende aus den vier Studiengangarten auswählen, um sicherzugehen, dass eine angemessene Datengrundlage erreicht wird. Das Verhältnis der Studiengänge zueinander in der Stichprobe ist dann absichtlich nicht mehr repräsentativ für das Verhältnis der Studiengänge in der Grundgesamtheit, weshalb die Auswahlmethode auch als disproportionale Schichtung bezeichnet wird. Diese 2.000 Studierenden sind dann gemeinsam nicht mehr repräsentativ für alle Politikstudierenden, da innerhalb der Gesamtgruppe die Promotionsstudierenden einen viel zu hohen Anteil einnehmen. Die einzelnen Stichproben können aber durchaus repräsentativ für ihre jeweilige Grundgesamtheit sein (d. h. alle Studierenden eines Studiengangtyps). Die vorangegangenen Auswahlmethoden können je nach Fragestellung, Forschungsdesign, Datenlage, Problemen beim Feldzugang etc. auch kombiniert werden. Darüber hinaus gibt es spezielle Techniken für Befragungen (siehe für Beispiele Westle 2009: 166 f.). Bei Vorhaben mit kleinerer Fallzahl verfolgt der Forschende in der Regel ein qualitatives Forschungsdesign. Im Rahmen dieser Designs ist die Auswahl der Fälle häufig nicht zufallsgesteuert, da es nicht um den Schluss auf die Grundgesamtheit geht, sondern die Auswahl dem spezifischen Erkenntnisinteresse des Forschenden folgt. Wenn der Forschende etwas über den US-amerikanischen und den britischen Staatsaufbau erfahren möchte, dann ergibt es keinen Sinn, zwei Länder zufällig aus einer Lostrommel zu ziehen. Stattdessen fällt die Wahl auf diese beiden Länder, für die dann jeweils eine Einzelfallstudie durchgeführt wird. Für die Auswahl der Fälle schlagen Lauth et al. (2015: 54 ff.) in Anlehnung an Hague et al. (1998) die Unterscheidung in fünf Typen von Einzelfallstudien vor. Da wäre zunächst die repräsentative Fallstudie, deren Ziel darin besteht, nicht nur das Spezifische des einen Falls (z. B. Besonderheiten des Föderalismus in den USA oder Besonderheiten des unitarischen Staatsaufbaus in Großbritannien) herauszuarbeiten, sondern bei dem der ausgewählte Fall repräsentativ für einen bestimmten Typ von Fällen steht (hier: die USA als typischer Föderalstaat bzw. Großbritannien als typischer unitarischer Einheitsstaat). Damit kann nicht nur das Wissen über die Länder selbst oder über den Ländertyp (föderal oder unitarisch) erweitert werden, sondern es können tatsächlich auch Hypothesen getestet werden (z. B. »Wenn ein Land föderal organisiert ist, dann sind die Bürger/ innen zufriedener mit der Dienstleistungserbringung«). Die Vorstufe zur repräsentativen Studie ist die prototypische Fallstudie, die in der Hoffnung durchgeführt wird, dass sich der untersuchte Fall im Verlauf der Analyse als repräsentativ für einen bestimmten Typ herausstellt. disproportionale Schichtung Vorhaben mit kleinerer Fallzahl repräsentative Fallstudie prototypische Fallstudie <?page no="76"?> 76 m E t h o d E n d E r d a t E n E r h E B u n g Im Rahmen von konträren Fällen hingegen werden häufig Einheiten untersucht, die sich genau nicht so verhalten, wie es die verwendete Theorie vorhersagt bzw. welche sich als abweichend von der Regel herausgestellt haben. Ziel der Analyse ist es dann, weitere Einflussfaktoren auf das Phänomen zu finden, die bislang verborgen geblieben sind. Lauth et al. (2015: 55 f.) geben als Beispiel ein Land an, in dem zwar in der Bevölkerung eine hohe Fremdenfeindlichkeit besteht, aber rechtspopulistische Parteien keine nennenswerten Wahlerfolge erringen (oder umgekehrt: niedrige Fremdenfeindlichkeit und große Erfolge rechtspopulistischer Parteien), obwohl der positive Zusammenhang dieser beiden Phänomene gut dokumentiert ist. »Entscheidende Fälle« wird der vierte Typ von Einzelfallstudien genannt, welcher darauf zielt, bestimmte Kombinationen von Bedingungsfaktoren zu untersuchen. Eine häufiger verwendete Variante dieser Kategorie ist der »unwahrscheinlichste Fall« (least-likely case). Lauth et al. (2015: 56 f.) führen als Beispiel hierfür Robert Michels Arbeit über die Bildung von (sich undemokratisch im Amt haltenden) Führungsriegen in sozialdemokratischen Parteien zu Beginn des 20. Jahrhunderts an. In konservativen Parteien wären solche Oligarchien erwartbar gewesen. Die Tatsache, dass selbst in sozialdemokratischen Parteien, welche damals die stärksten Ansprüche auf demokratische Verfahren formulierten, solche Mechanismen am Werk waren, bestätigt Michels Theorie vom »ehernen Gesetz der Oligarchien«. Die letzte Form wird von Lauth et al. (2015: 56 f.) archetypische Fallstudie genannt, ähnelt sehr der oben erwähnten prototypischen Fallstudie und ist dieser häufig vorgeschaltet. Im Gegensatz zu prototypischen Fällen, welche in der Hoffnung untersucht werden, dass der Fall repräsentativ für einen bestimmten Mechanismus ist, begründen archetypische Fallstudien die Theorie erst, die später den Zusammenhang postuliert. Sie sind also stärker induktiv orientiert als die anderen Formen und sollen helfen, überhaupt Vermutungen über den Zusammenhang von Phänomenen oder über Typen von Fällen zu formulieren, damit die Vermutungen dann später untersucht werden können. Gut nachvollziehbare Beispiele für verschiedene Strategien der Fallauswahl bietet Jahn (2006: 223 ff.). konträre Fälle entscheidende Fälle archetypische Fallstudie Lesetipps <?page no="77"?> 77 g ü t E k r I t E r I E n d E r m E s s u n g ● Weshalb ist es wichtig, die Fälle richtig auszuwählen? ● Wie unterscheidet sich die systematische Auswahl von der zufälligen Auswahl von Fällen? ● Welche Varianten der Fallauswahl sind typischerweise für welche Forschungsdesigns geeignet? Gütekriterien der Messung Nehmen wir als Sozialwissenschaftler/ innen Messungen vor, dann unterscheidet uns dabei prinzipiell nichts von Naturwissenschaftler/ innen. Kein/ e Chemiker/ in oder Physiker/ in würde bestreiten, dass es bei der empirischen Analyse der Welt notwendig ist, darauf zu achten, was gemessen wird und wie es gemessen wird. Die Qualität der vorgenommenen Messung wird dabei an drei Kriterien festgemacht, die Gütekriterien der Messung genannt werden. Die (selbst)kritische Reflektion dieser Gütekriterien der Messung gehört für den Forschenden genauso zur Forschung wie die Messung der Daten selbst. Denn wenn die Daten den Gütekriterien nicht genügen, sind u. U. die aus den Daten gezogenen Schlussfolgerungen falsch. Die drei Gütekriterien liegen dabei auf unterschiedlichen qualitativen Ebenen. Wir beschäftigen uns im Folgenden mit den drei Kriterien mit aufsteigender Qualität und erarbeiten jeweils Beispiele, die illustrieren, worauf es bei den Gütekriterien ankommt. Das basale Gütekriterium ist die Objektivität. Sie liegt dann vor, wenn das Messergebnis objektiv zustande kommt, d. h. nicht vom Messenden beeinflusst wird. Dieses Kriterium ist leicht nachvollziehbar und es ist auch leicht einzusehen, weshalb die Messung objektiv sein muss: Wenn zwei Forschende beim Anwenden des gleichen Instruments im gleichen Fall zu unterschiedlichen Ergebnissen kommen, dann stimmt etwas mit der Versuchsanordnung nicht. Entweder das Messinstrument ist aufgrund seiner Konstruktion sensibel für den Forschenden oder einer der beiden manipuliert unbewusst oder bewusst die Messung. Ein Beispiel aus der Medizin soll das verdeutlichen: Wenn etwa zwei verschiedene Krankenpfleger/ innen mit dem gleichen Quecksilberthermometer beim gleichen Behandelten sehr kurz hintereinander sehr weit auseinander liegende Temperaturen messen, dann liegt es nahe, dass mit der Messung etwas nicht stimmt. Nehmen wir an, dass eine der beiden Messungen korrekt ist, dann stimmt mit der anderen offenbar etwas nicht. Es könnte daran liegen, dass der/ die Pfle- Kontrollfragen ▼ ▲ 4.4 Objektivität <?page no="78"?> 78 m E t h o d E n d E r d a t E n E r h E B u n g ger/ in selbst einen grippalen Infekt hat und deshalb eine erhöhte Temperatur aufweist. Dadurch, dass er/ sie das Thermometer üblicherweise am Körper trägt und es danach nur sehr kurz beim Behandelten einsetzt, wurde möglicherweise aus Versehen die Messung verzerrt. Deshalb ist nur selbstverständlich, dass in den Naturwissenschaften alles getan wird, um den Einfluss des Messenden auf die Messung so gering wie möglich zu halten. Gerade in den Sozialwissenschaften ist dieses Gütekriterium wichtig, denn häufig haben wir es mit qualitativen Einschätzungen des Forschenden selbst zu tun. Hier ist die Objektivität schwieriger zu gewährleisten als in den Naturwissenschaften, weil die zu befürchtenden Verzerrungseffekte vielleicht nicht einmal bekannt sind. Ob Objektivität vorliegt, kann allerdings nicht durch Definition festgelegt werden. Vielmehr ist es wichtig, geeignete Maßnahmen zu ergreifen, die Objektivität möglichst wahrscheinlich werden lassen. Hier sind drei Dinge wichtig: Erstens muss gewährleistet sein, dass das Umfeld der Messung möglichst konstant gehalten wird, um die Beeinflussung der Messung zu minimieren - beispielsweise auch dadurch, dass man präzise festlegt, wie die Messung durchzuführen ist (man spricht hier von Durchführungsobjektivität). In unserem Beispiel mit den Krankenpflegern könnte dies dadurch erreicht werden, dass die Thermometer in einem Schrank aufbewahrt werden, in dem immer die gleiche Temperatur herrscht und aus dem die Thermometer erst kurz vor der Messung entnommen werden. Zweitens muss die Auswertung der Messung unabhängig vom Messenden sein. Hierfür bietet es sich an, mehrere Auswerter ein- und dieselbe Messung machen zu lassen, um zu unterbinden, dass die Auswertung des Zustands des Messgeräts von der Person beeinflusst wird (Auswertungsobjektivität). In unserem Beispiel wäre dies ein Thermometer, auf das zwei Pfleger/ innen gleichzeitig schauen, um zu verhindern, dass ein Ablesefehler vorliegt. Drittens muss sichergestellt sein, dass die Interpretation der Messung unabhängig von den Messenden ist (Interpretationsobjektivität). So können zwei Pfleger/ innen jeweils die gleiche Temperatur (z. B. 39,7 ° C) ablesen, aber die Anzeige unterschiedlich interpretieren (ein/ e Pfleger/ in trägt »hohes Fieber« in das Patiententagebuch ein, der/ die andere Pfleger/ in »erhöhte Temperatur«). Schwieriger zu erfüllen ist das zweite Gütekriterium, die Reliabilität (Zuverlässigkeit) von Messungen. Sie liegt dann vor, wenn das Messinstrument zuverlässige Werte liefert. Misst ein Forschender mit dem gleichen Instrument das gleiche Phänomen im gleichen Fall, muss auch das Messergebnis gleich sein. Auch dieses Kriterium ist leicht nachvollziehbar, aber ebenso schwer zu erreichen. Bestimmte Messinstrumente können beispielsweise durch vorangegangene Messungen ermüden oder gänzlich unbrauchbar sein. So kann die Feder einer Waage, welche mit einem sehr schweren Gewicht beladen ist, ausleiern und deshalb in der Folge falsche Messwerte Durchführungsobjektivität Auswertungsobjektivität Interpretationsobjektivität Reliabilität <?page no="79"?> 79 g ü t E k r I t E r I E n d E r m E s s u n g anzeigen. Auch in den Sozialwissenschaften können Instrumente »ermüden«. Beispielsweise können Probanden beim wiederholten Stellen der gleichen Interviewfrage ihre Antwort variieren, weil sie zwischen den Fragen nachgedacht haben oder schlicht, weil sie kein/ e langweilige/ r Gesprächspartner/ in sein wollen. Um Reliabilität sicherzustellen, existieren mehrere Möglichkeiten, die allerdings auch nur ex-post, d. h. nach der Messung, angewandt werden können. Hierzu zählt beispielsweise die zufällige Teilung der Messungen in zwei Gruppen, die sich nach der Messung nicht unterscheiden dürfen (Testhalbierung). Gerade bei qualitativen Messungen in den Sozialwissenschaften, bei denen es auf die qualifizierte Bewertung von Eigenschaften durch Experten ankommt, wird häufig das Test-Retest-Verfahren herangezogen. Beispielhaft hierfür ist das »Comparative Manifesto Project« (Volkens et al. 2016), welches die Position von Parteien auf dem Links-Rechts- Kontinuum dadurch misst, dass Aussagen aus den Wahlprogrammen der Parteien bewertet werden. Die Reliabilität der Daten wird dadurch erreicht, dass nicht ein Forschender beurteilt, ob bestimmte Formulierungen als »links« oder »rechts« einzustufen ist, sondern mehrere Personen unabhängig voneinander die Einschätzungen vornehmen. Durch den Vergleich der Kodierungen der Expert/ innen ergibt sich etwas wie ein »Messkonsens«, dessen Ergebnis dann den Messwert darstellt. Dieses Verfahren hat den Vorteil, gleichzeitig Objektivität und Reliabilität sicherzustellen und auch gleich häufig abweichende Experten identifizieren zu können. Dies muss nicht bedeuten, dass diese dann zwingend aus dem Projekt ausgeschlossen würden. Vielmehr kann ein Gespräch mit ihnen über die abweichende Bewertung auch Hinweise darauf liefern, weshalb bei einzelnen Aussagen Interpretationsschwierigkeiten bestehen. Insbesondere bei Mustern in den Abweichungen - man stelle sich eine Gruppe von Expert/ innen vor, die sich etwa hälftig für zwei verschiedene Interpretationen begeistert - ist Vorsicht angebracht. Dann gilt es, das Messkonzept selbst zu überprüfen. Möglich ist außerdem der Paralleltest, bei dem zwei nur leicht unterschiedliche Messkonzepte für das gleiche Phänomen angewendet werden. So ist zur Absicherung der Temperaturmessung denkbar, dass zwei Thermometer parallel (im Sinne von gleichzeitig) verwendet werden, die aus unterschiedlichen Materialien bestehen, aber auf dem gleichen Prinzip basieren (Ausdehnung von Flüssigkeit aufgrund von Temperaturschwankungen, welche sich an einer Temperaturskala ablesen lassen). Die letzte Möglichkeit besteht in der Konsistenzanalyse, die vor allem bei quantitativen Projekten verwendet wird und so etwas wie den »Notanker« darstellt, wenn die anderen drei Wege nur schwer zu beschreiten sind. Die Konsistenzanalyse basiert auf der Idee, dass man sich dem Phänomen, welches man messen möchte, über die Messung sehr vieler ähnlicher Phänomene nähert. Dies ist besonders aus schriftlichen Befragungen bekannt, in denen ganze »Itembatterien« verwendet wer- Testhalbierung Test-Retest-Verfahren Paralleltest Konsistenzanalyse <?page no="80"?> 80 m E t h o d E n d E r d a t E n E r h E B u n g den, die die interne Konsistenz des Messkonzepts sicherstellen sollen. Will man beispielsweise Erschöpfungszustände bei Arbeitnehmer/ innen feststellen, bedient man sich u. U. der folgenden Frage: Bitte bewerten Sie die folgenden Aussagen auf einer Skala von 1 (stimme zu) bis 5 (stimme nicht zu): 1 2 3 4 5 Ich bin nach der Arbeit oft müde. □ □ □ □ □ Ich fühle mich häufig antriebslos. □ □ □ □ □ Meine gute Laune verschwindet zumeist im Büro. □ □ □ □ □ Ich kann mein Leben nur am Wochenende genießen. □ □ □ □ □ Wenn ich in der Freizeit an Arbeit denke, ermatte ich oft. □ □ □ □ □ Montags bin ich meistens schon abgehetzt. □ □ □ □ □ Die Erwartung ist, dass die Probanden alle Elemente dieser Frage in etwa ähnlich beantworten. Insgesamt vermutet der Forschende, dass die sechs Variablen über viele Probanden hinweg hoch miteinander korrelieren, d. h. die Items sich gegenseitig als reliabel bestätigen. Es handelt sich lediglich um unterschiedliche Formulierungen, die aber bei der Empfängerin bzw. dem Empfänger den gleichen Anreiz hervorrufen, eine bestimmte Zahl anzukreuzen. Wenn dies zutrifft, sind die Items konsistent, d. h. sie messen offenbar das gleiche Phänomen und bestätigen sich faktisch gegenseitig. Das am schwierigsten zu befriedigende Gütekriterium ist das der Validität (Gültigkeit) der Messung. Eine Messung ist dann gültig, wenn sie das misst, was sie messen soll. Dieses Kriterium stellt höchste Anforderungen an den Forschenden, zumal in den Sozialwissenschaften, in deren Rahmen die Konzepte nicht in dem Maße festgelegt sind wie in den Naturwissenschaften. Zum Beispiel möchte ein Forschender herausfinden, wie stark Personen rechtsextremen Aussagen zustimmen. Zu diesem Zweck stellt er den Testpersonen die Frage, ob sie sich Menschen mit dunkler Hautfarbe oder mit fremder Sprache als Nachbarn im Wohnviertel vorstellen können. Hinsichtlich der Einstellung, die der Forschende messen möchte (rechtsextreme Gesinnung), ist die Frage wohl eher nicht geeignet, denn damit misst er nicht die Neigung zum Rechtsextremismus, sondern wohl eher Xenophobie (Fremdenfeindlichkeit). Allerdings ist es wahrscheinlich, dass er nicht einmal Xenophobie misst. Vermutlich lügen diejenigen Testpersonen, welche die Frage wahrheitsgemäß mit »nein« beantworten würden, da sie denken, dass »ja« die Antwort sei, die der Forschende erwartet (»soziale Validität <?page no="81"?> 81 g ü t E k r I t E r I E n d E r m E s s u n g Erwünschtheit«). Der Forschende misst also höchstwahrscheinlich weder die Neigung zum Rechtsextremismus noch die Neigung zur Fremdenfeindlichkeit, sondern eher den Mut der Testperson, sozial unerwünschte Antworten auf heikle gesellschaftliche Fragen zu geben. Validität kann aus vier Hauptperspektiven betrachtet werden. Die schwächste Form ist die Prima-facie-Validität. Sie liegt dann vor, »wenn nach den vernünftigen und wohlüberlegten Intuitionen des Forschers das Messinstrument, das zu messen scheint, was es nach der Theorie messen soll« (vgl. Behnke et al. 2010: 129). Dies klingt zunächst eher nach einer subjektiven Kategorie; allerdings ist es möglich, das Messinstrument Kolleg/ innen zur Begutachtung und Kommentierung vorzulegen. Schon schwieriger zu erzielen ist die Inhaltsvalidität. Diese wird angenommen, wenn alle Dimensionen, die das theoretische Konzept aufspannen, von der Messung abgedeckt sind. Inhaltsvalidität wird auch immer angenommen, wenn im Allgemeinen der Zusammenhang zwischen Messung und Eigenschaft klar ist. So »misst« nach allgemeiner Einschätzung beispielsweise die Prüfung eines Kraftfahrzeugs im Rahmen der Hauptuntersuchung, ob das Fahrzeug ausreichend sicher ist, um am öffentlichen Straßenverkehr teilzunehmen. Aus theoretischen Überlegungen ergibt sich die Konstruktvalidität. Diese liegt vor, wenn »aus dem Konstrukt empirisch überprüfbare Aussagen über Zusammenhänge dieses Konstrukts mit anderen Konstrukten theoretisch hergeleitet werden können und sich diese Zusammenhänge empirisch nachweisen lassen« (Schnell et al. 2013: 146). Die Idee des »Lügendetektors« basiert beispielsweise auf Konstruktvalidität (wir stellen ausdrücklich fest, dass wir uns die Idee nicht zu Eigen machen). Der »Lügendetektor« misst offenbar nicht direkt, ob der/ die Proband/ in lügt oder nicht. Vielmehr werden unterschiedliche Phänomene gemessen (Blutdruck, elektrische Leitfähigkeit der Haut, Puls) und der Versuchsleiter beobachtet, ob bzw. wie sich die Phänomene bei fortlaufendem Gespräch verändern. In der Theorie jedoch ist das Konstrukt der Lüge mit dem Konstrukt der körperlichen Aktivierung verbunden, d. h. dass der Körper in »Verteidigungsstellung« geht, wenn der Mensch lügt. Das Einnehmen der »Verteidigungsstellung« wiederum kann durch die drei o. g. Phänomene gemessen werden. Konstruktvalidität benötigt also nicht nur einen empirisch messbaren Zusammenhang zwischen dem eigentlich zu messenden Konstrukt (Lüge) und dem »Hilfskonstrukt« (Blutdruck, Leitfähigkeit, Puls), sondern auch einen theoretisch fundierten Zusammenhang (dessen Ausführung wir uns an dieser Stelle sparen). Aus rein empirischer Betrachtung hingegen ergibt sich die Kriteriumsvalidität. Diese ist dann gegeben, wenn zwischen den Ergebnissen der Messung und einem anderen empirischen Kriterium ein Zusammenhang besteht. Schnell et al. (2013: 145 f.) geben als Beispiel einen Wissenschaftler Prima-facie-Validität Inhaltsvalidität Konstruktvalidität Kriteriumsvalidität <?page no="82"?> 82 m E t h o d E n d E r d a t E n E r h E B u n g an, der wissenschaftliches Interesse von Gymnasiasten mit dem Ziel misst, vorauszusagen, ob diese ein Studium aufnehmen oder nicht (dies ist das Kriterium, mit dem die Messung verglichen wird). Dabei ist aber zu beachten, dass das Kriterium zusätzlich von weiteren Faktoren abhängen kann, z. B. dem Einkommen der Eltern, einer Studienplatzbeschränkung etc. Gütekriterien der qualitativen Sozialforschung Die vorgenannten Gütekriterien der Messung leuchten unmittelbar ein, wenn es um quantitative Verfahren geht. Hier sind Messfehler leichter zu identifizieren und zu benennen bzw. Messverfahren können auf der Grundlage statistischer Verfahren analysiert bzw. evaluiert werden, um die Messinstrumente anpassen zu können. Bei der Datenerhebung mittels qualitativer Methoden sind diese Kriterien schwierig anzuwenden. Deshalb schlagen Vertreter qualitativer Methoden andere Gütekriterien vor, die mit denen der quantitativen Methoden vergleichbar sind, aber die Besonderheiten qualitativer Studien (Zirkularität des Forschungsprozesses, niedrige Fallzahlen, interpretatives Vorgehen) berücksichtigen. Im Folgenden wird auf die Kriterien zurückgegriffen, die Mayring (2016: 144 ff.) definiert hat. Für dieses Buch werden zusätzlich sowohl Beispiele genannt und jeweils die daraus folgende »Maximalforderung« an die Gütekriterien formuliert, als auch der pragmatische Sichtweise gegenübergestellt, was qualitative Forschung hier realistischerweise leisten kann. Wichtig, aber auch kritisch ist die Nähe zum Gegenstand der Untersuchung. Der Forschende muss sich hierzu in das »natürliche Umfeld« der Phänomene begeben, um diese unverzerrt zu studieren und um künstliche Untersuchungssituationen und -anordnungen zu vermeiden. Ein Forschender aus den Bildungswissenschaften, der Kommunikation zwischen Kleinkindern untersuchen möchte, sollte sich also z. B. in die Kindertagesstätte oder auf einen Spielplatz begeben, anstatt die Kinder in seinem Universitätslabor zu beobachten, wo sie durch die Raumsituation und die allgemeine Atmosphäre eingeschüchtert oder beeinflusst werden können. Wenn Personen befragt oder beobachtet werden sollen, ist es zudem wichtig, dass die Tätigkeit des Forschenden »auf Augenhöhe« durchgeführt wird, der Forschende also nicht etwa den Eindruck vermittelt, er sei besser informiert als der Gesprächspartner. Zudem sind ethische Grundsätze bei der Durchführung der Forschung zu beachten, also z. B. die Menschenwürde der befragten/ beobachteten Personen. Am besten wäre es für den qualitativ Forschenden, wenn er eins mit dem Untersuchungsgegenstand werden könnte - allerdings bei ebenso vollständiger Aufrechterhaltung seiner Fähigkeit zur Selbstreflexion und -kritik. Typischerweise ist es für den Forschenden umso 4.5 qualitative Methoden Nähe zum Gegenstand <?page no="83"?> 83 g ü t E k r I t E r I E n d E r q u a l I t a t I V E n s o Z I a l f o r s c h u n g schwerer, seine (für die Forschung notwendige) Neutralität aufrechtzuerhalten, je tiefer er in den Forschungsgegenstand »eintaucht«. Realistisch ist allenfalls, die richtige Balance aus Empathie bzw. Nähe auf der einen Seite und Beobachtung bzw. Distanz auf der anderen Seite zu finden. Wichtig dabei ist, dass der Forschende sich kritisch selbst beobachtet und immer wieder reflektiert, ob er sich noch objektiv mit dem Gegenstand beschäftigen kann. Unerlässlich für die Nachvollziehbarkeit, aber auch die Reproduzierbarkeit von qualitativer Forschung ist die möglichst genaue und verständliche Verfahrensdokumentation. Hierfür sollte der Forschende sich nicht sofort »in die Empirie« stürzen, sondern zunächst die Ausgangslage dokumentieren, beispielsweise sein eigenes Vorverständnis. Ohne diese Informationen kann es schwierig sein, die nachfolgenden Erkenntnisse einzuordnen. Zudem muss klar ersichtlich sein, welche Fälle für die Studie ausgewählt wurden und weshalb genau diese Fälle interessant sind. Gelegentlich kann es sinnvoll sein zu dokumentieren, welche Fälle genau nicht ausgewählt wurden (und weshalb nicht). Genauso wichtig ist die konkrete Benennung der Erhebungsmethode, die Benennung der erhobenen Daten sowie der Verweis auf ggf. vorhandene Materialsammlungen. Besonders wichtig ist der Hinweis darauf, ob bestimmte Daten nicht dokumentiert sind und aus welchem Grund die Dokumentation unvollständig ist, z. B. weil eine Protokollierung nicht möglich war oder sich die Notizen als unlesbar herausgestellt haben. Weiterhin muss klar sein, wer die Daten erhoben hat und wie die Daten ausgewertet wurden, z. B. in welcher Reihenfolge oder anhand eines bestimmten Analyserasters o. ä. Ziel des Ganzen ist, dass andere Wissenschaftler mit den gleichen Daten und der gleichen Analysemethode zu identischen Ergebnissen kommen können. Da die Daten vielfach zumindest interpretationssensibel sind, ist es umso wichtiger, dass der Forschungsprozess in all seinen Schritten nachvollziehbar und verständlich dokumentiert und aufbereitet wird. Eine gute Möglichkeit, die Befunde qualitativer Forschung abzusichern, bietet die Triangulation, d. h. das Nebeneinander alternativer Herangehensweisen. Eine alternative Herangehensweise an eine Fragestellung liegt z. B. dann vor, wenn für eine Studie zu Rechtsextremismus nicht nur Personen nach ihren Gefühlen gegenüber Ausländern befragt werden, sondern zusätzlich die Mimik der Personen beobachtet wird, wenn Bilder von Menschen aus unterschiedlichen Kulturkreisen gezeigt werden. Eine alternative Herangehensweise wäre auch, die von den Versuchspersonen zuletzt gelesenen Bücher zu sichten bzw. ihren sonstigen Medienkonsum zu analysieren. Befunde können zusätzlich abgesichert werden durch die Erschließung weiterer Datenquellen zum untersuchten Phänomen bzw. zu verwandten Phänomenen. Auch die Einbeziehung weiterer Forschender in das Projekt (oder in beratender Funktion) sowie alternativer Auswertungsmethoden kann die Ergebnisse validieren. Wenn schon enorme Textmengen für eine Verfahrensdokumentation Triangulation <?page no="84"?> 84 m E t h o d E n d E r d a t E n E r h E B u n g interpretative Analyse gesammelt wurden, wieso nicht noch eine quantitative Textanalyse nachschieben bzw. sich mit einer/ m Kolleg/ in besprechen, der weitere Interpretationshinweise geben könnte? Die Maximalforderung an die Triangulation wäre die vollständige »Validierung« der bereits erzeugten Befunde durch alternative Herangehensweisen, Datenerhebung und -analyse, zusätzliche Daten, sowie die Beteiligung weiterer Personen. Im Idealfall bestätigen sich die Befunde gegenseitig und sichern so die Ergebnisse der Forschung ab. In der Praxis ist eine vollständige und umfassende Bestätigung wohl selten möglich. Daher geht es zumeist darum, zumindest Interpretationsfehler zu identifizieren bzw. darum, die Stärken verschiedener Ansätze komplementär zu nutzen. Als weitere Möglichkeit der Absicherung von Befunden beschreibt Mayring die kommunikative Validierung. Dahinter steht die Idee, die Befunde des Forschungsprojekts den Untersuchungspersonen vorzulegen und mit diesen zu diskutieren. Diese Maßnahme kann helfen, Fehlinterpretationen oder Missverständnisse des Forschenden zu identifizieren. Allerdings kann es auch passieren, dass die Untersuchungspersonen mit der Diskussion über das Forschungsprojekt überfordert sind oder sich schlicht nicht beteiligen möchten. Selbst im Falle von engagierten, hilfsbereiten Untersuchungspersonen muss dem Forschenden aber klar sein, dass auch seine Reflektion der Forschungsergebnisse mit den Untersuchungspersonen wieder einen kommunikativen Akt darstellt, der für Interpretations- oder Einschätzungsfehler anfällig ist. Sehr schwierig wird die kommunikative Validierung bei »negativen Befunden«, d. h. wenn der Forschende (fälschlicherweise) festgestellt hat, dass ein bestimmtes Phänomen nicht vorkommt. Ein fehlendes Phänomen ist schwierig kommunikativ validierbar, z. B. wenn es in der Alltagskultur der Untersuchungspersonen überhaupt nicht vorkommt. Das theoretische »Maximalziel« der kommunikativen Validierung ist also, die Gültigkeit der Interpretation des Forschenden durch das Abgleichen mit der Perspektive der Untersuchungspersonen zu »belegen«. In der Praxis kann wahrscheinlich allenfalls davon gesprochen werden, dass ein »Plausibilitätstest« mit den Untersuchungspersonen durchgeführt wird, d. h. dass die Perspektive des Forschenden von den »Insidern« als gut rekonstruiert oder »passend« eingeschätzt wird - was nicht unbedingt der Wahrheit entsprechen muss. Ein weiteres wichtiges Kriterium ist die Regelgeleitetheit, wobei dieser Begriff gewünschte Charakteristika erfasst, die gleichermaßen für qualitative und quantitative Analyseverfahren gelten. So soll der Forschende in jedem Fall systematisch vorgehen, d. h. seine Daten schrittweise und nachvollziehbar erheben und auswerten. Gerade bei der Analyse größerer, »unsortierter« Datenmengen empfiehlt es sich, die Datenanalyse in kleinere Schritte zu unterteilen und z. B. chronologisch vorzugehen oder getrennt nach zu untersuchenden Phänomenen oder Dimensionen - solange das bei kommunikative Validierung Regelgeleitetheit <?page no="85"?> 85 g ü t E k r I t E r I E n d E r q u a l I t a t I V E n s o Z I a l f o r s c h u n g den vorliegenden Daten sinnvoll ist. Das Ziel sollte immer sein, Kolleg/ innen und Interessierte, die die Studie lesen, in die Lage zu versetzen, die Analyseschritte nachvollziehen zu können, wenn sie die Rohdaten vor sich haben. Die »Maximalforderung« wäre hier, dass andere Forschende mit den gleichen Daten und den gleichen Analysemethoden zu exakt dem gleichen Ergebnis kommen wie der Forschende, der die Studie zuerst angefertigt hat - ohne dass der reproduzierende Forschende die ursprüngliche Studie selbst gelesen hat. In der geltenden Forschungspraxis geht es zumeist darum, ob für andere Forschende die Datenerhebung und -auswertung so plausibel ist, dass die Befunde als gesichert gelten können. Die Replikation (Wiederholung) ganzer Studien ist sehr selten geworden. Als letztes Gütekriterium führt Mayring die argumentative Interpretationsabsicherung an. Diese bezieht sich auf die zentrale Methode qualitativer Forschungsprojekte: die Interpretation der Daten durch den Forschenden. Sie ersetzt nach Mayring die Errechenbarkeit von Effekten in der quantitativen Forschung durch die argumentative Plausibilisierung von Zusammenhängen durch den Forschenden. Es findet also kein »Beweis« durch mathematisch-statistische Verfahren statt, sondern durch eine theoriegeleitete Argumentationskette, die keine logischen Brüche und Inkonsistenzen enthalten darf. Im »Maximalverständnis« der qualitativen Forschung ist die Kette dazu noch lückenlos, passt genau auf die zu erklärenden Phänomene und berücksichtigt benachbarte Phänomenbereiche bzw. grenzt sich von diesen eindeutig ab. Pragmatisch kann man sagen, dass das Ziel qualitativer Forschung als eine Interpretation der erforschten Phänomene in Anlehnung an die vom Forschenden gewählte Theorie beschrieben werden kann. Die »Interpretationslastigkeit« der Methoden kann jedoch dabei zu Ungenauigkeiten führen, die die Erreichung der perfekten, lückenlosen und widerspruchsfreien Argumentationskette vereitelt. Wie zu sehen ist, kann mit Recht argumentiert werden, dass für die qualitative Forschung andere Gütekriterien angelegt werden müssen als für die quantitative Forschung. Die Kriterien für »gute Forschung« sind allerdings in beiden Sphären ähnlich (systematisches Vorgehen, Objektivität, Nachvollziehbarkeit, Absicherung der Befunde), werden aber auf die unterschiedlichen Gegebenheiten angepasst. ● Welches sind die traditionellen Gütekriterien der Messung? ● Wie kann man die Zuverlässigkeit der Messung erhöhen? ● Welche Formen von Validität werden unterschieden? ● Weshalb kann man argumentieren, dass in der qualitativen Forschung andere Gütekriterien angelegt werden müssen? argumentative Interpretationsabsicherung Kontrollfragen ▼ ▲ <?page no="86"?> 86 m E t h o d E n d E r d a t E n a n a l y s E Methoden der Datenanalyse 5.1 Qualitative Inhaltsanalyse: Realismus in den IB 5.2 Qualitativ-komparative Analyse: Direkte Demokratie 5.3 Lineare Regression: Wohnungspolitik in Städten 5.4 Logistische Regression: Die Wahl der »Grünen« 5.5 Faktoranalyse: Vergleichende Demokratieforschung In den folgenden Abschnitten werden fünf Methoden der Datenanalyse anhand politikwissenschaftlicher Beispiele dargestellt. Bei der Konzeption der Abschnitte spielen die folgenden Elemente eine zentrale Rolle: ● Der Schwerpunkt liegt zunächst auf der Beschreibung der grundsätzlichen Logik der Methode. Dabei wird auch thematisiert, wie die Methode technisch funktioniert, was die Methode jeweils leisten kann - und was sie nicht leisten kann - und für welche Art von Fragen bzw. Problemen die Methode einsetzbar ist. ● Die nächste wichtige Eigenschaft der Methode ist ihr Anwendungsbereich in der Politikwissenschaft. Hier wird darauf eingegangen, welche Fragen bzw. Themenkomplexe typischerweise mit dieser Methode bearbeitet werden und ob die Methode besonders stilbildend für bestimmte Subdisziplinen der Politikwissenschaft ist. ● Einen großen Raum nimmt die schrittweise Anwendung der Analysemethode im Rahmen eines politikwissenschaftlichen Forschungsbeispiels ein. Das Buch nimmt den Leser tatsächlich »an die Hand« und arbeitet die typischen Arbeitsschritte mit dem Leser gemeinsam ab. ● Großer Wert wird auf die Nachvollziehbarkeit der einzelnen Schritte gelegt. So sind die in allen Beispielen verwendeten Daten genau benannt und öffentlich zugänglich bzw. können mit wenig Aufwand gesammelt werden. Die Leser können damit selbst arbeiten und die Methodenanwendung vom ersten bis zum letzten Schritt nachvollziehen. 5 <?page no="87"?> 87 q u a l I t a t I V E I n h a l t s a n a l y s E : r E a l I s m u s I n d E n I B Leider bedeutet eine Auswahl auch immer eine Einschränkung. So werden »nur« fünf der prominentesten Analysemethoden der Politikwissenschaft hier behandelt; viele Methoden bleiben außen vor. So werden beispielsweise einige Vertreter der klassischen quantitativen Methoden (z. B. Clusteranalyse) ausgelassen. Auch wichtige Varianten der Regressionsanalyse, etwa für Time-series-cross-sectional-Datensätze oder für Mehrebenenanalysen werden nicht behandelt, obwohl diese eine immer wichtigere Rolle im Fach spielen. Die Auswahl der hier vorgestellten Methoden ist das Ergebnis einer pragmatischen Abwägung zwischen der Bedeutung der Methoden für die Disziplin insgesamt und der inhaltlichen Tiefe, die in einem einführenden Band in die Methodenlehre eine schwierige Gratwanderung darstellt: Einerseits soll die Einführung nicht zu flach sein, andererseits soll eine Methodeneinführung nicht abschrecken. Insgesamt wurde darauf geachtet, dass sowohl qualitativen als auch quantitative Methoden sowie eine hybride Methode (QCA) vertreten sind. Qualitative Inhaltsanalyse: Realismus in den I B von Melina Lehning Wir beginnen den Streifzug durch die angewandten Methoden der Politikwissenschaft mit der qualitativen Inhaltsanalyse. Wie im Abschnitt über die Gütekriterien der Messung bereits erwähnt wurde, zeichnen sich qualitative Methoden in erster Linie durch einen zirkulär angeordneten Forschungsprozess, eine vergleichsweise niedrige Fallzahl sowie ein stärker interpretatives Vorgehen aufgrund eines offeneren Forschungsdesigns aus. Dies ermöglicht je nach Anwendungsbereich eine Vielzahl an Verfahrensweisen, die definitorische Unterschiede mit sich führen (vgl. u. a. Kuckartz 2014: 17). So lassen sich sowohl in den Sprach- und Literaturwissenschaften als auch in der Psychologie, der qualitativen Sozialforschung oder den Kommunikationswissenschaften unterschiedliche Arten qualitativer Designs finden, welche durch die »Brille« der jeweiligen Disziplin geprägt werden. Die unterschiedlichen Herangehensweisen reichen von der Untersuchung des ideologischen Gehalts von Texten (vgl. Ritsert 1972) über die Anwendung als Instrument zur Analyse von Verhalten des jeweiligen Sprechers (vgl. George 1959) bis hin zur Definition als »statistical semantics of political discourses« (vgl. Holsti 1969) oder als Rekonstruktion sozialer Prozesse (vgl. Kriz und Lisch 1978). Im Rahmen qualitativer Forschung zählt die Inhaltsanalyse neben der objektiven Hermeneutik, der Grounded Theory sowie der Diskursanalyse zu den bekanntesten Ansätzen qualitativer Forschung (vgl. Behnke et al. 2010: 343 ff.). Im Allgemeinen umfassen Inhaltsanalysen eine »Familie von 5.1 Gütekriterien der Messung qualitative Methoden <?page no="88"?> 88 m E t h o d E n d E r d a t E n a n a l y s E Verfahren zur systematischen Textanalyse« (Ramsenthaler 2013: 23), deren historischer Ursprung in der US-amerikanischen Massenkommunikationsforschung der 1920er Jahre zu verorten ist (vgl. Schramm et al. 1997; Steigleder 2008; Creswell 2014). Ausschlaggebend hierfür war die Anwendung quantitativer Inhaltsanalysen zur Untersuchung von Kriegspropaganda in den Massenmedien durch Harold Lasswell (1941) und Paul Lazarsfeld (1942). Nach Ende des Zweiten Weltkriegs lag der überwiegende Fokus auf der Überprüfung von Hypothesen und Theorien mit Hilfe quantifizierender Analysen, da qualitative Forschung als »unwissenschaftlich« eingestuft wurde (vgl. Kuckartz 2014). Einen Aufschwung erhielten qualitative Ansätze ab den 1950er Jahren durch das von Bernard Berelson (1952) veröffentlichte erste Lehrbuch, in dem er den Kern sowie die Anwendung dieser Methode beschreibt (siehe auch Lazarsfeld und Berelson 1948). Hinzu kamen Arbeiten von Siegfried Kracauer, in denen er die latente Bedeutung von Texten stärker in den Vordergrund rückte (vgl. Kracauer 1952; Wagner 2001). Er strebte damit an, nicht ausschließlich das geschriebene Wort als solches zu interpretieren. Vielmehr sollte auch ein Blick auf den Entstehungszusammenhang gerichtet werden, um den Inhalt »zwischen den Zeilen« verstehen zu können. Im deutschsprachigen Raum wurde diese Methode in erster Linie durch Jürgen Ritsert (1964) und in einer weiterentwickelten Form von Philipp Mayring (1992; 1994; 2015) geprägt. Mayring trug im Wesentlichen dazu bei, dass sich die qualitative Inhaltsanalyse auch im Hinblick auf die im Forschungskontext üblichen Aufgabenfelder der Theorie- und Hypothesenbildung sowie einer methodisch kontrollierten Auswertung von Daten zunehmend etablierte. Dabei legte er den Fokus auf die Beschreibung des systematischen Vorgehens im Zuge der Anwendung qualitativer Inhaltsanalysen, welche Texte nach bestimmten Kriterien sowie auf Grundlage einer Forschungsfrage analysiert und interpretiert (vgl. Mayring 2015: 58 f.; Creswell 2014: 198). Mit Hilfe seiner Ausarbeitung spezifischer Charakteristika grenzte er so die qualitative Inhaltsanalyse im Wesentlichen von anderen qualitativen Methoden ab. Zentral für das Verständnis einer Methode ist auch hier die jeweilige Definition. Für Philipp Mayring lässt sich diese im Hinblick auf die Anwendung qualitativer Inhaltsanalysen primär an ihrem Ziel erläutern. Demnach dienen Inhaltsanalysen im Allgemeinen dazu, das Material, welches aus »irgendeiner Art von Kommunikation stammt« (Mayring 2015: 11), in all seinen Facetten zu analysieren. Diese Form von Kommunikation im Sinne einer Übertragung von Symbolen ist stark an das kommunikationswissenschaftliche Verständnis angelehnt und basiert auf einem dreiteiligen Kommunikationsmodell: Einem Sender, von dem die Übertragung der Kommunikation ausgeht; einem Kommunikator als »Medium« dieser Übertragung und letztlich einem Empfänger, welcher zumeist die/ den Adressat/ in dar- Theorie- und Hypothesenbildung qualitative Inhaltsanalysen Definition <?page no="89"?> 89 q u a l I t a t I V E I n h a l t s a n a l y s E : r E a l I s m u s I n d E n I B stellt (vgl. u. a. Wagner 2001: 199 f.). Es geht folglich nicht um die direkte Untersuchung eines Dialogs zwischen Personen während eines Gespräches, sondern um die Analyse von Material, das beispielsweise genau diesen Dialog dokumentiert. Bei diesem mehrdimensionalen Prozess stellt die Art der Datenauswahl, also die Wahl des zu untersuchenden Kommunikators, einen entscheidenden Schritt dar. Typisch hierbei ist die Untersuchung bereits vorhandener Daten auf Grundlage einer zuvor formulierten Fragestellung, da qualitative Inhaltsanalysen lange Zeit primär zur Auswertung von (Experten)Interviews herangezogen wurden (vgl. Creswell 2014: 46). Diese werden als nicht reaktive Daten bezeichnet und umfassen bereits verschriftlichtes Material in Form von a) prozessgenerierten verbalen Daten, wie zum Beispiel Zeitungsartikeln, Protokollen und Gesetzestexten oder b) prozessgenerierten visuellen Daten wie Fotografien, Filmen und Gebäuden 1 (vgl. Behnke et al. 2010: 284 ff.). In Anlehnung an Kracauer (1952) kristallisiert sich die Einteilung in einen Kommunikationszusammenhang als ein zentrales Merkmal heraus (vgl. Mayring 2002a; 2015). Das bedeutet, dass die/ der Forschende nicht nur versucht, den Inhalt der Daten zu analysieren, sondern auch ein umfassendes Bild über den Entstehungskontext zu erhalten (vgl. Mayring 2015: 50; Lamnek 2005; Steigleder 2008: 20). Man möchte dabei die Fragen klären, um welche Art von Daten es sich handelt und wer die Person war, die diese Daten erstellt hat. Wie waren die Lebensumstände? In welcher Situation und aus welchem Grund sind sie entstanden? Wer war die/ der Adressat/ in? Im Zentrum steht somit sowohl die Untersuchung inhaltlicher als auch formaler Merkmale von Daten, da es im Gegensatz zu quantitativen Untersuchungen mehr um die Bedeutung (Kohärenz) denn um die Struktur (Kohäsion) geht (vgl. Wagner 2001: 201). Um dem Ziel gerecht zu werden, Einzelfaktoren in einem Gesamtzusammenhang zu rekonstruieren und zu analysieren sowie mit der vergleichsweisen großen Menge an Informationen umgehen zu können, handelt es sich bei qualitativen Inhaltsanalysen folglich meist um Einzelfallstudien oder Analysen mit niedriger Fallzahl (vgl. Mayring 2015: 22). Weitere Anwendungsbereiche sind Untersuchungen im Rahmen von Pilotstudien, Prozessanalysen, Klassifizierungen sowie Theorie- und Hypothesenprüfung (ebd.). Genauso wie die Wirkungsrichtung von Kommunikation variieren kann, ist es auch möglich, die Inhalte je nach Disziplin auf eine andere Art und Weise zu interpretieren. Hieraus ergibt sich eine der Stärken qualitativer Inhaltsanalysen, nämlich ihr systematisches, theorie- und regelgeleitetes Vorgehen (vgl. Mayring 2015: 50 f.). Diese Systematik basiert auf der Prä- 1 Weitere Formen der Datenerhebung sind die Bildanalysen, weniger strukturierte Beobachtungen und nicht standardisierte Interviews (vgl. Behnke et al 2010: 290). Kommunikationszusammenhang regelgeleitetes Vorgehen <?page no="90"?> 90 m E t h o d E n d E r d a t E n a n a l y s E misse, dass die Analyse des vorliegenden Materials anhand vorab festgelegter Regeln durchgeführt wird (ebd.). Das Besondere hierbei ist, dass Inhaltsanalysen zwar immer einen zirkulär angeordneten Forschungsprozess darstellen, die Umsetzung der einzelnen Analyseschritte jedoch aufgrund des offenen Charakters dieser Methode gegenüber allen Disziplinen dem vorhandenen Untersuchungsmaterial sowie der dazugehörigen Forschungsfrage angepasst werden kann. In einem engen Zusammenhang steht hierzu die Ausarbeitung eines Kategoriensystems, welches das »Herzstück« der eigentlichen Untersuchung bildet (vgl. Steigleder 2008: 30). Bereits Bernard R. Berelson (1952) wies darauf hin, dass »content analysis stands or falls by its categories (...). Since the categories contain the substance of the investigation, a content analysis can be no better than its system of categories« (ebd.: 147). Kategorien bezeichnen dabei eine bestimmte Einheit, welche innerhalb einer Klassifizierung entsprechend ihrer Ausprägungen zugeordnet wurde (vgl. u. a. Kuckartz 2014). Für die Erarbeitung eines solchen Systems ist es zunächst notwendig, inhaltsanalytische Einheiten, die sogenannten Kodier-, Kontext- und Auswertungseinheiten auf Grundlage der vorliegenden Theorie zu definieren (vgl. Mayring 2015: 51; Ramsenthaler 2013: 24). Die Bezeichnung der einzelnen Kategorien ist dabei stark an die vorhandenen Daten angelehnt. Dadurch erfolgen eine systematische Einteilung und Analyse des Materials, welche schrittweise dokumentiert werden sollte. Dies gilt auch für mögliche Rücklaufschleifen im Zuge von Probedurchläufen zur Anpassung des in einem ersten Durchlauf formulierten Kategoriensystems (vgl. Mayring 2015: 52). Behnke et al. (2012) führen hierfür das Bild einer Wendeltreppe ein, da dieses Vorgehen sowohl induktiv als auch deduktiv ohne standardisierte Instrumente erfolgen kann und dadurch einen größeren Spielraum für die eigentliche Interpretation zulässt: »Indem man über die gleichen Stellen immer wieder hinweggeht, kommt man bei jedem Durchgang ein Stückchen höher. Indem man immer wieder über die Daten hinweggeht, treibt man die Interpretation voran, abstrahiert immer ein Stückchen weiter. Stellt man fest, dass man bestimmte Aussagen ohne weitere Informationen nicht treffen kann, wählt man zusätzliche Datenträger aus und/ oder erhebt zusätzliche Daten« (Behnke et al. 2010: 337). Zwar wurde bereits im vorherigen Kapitel ausführlich auf die Gütekriterien wissenschaftlicher Forschung eingegangen. Dennoch wird gerade mit Blick auf die Bedeutung von Kategoriesystemen deutlich, dass die qualitative Inhaltsanalyse nach Mayring im Wesentlichen zur intersubjektiven Nachvollziehbarkeit und Transparenz des Forschungsprozesses beiträgt (vgl. Kategoriensystem Kategorien Gütekriterien <?page no="91"?> 91 q u a l I t a t I V E I n h a l t s a n a l y s E : r E a l I s m u s I n d E n I B Mayring 2015: 51; siehe auch Steigleder 2008). Dabei orientiert sich die Anwendung in erster Linie an den Gütekriterien der Reliabilität und der Validität ( → vgl. Abschnitt 4.4). Im Laufe der letzten Jahre erschien eine Vielzahl an Überblickswerken über das Verhältnis von qualitativer und quantitativer Forschung. Eine ausführliche und sehr aktuelle Kontrastierung beider Vorgehensweisen bietet der Diskussionsbeitrag von Schumann (2018). Sehr lesenswerte Beiträge aus dem englischsprachigen Raum stellen Creswell (2014) sowie Goertz und Mahoney (2012) dar, die eindrucksvoll Gemeinsamkeiten und Unterschiede beider Vorgehensweisen als »separate Kulturen« gegenüberstellen. Silverman (2014) deckt sowohl theoretische als auch methodische Grundlagen bei der Anwendung qualitativer Vorgehensweisen ab und geht dabei auf die einzelnen möglichen Schritte genauer ein. Eine umfassende Darstellung aller theoretischen Ansätze für die Anwendung qualitativer Methoden bieten sowohl Brüsemeister (2008) als auch Flick (2014a, b), wohingegen Jäckle (2017) die - auch technischen - Erweiterungen qualitativer und quantitativer Untersuchungsmethoden gut nachvollziehbar skizziert. Gute Gründe für eine Kombination beider Forschungen finden sich zudem bei Reinhardt (2012). Einen sehr guten Überblick über die verschiedenen qualitativen Forschungsansätze und Methoden mit Bezug zu ihren jeweiligen Forschungstraditionen und Wissenschaftskonzeptionen bieten Blatter et al. (2007). ● Was zeichnet qualitative Methoden im Unterschied zu quantitativen Methoden aus? ● Wieso spielt Kommunikation im Rahmen qualitativer Inhaltsanalysen eine zentrale Rolle? ● Welche Charakteristika qualitativer Inhaltsanalysen benennt Philipp Mayring? Wie bereits erwähnt, folgt man bei der Anwendung qualitativer Inhaltsanalysen einem systematischen Ablaufmodell. Der Forschungsprozess lässt sich in seinen Grundzügen aus der quantitativen Forschung übertragen. Wie Abbildung 1 zu entnehmen ist, umfasst das allgemeine Modell insgesamt neun Schritte. Literaturtipps Kontrollfragen ▼ ▲ Ablaufmodell <?page no="92"?> 92 m E t h o d E n d E r d a t E n a n a l y s E Der für die Anwendung qualitativer Inhaltsanalysen typische Ablauf beginnt zunächst mit der Bestimmung des Ausgangsmaterials (vgl. Mayring 2015: 54 ff.). In diesem Schritt geht es darum, zu definieren, welches Material analysiert werden soll. Dabei sieht sich der/ die Forschende je nach Fragestellung und Umfang an verfügbarem Material mit Problemen der Stichprobenziehung konfrontiert ( → vgl. Abschnitt 4.3). Da sowohl die Hintergründe des Verfassenden sowie die dabei vorliegenden Bedingungen, die ange- Analyse der Entstehungssituation Formale Charakteristika des Materials Richtung der Analyse (Autor, soziokultureller Hintergrund, Wirkung ...? ) Theoretische Differenzierung der Fragestellung Bestimmung der dazu passenden Analysetechnik Festlegung des konkreten Ablaufmodells Festlegung und Definition der Kategorien bzw. des Kategoriensystems Definition der Analyseeinheiten (Kodier-, Kontext-, Auswertungseinheit) Analyseschritte gemäß Ablaufmodell mittels Kategoriensystem Rücküberprüfung des Kategoriensystems an Theorie und Material Bei Veränderung erneuter Materialdurchlauf Zusammenstellung der Ergebnisse und Interpretation in Richtung der Fragestellung Festlegung des Materials Anwendung der inhaltsanalytischen Gütekriterien Abb. 4 Allgemeines inhaltsanalytisches Ablaufmodell (nach Mayring 2015). <?page no="93"?> 93 q u a l I t a t I V E I n h a l t s a n a l y s E : r E a l I s m u s I n d E n I B strebte Zielgruppe und die formalen Merkmale berücksichtigt werden müssen, um die Qualität des Materials im Kontext des Forschungsvorhabens beurteilen zu können, soll in einem zweiten Schritt die Entstehungssituation genauer betrachtet werden (ebd.: 57). Der dritte Schritt umfasst die Beschreibung formaler Charakteristika des Materials, bevor im darauffolgenden vierten Schritt die Richtung der Analyse definiert wird (ebd.: 58). Dies ist notwendig, um festlegen zu können, was man anhand dieser Untersuchung herausfinden möchte. Als Grundlage dient hierbei das bereits angesprochene Kommunikationsmodell. Angelehnt an die von Lasswell (1948: 33) formulierte Kommunikationskette, welche auch als Laswell’sche Formel bezeichnet wird, steht die Frage im Vordergrund, wer was über welchen Kanal zu wem sagt. In Bezug auf das Merkmal der systematischen, theorie- und regelgeleiteten Analyse folgt in Schritt fünf die Formulierung einer theoretisch begründeten inhaltlichen Fragstellung (vgl. Mayring 2015: 59). Zu berücksichtigen ist dabei ein bestimmtes Verständnis von Theorie. Demnach handelt es sich um ein System allgemeiner Sätze, welche sich auf den zu analysierenden Gegenstand beziehen (ebd.). Durch den »flexiblen« Aufbau ist es möglich, den weiteren Ablauf entsprechend anzupassen. Dies zeigt sich vor allem im darauffolgenden sechsten Schritt, in dem die notwendigen Analysetechniken festgelegt und das eigentliche Ablaufmodell erarbeiten wird (ebd.). Bereits hier kommt das für qualitative Inhaltsanalysen typische Merkmal zu tragen, wonach die Festlegung und Dokumentation der einzelnen Schritte eine ausreichende Nachvollziehbarkeit gewährleisten muss, um die letztendlichen Ergebnisse intersubjektiv nachprüfbar werden zu lassen. Mayring unterscheidet dabei zwischen drei verschiedenen Techniken, die er als Grundformen des Interpretierens bezeichnet (vgl. Mayring 2015: 67 f.; Wagner 2001: 201). Prinzipiell weisen diese Techniken in ihrer Abfolge eine hohe Ähnlichkeit mit dem allgemeinen inhaltsanalytischen Ablaufmodell auf. Die wesentlichen Unterschiede lassen sich zwischen Schritt zwei und Schritt sieben identifizieren, die sogleich den Kern jeder Analysetechnik bilden. Bei der ersten Grundform handelt es sich um die Zusammenfassung, in der das Material durch Abstraktion auf die wesentlichen Inhalte reduziert werden soll (vgl. Mayring 2015: 69 f.). Hierzu dienen wichtige Verfahrensregeln wie die Paraphrasierung, die Generalisierung oder die Reduktion. Der daraus entstehende Informationskorpus in Form von Kurztexten dient als Abbild des Ausgangsmaterials. Zu berücksichtigen ist dabei, dass sich diese drei Techniken je nach Schwerpunktsetzung weiter ausdifferenzieren lassen (vgl. Schreier 2014; Mayring 2015). Mayring erläutert das Prinzip anhand eines Gedankenexperiments, in dem man während einer Wanderung einen großen Felsbrocken entdeckt. Das weitere Vorgehen kann je nach Wahl der Technik variieren. Kommunikationsmodell Grundformen des Interpretierens Zusammenfassung <?page no="94"?> 94 m E t h o d E n d E r d a t E n a n a l y s E Für die Zusammenfassung stellt er dieses wie folgt dar: »Zunächst würde ich zurücktreten, auf eine nahe Anhöhe steigen, von wo ich einen Überblick über den Felsbrocken bekomme. Aus der Entfernung sehe ich zwar nicht mehr die Details, aber ich habe das »Ding« als Ganzes in groben Umrissen im Blickfeld, praktisch in einer verkleinerten Form (Zusammenfassung)« (Mayring 2015: 67). Demgegenüber dient die Explikation dazu, das Verständnis über einzelne Textabschnitte mit Hilfe von zusätzlichem Material zu erweitern. Dies soll dabei helfen, spezielle Textstellen besser erklären zu können. Um Unklarheiten vor allem innerhalb eines Textes beseitigen zu können, eignen sich für diesen Schritt alle Arten von Materialien, die ergänzende Hintergrundinformationen beinhalten. Dadurch ist es möglich, dass explizierte Material systematisch zu analysieren. Mayring führt sein Gedankenexperiment entsprechend fort: »Dann würde ich wieder herantreten und mir bestimmte besonders interessant erscheinende Stücke genauer ansehen. Ich würde mir einzelne Teile herausbrechen und untersuchen« (ebd.). Die dritte Grundform stellt die häufigste Art qualitativer Inhaltsanalysen dar, weshalb sie oftmals als zentrale Form bezeichnet wird (vgl. Steigleder 2008; Kuckartz 2014; Schreier 2014; Mayring 2015). Hierbei handelt es sich um die Strukturierung. Ziel einer Strukturierung ist es, wesentliche Inhalte aus dem vorliegenden Material zu extrahieren und anschließend einen Querschnitt mit Hilfe vorab festgelegter Ordnungskriterien zu erstellen. Es geht folglich darum, spezielle Kriterien zu selektieren, die ein Abbild des vorhandenen Materials darstellen. Hierbei ist sowohl ein induktives als auch ein deduktives Vorgehen möglich (vgl. Mayring 2015: 67). Sofern die entsprechenden Kriterien im Vorfeld formuliert wurden, handelt es sich um ein deduktives Verfahren. Erschließen sich diese jedoch auf Grundlage von neuen Informationen, die im Zuge der Datenbearbeitung extrahiert werden konnten, spricht man von einer induktiven Vorgehensweise (ebd). Die Kriterien, welche in diesem Fall auch Strukturierungsdimensionen genannt werden, leiten sich aus der theoretisch begründeten Fragestellung ab - dabei kann unterschieden werden zwischen einer formalen, einer inhaltlichen, einer typisierenden oder einer skalierenden Analyse (vgl. u. a. Mayring 2015: 68). Differenziert man die Strukturierungsdimensionen durch Aufteilung in ihre einzelnen Ausprägungen weiter aus, so erhält man ein umfassendes Kategoriensystem. Bezogen auf das eingeführte Gedankenexperiment mit dem Felsbrocken bedeutet dies, dass man diesen versucht aufzubrechen, »um einen Eindruck von seiner inneren Struktur zu bekommen« (Mayring 2015: 67). Mayring führt weiter aus: »Ich würde versuchen, einzelne Bestandteile zu erkennen, den Brocken zu ver- Zusammenfassung Explikation Strukturierung <?page no="95"?> 95 q u a l I t a t I V E I n h a l t s a n a l y s E : r E a l I s m u s I n d E n I B messen, seine Größe, seine Härte, sein Gewicht durch verschiedene Messoperationen feststellen« (ebd.). Nachdem man sich mit Blick auf die eigene Forschungsfrage für eine geeignete Analysetechnik entschieden hat und das Ablaufmodell entsprechend angepasst wurde, folgt die Festlegung von Analyseeinheiten (Schritt sieben). Dabei kann unterschieden werden in Kodiereinheiten, Kontexteinheiten und Auswertungseinheiten (vgl. Mayring 2015: 61). Während Kodiereinheiten den kleinsten Materialteil abbilden und in die vorhandenen Ober- und Unterkategorien einzuordnen sind, handelt es sich bei Kontexteinheiten um die größten Materialanteile. Diese werden durch Hinzunahme von zusätzlichem Material zum Verständnis der Kodiereinheiten ergänzt. Auswertungseinheiten stellen die Analyseeinheiten dar und bestimmen wiederum die Reihenfolge der auszuwertenden Bestandteile (ebd.). Im Fokus steht die Entwicklung eines Kategoriensystems, anhand dessen die Auswertung und Interpretation der Untersuchungsergebnisse erfolgt. Dieses kann während der Untersuchung aufgrund mehrerer Durchläufe kontinuierlich angepasst und erneut überprüft werden (Schritt acht). Eine genaue Definition der Kategorien und ihrer Unterkategorien ist notwendig, um Textstellen genau zuordnen zu können. Bei der Strukturierung dienen zudem Zitate als sogenannte »Ankerbeispiele«, die dem Material entnommen werden (vgl. Mayring 2015: 97). Die Aufgabe dieser Ankerbeispiele besteht darin, zu verdeutlichen, welche Inhalte den einzelnen Kategorien zugeordnet werden müssen. Hierbei gilt es stets auf die Trennschärfe der einzelnen Kategorien zu achten, sodass Textinhalte eindeutig und abgrenzbar eingeordnet werden können (ebd.; siehe auch Abschnitt 4.2). Sobald unklar ist, ob eine Textstelle einer oder sogar mehrerer Kategorien zugeordnet werden kann, sind die vorhandenen Kategorien nicht trennscharf. Tritt dies auf, muss der/ die Forschende das Kategoriensystem überarbeiten und anpassen, um mehrfache Zuordnungen und schlussendlich fehlerhafte Interpretationen zu vermeiden. Bei der Datenaufbereitung, welche zuvorderst durch die Art der Datenerhebung bestimmt wird, handelt es sich primär um das Transkribieren, Ordnen und Analysieren von Daten. Hierfür wurden in den letzten Jahren vermehrt Software entwickelt, um dieses Vorgehen vor allem bei einer großen Anzahl an Daten zu erleichtern (vgl. Behnke et al. 2010: 42 ff.; Mayring 2015: 115 f.). Dabei gilt es jedoch, je nach Untersuchungsdesign zwischen den einzelnen Programmen zu unterscheiden. So ist die Anwendung von sogenannten Wörterbüchern bei quantitativen Inhaltsanalysen geläufig, während für qualitative Inhaltsanalysen Textverarbeitungsprogramme oder Datenbankprogramme herangezogen werden, die ein eher interpretatives Vorgehen ermöglichen (ebd.). In den letzten Jahren kamen zudem weitere Programme wie ATLAS/ ti oder MAXQDA auf den Markt, die sowohl für die Trennschärfe <?page no="96"?> 96 m E t h o d E n d E r d a t E n a n a l y s E Anwendung quantitativer als auch qualitativer Forschung eingesetzt werden können. Im Anschluss folgt die Zusammenfassung und Interpretation der Ergebnisse unter Berücksichtigung der Fragestellung (Schritt neun), bevor in einem abschließenden zehnten Schritt die Anwendung der Gütekriterien und somit die letztendliche »Härteprüfung« des gewählten Untersuchungsdesigns stattfindet. Neben Mayring (1992, 2002a, 2014) findet sich mittlerweile eine Vielzahl an Autoren, die sich mit der Anwendung qualitativer Methoden beschäftigen. Hierzu zählt auch das Handbuch von Flick et al. (1995), welches einen Überblick über die Anwendung qualitativer Designs in verschiedenen Disziplinen bietet. Eine sehr gut strukturierte und leicht verständliche Abbildung des Diskurses über die Definition qualitativer Inhaltsanalysen findet sich im Lehrbuch »Methoden der Politikwissenschaft« von Behnke et al. (2010). Zusätzlich sei auf Kuckartz (2014) verwiesen, der sich unter anderem mit dem Diskurs über die Semantik des Begriffs der Kategorie auseinandersetzt. Schreier (2014) gelingt es, die unterschiedlichen Varianten qualitativer Inhaltsanalyse anhand ihrer Charakteristika gut nachvollziehbar zu strukturieren, während Steigleder (2008) die Defizite strukturierender Inhaltsanalysen präzise erläutert und hierfür eine weiterentwickelte Variante exemplarisch durchführt. Einen englischsprachigen Einblick in die Anwendung klassischer qualitativer Forschungsmethoden finden sich im Werk von Miles et al. (2014). Die Autoren unterscheiden darin die fünf Analyseverfahren Untersuchen, Beschreiben, Ordnen, Erklären und Vorhersagen im Hinblick auf unterschiedliche Forschungsdesigns und Daten. George und Bennett (2005) werfen einen genauen Blick auf Fallstudien als Teil qualitativer Untersuchungen, wohingegen Gläser und Laudel (2010) die Erarbeitung eines Interviewleidfadens sowie die Durchführung von Experteninterviews für die Anwendung qualitativer Inhaltsanalysen genauer unter die »Lupe« nehmen. ● In wie viele Schritte lässt sich die Qualitative Inhaltsanalyse nach Mayring unterscheiden? ● Weshalb und an welcher Stelle kann der Ablauf variieren? ● Worin unterscheiden sich die drei Grundformen Zusammenfassung, Explikation und Strukturierung? Literaturtipps Kontrollfragen ▼ ▲ <?page no="97"?> 97 q u a l I t a t I V E I n h a l t s a n a l y s E : r E a l I s m u s I n d E n I B Nachdem das Kapitel in seiner bisherigen Ausarbeitung einen Einblick in die verschiedenen Arten qualitativer Inhaltsanalysen gegeben hat, sollen diese nun unter Anwendung eines Beispiels aus den Internationalen Beziehungen in ihren einzelnen Analyseschritten - welche durch eigene Überschriften gekennzeichnet werden - noch einmal veranschaulicht werden. Dabei handelt es sich lediglich um eine exemplarische Durchführung, welche weder Anspruch auf Vollständigkeit erhebt noch dazu geeignet ist, die hierfür formulierte Fragestellung hinreichend beantworten zu können. Wie bereits erwähnt wurde, umfasst die erste Stufe der Inhaltsanalyse die Bestimmung der Analyseeinheit. Die politikwissenschaftliche Teildisziplin der Internationalen Beziehungen bietet hierfür im Allgemeinen eine Vielzahl an Anwendungsmöglichkeiten, da sie sich in erster Linie mit den politischen und wirtschaftlichen Beziehungen zwischen Staaten auseinandersetzt. Wesentliche Bestandteile sind verschiedene theoretische Strömungen wie der Liberalismus, der Realismus oder der (Sozial-)Konstruktivismus, die jeweils unterschiedliche Erklärungen für das Verhalten von bzw. das Verhältnis zwischen Staaten auf internationaler Ebene liefern (vgl. Lemke 2012; Auth 2015). Ein besonderes Augenmerk liegt folglich auf der Außenpolitik von Staaten, weshalb ein Beispiel aus diesem Bereich als Grundlage für die Veranschaulichung des Vorgehens einer qualitativen Inhaltsanalyse herangezogen werden soll. Bei diesem Beispiel handelt es sich um die außenpolitische Ausrichtung der Vereinigten Staaten nach Amtsantritt des im Jahr 2016 gewählten Präsidenten Donald Trump. Schon während des Wahlkampfes polarisierte er mit seinem Slogan ›America first‹ nicht nur auf nationaler, sondern auch auf internationaler Ebene. Trump lag von Beginn an viel daran, seinen politischen Kurs als einen Bruch mit der Zeit unter Barack Obama zu verstetigen. Innenpolitisch äußerte sich dies unter anderem in Form eines Kräftemessens im Haushaltsstreit zwischen Demokraten und Republikanern, in dessen Zentrum Trumps Forderungen nach einer Grenzmauer zu Mexiko stehen, die zum bisher längsten »Shutdown« in der US-amerikanischen Geschichte führten. Trumps Außenpolitik zeichnet sich durch eine provokante Rhetorik, einem ständigen Kurswechsel und einem Widerspruch zwischen seinen Ankündigungen und seinen letztendlichen Taten aus (vgl. Nerlich 2018: 52). Anzeichen hiervon lassen sich nicht nur anhand seines mittlerweile bekannten Nutzungsverhaltens des Kurznachrichtendienstes Twitter erkennen (ebd.). Auch offizielle Dokumente aus dem Weißen Haus verdeutlichen die politischen Wendungen, welche in ihrer Richtung zumeist unvorhersehbare Manöver beinhalteten. Zunächst gilt es nun, das Material zu benennen, welches im weiteren Verlauf analysiert werden soll. Im Zuge einer »normalen« Analyse umfasst dies meist eine größere Fallauswahl. Bei dem für dieses Beispiel ausgewählten Anwendungsbeispiel Bestimmung der Analyseeinheiten Festlegung des Materials <?page no="98"?> 98 m E t h o d E n d E r d a t E n a n a l y s E Untersuchungsmaterial handelt es sich zur Veranschaulichung lediglich um die im Dezember 2017 veröffentlichte nationale Sicherheitsstrategie (engl. National Security Strategy, NSS) der USA. Sie stellt eine Ausarbeitung grundlegender Prämissen und Ziele für die Bereiche dar, welche der Außen- und Sicherheitspolitik zuzuordnen sind. Die nationale Sicherheitsstrategie beinhaltet einen weiten Sicherheitsbegriff 2 , der sowohl innenals auch außenpolitische Bereiche miteinbezieht (vgl. Lemke 2012: 89 f.). Dabei handelt es sich weniger um ein Dokument im Sinne eines »innerbürokratischen Kompromisses« (Cordesman 2018, 58) als vielmehr um eine Reihe von außenpolitischen Grundprinzipien, welche die jeweilige Regierung in ihrer Handlungsrichtung kennzeichnet. Zwar kann bei der Festlegung des Analysematerials eine erste Spezifizierung vorgenommen werden, indem man festlegt, ob das gesamte Material oder nur ein Teil analysiert werden soll. Diese Eingrenzung ist für das vorliegende Beispiel indes nicht vorgesehen. Dennoch gilt es an dieser Stelle darauf hinzuweisen, dass sich die Analyse rein auf die Inhalte der Nationalen Sicherheitsstrategie von 2017 bezieht und somit losgelöst von den politischen Entwicklungen seit ihrer Veröffentlichung betrachtet wird. ● Welches Material wird untersucht? ● Wird das ganze Material oder nur eine bestimmte Auswahl analysiert? Im nächsten Schritt geht es um die Beschreibung der Umstände bei der Entstehung des Materials. Der Schwerpunkt liegt hier vor allem bei der Frage, wer das Material »produziert« hat. Zwar können in diesem Zusammenhang auch Kontextfaktoren mitberücksichtigt werden. Da dies jedoch den Rahmen dieser exemplarischen Ausarbeitung sprengen würde, beschränke ich mich zunächst auf die Autoren und ihre politische Grundhaltung. Die Erarbeitung und die Vorstellung der nationalen Sicherheitsstrategie stellt seit 1986 eine verpflichtende Maßnahme für jeden Präsidenten dar (vgl. Pfisterer 2010). Adressat ist dabei zunächst der Kongress, welcher an- 2 Steigende Militärausgaben weisen zudem darauf hin, dass der nationale Sicherheitsaspekt erneut eine stärkere Komponente in den internationalen Beziehungen darstellt (vgl. Münkler 2010; Wagner 2011; Lemke 2012). Leitfragen Analyse der Entstehungssituation <?page no="99"?> 99 q u a l I t a t I V E I n h a l t s a n a l y s E : r E a l I s m u s I n d E n I B hand dieses Dokuments über die zentralen sicherheitspolitischen Herausforderungen sowie mögliche Bestrebungen, diesen Problemen zu begegnen, in Kenntnis gesetzt werden soll (vgl. Keller 2010). Zudem richtet sich der Text an das amerikanische Volk und die internationale Gemeinschaft. Zwar wird das Dokument vom Präsidenten vorgestellt und unterzeichnet. Bei der Formulierung des Textes wirkt hingegen meist ein größerer Beraterstab mit. Im Fall der von Donald Trump am 17. Dezember 2017 veröffentlichten Nationalen Sicherheitsstrategie (NSS) spielt auch die personelle Zusammensetzung des Beratergremiums, die seitdem bereits mehrfach gewechselt hat, eine wesentliche Rolle. Als die wichtigsten Autoren für die Entstehung der Nationalen Sicherheitsstrategie von Donald Trump können Nadia Schadlow als damalige leitende Angestellte des Nationalen Sicherheitsrats sowie sein ehemaliger Sicherheitsberater und »Hardliner« in Bezug auf die Beziehungen zu Russland, Generalleutnant Herbert R. McMaster, der inzwischen durch John Bolton ersetzt wurde, benannt werden (vgl. Boot 2017; Karni 2018). Beide stammen aus dem konservativen Lager, weshalb Themen wie die Förderung des nationalen Wohlstandes, die Bekämpfung des Terrorismus und der Verbreitung von Massenvernichtungswaffen neben der Betonung einer (militärischen) Vormachtstellung der USA das Dokument maßgeblich kennzeichnen (ebd.). Sowohl Schadlow als auch McMaster achteten in der Ausarbeitung der Nationalen Sicherheitsstrategie darauf, Trumps Slogan ›America first‹ zu betonen, da »(...) die USA Stärke benötigt, um ihren internationalen Verpflichtungen zu genügen und die strategische Konkurrenzsituation sowohl mit Russland wie mit China durchzusetzen« (Cordesmann 2018: 59). Trumps Ansichten decken sich in ihrer »Robustheit« zwar nicht in allen Punkten mit denen der Autoren. Dennoch weiß er als Unternehmer genau, wie er dieses Schriftstück zu »vermarkten« hat, um das Dokument als seine politische Ausrichtung und zugleich als Kehrtwende zur Regierung unter Barack Obama zu präsentieren (vgl. Karni 2018). ● Wie entstand das Material? ● Wer sind die Personen, die das Material produziert haben? ● Welcher soziokulturelle Hintergrund liegt vor? Ein weiterer Bestandteil der physischen Beschreibung des Materials sind die formalen Charakteristika. Trumps Nationale Sicherheitsstrategie umfasst ein 55-seitiges Dokument, welches auch als PDF online verfügbar ist. Neben einer Einleitung und einer resümierenden Zusammenfassung ist der Text in Leitfragen Formale Charakteristika des Materials <?page no="100"?> 100 m E t h o d E n d E r d a t E n a n a l y s E fünf Abschnitte unterteilt. Die darin enthaltenen Angaben sind in einem Fließtext verfasst und einzelne Sinnabschnitte werden durch eine gesonderte Überschrift gekennzeichnet. Zudem befindet sich unter jeder Kapitelüberschrift ein Zitat, das die wesentlichen Punkte des jeweiligen Abschnitts zusammenfasst. Der/ die Leser/ in weiß somit bereits zu Beginn, welche »Marschrichtung« zu erwarten ist. Anhand der Länge der Kapitel lassen sich erste Vermutungen hinsichtlich der Gewichtung der einzelnen Inhalte formulieren. Demnach erläutern die Autoren auf insgesamt zwölf Seiten Grundprinzipien zur Bewahrung des Friedens durch Kraft (›Preserve Peace through Strength‹). Dabei handelt es sich um die bereits angesprochene militärische Vormachtstellung der USA, vor allem gegenüber Staaten wie Russland, China oder dem Iran sowie Ausführungen zum Thema Cyberspace, Verteidigung und Diplomatie. Der Schutz des amerikanischen Volkes und seiner Lebensweise (Kapitel 1: ›Protect the American People, the Homeland, and the American Way of Life‹) und Ausführungen zu den amerikanischen Strategien im regionalen Kontext (Kapitel 5: ›The Strategy in a regional Context‹) werden auf je zehn Seiten vorgestellt, wohingegen die Förderung des amerikanischen Wohlstandes (Kapitel 2: ›Promote American Prosperity‹) und der amerikanische Einfluss in - beispielsweise - multilateraler Foren (Kapitel 4: ›Advance American Influence‹) jeweils acht Seiten umfassen. ● In welcher Form ist das Material vorhanden? ● Wurden weitere Informationen ergänzt? Nachdem das Material beschrieben wurde, folgt nun der erste Schritt hin zur Erarbeitung einer Forschungsfrage. Dabei gilt es zunächst die Richtung, also den Fokus der Analyse, zu bestimmen. Im Fall von Donald Trump ergibt sich dabei eine Besonderheit, da er sich als »Politik-Neuling« offen gegen die üblichen Strukturen und Abläufe im politischen Alltag stellt. In seinen Wahlslogans ›Make America Great Again‹ und ›America first‹ zeichnet sich bereits das Verständnis der USA sowohl innenals auch außenpolitisch ab. Und auch die Abgrenzung zu den politischen Leitlinien seines Vorgängers Barack Obama schwingt in nahezu jedem Auftritt mit. Die Ausarbeitung der Nationalen Sicherheitsstrategie lässt, obwohl Trump nicht als maßgeblich wirkender Autor daran beteiligt war, eben diese Implikationen zu. Denn »Trump favors competition, not cooperation, and the NSS reflects that preference« (Boot 2007: 4). Leitfragen Richtung der Analyse <?page no="101"?> 101 q u a l I t a t I V E I n h a l t s a n a l y s E : r E a l I s m u s I n d E n I B Die politischen Entwicklungen in den USA lassen sich anhand eines verstärkten isolationistischen, protektionistischen und realistischen Charakters beschreiben (vgl. Lau 2017). Begriffe wie Macht und Sicherheit spielen dabei eine elementare Rolle. Außenpolitisch äußert sich dies zum Beispiel in einem veränderten Verhältnis zu Russland, welches lange Zeit als ostentative Freundschaft bezeichnet wurde (vgl. Zöttl 2018). Eine Kehrtwende erfuhr diese Beziehung durch die neue Fassung der Nationalen Sicherheitsstrategie, in der sowohl Russland als auch China als »revisionistische Mächte« bezeichnet werden (vgl. NSS 2017: 25). Trump deutet in diesem Zusammenhang auch darauf hin, dass die Beziehung zu Russland nun schlechter sei »als während des Kalten Krieges« (›worse than during cold war‹, vgl. Zöttl 2018; Edevane 2018). Zudem verweist Trump stets auf den »Bruch« mit der Politik unter Barack Obama, der Wert auf Multilateralismus und seine »Kooperationsfähigkeit in der internationalen Politik« (Lemke 2012: 144) legte. Interessant scheint in diesem Zusammenhang der Verweis auf den Realismus, der als übergeordnetes Motiv der Nationalen Sicherheitsstrategie durch Ergebnisse und nicht durch Ideologie geleitet wird (vgl. NSS 2017: 1). Dazu gilt es nicht nur die Streitkräfte zu stärken, sondern auch den Wohlstand und den Schutz des US-amerikanischen Volkes für einen starken, souveränen Staat sowie - gemäß Ronald Reagan - die Aufrechterhaltung des »Frieden durch Stärke« (NSS 2017: II) zu gewährleisten (Jeffrey 2017). Diese Punkte decken sich in gewisser Weise mit den bisherigen Sicherheitsstrategien seiner Vorgänger. Aufgrund dieser scheinbaren Ambivalenzen soll eine genauere Betrachtung der politischen Ausrichtung der NSS, allen voran des amerikanischen Selbstverständnisses, im Mittelpunkt der Analyse stehen. ● Was will der Autor sagen? ● Welches Verständnis liegt vor? ● Auf welchen Schwerpunkt ist die Analyse ausgerichtet? Die Herangehensweise bei der Formulierung der Forschungsfrage kann durch das zur Verfügung stehende Material variieren. Die wohl üblichsten Varianten sind die Literaturanalysen oder die Durchführung von Pilotstudien. Sie können dabei helfen, einerseits einen ersten Einblick in die Thematik und andererseits Hinweise auf bestehende Probleme zu erhalten. Für das vorliegende Beispielmaterial empfiehlt sich aufgrund der exemplarischen Bearbeitung eine Form der Literaturanalyse. Leitfragen Theoretische Differenzierung der Fragestellung <?page no="102"?> 102 m E t h o d E n d E r d a t E n a n a l y s E Da gleich zu Beginn der nationalen Sicherheitsstrategie auf das Leitprinzip des Realismus verwiesen wird, soll dieser als theoretischer Ausgangspunkt herangezogen werden. Denn der Realismus stand als zentrale Theorie zur Erklärung des Mächtesystems auf internationaler Ebene vor allem nach Ende des zweiten Weltkrieges im Mittelpunkt. Darin bildet der Mensch aufgrund seiner nach Macht strebenden Natur die zentrale Voraussetzung dieses theoretischen Diskurses. Die auf nationalstaatlicher Ebene existierenden Barrieren gegenüber Individuen lassen sich auf internationaler Ebene jedoch nicht auffinden. Stattdessen befinden sich die Staaten auf internationaler Ebene in einem Zustand der Anarchie, in der keine übergeordnete Macht vorhanden ist (vgl. Lemke 2012: 15). Kern dieser Theorie ist folglich das Streben nach Machterwerb und Machterhalt von Staaten in einem anarchischen System (vgl. Filzmaier et al. 2006: 73). Das oberste Ziel eines Staates stellt dabei die Verteidigung dar, da das Überleben durch andere Staaten gefährdet wird (ebd.; siehe auch Booth und Smith 1995). Infolge eines »Ausbalancieren der Großmächte« (Deitelhoff und Zürn 2016: 23) entsteht ein Machtausgleich, der das Zustandekommen von Kriegen verhindert. Da Staaten zur Sicherung ihres Territoriums stetig nach Machterhalt streben, kommt es in einem System ohne zentrales Machtmonopol zu einer Art »Selbsthilfesystem« (Filzmaier et al. 2006: 73 f.). Dies erhält auf internationaler Ebene den Charakter eines Nullsummenspiels, da der Machtzuwachs eines Staates sogleich den Machtverlust eines anderen impliziert (ebd.; siehe auch Lemke 2012). Aus diesem Grund ist es die internationale Politik, die das Erstarken eines Staates verhindern muss, um ein Machtgleichgewicht (balance of power) zu gewährleisten (vgl. Lemke 2012; Auth 2015; Deitelhoff und Zürn 2016). Zwar gibt es mittlerweile eine Vielzahl an Einführungswerken in die Theorien der Internationalen Beziehungen. Eine besonders übersichtliche und leicht verständliche Auflage über die wichtigsten Theorien der Internationalen Beziehungen stellt der etwas ältere Band von Druwe et al. (1995) dar. Eine aktuellere Fassung als Einstieg bietet Auth (2015). Zudem empfiehlt sich Krells (2009) Übersicht über die »sieben Weltbilder« bzw. Theorien in den IB. Einen genaueren Blick auf die vier Paradigmen in der Lehre der IB wirft Menzel (2001), der die Genese der einzelnen Paradigmen im zeitlichen Verlauf sehr gut abbildet. Eine kritische, vorwiegend normative Auseinandersetzung hiermit hat Schmiedl-Neuburg (2005) vorgelegt. Einen gleichen Schwerpunkt legen Booth und Smith (1995) in einer englischen Fassung, während Feske et al. (2014) die einzelnen Paradigmen mit Beispielen aus der Literaturtipps <?page no="103"?> 103 q u a l I t a t I V E I n h a l t s a n a l y s E : r E a l I s m u s I n d E n I B Praxis verknüpfen. Für eine spezifischere Betrachtung des hier vorgestellten Realismus kann der Sammelband von Joseph und Wight (2010) ans Herz gelegt werden, welcher eine gut nachvollziehbare Einbettung des Diskurses über den kritischen und wissenschaftlichen Realismus anhand von Beispielen aus den IB umfasst. Eine diskursive Gegenüberstellung des philosophischen und des wissenschaftlichen Realismus findet sich bei Rivas (2010), während sich Wagner (2011) aus demokratietheoretischer Perspektive mit dem Sicherheitsbegriff auseinandersetzt. Einer der bekanntesten Vertreter dieser Theorie ist Morgenthau (1956), dessen Verständnis sich aus der Idee des Naturzustandes nach Hobbes und dem »Krieg aller gegen alle« ableiten lässt (vgl. Lemke 2012: 15). Hieran angelehnt orientiert sich der Realismus an sechs Prinzipien, welche diese Theorieströmung bis heute prägen (vgl. Morgenthau 1956: 5 ff.). Demnach leiten objektive Gesetze sowohl die Politik als auch die Gesellschaft, deren Ursprung in dem von Natur aus gegebenen Trieb nach Macht zu finden ist (1. Prinzip). Macht als »(...) concept of interests definded as power« (Morgenthau 1956: 5) stellt im Realismus die zentrale Kategorie der Außenpolitik dar, denn »international politics, like all politics, is a struggle for power« (ebd.: 25; 2. Prinzip). Politische Interessen implizieren dabei zugleich Machtinteressen, welche schlussendlich als Handlungsgrundsatz ohne ideologische Verankerung verstanden werden können. Hieraus ergibt sich ein Machtgleichgewicht innerhalb der Internationalen Beziehungen, da dieses Machtverständnis eine universelle Gültigkeit besitzt (3. Prinzip). Zudem wird die Sicherheit des eigenen Staates nicht mit moralischem Handeln gleichgesetzt. Zwar können Politik und Moral nicht losgelöst voneinander existieren. Dennoch wird die politische Moral maßgeblich durch das Handeln im Sinne eines klugen Überprüfens geprägt (4. Prinzip). Zu berücksichtigen ist außerdem, dass nationale Prinzipien nicht verallgemeinerbar sind, weshalb ihnen kein universeller Charakter zugeschrieben werden kann (5. Prinzip). Die politische Sphäre ist dennoch autonom und grenzt sich dadurch von der wirtschaftlichen, der moralischen oder der religiösen ab (6. Prinzip). Im Hinblick auf die kurze theoretische Einführung sowie der bisherigen Ausarbeitung hinsichtlich der politischen Ausrichtung Donald Trumps ›America first‹ kann für das Beispielmaterial folgende Fragestellung abgeleitet werden: »Ist Donald Trumps nationale Sicherheitsstrategie von einem Machtverständnis im Sinne des Realismus gekennzeichnet? « <?page no="104"?> 104 m E t h o d E n d E r d a t E n a n a l y s E ● Anhand welcher Fragestellung wird das Material untersucht? Das allgemeine Ablaufmodell einer qualitativen Inhaltsanalyse nach Mayring (2015) sowie die darin enthaltenen Techniken wurden im vorherigen Abschnitt bereits erläutert (vgl. oben). Das Beispielmaterial soll hier allerdings nur anhand einer Technik bearbeitet werden. Zu berücksichtigen ist dabei, dass die Wahl einer spezifischen Technik ebenfalls die anschließende Kategorienbildung bestimmt. In unserem Fall handelt es sich um die strukturierende Inhaltsanalyse, die im Kern die Extraktion und Zusammenfassung des Materials nach speziellen Inhalten oder Themen umfasst (vgl. Steigleder 2008: 32). Sie stellt nach Mayring die »wohl zentralste inhaltsanalytische Technik« (Mayring 2015: 97) dar (siehe auch Kuckartz 2012; Schreier 2014). Die Bestimmung des Ablaufmodells ist ein wesentlicher Schritt, um die Inhaltsanalyse systematisch nachvollziehbar zu machen. Die Wahl orientiert sich an dem vorhandenen Material sowie der zuvor formulierten Fragestellung. Je nach Ablaufmodell variiert die Auswahl der Untersuchungskriterien und des Kategoriensystems, welches das Kernstück der qualitativen Inhaltsanalyse ist. Da die strukturierende Inhaltsanalyse je nach Ziel der Untersuchung in eine formale, eine typisierende, eine skalierende und eine inhaltliche Strukturierung unterschieden werden kann, sind verschiedene Vorgehensweisen möglich (vgl. Mayring 2015). Im Hinblick auf das vorliegende Beispielmaterial empfiehlt sich die Anwendung einer inhaltlichen Strukturierung, mit deren Hilfe Inhalte und Themen extrahiert und zusammengefasst werden können (vgl. Schreier 2014; Mayring 2015). Die Bestimmung des Kategoriensystems, welches anschließend - ähnlich wie bei der skalierenden Strukturierung - zur Bearbeitung des Textes herangezogen wird, erfolgt theoriegeleitet (vgl. Mayring 2015: 103). Aus diesem Grund eignet es sich sehr gut, um das Grundprinzip bei der Formulierung von Kategorien im Kontext qualitativer Analysen zu veranschaulichen. Demnach gilt es nun die Strukturierungsdimensionen festzulegen. Bei diesem Begriff handelt es sich im Wesentlichen um die kategorische Eingrenzung des Materials, die in unserem Fall nicht anhand des Textes (induktiv), sondern auf Grundlage der zuvor erläuterten Theorie, also deduktiv, erfolgt (vgl. Schreier 2014: 5). Die theoretische Ableitung dieser Dimensionen sowie deren Ausprägungen führen letztlich zur Zusammenstellung des eigentlichen Kategoriensystems, bevor Ankerbeispiele hinzugefügt und Kodierregeln ergänzt werden (vgl. Mayring 2015: 98). Da als Untersuchungsmaterial die Originalfassung der nationalen Sicherheitsstrategie betrachtet Leitfrage Bestimmung der dazu passenden Analysetechnik Festlegung des konkreten Ablaufmodells Festlegung der Kategorien Kategoriensystems <?page no="105"?> 105 q u a l I t a t I V E I n h a l t s a n a l y s E : r E a l I s m u s I n d E n I B wird, gilt es zudem die Kategorien sowie die Unterkategorien auf Englisch zu übersetzen. Mit Blick auf die theoretische Ausführung zum Realismus sowie der sich hieraus ableitenden Fragestellung lässt sich Macht (»power«) als wesentliche Kategorie ableiten, da das Prinzip der Macht bzw. das Gleichgewicht der Mächte den Grundsatz dieser Theorie darstellt. Nach Max Weber (1972: 28) umfasst Macht »(...) jede Chance, innerhalb einer sozialen Beziehung den eigenen Willen auch gegen Widerstand durchzusetzen, gleichviel worauf diese Chance beruht«. Auch Morgenthau (1956) definiert Macht als eine Form von interessengeleitetem Handeln, weshalb das staatliche Streben nach Macht folglich das oberste Ziel darstellt (siehe auch Filzmaier et al. 2006). Hieraus lässt sich die Strukturierungsdimension ›Beziehungsmacht‹ (relational power) ableiten. Um die Strukturierungsdimensionen nun anwenden zu können, ist es notwendig, diese näher zu bestimmen. Wie im vorherigen Schritt erfolgt die Beschreibung der Ausprägungen theoriegeleitet. Die dabei benannten Ausprägungen können sogleich als Unterkategorien verortet werden. Für eine übersichtliche Darstellung empfiehlt sich dabei zum Beispiel die Anwendung von Tabellen: Weiterhin gilt es in einem ersten Materialdurchlauf Ankerbeispiele für die jeweiligen Kategorien zu definieren. Hierzu werden zunächst Fundstellen im Material bestimmt, welche für die einzelnen Strukturierungsdimensionen markiert werden können. Ein zentraler Bestandteil sind dabei die Kodierregeln, die sich einerseits aus den Ausprägungen der Strukturierungsdimensionen und andererseits anhand der Bestimmung der Analyseeinheiten zusammensetzen. Mit Hilfe der Kodierregeln ist es möglich, Kategorien voneinander abzugrenzen und Textstellen mit Hilfe von zusätzlichen Informationen den richtigen Kategorien zuzuordnen. Zuvor wurde bereits erläutert, was man unter Analyseeinheiten versteht und welche im Rahmen qualitativer Inhaltsanalyse von besonderem Interesse sind. Als Kontexteinheit kann das vorhandene Material in seiner Gesamtheit, also die nationale Sicherheitsstrategie als veröffentlichtes Dokument, betrachtet werden. Auswertungseinheiten stellen wiederum die Fundstellen dar. Je nach Art der Ausarbeitung können dies einzelne Formulierung von Definitionen, Ankerbeispielen und Kodierregeln Definition der Analyseeinheiten Strukturierungsdimension Ausprägungen Beziehungsmacht (relational power) … beschreibt alle Aussagen hinsichtlich der politischen Stellung der USA gegenüber anderen Staaten. Hierzu zählen auch Begriffe wie Machterhalt (maintaining power), Machterwerb (acquisition of power), Machtmaximierung (maximization power), Machtgleichgewicht (balance of power), Bündnis/ Bündnisse (alliance/ alliances) oder Koalitionen (coalitions). Tab. 1 Strukturierung in der qualitativen Inhaltsanalyse (I) <?page no="106"?> 106 m E t h o d E n d E r d a t E n a n a l y s E Sätze oder auch Textpassagen sein. Die Kodiereinheit kann ebenfalls je nach Material, Analysetechnik und Fragestellung variieren. In unserem Fall handelt es sich bei einer Kodiereinheit um ein Wort. Nachdem die Grundvoraussetzungen für die eigentliche Analyse geschaffen wurden, folgt nun ein erster Probedurchlauf, bei dem alle Fundstellen, die entsprechend des Kodierleitfadens zugeordnet werden können, zu identifizieren sind. Das bedeutet, dass der Text gelesen und durch Unterstreichungen, farbliche Markierungen oder Randnotizen alle Textstellen, die der/ den Dimension/ en zugeordnet werden können, hervorzuheben sind. Ist es möglich, die jeweilige Fundstelle einer Dimension eindeutig zuzuordnen, kann diese als Ankerbeispiel ergänzt werden. Trifft dies nicht zu, erfolgt eine Rücküberprüfung des Kategoriensystems an der Theorie sowie dem vorhandenen Material. Sollten dabei Veränderungen vorgenommen werden, ist ein erneuter Materialdurchlauf notwendig. Für unser Beispiel lässt sich die Tabelle dadurch wie folgt ergänzen: Ein erster Probedurchlauf deutet darauf hin, dass nicht alle Fundstellen einer der bereits identifizierten Dimensionen präzise zugeordnet werden können. Grund hierfür ist einerseits, dass Macht (power) nicht nur das Verhältnis bzw. die Beziehung zwischen Staaten umfasst, in denen Staaten synonym als Macht (power) verstanden werden. Vielmehr deuten einige Abschnitte darauf hin, dass power auch eine strukturelle Komponente im Sinne von Einfluss beinhalten kann (vgl. Auth 2015: 57 f.). Folglich ist es möglich, zur Beziehungsmacht auch die Dimension Strukturmacht (structural power) ergänzend hinzuzufügen. In einem weiteren Probedurchlauf können erneut Textabschnitte identifiziert werden, die weder der einen noch der anderen Strukturierungsdimension präzise zuzuordnen sind. Ein Beispiel hierfür findet sich bereits in Analyseschritte gemäß Ablaufmodell mittels Kategoriensystem Tab. 2 Strukturierung in der qualitativen Inhaltsanalyse (II) Strukturierungsdimension Ausprägungen Ankerbeispiel Beziehungsmacht (relational power) … beschreibt alle Aussagen hinsichtlich der politischen Stellung der USA gegenüber anderen Staaten. Hierzu zählen auch Begriffe wie Machterhalt (maintaining power), Machterwerb (acquisition of power), Machtmaximierung (maximization power), Machtgleichgewicht (balance of power), Bündnis/ Bündnisse (alliance/ alliances) oder Koalitionen (coalitions). »Sustainable favourable balances of power will require a strong commitment and close cooperation with allies and partners because allies and partners magnify U. S. power and extend U. S. influence« (S. 45). »By revitalizing partnerships with reformminded nations and encouraging cooperation among partners in the region, the United States can promote stability and a ballance of power that favors U. S. interests« (S. 49). <?page no="107"?> 107 q u a l I t a t I V E I n h a l t s a n a l y s E : r E a l I s m u s I n d E n I B der Einleitung der nationalen Sicherheitsstrategie: »China and Russia challenge American power, influence, and interests, attempting to erode American security and prosperity« (NSS 2017, 2). Dieses Beispiel verdeutlicht, dass beide Dimensionen keine hinreichende Trennschärfe aufweisen, weshalb eine erneute Überarbeitung des Kategoriensystems und des Kodierleitfadens notwendig wäre. Diesen Prozess gilt es zu wiederholen, bis alle Fundstellen eindeutig zugeordnet werden konnten. Erst dann erfolgt die Aufbereitung der Ergebnisse sowie deren Interpretation auf Grundlage der vorhandenen Fragestellung, bevor im letzten Schritt die inhaltsanalytischen Gütekriterien angewendet werden ( → vgl. Abschnitt 4.4) . Wie bereits erwähnt wurde, zielt dieses Kapitel jedoch nicht darauf ab, handfeste Ergebnisse zur Beantwortung der Fragestellung zu liefern. Da dies »den Rahmen sprengen« würde, wird die weitere Bearbeitung an dieser Stelle nun beendet. Anhand dieser exemplarischen Ausführung wurde deutlich, welches Potential und welche Fallstricke in der Anwendung qualitativer Inhaltsanalysen stecken können. Dies betrifft in erster Linie aufgrund ihrer Systematik, Probleme bei der Erhebung qualitativer Daten Strukturierung in der qualitativen Inhaltsanalyse (III) Tab. 3 Strukturierungsdimension Ausprägungen Ankerbeispiel Beziehungsmacht (relational power) … beschreibt alle Aussagen hinsichtlich der politischen Stellung der USA gegenüber anderen Staaten. Hierzu zählen auch Begriffe wie Machterhalt (maintaining power), Machterwerb (acquisition of power), Machtmaximierung (maximization power), Machtgleichgewicht (balance of power), Bündnis/ Bündnisse (alliance/ alliances) oder Koalitionen (coalitions). »Sustainable favourable balances of power will require a strong commitment and close cooperation with allies and partners because allies and partners magnify U. S. power and extend U. S. influence« (S. 45). »By revitalizing partnerships with reformminded nations and encouraging cooperation among partners in the region, the United States can promote stability and a ballance of power that favors U. S. interests« (S. 49). Strukturmacht (structural power) … beschreibt alle Maßnahmen und Ziele, die zur Sicherung einer Vormachtstellung herangezogen werden (Einfluss). Zentrale Begriffe hierbei sind das nationale Interesse (national interest), Stärke (strength), Souveränität (sovereignty), Sicherheit/ Sicherheitspolitik (securi-ty/ security policy), Streitkräfte (armed forces/ forces), Schutz (protection), Wohlstand (prosperity), Bedrohung/ Bedrohungen bekämpfen (threat/ combat threats). »(…), we will preserve peace through strength by rebuilidng our military so that it remains pre-eminent, deters ours adversaries, and if necessary, is able to fight and win« (S. 4). »Overmatch strengthens our di-plomacy and permits us to shape the international environment to protect our interests« (S. 28). »It is realist because it acknowl-edges the central role of power in international politics, affirms that sovereign states are the best hope for a peaceful world, and clearly defines our national interests« (S. 55). <?page no="108"?> 108 m E t h o d E n d E r d a t E n a n a l y s E dem regelgeleiteten Vorgehen sowie der Dokumentation die Gütekriterien der Reliabilität und der Validität. Mayring (2015) betont in diesem Zusammenhang vor allem die Möglichkeit, Inhalte und deren Bedeutung zu rekonstruieren (semantische Validität, ebd.: 123 ff.). Neben der durch Systematik entstehenden festen Abfolge trägt der offene Charakter qualitativer Inhaltsanalysen zu einer flexiblen Anwendung je nach Untersuchungsgegenstand und Forschungsfrage bei, was als Gegenstandsangemessenheit bezeichnet wird. Jedoch verweist Mayring darauf, dass dies neben dem Problem einer fehlenden allgemeingültigen Definition nicht zwangsläufig dazu führen muss, Inhaltsanalysen »grenzenlos« einsetzen zu können (vgl. Mayring 2015: 130 f.; Steigleder 2008: 21). Demnach ist es zwar möglich, große Materialmengen mit Hilfe dieser Methode zu bearbeiten. Sollte aufgrund der Fragestellung oder des Gegenstandes jedoch ein eher exploratives Vorgehen notwendig sein, werden durch qualitative Inhaltsanalysen keine hinreichenden Ergebnisse erzielt (ebd.). Hinzu kommt, dass mit Blick auf die Revision des Kategoriensystems keine Vorgaben vorliegen, die eine Überarbeitung unter Berücksichtigung der Gütekriterien gewährleisten. Nach Mayring schließt folglich die Stärke der Methode (Offenheit) auch ihre größte Schwäche mit ein, da jeder der einzelnen Schritte bei der Anwendung qualitativer Inhaltsanalysen zugleich potentielle Fehlerquellen bietet. Aus diesem Grund weist er darauf hin, dass der Forschende für die Anwendung von Mixed-methods- Designs unter Hinzuziehung von quantitativen Erhebungsmethoden stets offen sein sollte (Mayring 2015: 131; Creswell 2014). Schreier (2014: 23 f.) geht sogar einen Schritt weiter, indem sie darauf verweist, dass die Vielzahl an Variationen zu einer »Begriffsinflation« führen kann. Aufgrund der verschiedenen Vorgehensweisen je nach Untersuchungsstadium schlägt sie die Anwendung eines Werkzeugkastens vor, dessen Basis die strukturierende Inhaltsanalyse bildet (ebd.: 24). Eine weitere Einschränkung stellt das vorhandene Datenmaterial dar. Zwar bleibt es den Forschenden im Rahmen qualitativer Inhaltsanalysen erspart, die zur Beantwortung der Fragestellung notwendigen Daten eigenständig erheben zu müssen. Dennoch lassen sich auch für die Verwendung von bereits vorhandenem Datenmaterial unterschiedliche Arten von Problemen wie beispielsweise Verzerrungen identifizieren, die es zu berücksichtigen gilt ( → vgl. Abschnitt 4.4 sowie Wagner 2001: 199). Dies betrifft zum einen den Prozess des Auffindens von geeignetem Material, da die Suche primär durch drei Faktoren beeinflusst wird: die Ausrichtung der Fragestellung, die vorhandenen Sachkenntnisse des Forschenden und der Zugang zu den gewünschten Quellen (vgl. Steigleder 2008: 59). Hinzu kommt der Zustand des zur Verfügung stehenden Datenmaterials. Dieser kann vor allem bei älteren Text- oder Bilddokumenten stark variieren, da die Qualität durch den Gebrauch und das Weiterreichen des Materials abnimmt oder dieses <?page no="109"?> 109 q u a l I t a t I V E I n h a l t s a n a l y s E : r E a l I s m u s I n d E n I B nicht mehr in seinem ursprünglichen Zustand vorliegt. Dies trifft auch zu, wenn beispielsweise Texte längere Zeit dem Sonnenlicht ausgesetzt waren und dadurch zunehmend verblassen. Je schlechter die Qualität des zu untersuchenden Materials, desto schwieriger ist es, hinreichende Informationen zur Beantwortung der Fragestellung zu erhalten. Neben diesen eher physischen Problemen bei der Datenerhebung spielt das Verhalten des/ der Forschenden eine nicht unwesentliche Rolle. Dies betrifft, neben eher forschungspragmatischen Gründen, das Vorwissen sowie das subjektive Forschungsinteresse, welches die Wahrnehmung hinsichtlich der Relevanz des Datenmaterials beeinflussen kann (vgl. Creswell 2014: 202). Mögliche Verzerrungen wären auch hier die Folge. Gleiches trifft auf die Wahl der erstellten Kategorien zu. Zwar erfolgt die Erstellung eines Kategoriensystems einerseits deduktiv durch die Theorie und induktiv durch die Korrektur des erarbeiteten Schemas. Dennoch besteht die Gefahr, dass durch die Fokussierung auf das vorhandene Material sowie der theoretisch angeführten Kategorienbildung lediglich eine Beschreibung statt einer ganzheitlichen Analyse stattfindet, da die Qualität des Ergebnisses immer durch das Maß an Differenzierung sowie den jeweiligen Umfang eines Kategoriensystems bestimmt wird (vgl. König 1967; Gläser und Laudel 2010; Steigleder 2008). 3 Ramsenthaler (2013: 25) spricht in diesem Zusammenhang sogar von einer theoriegeleiteten Determination der Textanalyse. Aus diesem Grund ist es unerlässlich, die gesammelten Quellen in den entsprechenden Entstehungszusammenhang einzuordnen und kritisch zu bewerten. Für die Verwendung prozessgenerierter visueller Daten ist zudem eine verbale Beschreibung notwendig. Diese gilt es jedoch bei jeder Untersuchung aufgrund von subjektiver Selektivität ebenfalls kritisch zu hinterfragen. Auf das bereits eingeführte Kommunikationsmodell übertragen bedeutet dies, dass jede Information zum einen durch das Bestreben des Erzeugers (Sender), zum andern durch die Eigenschaften des Kommunikationsträgers (Kommunikator) aber auch durch die Auffassung des Empfängers in ihrer Bedeutung beeinflusst werden kann. Trotz dieser Anzahl potentieller Fehlerquellen sollte jedoch nicht außer Acht gelassen werden, dass qualitativ erhobene Daten im Vergleich zu quantitativen Daten keineswegs eine geringere Qualität aufweisen. Aufgrund der Vielzahl an Anwendungsmöglichkeiten und Varianten zeigt sich, dass gerade die qualitative Inhaltsanalyse eine Methode ist, »(...) die auch andere nicht minder komplexe und methodisch kontrollierte Analyseverfahren erfordert« (Kuckartz 2014: 14). Die qualitative Inhaltsanalyse bleibt dabei nicht »dem Ursprungstext verhaftet«, da Informationen dem Text entnom- 3 Zur Berechnung der Intercoder-Reliabilität wird meist auf die Berechnung des Kappa-Koeffizienten nach Jacob Cohen aus dem Jahr 1960 verwiesen (siehe auch Koch und Landis 1977; Fleiss 2003). <?page no="110"?> 1 10 m E t h o d E n d E r d a t E n a n a l y s E men und anschließend weiterverarbeitet werden (vgl. Creswell 2014: 46). Zudem zeichnet sich dieses Vorgehen aufgrund der stark regelgeleiteten Systematik und des ausführlich zu dokumentierenden Kategoriensystems durch einen hohen Grad an Intersubjektivität und Transparenz aus. ● Welche Probleme können bei der Anwendung einer qualitativen Inhaltsanalyse auftreten? ● Welche Möglichkeiten gibt es, diese Probleme zu umgehen? Qualitativ-komparative Analyse: Direkte Demokratie In diesem Abschnitt wird die Qualitativ-komparative Analyse (QCA) vorgestellt. Diese von Ragin (1987) entwickelte Methode steht in der Logik zwischen qualitativen und quantitativen Methoden, denn sie kombiniert die Vorteile der auf Variablen konzentrierten Perspektive der quantitativen Methoden und der fallorientierten Perspektive der qualitativen Methoden. QCA erfreut sich wachsenden Zuspruchs in der Politikwissenschaft und wird vor allem in der vergleichenden Regierungslehre, aber auch in der Policy-Analyse angewendet. Die Methode bietet sich vor allem dann an, wenn die Zahl der in die Untersuchung einzubeziehenden Fälle im mittleren Bereich liegt; typisch sind 10-50 Fälle, aber auch Designs mit höheren Fallzahlen sind möglich und auch schon erfolgreich angewendet worden. In der politikwissenschaftlichen Forschungspraxis kommt eine solche mittlere Fallzahl häufig vor. Zumeist steckt der Forschende dann in einem echten Dilemma, denn beide »klassischen« Varianten von Untersuchungsdesigns sind ungünstig. Wir wollen das an einem Beispiel durcharbeiten. Stellen wir uns vor, dass die Rentenpolitik der EU-Mitgliedsstaaten untersucht werden soll - und zwar darauf, ob das Rentensystem beitrags- oder steuerfinanziert ist und welche Gründe dazu führen, dass ein Land das ein oder das andere System nutzt. Die EU hat 28 Mitgliedsstaaten, also wäre die Zahl der Fälle in etwa in dem Bereich, der für die QCA geeignet ist. Der Forschende hat nach der klassischen Unterscheidung zwei Möglichkeiten: ● Setzt der Forschende auf qualitative Fallstudien, sind die Ressourcen oft nicht ausreichend, um alle Fälle zu analysieren. Denn dann müssten 28 Einzelfallstudien durchgeführt werden, um auch alle Länder abzude- Kontrollfragen ▼ ▲ 5.2 <?page no="111"?> 1 1 1 q u a l I t a t I V k o m p a r a t I V E a n a l y s E : d I r E k t E d E m o k r a t I E cken. Für jedes Land müsste die Literatur gesichtet werden, um zu bestimmen, wie das Rentensystem genau funktioniert; zudem müssten z. B. die nationalen politischen Debatten bei der Einführung des Rentensystems und der wesentlichen Reformen rekonstruiert und dann in einer vergleichenden Analyse durchgearbeitet werden - eine ziemliche Arbeit bei 28 Fällen. Zudem ist die Chance groß, dass sich der Forschende beim gleichzeitigen Vergleich von 28 Fällen in den Details verliert und damit die großen Unterschiede nicht mehr wahrnimmt - oder man konzentriert sich auf die großen Unterschiede, dann droht die Analyse oberflächlich zu werden. Es liegt nahe, dem Forschenden eine Stichprobe vorzuschlagen. Dies wirft aber weitere Fragen auf: Welche der Länder sind geeignet für eine Stichprobe? Sind diese Länder repräsentativ für bestimmte Typen, die ich unterscheiden will? Kann ich auf Basis der Stichprobe noch allgemeine Aussagen über die Grundgesamtheit machen? Zudem wäre es eben keine Analyse aller EU-Mitgliedsstaaten, sondern nur eines kleinen Ausschnitts - und wir wollten explizit alle 28 Fälle untersuchen. ● Setzt der Forschende hingegen auf quantitative Methoden, wird es ebenfalls schnell eng. Denn 28 Fälle reichen für einige quantitative Methoden gerade noch so aus, um statistische Aussagen auf Basis von wenigen unabhängigen Variablen (Gründe für die Ausgestaltung des Rentensystems) machen zu können. Wird die Zahl der unabhängigen Variablen größer, drohen zum einen Datenausfälle in der Kombination einiger Länder/ Variablen, welche dazu führen, dass die entsprechenden Fälle nicht mehr in die Analyse einbezogen werden können. Zum anderen können bestimmte Methoden dann bei steigender Anzahl von unabhängigen Variablen und im besten Falle gleichbleibender Zahl von Fällen nicht mehr angewendet werden. In diese Lücke stößt die QCA, welche Merkmale beider Methodenfamilien vereint (oder, je nach Lesart, etwas vollständig anderes ist als die beiden Methodenfamilien). Dabei basiert sie auf einem streng deterministischen Kausalitätsverständnis (vgl. S. 31) und hat zum Ziel, möglichst sparsame (»parsimonious«) Erklärungen für das zu erklärende Phänomen zu finden. Dies bedeutet, dass aus einer Vielzahl von Faktoren genau die Kombination von Gründen zu isolieren versucht wird, die für die Erklärung des Phänomens ausreichend sind. Dabei ist entscheidend, dass die Methode auf die Identifikation von äquifinalen Erklärungen ausgerichtet ist, d. h. es geht darum, eventuell vorhandene gleichwertige Erklärungen für ein Phänomen zu finden. Die Methode nutzt unter Rückgriff auf die mathematische Mengenlehre allerdings andere Begriffe als in der üblichen Methodenlehre. Des- Basisidee <?page no="112"?> 1 12 m E t h o d E n d E r d a t E n a n a l y s E halb werden diese Begriffe kurz vorgestellt, bevor wir in die beispielhafte Anwendung gehen. So wird im Rahmen der Anwendung von QCA nicht von einer »abhängigen Variable« gesprochen, wenn man das Phänomen benennen möchte, welches erklärt werden soll - in der QCA wird dieses Phänomen stattdessen als »Outcome« bezeichnet. Was in bei anderen Methoden die unabhängigen Variablen sind (die die potentiellen Erklärungen für das zu erklärende Phänomen darstellen), wird bei QCA »Konditionen« oder »Bedingungen« genannt. Da QCA streng deterministisch verläuft, ist diese Benennung auch konsequent. Denn die Anwendung von QCA impliziert, dass es eine bestimmte Bedingung (Kondition) oder zumindest eine Kombination von Bedingungen gibt, die ein bestimmtes Ergebnis (Outcome) herbeiführt. Die Methode produziert nach dem Durchlauf der Empirie Aussagen wie: ● »Zustand X tritt ein, wenn Bedingung A vorliegt«. ● »Zustand X tritt ein, wenn entweder Bedingung A oder Bedingung B vorliegt«. ● »Zustand X tritt nicht ein, wenn mindestens zwei von drei Bedingungen (A, B, C) vorliegen.« ● »Zustand X tritt nicht ein, wenn Bedingung A vorliegt und entweder Bedingung B oder Bedingung C nicht vorliegt«. ● »Zustand X tritt ein, wenn genau eine der Bedingungen A und B vorliegt.« Um von der Fragestellung zum Ergebnis zu kommen, müssen idealtypisch vier Schritte durchlaufen werden. ● Zunächst müssen die Forschungsfrage formuliert sowie die Werte für Outcome und Konditionen definiert werden. ● Dann folgt die Erarbeitung der Fälle. In diesem Schritt werden zunächst die Fälle ausgewählt. Weiterhin muss in jedem Fall festgestellt werden, welche Werte der Outcome sowie die Konditionen annehmen. Dies bedeutet, dass hierfür die Rohdaten ermittelt und kodiert werden müssen. Die Fälle werden dann in einer sogenannten »Wahrheitstabelle« zusammengefasst, die alle möglichen Kombinationen der Konditionen und die entsprechenden Outcomes enthält. ● Auf Basis der Wahrheitstabelle erfolgt die Berechnung der Implikanten, d. h. die Identifikation der Kombinationen von Konditionen, die den Outcome erklären. Dies erfolgt mittels Boolscher Algebra. Dafür werden die Konditionen mit Konjunktionen verbunden, d. h. mit logischen Ausdrücken wie »UND«, »ODER«, »NICHT« usw. ● Die Implikanten können zu Hauptimplikanten verdichtet werden; dies sind Kombinationen von Konditionen, von denen keine einzige Kondition weggelassen werden kann, weil sonst der Outcome nicht mehr Ergebnis Vorgehen <?page no="113"?> 1 13 q u a l I t a t I V k o m p a r a t I V E a n a l y s E : d I r E k t E d E m o k r a t I E erklärbar wäre. Dieser Schritt macht die Informationsmenge übersichtlicher und einfacher zu interpretieren. Üblicherweise werden die Hauptimplikanten dann dazu verwendet, die endgültige Interpretation der QCA zu formulieren. Die kurze Skizze des Vorgehens zeigt, dass mit steigender Anzahl von berücksichtigten Bedingungen tendenziell auch die Komplexität der Aussagen steigt. Die Kunst ist also, die Bedingungen so auszuwählen, dass der Aufwand für Datengewinnung und Analyse sowie die Auswertung nicht uferlos ist. Gleichzeitig soll das Modell weder unterkomplex (simpel) sein, aber auch nicht vielfach verschachtelte Aussagen produzieren, deren Interpretation extrem schwer ist. An dieser Stelle ist es wichtig, darauf hinzuweisen, dass mehrere Varianten von QCA bestehen, deren Einsatz abhängig u. a. von der Forschungsfrage und der vorliegenden Datenqualität ist. Der Einfachheit halber wird in diesem Buch nur die Basisvariante der QCA besprochen, die sogenannte »crispset QCA« (abgekürzt »csQCA«). Sie basiert auf der Idee, dass sowohl der Outcome als auch alle Konditionen dichotom sind. Das bedeutet, dass sie nur zwei Zustände annehmen können, nämlich »0« (=Aussage trifft zu) und »1« (=Aussage trifft nicht zu). Damit bietet csQCA nur eine sehr grobe Unterscheidung zweier Zustände. Es ist in dieser Variante nicht möglich, Zwischenstufen zwischen den beiden Werten zu verwenden - wegen dieser harten Abgrenzung wird deshalb auch die Bezeichnung »crisp set« (= »scharfe Menge«) verwendet. Varianten der QCA Da Komplexitätsreduktion immer auch mit Informationsreduktion verbunden ist, gibt es Weiterentwicklungen von QCA, mit denen diese Probleme umgangen oder zumindest teilweise behoben werden können. Mit einer »fuzzy set QCA« (fuzzy set = unscharfe Mengen) ist es möglich, Elemente als teilweise mengenangehörig einzuordnen. Hier können Konditionen und Outcomes auch Werte zwischen 0 und 1 annehmen. Dies erlaubt es, Stufen zwischen zwei den extremen Ausprägungen zu definieren, wie es zum Beispiel Demokratieindizes tun, die nicht einfach zwischen demokratischen und nichtdemokratischen Staaten unterscheiden, sondern verschiedene Grade von Demokratiequalität abbilden möchten. Allerdings wird die Auswertung dadurch noch komplizierter und voraussetzungsvoller. Eine weitere Variante stellt die Multi-Value-QCA (mvQCA) dar, die hier ebenfalls nicht thematisiert wird. Varianten Exkurs <?page no="114"?> 1 14 m E t h o d E n d E r d a t E n a n a l y s E Sind Konditionen und Outcome noch nicht in dichotomer Form kodiert, muss in einem vorbereitenden Schritt zunächst eine Umkodierung erfolgen. Ein häufiges Verfahren ist die Definition von Schwellwerten, an denen man sich orientieren kann, wenn man die Daten in »0« und »1« umrechnen will. Es ist verführerisch, sich dabei strikt an ein mathematisches Verfahren zu halten, z. B. das arithmetische Mittel der Verteilung als Schwellenwert zu setzen oder den Mittelpunkt der Skala. Beide Verfahren stellen nicht immer eine gute Rekodierung da, wie das folgende Beispiel zeigt. Nehmen wir an, wir wollten sieben Länder in die Analyse einbeziehen. Eine Kondition, die wir verwenden möchten, ist die Arbeitslosenquote. Nehmen wir beispielsweise die folgenden Daten des Jahres 2017, die EUROSTAT zur Verfügung stellt (Tab. 4). Wenn wir die Daten für QCA nutzen wollten, müssen wir die (metrisch vorliegenden) Daten in dichotome Daten umkodieren. Aus der Variablen »Arbeitslosenquote« wird also die Kondition »Arbeitslosenquote«, genauer gesagt: die Kondition »hohe Arbeitslosenquote«. Diese liegt dann entweder nicht vor (= »0«) oder sie liegt vor (= »1«). Ginge man schematisch an die Umkodierung heran, wäre man zuerst versucht, das arithmetische Mittel (»Durchschnitt«) als Schwellenwert anzusetzen. Dieser beträgt im Beispiel 6,8 Prozent. Damit wären Deutschland, Malta, die Niederlande und Österreich Länder, in denen keine große Arbeitslosigkeit herrscht (= »0«) - die anderen Länder bekommen eine »1«. Mit Blick auf die Tabelle kann man allerdings mit dieser Lösung nicht zufrieden sein, denn jetzt sind Österreich und Belgien in unterschiedlichen Gruppen, obwohl die Werte näher beieinander sind (Differenz: 1,6 Prozentpunkte) als bei Belgien und Zypern (Differenz: 4,0 Prozentpunkte). Auch die Verwendung des Medians (mittlerer Wert) als Schwellenwert ist nicht ohne Tücke. Er ist zwar nicht so empfindlich für Extremwerte wie das arithmetische Mittel, aber es können ähnliche Probleme auftreten. Zu- Land AL-Quote Schwelle = ar. Mittel Schwelle = Median Schwelle = theor. Mitte Schwelle = EU-Mittel Deutschland 3,8 0 0 0 0 Malta 4,0 0 0 0 0 Niederlande 4,9 0 0 0 0 Österreich 5,5 0 ? 0 0 Belgien 7,1 1 1 0 0 Zypern 11,1 1 1 0 1 Italien 11,2 1 1 0 1 Tab. 4 Arbeitslosenquote 2017 <?page no="115"?> 1 15 q u a l I t a t I V k o m p a r a t I V E a n a l y s E : d I r E k t E d E m o k r a t I E dem besteht bei ungeraden Fallzahlen das Problem, dass immer unklar ist, wie der mittlere Wert kodiert werden soll, da er (naturgemäß) immer den Median darstellt. Eine dritte Option ist die Skalenmitte. Hierbei geht man davon aus, dass eine Minimalausprägung (0 % Arbeitslose) und eine Maximalausprägung (100 % Arbeitslose) existieren. Die Mitte wäre 50 %, also würden alle Länder darunter eine »0« bekommen und alle darüber eine »1«. Es ist leicht zu sehen, dass diese Variante hier nicht zielführend ist, denn alle Länder erhielten eine »0«. Bei anderen Phänomenen kann eine solche Definition des Schwellenwertes aber durchaus sinnvoll sein. Eine weitere Möglichkeit wäre, sich im Rahmen von qualitativen Verfahren an einem externen empirischen Schwellenwert zu orientieren. So betrug die Arbeitslosenquote in der Europäischen Union im Jahr 2017 insgesamt 7,6 Prozent. Demnach würde man nur Zypern und Italien als »1« kodieren, da sie eine gemessen am EU-Durchschnitt große Arbeitslosigkeit aufweisen - und alle anderen Länder als »0«. Unabhängig davon, wie man den Schwellenwert wählt, kann es immer das Problem geben, dass ein Fall exakt auf dem Schwellenwert liegt. Dies ist bei bestimmten Verfahren für die Bestimmung des mittleren Wertes wahrscheinlicher als bei anderen Verfahren. Nimmt man den Median, tritt dieses Problem natürlich immer auf, wenn es eine ungerade Anzahl von Fällen ist. In jeder Variante muss der Forschende genau begründen, wie er die Schwellenwerte setzt und warum es sich für diese Kodierung entschieden hat. Verhältnismäßig einfach ist es, wenn die Rohdaten schon dichotom vorliegen, beispielsweise »Ist ein Land Mitglied der EU oder nicht? «. Hier gibt es keine »Zwischenschritte«, die mühsam umkodiert werden müssen. Von der Kodierung kann später in der Analyse viel abhängen; deshalb ist an dieser Stelle besondere Vorsicht geboten. Nun werden die Fälle betrachtet, die Bedingungen sowie der Outcome kodiert und die Fälle in eine sogenannte »Wahrheitstabelle« eingeordnet (S. 133). Dabei werden Fälle, in denen alle Zellen (Bedingungen und Outcome) gleich sind kodiert sind, zusammengefasst, denn sie bilden die exakt gleichen Konstellationen ab. Anschließend betrachtet der Forschende die Tabelle und analysiert, welche Bedingungen vorliegen müssen, damit ein bestimmter Outcome sich einstellt. Hierfür bedient er sich der Bool’schen Algebra, welche Elemente mit logischen Operatoren (»UND« sowie »ODER«) verknüpft. Dies kann schon bei wenigen Fällen recht unübersichtlich sein, so dass sich die Verwendung einer Software dafür empfiehlt. Der Sinn der einzelnen Schritte erschließt sich besser, wenn sie anhand eines Beispiels erläutert werden. Hierzu beschäftigen wir uns mit einer etwas älteren Frage der Politikwissenschaft, nämlich weshalb bestimmte Beispiel <?page no="116"?> 1 16 m E t h o d E n d E r d a t E n a n a l y s E Länder bestimmte Polity-Elemente aufweisen und andere nicht. Konkret geht es darum, zu erklären, warum in einem Land plebiszitäre Verfahren (Volksabstimmungen, Referenden etc.) in der Verfassung festgeschrieben sind und in einem andere nicht. Hierfür greifen wir auf die Grundidee von Dahl und Tufte (1974) zurück, dass die Größe von politischen Gemeinwesen mit bestimmten Organisationsformen von Demokratie zusammenhängt. Das Kernargument besagt, dass es für kleinere Gemeinwesen sinnvoller ist, Formen der direkten Demokratie zu praktizieren als in großen Gemeinwesen. Der Grund hierfür ist, dass in kleinen Systemen zum einen die Bürger/ innen sehr viel näher an der Politik sind, d. h. ihre Eingriffsmöglichkeiten und ihre Möglichkeit zur direkten Kommunikation mit der Politik größer sind, und es zum anderen einfacher ist, sich Informationen über anstehende Entscheidungen und deren Hintergründe zu beschaffen. Das Argument klingt nachvollziehbar, und tatsächlich fallen uns spontan zur Theorie passende Länder ein: Beispielsweise weist die USA eine sehr große Einwohnerzahl auf und kennt keine Referenden auf Bundesebene. Ganz anders die Schweiz, die im Vergleich sehr viel weniger Einwohner hat, in der aber Referenden auf Bundesebene nicht nur möglich sind, sondern sogar eine wichtige Rolle im politischen System und der politischen Kultur spielen. Nehmen wir allerdings weitere Länder hinzu, ist die Lage nicht mehr ganz so eindeutig: So hat Finnland noch weniger Einwohner als die Schweiz, müsste also einen starken Hang zu Referenden haben. Tatsächlich sind diese nach der Verfassung möglich, allerdings hat in Finnland nach dem zweiten Weltkrieg nur eine einzige Volksabstimmung stattgefunden, nämlich über den Beitritt zur Europäischen Union. Auf der anderen Seite finden in Frankreich bei wichtigen Themen durchaus nationale Referenden statt, obwohl das Land eine vergleichsweise große Bevölkerung hat. Offenbar ist alleine die Einwohnerzahl noch keine ausreichende Erklärung dafür, ob in einem Land nationale Referenden nun wichtig sind oder nicht. Aus diesem Grund suchen wir weitere Ursachen dafür, warum ein Land diese Regelungen in seiner Verfassung verankert hat oder nicht. Intuitiv ergeben sich verschiedene Argumentationsmöglichkeiten, was die Erklärung des Phänomens betrifft. ● Zunächst könnte argumentiert werden, dass ein nationales Referendum ein Mittel zur Lösung eines politischen Konfliktes darstellt. Wenn es um eine wichtige Frage geht und nicht klar ist, ob die Bevölkerung die von der Politik favorisierte Lösung des Problems akzeptiert, ist ein Referendum ein guter Weg, um festzustellen, was das Wahlvolk möchte. Leider hat es den Nachteil, dass insbesondere bei knappen Entscheidungen die Gefahr besteht, dass die Bevölkerung nach dem Referendum gespalten bleibt und eine solche Abstimmung Konflikte eher schürt als sie einzu- Forschungsfrage <?page no="117"?> 1 17 q u a l I t a t I V k o m p a r a t I V E a n a l y s E : d I r E k t E d E m o k r a t I E dämmen. 4 Deshalb können widerstreitende Interessen in der Gesellschaft auch durch andere Verfahren ausgeglichen werden, beispielsweise durch die Einbindung gesellschaftlicher Gruppen oder Lager in den politischen Prozess der Gesetzgebung. Dies kann helfen, Spannungen abzubauen, einen Ausgleich zwischen unterschiedlichen Positionen zu finden und eine starke öffentliche Konfrontation zu verhindern - man sucht also einen Kompromiss und braucht dann kein Referendum mehr, das den Streit per Mehrheit entscheidet. Diese Form der politischen Entscheidungsfindung ist allerdings auch nicht immer optimal, denn sie kann dazu führen, dass im Hintergrund Einfluss ausgeübt wird, den die Wähler/ innen nicht nachvollziehen können. So kann der Eindruck entstehen, dass gut organisierte Gruppen mit starken Interessen einen größeren Einfluss auf Politik haben können als die Wähler, die eigentlich deshalb wählen gehen, weil sie eine bestimmte Politik erreichen oder verhindern möchten. Unabhängig davon, dass sowohl Referenden als auch starke Beteiligung von organisierten Interessen Vor- und Nachteile aufweisen, könnte man vermuten, dass diese beiden Konsultationsmechanismus komplementär auftreten. Es könnte also Länder geben, die sehr stark auf die Referendumslösung setzen und organisierte Interessen nur sehr eingeschränkt am Politikprozess beteiligen, während andere Länder keine Referenden kennen und deshalb die gesellschaftlichen Gruppen stark einbinden. Jetzt können wir etwas erleichterter auf Finnland schauen, das uns weiter oben noch Kopfzerbrechen bereitet hat: Es ist zwar ein kleines Land mit niedriger Bedeutung von Referenden, aber die Einbindung gesellschaftlicher Interessen in der Gesetzgebung ist in Finnland sehr stark ausgeprägt (Auffermann 2009: 250 f.). Das Problem, das wir mit Frankreich identifiziert haben, ist allerdings jetzt immer noch nicht gelöst: In Frankreich werden häufiger Referenden abgehalten, obwohl es ein großes Land ist, also könnte man vermuten, dass die Einbindung gesellschaftlicher Gruppen dann weniger stark ausgeprägt ist. Tatsächlich ist diese in Frankreich aber eher stark (Kempf 2009: 390 f.). Offenbar sind Referenden und die Einbindung von gesellschaftlichen Gruppen nicht komplementär, sondern können auch gleichzeitig vorliegen. ● Ein anderes Argument hinsichtlich Referenden orientiert sich an der Zusammensetzung der Bevölkerung. Es geht von der umgekehrten Perspektive aus: Welche Situation möchte man bei Referenden nicht gerne habe? Praktisch ist ein Referendum allemal, denn das Wahlvolk kann selbst entscheiden, was es möchte, ohne den Umweg über Wahlen zu 4 Dass ein Referendum und seine Umsetzung sehr schwierig sein können, hat der Prozess um den Austritt Großbritanniens aus der EU (»Brexit«) deutlich vor Augen geführt. <?page no="118"?> 1 18 m E t h o d E n d E r d a t E n a n a l y s E einem Parlament, in dem dann möglicherweise noch eine Koalition gebildet werden muss etc. Allerdings sind Referenden ganz klar Instrumente des Mehrheitsentscheides. Wenn in einem Volk also Teilgruppen identifiziert werden können, von denen bestimmte Gruppen grundsätzlich in der Minderheit sind, ist ein Referendum vielleicht kein gutes Mittel, um politische Konflikte zu lösen. Der Verzicht auf Referenden ist in solchen Ländern eine Maßnahme, die auf den Schutz von Minderheiten abzielt. Ein Beispiel soll das verdeutlichen: Stellen wir uns ein Land vor, in welchem 70 % der Einwohner asiatischer Herkunft und 30 % europäischer Herkunft sind. Die asiatischstämmigen Einwohner bilden also zweifelsohne die Mehrheit. Ein Führer einer radikalen »Asia only«-Partei könnte fordern, dass Tee zukünftig das einzige erlaubte Heißgetränk im Land sein sollte; es wäre verboten, Kaffee zu trinken oder über Kaffee überhaupt zu sprechen. Fände über diese Frage eine Volksabstimmung statt, könnte die teetrinkende Mehrheit die kaffeetrinkende Minderheit per demokratischem Mehrheitsentscheid (! ) ihre Trinkgewohnheiten aufherrschen. Das könnte aber nur der erste Schritt sein, man kann sich beliebig viele weitere kulturelle und politische Drangsalierungen vorstellen. Klar ist: Die größere Gruppe könnte die kleinere Gruppe ständig mit Referenden dominieren und die kleinere Gruppe hätte keine Chance, sich dagegen zu wehren, da das Referendum die höchsten demokratischen Weihen besitzt. Deshalb sind Referenden als Mittel der politischen Konfliktlösung ungeeignet, wenn die Bevölkerung sehr klar in unterschiedliche ethnische, historische, sprachliche oder sonstige kulturelle Gruppen eingeteilt werden kann, die Bevölkerung also zersplittert ist (Heterogenität). In sehr homogenen Gesellschaften hingegen stellen Referenden aus dieser Perspektive kein Problem dar. Deshalb könnte es sein, dass ein Land genau deshalb keine Referenden auf nationaler Ebene besitzt. Gerade wenn in der Geschichte des Landes der Konflikt zwischen solchen klar abgegrenzten Gruppen schon präsent war, als die Verfassung beschlossen wurde, kann es gut möglich sein, dass es eine bewusste »Designentscheidung« war, in der Verfassung Referenden eben genau nicht vorzusehen, um zu verhindern, dass es strukturelle Mehrheiten und Minderheiten gibt. Ein Beispiel hierfür ist Belgien, das strikt auf die repräsentative Demokratie setzt und faktisch keine Referenden durchführt. Belgien weist drei klar abgrenzbare Bevölkerungsgruppen (Flamen, Wallonen, deutschsprachige Belgier) und eine lange Geschichte der politischen Auseinandersetzung gerade anhand der Sprachengrenze auf. Da die flämische Gruppe ca. 60 % der belgischen Bevölkerung stellt, wäre diese - vorausgesetzt, sie würde einigermaßen geschlossen auftreten - bei Referenden immer in der Lage, die anderen beiden Gruppen zu überstimmen. <?page no="119"?> 1 19 q u a l I t a t I V k o m p a r a t I V E a n a l y s E : d I r E k t E d E m o k r a t I E ● Ein Land kann aber auch andere Mechanismen der Konfliktlösung verwenden, zum Beispiel durch Machtverteilung. Folgen wir kurz dem oben aufgeführten Beispiel mit der asiatischen Bevölkerungsmehrheit und der europäischen Minderheit. Möglicherweise gibt es noch andere klar abgrenzbare Bevölkerungsgruppen und die Gruppen sind räumlich stark konzentriert, d. h. jede Gruppe hat eine bestimmte Region, in der sie dominiert, während sie in den anderen Regionen des Landes in der Minderheit ist. In einer solchen Situation ist der Föderalismus eine Möglichkeit, Macht auf unterschiedliche Ebenen zu verteilen. So könnte jede Bevölkerungsgruppe in ihrer Region sich selbst regieren und nur bestimmte Politikbereiche (Verteidigung o. ä.) würden von der nationalen Ebene verantwortet. Wenn es politische Konflikte zwischen den Regionen gibt, werden diese dann in gemeinsamen Institutionen auf nationaler Ebene ausgetragen. Dabei werden häufig die Rechte der kleineren Einheiten durch entsprechende Festlegungen betont. Ein gutes Beispiel stellt der US-Senat dar; hier sind alle Bundesstaaten, egal welcher Einwohnerzahl, mit zwei Stimmen vertreten. Das sichert Staaten, deren Bevölkerung bei nationalen Referenden immer in der Gefahr wäre, in der Minderheit zu sein, einen erheblichen Einfluss. Alle 25 »kleinen« Bundesstaaten zusammengenommen stellen 50 der 100 Senatoren und können so letztlich einen Gesetzentwurf blockieren. 5 Diese 25 Staaten haben zusammen nach der letzten Volkszählung von 2010 ca. 51 Millionen Einwohner. Die 25 »großen« Staaten vertreten zusammen ca. 258 Millionen Einwohner, davon leben alleine 37 Millionen in Kalifornien. Letztlich bedeutet das, dass die Vertreter von 19 % der Bevölkerung gemeinsam die Vertreter der »restlichen« 81 % blockieren können. Dies ist aber gerade der Sinn dieser Konstruktion. Dass sie von den kleinen Staaten auch anderweitig »missbraucht« werden kann, beispielsweise um bei Verteilungskonflikten größere Anteile zu bekommen, als ihnen eigentlich nach der Größe zusteht, muss man dann eben hinnehmen. Für unser Beispiel bedeutet das: Wenn man den Minderheitenschutz durch solche institutionelle Arrangements verankert und den Ausgleich zwischen den Untereinheiten in den Institutionen anlegt, sind Referenden gar nicht notwendig, weil die Bürger/ innen auf mehreren Ebenen durch die Wahl von Repräsentanten Einfluss auf Politik nehmen können und das System ohnehin stärker auf Kompromisse angelegt ist. Die USA sind das traditionelle Beispiel, welches aktuell aufgrund der starken Parteipolitisierung eher nicht überzeugend ist. Aber auch Deutschland ist ein Ver- 5 Diese Darstellung ist stark vereinfacht, in Wirklichkeit ist die Mehrheitssuche im US-Senat aufgrund von Zusatzregeln (»Filibuster«, »Cloture« etc.) noch viel komplizierter. <?page no="120"?> 120 m E t h o d E n d E r d a t E n a n a l y s E treter dieser Ländergruppe, denn seine Politik ist stark vom Kompromiss und von der Kooperation der staatlichen Ebenen geprägt. ● Ein letzter Grund für die Institutionalisierung von Referenden ist die historische Entwicklung eines Landes hinsichtlich der Staatsform. Bislang haben wir das Referendum nur als weitere Möglichkeit des Volkes gesehen, seinen Mehrheitswillen in einer Abstimmung auszudrücken und damit Entscheidungsblockaden in der repräsentativen Demokratie aufzulösen oder wichtige Themen einfach selbst zu entscheiden. Dabei haben wir eine weitere Dimension gar nicht bedacht, nämlich die jeweilige spezifische Geschichte der noch bestehenden Monarchien, von denen sich die meisten mit dem demokratischen Prinzip dergestalt arrangiert haben, dass parlamentarische Monarchien entstanden sind, in denen vom Volk gewählte Parlamente Regierungen wählen, welche das Tagesgeschäft leiten, während der Monarch im Wesentlichen die Rolle des Staatsoberhaupts einnimmt. In der sehr überwiegenden Mehrzahl der Länder ist die absolute Monarchie bereits im 19. oder im frühen 20. Jahrhundert in eine konstitutionelle Monarchie übergegangen. Die Macht an ein volksgewähltes Parlament abzugeben war in vielen Ländern ein großer Schritt für die damals regierenden Fürstenhäuser, so dass die Institutionalisierung einer Volksabstimmung einen noch größeren Konflikt bedeutet hätte. Deshalb gehen wir an dieser Stelle davon aus, dass in Ländern, in denen jetzt eine konstitutionelle Monarchie besteht, plebiszitären Elemente eher sparsam eingesetzt werden. Damit haben wir unser Forschungsprojekt eingegrenzt. Wir versuchen zu erklären, weshalb bestimmte Länder starke plebiszitäre Elemente nutzen und andere nicht. Wir haben fünf Vermutungen formuliert, woran dies liegen könnte und wollen im Folgenden herausfinden, welcher Faktor ausschlaggebend ist. An einigen Stellen haben wir bereits gemerkt, dass es wohl darauf hinausläuft, dass wir am Schluss eher Kombinationen von Faktoren als Erklärungen finden als eine einzelne Erklärung. Im ersten Schritt sind vorbereitende Arbeiten notwendig. Zuerst müssen wir entscheiden, welche Länder wir untersuchen und zu welchem Zeitpunkt (Fallauswahl). Danach müssen wir überlegen, wie wir die Phänomene messen wollen (Operationalisierung). Zunächst beschäftigen wir uns mit der Fallauswahl. Um die Methode zu demonstrieren, bietet es sich an, eine mittlere Anzahl an Ländern zu wählen. Theoretisch wäre es natürlich möglich, alle Staaten der Welt zu betrachten; allerdings könnte man dieses mit QCA nicht mehr gut bewerkstelligen. Deshalb wählen wir als Ländergruppe die Mitgliedsländer der OECD aus; diese weisen ein ähnliches wirtschaftliches Entwicklungsniveau auf. Da sich bei der OECD nach dem Jahr 2000 ein deutlicher Mitgliederzuwachs Fallauswahl <?page no="121"?> 121 q u a l I t a t I V k o m p a r a t I V E a n a l y s E : d I r E k t E d E m o k r a t I E bemerkbar gemacht hat, setzen wir als Untersuchungszeitpunkt das Jahr 2000 fest. Damit haben wir dreißig Länder in unserer Fallauswahl. Danach führen wir die Operationalisierung durch. Dazu müssen wir überlegen, wie wir die Phänomene messen, mit denen wir später die Analyse durchführen wollen. In unserem Beispiel ist die Datenerhebung mit der Operationalisierung direkt verknüpft. ● Wir beginnen mit dem Outcome, d. h. dem Phänomen, welches wir hinterher erklären wollen. Hier müssen wir zunächst überlegen, wie wir Stärke der Verwendung plebiszitärer Elemente bewerten möchten. Zum Glück gibt es bereits Kollegen, die sich dieser Frage angenommen haben (Coppedge et al. 2017). Der Datensatz wird als »Varieties of Democracy« (Version 7.1) bezeichnet und enthält viele Angaben zu Ländern zu verschiedenen Zeitpunkten. Plebiszitäre Elementen werden auch aufgeführt, unter anderem, ob a) auf der nationalen Ebene Referenden durchgeführt werden müssen, wenn die Verfassung geändert werden soll (Variable v2ddlexor), b) ob Referenden in der Verfassung vorgesehen sind und ob die Abstimmung bindend ist (Variable v2ddlexpl), c) ob die Bürger/ innen selbst ein Referendum initiieren können, beispielsweise durch Sammeln von Unterschriften (Variable v2ddlexci) und d) ob bereits beschlossene Gesetze durch ein Referendum wieder zurückgenommen werden können (Variable v2ddlexrf). Alle Variablen sind im Datensatz auf einer Skala bewertet, die die Werte »2«, »1« und »0« einnehmen kann, wobei »2« für vorhandene plebiszitäre Elemente bzw. Möglichkeiten steht, »0« für fehlende Elemente bzw. Möglichkeiten und »1« für eingeschränkte Elemente bzw. Möglichkeiten. Wir berechnen zunächst den Mittelwert dieser vier Variablen und erhalten so für jedes Land einen Wert zwischen 0 und 2. ● Wir fahren fort mit der Messung der Einwohnerzahl; diese ist verhältnismäßig einfach. Hierzu übernehmen wir die entsprechenden Daten der Weltbank für das Jahr 2000. ● Die dritte Variable scheint schon schwieriger zu sein: Wie messen wir den möglichen Einfluss gesellschaftlicher Gruppen auf die Politik? Zum Glück ist auch diese Dimension im Datensatz »Varieties of Democracy« enthalten. Die Variable v2cscnsult_mean enthält die durchschnittliche Einschätzung mehrerer Experten für dieses Land zu der Frage, ob »wesentliche Organisationen der Zivilgesellschaft routinemäßig vom Gesetzgeber konsultiert werden, wenn es um Politiken geht, die ihre Mitglieder betreffen«. Auch diese Variable kann die Werte »2«, »1« und »0« annehmen. Dabei steht »2« dafür, dass »wichtige zivilgesellschaftliche Organisationen als Interessenvertreter in wichtigen Politikfeldern anerkannt werden und sich äußern können«. Eine »0« bedeutet, dass die Regierung ein hohes Maß an Abschottung gegen Einflüsse solcher Orga- Operationalisierung <?page no="122"?> 122 m E t h o d E n d E r d a t E n a n a l y s E nisationen aufweist (das Codebook des Datensatzes verwendet sogar hier den starken Begriff »insulation«). Die »1« bildet die mittlere Kategorie ab, also wenn zivilgesellschaftliche Organisationen zumindest gelegentlich ihre Positionen einbringen können. ● Die nächste Variable ist die der Heterogenität der Gesellschaft. Hier gibt es verschiedene Vorschläge, wie man Messungen vornehmen könnte (siehe z. B. Alesina et al. 2003) und auf Basis welcher Kriterien die Gruppen differenziert werden können. Eine brauchbare Messung bieten Patsiurko et al. (2011: 203), welche die Daten auch direkt zur Verfügung stellen. Die Kolleg/ innen stützen sich auf die Fragmentierung der Bevölkerung der OECD-Staaten in ethnischer, sprachlicher und religiöser Hinsicht. Für unsere Untersuchung mitteln wir die drei Werte und erhalten so einen Wert pro Land. ● Relativ einfach ist die Kategorisierung der Länder als Föderalstaaten. Die entsprechende Variable enthält eine »1«, falls das Land ein Föderalstaat ist, andernfalls eine »0«. Als Referenz dient die Einteilung von Elazar (1995: 14). ● Als letzte Variable bleibt noch die Charakterisierung der Länder als Monarchien übrig. Die entsprechende Variable enthält eine »1«, falls das Land eine Monarchie ist, andernfalls eine »0«. Die Kodierung stützt sich auf Stepan et al. (2014: 35), die alle europäischen Monarchien sowie Japan aufzählen. Zusätzlich werden Australien, Kanada und Neuseeland als Monarchien eingestuft, denn das Staatsoberhaupt ist in beiden Fällen automatisch der jeweilige Monarch des Vereinigten Königreichs. Nachdem alle Variablen operationalisiert wurden, können wir uns die Daten ansehen (siehe Tab. 5). Die fünf Konditionen sowie der Outcome sind dabei mit Großbuchstaben abgekürzt (E = Einwohner in Millionen; I = Einbindung von organisierten Interessen; H = Heterogenität der Bevölkerung; F = Föderalismus; M = Monarchie; D = Grad der direkten Demokratie). Ergänzend ist zu berücksichtigen, dass wir ein Land (Luxemburg) leider ausschließen mussten, da es nicht im Datensatz »Varieties of Democracy« enthalten ist. Damit bleiben 29 Länder übrig. Nachdem wir die Daten erhoben haben, beginnt nun der nächste große Schritt der csQCA, nämlich die Bearbeitung der Daten, d. h. die Definition der Schwellenwerte und die darauf basierende Umkodierung der Werte. Dafür müssen wir uns die Verteilung auf den Variablen genau ansehen. Wir orientieren uns an den abstrakten Überlegungen für die Definition von Schwellenwerten weiter oben. ● Zunächst beschäftigen wir uns mit dem Outcome (»D«). Hierfür haben wir anhand der Kodiervorschrift (s. o.) allen Ländern einen Wert zugewiesen. Der Mittelwert aller Länder beträgt 0,62, der Median 0,5 (bei Definition der Schwellenwerte Umkodierung <?page no="123"?> 123 q u a l I t a t I V k o m p a r a t I V E a n a l y s E : d I r E k t E d E m o k r a t I E maximal 2 Punkten). Die Institutionen direkter Demokratie sind im Vergleich zur maximalen Möglichkeit also unterentwickelt. Die Frage ist, an welchem Punkt wir nun dichotomisieren. Wir scheinen zwei Möglichkeiten zu haben: Entweder wir schneiden unter 0,5 ab oder über 0,5. Da es etwas verwegen erscheint, Länder mit einem Viertel des maximal erreichbaren Wertes noch mit dem Etikett »hoher Grad direkter Demokratie« zu versehen, schneiden wir über 0,5 ab. Dies bedeutet, dass wir 13 Länder mit »1« kodieren und 16 Länder mit »0«. Land E I H F M D Australien 19,2 1,20 0,4404 1 1 0,75 Belgien 10,3 1,83 0,4946 1 1 0,50 Dänemark 5,3 2,00 0,1186 0 1 1,00 Deutschland 82,2 1,83 0,3736 1 0 0,25 Finnland 5,2 2,00 0,1851 0 0 0,25 Frankreich 60,9 1,67 0,2787 0 0 0,75 Griechenland 10,8 1,20 0,1249 0 0 0,50 Irland 3,8 1,40 0,1143 0 0 1,00 Island 0,3 2,00 0,1221 0 0 0,50 Italien 56,9 1,50 0,1793 0 0 0,75 Japan 126,8 1,33 0,1535 0 1 0,25 Kanada 30,8 1,80 0,6741 1 1 0,25 Mexiko 101,7 1,40 0,3075 1 0 0,00 Neuseeland 3,9 1,83 0,5181 0 1 1,00 Niederlande 15,9 2,00 0,3662 0 1 0,25 Norwegen 4,5 2,00 0,1477 0 1 0,25 Österreich 8,0 1,40 0,2727 1 0 0,75 Polen 38,3 2,00 0,1402 0 0 0,75 Portugal 10,3 1,33 0,1350 0 0 0,50 Schweden 8,9 1,20 0,3314 0 1 0,50 Schweiz 7,2 2,00 0,5254 1 0 1,50 Slowakei 5,4 1,80 0,3329 0 0 1,75 Spanien 40,6 1,75 0,4216 1 1 0,50 Südkorea 47,0 1,57 0,3033 0 0 0,75 Tschechien 10,3 1,50 0,4029 0 0 0,25 Türkei 63,2 0,50 0,4118 0 0 0,75 U. K. 58,9 1,40 0,2980 0 1 0,25 Ungarn 10,2 1,25 0,3269 0 0 1,50 USA 282,2 1,88 0,5161 1 0 0,00 Tab. 5 Faktorenübersicht für die QCA <?page no="124"?> 124 m E t h o d E n d E r d a t E n a n a l y s E ● Die bislang kodierte Einwohnerzahl müssen wir nun dichotomisieren. Die Bedingung lautet also: »Handelt es sich um ein Land mit großer Einwohnerzahl? « (»E«) Es wird schnell deutlich, dass wir mit dem arithmetischen Mittelwert (er beträgt 38,9 Millionen Einwohner) nicht weit kommen. Denn neun Länder haben deutlich mehr Einwohner (Deutschland, Frankreich, Italien, Japan, Mexiko, Südkorea, die Türkei, das Vereinigte Königreich und die USA), während zwei Länder wenigstens einigermaßen in der Nähe des arithmetischen Mittels liegen (Polen und Spanien). Der Rest der Länder hat deutlich weniger Einwohner bzw. eine sehr kleine Anzahl. Das arithmetische Mittel würde die Gruppe in 10 große und 19 kleine Länder teilen, wobei die Grenze zwischen ähnlich großen Ländern hindurchgehen würde (Spanien mit 40,6 und Polen mit 38,9 Millionen Einwohnern). Der Median der Verteilung, der nicht so stark auf Ausreißer reagiert, liegt bei 10,8 Millionen (Griechenland). Wie wir sehen können, ist danach ein größerer »Sprung« in den Daten zu verzeichnen, denn das nächstgrößere Land hat bereits 15,9 Millionen (Niederlande). Wir setzen deshalb die Grenze zwischen 10,8 Millionen und 15,9 Millionen an, d. h. alle Länder über 10,8 Millionen Einwohner sind große Länder und erfüllen deshalb die Bedingung (Wert »1«); alle Länder unter 15,9 Millionen Einwohner sind kleine Länder und erfüllen die Bedingung nicht (Wert »0«). Damit erhalten wir 14 Länder, die die Bedingung erfüllen und 15 Länder, die die Bedingung nicht erfüllen. ● Wenden wir uns der zweiten Bedingung zu: »Werden organisierte Interessen regelmäßig einbezogen? « (»I«) Wie bereits weiter oben dargestellt, bewegen sich die Werte hier zwischen 0 (keine Einbindung) und 2 (starke Einbindung), wobei die Urteile mehrerer Experten hier gemittelt sind. Das arithmetische Mittel der Rohdaten beträgt 1,61; der Median liegt bei 1,67. Es liegt also nahe, hier die Grenze zu ziehen. Leider haben wir eine ungerade Zahl von Fällen, d. h. das Land mit dem Wert 1,67 (Frankreich) liegt genau auf der Grenze. Der Abstand zu den nächsten Fällen nach oben und unten ist fast gleich groß; diese Regel bietet also auch keine Entscheidungshilfe. Allerdings liegt der »runde« Wert von 1,5 sehr nahe, und dieser hat eine schöne Relation zum Maximalwert 2: Er ist genau drei Viertel davon. Deshalb legen wir fest: Über einem Wert von 1,5 gehen wir von einer regelmäßigen Beteiligung organisierter Interessen aus (und kodieren entsprechend Wert »1«), allen anderen Ländern geben wir den Wert »0«. Damit erhalten wir 16 Länder, die die Bedingung erfüllen und 13 Länder, die die Bedingung nicht erfüllen. ● Hinsichtlich der Heteorigenität ist die Entscheidung über den Schwellenwert ebenfalls nicht einfach. Die zu kodierende Bedingung lautet hier: »Ist die Gesellschaft heterogen? « (»H«) Die Heterogenität wird, wie oben bereits diskutiert, durch den eingeführten Index der Fraktionalisierung <?page no="125"?> 125 q u a l I t a t I V k o m p a r a t I V E a n a l y s E : d I r E k t E d E m o k r a t I E operationalisiert. Das arithmetische Mittel (0,31) trifft ziemlich exakt den Median (0,308), also läge es nahe, hier die Grenze zu ziehen. Allerdings würde diese genau durch eine größere Gruppe von Ländern laufen, die sehr ähnliche Werte aufweisen (insgesamt acht Länder liegen fast gleichmäßig verteilt zwischen 0,33 und 0,27). Beim Betrachten der Daten fällt indes auf, dass zwischen Finnland (0,19) und Österreich (0,27) ein größerer Sprung in den Daten besteht - diesen verwenden wir als Schwellenwert. Wir kodieren also alle Länder mit einem Fraktionalisierungsgrad >0,19 als Länder mit hoher Fraktionalisierung (»1« in der Tabelle) und alle anderen Länder mit »0«. Damit haben wir 19 Länder, die die Bedingung erfüllen und 10 Länder, die die Bedingung nicht erfüllen. ● Die Kodierung der nächsten Bedingung ist relativ simpel. Es handelt sich um die Bedingung »Ist das Land ein Föderalstaat? « (»F«) Nach einem Blick auf die Referenz (Elazar, s. o.) kodieren wir Föderalstaaten mit »1« und alle anderen Staaten mit »0«. Damit erfüllen neun Staaten die Bedingung, zwanzig Staaten hingegen nicht. ● Ebenso einfach ist die Kodierung der letzten Bedingung: »Ist das Land eine konstitutionelle Monarchie? « (»M«) Auch hier kodieren wir Länder, auf die dies zutrifft, mit »1« und alle anderen mit »0«. Somit erhalten wir 11 Länder, auf die das zutrifft sowie 18 Länder, die Republiken sind. Damit erhalten wir die neue Tab. 6, mit der wir nun in unserer QCA fortfahren können. Da nun die Rekodierung abgeschlossen ist, folgt die Datenanalyse. Hierzu nutzen wir die Software »fsQCA«, die im Internet frei verfügbar ist. 6 Der erste Schritt der Datenanalyse besteht im Aufsetzen der Wahrheitstabelle. Hierzu generieren wir zunächst eine Liste mit allen möglichen Kombinationen von Bedingungen, dies sind bei 5 Bedingungen, die jeweils dichotom kodiert sind, insgesamt 2 5 =32 Möglichkeiten. Diese werden von der Software generiert und danach werden die tatsächlichen Fälle den Kombinationen zugeordnet. Aus Gründen der Übersichtlichkeit machen wir dies allerdings hier noch per Hand. Daraus ergibt sich folgende Wahrheitstabelle (Tab. 7), bei der die Spalten zuerst umgestellt werden: Links finden sich die fünf Bedingungen, dann die Länder, auf die die Kombination zutrifft, und schließlich die Ausprägung des Outcomes im jeweiligen Land. Gleichzeitig haben wir die Tabelle nach den Ausprägungen auf den fünf Bedingungen sortiert. Wie zu sehen ist, sind nicht alle 32 Kombinationen von Bedingungen aufgeführt, da nur 21 der theoretisch möglichen 32 Kombinationen in unserem Beispiel tatsächlich vorkommen. An dieser Stelle muss der Forschende 6 http: / / www.socsci.uci.edu/ ~ cragin/ fsQCA/ software.shtml Wahrheitstabelle <?page no="126"?> 126 m E t h o d E n d E r d a t E n a n a l y s E überlegen, wie er mit diesem Defizit umgehen will. Häufig ist es so, dass bestimmte Kombinationen von Bedingungen per se nicht möglich oder sinnvoll sind, so dass sie zwar technisch möglich, aber theoretisch ausgeschlossen sind. Dies ist in unserem Fall nicht so. Allerdings ist es bei einer typischen Fallzahl (wie hier bei 29 Ländern) auch gar nicht möglich, alle Kombinationen zu »bedienen«, so dass die Tatsache, dass Kombinationen leer bleiben, eine typische Begleiterscheinung der zur QCA darstellen. Gelegentlich hilft es, solche leeren Zellen im Rahmen von Gedankenexperimenten zu befüllen unter der Fragestellung: »Wie müsste ein solches Land sein, Land E I H F M D Australien 1 0 1 1 1 1 Belgien 0 1 1 1 1 0 Dänemark 0 1 0 0 1 1 Deutschland 1 1 1 1 0 0 Finnland 0 1 0 0 0 0 Frankreich 1 1 1 0 0 1 Griechenland 0 0 0 0 0 0 Irland 0 0 0 0 0 1 Island 0 1 0 0 0 0 Italien 1 0 0 0 0 1 Japan 1 0 0 0 1 0 Kanada 1 1 1 1 1 0 Mexiko 1 0 1 1 0 0 Neuseeland 0 1 1 0 1 1 Niederlande 1 1 1 0 1 0 Norwegen 0 1 0 0 1 0 Österreich 0 0 1 1 0 1 Polen 1 1 0 0 0 1 Portugal 0 0 0 0 0 0 Schweden 0 0 1 0 1 0 Schweiz 0 1 1 1 0 1 Slowakei 0 1 1 0 0 1 Spanien 1 1 1 1 1 0 Südkorea 1 1 1 0 0 1 Tschechien 0 0 1 0 0 0 Türkei 1 0 1 0 0 1 U. K. 1 0 1 0 1 0 Ungarn 0 0 1 0 0 1 USA 1 1 1 1 0 0 Tab. 6 Rekodierte Daten für die QCA <?page no="127"?> 127 q u a l I t a t I V k o m p a r a t I V E a n a l y s E : d I r E k t E d E m o k r a t I E damit es diese Bedingungen erfüllt? « Gelegentlich hilft dies dem Forschenden, seinen eigenen Blick auf die Fragestellung und den verwendeten theoretischen Rahmen zu schärfen. Belassen wir es in diesem Schritt dabei und gehen wir davon aus, dass die fehlenden Kombinationen empirisch bedingt sind. Nun versuchen wir, Fälle mit der gleichen Kombination von Bedingungen zusammenzufassen und landen so bei Tab. 8: Wie zu sehen ist, lassen sich durchaus einige Länder gruppieren. Allerdings stimmen in einigen Gruppen sowohl Bedingungen als auch Outcome E I H F M Land D 0 0 0 0 0 Griechenland 0 0 0 0 0 0 Portugal 0 0 0 0 0 0 Irland 1 0 0 1 0 0 Tschechien 0 0 0 1 0 0 Ungarn 1 0 0 1 0 1 Schweden 0 0 0 1 1 0 Österreich 1 0 1 0 0 0 Finnland 0 0 1 0 0 0 Island 0 0 1 0 0 1 Norwegen 0 0 1 0 0 1 Dänemark 1 0 1 1 0 1 Neuseeland 1 0 1 1 0 0 Slowakei 1 0 1 1 1 0 Schweiz 1 0 1 1 1 1 Belgien 0 1 0 0 0 0 Italien 1 1 0 0 0 1 Japan 0 1 0 1 0 0 Türkei 1 1 0 1 0 1 U. K. 0 1 0 1 1 0 Mexiko 0 1 0 1 1 1 Australien 1 1 1 0 0 0 Polen 1 1 1 1 0 0 Frankreich 1 1 1 1 0 0 Südkorea 1 1 1 1 0 1 Niederlande 0 1 1 1 1 0 Deutschland 0 1 1 1 1 0 USA 0 1 1 1 1 1 Kanada 0 Tab. 7 Wahrheitstabelle für die QCA <?page no="128"?> 128 m E t h o d E n d E r d a t E n a n a l y s E überein, z. B. in den USA und Deutschland, die beide die Bedingungskombination »1-1-1-1-0« besitzen und keine ausgeprägte direkte Demokratie auf Bundesebene (Outcome=0). Andere Gruppen sind inkonsistent, d. h. sie weisen die gleiche Bedingungskombination auf, haben aber einen unterschiedlichen Outcome. Betrachten wir beispielsweise die Kombination »0-1-0-0-1«. Hier stehen Norwegen und Dänemark zusammen in der Tabelle, d. h. sie haben beide exakt die gleichen Ausprägungen auf den Bedingungen: kleine Einwohnerzahl, starke Einbindung der organisierten Interessen, eine vergleichsweise homogene Bevölkerung, ein fehlender föderaler Staatsaufbau, aber eine konstitutionelle Monarchie. Trotzdem weisen sie auf dem Outcome Unterschiede auf, denn Norwegen kennt nur schwach ausgeprägte plebiszitäre Elemente, während diese in Dänemark stark sind. Die Kombination »0-1-0-0-1« trägt also nicht zu einer widerspruchsfreien Lösung bei, denn sie kann entweder zum Outcome führen oder nicht. Deshalb wird E I H F M Land D 0 0 0 0 0 Griechenland, Portugal Irland 0 1 0 0 1 0 0 Tschechien Ungarn 0 1 0 0 1 0 1 Schweden 0 0 0 1 1 0 Österreich 1 0 1 0 0 0 Finnland, Island 0 0 1 0 0 1 Norwegen Dänemark 0 1 0 1 1 0 0 Slowakei 1 0 1 1 0 1 Neuseeland 1 0 1 1 1 0 Schweiz 1 0 1 1 1 1 Belgien 0 1 0 0 0 0 Italien 1 1 0 0 0 1 Japan 0 1 0 1 0 0 Türkei 1 1 0 1 0 1 U. K. 0 1 0 1 1 0 Mexiko 0 1 0 1 1 1 Australien 1 1 1 0 0 0 Polen 1 1 1 1 0 0 Frankreich, Südkorea 1 1 1 1 0 1 Niederlande 0 1 1 1 1 0 Deutschland, USA 0 1 1 1 1 1 Kanada, Spanien 0 Tab. 8 Wahrheitstabelle für die QCA ohne fehlende Fälle <?page no="129"?> 129 q u a l I t a t I V k o m p a r a t I V E a n a l y s E : d I r E k t E d E m o k r a t I E diese Kombination von Bedingungen als »inkonsistent« bezeichnet. Genauso verhält es sich mit der Kombination »0-0-1-0-0« (hier widersprechen sich Tschechien und Ungarn) sowie der Kombination »0-0-0-0-0« - hier sind drei Fälle vorhanden, von denen einer beim Outcome eine »1« aufweist und zwei eine »0«. Diese drei Kombinationen können keine widerspruchsfreie Erklärung bieten, so dass wir sie aus der Betrachtung ausschließen- schließlich suchen wir Kombinationen von Faktoren, die definitiv zu Outcome 1 führen. An dieser Stelle ist anzumerken, dass der Forschende sich überlegen muss, wie viel Pragmatismus er an dieser Stelle zulässt. Wenn beispielsweise auf einer Kombination sehr viele Fälle vorhanden sind, die sehr ungleich verteilt sind, dann könnte man auch versuchen, das Problem anders zu lösen. In diesem Fall müsste man sich überlegen, weshalb die wenigen Fälle einen Spezialfall darstellen und ob es legitim ist, diese zu ignorieren. Typischerweise wird hierfür aber eine hohe Quote angesetzt, d. h. bei Konsistenzwerten von unter 80 % geht man davon aus, dass die Kombination aus der Tabelle entfernt werden muss. In unserem Beispiel haben wir nur drei inkonsistente Kombinationen, zwei davon mit 50 % (1: 1) und eine mit 33 % (1: 2). Diese müssen wir also entfernen, d. h. sie mit »0« kodieren, denn sie führen nicht zwingend zu einem Outcome »1«. Alle übrigen Kombinationen sind entweder deshalb konsistent, weil sie nur einen Fall enthalten oder weil sie mehrere Fälle enthalten, diese aber widerspruchsfrei sind. Die endgültige Wahrheitstabelle ist in Tab. 9 dargestellt. Diese Wahrheitstabelle ist die Grundlage für die folgenden Operationen, die sich der Bool’schen Algebra bedienen. Zunächst suchen wir die Hauptimplikanten, d. h. Kombinationen von Bedingungen, welche zum Outcome = 1 führen. Diese können wir aus der o. g. Tabelle direkt ablesen. Notiert werden diese in der Bool’schen Schreibweise: 7 ● Eine Bedingung wird durch den entsprechenden Kleinbuchstaben repräsentiert, also die Einwohnerzahl beispielsweise durch »e«. ● Ein vorangestelltes » ~ « bedeutet »nicht«. ● Eine Kombination von Bedingungen (»und«) wird durch Aneinanderreihung der Buchstaben gebildet. Aus dem Zusammenspiel der Regeln 7 Es sei darauf hingewiesen, dass in der csQCA auch häufig andere Schreibweisen verwendet werden. Beispielsweise ist es durchaus üblich, existente Bedingungen durch Groß- und nicht existente Bedingungen durch Kleinbuchstaben zu symbolisieren, anstatt die Notation mit und ohne Tilde (» ~ «) zu nutzen. Die Kombination von Bedingungen kann statt durch Aneinanderreihung auch durch den Asterisk (»*«) ausgedrückt werden. Im hier durchgeführten Beispiel wird aus Gründen der Nachvollziehbarkeit mit der üblichen Notation für fsQCA-Datensätze gearbeitet. Beim Lesen von QCA-Literatur ist wegen der unterschiedlichen Notationsschemata Vorsicht geboten! <?page no="130"?> 130 m E t h o d E n d E r d a t E n a n a l y s E ergeben sich bei mehreren Konditionen verschiedene Kombinationen. Der Ausdruck »ei« bedeutet beispielsweise »große Einwohnerzahl und Einbeziehung gesellschaftlicher Interessen«. Der Ausdruck » ~ ei« bedeutet »keine große Einwohnerzahl und Einbeziehung gesellschaftlicher Interessen«. Hingegen ist »e ~ i« gleichbedeutend mit »große Einwohnerzahl und keine Einbeziehung gesellschaftlicher Interessen«. Der Ausdruck » ~ e ~ i« bedeutet »keine große Einwohnerzahl und keine Einbeziehung gesellschaftlicher Interessen«. Bei mehr als zwei Konditionen treten entsprechend längere Ausdrücke und entsprechend mehr Kombinationen auf. ● Eine Addition bedeutet »oder«. Addierte Ausdrücke bilden die Äquifinalität ab, d. h. jeder einzelne Ausdruck führt unabhängig von den anderen Ausdrücken zum Outcome. E I H F M Land D Konsistente Fälle mit Outcome = 1 0 0 1 1 0 Österreich 1 0 1 1 0 0 Slowakei 1 0 1 1 0 1 Neuseeland 1 0 1 1 1 0 Schweiz 1 1 0 0 0 0 Italien 1 1 0 1 0 0 Türkei 1 1 0 1 1 1 Australien 1 1 1 0 0 0 Polen 1 1 1 1 0 0 Frankreich, Südkorea 1 Konsistente Fälle mit Outcome = 0 0 0 1 0 1 Schweden 0 0 1 0 0 0 Finnland, Island 0 0 1 1 1 1 Belgien 0 1 0 0 0 1 Japan 0 1 0 1 0 1 U. K. 0 1 0 1 1 0 Mexiko 0 1 1 1 0 1 Niederlande 0 1 1 1 1 0 Deutschland, USA 0 1 1 1 1 1 Kanada, Spanien 0 Inkonsistente Fälle, deshalb Outcome = 0 gesetzt 0 0 0 0 0 Griechenland, Portugal, Irland 0 0 0 1 0 0 Tschechien, Ungarn 0 0 1 0 0 1 Norwegen, Dänemark 0 Tab. 9 Endgütige Wahrheitstabelle für die QCA <?page no="131"?> 131 q u a l I t a t I V k o m p a r a t I V E a n a l y s E : d I r E k t E d E m o k r a t I E Aus der o. g. Tabelle lässt sich dann folgender Ausdruck ableiten: ~ e ~ ihf ~ m + ~ eih ~ f ~ m + ~ eih ~ fm ~ eihf ~ m + e ~ i ~ h ~ f ~ m + e ~ ih ~ f ~ m + e ~ ihfm + ei ~ h ~ f ~ m + eih ~ f ~ m d Diese Terme werden natürlich komplizierter, je mehr Bedingungen man verwendet. Gleichzeitig wächst mit zunehmender Zahl der Bedingungen die Wahrscheinlichkeit, dass nicht alle Bedingungskombinationen empirisch abgedeckt sind. Für die weitere Analyse verwendet man eine Software, die die Einzelterme, wenn möglich, zusammenfasst. Beispielsweise kann man die letzten beiden Ausdrücke zu einem simpleren Ausdruck zusammenfassen: ei ~ h ~ f ~ m + eih ~ f ~ m = ei ~ f ~ m Dies ist deshalb möglich, weil vier Bedingungen in beiden Ländern gleich sind (e, i, ~ f und ~ m). Eine Bedingung unterscheidet sich ( ~ h und h), allerdings führen beide Ausdrücke zum Outcome = 1. Das bedeutet, dass die Kombination von e, i, ~ f und ~ m immer zum Outcome = 1 führt, egal ob h vorliegt oder ~ h. Deshalb kann das h/ ~ h weggelassen werden und der Ausdruck wird einfacher. Weitere Vereinfachungen folgen dem gleichen Muster. Beispielsweise lassen sich der zweite und vierte Ausdruck zusammenfassen: ~ eih ~ f ~ m + ~ eihf ~ m = ~ eih ~ m Auch der fünfte und sechste Ausdruck lassen sich zusammenfassen: e ~ i ~ h ~ f ~ m + e ~ ih ~ f ~ m = e ~ i ~ f ~ m Weiterhin können auch zusammengefasste Ausdrücke wieder zusammengefasst werden. Am Ende ergibt sich in diesem Beispiel als Lösungsformel: e ~ f ~ m + ~ ef ~ m + ~ ifm + ~ eih ~ f d Dies bedeutet, dass ein hohes Maß an direkter Demokratie auf Bundesebene immer dann zwingend auftritt, wenn eine der vier folgenden Bedingungskombinationen erfüllt ist: [1] Hohe Einwohnerzahl, kein Föderalismus und keine Monarchie. Die fünf von dieser Lösung abgedeckten Länder sind Frankreich, Italien, Polen, Südkorea und die Türkei. Keine Rolle spielt hier die Einbindung von organisierten Interessen sowie die Heterogenität der Bevölkerung (denn hier unterscheiden sich die fünf Länder voneinander). <?page no="132"?> 132 m E t h o d E n d E r d a t E n a n a l y s E [2] Niedrige Einwohnerzahl, Föderalismus und keine Monarchie. Die beiden von dieser Konfiguration abgebildeten Länder sind Österreich und die Schweiz. Keine Rolle spielen hier die Einbindung von organisierten Interessen sowie die Heterogenität. [3] Schwache Einbeziehung organisierter Interessen, Föderalismus und Monarchie. Diese Konfiguration bildet nur ein einziges Land ab, nämlich Australien. [4] Niedrige Einwohnerzahl, hohe Einbindung von Interessen, hohe Heterogenität, kein Föderalismus. Diese Konfiguration bildet Neuseeland und Slowakei ab. Keine Rolle spielt hier die Frage der Monarchie. Damit ist das Ziel der Analyse erreicht: Wir haben vier äquifinale (gleichwertige und voneinander unabhängige) Erklärungen dafür gefunden, weshalb ein Land ein hohes Maß an plebiszitärer Demokratie aufweist. Wir brechen die Analyse an dieser Stelle ab, allerdings nicht ohne den Hinweis auf zwei zentrale Kennzahlen der QCA, nämlich das Konsistenzmaß sowie das Abdeckungsmaß, die so etwas wie globale Gütekriterien der Analyse darstellen bzw. eine noch tiefergehende Analyse erlauben. ● Das Konsistenzmaß zeigt, in welchem Maße die Lösungen konsistent zueinander sind, d. h. wie häufig es ist, dass die entsprechenden Kombinationen von Bedingungen zum Outcome »1« führen. Da wir im Beispiel oben sehr restriktiv mit inkonsistenten Kombinationen umgegangen sind (d. h. sie auf Null gesetzt haben), haben wir die maximal mögliche Konsistenz von 1 erzielt (dies entspricht 100 %). Das bedeutet, dass in allen Ländern, die eine der vier o. g. Kombinationen von Bedingungen aufweisen, der Outcome »1« ist und es von dieser Regel keine beobachtbare Ausnahme gibt. Wie oben erläutert, kann es aber auch sinnvoll sein, Kombinationen mit nicht-perfekter Konsistenz in die Analyse einzubeziehen. Ist dies der Fall, liegt die Konsistenz des Gesamtmodells dann unter »1«. ● Das Abdeckungsmaß zeigt die Qualität der gefundenen Lösungen an. Dabei wird zunächst die allgemeine Abdeckung ermittelt. Diese gibt den Anteil der durch die Lösung erklärten Fälle an den Gesamtfällen mit Outcome = »1« an. In unserem Beispiel weisen ursprünglich 13 Länder starke plebiszitäre Elemente auf. Von den letztlich gefundenen vier äquifinalen Kombinationen sind aber nur 10 Länder abgedeckt, d. h. knapp 77 %. Drei Länder (Dänemark, Irland und Ungarn) wurden vorher wegen inkonsistenter Kombinationen aussortiert. Diese drei Länder können wir also mit der durchgeführten QCA nicht erklären. Ob eine Abdeckung von 77 % gut ist oder nicht, hängt u. a. von der Anzahl der Fälle sowie der verwendeten Kombinationen ab, aber auch vom Vergleich mit anderen Analysen. Weiterhin kann die Abdeckung auch auf die verschiedenen äquifinalen Erklärungen verteilt werden. In diesem Fall trifft die erste <?page no="133"?> 133 q u a l I t a t I V k o m p a r a t I V E a n a l y s E : d I r E k t E d E m o k r a t I E oben angeführte Erklärung für 5 Länder zu, also für ca. 38 % der Fälle (5 von ursprünglich 13 Ländern). Die zweite und vierte Lösung decken jeweils 15 % ab (jeweils 2 von 13 Ländern). Die dritte Lösung deckt ein weiteres Land ab (8 %). Die Auswertung dieser Kennzahlen erlaubt es, das Gewicht der einzelnen Kombinationen für die Gesamterklärung zu bestimmen. Zum Schluss sei darauf hingewiesen, dass diese Einführung nur einen kleinen Einblick in die Funktionsweise der Methode bieten kann, ohne alle Varianten der QCA bzw. alle Anwendungsbereiche auch nur annährend abdecken zu können (siehe Eingangsbemerkungen in diesem Abschnitt). Bei Interesse bietet es sich an, eines der zahlreichen in der Literatur dokumentierten Beispiele unter Verwendung der Software nachzuarbeiten bzw. sich eine eigene Fragestellung auszudenken, die mittels einer QCA bearbeitet werden kann. Eine knappe, wenngleich sehr gute Einführung in die QCA bietet Siewert (2017), der auch darstellt, welch steile Karriere die Analysemethode in den letzten zwanzig Jahren hinter sich hat. Eine gute Einführung in konfigurationelle Verfahren mit instruktiven Beispielen gerade zur QCA haben Berg- Schlosser und Cronqvist (2012) vorgelegt. Ebenfalls lesenswert ist Schneider und Wagemann (2012). Eine Liste von Forschungsarbeiten, in denen die QCA angewandt wurde, findet sich hingegen bei Rihoux et al. (2011), die die Studien ebenfalls kurz porträtieren. Eine gute Zusammenfassung der konfigurativen Denkweise sowie empirische Beispiele auf der Basis der Managementforschung finden sich bei Schulze-Bentrop (2011). Empfehlenswerte und nachvollziehbare Beispiele haben Sager (2008) sowie Kemmerzell und Hofmeister (2019) vorgelegt. ● Warum wird QCA als qualitative Methode bezeichnet? ● Was ist das Ziel von QCA? ● Nach welchen Kriterien können Schwellenwerte für die Dichotomisierung von Variablen festgelegt? ● Wie werden die Hauptimplikanten ermittelt? ● Wie geht man mit widersprüchlichen Konfigurationen um? Lesetipps Kontrollfragen ▼ ▲ <?page no="134"?> 134 m E t h o d E n d E r d a t E n a n a l y s E Lineare Regression: Wohnungspolitik in Städten Als »Regression« oder »Regressionsanalyse« wird eine Gruppe quantitativer Methoden bezeichnet, deren gemeinsames Merkmal der Versuch ist, ein Phänomen durch die Verwendung eines statistischen Verfahrens auf ein anderes Phänomen zurückzuführen. Diese Methoden sind damit dazu geeignet, Hypothesen nach dem Muster »je mehr X, desto mehr Y« bzw. »je mehr X, desto weniger Y« zu testen, denn die Regression setzt analytisch genau dort an, wo die Hypothese einen Zusammenhang unterstellt. Es gibt unzählige Varianten von Regressionsanalysen. Welche der Forschende jeweils wählt, hängt von den zur Verfügung stehenden Daten, ihrer Beschaffenheit, der Anzahl der Fälle und anderen Faktoren ab. Dieser Abschnitt beschäftigt sich mit der Standardvariante der linearen Regression, die auf die Methode der kleinsten Quadrate zurückgreift und deshalb ordinary least squares linear regression (OLS-Regression) genannt wird. Wie der Name schon sagt, wird dabei ein linearer Zusammenhang zwischen den unabhängigen Variablen und der abhängigen Variablen unterstellt. Auf die »kleinsten Quadrate« kommen wir später noch zurück, diese werden bei der Anwendung der Methoden wichtig. Mittels der Regressionsanalyse versucht der Forschende aber nicht nur herauszufinden, ob ein Zusammenhang zwischen den Phänomenen besteht. Er versucht zudem, die Beziehung zwischen den Phänomenen mathematisch in Form einer Funktion zu beschreiben, d. h. die Richtung und den Grad des Zusammenhangs zu ermitteln. Mittels dieser Funktion wiederum kann er später neue Fälle prognostizieren, d. h. er kann, wenn er einen Wert kennt, den anderen Wert berechnen. Das hier präsentierte Modell basiert auf realen Daten, die im Rahmen eines von der Hans-Böckler-Stiftung finanzierten Drittmittelprojekts erhoben wurden. Leider müssen wir uns in diesem Buch auf die Darstellung eines Teils des Materials beschränken. Der Ausschnitt ist insbesondere aus didaktischen Erwägungen gewählt; das hier präsentierte Material gibt also nicht das Ergebnis des Forschungsprojekts wieder, sondern wird lediglich als Anschauungsmaterial verwendet. Nehmen wir an, wir wollten im Rahmen eines Forschungsprojekts das Preisniveau für Wohnungsmieten in deutschen Großstädten erklären. Aus Gründen der Vereinfachung entscheiden wir uns, keine Zeitreihenstudie durchzuführen, sondern einen sogenannten »Snapshot« zu erstellen, d. h. eine Erhebung zu einem bestimmten Zeitpunkt. Die Wahl des Untersuchungszeitraums stellt uns vor Herausforderungen. Natürlich wollen wir möglichst aktuelle Zahlen verwenden, wir wissen aber aufgrund intensiver Vorbeschäftigung mit der deutschen Wohnungspolitik, dass im Jahr 2012 die Debatte um die »Mietpreisbremse«, d. h. eine stärkere Begrenzung der 5.3 Prinzip Forschungsfrage <?page no="135"?> 135 l I n E a r E r E g r E s s I o n : w o h n u n g s p o l I t I k I n s t ä d t E n Mietsteigerungsmöglichkeiten durch den Gesetzgeber, begann. Wir vermuten, dass alleine die Debatte Auswirkungen auf die Mietpreise gehabt haben könnte, d. h. dass Vermieter möglicherweise in Erwartung der Einführung der Mietpreisbremse die Preise erhöht haben, bevor die Beschränkung eingeführt wurde. Deshalb wählen wir als Untersuchungszeitraum das Jahr 2011. Dies ist aus einem weiteren Grund sinnvoll: Im Jahr 2011 fand der bundesweite Zensus statt, in dessen Rahmen u. a. aktuelle Daten zu Wohnungen und Haushalten in Deutschland erhoben wurden. Da wir vermuten, dass wir auch solche Daten für unsere Regression benötigen werden, ist das Jahr 2011 eine gute Wahl, da der Zensus nur in größeren Zeitabständen (seit 2001 alle zehn Jahre) stattfindet. Der nächste Schritt besteht darin, die Anzahl der Untersuchungseinheiten zu bestimmen. Dies ist verhältnismäßig einfach, denn die Menge ist mit »alle deutschen Großstädte« bereits in der Forschungsfrage vorgegeben. Als Großstadt wird eine Stadt mit mindestens 100.000 Einwohnern bezeichnet. Dies waren in der Bundesrepublik im Jahr 2011 insgesamt 80 Städte. Der nächste Schritt besteht darin, die im Verlauf des Forschungsprojekts benötigten Konzepte zu spezifizieren. Hierzu wenden wir uns zunächst der abhängigen Variable zu; diese wird in der Fragestellung schon benannt (Mietpreisniveau). Hier taucht bereits das erste Problem auf: Wenn Vermieter und Mieter einen Mietvertrag schließen, sind sie nicht verpflichtet, diesen an einer zentralen Stelle zu melden. Woher können wir wissen, wie hoch die Mieten in den Städten sind? Eine erste Anlaufstelle wären die in vielen Großstädten vorhandenen qualifizierten Mietspiegel, die bei der Ermittlung der »ortsüblichen Vergleichsmiete« helfen. Diese bieten zwar gute Anhaltspunkte, wenn es um die Überprüfung von Mieterhöhungen bei bestehenden Verträgen geht. Allerdings enthalten die Mietspiegel nur einen Teil der Daten über bestehende Mietverträge (z. B. aufgrund einer Befragung unter Vermietern, die entsprechende Angaben zu den von ihnen vermieteten Wohnungen machen müssen). An der Erstellung des Mietspiegels sind zudem zumeist die Interessenvertretungen von Vermietern und Mietern beteiligt. Zudem sind nicht alle Mietspiegel aktuell und beziehen sich auf unterschiedliche Jahre, da die Daten nicht allein Städten zum gleichen Zeitpunkt erhoben werden. Überhaupt ist es schwierig, so die Daten des gesamten Wohnungsmarktes abzubilden, denn der Mietspiegel enthält nur Wohnungen, für die der Mietvertrag innerhalb der letzten vier Jahre neu geschlossen wurde oder die Miete in der Höhe verändert wurde. Der Mietspiegel enthält also nur die relativ »frisch« ausgehandelten Mieten. Eine andere Möglichkeit ist, die vom Bundesinstitut für Bau-, Stadt- und Raumforschung (BBSR) erhobenen Daten über Angebotsmieten zu verwenden. Diese werden über eine Software ermittelt, welche in Online-Immobilienportalen eingestellte Wohnungsangebote den Städten zuordnet und dann Fallauswahl abhängige Variable <?page no="136"?> 136 m E t h o d E n d E r d a t E n a n a l y s E für jedes Jahr einen Durchschnittswert pro Stadt errechnet. Hier werden nur die vom Vermieter geforderten (! ) Mietpreise der neu angebotenen Wohnungen gesammelt, allerdings ist die Vergleichbarkeit der Daten über die Städte zumindest gegeben, da die Daten im gleichen Jahr gesammelt werden. Wenn wir die Daten für unsere Regressionsanalyse verwenden möchten, haben wir damit bereits die erste Annahme getroffen, d. h. wir gehen davon aus, dass die angebotenen Preise für die allgemeinen Mietpreise repräsentativ sind. Das erscheint zunächst fragwürdig, denn es gibt sicherlich viele Mietverträge, die seit vielen Jahren mit unverändertem Mietpreis existieren, so dass der Preis in irgendeiner Weise »verzerrt« ist. Allerdings kann man sich fragen, ob die Verzerrung, die durch die ausschließliche Betrachtung der neuen Angebote entsteht, in den Städten unterschiedlich ausfällt. Ist es z. B. plausibel, dass in Stadt A innerhalb eines Jahres 15 % aller Mietverträge neu geschlossen werden, in Stadt B aber nur 2 %? Wenn Anhaltspunkte dafür vorlägen, dass die Daten über die Städte hinweg in ihrer Repräsentativität wesentlich schwankten, könnten wir hier nicht weiter arbeiten. Dies würde aber voraussetzen, dass die realen Daten über die Mietpreise vollständig verfügbar wären, damit wir diesen Vergleich überhaupt anstellen könnten. Diese Daten existieren aber nicht, sonst müssten wir nicht mit einem Indikator arbeiten. Also nehmen wir an: Die vom BBSR ermittelten Angebotspreise bilden die jährliche Angebotsstruktur der Neuvermietungen in den Städten repräsentativ ab und die Neuabschlussquoten sind gleich. Bei Annahmen gehen wir davon aus, dass es so ist, wie die Annahme besagt. Annahmen dürfen nicht implizit sein (d. h. stillschweigend gemacht werden), sondern müssen expliziert werden, d. h. Leser der Studie müssen um die Annahme wissen und damit die Chance haben, die Annahme kritisch zu bewerten. Zudem müssen wir bei der späteren Interpretation unserer Ergebnisse mögliche Einschränkungen, die durch diese Annahme entstehen, beachten. Im gegebenen Fall können wir beispielsweise keine Aussagen über die Entwicklung der Mieten bei seit längerem bestehenden Mietverhältnissen treffen. Diese Einschränkung sollte explizit gemacht werden, damit Leser/ innen der Studie in der Lage sind, dies bei der späteren Interpretation der Ergebnisse zu berücksichtigen. Für die unabhängigen Variablen, d. h. den potentiellen Erklärungen für die Mietpreise, müssen wir uns in der Literatur umschauen, ob schon andere Wissenschaftler an dieser Frage gearbeitet haben. Wie sich herausstellt, existieren bereits theoretische Vorarbeiten, so z. B. ein zentrales Handbuch zu Wohnungsmärkten und Wohnungswirtschaft (Kofner 2004), welches Hinweise darauf gibt, welche Phänomene die Wohnungsmietpreise beeinflussen. Zudem existieren Studien, die aber für unsere Forschungsfrage nicht von Belang sind, welche Annahme unabhängige Variablen <?page no="137"?> 137 l I n E a r E r E g r E s s I o n : w o h n u n g s p o l I t I k I n s t ä d t E n ● die Mietpreise als Ursache für ein anderes Phänomen behandeln (z. B. die Gentrifizierungsforschung), ● sich mit Details einzelner Städte beschäftigen, beispielsweise mit stadtinternen Wanderungsbewegungen, ● Immobilienpreise erforschen, in denen es also nicht um Miete von Wohnraum geht, sondern um den Kauf von Eigentum. Durch intensive Recherche in der Literatur (vgl. Benjamin und Sirmans 1996, DiPasquale und Wheaton 1996, Eekhoff 2002, Kofner 2004, IWU 2005, Saiz 2007, Kosfeld et al. 2010, Vornholz 2013) finden sich schließlich eine Reihe von Faktoren, denen eine Wirkung auf die Wohnungsmieten zugeschrieben wird: ● verfügbarer Wohnraum, ● Baufertigstellungen, ● Baulandpreise, ● Bevölkerungszuwachs, ● Pendlerbewegungen sowie ● Wohnungen mit Sozialbindung. Nachdem die Konzepte nunmehr gewählt wurden, folgt die Operationalisierung, d. h. wir müssen und überlegen, wie die Konzepte messbar gemacht werden können. Manche Konzepte sind dabei einfacher in ein Messkonzept zu übersetzen als andere. Zusätzlich zu der Frage, was man genau messen möchte, stellt sich auch noch die Herausforderung, dass nicht immer alle Daten vorliegen, die der Forschende gerne hätte - und dass es manchmal schlicht nicht möglich ist, die Daten zu beschaffen. ● Der verfügbare Wohnraum operationalisiert die Grundversorgung der Stadt mit Wohnraum, d. h. es soll gemessen werden, wie »eng« die Bewohner bereits zusammenleben. Dahinter steckt die Idee, dass die Preise hoch sind, wenn das Wohnungsangebot bezogen auf die Einwohnerzahl geringer ist. Hier bietet sich an, die Wohneinheiten pro Kopf zu zählen. Dabei geht man davon aus, dass es keine relevanten, lokal spezifischen »Wohnkulturen« gibt, d. h. dass es z. B. keine Stadt gibt, in der das Wohnen in großen Wohngemeinschaften mit mehr als zehn Personen die übliche Form des Zusammenlebens ist - dies würde das Modell erheblich verzerren (damit haben wir ganz nebenbei eine zweite Annahme gemacht). Die entsprechenden Daten sind beim Statistischen Bundesamt zu finden: Tabelle 035-21-5 listet die Anzahl der Wohnungen in den einzelnen Städten auf, Tabelle 173-01-4 die Bevölkerung der Städte. Daraus lässt sich der Quotient errechnen (Wohnungen pro Kopf). ● Es wird weiter vermutet, dass die Anzahl neu gebauter Wohnungen Einfluss auf die Preise hat (viele Neubauten dämpfen den Preisanstieg Operationalisierung <?page no="138"?> 138 m E t h o d E n d E r d a t E n a n a l y s E durch das erhöhte Angebot). Tatsächlich sind Daten über Baufertigstellungen beim Statistischen Bundesamt verfügbar (Tabelle 031-11-5). Allerdings muss die absolute Zahl an Neubauten noch mit der Zahl der bestehenden Wohnungen verknüpft werden, denn tausend Neubauten in Berlin sind weniger effektiv als tausend Neubauten in einer »kleinen Großstadt« (z. B. Heidelberg). Also wird auch hier ein Quotient aus Anzahl der Neubauten und Anzahl der bestehenden Wohnungen gebildet. Dieser drückt den Grad des Wachstums an Wohnungen aus. Auch hier ist auf die Annahme zu verweisen, dass die neu gebauten Wohnungen im Durchschnitt über alle Städte gleich groß sind (Daten über die Größe der Wohnungen liegen nämlich nicht vor) und angenommen wird, dass die Wohnungen auf dem Mietmarkt zur Verfügung stehen - denn »Neubauten« sind nicht nur Mietwohnungen, sondern auch Eigentumswohnungen. ● Wichtig sind auch die Baulandpreise, die die für die Zukunft erwartete Bautätigkeit beeinflussen. Je teurer die Baulandpreise, desto weniger Wohnungen werden wahrscheinlich gebaut. Die Baulandpreise sind ebenfalls beim Statistischen Bundesamt öffentlich beziehbar (Tabelle 400- 51-4). Allerdings sind die Daten mit Vorsicht zu genießen, denn sie bilden den durchschnittlichen Preis ab, welcher im entsprechenden Jahr bei tatsächlichen Verkäufen erzielt wurde. Je nach Marktbewegung kann der Preis also stark schwanken. Um die später errechneten Werte besser interpretieren zu können, wird der Preis durch 100 geteilt, d. h. wenn in einer Stadt der Baulandpreis 350 Euro pro Quadratmeter beträgt, wird als Wert in der Datenbank »3,5« angegeben. Da die lineare Regression mit Multiplikation arbeitet, können sehr kleine oder sehr große Skalierungen später dazu führen, dass bei der Interpretation später etwas argumentativ z. B. mit 0,00000004 multipliziert werden muss. Um dies zu vermeiden, können Variablen vorher um geeignete Größenordnungen verändert werden. Dies beeinflusst die sonstigen Ergebnisse der Berechnung nicht. Für sechs Städte fehlen beim Statistischen Bundesamt die Daten. ● Ein weiterer möglicher Einflussfaktor ist die Veränderung am Gesamtbestand der Bevölkerung in einer Stadt. Hierzu zählen die sogenannte natürliche Bevölkerungsbewegung (Geburten und Sterbefälle), aber auch der Zuzug von Menschen in die bzw. der Wegzug aus der Stadt. Ein großer Bevölkerungszuwachs, sei er nun natürlich oder durch Zuzug bestimmt, erzeugt durch erhöhte Nachfrage nach Wohnraum Druck auf den Mietmarkt, wodurch die Preise steigen sollten. Deshalb wird diese Variable so operationalisiert, dass die Veränderung in der Einwohnerzahl der Stadt über einen längeren Zeitraum gemessen wird. Damit wird sichergestellt, dass sich zufällige oder kurzfristige Ereignisse weniger stark auf die Messung des Konzepts auswirken. Ein Zeitraum von nur <?page no="139"?> 139 l I n E a r E r E g r E s s I o n : w o h n u n g s p o l I t I k I n s t ä d t E n fünf Jahren wäre in diesem Sinne möglicherweise zu kurz, ein Zeitraum von 25 Jahren wäre hingegen zu lang; er würde die große Binnenmigration in Deutschland nach der Wiedervereinigung noch beinhalten. Es scheint deshalb sinnvoll, einen mittelgroßen Zeitraum zu wählen; in unserem Beispiel sind dies 15 Jahre. Der Bevölkerungszuwachs wird also operationalisiert als prozentuale Abweichung des Einwohnerstandes zu Ende des Jahres 2010 gegenüber dem Einwohnerstand von Ende des Jahres 1995. Die entsprechenden Daten sind in Tabelle Nr. 173-32-4 des Statistischen Bundesamtes zu finden. ● Die nächste zu operationalisierende Variable ist die Größe der Pendlerbewegung. Die zugrunde liegende Idee besagt, dass die Verkehrserschließung der Städte von unterschiedlicher Qualität ist. Weist eine Stadt eine gute Verkehrsinfrastruktur auf (z. B. gute Anbindung des öffentlichen Nahverkehrs, guter Ausbau von Straßen etc.), dann können Menschen, die in der Stadt arbeiten, auch im Umland wohnen. Damit entlasten sie die städtischen Wohnungsmärkte. Ist hingegen die Stadt nur schlecht erschlossen, ist der Anreiz, in die Stadt zu ziehen, um langwierige bzw. teure Pendelwege zu vermeiden, hoch - damit steigt die Nachfrage auf dem Wohnungsmarkt und auch die Mietpreise. Die Variable wird als Pendlerquote operationalisiert, d. h. der die Zahl der täglichen Einpendler wird als prozentualer Anteil der amtlichen Einwohnerzahl ausgedrückt. Wohnen in einer Stadt also 250.000 Einwohner und täglich pendeln 25.000 Menschen in die Stadt, besitzt die Stadt eine Pendlerquote von 10 %. Städte, die einen negativen Pendlersaldo ausweisen (aus denen also täglich mehr Menschen ausals einpendeln), weisen entsprechend einen negativen Prozentwert aus. Daten zu den Pendlerbewegungen sind aus Tabelle 254-04-5 des Statistischen Bundesamtes ersichtlich; die Einwohnerzahlen hatten wir bereits für die Berechnung anderer Variablen ermittelt (s. o.). ● Der letzte Einflussfaktor, mit dem wir uns beschäftigen müssen, hängt mit den öffentlich geförderten Wohnungen in den Städten zusammen. In der Literatur wird vermutet, dass ein hoher Anteil öffentlich geförderter Wohnungen (welche in der Regel in den unteren Marktsegmenten zu finden sind und für die eine gewisse Preisbindung gilt) ein zusätzliches Wohnungsangebot bereitstellt und daher dem Nachfragedruck entgegenwirkt. Hier besteht ein echtes Verfügbarkeitsproblem: Es existieren keine zentralen Daten, wie viele Wohnungen in einer bestimmten Stadt im Untersuchungsjahr 2011 in diese Kategorie gefallen sind. Selbst auf der Ebene der Bundesländer gibt es zuweilen nur Schätzungen (vgl. Bundestags-Drucksache 18/ 11403). Deshalb müssen wir die Daten für das Jahr 2011 selbst erheben. Per eMail wurden deshalb die Wohnungsämter aller Städte gebeten, die Zahl für ihre jeweilige Stadt zu nennen; zusätzlich wurden für einige Städte Daten aus öffentlich zugänglichen Quellen <?page no="140"?> 140 m E t h o d E n d E r d a t E n a n a l y s E übernommen. Verwertbare Antworten waren letztlich für 50 Städte zu erhalten. Den Anteil der öffentlich geförderten Wohnungen in einer Stadt ermitteln wir als prozentuale Angabe durch Vergleich mit dem Gesamtwohnungsbestand, über den Daten beim Statistischen Bundesamt vorliegen (siehe oben). Auf der Basis der gewählten Konzepte sowie der Operationalisierung entwickeln wir folgende Hypothesen: ● H 1 : Je niedriger die Anzahl der Wohnungen pro Person in der Stadt, desto höher der Mietpreis. ● H 2 : Je niedriger der Anteil der neu gebauten Wohnungen am Gesamtbestand in der Stadt, desto höher der Mietpreis. ● H 3 : Je höher die Baulandpreise in der Stadt, desto höher der Mietpreis. ● H 4 : Je größer der Bevölkerungszuwachs in der Stadt, desto höher der Mietpreis. ● H 5 : Je niedriger der Anteil der Pendler an der Gesamtbevölkerung der Stadt, desto höher der Mietpreis. ● H 6 : Je niedriger der Anteil der Sozialwohnungen in der Stadt, desto höher der Mietpreis. Damit steht fest, dass wir versuchen werden, unter Verwendung von sechs unabhängigen Variablen (siehe Liste oben) eine abhängige Variable (Mietpreisniveau) mittels eines Regressionsmodells zu erklären. Jetzt, da sowohl die Zahl der Variablen feststeht als auch die Zahl der Fälle (zumindest grob) geklärt ist, können wir einen Blick zurück auf die Typen von Forschungsdesigns werfen, die wir kennengelernt haben ( → siehe Abschnitt 3.3). Offenbar liegt ein Forschungsprojekt des Typs »statistische Methode« vor, denn wir haben die größtmögliche Anzahl an Fällen (alle Großstädte) und eine mittlere Anzahl von Variablen miteinander kombiniert. Insgesamt verwenden wir in diesem Modell 80 Fälle und 7 Variablen, weshalb unsere Datenbank am Ende maximal 80 × 7 = 560 Werte beinhalten wird. Nachdem die Datenerhebung abgeschlossen ist, können die Daten zunächst deskriptiv-statistisch analysiert werden, um herauszufinden, wie stark die Fälle sich voneinander unterscheiden. Hierzu genügt es i. d. R., eine Tabelle nach dem folgenden Muster zu erstellen und vor Einstieg in die eigentliche Regressionsanalyse zu besprechen. Sie enthält für jede Variable die Anzahl der Beobachtungen, das Minimum und das Maximum (den kleinsten bzw. größten auftretenden Wert), das arithmetisches Mittel (x, im allgemeinen Sprachgebrauch »Durchschnittswert« genannt), die Standardabweichung ( σ , ein Maß für die Streuung der Werte um das arithmetische Mittel) sowie den Median (x ~ , ein anderes Lagemaß, welches weniger anfällig Hypothesen deskriptive Datenschau <?page no="141"?> 141 l I n E a r E r E g r E s s I o n : w o h n u n g s p o l I t I k I n s t ä d t E n für Ausreißer ist als das arithmetische Mittel). Diese Zusammenstellung der Daten genügt für die folgende erste grobe Einschätzung. Demnach sind die Unterschiede sowohl auf der abhängigen Variable (Angebotsmieten), als auch auf den unabhängigen Variablen relativ groß. Die Angebots-Nettokaltmiete schwankt zwischen knapp € 4,50 und € 11,80 pro Quadratmeter, d. h. in der teuersten Stadt ist die Wohnungsmiete pro Quadratmeter 2,6mal so hoch wie in der billigsten Stadt! Auch der Wohnungsbestand pro Kopf variiert durchaus. In manchen Städten herrscht zudem rege Bautätigkeit (knapp 1,5 % Neubau innerhalb eines Jahres), während in anderen Städten faktisch kein Neubau stattfindet (+ 0,06 %). Die Baulandpreise variieren drastisch, ebenso sind Bevölkerungsentwicklung und Pendleranteil sehr unterschiedlich. Zu guter Letzt ist auch der Anteil an öffentlich geförderten Wohnungen sehr unterschiedlich, von kaum öffentlich geförderten Wohnungen im Bestand (0,59 %) bis zu jeder achten Wohnung (12,83 %). Repräsentativität Mit dem Fragen der Fallauswahl und der Repräsentativität haben wir uns in Abschnitt 4.3 schon auseinandergesetzt. Eigentlich möchten Wissenschaftler aber verallgemeinerbare Aussagen über die Realität machen. Daher stellt sich die Frage, ob die Daten, die aus einem Teil der Realität gesammelt stammen, die Grundgesamtheit korrekt abbilden. Dieses Repräsentativitätsproblem wird im Zusammenhang mit dem hier durchgeführten kleinen Forschungsprojekt schnell deutlich: Es werden Daten von 50 bis 68 deutschen Städten ausgewertet (je nach Korrelationsanalyse können unterschiedliche Fallzahlen vorliegen, da nicht alle Daten in allen Städten vorliegen und nur »komplette« Fälle in die Korrelationsanalyse einfließen können). Man kann also über 50 Städte bestimmte Aussagen machen, diese müssen aber nicht Exkurs UV N Min. Max. x¯ σ x~ Angebotsmiete/ qm 2 68 4,51 11,81 6,58 1,55 6,11 Wohnungsbestand/ Kopf 68 0,48 0,64 0,54 0,03 0,54 Baufertigstellungen 68 0,06 1,47 0,39 0,30 0,31 Baulandpreise (100 €) 62 0,52 11,55 2,62 2,19 2,00 Bevölkerungszuwachs (%) 68 -20,21 13,35 -0,75 7,69 -0,31 Anteil Pendler (%) 68 -5,18 49,49 13,20 11,78 11,63 Wohnung. m. Sozialbdg. (%) 50 0,59 12,83 7,70 2,701 7,635 Tab. 10 Deskriptive Statistik der Variablen <?page no="142"?> 142 m E t h o d E n d E r d a t E n a n a l y s E notwendigerweise für die übrigen 18 Städte auch zutreffen. Man kann sich leicht vorstellen, dass die Verteilung verzerrt sein kann: Die Extremvariante wäre, dass die 18 fehlenden Städte gleichzeitig die 18 größten Städte Deutschlands wären. Dann wäre eine Aussage über die 50 »kleineren« Städte nur schwer auf die anderen 18 übertragbar - es gäbe zumindest Zweifel, ob die Daten der 50 Städte repräsentativ für alle 68 Städte wären. In diesem Fall wäre übrigens das Zahlenverhältnis nicht das Problem (50 von 68 Fällen ist eine gute Abdeckung), sondern die Tatsache, dass eine systematische Fallauswahl vorläge, die die 18 größten Städte auslässt. Ein zusätzliches »Zahlenproblem« ergäbe sich, wenn wir die 50 Städte als Repräsentanten aller deutschen Gemeinden nähmen, von denen es mehr als 11.000 gibt. In diesem Fall wären 50 Städte mit jeweils über 100.000 Einwohner ganz sicher nicht repräsentativ für die über 11.000 Gemeinden, die im Durchschnitt sehr viel kleiner sind. Insgesamt lautet die kritische Frage: Bildet die Stichprobe die Grundgesamtheit in den Merkmalen ab oder habe ich als Wissenschaftler vielleicht eine schiefe Auswahl gezogen, bei der ich die Merkmale nicht verallgemeinern kann? Bevor die eigentliche Regressionsanalyse beginnt, ist es sinnvoll, bivariate Korrelationen zwischen den Variablen zu betrachten, d. h. zu schauen, ob schon durch den einfachen Abgleich jeweils zweier Variablen statistische Zusammenhänge sichtbar sind. Dies ist einerseits sinnvoll, um einen Eindruck zu bekommen, wie stark die unabhängigen Variablen und die abhängige Variable miteinander zusammenhängen. Zudem kann es sein, dass zwei unabhängige Variablen miteinander stark korrelieren (Kollinearität). Ist dies der Fall, müsste man überlegen, ob man eine der beiden Variablen aus dem Modell ausschließt. Dies hat zwei Gründe: [1] Durch eine starke Kollinearität von unabhängigen Variablen wird das Modell verzerrt. Eine der beiden »paarweisen« unabhängigen Variablen hat immer einen stärkeren Zusammenhang mit der unabhängigen Variablen als die andere. In einem Regressionsmodell würde dies dazu führen, dass die besser passende unabhängige Variable als Einflussfaktor für die abhängige Variable erkannt wird, die »unterlegene« der beiden Paarvariablen jedoch nur noch sehr geringe Erklärungskraft für das Gesamtmodell entfaltet - da die beiden Variablen stark korrelieren, gibt es nicht viel, was die zweite Variable zum Model »beisteuern« kann. Damit entsteht der Eindruck, dass die zweite Variable irrelevant ist - was wahrscheinlich nicht der Fall ist, denn sie korreliert hoch mit der ersten Variablen. Korrelationen <?page no="143"?> 143 l I n E a r E r E g r E s s I o n : w o h n u n g s p o l I t I k I n s t ä d t E n [2] Es wäre zu überlegen, ob die Variablen nicht das gleiche Phänomen operationalisieren und zwischen den beiden unabhängigen Variablen selbst eine kausale Beziehung besteht. Wie zu verfahren ist, wenn eine zu hohe Kollinearität in einem Regressionsmodell vorliegt, wird weiter unten thematisiert. Korrelationen Bei allen hier verwendeten Variablen liegt ein metrisches Skalenniveau vor ( → vgl. Abschnitt 4.2), d. h. es kann Pearsons r berechnet werden (zu Details siehe Klemm 2002: 325 ff.). Pearsons r beschreibt für zwei metrische Variablen, wie stark diese zusammenhängen; es kann beliebige Werte zwischen + 1 und - 1 annehmen. Zur Illustration werden kurz die drei Extrema vorgestellt: Ist r = 1, bilden die Punkte in einem Streudiagramm eine perfekte ansteigende Gerade, d. h. wenn der Wert von Variable A sich erhöht, wächst auch der Wert für Variable B. Ist r = - 1, so ist der Zusammenhang perfekt negativ - wenn A wächst, sinkt dafür der Wert von B. Ist r = 0, dann besteht überhaupt kein Zusammenhang zwischen den Variablen. Liegen niedrigere Skalenniveaus vor, ist es nicht sinnvoll, Pearsons r zu berechnen. In diesem Fall gibt es andere Möglichkeiten, den Zusammenhang von Variablen zu prüfen (vgl. Klemm 2002: 262 ff.). Betrachten wir nun die Korrelationsmatrix, ist zu sehen, dass die Angebotsmiete mit vier der sechs unabhängigen Variablen signifikant korreliert, teilweise bis zu einem Wert knapp unter 0,8. Zwischen drei unabhängigen Variablen (Baufertigstellungen, Bevölkerungszuwachs, Pendleranteil) bestehen jeweils bivariate Zusammenhänge, die wir zumindest im Rahmen der Ana- Exkurs Korrelationen zwischen den Variablen (Pearsons r) Tab. 11 Wohnungsbestand Baufertigstellungen Baulandpreise Bev.-zuwachs Anteil Pendler W. m. Sozialbindung Ang.-miete/ qm 2 -0,200 **0,535 **0,738 **0,789 **0,494 0,129 Wohnungsbestand -0,110 -0,196 **-0,356 0,117 -0,273 Baufertigstellungen 0,168 **0,586 **0,504 0,135 Baulandpreise **0,471 *0,300 0,156 Bev.-zuwachs **0,427 0,185 Anteil Pendler -0,120 Legende: Ausgewiesen sind die Signifikanzniveaus (* für p<0,05; ** für p<0,01) <?page no="144"?> 144 m E t h o d E n d E r d a t E n a n a l y s E lyse beobachten müssen, weil hier Kollinearität auftreten kann. Die Korrelationsanalyse deutet auch darauf hin, dass die Sozialwohnungen keinen Zusammenhang mit den anderen Phänomenen zeigen (weder mit der Miethöhe noch mit den anderen unabhängigen Variablen). Signifikanzniveaus Ein mit dem Repräsentativitätsproblem verwandtes Problem ist die Frage der Signifikanz (»Deutlichkeit«) von Beziehungen zwischen Variablen. Hierbei geht es darum, dass in einer gezogenen Stichprobe zwischen zwei Phänomenen ein Zusammenhang bestehen kann, der in der Grundgesamtheit aber nicht vorkommt. Weil wir aber nur die Stichprobe ansehen und dort einen Zusammenhang sehen, schließen wir fälschlicherweise darauf, dass auch in der Grundgesamtheit ein Zusammenhang besteht - obwohl das gar nicht stimmt (oder zumindest nicht stimmen muss). Um an das oben genannte Beispiel anzuknüpfen, nehmen wir uns die Korrelationstabelle zur Hand. Wenn wir die Korrelation zwischen den Baulandpreisen und den Angebotsmieten betrachten, zeigt die Berechnung einen starken positiven Zusammenhang an (Pearsons r=0,738). Dies bedeutet, dass man für die Gruppe der 62 ausgewerteten Städte davon ausgehen kann, dass hohe Grundstückspreise mit hohen Wohnungsmieten zusammenfallen und niedrige Grundstückspreise mit niedrigen Wohnungsmieten. Allerdings ist die Frage, ob dies auch in der Grundgesamtheit zutrifft, d. h. wenn man Daten über alle Städte hätte. Diese Frage können wir häufig nicht beantworten, denn wenn wir Daten aller Städte hätten, würden wir diese auch verwenden und bräuchten uns keine Gedanken darüber zu machen, ob der Zusammenhang auch in der Grundgesamtheit vorkommt. Weil wir die Frage aber nicht beantworten können, nutzen wir eine Hilfskonstruktion. Wir berechnen auf Grundlage der existierenden Daten die Wahrscheinlichkeit, dass die Daten, so wie sie vorliegen, zufällig entstanden sind (und nehmen dabei eine Normalverteilung an). Ist die Wahrscheinlich, dass die Daten durch Zufallsprozesse generiert wurden, sehr klein, dann nehmen wir der Einfachheit halber an, dass der Zusammenhang nicht zufällig, sondern systematisch zustande gekommen ist. Solche Ergebnisse werden als signifikant bezeichnet. Eine weit verbreitete Konvention zieht bei 5 % die Grenze, d. h. wenn die Wahrscheinlichkeit für ein zufälliges Zusammentreffen kleiner als 5 % ist, nimmt man an, dass es ein systematischer Zusammenhang ist. Die Konvention ist allerdings häufig disziplinabhängig: In der Medizin werden beispielsweise häufige strengere Vorgaben gemacht, wenn beispielsweise die Wirkungen von verschiedenen Therapien verglichen werden sollen. Exkurs Exkurs <?page no="145"?> 145 l I n E a r E r E g r E s s I o n : w o h n u n g s p o l I t I k I n s t ä d t E n Im Folgenden wird die eigentliche Regressionsanalyse durchgeführt. Wir beginnen zunächst mit nur einer unabhängigen Variablen (Bevölkerungszuwachs), um das Prinzip zu verdeutlichen und fügen die anderen unabhängigen Variablen später hinzu. Zuerst nehmen wir also eine einfache Regression vor, um diese später zu einer multiplen Regression auszuweiten. Zur Verdeutlichung des Prinzips der einfachen Regression werden die Daten zunächst in einem Streudiagramm abgetragen. Wie das Streudiagramm zeigt, sind mit wachsender Bevölkerung hohe Mietpreise verbunden, denn man kann sich eine Gerade vorstellen, die durch die »Punktwolke« hindurch von links unten nach rechts oben geht. Genau zu bestimmen, wo diese Gerade liegt, ist Aufgabe der Regressionsanalyse. Sie nimmt dafür die vorhandenen Daten und sucht die Gerade, die am Besten die Punkte repräsentiert. Die Punkte haben allerdings kein gleiches »Gewicht« für die Suche nach der Geraden. Vielmehr geht es darum, dass die Summe der quadrierten Abweichungen der Punkte von der Geraden möglichst gering ist (deshalb auch least squares, siehe oben). Die Berechnungen übernimmt eine beliebige Statistiksoftware automatisch. Wichtig ist, dass die Berechnung eine Funktion der folgenden Gestalt ergibt: Y = b 0 + b 1 X + ε 10 8 6 12 4 Miete pro qm 10 0 -10 -20 20 Bevölkerungszuwachs Abb. 5 Einfaches bivariates Streudiagramm <?page no="146"?> 146 m E t h o d E n d E r d a t E n a n a l y s E Dabei stellt Y den Wert der abhängigen Variablen (hier: Mietpreis) dar und X den Wert der unabhängigen Variable (hier: Bevölkerungszuwachs) - diese Werte haben wir bereits in unserer Datenbank. Die Werte von b 0 und b 1 sind diejenigen, die uns interessieren und die die Statistiksoftware für uns errechnet, nämlich einerseits der Wert, an dem die Gerade die Y-Achse schneidet (b 0 , »Konstante«) und andererseits die Steigung der Geraden (b 1 , »Steigung). Das ε (»Fehlerterm«) ist in diese Gleichung eingefügt, weil zusätzlich zu den anderen Werten noch eine Abweichung vom so errechneten Wert vom tatsächlichen Wert vorkommen kann; dieser wird durch das ε repräsentiert. Für unser Beispiel errechnet die Statistiksoftware folgendes Ergebnis: Die wichtigsten Werte finden wir unter der Überschrift »coef« (Koeffizienten). Hier sind die Werte von b 0 , und b 1 angezeigt. Dabei bezeichnet »_cons« die Konstante (b 0 ). Die gefundene Gleichung lautet also Y = 6,702 + 0,159X + ε Wenn wir die Gerade in die Punktwolke einzeichnen lassen, können wir die Formelwerte dort gut ablesen. An der Stelle, an der X = 0 ist, also die Gerade die Y-Achse schneidet, beträgt Y = 6,702. Die Steigung ist wegen der kleinen Zahl schwierig abzulesen: Die Formel sagt, dass eine Erhöhung des Bevölkerungszuwachses um den Wert 1 (d. h. um einen Prozentpunkt) den Wert des Mietpreises um 0,159 erhöht. Wenn wir beide Zahlen mit 10 multiplizieren, kann man die Werte gut ablesen (eine Erhöhung des Bevölkerungszuwachses um 10 Prozentpunkte (waagerechte Linie) ergibt eine Erhöhung des Mietpreises um den Wert 1,59, d. h. € 1,59 pro Quadratmeter Standard- Regressionsgleichung Source Total mietpreis bevzuwachs _cons Model Residual SS 161.816051 Coef. 0.159 6.702 Std. Err. 0.015 0.117 t 10.43 57.17 P> I t I 0.000 0.000 [95 % Conf. Interval] 0.129 6.468 0.190 6.936 100.729654 61.0863976 df 67 1 66 MS Number of obs = 68 F (1, 66) = 108.83 Prob > F = 0.0000 R-squared = 0.6225 Adj R-squared = 0.6168 Root MSE = _96206 2.41516495 100.729654 _925551479 Abb. 6 Output der Regressionsanalyse mit einer unabhängigen Variablen <?page no="147"?> 147 l I n E a r E r E g r E s s I o n : w o h n u n g s p o l I t I k I n s t ä d t E n (senkrechte Linie). Wäre die Steigung gleich Null, hätte der Bevölkerungszuwachs keinen Einfluss auf die Mietpreise. Wäre die Steigung hingegen negativ, würde sich der Bevölkerungszuwachs in niedrigeren Mieten niederschlagen. Natürlich (oder besser gesagt: leider) liegen nicht alle Punkte exakt auf der Geraden. Viele Punkte liegen nah oder sogar sehr nah an der Geraden, andere nicht (beispielsweise der Punkt ganz oben bei x = 10 und y = 11,8). Dies ist die Stelle, an dem das ε aus der Gleichung weiter oben ins Spiel kommt, denn es bezeichnet den Abstand zwischen dem Punkt und der Geraden, also den realen Daten und der Schätzung der Regressionsfunktion für diesen spezifischen Punkt, wie er sich aus dem Zusammenhang aller Daten ergibt. Dieser Abstand wird Residuum (oder auch »Restgröße«) genannt. Aber wie gut ist das Modell, das wir konstruiert haben, wenn wir uns von einzelnen Punkten lösen und das Gesamtbild betrachten? Diese Frage lässt sich beantworten, wenn wir zwei zentrale statistische Kennzahlen für das Modell berechnen lassen. Wie gut die Gerade an die Punkte angepasst ist, lässt sich am »Determinationskoeffizienten« (»R 2 «) ablesen. Diese Zahl variiert zwischen eins (alle Punkte liegen exakt auf der Geraden) und null (die Gerade liegt waagerecht und alle Punkte liegen unsystematisch im Diagramm). Für das vorliegende Modell ist R 2 = 0,6225, was bedeutet, dass etwas mehr als knapp 62 % der Varianz auf der abhängigen Variablen (Mietpreise) durch die unabhängige Variable (Bevölkerungszuwachs) erklärt wer- Residuum Modellgüte 10 8 6 12 4 Miete pro qm 10 0 -10 -20 20 Bevölkerungszuwachs Y=6,702 10 1,59 Abb. 7 Streudiagramm mit Regressionsgerade <?page no="148"?> 148 m E t h o d E n d E r d a t E n a n a l y s E den kann. Wie gut die Punktschätzungen des Modells sind, lässt sich aus dem Standardfehler des Schätzers (»root MSE«, häufig auch als »s« bezeichnet) ablesen. Diese Zahl gibt an, wie weit die Punktschätzung des Modells für einen Fall im Durchschnitt vom eigentlichen Wert entfernt liegt. Wenn s = 0 ist, liegen alle Punkte auf der Geraden und es gibt keine Abweichung der Schätzung vom tatsächlichen Punkt. Im vorliegenden Fall beträgt s ≈ 0,96, was bedeutet, dass das Modell bei der Prognose der Miethöhe im Durchschnitt ca. € 0,96 pro Quadratmeter von der tatsächlichen Miethöhe abweicht. Zudem können wir weitere Kennzahlen für das Regressionsmodell errechnen lassen, z. B. das Signifikanzniveau der unabhängigen Variablen im Modell. An dieser Stelle muss allerdings klar sein, dass die gefundene Gerade nicht als der »Wahrheit letzter Schluss« angesehen werden kann. Vielmehr ist die ausgerechnete Steigung die wahrscheinlichste unter vielen möglichen Geraden. Denn wenn schon bei einem Punkt ein geringer Messfehler vorläge, könnte die Gerade leicht steiler oder flacher ausfallen. Insgesamt gehen wir davon aus, dass die Messfehler sich gegenseitig aufheben, aber das muss nicht stimmen; und so können wir nicht sicher sein, welche Steigung die Gerade genau hat. Statistikprogramme rechnen hierfür das sogenannte Konfidenzintervall aus, d. h. aus einer Reihe möglicher Streuungen wird ermittelt, in welcher Schwankungsbreite die Gerade mit einer gewissen Wahrscheinlichkeit liegt. Dabei ist klar: Je näher die Punkte insgesamt an der Geraden liegen (und je höher demnach das R 2 ausfällt), desto kleiner ist auch das Konfidenzintervall, d. h. kleiner ist der Schätzfehler auch bei der Steigung der Geraden. Im vorliegenden Fall beträgt die Steigung b 1 = 0,159 mit einem 95 %-Konfidenzintervall von 0,129 bis 0,190 (rechte Spalte der Regressionstabelle). Dies bedeutet, dass die »wahre« Gerade mit 95 %iger Wahrscheinlichkeit zwischen diesen Werten liegt. Damit kann der Forschende einschätzen, wie gut die Schätzung bei dieser Variablen insgesamt ist. Im nächsten Schritt fügen wir dem Modell eine weitere unabhängige Variable hinzu. Jetzt geht es darum, eine Schätzung der Form Y = b 0 + b 1 X 1 + b 2 X 2 + ε vorzunehmen, d. h. der Mietpreis wird nicht mehr anhand nur eines Faktors (Bevölkerungszuwachs) geschätzt, sondern anhand zweier Faktoren (Bevölkerungszuwachs und Baulandpreise). Dies wird multiple Regression genannt, weil mehr als eine Ursache in Betracht gezogen wird. Dabei hat jede unabhängige Variable eine eigene Steigung. Das Ganze muss man sich so vorstellen, als seien die Punkte jetzt nicht mehr auf einer Fläche angeordnet (X und Y), sondern in einem dreidimensionalen Würfel, der von X 1 , X 2 multiple Regression <?page no="149"?> 149 l I n E a r E r E g r E s s I o n : w o h n u n g s p o l I t I k I n s t ä d t E n und Y aufgespannt wird. Die Punkte liegen nun nicht mehr auf einer Fläche, sondern schweben in einem dreidimensionalen Würfel. Die Regression ergibt nun folgendes Ergebnis: Damit hat sich die Schätzformel geändert: Y = 5,755 + 0,113X 1 + 0,340X 2 + ε Das Modell ist offenbar insgesamt besser als das vorige, denn jetzt werden knapp 79 % der Varianz durch die beiden unabhängigen Variablen erklärt. Allerdings ist das Maß »R 2 « mit Vorsicht zu genießen, denn durch das Hinzufügen von Variablen zum Modell kann R 2 nur konstant bleiben oder steigen. Geht man vom »worst case« aus, fügt eine neue Variable keinerlei zusätzliche Erklärungskraft hinzu - aber auch dann sinkt R 2 nicht. Dies bedeutet, dass man die Gesamtqualität des Modells auch mit sehr vielen völlig willkürlichen Variablen immer nur verbessern, aber niemals verschlechtern kann. Um diese »Verzerrung nach oben« auszugleichen, kann zusätzlich das »korrigierte R 2 « berechnet werden, welches die Anzahl der Variablen berücksichtigt. Bei Hinzunahme von schwachen Variablen kann daher das korrigierte R 2 sinken und sogar unter Null fallen. Diese Gefahr besteht hier nicht, denn auch das korrigierte R 2 hat sich deutlich nach oben bewegt; es betrug im ersten Modell noch 0,617, während das Modell mit zwei Variablen ein korrigiertes R 2 von 0,781 aufweist. Zudem hat sich der Standardfehler auf ca. 0,74 verringert, d. h. das Modell kann die Mietpreise insgesamt besser schätzen. Beide Variablen sind signifikant (p ist jeweils sehr klein; in der Tabelle wird bei der dritten Stelle hinter dem Komma immer noch 0 angezeigt). Source Source Total mietpreis bevzuwachs baulandpreise _cons Model Residual SS 150.360077 Coef. 0.113 0.340 5.775 Std. Err. 0.014 0.049 0.163 t 8.22 6.99 35.48 P> I t I 0.000 0.000 0.000 [95 % Conf. Interval] 0.085 0.243 5.450 0.140 0.437 6.101 118.463498 31.8965795 df 61 2 59 MS Number of obs = 62 F (2, 59) = 109.56 Prob > F = 0.0000 R-squared = 0.7879 Adj R-squared = 0.7807 Root MSE = _73527 2.4649193 59.231749 _540619992 Output der Regressionsanalyse mit zwei UVs Abb. 8 <?page no="150"?> 150 m E t h o d E n d E r d a t E n a n a l y s E Wann ist ein R 2 hoch genug? Wann ein R 2 »hoch«, »niedrig«, »ausreichend« oder »enttäuschend« ist, ist nicht klar definiert. Üblicherweise wird hier unterschieden zwischen Mikro- und Makromodellen. Bei Mikromodellen, d. h. Modellen, in der menschliche Individuen die Beobachtungen darstellen, sind niedrige R 2 -Werte die Regel, da menschliches Handeln einer Vielzahl von unbekannten Determinanten und auch zufälligen Einflüssen unterliegt. Bei Makromodellen, die i. d. R. auf Aggregatdaten aufbauen, sind höhere R 2 -Werte die Regel. Insgesamt ist die Frage, wie wichtig das R 2 als globales Gütemaß bei der Interpretation der Modelle ist, auch davon abhängig, welche grundlegende Forschungsperspektive man einnimmt. So unterscheidet Ganghof (2005) zwei Typen von Forschungsdesigns: Mit X-zentrierten Designs möchte der Forschende herausfinden, ob einige (oder wenige) Phänomene einen nachweisbaren Einfluss auf die abhängige Variable haben. Mit Y-zentrierten Designs hingegen geht es darum, möglichst viel der Varianz auf der abhängigen Variablen zu erklären. Für Y-zentrierte Designs spielt das R 2 die entscheidende Rolle, denn dieses Maß muss maximiert werden, um ein möglichst prognosefähiges Modell zu erhalten. Für X-zentrierte Designs hingegen kann auch ein niedriges R 2 ausreichen, denn es geht »nur« darum, ob eine bestimmte unabhängige Variable identifiziert werden kann, die Einfluss auf die abhängige Variable ausübt - die Punktschätzung des Modells ist für den Forschenden eher zweitrangig. Nach dem o. g. Muster fügen wir dem Modell jetzt weitere Variablen hinzu und beobachten, wie sich die Kennzahlen verändern. Die folgende Tab. 12 führt die Modelle in den Spalten auf, gibt aber nicht mehr alle Kennzahlen an, sondern beschränkt sich auf jene, die man vergleichen will. In den Spalten I und II werden die beiden oben besprochenen Modelle aufgeführt. Wie zu sehen ist, ist bei Hinzunahme der dritten unabhängigen Variable immer noch jede Variable im Modell III signifikant. Das korrigierte R 2 steigt bis auf 0,805 an. Allerdings entspricht die Wirkungsrichtung nicht bei allen Variablen den zuvor formulierten Erwartungen. So führen ein starker Bevölkerungszuwachs und hohe Baulandpreise zu höheren Mieten, was wir erwartet hatten (siehe Hypothesen, S. 149). Allerdings führt auch eine höhere Bautätigkeit zu steigenden Mieten, und das hatten wir eigentlich anders herum erwartet. Der Effekt im Modell ist jedoch eindeutig, so dass wir ihn (trotz »falscher« Richtung) nicht einfach ignorieren und aus dem Modell wieder entfernen können. Dies ist ein offener Punkt, auf den wir in der späteren Schlussfolgerung zurückkommen müssen. Modelldiskussion <?page no="151"?> 151 l I n E a r E r E g r E s s I o n : w o h n u n g s p o l I t I k I n s t ä d t E n Ab dem vierten Modell ist es offenbar gleichgültig, welche Variable man als vierte hinzufügt (Modelle IV, V und VI) - signifikanten Einfluss behalten nur die drei bisherigen Variablen (Bevölkerungszuwachs, Baulandpreise und Baufertigstellungen), während die anderen insignifikant sind. Der Versuch, in Modell VII alle Variablen zu verwenden, führt dazu, dass nunmehr nur noch die beiden Variablen signifikant sind, die wir von Anfang an im Blick hatten. Auch an den Kennzahlen des Gesamtmodells (R 2 , korrigiertes R 2 , Standardfehler des Schätzers) ist zu sehen, dass sich das Modell nicht wesentlich weiterentwickelt. Ein ähnlich »großer Sprung« wie zwischen Modell I und II wird nicht mehr erreicht. Zudem ist der von den Baufertigstellungen ausgehende Effekt in Modell VII nicht mehr signifikant. Offenbar hängt der Effekt also damit zusammen, welche anderen Variablen noch im Modell enthalten sind. Erster »Verdächtiger« ist die Variable »Pendleranteil«, denn diese korreliert hoch mit den Baufertigstellungen (siehe Tab. 12). Deshalb nehmen wir diese Variable heraus und erhalten so Modell VIII. Hier zeigt die Variable »Wohnungsbestand« zum ersten Mal einen signifikanten Effekt, allerdings nur, weil auch die Variable »Sozialwohnungen« im Modell integriert ist. Ohne die Variable »Sozialwohnungen« ist auch »Wohnungsbestand« insignifikant (siehe Modell V). Das Modell ist also an dieser Stelle hinsichtlich des Effekts von »Wohnungsbestand« nicht stabil. Zudem führt die Hinzunahme der Variable nur zu einer minimalen Erhöhung von R 2 , während die Punktschätzung eher schlechter wird (vgl. Modelle IV und VIII). Letztlich bedeutet dies, dass wir es aus Gründen der Sparsamkeit bei Modell III belassen, denn die weiteren Modelle bieten keinen entscheidenden Mehrwert bei der allgemeinen Modellgüte und der Punktschätzung. Multikolli- Modell I II III IV V VI VII VIII N 68 62 62 62 62 47 47 47 R 2 0,62 0,79 0,81 0,82 0,82 0,82 0,84 0,84 korr. R 2 0,62 0,78 0,81 0,81 0,81 0,80 0,82 0,82 S 0,96 0,74 0,69 0,69 0,68 0,75 0,71 0,71 VIF max 1,00 1,28 1,99 1,99 2,17 2,01 2,66 2,20 Konstante 6,70 5,76 5,28 5,25 2,73 5,39 0,28 -0,55 Bev.-zuwachs 0,16 0,11 0,09 0,08 0,09 0,09 0,10 0,11 Baulandpreise 0,34 0,36 0,35 0,36 0,35 0,32 0,33 Baufertigstellungen 1,05 0,85 0,99 1,21 0,73 0,95 Anteil Pendler 0,01 0,02 Wohnungsbestand 4,71 9,05 10,79 W. m. Sozialbdg. -0,01 0,03 0,02 Angegebene Werte sind B-Koeffizienten. Fett gedruckte Koeffizienten sind signifikant auf dem Niveau von p<0,05. Werte wurden auf zwei Nachkommastellen gerundet. Tab. 12 Vergleich verschiedener linearer Regressionsmodelle <?page no="152"?> 152 m E t h o d E n d E r d a t E n a n a l y s E nearität ist trotz der stellenweise vorhandenen paarweisen Korrelationen zwischen den unabhängigen Variablen kein Problem bei diesem Modell, der höchste vorkommende VIF-Wert aller Modelle liegt bei 2,77. Eine Daumenregel sagt, dass man sich erst bei einem VIF>10 den Kopf zerbrechen sollte, allerdings besteht über die Daumenregel kein Konsens in der Literatur (O’Brien 2007: 674, insb. Fußnote 2). Wir landen in der Gesamtschau bei Modell III, welches mit nur drei unabhängigen Variablen die Mietpreishöhe gut vorhersagen kann - ca. 81 % der Varianz auf der abhängigen Variablen werden erklärt. Das Modell erhärtet die Hypothesen H 3 und H 4 , während die Hypothesen H 1 , H 5 und H 6 als abgelehnt gelten müssen. Einen besonders interessanten Befund haben wir hinsichtlich H 2 , welche ebenfalls abgelehnt werden muss, da die tatsächliche Richtung des Effekts nicht die prognostizierte Richtung darstellt. Gleichwohl können wir die Variable nicht einfach aus dem Modell entfernen, als sei nichts passiert. Vielmehr müssen wir an dieser Stelle wieder inhaltlich arbeiten, d. h. wir müssen überlegen, wie es zu diesem »falschen« Effekt kommt. Hierfür kann es mehrere Gründe geben: Die Daten können falsch oder von mangelnder Qualität sein, im Modell könnten weitere entscheidende Variablen fehlen, die das Vorzeichen doch noch umkehren oder die hinter der Hypothese liegende inhaltliche Vermutung ist einfach falsch. Wir brechen die Veranschaulichung an dieser Stelle mit dem Hinweis darauf ab, dass wir genau an dem Punkt sind, den wir in Abschnitt 2.3 beschrieben haben: Wir nutzen die Ergebnisse der Empirie, um an einer Verbesserung der Theorie zu arbeiten. Eine weitere Möglichkeit, die Weiterentwicklung des Modells zu betreiben, ist die sogenannte Residuendiagnostik. Hierfür schaut sich der Forschende die Differenzen zwischen den wahren Werten und den vorhergesagten Werten auf der abhängigen Variablen an (Residuen). Im Beispiel führt dies zu folgender Verteilung: Auf der X-Achse ist die Differenz zwischen vorhergesagten Werten und tatsächlichen Werten aufgetragen. Die Fälle sind je nach den vorliegenden Differenzen gruppiert; die Höhe der Balken gibt den Anteil der Gruppe an der Gesamtheit der Fälle an. Wie zu sehen ist, werden schon sehr viele Fälle durch die drei hohen Säulen in der Mitte repräsentiert, sie kommen zusammen auf ca. 55 % der Fälle. Die Mehrheit der Fälle wird also gut vorhergesagt, denn die Abweichung der Prognose vom tatsächlichen Wert ist Null bzw. im direkten Umfeld von Null. Es gibt aber auch einige Fälle, in denen das Residuum hoch ist, vor allem auf der rechten Seite der Skala. Hier weichen die tatsächlichen Werte nach oben von der Schätzung ab. Interessant wäre jetzt, ob sich bei Betrachtung dieser »abweichenden« oder »schlecht geschätzten« Fälle eine zusätzliche Erklärung ergibt, die man verwenden kann, um das Modell zu verbessern. Residuendiagnostik <?page no="153"?> 153 l I n E a r E r E g r E s s I o n : w o h n u n g s p o l I t I k I n s t ä d t E n Die nachfolgende Tab. 13 zeigt alle Fälle, in denen die Schätzung für die Angebotsmietpreise um mehr als einen Euro vom tatsächlichen Wert variiert: Wie zu sehen ist, sind insbesondere in Frankfurt am Main die Mieten sehr viel höher, als aufgrund des Modells zu erwarten ist - der reale Preis liegt mehr als 26 % über dem geschätzten Mietpreis (€ 10,32 statt € 8,19 pro qm 2 ). Auch Hamburg und Freiburg haben deutlich »zu hohe« Mieten. Interes- 15 10 5 20 0 Prozent 1 0 -1 2 Residuum Abb. 9 Verteilung der Residuen nach linearer Regression Stadt Y (tatsächlich) Yˆ (Schätzung) ε (Residuum) Frankfurt am Main 10,32 8,19 2,13 Hamburg 9,34 8,00 1,34 Freiburg i. Br. 9,41 8,09 1,32 Jena 7,76 6,52 1,24 Halle (Saale) 5,17 4,04 1,13 Rostock 6,05 4,93 1,12 Hamm 4,98 6,06 - 1,08 Oldenburg (Oldbg.) 6,44 7,54 - 1,10 Düsseldorf 8,03 9,24 - 1,21 Angebotsmieten pro m 2 . Durch Rundung können Differenzen geringfügig abweichen. Tab. 13 Fälle mit großen Residuen <?page no="154"?> 154 m E t h o d E n d E r d a t E n a n a l y s E sant sind aber vor allem die drei folgenden Städte: Sie liegen alle in Ostdeutschland und ein gutes Stück unter den drei hochpreisigen westdeutschen Städten. Dass gleich drei ostdeutsche Städte unter den sechs »Ausreißern nach oben« zu finden sind, ist angesichts der Verteilung in der Grundgesamtheit auffällig: In der gesamten Stichprobe von 68 Städten sind nur 11 ostdeutsche Städte vertreten. Es liegt allerdings nahe zu vermuten, dass nicht das gleiche Phänomen ausschlaggebend für die Abweichungen vom Modell ist. Wir versuchen deshalb zunächst die Variante, einen (noch zu spezifizierenden) »Ostfaktor« für die Abweichung verantwortlich zu machen. Dies könnte z. B. eine fehlende Mietpreishistorie vor der Deutschen Einheit sein. Man könnte hier argumentieren, dass nach der Freigabe der Mietpreise mit der Übernahme des marktwirtschaftlichen zur Wendezeit die »Einstiegspreise« überhöht gebildet wurden. Wir experimentieren deshalb mit einer »Dummy-Variable« (eine Variable, welche nur die Werte 0 und 1 annehmen kann). Wir nennen sie »west« - falls die Stadt in Westdeutschland liegt, nimmt sie den Wert »1« an; liegt die Stadt in Ostdeutschland, ist der Wert »0«. Diese Variable ermöglicht die analytische Trennung zweier deutlich abgegrenzter Fallgruppen. Wenn also die Mieten in Ostdeutschland systematisch höher sind als in Westdeutschland, müsste dies in einem signifikanten Effekt resultieren. Wie zu sehen ist, wird das R 2 nur unwesentlich erhöht und der Standardfehler der Schätzung nur unwesentlich gesenkt. Die Koeffizienten für die drei unabhängigen Variablen, die wir aus dem Vorgängermodell übernommen haben, bleiben ebenfalls sehr ähnlich. Die eingeführte Dummy-Variable weist einen signifikanten, negativen Effekt aus, d. h. in Westdeutschland Source Source Total mietpreis bevzuwachs baulandpreise baufertigst west _cons Model Residual SS 150.360077 Coef. 0.090 0.381 1.066 -0.534 5.662 Std. Err. 0.016 0.046 0.353 0.239 0.282 t 5.73 8.32 3.02 -2.24 20.04 P> I t I 0.000 0.000 0.004 0.029 0.000 [95 % Conf. Interval] 0.059 0.290 0.359 -1.012 5.096 0.122 0.473 1.774 -0.056 6.227 124.708824 25.6512537 df 61 4 57 MS Number of obs = 62 F (4, 57) = 69.28 Prob > F = 0.0000 R-squared = 0.8294 Adj R-squared = 0.8174 Root MSE = _67084 2.4649193 31.1772059 _450021994 Abb. 10 Output der Regressionsanalyse mit drei UVs plus Dummy <?page no="155"?> 155 l I n E a r E r E g r E s s I o n : w o h n u n g s p o l I t I k I n s t ä d t E n sind die Mieten im Zusammenspiel mit den anderen drei Variablen tendenziell niedriger als in Ostdeutschland. Zu beobachten ist eine Wechselwirkung mit der Konstante; diese steigt von 5,28 auf 5,66. Man muss sich das bildlich so vorstellen, als würden die westdeutschen Fälle mit einem um ca. € 0,534 kleineren »Sockel« in die Analyse gehen als die ostdeutschen Städte. Interessant ist jetzt, die Residuendiagnostik erneut vorzunehmen, d. h. sich die »Ausreißer«-Städte nochmals anzusehen, denn durch das neue Modell werden die Werte neu geschätzt. Insgesamt ist das Gesamtmodell allerdings kaum besser geworden (siehe oben). Die »neuen Ausreißer« sind in Tab. 15 aufgeführt. Wie zu sehen ist, hat sich der Schwerpunkt der »Ausreißer« jetzt von der einen auf die andere Seite verschoben. Wurden vorher die Mieten in sechs Städten stark unterschätzt und in drei Städten stark überschätzt, hat sich das Modell I II III neu N 68 62 62 62 R 2 0,62 0,79 0,81 0,83 korr. R 2 0,62 0,78 0,81 0,82 S 0,96 0,74 0,69 0,67 VIF max 1,00 1,28 1,99 2,03 Konstante 6,70 5,76 5,28 5,66 Bev.-zuwachs 0,16 0,11 0,09 0,09 Baulandpreise 0,34 0,36 0,38 Baufertigstellungen 1,05 1,07 Westdeutschland -0,54 Angegebene Werte sind B-Koeffizienten. Fett gedruckte Koeffizienten sind signifikant auf dem Niveau von p<0,05. Werte wurden auf zwei Nachkommastellen gerundet. Tab. 14 Weiterer Vergleich der Regressionsmodelle Stadt Y (tatsächlich) Yˆ (Schätzung) ε (Residuum) Frankfurt am Main 10,32 8,18 2,14 Hamburg 9,34 7,99 1,35 Freiburg i. Br. 9,41 8,08 1,33 Oldenburg (Oldbg.) 6,44 7,47 - 1,03 Stuttgart 9,07 10,14 - 1,07 Dresden 5,95 7,11 - 1,16 Leipzig 4,97 6,24 - 1,27 Düsseldorf 8,03 9,30 - 1,27 Angebotsmieten pro m 2 . Durch Rundung können Differenzen geringfügig abweichen. Tab. 15 Fälle mit großen Residuen (reloaded) <?page no="156"?> 156 m E t h o d E n d E r d a t E n a n a l y s E Verhältnis jetzt umgekehrt (3: 5). Viele der Städte aus der letzten Residuendiagnostik sind weiter »Ausreißer« (Frankfurt am Main, Hamburg, Freiburg nach oben; Oldenburg und Düsseldorf nach unten). Die drei ostdeutschen Städte unter den »zu teuren« Städten haben wir mit der Einführung der Zusatzvariable »eingefangen«, dafür haben sich bei den »zu billigen« Städten zwei andere ostdeutsche Städte in die Tabelle geschoben (Dresden und Leipzig). Die Dummy-Variable sah zunächst wie eine clevere Idee aus, stellte sich aber jetzt als ungeeignet heraus, das Modell zu verbessern. Offenbar erfasst sie nicht alle ostdeutschen Städte gleichermaßen, bzw. nicht bei allen ostdeutschen Städten steckt das gleiche bzw. gleichförmige Phänomen hinter den Mietpreisen. Man könnte das Beispiel jetzt noch mit weiteren Diagnoseschritten und weiteren Variablen weiterführen; wir brechen aber an dieser Stelle die Bearbeitung der Regressionsanalyse ab, um uns am Ende der Demonstration den Prämissen der Methode zuzuwenden. Mit Prämisse ist gemeint, dass es Vorbedingungen gibt, die eingehalten werden müssen, wenn die Methode korrekt angewandt werden soll. Einige haben die Form von Annahmen (d. h. es wird davon ausgegangen, dass die Prämisse erfüllt ist), andere Prämissen können tatsächlich überprüft werden. ● Das Modell muss richtig spezifiziert sein. Das bedeutet, dass alle relevanten Variablen im Modell enthalten sind und dass der Zusammenhang zwischen den unabhängigen Variablen und der abhängigen Variablen tatsächlich jeweils linear ist (und nicht etwa parabelförmig, logarithmisch, wellenförmig o. ä.). Zudem muss die Zahl der zu schätzenden Parameter (Konstante plus jeweils der eine Koeffizient der unabhängigen Variablen) kleiner sein als die Anzahl der Fälle. ● Der Erwartungswert der Residuen ist Null. Diese Bedingung ist fast selbsterklärend, denn wenn bei der Messung der Werte vor Einstieg in die Regressionsanalyse schon klar ist, dass die Messfehler in eine bestimmte Richtung gehen, dann sollte man auf dieser Basis keine Regressionsfunktion schätzen; denn die Schätzung wird durch den Messfehler ebenfalls verzerrt werden. ● Die unabhängigen Variablen und die Störgrößen korrelieren nicht miteinander. Mess- und Schätzfehler müssen zufällig sein. Liegen aber beispielsweise bei hohen Messwerten hohe Störgrößen vor und bei kleinen Messwerten nur geringe Störgrößen, dann besteht ein systematischer Zusammenhang zwischen Messung und der Abweichung der Schätzung vom tatsächlichen Wert. Dies deutet darauf hin, dass bei der Messung der Werte Fehler gemacht wurden, eine andere Variable fehlt oder der Zusammenhang nicht linear ist. ● Die Störgrößen weisen konstante Varianz auf. Dies bedeutet, dass die Störgrößen sich nicht mit den Werten der abhängigen Variablen verän- Prämissen <?page no="157"?> 157 l I n E a r E r E g r E s s I o n : w o h n u n g s p o l I t I k I n s t ä d t E n dern dürfen. Die Residuen müssen stattdessen zufällig sein. Besteht eine Korrelation zwischen Störgröße und Wert der abhängigen Variablen, wird dies als »Heteroskedastizität« bezeichnet. Als Beispiel führen Backhaus et al. (2016: 103) nachlassende Aufmerksamkeit von Beobachtenden bei einem Experiment an. ● Die Störgrößen sind nicht autokorreliert. Autokorrelation bei Störgrößen liegt dann vor, wenn eine Störgröße von der vorigen Störgröße beeinflusst wird. Dies bedeutet, dass die Störgröße nicht mehr zufällig ist, sondern der Schätzfehler zumindest zu einem Teil vom vorigen Schätzfehler abhängt. Da die Fälle aber unabhängig voneinander sein müssen, ist hier das Prinzip der linearen Regression verletzt. Als Lösung des Problems bieten sich Regressionsmodelle an, die Autokorrelation der Störgrößen berücksichtigen, z. B. Zeitreihenmodelle. ● Keine unabhängige Variable darf sich durch die anderen unabhängigen Variablen exakt darstellen lassen. Dies ist dann der Fall, wenn unabhängige Variablen gemeinsam in das Modell aufgenommen wurden, die sehr ähnliche Phänomene messen oder anderweitig zusammenhängen. Das Problem ist, dass dann nicht mehr eindeutig ist, durch welche der beteiligten unabhängigen Variablen die Varianz auf der abhängigen Variablen nun erklärt wird, da sich die Varianzen überschneiden. Die Schätzung des Modells wird verzerrt und unabhängige Variablen mit signifikantem Zusammenhang auf die abhängige Variable werden als insignifikant ausgewiesen, nur weil eine andere unabhängige Variable einen noch engeren Zusammenhang aufweist. Dieses Phänomen wird Multikollinearität genannt und kann nur so gelöst werden, dass Variablen aus dem Modell entfernt werden, wenn sie zu stark miteinander korrelieren oder dass die Variablen vorher mathematisch vereinigt werden (z. B. durch Indexbildung, Mittelwertberechnung o. ä.). ● Die Störgrößen müssen normalverteilt sein, d. h. es sollte viele kleine Schätzfehler und wenige große Schätzfehler geben. Diese Annahme ist bei Regressionen mit kleinsten Quadraten ohnehin gegeben, nicht aber bei anderen Regressionsmodellen. Der Grund für diese Annahme ist, dass bei der statistischen Modellierung der Regression weitere statistische Tests (T-Test, f-Test) durchgeführt werden, die genau diese Normalverteilung voraussetzen. Wäre die Normalverteilung nicht gegeben, könnten diese Zusatztests nicht durchgeführt werden. Die Tests hängen eng mit dem errechneten Signifikanzniveau für den Zusammenhang zwischen unabhängigen Variablen und der abhängigen Variablen zusammen und müssen daher möglich sein. In wissenschaftlichen Publikationen werden die Prämissen der Methoden häufig nicht thematisiert. Man kann vermuten, dass die Kolleg/ innen nicht Multikollinearität <?page no="158"?> 158 m E t h o d E n d E r d a t E n a n a l y s E so sorglos sind, die Prämissen nicht zu prüfen. Vielmehr ist zu vermuten, dass die Prämissen erfolgreich getestet, dies aber in den Publikationen nicht vermerkt wird. Für studentische Arbeiten empfiehlt sich hingegen die Dokumentation auf jeden Fall, da es die Vorgehensweise des Forschenden transparent macht und keine unangenehmen Nachfragen erzeugt. Ein schönes und sehr prominentes Beispiel für eine lineare Regression in der Wahlforschung haben Norporth und Gschwend (2005) vorgelegt. Eine ausführliche Herleitung des Signifikanztheorems mit Anwendungsbeispielen finden sich bei Klemm (2002: 330 ff.). Weiterführende Informationen zu Signifikanzniveaus bieten Schnell et al. (2013: 437). ● Nach welchem Prinzip funktioniert die lineare Regression? ● Was bedeutet es, wenn eine Variable einen signifikanten Einfluss auf eine andere Variable besitzt? ● Was ist ein Residuum? Weshalb analysiert man die Residuen? ● Was sind die globalen Gütekriterien des Regressionsmodells? ● Weshalb ist es wichtig, dass die Modellprämissen überprüft werden? ● Wie kann man das Modell der linearen Regression als Prognoseinstrument nutzen? Logistische Regression: Die Wahl der »Grünen« Die logistische Regression funktioniert nach einer ähnlichen Logik wie die bereits eingeführte lineare Regression (siehe vorangegangener Abschnitt). Auch hier geht es darum, aus einer unabhängigen Variable bzw. mehreren unabhängigen Variablen den Wert der abhängigen Variable dadurch vorherzusagen, dass für die vorliegenden Daten eine mathematische Funktion gefunden wird, die die Datenpunkte bestmöglich abbildet. Allerdings hat die zuvor dargestellte lineare Funktion einen entscheidenden Nachteil: Sie fordert metrisches Skalenniveau auf der abhängigen Variablen. Dieses liegt jedoch häufig nicht vor. Beispielsweise sind die Daten, welche man in Befragungen erhoben hat, häufig auf ordinalen bzw. nominalen Skalen angeord- Lesetipps Kontrollfragen ▼ ▲ 5.4 <?page no="159"?> 159 l o g I s t I s c h E r E g r E s s I o n : d I E w a h l d E r » g r ü n E n « net. Hier funktioniert die lineare Regression nicht. Stattdessen kann die logistische Regression eingesetzt werden. Diese funktioniert leicht unterschiedlich, je nachdem, wie viele verschiedene Werte die abhängige Variable annehmen kann. In diesem Beispiel wird die einfachste Variante der logistischen Regression vorgestellt, in der eine dichotome (bzw. »binäre«) abhängige Variable vorliegt (d. h. die Variable kann zwei Werte annehmen; in unserem Beispiel die Werte »0« und »1«). In unserem Beispiel möchten wir untersuchen, wovon es abhängt, ob ein Wählender eine bestimmte Partei (Die Grünen) wählt oder nicht. Doch zunächst müssen wir überlegen, weshalb die lineare Regression als Methode hierfür nicht geeignet ist. Nehmen wir an, dass wir herausfinden möchten, ob das Alter eine Rolle bei der Wahlentscheidung für die Grünen spielt. Wir haben vierzehn Wähler/ innen jeweils danach gefragt, wie alt sie sind und ob sie bei der letzten Wahl diese Partei gewählt haben. Ein Messproblem der Wahlforschung An dieser Stelle könnte man schon diskutieren, ob es eine valide Messung darstellt, wenn man Personen fragt, welche Partei sie bei der letzten Wahl gewählt haben. Üblicherweise funktioniert die naheliegende Messvariante (Beobachtung des Wahlaktes) deshalb nicht, weil die Wahl geheim ist, d. h. es verboten ist, dass eine Person der anderen beim Wählen zusieht. Der Forschende ist also zumeist darauf angewiesen, die letzte Wahl zu erfragen. Je nachdem, wie viel Zeit seitdem vergangen ist, erinnern sich Wähler/ innen besser oder schlechter daran. Zudem ist in der Wahlforschung schon länger bekannt, dass sich nicht alle Wähler/ innen korrekt daran erinnern, welche Partei sie bei der letzten Wahl gewählt haben. Beispielsweise haben Himmelweit et al. (1978) gezeigt, dass bis zu einem Viertel der Wähler/ innen bei der Frage nach ihrer letzten Wahlentscheidung eine falsche Antwort geben. Auf das Messproblem kommen wir später noch zurück - unabhängig davon verfolgen wir unser Gedankenexperiment weiter. Es stellt sich heraus, dass vier der vierzehn Personen die Grünen gewählt haben wollen; diese sind 18, 20, 23 und 53 Jahre alt. Die anderen zehn Personen haben die Grünen nicht gewählt, ihr Alter schwankt zwischen 22 und 72 Jahren. Zur Vereinfachung schauen wir uns ein Streudiagramm an, das wir aus den Daten erstellt haben. Exkurs <?page no="160"?> 160 m E t h o d E n d E r d a t E n a n a l y s E Wenn wir jetzt die lineare Regression als Methode verwenden wollten, müssten wir eine entsprechende Funktion der Form Y = b 0 + b 1 X + ε finden, die die Punkte am besten repräsentiert. Diese gibt es auch; sie ist in die nächste Abbildung eingezeichnet. Die gefundene Regressionsgleichung lautet: Y = 0,709 - 0,011X + ε Dies ist aus drei Gründen nicht zielführend: ● Es gibt eigentlich nur einen Punkt, an dem klar ist, dass jemand nicht die Grünen wählt. Es ist der Punkt, an dem die Gerade die X-Achse schneidet. Dies ist der Fall bei einem Wähler, der ca. 64,5 Jahre alt ist, denn dann ist Y = 0. Was können wir über Wähler/ innen sagen, die älter sind als 64,5 Jahre? Hier wird Y kleiner als 0 - dazu gibt es keine definitorische Entsprechung, denn man kann nicht weniger tun als eine Partei nicht zu wählen. ● Der jüngste Wählende hat realistischerweise am Wahltag seinen 18. Geburtstag (X = 18). Es ist nicht klar, ob er Grüne wählt oder nicht, Abb. 11 Streudiagramm bei binärer abhängiger Variablen Wahl der Grünen 60 50 40 30 20 70 Alter 1 0 <?page no="161"?> 161 l o g I s t I s c h E r E g r E s s I o n : d I E w a h l d E r » g r ü n E n « denn Y = 0,709 - 0,198 = 0,511. Er liegt ziemlich genau zwischen 0 (wählt nicht Grüne) und 1 (wählt Grüne). Sichere Wähler/ innen für Grüne sind dort, wo Y = 1 ist. Dazu müsste der Wählende ein negatives Alter haben, nämlich -26,5 Jahre alt sein - so weit müsste man den Graphen nach links oben verlängern. ● Überhaupt kann die Modellierung durch eine lineare Funktion die Realität überhaupt nicht richtig einfangen. Die meisten Fälle können nicht auf der Geraden liegen, denn entweder man wählt die Grünen oder man tut es nicht. Ein Wählender kann nicht »0,6mal« die Grünen wählen. Es ist also klar, dass eine lineare Modellierung nicht zum Erfolg führt. Trotzdem scheint an der Idee etwas dran zu sein, dass vor allem junge Menschen die Grünen wählen: Drei von den vier jüngsten Wählern wählen die Partei (nur die Person mit Alter = 22 ist die Ausnahme), fast alle älteren Wählenden wählen die Partei nicht (einzige Ausnahme: die Person mit dem Alter = 57). Man könnte also sagen: Wenn ein Wählender jung ist, ist es wahrscheinlich, dass er die Grünen wählt. Wenn der Wählende alt ist, ist es hingegen unwahrscheinlich, dass er sich an der Urne für diese Partei entscheidet. Die logistische Regression funktioniert genau auf diese Weise: Statt einen linearen Zusammenhang zwischen den Variablen zu ermitteln, wird sie verwendet, um die Wahrscheinlichkeit zu prognostizieren, dass ein gewisses Wahl der Grünen 60 50 40 30 20 70 Alter 1 .5 0 Abb. 12 Lineare Regressionsgerade bei binärer abhängiger Variable <?page no="162"?> 162 m E t h o d E n d E r d a t E n a n a l y s E Ereignis eintritt (hier: dass der Wählende sein Kreuzchen auf dem Stimmzettel bei »Die Grünen« macht). Hierzu wird angenommen, dass es eine empirisch nicht messbare latente Variable gibt, die z genannt wird. Diese bedingt die Wahrscheinlichkeit, dass das Ereignis eintritt (also y = 1 ist). Diese latente Variable z setzt sich nach einer Formel aus den eigentlichen unabhängigen Variablen zusammen, welche wir auf ihren Effekt hin überprüfen wollen. Die Komposition von z wiederum funktioniert wie bei der linearen Regression so, dass eine Konstante sowie die einzelnen Einflussvariablen summiert werden, wobei jede mit einem eigenen Faktor multipliziert wird. Hinzu kommt die Störgröße u. Die latente Variable (z) wird demnach der folgenden Formel ermittelt: Wir haben also zunächst mit einer linearen Funktion z erzeugt. Im zweiten Schritt beziehen wir z auf die Wahrscheinlichkeit, dass das Ereignis eintritt. Diese Funktion basiert auf dem natürlichen Logarithmus und lautet: bzw. durch Umformung Diese Formel sorgt für zwei Dinge. Erstens gewährleistet sie, dass p immer zwischen 0 und 1 liegt. Wenn e z sehr groß wird, nähert p sich dem Wert 1 stark an, kann aber nicht größer als 1 werden. Wenn e z sehr klein wird, konvergiert p gegen Null. Zweitens macht sie die Wahrscheinlichkeit von der Eulerschen Zahl (e = 2,718...) exponentiell abhängig, d. h. bei niedrigen Werten von z ist die Funktion später sensibler als bei hohen Werten. Auf unser Beispiel bezogen bedeutet das, dass ein Jahr mehr oder weniger bei niedrigen Werten (z. B. bei 22, 23 und 24 Jahren) noch eine große Rolle spielt bei der Frage, ob jemand Grün wählt oder nicht. Der Unterschied zwischen 66, 67 und 68 Jahren ist dann schon nicht mehr so ausgeprägt. Im Zusammenspiel führen beide Gleichungen zur sogenannten logistischen Regressionsgleichung: mit <?page no="163"?> 163 l o g I s t I s c h E r E g r E s s I o n : d I E w a h l d E r » g r ü n E n « So entsteht eine s-förmige Kurve, die sich zwischen Y = 0 und Y = 1 bewegt und symmetrisch um ihren Wendepunkt Y = 0,5 ist. Den s-förmigen Verlauf behält die Kurve immer bei. Es gibt nur noch Eigenschaften der Kurve, die verändert werden können: [1] Die Kurve kann nach rechts oder links verschoben sein. In diesem Fall hat sie einen Abstand zum Nullpunkt; dies ist vergleichbar mit dem »Sockel« in der linearen Regression. [2] Die Kurve kann statt wie in der Abbildung (von links unten nach rechts oben) umgekehrt (von links oben nach rechts unten) verlaufen. In diesem Fall ist bei niedrigen z-Werten die Wahrscheinlich hoch, dass die abhängige Variable = 1 ist; bei hohen z-Werten steigt die Wahrscheinlichkeit, dass die abhängige Variable = 0 ist. Dies ist in etwa vergleichbar mit der Frage, ob bei einer linearen Regression ein positiver oder negativer Regressionskoeffizient für x vorliegt (dann ist die Gerade ansteigend oder abfallend). [3] Die Kurve kann steiler oder flacher ausfallen. Je steiler sie ist, desto trennschärfer kann die unabhängige Variable dafür verwendet werden, um Fälle von 0 und 1 auf der abhängigen Variablen zu entscheiden. Die Frage ist, wie groß der »Graubereich« in der Mitte ist bzw. wie schnell die Prognose von 0 auf 1 »umkippt«. 5 0 z -5 -10 10 .8 .6 .4 .2 1 0 p (Wahrscheinlichkeit) Abb. 13 Prototypische Kurve der logistischen Regression <?page no="164"?> 164 m E t h o d E n d E r d a t E n a n a l y s E Für das Beispiel verwenden wir die Daten der siebten Runde des »European Social Survey« (ESS) aus dem Jahr 2014. Im Rahmen dieses Programmes werden seit dem Jahr 2001 regelmäßig alle zwei Jahre Personen in vielen europäischen Ländern nach ihren persönlichen Verhältnissen und Einstellungen befragt. Die Daten sowie die Fragebögen und Begleitmaterial sind auf der Webseite des ESS (www.europeansocialsurvey.org) zu finden. Der Datensatz des Jahres enthält die Rohdaten der Befragung von 40.185 Personen. Für die folgende Analyse verwenden wir nur die Daten des deutschen Projektteils; er umfasst 3.045 Personen. Das Ziel ist es, herauszufinden, aus welchen Gründen Menschen die Partei »Die Grünen« wählen. Die Gründe für die Wahlentscheidungen von Menschen werden in der Literatur sehr umfänglich beschrieben. Dies erleichtert die Suche nach unabhängigen Variablen. Eine verbreitete Theorie, die die Wahlentscheidung erklärt, ist das sogenannte Michigan-Modell (Campbell et al. 1980), welches die Wahlforschung entscheidend beeinflusst hat und bis heute in verschiedenen Varianten genutzt wird. Es basiert auf der Idee, dass für die Wahlentscheidung insbesondere drei Dinge ausschlaggebend sind, nämlich a) die Beurteilung der zur Wahl stehenden Kandidaten, b) die Bewertung von politischen Themen sowie c) die schon vorhandene Identifikation mit politischen Parteien. Im Rahmen des ESS wurden Fragen gestellt, die sich zwei der drei Bereiche zuordnen lassen. ● Die Identifikation mit einer bestimmten Partei ist eine Standardfrage im Rahmen des European Social Survey (Frage B18A). Sie lautet: »Gibt es eine politische Partei, der Sie näherstehen als allen anderen Parteien? « Bejaht ein/ e Befragte/ r, lautet die Anschlussfrage (B18B): »Welcher? « Es werden die acht prominentesten Parteien vorgegeben. Der/ Die Befragte hat aber auch die Möglichkeit, »andere Partei« anzugeben, die Frage zu verweigern oder »weiß nicht« zu antworten. Die entsprechende Variable des Datensatzes (PRTCLDE) wird in eine neue Variable »gruenwahl« umkodiert. Befragte, die im Originaldatensatz angegeben haben, der Partei »Bündnis 90/ Die Grünen« nahezustehen, erhalten auf der Variablen »gruenwahl« den Wert »1«; alle anderen Fälle den Wert »0«. ● Ein Kernthema der Partei »Bündnis 90/ Die Grünen« ist traditionell der Umweltschutz. Bereits veröffentlichte Studien haben ergeben, dass dieses Politikfeld für Wähler/ innen der Partei entscheidend ist. Das Politikfeld wird zudem sehr stark mit der grünen Partei assoziiert (Befunde für die Schweiz finden sich z. B. bei Lachat 2014). Im ESS wurde den Befragten die Beschreibung einer fiktiven Person vorgelesen. Sie lautete: »Er ist fest davon überzeugt, dass die Menschen sich um die Natur kümmern sollten. Umweltschutz ist ihm wichtig« (Frage HF1-S bzw. HF2-S). Danach sollten die Befragten angeben, wie ähnlich oder unähnlich ihnen selbst diese Beschreibung ist. Die Skala dieser Variable in der Befragung (IMPENV) Anwendungsbeispiel Forschungsfrage <?page no="165"?> 165 l o g I s t I s c h E r E g r E s s I o n : d I E w a h l d E r » g r ü n E n « reichte von »ist mir sehr ähnlich« (= 1) bis »ist mir überhaupt nicht ähnlich« (= 6). Die Variable wird unverändert in die Analyse aufgenommen. Bei der späteren Analyse müssen wir daran denken, dass die Variable »verkehrt« kodiert ist (niedrige Werte auf der Variablen sprechen für eine hohe Priorisierung des Umweltschutzes und umgekehrt). ● Ein weiteres Kernthema der Partei ist die offene, multikulturelle Gesellschaft. Im Rahmen des ESS wurden die Teilnehmer auch dazu befragt, ob »das kulturelle Leben in Deutschland im Allgemeinen durch Zuwanderer untergraben oder bereichert wird« (Frage B33) Hier konnten sie sich auf einer Skala von »Kulturelles Leben wird untergraben« (= 1) bis »Kulturelles Leben wird bereichert« (= 10) verorten. Auch diese Variable des ESS-Datensatzes (IMUECLT) wird für die Analyse nicht verändert. ● Zudem wird die Selbsteinschätzung der Befragten über ihren ideologischen Standpunkt in die Analyse einbezogen. Die im ESS hierzu gestellte Frage (B19) lautet: »In der Politik spricht man manchmal von ›links‹ und ›rechts‹. Wo auf der Skala würden Sie sich selbst einstufen, wenn 0 für links steht und 10 für rechts? «. Diese Variable (LRSCALE) wird ebenfalls unverändert übernommen. Als weitere Faktoren, die den Befragten bei seiner Wahl beeinflussen können, werden drei persönliche Attribute der Befragten verwendet: ● Das Alter der/ des Befragten kann ebenfalls für die Wahlentscheidung wichtig sein, denn Studien haben gezeigt, dass die Unterstützung einer Partei altersspezifisch bzw. altersgruppenspezifisch sein können (vgl. van der Brug 2010). Wir verwenden hierfür die Variable AGEA aus dem ESS- Datensatz, die das Alter der Befragten enthält. ● Das Geschlecht der/ des Befragten kann ebenfalls eine Rolle spielen, denn es ist bekannt, dass das Wahlverhalten von Männern und Frauen variieren kann (Abendschön und Steinmetz 2014: 319). Das Merkmal ist im Datensatz vorhanden (Variable: GNDR). Männliche Probanden der Studie sind im Datensatz mit »1« kodiert, weibliche Probanden mit »2«: ● Schließlich wird der höchste erreichte Schulabschluss der/ des Befragten verwendet; auch der Bildungsgrad kann Einfluss auf die Wahlentscheidung haben (Schumacher 2014). Hierzu sind ebenfalls Daten im ESS-Datensatz vorhanden. Wir verwenden Variable EDUADE1, die von »Grundschule nicht beendet« (= 0) bis »Abitur bzw. Erweiterte Oberschule« (= 5) geht. Ausgehend von den bereits gewonnen Erkenntnissen in diesem Bereich lassen sich demnach folgende Hypothesen aufstellen: ● H 1 : Wenn eine Person angibt, der Partei »Die Grünen« nahe zu stehen, ist die Wahrscheinlichkeit, dass er die Partei wählt, höher, als wenn sie angibt, der Partei nicht nahe zu stehen. <?page no="166"?> 166 m E t h o d E n d E r d a t E n a n a l y s E ● H 2 : Je stärker sich eine Person mit dem Ziel des Umweltschutzes identifiziert, desto wahrscheinlicher ist es, dass sie die Partei »Die Grünen« wählt. ● H 3 : Je stärker eine Person der Aussage zustimmt, dass das kulturelle Leben durch Zuwanderung bereichert wird, desto wahrscheinlicher ist es, dass sie die Partei »Die Grünen« wählt. ● H 4 : Je weiter sich eine Person ideologisch links einordnet, desto wahrscheinlicher ist es, dass sie die Partei »Die Grünen« wählt. ● H 5 : Je jünger eine Person ist, desto wahrscheinlicher ist es, dass sie die Partei »Die Grünen« wählt. ● H 6 : Ist die befragte Person weiblich, ist die Wahrscheinlichkeit im Vergleich zu einer männlichen Person höher, dass sie die Partei »Die Grünen« wählt. ● H 7 : Je höher der Schulabschluss der Person ist, desto wahrscheinlicher ist es, dass sie die Partei »Die Grünen« wählt. Nun wenden wir uns dem Datensatz zu. In der Befragung wurden die Teilnehmer gefragt, ob sie bei der letzten Bundestagswahl gewählt haben (Frage B9). Von den 3.045 Befragten haben 2.344 angegeben, sie seien zur Wahl gegangen; 462 haben nach eigenen Angaben nicht teilgenommen. Weitere 232 Personen erklärten, nicht wahlberechtigt gewesen zu sein. Lediglich vier Personen weigerten sich, Angaben zu machen. Zudem konnten sich drei Befragte nicht mehr erinnern. Betrachtet man nur die nach eigener Angabe wahlberechtigten Personen (d. h. die Befragten, die auf die Frage »Haben Sie bei der letzten Bundestagswahl im September 2013 gewählt? « entweder mit »ja« oder »nein« geantwortet haben), dann ergibt sich ein Verhältnis von 2.344: 462, d. h. der Anteil der Wähler/ innen beträgt ca. 83,5 %. Schaut man in die amtliche Statistik, betrug die Wahlbeteiligung bei der Bundestagswahl 2013 lediglich 71,5 %. Für die doch deutliche Diskrepanz kann es verschiedene Erklärungen geben. Es könnte z. B. möglich sein, dass die Stichprobe der Untersuchung in Bezug auf dieses Merkmal nicht repräsentativ ist. Die naheliegende Erklärung wäre, dass Teilnehmer der Studie nicht zur Wahl gegangen sind, in der Befragung jedoch das Gegenteil angeben. Es ist nicht außergewöhnlich, dass die Zahlen in dieser Weise variieren - Wählen gilt in vielen Ländern als »Bürgerpflicht« und Befragte sagen hier möglicherweise die Unwahrheit, weil sie sich schämen, ihre Nichtteilnahme zuzugeben (vgl. Karp und Brockington 2005). Die Zahl der Befragten, mit deren Daten wir arbeiten können, ist also auf 2.344 geschrumpft; denn wir können nur solche Personen in das Modell aufnehmen, die auch bei der Wahl waren (bzw. zumindest behaupten, teilgenommen zu haben). Die für uns nun entscheidende Frage B10A des European Social Survey lautete: »Und welche Partei haben Sie mit Ihrer Zweitstimme gewählt? «. Das Ergebnis ist in Tab. 16 abgebildet. <?page no="167"?> 167 l o g I s t I s c h E r E g r E s s I o n : d I E w a h l d E r » g r ü n E n « Vergleichen wir jetzt diese Angaben mit dem Wahlergebnis der Bundestagswahl, zeigen sich bei zwei Positionen erhebliche Abweichungen (Tab. 17). Erstens ist das Wahlergebnis der CDU/ CSU wesentlich besser als in der Befragung. Zweitens ist der Anteil der Befragten, die angeblich die Grünen gewählt haben, im ESS deutlich höher als bei der Wahl selbst. Auch bei der Partei »Die Linke« ergeben sich Abweichungen nach unten. Bei allen anderen Parteien sind die Abweichungen eher gering. Da wir zwischen den Wählern der Grünen und denen anderer Parteien unterscheiden möchten, müssen die Daten zunächst umkodieren. Hierzu wird eine neue Variable »gruenwahl« eingeführt - dies ist unsere abhängige Variable, die wir erklären wollen. Diese wird in allen Fällen, in denen die Partei Anzahl % gültige % CDU/ CSU 776 33,1 36,9 SPD 564 24,1 26,8 Die Linke 222 9,5 10,6 Bündnis 90/ Die Grünen 264 11,3 12,6 FDP 99 4,2 4,7 AfD 97 4,1 4,6 Piratenpartei 32 1,4 1,5 NPD 15 ,6 0,7 Andere Partei 32 1,4 1,5 Antwort verweigert 155 6,6 weiß nicht 88 3,8 Gesamt 2.344 100,0 100,0 Eigene Auswertung des Datensatzes, Variable »prtvede2«. Tab. 16 Verteilung der Zweitstimmen gemäß ESS 2014 Partei % ESS % Wahlergebnis Differenz CDU/ CSU 36,9 41,5 + 4,6 SPD 26,8 25,7 - 1,1 Die Linke 10,6 8,6 - 2,0 Bündnis 90/ Die Grünen 12,6 8,4 - 4,2 FDP 4,7 4,8 + 0,1 AfD 4,6 4,7 + 0,1 Piratenpartei 1,5 2,2 + 0,7 NPD 0,7 1,3 + 0,6 Andere Partei 1,5 2,8 + 1,3 Eigene Auswertung des Datensatzes, Variable »prtvede2«. Tab. 17 Vergleich der Zweitstimmen bei ESS 2014 und Bundestagswahl 2013 <?page no="168"?> 168 m E t h o d E n d E r d a t E n a n a l y s E Befragten angaben, die Grünen gewählt zu haben, auf »1« gesetzt; bei anderen Parteien auf »0«. Haben Befragte die Antwort verweigert bzw. »weiß nicht« angegeben, wird kein Wert auf der neuen Variablen vergeben. So ist später gesichert, dass nur die Fälle, in denen die Befragten tatsächlich eine Partei angegeben haben, ausgewertet werden. Damit hat sich die Zahl der untersuchbaren Fälle auf 2.101 verringert; davon besitzen 264 den Wert »1« und 1.837 den Wert »0«. Wir beginnen - wie bei der linearen Regression auch - mit nur einer unabhängigen Variablen, damit zunächst das Prinzip klar wird. Zuvor noch eine begriffliche Klarstellung: Bei der logistischen Regression werden die unabhängigen Variable aus technischen Gründen als »Kovariaten« bezeichnet; im Folgenden werden beide Bezeichnungen synonym verwendet. Zunächst müssen wir aber eine Vorüberlegung anstellen. Ziel ist es, mittels des Modells vorherzusagen, ob ein Fall auf der abhängigen Variable eine »0« hat (also die Person nicht die Grünen gewählt hat) oder eine »1« (also die Person die Grünen gewählt hat). Das Modell ist dann perfekt, wenn wir alle Fälle richtig vorhersagen können. Es geht also nicht - wie bei der linearen Regression - darum, die einzelnen Punkte möglichst genau vorherzusagen, wobei Abweichungen nach oben oder unten hingenommen werden, wenn die Gerade möglichst viele andere Punkte möglichst genau abbildet. Bei der logistischen Regression gibt es für die jeweiligen Punkte nur »richtig« oder »falsch«, da keine Zwischenwerte auf der abhängigen Variablen möglich sind. Deshalb benötigt man zunächst ein Referenzmodell, d. h. ein Ausgangsmodell, mit dem die späteren Modelle dann verglichen werden können. Wenn wir keine Informationen über unabhängige Variablen besitzen, ist es das Beste, ein sogenanntes »Nullmodell« zu schätzen, d. h. ein Modell auf Basis der abhängigen Variable. Dort verhält es sich so, dass 1.837 der 2.101 Fälle den Wert »0« haben; dies sind 87,4 %. Wenn man also ohne weitere Informationen (die die unabhängigen Variablen enthalten) schätzen müsste, ob ein bestimmter Fall eine »0« oder eine »1« besitzt, wäre es am sinnvollsten, immer auf »0« zu tippen, da die überwiegende Zahl der Fälle auf der abhängigen Variable den Wert »0« hat. Mit einer Wahrscheinlich von 87,4 % rät man damit richtig. Jedes spätere Modell, welches unter Hinzunahme von unabhängigen Variablen konstruiert wird, wird mit dieser Messlatte verglichen - es muss besser sein als diese 87,4 %, denn ansonsten könnte man auch einfach raten! Das Ganze kann man sich in einer Vierfeldermatrix veranschaulichen (siehe Tab. 18). Die grau schattierten Felder der Tabelle markieren dabei die Zellen, in denen die Vorhersage mit dem tatsächlich beobachteten Wert übereinstimmt. Wir möchten also möglichst viele Fälle in den grauen Zellen haben und in den weißen Zellen entsprechend wenige Fälle. Nullmodell <?page no="169"?> 169 l o g I s t I s c h E r E g r E s s I o n : d I E w a h l d E r » g r ü n E n « Wie man sieht, haben wir bei allen Fällen »0« getippt. Damit liegen wir in der großen Gruppe, die tatsächlich nicht die Grünen wählt (deshalb ist der Wert »0«), 1.837mal richtig. In der anderen Gruppe hingegen liegen wir komplett falsch, insgesamt 264mal. Insgesamt haben wir damit 87,4 % der Fälle richtig geschätzt. Unsere Aufgabe besteht also darin, unabhängige Variablen zu finden, mit deren Hilfe wir möglichst viele von den 264 jetzt noch falsch vorhergesagten Fällen in die graue Zelle nach rechts bekommen. Natürlich sollten wir vermeiden, zu viele der 1.837 Fälle, die jetzt schon richtig klassifiziert sind, ebenfalls nach rechts zu ziehen - denn dann wären diese falsch platziert. Jetzt beginnen wir mit der Regression selbst. Zunächst berechnen wir auch hierfür ein Nullmodell, d. h. ein Modell ohne unabhängige Variable. Die Kennzahlen sind größtenteils nur interpretierbar, wenn man sie mit einem »richtigen« Modell vergleicht, in dem mindestens eine Kovariate vorhanden ist - wir verschieben die Erklärung deshalb auf das erste »richtige« Modell. Um dieses zu konstruieren, führen wir zunächst diejenige Variable ein, die abbildet, ob sich die Befragten den Grünen nahe fühlen (Parteiidentifikation). Dies führt zu folgendem Modell: vorhergesagt »0« »1« korrekt beobachtet »0« 1.837 0 100,0 % »1« 264 0 0,0 % gesamt 2.101 0 87,4 % Tab. 18 Klassifizierungstabelle (Nullmodell) Logistic regression Log likelihood = -794.26563 gruenwahl _cons Coef. -1.940 Std. Err. 0.066 t -29.5 P> I t I 0.00 [95 % Conf. Interval] -2.069 -1.811 Number of obs = 2101 LR chi2 (0) = -0.00 Prob > chi2 = - Pseudo R2 = -0.0000 Nullmodell der logistischen Regression Abb. 14 <?page no="170"?> 170 m E t h o d E n d E r d a t E n a n a l y s E Wie zu sehen ist, wurden alle 2.101 Fälle in die Analyse einbezogen. Zunächst beschäftigen wir uns mit den allgemeinen Gütekriterien des Modells; hierzu können wir insgesamt vier Maßzahlen in den Blick nehmen. ● Die chi 2 -Teststatistik zeigt, dass chi 2 relativ groß ist, d. h. dass ein großer Abstand zwischen dem hier untersuchten Modell und dem Nullmodell besteht. Leider besteht bei chi 2 keine obere Grenze, so dass die Höhe von chi 2 vor dem Hintergrund einer Kombination von Freiheitsgraden und Signifikanzniveaus beurteilt werden muss. ● Für den Augenblick genügt uns der Befund, dass der chi 2 -Test signifikant ist, d. h. es gibt einen deutlichen Unterschied zwischen dem Modell mit der Variable und dem Nullmodell (»Prob« ist sehr klein und definitiv < 0,05). Wäre »Prob« > 0,05, könnte die Modellverbesserung auch auf Zufall beruhen (siehe hierzu den Exkurs zu Signifikanz in Abschnitt 5.3). ● Die Log-likelihood beträgt ca. - 592 und ist damit deutlich näher an 0 als im Nullmodell. Je näher dieses Gütemaß an Null herankommt, desto besser ist das Modell an die Punkte angepasst, d. h. desto kleiner sind die Differenzen zwischen der Modellkurve und den tatsächlichen Messpunkten. ● McFaddens Pseudo-R 2 ist mit 0,254 hinreichend groß, so dass vermutet werden kann, dass das Modell tatsächlich etwas erklärt. Laut Backhaus et al. (2016: 317) gilt bereits ein Wert zwischen 0,2 und 0,4 als »gute Modellanpassung«. Allerdings darf das Pseudo-R 2 nicht (wie das R 2 in der linearen Regression) als Anteil der erklärten Varianz auf der abhängigen Variablen interpretiert werden. Vielmehr ist das Pseudo-R 2 der Versuch verschiedener Statistiker, eine dem R 2 ähnliche Maßzahl zu entwickeln. Der Einfachheit halber konzentrieren wir uns im Weiteren auf McFaddens R 2 . Logistic regression Log likelihood = -592.37649 gruenwahl nah_gruen _cons Coef. 3.454 -2.616 Std. Err. 0.182 0.091 t 19.0 -28.8 P> I t I 0.000 0.000 [95 % Conf. Interval] 3.098 -2.794 3.809 -2.438 Number of obs = 2101 LR chi2 (1) = 403.78 Prob > chi2 = 0.0000 Pseudo R2 = 0.2542 Abb. 15 Logistische Regression mit einer Kovariaten <?page no="171"?> 171 l o g I s t I s c h E r E g r E s s I o n : d I E w a h l d E r » g r ü n E n « Insgesamt sieht unser Modell also recht gut aus. Betrachten wir deshalb nun die Ergebnisse der Einpassung der Daten in das logarithmierte Modell. Wie bei der linearen Regression besitzt die Gleichung eine Konstante (= -2,616) sowie einen Regressionskoeffizienten (3,454). Der Regressionskoeffizient ist positiv, d. h. er deutet auf einen positiven Zusammenhang zwischen der Nähe zu den Grünen und der Wahlentscheidung für die Grünen hin. Dies entspricht der Vermutung, die wir mit Hypothese H 1 geäußert haben: Je näher sich der Befragte der Partei »Die Grünen« fühlt, desto eher gibt er auch an, die Partei gewählt zu haben. Wie zu sehen ist, ist der Zusammenhang hoch signifikant (P ist nahe Null). Leider ist die Interpretation der Koeffizienten alles andere als intuitiv. Deshalb gibt es die Möglichkeit, die Koeffizienten in die sogenannte »Odds Ratio« umrechnen zu lassen, indem die Wahrscheinlichkeit für das Eintreffen eines Ereignisses durch die Gegenwahrscheinlichkeit geteilt wird. Dies führt zu den folgenden Werten: Wie zu sehen ist, beträgt die Odds Ratio für die unabhängige Variable ca. 31,6. Dies bedeutet, dass die Chance, dass ein Befragter die Grünen wählt, sich fast verzweiunddreißigfacht, wenn er angibt, den Grünen nahe zu stehen (d. h. wenn die Kovariate »1« beträgt statt »0«). Wir können nun fallweise vergleichen, welche Prognose unser Modell auf der Basis der einen unabhängigen Variable für die einzelnen Befragten erstellt (ob sie die Grünen wählen oder nicht) und was sie tatsächlich im Fragebogen angegeben haben. Hierzu erstellen wir wieder eine Klassifizierungstabelle (Tab. 19). Die Verwendung der unabhängigen Variablen erlaubt es uns also, 134 bisher falsch klassifizierte Fälle nun richtig vorherzusagen (d. h. die Befragten wählen Grüne und das Modell sagt das auch so vorher). Die anderen 130 Fälle wählen auch die Grünen, dies kann das Modell aber immer noch nicht Logistic regression Log likelihood = -592.37649 gruenwahl nah_gruen _cons Odds Ratio 31.616 0.073 Std. Err. 5.740 0.007 t 19.0 -28.8 P> I t I 0.000 0.000 [95 % Conf. Interval] 22.150 0.061 45.127 0.087 Number of obs = 2101 LR chi2 (1) = 403.78 Prob > chi2 = 0.0000 Pseudo R2 = 0.2542 Logistische Regression mit einer Kovariaten und Odd Ratio Abb. 16 <?page no="172"?> 172 m E t h o d E n d E r d a t E n a n a l y s E vorhersagen. Damit haben wir diesmal ein bisschen mehr als die Hälfte der falsch eingeschätzten Grünen-Wähler/ innen richtig einsortiert. Leider erzeugt die eingefügte Variable aber auch »Kollateralschäden«, denn nun werden 58 Befragte auf der Basis ihrer Angabe »Grünen-Nähe« anders als bisher als Grünen-Wähler/ in eingeschätzt - was sie aber nach eigenen Angaben nicht sind. Deshalb verringert sich in dieser Gruppe der Anteil der korrekt vorhergesagten Fälle auf »nur« noch 96,8 %. Insgesamt haben wir aber mehr Fälle von der falschen auf die richtige Prognose »umgepolt« (134) als wir verloren haben (58). Deshalb steigt der Anteil der insgesamt richtigen Prognosen auf 91,1 % und damit um 3,7 Prozentpunkte. Nach dem o. g. Muster fügen wir dem Modell jetzt weitere Variablen hinzu und beobachten, wie sich die Kennzahlen verändern. Die folgende Tab. 20 führt die Modelle in den Spalten auf, gibt aber nicht mehr alle Kennzahlen an, sondern beschränkt sich auf jene, die man vergleichen will. In den Spalten I und II finden sich die beiden oben besprochenen Modelle (Modell I ist das Nullmodell, Modell II jenes mit der unabhängigen Variable »Nähe zu den Grünen«). Zunächst werden alle weiteren unabhängigen Variablen einzeln getestet. Zu sehen ist, dass die Effektkoeffizienten (Odd Ratios) alle statistisch signifikant sind, d. h. die Ergebnisse sind überzufällig. Nach den Ergebnissen bedeutet dies zunächst inhaltlich: ● Je weniger stark sich der Befragte mit der Aussage »Umweltschutz ist wichtig« identifiziert (= hohe Werte), desto niedriger ist die Wahrscheinlichkeit, dass er die Grünen wählt. Dies entspricht der Vermutung von Hypothese H 2 . ● Je stärker der Befragte die Aussage unterstützt, dass das kulturelle Leben von Zuwanderern bereichert wird (= hohe Werte), desto höher ist die Wahrscheinlichkeit, dass er die Grünen wählt. Damit unterstützen die Daten auch Hypothese H 3 . ● Je linker eine Person sich selbst einschätzt (= niedriger Werte), desto wahrscheinlicher die Wahl der Grünen (passt zur Hypothese H 4 ). ● Je älter eine Person ist, desto weniger wahrscheinlich ist es, dass sie die Grünen wählt - auch dies eine Bestätigung der entsprechenden Hypothese H 5 . vorhergesagt »0« »1« korrekt beobachtet »0« 1.779 58 96,8 % »1« 130 134 50,8 % Gesamt 1.909 192 91,1 % Tab. 19 Klassifizierungstabelle (Modell mit einer Kovariaten) <?page no="173"?> 173 l o g I s t I s c h E r E g r E s s I o n : d I E w a h l d E r » g r ü n E n « ● Die Wahrscheinlichkeit der Wahl der Partei ist unter Frauen größer als unter Männern (dies entspricht der Erwartung von Hypothese H 6 ). ● Ein höherer Bildungsabschluss erhöht die Wahrscheinlichkeit der Wahl (passend zu Hypothese H 7 ). Allerdings sind die ausgewiesenen Effekte mit Ausnahme der Parteiidentifikation allesamt nicht besonders groß. Betrachten wir als Beispiel die Odds Ratio in Modell VI. Hier beträgt der Koeffizient 0,97. Dies bedeutet, dass pro Altersjahr des Befragten die Wahrscheinlichkeit, dass er die Grünen wählt, abnimmt (0,97: 1). Allerdings ist 0,97 ziemlich nah an 1, d. h. der Effekt ist zwar vorhanden, ist aber relativ klein. Ähnlich verhält es sich mit den anderen Effekten, die alle um 1 herum streuen und in keiner Weise mit dem Effekt aus Modell II (31,6fache Wahrscheinlichkeit) zu vergleichen sind. Zu sehen ist auch, dass die Kovariaten in den Modellen III-VIII sich wegen ihrer dezenten Höhe auch nicht auf Modellgüte auswirken. Die Log-likelihood- Werte variieren kaum; der Anteil der korrekt vorhergesagten Fälle variiert gar nicht (d. h. man erhöht die durch das »Standardraten« erzielte Quote von 87,4 % durch die Kovariaten nicht sichtbar). Am Schluss wurden alle Kovariaten in ein gemeinsames Modell integriert (Modell IX). Wenn man dieses Modell mit Modell II vergleicht, fällt auf, dass zwei Kovariaten (Einstellung zum Naturschutz sowie Bildungsabschluss) nicht mehr signifikant sind. Vier weitere Kovariaten bewegen sich auf 1 zu (Einstellung zu multikulturellen Gesellschaft, persönliche ideologi- Modell I II III IV V VI VII VIII IX N 2.101 2.101 2.085 2.086 2.070 2.099 2.101 2.098 2.037 Pseudo-R 2 0,00 0,25 0,03 0,06 0,04 0,03 0,01 0,05 0,31 chi 2 -0 404 39 103 63 45 11 79 481 Log-likelihood -794 -592 -770 -741 -752 -771 -789 -754 -537 % korrekt 87,4 91,1 87,4 87,3 87,4 87,4 87,4 87,4 90,7 Konstante 0,14 0,07 0,37 0,01 0,45 0,54 0,07 0,02 0,06 Parteiidentifikation 31,62 19,62 Naturschutz 0,59 0,85 multikult. Gesellsch. 1,40 1,17 Ideologie rechts 0,76 0,87 Alter 0,97 0,98 Geschlecht 1,54 1,49 Bildungsabschluss 1,68 1,16 Angegebene Werte sind Odd Ratios. Fett gedruckte Odd Ratios sind signifikant auf dem Niveau von p<0,05. Werte der Ratios wurden auf zwei Nachkommastellen gerundet. Tab. 20 Vergleich verschiedener logistischer Regressionsmodelle <?page no="174"?> 174 m E t h o d E n d E r d a t E n a n a l y s E sche Position, Alter und Geschlecht), d. h. werden weniger relevant als in den Modellen, in denen die Kovariaten noch alleine getestet wurden (Modelle IV-VII). Stark bleibt alleine die Kovariate Parteiidentifikation, welche eine Odds Ratio von ca. 19,6 aufweist. Vergleicht man dieses Modell mit dem Modell II, wird deutlich, dass alle allgemeinen Maßzahlen des Modells II besser sind (Log-Likelihood, chi 2 -Test sowie Anteil der korrekt vorhergesagten Fälle). Modell II ist also mit nur einer Kovariaten in allen Belangen besser als Modell IX mit seinen sieben Kovariaten. Deshalb ist Modell II - auch aus Gründen der »Sparsamkeit« - das bessere Modell. Es bleibt also dabei: Die Parteiidentifikation ist die beste Möglichkeit, die Wahl der Grünen mit den ausgewählten Kovariaten zu erklären. Hinzuzufügen wäre noch, dass die Verbesserung der Prognosequote auch mit dieser sehr guten Kovariaten nur ca. 3,7 Prozentpunkte beträgt. Damit hat sich lediglich Hypothese H 1 bewährt; bei allen anderen Hypothesen geht zwar der Effekt in die richtige Richtung und ist signifikant; auf der Basis der Zusammenhänge verbessert sich das Prognosemodell aber nicht. Auch für die logistische Regression ist es notwendig, sich die Modellprämissen bewusst zu machen, d. h. die Voraussetzungen, die gegeben sein sollten, damit diese Analysemethode sinnvollerweise verwendet werden kann. ● Das Modell muss richtig spezifiziert sein. Das bedeutet, dass alle relevanten Variablen im Modell enthalten sind und dass die Zusammenhänge zwischen den metrischen unabhängigen Variablen und dem Logit tatsächlich linear sind (und nicht etwa parabelförmig, logarithmisch, wellenförmig o. ä.). ● Ein logistisches Modell sollte möglichst wenige »Ausreißer« beinhalten. Ausreißer sind Fälle, in denen zwischen der Vorhersage des Modells und tatsächlichem Wert größere Unterschiede bestehen. Da das logistische Modell nur eine maximale Differenz zwischen - 1 und + 1 produzieren kann, werden die Residuen anhand der Standardabweichung der Verteilung standardisiert, d. h. umgerechnet. Bei der Interpretation gilt, dass Fälle mit Residuen von kleiner - 2 oder größer + 2 angeschaut werden sollten. Dies wäre in unserem Fall z. B. eine Person, welche alle Kriterien für eine/ n Grünen-Wähler/ in erfüllt (eine jüngere, gut gebildete Wählerin, die Umweltschutz wichtig findet, Zuwanderer als kulturelle Bereicherung sieht und sich selbst als politisch links einschätzt), aber die Grünen trotzdem nicht wählt) - oder aber ein Wähler, auf den alles genau nicht zutrifft und trotzdem die Grünen wählt. Da die Residuen aber erst durch die Modellschätzung errechnet werden, ist hier ein Zweischritt notwendig: Zuerst muss das Modell geschätzt werden, auf dieser Basis werden die Residuen errechnet und die Ausreißer müssen darauf überprüft werden, ob es nur wenige unsystematische Ausreißer sind oder es ganze Gruppen verbundener Ausreißer gibt. Nach dem eventuel- Modellprämissen <?page no="175"?> 175 l o g I s t I s c h E r E g r E s s I o n : d I E w a h l d E r » g r ü n E n « len Ausschluss von Ausreißern muss dann die Modellschätzung - natürlich ohne Ausreißer - wiederholt werden. Zu beachten ist, dass dadurch wieder andere Ergebnisse erzeugt werden können, da einige Fälle jetzt nicht mehr verwendet werden. ● Unabhängige Variable dürfen nicht hoch korrelieren. Dies ist dann der Fall, wenn unabhängige Variablen gemeinsam in das Modell aufgenommen werden, die sehr ähnliche Phänomene messen oder anderweitig zusammenhängen. Das Problem ist, dass dann nicht mehr eindeutig ist, durch welche der beteiligten unabhängigen Variablen die Varianz auf der abhängigen Variablen nun erklärt wird, da sich die Varianzen überschneiden. Die Schätzung des Modells wird verzerrt und unabhängige Variablen mit signifikantem Zusammenhang auf die abhängige Variable werden als insignifikant ausgewiesen, nur weil eine andere unabhängige Variable einen noch engeren Zusammenhang aufweist. Dieses Phänomen wird Multikollinearität genannt und kann nur so gelöst werden, dass Variablen aus dem Modell entfernt werden, wenn sie zu stark miteinander korrelieren oder dass die Variablen vorher mathematisch vereinigt werden (z. B. durch Indexbildung, Mittelwertberechnung o. ä.). Im Übrigen gelten ähnliche Regeln wie bei der Multikollinearität in der linearen Regression (z. B. VIF-Wert). Wie bei der linearen Regression auch werden in wissenschaftlichen Publikationen die Prämissen der logistischen Regression häufig nicht thematisiert. Auch hier wird für studentische Arbeiten empfohlen, die Prämissen zu testen und die Ergebnisse zu dokumentieren, da es zur Transparenz des Prozesses beiträgt. Ein gutes Beispiel für die Anwendung der logistischen Regression bieten Scheuregger und Spier (2007), die erklären, welche Bevölkerungsgruppen in verschiedenen europäischen Ländern zur Wahl rechtspopulistischer Parteien neigen. ● Nach welchem Prinzip funktioniert die logistische Regression? ● Worin besteht der Unterschied zur linearen Regression? ● Für welches Skalenniveau auf der abhängigen Variablen eignet sich diese Analysemethode? ● Welches sind die globalen Gütekriterien des Modells? Multikollinearität Lesetipps Kontrollfragen ▼ <?page no="176"?> 176 m E t h o d E n d E r d a t E n a n a l y s E ● Ab welchem Anteil richtig prognostizierter Fälle ist ein Modell als gut zu bezeichnen? ● Worin besteht der Unterschied zwischen der logistischen Regression und der QCA - immerhin können beide Methoden dazu verwendet werden, binäre abhängige Variablen zu erklären? Faktoranalyse: Vergleichende Demokratieforschung In den beiden vorangegangenen Abschnitten wurden zwei Analyseverfahren vorgestellt, die zum Bereich der schließenden Statistik gehören, d. h. es ist auf Basis der Modelle möglich, aufgrund der Daten Prognosen für zukünftige Fälle abzugeben. Im Beispiel wurde das Niveau der Wohnungsmieten in Großstädten durch die lineare Regression erklärt und das berichtete Wahlverhalten in Bezug auf die Partei »Die Grünen« durch eine logistische Regression abgedeckt. In diesem Abschnitt wird hingegen eine Methode vorgestellt, die keine Erklärung für eine abhängige Variable liefern soll. Vielmehr ist es der Zweck typisierender bzw. dimensionsreduzierender Verfahren, Objekte bzw. Phänomene zu ordnen und miteinander zu verknüpfen. Zunächst ist es wichtig, zwischen typisierenden und dimensionsreduzierenden Methoden zu unterscheiden. Typisierende Methoden sind solche, die Objekte nach Eigenschaften gruppieren, wodurch sich Gruppen bzw. Typen von Objekten bestimmen lassen. Die vorherrschende Methode ist die Clusteranalyse, welche in diesem Buch nicht behandelt wird. Sie ermöglicht es beispielsweise, Länder nach bestimmten Kriterien in Gruppen einzuteilen. In anderen Disziplinen können solche typisierenden Analysen auch für große Fallzahlen interessant sein, beispielsweise im Marketing, wo die Daten über Einkäufe hunderttausender Kunden im Einzelhandel verwendet werden können, um »Kundentypen« zu ermitteln. Eine auch für Einsteiger sehr gut nachvollziehbare Studie haben Castles und Obinger (2008) vorgelegt, die zwanzig Industrieländer auf der Basis von fünfzehn - vorwiegend ökonomischen - Attributen in Ländercluster aufteilen. Interessant ist vor allem die Herangehensweise von Castles und Obinger, getrennte Clusteranalysen für zwei Zeitpunkte (1960-75 und 2000-04) durchzuführen. Sie sortieren die Länder also zu zwei verschiedenen Zeitpunkten ▲ 5.5 Lesetipps <?page no="177"?> 177 f a k t o r a n a l y s E : V E r g l E I c h E n d E d E m o k r a t I E f o r s c h u n g nach ihrer Ähnlichkeit in Gruppen und vergleichen die beiden Gruppierungsversuche dann. So können sie z. B. etwas darüber aussagen, ob sich die Länder ökonomisch insgesamt ähnlicher werden (Konvergenz) oder ob sie weiter auseinanderdriften (Divergenz). Zudem können sie Aussagen über einzelne Länder machen, die sich stark geändert haben (dies wird dadurch sichtbar, dass sie zwischen den beiden Zeitpunkten die »Gruppe wechseln«). Im Gegensatz zu typisierenden Verfahren, welche Objekte in Gruppen einsortieren, ist das Ziel dimensionsreduzierender Verfahren, die Anzahl der Variablen zu reduzieren. Doch warum sollte man das tun? ● Der Forschende möchte ein bestehendes Konzept überprüfen. Ein gut nachvollziehbares Beispiel haben Vetter et al. (2018) vorgelegt, welche politische Einstellungen von Kommunalpolitikern daraufhin untersuchen, ob sie das Prinzip der repräsentativen Demokratie unterstützen oder das Prinzip der partizipativen Demokratie. Dafür haben die Autoren dieser Studie der Personengruppe eine Liste von Aussagen vorgelegt, die die Befragten bewerten sollten. Diese Aussagen haben sie aber nicht einfach selbst erfunden, sondern sie aus der theoretischen Debatte der Politischen Theorie abgeleitet, d. h. sie haben sich im Vorfeld überlegt, wie man die theoretische Unterscheidung in der Fachdebatte so in Fragen umformen kann, dass man aus den Antworten klar die Unterschiede in den Einstellungen messen kann. Vetter et al. haben schließlich fünf verschiedene Aussagen formuliert, von denen einige die Zustimmung zur repräsentativen Demokratie, andere die Zustimmung der partizipativen Demokratie messen sollen. Nach der Datenerhebung wurden die Daten einer Faktoranalyse unterzogen. Zu erwarten war, dass sich die beiden Variablen, die die Zustimmung zum Prinzip der repräsentativen Demokratie messen sollten, auf eine einzige Variable reduzieren lassen. Diese stellt dann die Zustimmung zum Prinzip der repräsentativen Demokratie dar. Die anderen zwei Variablen sollten sich ebenfalls zu einer Variablen vereinigen lassen (die dann die Zustimmung zum Prinzip der partizipativen Demokratie darstellen sollte). Das Ergebnis von Vetter et al. war eindeutig: Die vier Variablen lassen sich gut zu den zwei erwarteten Variablen zusammenfassen. Damit bestätigt sich, dass die beiden Fragenblöcke verschiedene Dinge messen, die beiden Gruppen für sich genommen jedoch stimmige Konstruktionen sind. Da es hier darum ging, ein bestehendes Konzept durch die Analyse zu untersuchen, spricht man auch von einer konfirmatorischen (bestätigenden) Faktoranalyse. ● Bei anderen Untersuchungen ist zu Anfang nicht vollständig klar, wie die verwendeten Konzepte operationalisiert werden sollen, d. h. wie man konfirmatorischen <?page no="178"?> 178 m E t h o d E n d E r d a t E n a n a l y s E sie messen kann ( → siehe Abschnitt 3.4) . Oft werden deshalb mehrere Messvarianten in einem Pretest erprobt oder sogar in der Hauptuntersuchung absichtlich verschiedene Messvarianten parallel verwendet. Das verlagert das Problem allerdings nach hinten, denn nach der Erhebung steht der Forschende vor dem Problem, dass er eine sehr große Datenmenge produziert hat und sich entscheiden muss, welche der Varianten er für die Datenanalyse verwenden soll. Wenn aber schon vermutet wird, dass Variablen aus einem Datensatz das gleiche Phänomen messen, dann scheint es sinnvoll, diese Variablen zu weniger Variablen zusammenzufassen, um so den späteren Analyseaufwand zu reduzieren. Möglicherweise liegen dem Forschenden aber auch schon Daten vor, die er nicht selbst erhoben hat, in denen er aber Muster suchen möchte, um die Komplexität des Datensatzes zu reduzieren. Auch hier bietet sich eine Zusammenfassung von Variablen an. Da es hier darum geht, in den vorhandenen Daten Muster zu erkennen, von denen man noch nicht genau weiß, ob und wie sie sich ordnen lassen (bzw. ob sie überhaupt vorhanden sind), spricht man hier von einer explorativen (erkundenden) Faktoranalyse. Bevor wir zum Beispiel kommen, sei noch auf einen weiteren Unterschied hingewiesen, nämlich zwischen der Hauptkomponentenanalyse und der Hauptachsenanalyse. Diese stellen zwei unterschiedliche Varianten der Faktoranalyse dar, welche sich hinsichtlich des Rechenwegs nicht unterscheiden (Backhaus et al. 2016: 413 f.). Vielmehr gehen die beiden Varianten von unterschiedlichen theoretischen Annahmen aus: ● Geht der Forschende davon aus, dass die Ursprungsvariablen nur zum Teil durch die errechneten Faktoren erklärbar sind und dass deshalb eine Restvarianz bleiben wird, führt er eine Hauptachsenanalyse durch. Er sucht damit nach der Ursache (Faktoren auf den Hauptachsen), die für die Phänomene verantwortlich sind, die mit den Ursprungsvariablen abgebildet sind. Eine bestimmte Restvarianz bleibt, d. h. ein Teil der Varianz der Phänomene kann nicht erklärt werden. ● Geht der Forschende hingegen davon aus, dass die Ursprungsvariablen vollständig durch die errechneten Faktoren erklärt werden können, führt er eine Hauptkomponentenanalyse durch. Er sucht damit nach Faktoren (Komponenten), welche die hoch auf diesem Faktor ladenden Ursprungsvariablen erklären und nach einem Sammelbegriff für dieses Variablenbündel. Restvarianz kann nicht auftreten, da im Zweifel weitere Komponenten hinzugefügt und errechnet werden, so dass am Ende die komplette Ursprungsvarianz auf die Faktoren aufgeteilt wurde. Im folgenden Beispiel gehen wir von der zweiten Variante aus, d. h. wir nehmen eine explorative Hauptkomponentenanalyse vor. Wir untersuchen explorativen Beispiel <?page no="179"?> 179 f a k t o r a n a l y s E : V E r g l E I c h E n d E d E m o k r a t I E f o r s c h u n g einen Datensatz, den wir nicht nach einem streng entwickelten Forschungsdesign selbst erhoben bzw. zusammengestellt haben. Vielmehr gehen wir von einem bestehenden Datensatz aus, um die Methode zu demonstrieren. Die Forschungsfrage lautet, ob die Demokratiequalität in Ländern mit anderen Merkmalen dieser Länder zusammenhängt. Als Beispiel wählen wir ökonomische Faktoren sowie die Verwicklung in bewaffnete Konflikte. Wir vermuten, dass Länder, die bei der Messung der Demokratiequalität gut abschneiden, ökonomisch stärker sind als Länder, welche weniger demokratisch sind. Weiterhin ist von Interesse, ob ökonomische Stabilität und ökonomische Ungleichheit auf der einen Seite und Demokratiequalität auf der anderen Seite zusammenhängen. Man könnte vermuten, dass Länder mit einer hohen Demokratiequalität stärker darauf achten, dass wirtschaftliche Instabilität und ökonomische Ungleichheiten nicht zu groß werden, da die gewählten Repräsentanten kein Interesse haben, von der Unzufriedenheit der betroffenen Wählerschichten an der Wahlurne bestraft zu werden. Zudem gäbe es gute Argumente, weshalb Länder mit hoher Demokratiequalität weniger in bewaffnete Konflikte verwickelt sind. Bei internen Konflikten besitzen demokratische Staaten bewährte Regeln zu deren Lösung, nämlich demokratische Wahlen, die Konsenssuche, ein funktionierendes Rechtssystem usw. Bei externen Konflikten ist das Risiko für die Regierung in einer Demokratie in der Regel ziemlich hoch. Sie muss schon einen sehr guten Grund haben, ihre Truppen loszuschicken. Denn zum einen haben die Wähler/ innen in Demokratie höhere moralische Ansprüche an Regierungen; Krieg gilt grundsätzlich als schlechtes Mittel der Politik (bzw. als ein Versagen in der Diplomatie). Zum anderen muss sich eine Regierung permanent fragen lassen, ob die Rüstungsgelder nicht besser für die Bewältigung anderer Probleme ausgegeben würden. Auf der Basis dieser Überlegungen liegt es nahe, dass demokratische Staaten im Inneren ohnehin eher friedlich sind und versuchen, bewaffnete Konflikte mit anderen Staaten zu vermeiden. Auf dieser Basis werden die folgenden Hypothesen formuliert: ● H 1 : Wenn die Demokratiequalität eines Landes hoch ist, dann ist das Land ökonomisch stark. ● H 2 : Wenn die Demokratiequalität eines Landes hoch ist, dann weist das Land eine hohe ökonomische Stabilität und eine niedrige ökonomische Ungleichheit auf. ● H 3 : Wenn die Demokratiequalität eines Landes hoch ist, weist das Land keine internen bewaffneten Konflikte auf und beteiligt sich nicht an bewaffneten externen Konflikten. Wir vermuten also, dass die Demokratiequalität mit allen weiteren hier behandelten Phänomenen in der oben beschriebenen Weise zusammenhängt. Forschungsfrage <?page no="180"?> 180 m E t h o d E n d E r d a t E n a n a l y s E Der Datensatz, den wir verwenden, wird »Varieties of Democracy« (Version 7.1; Coppedge et al. 2017) genannt und enthält Makrodaten zu 178 Ländern seit dem Jahr 1900 (wobei nicht für alle Länder in allen Jahren zu allen Merkmalen Daten vorhanden sind). Wir verwenden folgende Variablen des Datensatzes: ● Der »electoral democracy index« (v2x_polyarchy) stellt eine der zentralen summarischen Variablen des Datensatzes dar. Er besteht aus fünf wiederum aus vielen Einzelvariablen zusammengestellten Indizes und beschreibt, zu welchem Grad das Ideal der Wahldemokratie in dem entsprechenden Land erreicht wird. Berücksichtigt sind hier die Rechte von Bürgern, sich zu Parteien zusammenzuschließen, ob die Wahlen frei und fair sind, zu welchem Grad Presse und Meinungsfreiheit tatsächlich bestehen, ob die zentralen politischen Positionen (Regierungschef und Parlament) durch Wahlen besetzt werden und welcher Anteil der Bevölkerung das Wahlrecht besitzt. Der höchste in der Datenbank vorhandene Wert ist 0,95 (Großbritannien, 2012); der niedrigste Wert ist 0,1 (z. B. weisen die Demokratischen Republik Kongo zu Beginn der 1900er Jahre diesen Wert auf, aber auch Saudi-Arabien in den 1970er Jahren). ● Der »liberal component index« (v2x_liberal) wird aus drei Unter-Indizes gebildet, die wiederum zahlreiche Einzelvariablen enthalten. Er beschreibt, zu welchem Grad das Prinzip der liberalen Demokratie in einem Land verwirklicht ist. Hierzu zählen die Gleichheit vor dem Gesetz, die individuelle Freiheiten sowie gesetzliche bzw. richterliche Beschränkungen der Handlungsfreiheit der Regierung. Den höchsten Wert in der Datenbank (0,98) erreichen mehrere Länder zu verschiedenen Zeiten, darunter Dänemark, Norwegen, aber auch Deutschland. Am Ende der Skala rangieren aktuell Länder wie Äquatorialguinea, Nordkorea, aber auch Russland in den 1930er Jahren. ● Der »participatory component index« (v2x_partip) wird ebenfalls aus drei Unterindizes gebildet. Er beschreibt, zu welchem Grad das Prinzip der demokratischen Teilhabe in einem Land verwirklicht ist. In den Index sind unter anderem eingegangen, wie stark die Teilnahme der Bevölkerung in der Zivilgesellschaft ist, ob Volksabstimmungen stattfinden, wie stark Bürger/ innen auf der lokalen Ebene mitbestimmen können und mit welcher Machtfülle eventuell bestehende staatliche Zwischenebenen (Regionen, Provinzen, Gliedstaaten etc.) ausgestattet sind. Den höchsten jemals erreichten Wert (0,92) hat Portugal im Jahr 2009 erhalten, den niedrigsten Wert (0,00) weist Israel im Jahr 1948 auf. ● Als Indikator für die wirtschaftliche Leistungsfähigkeit wählen wir die Variable »e_migdppc« aus dem Datensatz aus. Sie wurde allerdings nicht direkt von den Autoren des Datensatzes erhoben, sondern von diesen wiederum aus einem anderen Forschungsprojekt übernommen (Bolt <?page no="181"?> 181 f a k t o r a n a l y s E : V E r g l E I c h E n d E d E m o k r a t I E f o r s c h u n g und van Zanden 2013). Die Variable beschreibt das Bruttoinlandsprodukt pro Kopf. Dieses schwankt beträchtlich zwischen Qatar im Jahr 1973 (ca. 42.900 $) und der Demokratischen Republik Kongo im Jahr 2001 (ca. 200 $). ● Als zweiten ökonomischen Indikator nutzen wir die jährliche Inflationsrate (Variable »e_miinflat«). Auch diese Variable haben die Autoren der Datenbank aus einem anderen Projekt übernommen. Die Inflationsrate zeigt an, inwieweit ein Land dazu in der Lage ist, Geldwertstabilität zu gewährleisten. Sehr hohe Inflationsraten deuten darauf hin, dass ein ungesundes Verhältnis zwischen der bestehenden Geldmenge und dem Wirtschaftswachstum eines Landes besteht. Die höchste Inflationsrate wurde im Jahr 1923 in Deutschland festgestellt (211 Milliarden Prozent). Der niedrigste Wert liegt in Deutschland im Jahr 1924 vor; hier betrug die Inflation - 200 % (also bestand Deflation; die Geldmenge wurde knapper im Verhältnis zum Wachstum). Wenn wir die Hyperinflation in Deutschland in den Jahren 1923/ 24 einmal ausklammern, geben die nächsten beiden Zahlen ein realistischeres Bild. Der Spitzenreiter in Sachen Inflation war demnach Simbabwe im Jahr 2007 mit 24.400 %, was eine sehr schnelle Geldentwertung anzeigt. Der niedrigste Wert wurde in Thailand im Jahr 1920 gemessen und betrug - 62,5 %. ● Als dritten ökonomischen Indikator nehmen wir den Gini-Index der Einkommensungleichheit (»e_peginiwi«) hinzu. Auch diese Variable wurde aus einem anderen Projekt in den Datensatz importiert. Sie beschreibt, wie sich das Einkommen in einer Gesellschaft auf die Mitglieder verteilt. Hierzu werden die Einkommensstatistiken herangezogen und im Gini-Index aggregiert. Dieser bewegt sich zwischen dem Wert »0« (alle Personen erhalten das gleiche Einkommen) und dem Wert »1« (eine Person bekommt das gesamte Einkommen, alle anderen erhalten kein Einkommen). In der hier vorliegenden Variante ist die Skala von 0 bis 100 gestreckt worden, um die spätere Interpretation zu erleichtern - dies ist für die Faktoranalyse aber nicht von Bedeutung, da die Variablen später ohnehin standardisiert (d. h. auf den gleichen Wertebereich umgerechnet) werden. Den niedrigsten Wert (15,9) nimmt im Datensatz Bulgarien im Jahr 1968 ein. Die höchste Einkommensungleichheit bestand im Jahr 1993 in Namibia (74,3). ● Um die Teilnahme an bewaffneten Konflikten mit anderen Ländern zu messen, wird die Variable »e_miinteco« aus dem Datensatz verwendet. Diese wurde ebenfalls aus einer anderen Untersuchung übernommen. Die Variable enthält den Wert »0«, wenn das Land in diesem Jahr an keinem bewaffneten Konflikt teilgenommen hat und »1«, wenn es teilgenommen hat. Wenn man aus allen Daten ab dem Jahr 1900 den Durchschnitt pro Land berechnet, kann man daraus ein Ranking der Länder erstellen, welches darauf basiert, wie lange bzw. häufig ein Land an <?page no="182"?> 182 m E t h o d E n d E r d a t E n a n a l y s E bewaffneten Auseinandersetzungen beteiligt war. Den höchsten Wert erzielt Frankreich (0,48), insgesamt dreißig der Länder waren überhaupt nicht beteiligt (0,00). Allerdings sind darunter auch Länder, die erst seit wenigen Jahrzehnten existieren. Aus diesem Grund hatten diese Länder bislang weniger Gelegenheiten, an Konflikten teilzunehmen und weisen daher niedrige Werte auf. Zudem muss man daran denken, dass alleine die Zahl der Beteiligungen noch nichts darüber aussagt, ob ein Land »kriegerischer« als das andere ist. Es kann auch genauso gut ständig Opfer von Angriffen anderer Länder sein. ● Die letzte Variable, die wir verwenden, ist die Existenz bewaffneter Konflikte im Inneren eines Landes (Variable »e_miinterc«). Diese wird aus der gleichen Quelle wie die vorangegangene Variable entnommen und ebenso kodiert, d. h. mit »0« in einem Jahr ohne inneren bewaffneten Konflikt und mit »1« falls ein bewaffneter Konflikt im Inneren stattgefunden hat. Auch hier können wir die Durchschnittswerte berechnen. Als am konfliktträchtigsten im Inneren hat sich Israel erwiesen (0,82), insgesamt 18 Länder weisen überhaupt keine bewaffneten inneren Konflikte auf (0,00), z. B. Australien. An dieser Stelle muss bereits betont werden, dass die Integration der letzten beiden Variablen (bewaffnete Konflikte) nicht unproblematisch ist. Denn die Faktoranalyse setzt eigentlich mindestens intervallskalierte Variablen voraus (vgl. Backhaus et al. 2016: 447). Die letzten beiden Variablen sind hingegen nominal skaliert, allerdings intuitiv (0 = kein Konflikt, 1 = Konflikt). Dies wird bei der späteren Interpretation zu berücksichtigen sein. Ein Forschender, der sehr strenge methodische Maßstäbe anlegt, wird an dieser Stelle möglicherweise die Faktoranalyse abbrechen und auf andere Methoden ausweichen, da er die Prämisse nicht verletzen will. Man könnte auch auf die Suche nach anderen Daten gehen, die das gleiche Phänomen so messen, dass eine intervallskalierte Variable entsteht. Beispielsweise wäre es möglich, die Opferzahl in einem bewaffneten Konflikt zu zählen und so eine intervallskalierte Variable zu erzeugen, die statt einer simplen Unterscheidung zwischen »Konflikt« und »kein Konflikt« sogar etwas über die Intensität des Konfliktes aussagt. Wie man sich leicht denken kann, ist auch diese Art der Messung alles andere als unproblematisch: Wie zähle ich die Opfer? Zählen nur militärische oder auch zivile Opfer? Welcher Quelle traue ich? Kann ich die Opfer wirklich trennscharf den einzelnen Jahren zuordnen? Um zu demonstrieren, wie die Methode funktioniert, können wir den Umstand, dass die Variablen strenggenommen nicht in der Faktoranalyse verwendet werden dürfen, zunächst ignorieren. Aber wie funktioniert nun die Methode der Faktoranalyse? Im Wesentlichen basiert sie auf folgenden Schritten: <?page no="183"?> 183 f a k t o r a n a l y s E : V E r g l E I c h E n d E d E m o k r a t I E f o r s c h u n g [1] Zunächst ermittelt die Methode die Korrelationen zwischen den Ursprungsvariablen, d. h. es wird ermittelt, ob statistische Zusammenhängen zwischen den Variablen bestehen, die wir schon besitzen. [2] Danach erzeugt die Methode auf der Basis der Korrelationen neue Variablen, welche die Varianz der Ursprungsvariablen erklären bzw. »abdecken«. Dabei geht es natürlich darum, die Anzahl der Variablen insgesamt zu verringern. Erreicht werden kann dies dadurch, dass neue Variablen gefunden werden, die die Varianz von mehr als einer Ursprungsvariable auf sich vereinigt und damit die Komplexität der Daten reduziert. [3] Anschließend können für jeden Fall die Werte für die neuen Variablen berechnet und abgespeichert werden. Damit können die neuen Variablen dann in weiteren Analysen verwendet werden. Bevor wir nun mit der Faktoranalyse beginnen, müssen wir noch überlegen, ob wir die gesamte Datenbank verwenden oder nur einen Ausschnitt. Interessant wäre zum Beispiel, ob sich das Zusammenspiel von Demokratie, Wirtschaft und Konflikten über die Zeit ändert. Deshalb werden wir insgesamt vier Faktoranalysen durchführen und zwar für die Jahre 1970, 1980, 1990 und 2000. Dies bedeutet aber auch, dass wir zu den vier Zeitpunkten möglicherweise unterschiedlich viele Fälle haben und sich das Verhältnis von Stichprobe und Grundgesamtheit damit über die vier Zeitpunkte hinweg ändert. Dies müssen wir bei der späteren Analyse im Auge behalten. Wir beginnen aber zunächst mit den Daten von 1970. Zuerst schauen wir uns - wie bei den beiden Methoden in den vorangegangenen Abschnitten auch - die deskriptive Statistik für die Variablen an. Wie zu sehen ist, variieren die Werte über die acht Variablen hinweg deutlich, obwohl wir den Datensatz auf ein Jahr (1970) beschränkt haben. Allerdings variieren die Fallzahlen auch; von den 178 Ländern ist im Jahr 1970 nur für 86 bekannt, wie hoch die Einkommensungleichheit war. Wir UV N Min. Max. x¯ σ x~ Elektorale Demokratie 151 0,01 0,90 0,30 0,26 0,20 Liberale Demokratie 152 0,03 0,98 0,45 0,28 0,38 Partizipative Demokratie 152 0,02 0,74 0,30 0,19 0,25 BIP pro Kopf 133 447 32.573 4.103 5.021 2.069 Inflationsrate 102 - 6,54 629 11,6 62,0 4,02 Einkommensungleichheit 86 19,8 65,7 41,5 11,0 41,3 Bew. Konflikt, extern 128 0,00 1,00 0,08 0,27 0,00 Bew. Konflikt, intern 108 0,00 1,00 0,22 0,42 0,00 Tab. 21 Deskriptive Statistik über die Variablen, Jahr 1970 <?page no="184"?> 184 m E t h o d E n d E r d a t E n a n a l y s E bilden nun eine Korrelationsmatrix aus den acht Variablen, um herauszufinden, ob statistische Zusammenhänge zwischen ihnen bestehen (siehe Tab. 22). Wie zu sehen ist, bestehen lediglich bei sieben Paaren statistisch signifikante Korrelationen. Dies spricht zunächst gegen unsere Vermutung (s. o.), dass die Demokratiequalität mit allen anderen Phänomenen zusammenhängt. Die Korrelationen treten wie folgt auf: ● Dies betrifft zunächst die drei Demokratie-Indizes und die wirtschaftliche Leistungsfähigkeit. Die drei Demokratieindizes korrelieren untereinander hoch (Pearsons r liegt bei 0,87 bzw. 0,82 bzw. 0,76). ● Alle drei Demokratie-Indizes wiederum korrelieren deutlich mit dem BIP pro Kopf - dies bedeutet, dass der Grad der wirtschaftlichen Leistung mit dem Demokratiegrad steigt. Hier sind die Zusammenhänge aber schon deutlich geringer (Pearsons r liegt bei 0,47 bzw. 0,50 bzw. 0,44). ● Ein statistischer Zusammenhang besteht weiter zwischen der Einkommensungleichheit und der wirtschaftlichen Leistungsfähigkeit. Dieser Zusammenhang ist allerdings nochmals schwächer und mit einem negativen Vorzeichen versehen (r = - 0,25). Dies bedeutet, dass in Ländern mit niedriger wirtschaftlicher Leistungsfähigkeit die Einkommensungleichheiten tendenziell höher sind. ● Unter den verbliebenen drei Variablen korreliert nur die Beteiligung an externen Konflikten noch signifikant: Je stärker die elektorale und die partizipative Demokratie ausgeprägt ist, desto eher vermeidet ein Land einen externen bewaffneten Konflikt (r = - 0,17 bzw. - 0,15). ● Die verbliebenen beiden Variablen (Inflationsrate und innere Konflikte) korrelieren jeweils mit keiner anderen Variable signifikant. Auf den ersten Blick sieht es also so aus, als ergäbe sich eine Gruppe von vier Variablen (Demokratieindizes und BIP pro Kopf), die irgendwie zusammenzugehören scheint, während zwei weitere Variablen eher lose Zusammenhänge aufweisen und zwei weitere Variablen eher »alleinstehend« sind. Lib. Dem. Part. Dem. BIP/ Kopf Inflationsr. Eink.- Ungh. Konflikt, ext. Konflikt, int. Elekt. Dem. **0,87 **0,82 **0,47 - 0,08 - 0,12 *- 0,17 - 0,07 Lib. Dem. **0,76 **0,50 - 0,14 - 0,06 - 0,11 - 0,13 Part. Dem. **0,44 - 0,13 0,05 *- 0,15 - 0,12 BIP/ Kopf 0,03 *- 0,25 - 0,07 - 0,08 Inflationsr. - 0,16 - 0,02 - 0,06 Eink. Ugh. 0,05 - 0,02 Konflikt, ext. 0,06 Legende: Ausgewiesen sind die einseitigen Signifikanzniveaus (* für p<0,05; ** für p<0,01) Tab. 22 Korrelationen zwischen den Variablen, Jahr 1970 <?page no="185"?> 185 f a k t o r a n a l y s E : V E r g l E I c h E n d E d E m o k r a t I E f o r s c h u n g Allerdings haben wir jetzt für jedes Variablenpaar die maximale Anzahl von Ländern genommen, für die wir Daten zur Verfügung hatten, d. h. wir haben unterschiedlich viele Fälle verwendet, um die Korrelationen zu berechnen. Wir können aber nicht alle Länder in der Analyse berücksichtigen, wenn wir die Zusammenhänge gleichzeitig überprüfen wollen. Für eine Faktoranalyse sollte die Anzahl der Lücken (»gaps«) in der Datenbank möglichst gering sein. Es gibt zwar die Möglichkeit, die Faktoranalyse auch mit Lücken durchzuführen; dies würde die weitere Analyse an dieser Stelle aber verkomplizieren - deshalb berücksichtigen wir im Folgenden die Fälle nicht, die auf einer (! ) der acht Variablen eine Lücke aufweisen. Damit haben wir für das Jahr 1970 nur noch 62 Fälle, die ohne Datenlücke dokumentiert sind. Beschränken wir die Korrelationstabelle nur auf die Länder, die keine einzige Datenlücke aufweisen, ergeben sich auf Basis der 62 vollständigen Fälle leicht andere Korrelationen zwischen den Variablen: Die Korrelationskoeffizienten ändern sich alle, aber im Prinzip bleibt es bei den oben aufgeführten Befunden: Die drei Demokratieindizes korrelieren sehr hoch miteinander, die Einkommensungleichheit korreliert negativ mit dem BIP pro Kopf (sowie jetzt auch zumindest mit einem Demokratieindex). Die vorher ohnehin schon sehr gering ausgeprägten Korrelationen zwischen externen Konflikten und den beiden Demokratieindizes sind verschwunden. Inflationsrate und interne Konflikte korrelieren weiter nicht mit den anderen Variablen. Nach diesen Vorarbeiten beginnen wir mit der eigentlichen Faktoranalyse. Zunächst müssen wir den verwendeten Datensatz (natürlich nur die Variablen, die wir für die Faktoranalyse verwenden möchten) darauf überprüfen, ob er für eine Faktoranalyse geeignet ist. Hierzu wird für jedes mögliche Paar von Variablen bestimmt, wie groß die Korrelation zwischen den beiden Variablen sein würde, wenn man den Einfluss aller anderen Variab- Lib. Dem. Part. Dem. BIP/ Kopf Inflationsr. Eink.- Ugh. Konflikt, ext. Konflikt, int. Elekt. Dem. **0,93 **0,83 **0,76 -0,11 *-0,25 -0,12 -0,01 Lib. Dem. **0,81 **0,73 -0,19 -0,20 -0,10 -0,03 Part. Dem. **0,67 -0,20 -0,09 -0,10 -0,04 BIP/ Kopf 0,02 **-0,33 -0,12 0,04 Inflationsr. -0,18 -0,04 -0,06 Eink.Ugh. 0,04 -0,06 Konflikt, ext. 0,05 Legende: Ausgewiesen sind die einseitigen Signifikanzniveaus (* für p<0,05; ** für p<0,01) Tab. 23 Korrelationen zwischen den Variablen (volle Fälle), Jahr 1970 <?page no="186"?> 186 m E t h o d E n d E r d a t E n a n a l y s E len herausrechnete (»partielle Korrelation«). Dies wird mittels linearer Regressionsmodelle berechnet ( → siehe Abschnitt 5.3). Die Berechnung produziert eine ähnliche Tabelle wie die Korrelationstabelle (Tab. 24). Betrachten wir nun den Zusammenhang zwischen partizipativer Demokratie und elektoraler Demokratie erneut. Der direkte Zusammenhang zwischen den beiden Variablen ist in Tab. 23 mit r = 0,82 ausgewiesen; der Zusammenhang ist sehr stark und statistisch signifikant. In Tab. 24 beträgt der Zusammenhang zwischen den beiden Variablen nur noch r = - 0,34; d. h. der Zusammenhang ist wesentlich kleiner und zudem auch noch negativ. Wenn das Variablenpaar selbst nach Herausrechnen der anderen Korrelationen immer noch eine hohe Korrelation aufweisen würde, dann bestünde ein starker Zusammenhang zwischen den beiden Paarvariablen, aber nicht mit dem Rest der Variablen. Dann ist der Datensatz aber nicht geeignet, denn er enthält viele Variablen, die nicht zu den hoch korrelierenden Variablen passen. Korrelieren die Daten des Paares jedoch nach dem Herausrechnen nur noch niedrig (wie im Beispiel oben), dann zeigt das, dass das Variablenpaar stark mit den Restvariablen verbunden ist. Dies spricht dafür, dass der Datensatz für die Faktoranalyse geeignet ist. Aus dieser Anti-Image-Korrelationsmatrix lassen sich statistische Kennzahlen für die Gesamtbeurteilung des Datensatzes ableiten. Das gebräuchlichste Kriterium ist die Eignung des Datensatzes nach Kaiser, Meyer und Olkin (deshalb auch »KMO-Kriterium« genannt). Die KMO-Zahl kann zwischen 0 und 1 liegen, wobei höhere Werte eine bessere Eignung für die Faktoranalyse anzeigen. Üblicherweise wird davon abgeraten, eine Faktoranalyse durchzuführen, wenn KMO<0,5 ist. Kaiser (1974: 35) selbst beschreibt einen KMO-Wert von <0,5 als »unacceptable« und einen KMO-Wert zwischen 0,6 und 0,7 als »mittelmäßig«. Für den vorliegende Datensatz beträgt KMO = 0,798, d. h. er ist knapp an der Grenze zu Kaisers Einordnung »merito- KMO-Kriterium Elekt. Dem. Lib. Dem. Part. Dem. BIP/ Kopf Inflationsr. Eink.- Ugh. Konflikt, ext. Konflikt, int. Elekt. Dem. 0,75 - 0,73 - 0,34 - 0,17 - 0,14 0,15 0,03 - 0,04 Lib. Dem. 0,77 - 0,13 - 0,15 0,23 - 0,04 - 0,01 0,07 Part. Dem. 0,88 - 0,18 0,14 - 0,22 0,01 0,06 BIP/ Kopf 0,90 - 0,19 0,23 0,05 - 0,09 Inflationsr. 0,44 0,13 0,04 0,11 Eink.Ugh. 0,65 0,01 0,05 Konflikt, ext. 0,88 - 0,05 Konflikt, int. 0,29 Legende: Ausgewiesen sind die einseitigen Signifikanzniveaus (* für p<0,05; ** für p<0,01) Tab. 24 Anti-Image-Korrelationsmatrix, Jahr 1970 <?page no="187"?> 187 f a k t o r a n a l y s E : V E r g l E I c h E n d E d E m o k r a t I E f o r s c h u n g rious« (»verdienstvoll«), die bei KMO = 0,8 beginnt. Aus dieser Perspektive besteht also zunächst kein Einwand, die Analyse fortzusetzen. Nachdem der Datensatz prinzipiell geeignet ist, um eine Faktoranalyse durchzuführen, wird ermittelt, welche Fälle in die Analyse einbezogen werden können. Es handelt sich ausschließlich um Fälle, die keine Datenlücke aufweisen, d. h. die auf allen verwendeten Variablen einen Wert besitzen. Dies sind für das Jahr 1970 die bereits erwähnten 62 Länder. Die Faktoranalyse verwendet als mathematischen Hintergrund die Vektorrechnung. Das bedeutet, dass alle Ursprungsvariablen als Vektoren in einem n-dimensionalen Raum angeordnet werden - man kann sich das wie ein Bündel von Pfeilen vorstellen, die in verschiedene Richtungen zeigen, aber alle am gleichen Punkt beginnen. Die Winkel zwischen zwei Vektoren entsprechen dabei der Korrelation zwischen den beiden Variablen. Korrelieren zwei Variablen mit r = 1 (sie sind identisch), dann liegen die Vektoren genau aufeinander. Korrelieren zwei Variablen überhaupt nicht (r = 0), dann haben die Vektoren einen Winkel von 90 ° (d. h. sie stehen senkrecht aufeinander). Die verwendete Software versucht nun, möglichst wenige neue Vektoren hinzuzulegen, um die schon vorhandenen Vektoren damit »abzudecken«. Deshalb sucht sie zunächst den ersten Faktor so aus, dass sie den mittleren von allen Vektoren rechnerisch ermittelt und diesen als »Faktor 1« bezeichnet. Der zweite Faktor wird so angeordnet, dass er möglichst viel von der Restvarianz, die von Faktor eins nicht aufgenommen wurde, beinhaltet und gleichzeitig senkrecht zu Faktor eins platziert wird, d. h. mit diesem keine Korrelation aufweist. Nach diesem Schema werden die weiteren Faktoren im Raum platziert, und zwar jeweils so, dass die noch nicht abgedeckte Restvarianz am besten erfasst wird und der neue Faktor gleichzeitig senkrecht auf allen schon gefundenen Faktoren steht. Am Ende werden so viele Faktoren gefunden, wie es zu Beginn Ursprungsvariablen gab (in unserem kleinen Forschungsprojekt also 8 Faktoren), so dass die Ursprungsvariablen zu 100 % auf die neuen acht Faktoren »übertragen« wurden. Die Faktoren besitzen jedoch eine absteigende Wertigkeit, d. h. der erste Faktor deckt viel der Varianz ab, während der letzte Faktor vielleicht nur einen sehr geringen Anteil der Varianz in wenigen Fällen abdeckt. Deshalb stellt sich an dieser Stelle die Frage, wie viele der acht Faktoren wir uns wirklich ansehen wollen und welche nur dazu da sind, Varianz »aufzufangen«, die nicht mehr systematisch auftritt. Die Frage, wie viele Faktoren betrachtet werden, hängt zunächst davon ab, ob wir eine konfirmatorische oder eine explorative Faktoranalyse durchgeführt haben. Geht der Forschende vor Durchführung der Analyse von einem Konzept mit einer bestimmten Anzahl an Faktoren aus (wie z. B. Vetter et al. 2018 von zwei Faktoren, nämlich der repräsentativen und der parti- Basistheorem <?page no="188"?> 188 m E t h o d E n d E r d a t E n a n a l y s E zipativen Einstellungsdimension), dann liegt es nahe, sich nur zwei Faktoren anzusehen und zu überprüfen, ob diese den theoretischen Voraussagen entsprechen. Da wir hier eine explorative Faktoranalyse durchführen, ergibt es keinen Sinn, die Zahl der Faktoren vorher festzulegen - wir bleiben vielmehr offen und schauen nach, was sich aus dem Datenmaterial ergibt. Tab. 25 zeigt die acht neu gebildeten Faktoren an, die das Datenmaterial der acht ursprünglichen Variablen abbilden. Hierzu werden die »Eigenwerte« der Faktoren berechnet. Der Eigenwert eines Faktors ist die summierte Varianz, die der Faktor im Verhältnis zu den Ursprungsvariablen abdeckt bzw. erklärt. Jede Ursprungsvariable hat einen Eigenwert von 1. Deshalb sind in unserem Beispiel insgesamt 8 Eigenwerte vorhanden. Ein Faktor, der die Varianz von zweieinhalb Ursprungsvariablen abdeckt, hätte einen Eigenwert von 2,5. Da die Faktoren immer nur das erklären können, was an Varianz übrigbleibt, addieren sich die Eigenwerte der acht Faktoren am Ende wieder auf den Wert 8. Dies verdeutlicht, was oben schon angesprochen wurde: Zunächst ersetzt die Faktoranalyse die acht Ursprungsvariablen nur durch acht neue, die die Varianz anders abdecken. Die gesamte Varianz der Daten bleibt dabei vorhanden, nur dass die Dimensionen neu »geordnet« werden. Wie zu sehen ist, besitzt der erste Faktor schon einen Eigenwert von ca. 3,5, d. h. der erste Faktor enthält die gemeinsame Varianz von fast 3,5 Ursprungsvariablen. Gemeinsam mit dem zweiten Faktor, der nur noch ca. 1,2 Ursprungsvariablen abdeckt, hat er schon mehr als 59 % der Gesamtvarianz der Daten abgedeckt. Der dritte Faktor ist gerade noch ein bisschen aussagekräftiger als eine Ursprungsvariable (der Eigenwert ist knapp >1). Die Faktoren 1 bis 3 decken fast 73 % der Varianz auf den acht ursprünglichen Variablen ab. Die Faktoren 4 bis 8 bilden die »Resterampe«, auf sie werden die restlichen 25 % der Varianz verteilt. Zu sehen ist hier auch, wie deutlich diese Restfaktoren untereinander variieren. So besitzen die Faktoren 4 und 5 zwar einen Eigenwert <1, dies ist aber noch wesentlich größer als bei den Faktoren 6 bis 8. Der letzte Faktor deckt weniger als 1 % der Ursprungsvarianz ab. Faktor Eigenwert % Varianz % kum. Varianz 1 3,484 43,55 43,55 2 1,246 15,57 59,12 3 1,069 13,36 72,48 4 0,939 11,73 84,22 5 0,707 8,84 93,06 6 0,284 3,55 96,61 7 0,203 2,54 99,15 8 0,068 0,85 100,00 Tab. 25 Faktoren und Eigenwerte, Jahr 1970 <?page no="189"?> 189 f a k t o r a n a l y s E : V E r g l E I c h E n d E d E m o k r a t I E f o r s c h u n g Wir müssen an dieser Stelle festlegen, wie viele Faktoren wir uns im weiteren Verlauf anschauen werden. Hierzu gibt es zwei Hilfsmittel. Das erste Hilfsmittel besteht darin, die berechneten Eigenwerte als Messlatte zu verwenden. Wenn die Eigenwerte berechnet sind, kann man alle Faktoren ignorieren, die einen Eigenwert < 1 haben (dies nennt man auch das »Kaiser- Kriterium«). Diese Faktoren mit Eigenwert < 1 werden also automatisch als »Restmüll« definiert. In unserem Fall würde dies bedeuten, dass wir mit drei Faktoren weiterarbeiten würden - allerdings ist der dritte Faktor nur hauchdünn über dem Kaiser-Kriterium angesiedelt. Das zweite Hilfsmittel besteht darin, das »Ellenbogenkriterium« anzuwenden. Zur Verwendung dieses Kriteriums wird ein »Screeplot« benötigt, der die Eigenwerte der Faktoren auf einem Diagramm aufträgt. Im Diagramm sucht man dann nach dem »Ellenbogen«, d. h. dem Punkt, an dem der Graph beginnt, sich asymptotisch dem Wert 0 anzunähern. Dieser »Ellbogen« ist unserem Beispiel bereits der Faktor 2, denn dort knickt die Kurve deutlich ab. Nach diesem Kriterium dürften wir nur mit einem Faktor (dem ersten) weiterarbeiten. Beide Kriterien sind nur halbwegs gute Entscheidungshilfen. In der Regel läuft es darauf hinaus, dass der Forschende sich die weiteren statistischen Kennzahlen ansieht und am Ende eine informierte Gesamteinschätzung trifft. Wir entscheiden uns an dieser Stelle für die erste Variante, d. h. wir nehmen alle Faktoren in den Blick, die einen Eigenwert > 1 haben. Dies sind die Faktoren 1, 2 und 3. Ermittlung der Faktorenanzahl 3 2 1 0 4 Eigenwert 8 7 6 5 4 3 2 1 Faktornummer Abb. 17 Screeplot für acht Faktoren, Jahr 1970 <?page no="190"?> 190 m E t h o d E n d E r d a t E n a n a l y s E Wir können nun ermitteln, wie stark die Faktoren jeweils mit unseren Ursprungsvariablen korrelieren. Dies können wir deshalb tun, weil die Faktoren auch Vektoren im Raum sind, die wir neu konstruiert haben. Der Winkel zwischen den neuen Vektoren und den Ursprungsvariablen können wir ablesen und diesen in einen Korrelationskoeffizienten umrechnen. Diese Korrelation zwischen Ursprungsvariablen und Faktoren wird als »Ladung« bezeichnet. Dabei ergibt sich folgende Tabelle: Wie zu sehen ist, ergeben sich bestimmte Muster bei den Korrelationskoeffizienten. Es gruppieren sich bestimmte Ursprungsvariablen auf bestimmten Faktoren, d. h. sie korrelieren mit diesen Faktoren hoch und mit anderen niedrig. ● Die drei Demokratieindizes sowie das BIP pro Kopf korrelieren jeweils hoch mit Faktor 1, aber nur sehr niedrig mit Faktor 2 und praktisch gar nicht mit Faktor 3. In der Sprache der Faktoranalyse sagt man, diese vier Variablen »laden« auf dem Faktor 1, aber nicht auf den anderen beiden Faktoren. Schaut man die weiteren Korrelationskoeffizienten von Faktor 1 mit den übrigen Ursprungsvariablen an, stellt man fest, dass die Koeffizienten nicht besonders hoch sind (die anderen Variablen also auf dem Faktor 1 nicht »laden«) - allenfalls bei der Einkommensungleichheit könnte man diskutieren. Dies bedeutet, dass Faktor 1 also im Wesentlichen die Varianz der drei Demokratievariablen und des BIP pro Kopf darstellt, während die anderen vier Variablen für diesen Faktor eine geringe Rolle gespielt haben. Es gibt also einen Zusammenhang zwischen dem Grad der Demokratie in den 62 untersuchten Ländern und der wirtschaftlichen Leistungsfähigkeit: Je höher der Demokratiegrad (und zwar auf allen drei Dimensionen), desto höher auch das BIP pro Kopf. Diese gemeinsame Varianz der vier Variablen wird durch Faktor 1 repräsentiert. ● Bei Faktor 2 ergibt sich ein anderes Bild, hier korrelieren die Inflationsrate und die Einkommensungleichheit stark mit dem Faktor, während Ursprungsvariable 1 2 3 Elektorale Demokratie 0,957 0,019 - 0,001 Liberale Demokratie 0,944 0,107 - 0,010 Partizipative Demokratie 0,888 0,197 - 0,060 BIP pro Kopf 0,861 - 0,193 0,059 Inflationsrate - 0,150 - 0,800 - 0,142 Einkommensungleichheit - 0,313 0,696 - 0,266 Bew. Konflikt, extern - 0,164 0,182 0,541 Bew. Konflikt, intern - 0,005 - 0,004 0,824 Tab. 26 Faktorladungsmatrix, Jahr 1970 <?page no="191"?> 191 f a k t o r a n a l y s E : V E r g l E I c h E n d E d E m o k r a t I E f o r s c h u n g die anderen Koeffizienten eher niedrig sind. Zu beachten ist, dass die Einkommensungleichheit positiv mit dem Faktor korreliert, die Inflationsrate aber negativ. Dies bedeutet, dass in Ländern, die eine hohe Inflationsrate haben, die Einkommensungleichheit eher niedrig ausgeprägt ist. Dies ist verständlich, denn eine hohe Inflationsrate entwertet die hohen Vermögen stärker. ● Faktor 3 hingegen bildet eher die letzten beiden Variablen ab, denn sowohl die externen Konflikte als auch die internen Konflikte laden hoch auf diesem Faktor. Zu beachten ist, dass die Ladung der inneren Konflikte wesentlich höher ist. Insgesamt ergibt sich eine relativ deutliche Zuordnung der Ursprungsvariablen zu den drei Faktoren. Häufig laden die Ursprungsvariablen auf einem Faktor sehr hoch, während die Ladung auf den anderen Faktoren eher gering ist. Die einzige Variable, bei der die Zuordnung nicht völlig eindeutig ist, ist die Einkommensungleichheit. Diese lädt zwar mit Abstand am stärksten auf Faktor 2 (0,696), aber die Ladungen auf den Faktoren 1 und 3 sind nicht so niedrig, als dass man sie vernachlässigen könnte wie bei den anderen Ursprungsvariablen (- 0,313 und - 0,266). Die Zuordnung der Einkommensungleichheit zu Faktor 2 ist also insgesamt etwas »wackliger« als die Zuordnung der anderen Variablen zu ihren Faktoren. Inhaltlich lässt die Faktoranalyse folgende Aussagen zu: [1] Der Grad der Demokratiequalität in elektoraler, liberaler und partizipativer Hinsicht hängt eng mit dem Wohlstand in einem Land zusammen. [2] Hohe Inflationsraten in einem Land gehen einher mit niedrigen Einkommensungleichheiten. [3] Ist ein Land zum Untersuchungszeitpunkt in externe bewaffnete Konflikte verwickelt, ist es wahrscheinlich auch in interne bewaffnete Konflikte verwickelt. [4] Die Positionierung eines Landes auf diesen drei Faktoren ist unabhängig voneinander. Um eine höhere Passgenauigkeit der Faktoren zu den Ursprungsvariablen zu erhalten, ist es möglich, die Faktoren im Raum zu drehen, weshalb dieses Verfahren auch als Faktorrotation bezeichnet wird. Das Ziel ist es, bestimmte vorab definierte Kriterien zu erfüllen. So dreht beispielsweise das Varimax- Verfahren alle (! ) Faktoren gemeinsam hin und her, bis die Summe der quadrierten Ladungen maximiert ist. Dies führt dazu, dass die Variablen den Faktoren eindeutiger zugeordnet werden können. Es bestehen noch eine ganze Reihe anderer Rotationsverfahren; unter anderem solche, die schiefe Rotationen zulassen (d. h. die Faktoren sind dann nicht mehr senkrecht zueinander, sondern dürfen auch korrelieren, d. h. schief angeordnet wer- Faktorrotation <?page no="192"?> 192 m E t h o d E n d E r d a t E n a n a l y s E den). Es würde jedoch zu weit führen, die anderen Verfahren hier zu besprechen, zumal es stark von der Fragestellung und/ oder dem verwendeten Datensatz abhängt, welches Verfahren gewählt werden kann bzw. zweckmäßig ist. Wir optimieren jetzt die Passgenauigkeit durch die Varimax-Rotation und erhalten rotierte Faktoren, die wir wiederum mit den Ursprungsvariablen korrelieren können. Durch dieses Verfahren erhalten wir die folgende modifizierte Faktorladungsmatrix: Wie zu sehen ist, hat die Rotation nur wenig an den Verhältnissen geändert. So wurde der zweite Faktor beispielsweise so gedreht, dass nun beide Variablen etwa gleich stark laden; vorher war der Unterschied deutlicher. Insgesamt bleiben die Unterschiede aber eher gering, was darauf hindeutet, dass die ursprüngliche, nicht-rotierte Lösung schon ein gutes Abbild der Daten dargestellt hat. Bemerkenswert ist, dass bei der Einkommensungleichheit die Unsicherheit bei der Zuordnung etwas reduziert wurde, sich aber dafür bei der Inflationsrate erhöht hat. Insgesamt ist Faktor 2 damit nicht so gut konturiert wie Faktor 1 - dies werden wir im Folgenden im Auge behalten. Fest steht jedenfalls, dass wir mit der explorativen Faktoranalyse eine Möglichkeit haben, mit der wir die acht Variablen zu drei Faktoren zusammenfassen können. Dabei decken die drei Faktoren 72,5 % der kombinierten Varianz der Ursprungsvariablen ab. Wenn wir bei dieser Faktorlösung bleiben, werden also 17,5 % der Gesamtvarianz nicht genutzt, d. h. damit auch nicht erklärt. Nach erfolgter Rotation können nun die Ergebnisse der Faktoranalyse ermittelt werden. Dafür werden die sogenannten Z-Werte berechnet, d. h. für jeden Fall (in unserem Beispiel: für jedes einzelne Land für das Jahr 1970, das in die Analyse einbezogen wurde) wird für jeden Faktor ein Wert abgespeichert. Hierfür gibt es wieder verschiedene Verfahren; wir verwenden hier als Beispiel die Methode der Regression. Dies bedeutet, dass pro Fall Ursprungsvariable 1 2 3 Elektorale Demokratie 0,954 0,052 - 0,050 Liberale Demokratie 0,948 - 0,038 - 0,048 Partizipative Demokratie 0,898 - 0,137 - 0,084 BIP pro Kopf 0,844 0,262 - 0,011 Inflationsrate - 0,219 0,763 - 0,229 Einkommensungleichheit - 0,269 - 0,744 - 0,163 Bew. Konflikt, extern - 0,125 - 0,125 0,567 Bew. Konflikt, intern 0,032 0,106 0,816 Tab. 27 Faktorladungsmatrix nach Varimax-Rotation, Jahr 1970 <?page no="193"?> 193 f a k t o r a n a l y s E : V E r g l E I c h E n d E d E m o k r a t I E f o r s c h u n g durch umgekehrte Regression ein Wert berechnet wird, d. h. es werden die Werte der Ursprungsvariablen standardisiert, mit den entsprechenden Faktorladungen multipliziert und addiert. So erhält man auf allen drei Faktoren Werte, die über die Fälle vergleichbar sind, aber keine Einheiten mehr besitzen. Dies bedeutet, dass die Maßeinheiten (z. B. Euro pro Kopf o. ä.) nicht mehr verwendet werden können, da mehrere Zahlen mit unterschiedlichen Einheiten verrechnet wurden. Zudem werden die Werte so angeordnet, dass das arithmetische Mittel auf jedem Faktor gleich Null und die Standardabweichung gleich Eins ist, so dass sich hohe Werte leicht dadurch von niedrigen unterscheiden lassen, dass hohe Werte positiv und weit von Null entfernt sind, während niedrige Werte negativ und weit von Null entfernt sind. Im Folgenden werden wir einige Fälle herausgreifen, um zu illustrieren, wie die Werte umgerechnet wurden (Tab. 28). ● Zunächst ist gut zu sehen, wie die ersten vier Variablen zu Faktor 1 verdichtet werden. So weist Dänemark sehr hohe Werte auf den drei Demokratieindizes sowie ein hohes BIP pro Kopf auf, was sich in einem relativ hohen Faktorwert niederschlägt (1,86). Italien mit immer noch guten, aber niedrigeren Demokratiewerten und deutlich niedrigem BIP pro Kopf hat auch noch einen deutlich positiven Faktorwert (1,17). Argentinien und die Philippinen liegen etwas über dem konstruierten Mittelwert (0,33 bzw. 0,14), während die Werte für Faktor 1 von Irak und China deutlich unter Null liegen. Auffällig ist, dass der Irak ein viel höheres BIP pro Kopf aufweist als die Philippinen, aber aufgrund der deutlich schlechteren Werte auf den drei Demokratieindizes dann im »Gesamturteil« des Faktors 1 doch stark abfällt. Ursprungsvariable DK IT AR PH IQ CN Elektorale Demokratie 0,90 0,76 0,10 0,40 0,06 0,07 Liberale Demokratie 0,98 0,85 0,46 0,60 0,34 0,10 Partizipative Demokratie 0,74 0,58 0,57 0,53 0,16 0,05 BIP pro Kopf 12.686 9.366 7.302 1.764 3.472 778 Faktor 1 1,86 1,17 0,33 0,14 - 0,89 - 1,24 Inflationsrate 6,47 4,99 13,55 15,28 4,36 1,06 Einkommensungleichheit 29,63 38,00 38,60 41,00 50,34 27,90 Faktor 2 0,60 0,13 0,16 0,05 - 0,49 1,06 Bew. Konflikt, extern 0 0 0 0 1 0 Bew. Konflikt, intern 0 0 0 1 1 1 Faktor 3 - 0,34 - 0,44 - 0,43 1,46 3,58 1,86 Die Tabelle zeigt die Ursprungs- und Faktorwerte für sechs ausgewählte Länder (DK = Dänemark, IT = Italien, AR = Argentinien, PH = Philippinen, IQ = Irak, CN = China). Tab. 28 Beispiele für Faktorwerte, Jahr 1970 <?page no="194"?> 194 m E t h o d E n d E r d a t E n a n a l y s E ● Anhand von Faktor 2 ist sehr schön sichtbar, dass eine der beiden Ursprungsvariablen negativ eingeht. So ist die Inflationsrate in Italien und dem Irak fast identisch, aufgrund der höheren Ungleichheit im Irak rutscht dieser aber auf einen negativen Faktorwert ab. China erzielt hier den höchsten Faktorwert der ausgesuchten Länder, da es eine sehr niedrige Inflationsrate und gleichzeitig eine niedrige Ungleichheit aufweist. ● Bei Faktor 3 fällt auf, dass Länder gleiche Werte auf den Ursprungsvariablen besitzen, (z. B. haben Dänemark und Italien weder interne noch externe Konflikte), die Faktorwerte aber unterschiedlich ausfallen (- 0,34 und - 0,44). Dies liegt daran, dass bei der Berechnung der Faktorwerte nicht nur die beiden »hoch ladenden« Ursprungsvariablen zur Berechnung verwendet werden, sondern natürlich alle Variablen. Niedrig ladende Ursprungsvariablen werden dabei mit einem viel geringeren Gewicht beachtet als hoch ladende Ursprungsvariablen, allerdings können sich so trotzdem Abweichungen zwischen vermeintlich exakt gleichen Ländern ergeben. Arbeitet man (wie üblich) mit einer Statistiksoftware, können die Z-Werte in der Datenbank abgespeichert und weiterverwendet werden. So könnte man z. B. ein Erklärungsmodell für die Faktorvariablen suchen und diese in einer Regression als abhängige Variablen verwenden. An dieser Stelle setzten wir die vertiefende Analyse nicht weiter fort, um mit der Auswertung der anderen drei Zeitpunkte fortzufahren. Zunächst berechnen wir wieder eine Faktoranalyse aus den Rohdaten, diesmal für das Jahr 1980. Diesmal können insgesamt 67 Länder berücksichtigt werden und es ergibt sich wieder ein befriedigender KMO-Wert von 0,785. Auch die Eigenwerte der Faktoren sehen sehr ähnlich aus wie bei den Daten von 1970 (die Eigenwerte der ersten drei Faktoren betragen 3,742, 1,246 und 1,038, sie erklären damit 75 % der Varianz auf den acht Ursprungsvariablen). Allerdings sehen die Ladungsmuster der Ursprungsvariablen anders aus als bei der Auswertung für 1970: ● Stabil geblieben ist die Zuordnung der drei Demokratieindizes und des BIP pro Kopf zu einem Faktor. Die Ladungen auf Faktor 1 sind allesamt hoch und die Ladungen auf den Faktoren 2 und 3 entsprechend niedrig. ● Auch die Gruppierung der Variablen zu den bewaffneten Konflikten ist eindeutig (hohe Ladungen auf Faktor 2, niedrige Ladungen auf den Faktoren 1 und 3). ● Die Gruppierung der beiden weiteren ökonomischen Faktoren (Inflationsrate und Einkommensungleichheit) ist stabil auf einem Faktor, allerdings finden sich diese jetzt auf Faktor 3. Dabei fällt auf, dass die Inflationsrate stärker Faktor 3 zugeordnet werden kann als die Einkommensungleichheit. Letztere lädt fast mit - 0,5 auch auf dem ersten Faktor. Die <?page no="195"?> 195 f a k t o r a n a l y s E : V E r g l E I c h E n d E d E m o k r a t I E f o r s c h u n g Zuordnung dieser Variablen zu einem der Faktoren war schon 1970 nicht so eindeutig wie bei den anderen Variablen; in den Daten für 1980 hat sich diese Mehrdeutigkeit noch erhöht. Dies ist auch der Grund dafür, warum diese Variablen erst durch den Faktor 3 erfasst werden und sich damit die Reihenfolge der Faktoren 2 und 3 im Vergleich zu 1970 gedreht hat - der Faktor, welcher auf Inflationsrate und Einkommensungleichheiten basiert, ist inzwischen »wackliger« als der neue Faktor 2. Im Wesentlichen ergeben sich also nur geringe Unterschiede zwischen den Analysen für 1970 und 1980. Der Logik der o. g. Schritte folgend errechnen wir eine weitere Faktoranalyse für das Jahr 1990. Diesmal können wir 77 Länder in die Analyse einbeziehen. Das KMO-Maß liegt sehr stabil bei 0,804, auch ergeben sich wieder drei Faktoren nach dem Kaiser-Kriterium (die Eigenwerte erreichen 3,666, 1,221 und 1,092), die ca. 75 % der Gesamtvarianz erklären. Weisen die Daten für 1970 und 1980 noch weitgehende Übereinstimmung auf, weicht die Analyse von 1990 deutlich vom bisherigen Muster ab, zumindest hinsichtlich der Faktoren 2 und 3. Daraus ergeben sich die folgenden Befunde: ● Stabil geblieben ist zumindest die Zuordnung der drei Demokratieindizes und des BIP pro Kopf zu einem Faktor. Die Ladungen auf Faktor 1 sind allesamt hoch und die Ladungen auf den Faktoren 2 und 3 entsprechend niedrig. Allerdings sind die Ladungen auf Faktor 1 ein bisschen weniger deutlich als in den vergangenen zwei Analysen. Dies gilt insbesondere für das BIP pro Kopf, das auf den Faktoren 2 und 3 erhebliche Ladungen zeigt, wenngleich sie noch keine kritische Größe erreicht haben. ● Die weiteren vier Ursprungsvariablen wurden diesmal anders kombiniert. So bilden die Inflationsrate und bewaffnete interne Konflikte eine Ursprungsvariable 1 2 3 Elektorale Demokratie ,951 -,078 -,024 Liberale Demokratie ,933 -,140 -,084 Partizipative Demokratie ,898 -,044 -,120 BIP pro Kopf ,865 -,127 ,229 Inflationsrate -,219 -,041 ,846 Einkommensungleichheit -,488 ,046 -,603 Bew. Konflikt, extern -,034 ,772 -,102 Bew. Konflikt, intern -,139 ,762 ,037 Tab. 28 Faktorladungsmatrix nach Varimax-Rotation, Jahr 1980 <?page no="196"?> 196 m E t h o d E n d E r d a t E n a n a l y s E Dimension ab (Faktor 3), während die Einkommensungleichheit und externe Konflikte den Faktor 2 konstituieren. Allerdings ist wieder bei der Einkommensungleichheit Vorsicht angebracht, denn sie lädt vergleichsweise niedrig auf Faktor 2 und mit noch recht ansehnlichen Werten auf den Faktoren 1 und 3, kann also nicht eindeutig Faktor 2 zugeordnet werden. Insgesamt ergibt sich ein verändertes Bild gegenüber den Analysen von 1970 und 1980. Die zuvor bestehende, gut interpretierbare Zuordnung der letzten vier Variablen hat sich aufgelöst. Hohe Inflationsraten hängen nicht mehr mit niedrigen Einkommensungleichheiten zusammen, sondern mit einer hohen Wahrscheinlichkeit zu bewaffneten internen Konflikten. Hohe Einkommensungleichheiten hängen zusammen mit niedrigen Tendenzen zu externen Konflikten. Wäre der erste Zusammenhang noch intuitiv deutbar (hohe Inflationsraten könnten zu internen Konflikten führen), ist der zweite Zusammenhang nicht ad-hoc zu interpretieren. Hier stößt die Faktoranalyse (zunächst) an ihre Grenze, denn nun müssten wir uns weitere inhaltliche Gedanken zu den gefundenen Zusammenhängen machen. Stattdessen wenden wir uns nun der letzten Analyse zu, und zwar der Faktorisierung der Daten aus dem Jahr 2000. Hier können wir insgesamt Daten aus 94 Ländern in die Analyse einfließen lassen. Das KMO-Maß sinkt auf nur noch 0,710, d. h. es wird deutlich schlechter. Wiederum lassen sich drei Faktoren über dem Kaiser-Kriterium identifizieren (Eigenwerte 3,536, 1,819 und 1,055), welche über 80 % der Gesamtvarianz erklären. Zu sehen ist, dass sich die vorher klare Zuordnung von Variablen zu Faktoren weiter auflöst: ● Während die Demokratieindizes weiter zu Faktor 1 gehören, ist die Zuordnung des BIP pro Kopf nicht mehr eindeutig. Es lädt zwar mit den Demokratieindizes weiter am höchsten auf Faktor 1, allerdings auch relativ hoch auf Faktor 3. Ursprungsvariable 1 2 3 Elektorale Demokratie 0,954 0,092 0,003 Liberale Demokratie 0,927 0,079 - 0,103 Partizipative Demokratie 0,887 0,097 0,116 BIP pro Kopf 0,808 0,301 - 0,239 Inflationsrate 0,184 - 0,284 0,724 Einkommensungleichheit - 0,334 - 0,558 0,289 Bew. Konflikt, extern 0,099 0,841 0,107 Bew. Konflikt, intern - 0,271 0,271 0,743 Tab. 30 Faktorladungsmatrix nach Varimax-Rotation, Jahr 1990 <?page no="197"?> 197 f a k t o r a n a l y s E : V E r g l E I c h E n d E d E m o k r a t I E f o r s c h u n g ● Die bereits in den Daten für das Jahr 1990 aufgetretene »Mischung« aus den beiden weiteren ökonomischen Variablen und den beiden Konfliktvariablen setzt sich in - wieder veränderter Form - fort. Jetzt laden Inflationsrate und externe Konflikte sehr hoch und eindeutig auf Faktor 2, während die Einkommensungleichheit und die internen Konflikte auf Faktor 3 laden. Dabei ist die Ladung der letzteren Variablen auf dem Faktor 3 nicht zufriedenstellend. Über die vier Faktoranalysen hinweg kann nun Folgendes als Ergebnis der Analyse festgehalten werden: [1] Unabhängig vom untersuchten Zeitpunkt bilden die drei Demokratieindizes ein- und die dieselbe Dimension ab. In der Regel ist es so, dass Länder, die auf einem der drei Indizes hohe Werte aufweisen, auf den anderen beiden auch hohe Werte aufweisen. Diese eine »Demokratiedimension«, welche die drei Einzelindizes gemeinsam hinreichend abdeckt, korreliert stark mit dem Wohlstand des Landes (hohe Demokratiequalität fällt zusammen mit hohem Wohlstand). Von den anderen Phänomenen, die wir geprüft haben, ist die Demokratiequalität aber unabhängig. Damit lautet das erste Ergebnis der Faktoranalyse: Die Vermutung, dass die Demokratiequalität mit allen anderen studierten Phänomenen zusammenhängt, konnte nicht bestätigt werden. Vielmehr hängt die Demokratiequalität weder mit der ökonomischen Stabilität noch mit der ökonomischen Gleichheit zusammen. Zudem sind Staaten mit hoher Demokratiequalität auch nicht notwendigerweise friedfertiger - weder nach innen noch nach außen. Aber selbst für den Wohlstand gilt, dass der Zusammenhang mit der Demokratiequalität über die Jahre schwächer wird. [2] In den Untersuchungen für die Jahre 1970 und 1980 konnte gezeigt werden, dass die beiden weiteren ökonomischen Variablen (Inflationsrate und Einkommensungleichheit) zusammenhängen. Ursprungsvariable 1 2 3 Elektorale Demokratie 0,937 -0,071 -0,171 Liberale Demokratie 0,928 -0,077 -0,173 Partizipative Demokratie 0,907 -0,092 0,051 BIP pro Kopf 0,711 -0,071 -0,507 Inflationsrate -0,105 0,970 0,053 Einkommensungleichheit -0,049 0,212 0,858 Bew. Konflikt, extern -0,095 0,964 -0,039 Bew. Konflikt, intern -0,144 -0,167 0,522 Tab. 31 Faktorladungsmatrix nach Varimax-Rotation, Jahr 2000 <?page no="198"?> 198 m E t h o d E n d E r d a t E n a n a l y s E [3] Ebenfalls wird in diesen beiden Jahren deutlich, dass interne und externe Konflikte häufig gemeinsam auftreten bzw. ausbleiben. Für die beiden späteren Jahre 1990 und 2000 ist diese Bündelung nicht mehr zu sehen; vielmehr ordnen sich diese vier Variablen jeweils neu an. Da wir an dieser Stelle die Analyse abbrechen, kommen wir auf die eingangs formulierten Hypothesen zurück: ● Der vermutete Zusammenhang zwischen der Demokratiequalität und der ökonomischen Stärke eines Landes hat sich bestätigt (H 1 wurde erhärtet). ● Die Demokratiequalität hängt jedoch nicht mit der ökonomischen Stabilität oder dem Grad der ökonomischen Ungleichheit zusammen (H 2 wurde widerlegt). ● Die Demokratiequalität hat ebenfalls keinen Einfluss auf die Friedfertigkeit des Landes - weder nach außennoch nach innen (H 3 wurde widerlegt). Zu klären bleibt, ob die Unterschiede in den Faktoranalysen darauf zurückzuführen sind, dass sich bestimmte kausale Mechanismen im Verlauf der Zeit geändert haben (dass z. B. ökonomische Faktoren stärker mit Konflikten zusammenhängen als früher) oder darauf, dass unterschiedliche Länder betrachtet wurden. Im Verlauf der Analyse wurde bereits darauf hingewiesen, dass die Anzahl der berücksichtigen Länder aufgrund der sich bessernden Datenlage sukzessiv vergrößert werden konnte (von 62 auf 94 Länder). Um diese Frage zu klären, könnte man die gemeinsame Schnittmenge aus allen vier Stichproben bilden (d. h. nur Länder verwenden, die zu allen vier Zeitpunkten Daten auf allen Variablen aufweisen) und die Analyse wiederholen. Ein geradezu klassisches Beispiel für eine Faktoranalyse aus der vergleichenden Politikwissenschaft stellt Lijphart (2012) dar, der insgesamt 36 Länder auf zehn Unterscheidungsmerkmale untersucht und diese hinterher auf nur zwei latente Hintergrundvariablen verdichtet. Benoit und Laver (2012) wiederum untersuchen mittels Faktoranalyse ideologische Unterschiede zwischen den europäischen Parteienfamilien. Lesetipps <?page no="199"?> 199 f a k t o r a n a l y s E : V E r g l E I c h E n d E d E m o k r a t I E f o r s c h u n g ● Wozu kann man die Faktoranalyse verwenden? ● Welche Möglichkeit eröffnet die Faktorrotation? ● Welches Skalenniveau sollte auf den verwendeten Variablen vorliegen? ● Was ist der Unterschied zwischen der konfirmatorischen und der explorativen Faktoranalyse? ● Welches ist die besondere Herausforderung bei der explorativen Faktoranalyse? Kontrollfragen ▼ ▲ <?page no="200"?> 200 Checklisten zum Arbeiten Checkliste für die grundsätzliche Ausrichtung der Forschung ● Ist das Projekt auf Verstehen oder auf Erklären ausgerichtet? ● Welcher theoretische Rahmen ist für das Projekt relevant? ● Werden Vermutungen bzw. Hypothesen formuliert? ● Sind die Hypothesen der Ausgangspunkt oder das Ergebnis der empirischen Arbeit? Checkliste für den Rahmen des Forschungsprojekts ● Wie lautet die wissenschaftliche Fragestellung? ● Was ist das Erkenntnisinteresse? ● Welche Forschungslücke wird geschlossen? ● Welches Forschungsdesign wird verfolgt? ● Wie sind die verwendeten Konzepte definiert? ● Wie werden die Phänomene operationalisiert? Checkliste für die Durchführung des Forschungsprojekts ● Wie werden die Fälle ausgewählt? ● Ist die Fallauswahl repräsentativ? ● Welche Methode wird zur Erhebung der Daten ausgewählt? ● Wurden die Gütekriterien der Messung bzw. die Gütekriterien der qualitativen Forschung beachtet? ● Genügen evtl. verwendete Sekundärdaten den Gütekriterien? ● Müssen die Daten vor der Analyse angepasst, rekodiert, korrigiert, bereinigt oder vervollständigt werden? ● Mit welcher Methode werden die Daten analysiert? 6 <?page no="201"?> 201 c h E c k l I s t E n Z u m a r B E I t E n ● Eignet sich die ausgewählte Analysemethode für die vorliegenden Daten? ● Ist die Anwendung verschiedener Erhebungsund/ oder Analysemethoden möglich (Triangulation)? Checkliste für den Forschungsbericht ● Bauen die Berichtsschritte logisch aufeinander auf? ● Sind die vom Forschenden im Verlauf des Prozesses getroffene Entscheidungen nachvollziehbar dokumentiert und begründet? ● Sind Methodenanwendung und Forschungsergebnisse transparent zustande gekommen und reproduzierbar? ● Beantworten die Ergebnisse der empirischen Analyse die eingangs gestellte Forschungsfrage? ● Inwiefern wird durch die Untersuchung die eingangs identifizierte Forschungslücke geschlossen? ● Welche Probleme sind im Verlauf des Forschungsprozesses aufgetreten? ● Sind die Ergebnisse des Projekts auf andere Fälle übertragbar? ● Inwieweit sind die Befunde generalisierbar? <?page no="202"?> 202 Literaturverzeichnis Abendschön, Simone/ Steinmetz, Stephanie 2014: The Gender Gap in Voting Revisited: Women’s Party Preferences in a European Context, Social Politics: International Studies in Gender, State & Society 21 (2): 315-344. Alesina, Alberto/ Devleeschauwer, Arnaud/ Easterly, William/ Kurlat, Sergio/ Wacziarg, Romain 2003: Fractionalization, Journal of Economic Growth 8 (2): 155-194. Auffermann, Burkhard 2009: Das politische System Finnlands, in: Ismayr, Wolfgang (Hrsg.): Die politischen Systeme Westeuropas, 4. Aufl, Wiesbaden, 219-263. Austin, Peter C./ Mamdani, Muhammad M./ Juurlink, David N./ Hux, Janet E. 2006: Testing multiple statistical hypotheses resulted in spurious associations: A study of astrological signs and health, Journal of Clinical Epidemiology 59 (9): 964-969. Arzheimer, Kai 2002: Politikverdrossenheit. Bedeutung, Verwendung und empirische Relevanz eines politikwissenschaftlichen Begriffes, Wiesbaden. Auth, Günther 2 2015: Theorien der Internationalen Beziehungen Kompakt. Die wichtigsten Theorien auf einen Blick, Berlin. Backhaus, Klaus/ Erichson, Bernd/ Plinke, Wulff/ Weiber, Rolf 14 2016: Multivariate Analysemethoden. Eine anwendungsorientierte Einführung, Berlin. Behnke, Joachim/ Baur, Nina/ Behnke, Nathalie 2 2010: Empirische Methoden der Politikwissenschaft, Paderborn. Benjamin, John D./ Sirmans G. Stacy 1996: Mass Transportation, Apartment Rent and Property Values, Journal of Real Estate Research 12 (1): 1-8. Benoit, Kenneth/ Laver, Michael 2012: The dimensionality of political space: Epistemological and methodological considerations, European Union Politics 13 (2): 194-218. Berelson, Bernard 1952: Content Analysis in Communication Research, Glencoe. <?page no="203"?> 203 l I t E r a t u r V E r Z E I c h n I s Berg-Schlosser, Dirk/ Cronqvist, Lasse 2012: Aktuelle Methoden der Vergleichenden Politikwissenschaft. Einführung in konfigurationelle (QCA) und makro-quantitative Verfahren, Opladen. Bevir, Mark/ Rhodes, Rod A. 2004: Interpreting British Governance, Abingdon. Blatter, Joachim K./ Janning, Frank/ Wagemann, Claudius 2007: Qualitative Politikanalyse. Eine Einführung in Forschungsansätze und Methoden, Wiesbaden. Bolt, Jutta/ van Zanden, Jan L. 2014: The Maddison Project: Collaborative Research on Historical National Accounts, The Economic History Review 67 (3): 627-651. Boot, Max 2017: Trump Security Strategy a Study in Contrasts, Council on Foreign Relations, online abgerufen am 22.11.2018, URL: https: / / www.cfr. org/ expert-brief/ trump-security-strategy-study-contrasts. Booth, Ken/ Smith, Steve 1995: International Relations Theory Today, Cambridge. Brown, Geoffrey/ Cherrington, Derek H./ Cohen, Louis 1975: Experiments in the social sciences, London. Brüsemeister, Thomas 2 2008: Qualitative Forschung. Ein Überblick, Wiesbaden. Bürklin, Wilhelm 1995: Grundlagen empirischer Sozialforschung anhand Umfrageforschung. Wer wählt warum die GRÜNEN? , in: Alemann, Ulrich von/ Tönnesmann, Wolfgang (Hrsg.): Politikwissenschaftliche Methoden. Grundriss für Studium und Forschung, Opladen, 141-200. Campbell, Angus/ Converse, Philip E./ Miller, Warren E./ Stokes Donald E. 1960: The American Voter, New York. Castles, Francis G./ Obinger, Herbert 2008: Worlds, Families, Regimes: Country Clusters in European and OECD Area Public Policy, West European Politics 31 (1): 321-344. Chalmers, Alan F. 6 2007: Wege der Wissenschaft. Einführung in die Wissenschaftstheorie, Wiesbaden. Cohen, Jacob 1960: A coefficient of agreement for nominal scales, in: Educational and Psychological Measurement 20: 37-46. Copi, Irving 1998: Einführung in die Logik, München. Coppedge, Michael/ Gerring, John/ Lindberg, Staffan I. et al. 2017: V-Dem Dataset v7.1, Varieties of Democracy (V-Dem) Project. Cordesmann, Anthony H. 2018: Trump on Russia: His Strategy Documents vs. His Meeting with Putin, online abgerufen am 23.11.2018, URL: https: / / www.csis.org/ analysis/ trump-russia-his-strategy-documents-vs-hismeeting-putin. Creswell, John W. 4 2014: Research design. Qualitative, Quantitative, and Mixed Methods Approaches, International Student Edition, Los Angeles. <?page no="204"?> 204 l I t E r a t u r V E r Z E I c h n I s Creswell, John W./ Miller, Dana L. 2000: Determining Validity in Qualitative Inquiry, Theory into Practice 39 (3): 124-130. Czichos, Horst 2013: Die Welt ist dreieckig. Die Tradiade Philosophie - Physik - Technik, Wiesbaden. Dahl, Robert A./ Tufte, Edward R. 1974: Size and Democracy, Stanford. Deitelhoff, Nicole/ Zürn, Michael 2016: Lehrbuch der internationalen Beziehungen: Per Anhalter durch die IB-Galaxis, München. Diekmann, Andreas 6 2012: Empirische Sozialforschung, Reinbek. DiPasquale, Denise/ Wheaton, William C. 1996: Urban Economics and Real Estate Markets, Englewood Cliffs. Druwe, Ulrich/ Hahlbohm, Dörte/ Singer, Alex 1995: Internationale Politik, Politikwissenschaft aktuell, Bd. 3, Neuried. Edevane, Gillian 2018: Trump says U. S. - Russia relations are worse than during cold war, online abgerufen am 25.11.2019, URL: http: / / www. newsweek.com/ trump-assad-putin-russia-syria-chemical-missilesobama-880878. Eekhoff, Johann 2 2002: Wohnungspolitik, Tübingen. Elazar, Daniel J. 1995: From Statism to Federalism: A Paradigm Shift, Publius 25 (2): 5-18. Faas, Thorsten 2006: Online-Umfragen. Potenziale und Probleme, in: Rehberg, Karl-Siegbert (Hrsg.): Soziale Ungleichheit, kulturelle Unterschiede: Verhandlungen des 32. Kongresses der Deutschen Gesellschaft für Soziologie in München. Teilbd. 1 und 2, Frankfurt/ M., 4815-4825. Faas, Thorsten 2009: Das Experiment - ein unbekanntes Wesen? , in: Schnapp, Kai-Uwe/ Behnke, Nathalie/ Behnke, Joachim (Hrsg.): Datenwelten. Datenerhebung und Datenbestände in der Politikwissenschaft, Baden-Baden, 72-93. Faas, Thorsten/ Rattinger, Hans 2004: Drei Umfragen, ein Ergebnis? Ergebnisse von Offline- und Online-Umfragen anlässlich der Bundestagswahl 2002 im Vergleich, in: Brettschneider, Frank/ van Deth, Jan/ Roller, Edeltraud (Hrsg.): Die Bundestagswahl 2002. Analysen der Wahlergebnisse und des Wahlkampfes, Wiesbaden, 277-299. Feske, Susanne/ Antonczyk, Erik/ Oerding, Simon 2014: Einführung in die Internationalen Beziehungen. Ein Lehrbuch, Opladen. Filzmaier, Peter/ Gewessler, Leonore/ Höll, Otmar/ Mangott, Gerhard 2006: Internationale Politik. Eine Einführung, Wien. Fleiss, Joseph L. 2003: The Measurement of Interrater Agreement, in: Fleiss, Joseph L./ Levin, Bruce/ Paik, Myunghee Cho (Hrsg.): Statistical Methods for Rates and Proportion, 3. Edition, New York, 598-626. Flick, Uwe 5 2012: Qualitative Sozialforschung. Eine Einführung, Reinbek. Flick, Uwe 5 2014a: An Introduction to Qualitative Research, Los Angeles et al. <?page no="205"?> 205 l I t E r a t u r V E r Z E I c h n I s Flick, Uwe 2014b: The SAGE Handbook of Qualitative Data Aanlysis, London. Flick, Uwe/ v. Kardorff, Ernst/ Keupp, Heiner/ v. Rosenstiel, Lutz/ Wolff, Stephan 3 1995: Handbuch Qualitative Sozialforschung. Grundlagen, Konzepte, Methoden und Anwendungen, Weinheim et al. Flick, Uwe/ von Kardorff, Ernst/ Steinke, Ines (Hrsg.) 12 2009: Qualitative Forschung. Ein Handbuch, Reinbek. Foucault, Michel 2005: Schriften in vier Bänden. Dits et Ecrits, hrsg. von Daniel Defert und François Ewald, Bd. 4, Frankfurt/ M. Fox, James A. 2 2016: Randomized responses and related methods. Surveying sensitive data, Los Angeles et al. Frey, Ulrich/ Frey, Johannes 2009: Fallstricke. Die häufigsten Denkfehler in Alltag und Wissenschaft, München. Gadenne, Volker 2004: Empirische Forschung und Wissenschaftstheorie. Was bleibt von der Methodologie des kritischen Rationalismus? , in: Diekmann, Andreas (Hrsg.): Methoden der Sozialforschung, Wiesbaden, 33-50. Gadenne, Volker 2013: Bewährung, in: Keuth, Herbert (Hrsg.): Karl Popper. Logik der Forschung, Berlin, 125-144. Gamm, Gerhard 2009: Philosophie im Zeitalter der Extreme. Eine Geschichte philosophischen Denkens im 20. Jahrhundert, Darmstadt. Ganghof, Steffen 2005: Kausale Perspektiven in der vergleichenden Politikwissenschaft: X-zentrierte und Y-zentrierte Forschungsdesigns, in: Kropp, Sabine/ Minkenberg, Michael (Hrsg.): Vergleichen in der Politikwissenschaft, Wiesbaden, 76-93. Geertz, Clifford 1973: The interpretation of cultures: Selected essays, New York. Gehrau, Volker 2002: Die Beobachtung in der Kommunikationswissenschaft, Konstanz. George, Alexander L. 1959: Quantitative and qualitative approaches to content analysis, in: Pool, Ithiel de Sola (Hrsg.): Trends in content analysis, Urbana, 7-32. George, Alexander L./ Bennett, Andrew 2005: Case Studies and Theory Development in the Social Sciences, Cambridge. Gläser, Jochen/ Laudel, Grit 4 2010: Experteninterviews und qualitative Inhaltsanalyse als Instrumente rekonstruierender Untersuchungen, Wiesbaden. Goertz, Gary/ Mahoney, James 2012: A Tale of Two Cultures. Qualitative and Quantitative Research in the Social Sciences, Princeton et al. Greshoff, Rainer 2008: Verstehen und Erklären, Paderborn. Greve, Werner/ Wentura, Dirk 1997: Wissenschaftliche Beobachtung. Eine Einführung, Weinheim. <?page no="206"?> 206 l I t E r a t u r V E r Z E I c h n I s Grondin, Jean 2009: Hermeneutik, Göttingen. Häder, Michael 2 2010: Empirische Sozialforschung, Wiesbaden. Hamilton, Alexander/ Madison, James/ Jay, John 2003 [1787/ 88]: The Federalist Papers, New York. Heidenreich, Klaus 1999: Entwicklung von Skalen, in: Roth, Erwin/ Holling, Heinz (Hrsg.): sozialwissenschaftliche Methoden. Lehr- und Handbuch für Forschung und Praxis, München, 407-439. Heinelt, Hubert 2016: Governance und politisches Entscheiden. Zur intersubjektiven Erschließung der Grundlagen politischer Entscheidungen, Baden-Baden. Herrmann, Theo 1999: Methoden als Problemlösungsmittel, in: Roth, Erwin/ Holling, Heinz (Hrsg.): sozialwissenschaftliche Methoden. Lehr- und Handbuch für Forschung und Praxis, München, 20-48. Himmelweit, Hilde T./ Jaeger Biberian, Marianne/ Stockdale, Janet 1978: Memory for Past Vote: Implications of a Study of Bias in Recall, British Journal of Political Science 8 (3): 365-375. Holsti, Ole R. 1969: Content Analysis for the Social Sciences and Humanities, Boston. Hume, David 2007 [1748]: Eine Untersuchung über den menschlichen Verstand, Frankfurt/ M. Institut für Wohnen und Umwelt 2005: Auswirkungen des Wegfalls von Sozialbindungen und des Verkaufs öffentlicher Wohnungsbestände auf die Wohnungsversorgung unterstützungsbedürftiger Haushalte. Teilbericht im Rahmen des Forschungsverbundes »Wohnungslosigkeit und Hilfen in Wohnungsnotfällen«, http: / / www.iwu.de/ forschde/ dateien/ FV_AS2_Bericht.pdf. Ismayr, Wolfgang 3 2012: Der Deutsche Bundestag, Wiesbaden. Jahn, Detlev 2006: Einführung in die vergleichende Politikwissenschaft, Wiesbaden. Jäckle, Sebastian 2017: Neue Trends in den Sozialwissenschaften: innovative Techniken für qualitative und quantitative Forschung. Wiesbaden. Jeffrey, James F. 2017: The Trump National Security Strategy: Return to the Nineteenth Century? , PolicyWatch 2904, The Washington Institute, online abgerufen am 03.10.2018, URL: https: / / www.washingtoninstitute. org/ policy-analysis/ view/ the-trump-national-security-strategy-returnto-the-nineteenth-century. Joseph, Jonathan/ Wight, Colin 2010: Scientific Realism and International Relations, Basingstoke. Kaiser, Henry F. 1974: An Index of Factorial Simplicity, Psychometrika 39 (1): 31-36. Karne, Annie 2018: McMaster makes his pick to replace Powell on the NSC, online abgerufen am 20.11.2018, URL: https: / / www.politico.com/ <?page no="207"?> 207 l I t E r a t u r V E r Z E I c h n I s story/ 2018/ 01/ 21/ nadia-schadlow-national-security-council-mcmaster- 353587. Karp Jeffrey A./ Brockington, David 2005: Social Desirability and Response Validity: A Comparative Analysis of Overreporting Voter Turnout in Five Countries, The Journal of Politics 67 (3): 825-840. Kallus, K. Wolfgang 2 2016: Erstellung von Fragebogen, Wien. Keller, Patrick 2010: Die Nationale Sicherheitsstrategie der Regierung Obama, Konrad-Adenauer-Stiftung, Analysen & Argumente, Ausgabe 79, Juni 2010, online abgerufen am 15.10.2018, URL: https: / / www.kas.de/ c/ document_library/ get_file? uuid=52893662-7ec7-0ac5-c7d9-4e5bc24 6f3c9&groupId=252038. Keller, Reiner 2008: Michel Foucault, Konstanz. Kemmerzell, Jörg/ Hofmeister, Anne 2019: Innovationen in der Klimaschutzpolitik deutscher Großstädte. Der Einfluss überlokalen Handelns im Vergleich, Politische Vierteljahresschrift 60 (1): 95-126. Kempf, Udo 2009: Das politische System Frankreichs, in: Ismayr, Wolfgang (Hrsg.): Die politischen Systeme Westeuropas, 4. Aufl, Wiesbaden, 349-404. Keuschnigg, Marc/ Wobring, Tobias (Hrsg.) 2015: Experimente in den Sozialwissenschaften, Soziale Welt Sonderband 22, Baden-Baden. Keuth, Herbert 2 2011: Die Philosophie Karl Poppers, Tübingen. King, Gary/ Keohane, Robert O./ Verba, Sidney 1994: Designing Social Inquiry. Scientific Inference in Qualitative Research, Princeton. Klemm, Elmar 2002: Einführung in die Statistik für die Sozialwissenschaften, Wiesbaden. Koch, Gary G./ Landis, J. Richards 1977: The Measurement of Observer Agreement for Categorical Data, Biometrics 33 (1): 159-174. Kofner, Stefan 2004: Wohnungsmarkt und Wohnungswirtschaft. München. Kosfeld, Reinhold/ Eckey, Hans-Dietrich/ Schüßler, Martina 2010: Ökonometrische Messung regionaler Preisniveaus auf der Basis örtlich beschränkter Erhebungen, in: Möller, Joachim/ Hohmann, Eckart/ Huschka, Denis (Hrsg.): Der weiße Fleck - zur Konzeption und Machbarkeit regionaler Preisindizes, IAB-Bibliothek, 91-124. Kögler, Hans H. 1994: Michel Foucault, Stuttgart. König, Rene 1967: Handbuch der empirischen Sozialforschung, Bd. 1: Geschichte und Grundprobleme, München. Kracauer, Siegfried 1952: The Challenge of Qualitative Content Analysis, Public Opinion Quarterly 16 (4): 631-642. Krell, Gert 4 2009: Weltbilder und Weltordnung. Einführung in die Theorie der internationalen Beziehungen, Baden-Baden. Kriz, Jürgen/ Lisch, Ralf 1978: Grundlagen und Modelle der Inhaltsanalyse: Bestandsaufnahme und Kritik, Reinbek. Kromrey, Helmut 13 2016: Empirische Sozialforschung, Konstanz. <?page no="208"?> 208 l I t E r a t u r V E r Z E I c h n I s Krumm, Thomas/ Westle, Bettina 2009: Der Forschungsprozess im Überblick, in: Westle, Bettina (Hrsg.): Methoden der Politikwissenschaft, Baden-Baden, 115-123. Kruse, Jan 2 2015: Qualitative Interviewforschung. Ein integrativer Ansatz, Weinheim et al. Kruse, Otto 11 2000: Keine Angst vor dem leeren Blatt: Ohne Schreibblockaden durchs Studium, Frankfurt/ M. Kuckartz, Udo 2 2014: Qualitative Inhaltsanalyse. Methoden, Praxis, Computerunterstützung, Weinheim et al. Kuhn, Thomas S. 2 1999: Die Struktur wissenschaftlicher Revolutionen, Frankfurt/ M. Kuhn, Thomas S. 4 2012: The Structure of Scientific Revolutions, Chicago. Kühn, Thomas/ Koschel, Kay-Wolker 2011: Gruppendiskussion. Ein Praxis- Handbuch, Wiesbaden. Kvale, Steinar/ Brinkmann, Svend 2 2009: Interviews. Learning the craft of qualitative research interviewing, Los Angeles et al. Lachat, Romain 2014: Issue Ownership and the Vote: The Effects of Associative and Competence Ownership on Issue Voting, Swiss Political Science Review 20 (4): 727-740. Lack, Caleb W./ Rousseau, Jacques 2016: Critical thinking, science, and pseudoscience. Why we can’t trust our brains, New York. Lamnek, Siegfried/ Krell, Claudia 6 2016: Qualitative Sozialforschung, Weinheim. Lasswell, Harold D. 1941: Describing the Contents of Communication. Experimental Division for the Study of Wartime Communication, Document No. 9, Washington. Lasswell, Harold D. 1948: The Structure and Function of Communication in Society, in: Bryson, Lyman (Hrsg.): The Communication of Ideas. A Series of Addresses, New York, 32-51. Lau, Jörg 2017: America first! , online abgerufen am 12.10.2018, URL: https: / / www.zeit.de/ 2017/ 05/ donald-trump-america-first-stephen-bannonmichael-flynn. Lauth, Hans-Joachim/ Pickel, Gert/ Pickel, Susanne 2 2015: Methoden der vergleichenden Politikwissenschaft. Eine Einführung, Wiesbaden. Lazarsfeld, Paul F. 1942: The Effects of Radio on Public Opinion, in: Waples, Douglas (Hrsg.): Print, Radio, and Film in a Democracy: Ten papers on the administration of mass communication in the public interest, Chicago, 66-78. Lazarsfeld, Paul F./ Berelson, Bernard 1948: The Analysis of Communication Content, Chicago. Leerhoff, Holger/ Rehkämper, Klaus/ Wachtendorf, Thomas 2009: Analytische Philosophie, Darmstadt. <?page no="209"?> 209 l I t E r a t u r V E r Z E I c h n I s Lemke, Christiane 3 2012: Internationale Beziehungen. Grundkonzepte, Theorien und Problemfelder, München. Lieberman, Evan S. 2005: Nested Analysis as a Mixed-Method Strategy for Comparative Research, American Political Science Review 99 (3): 435-452. Lijphart, Arend 2 2012: Patterns of Democracy: Government Forms and Performance in Thirty-Six Countries, New Haven. Lüdemann, Susanne 2011: Jaques Derrida. Zur Einführung, Hamburg. Luhmann, Niklas 1987: Soziale Systeme. Grundriss einer allgemeinen Theorie, Frankfurt/ M. Mach, Ernst 1980 [1926]: Erkenntnis und Irrtum. Skizzen zur Psychologie der Forschung. Darmstadt. Mann, Thomas E./ Ornstein, Norman J. 2016: It’s even worse than it looks. How the American constitutional system collided with the new politics of extremism, New York. Maturana, Huberto R. 2 1985: Erkennen: Die Organisation und Verkörperung von Wirklichkeit, Braunschweig. Mayring, Philipp 1992: Analytische Schritte bei der Textinterpretation, in: Huber, Günter L. (Hrsg.): Qualitative Analyse. Computereinsatz in der Sozialforschung, München et al., 11-41. Mayring, Philipp 1994: Qualitative Inhaltsanalyse, in: Boehm, Andreas/ Mengel, Andreas/ Muhr, Thomas (Hrsg.): Texte verstehen: Konzepte, Methoden, Werkzeuge, Gesellschaft für Angewandte Informationswissenschaft (GAIK) e. V., Konstanz. Mayring, Philipp 2002a: Qualitative Content Analysis - Research Instrument or Mode of Interpretation? , in: Kiegelmann, Mechthild (Hrsg.): The Role of the Researcher in Qualitative Psychology, Tübingen, 140-149. Mayring, Philipp 2002b: Einführung in die qualitative Sozialforschung: eine Anleitung zum qualitativen Denken, Weinheim. Mayring, Philipp 2014: Qualitative Content Anlaysis. Theoretical Foundation, Basic Procedures and Software Solution, online abgerufen am 10.03.2018, URL: https: / / www.ssoar.info/ ssoar/ handle/ document/ 39517. Mayring, Philipp 12 2015: Qualitative Inhaltsanalyse. Grundlagen und Techniken, Weinheim et al. Mayring, Philipp 6 2016: Einführung in die qualitative Sozialforschung, Weinheim. Menzel, Ulrich 2001: Zwischen Idealismus und Realismus. Die Lehre von den Internationalen Beziehungen, Frankfurt/ M. Merton, Robert K. 1996 [1949]: On Social Structure and Science, Chicago. Metzger, Christoph 11 2013: Lern- und Arbeitsstrategien. Ein Fachbuch für Studierende, Berlin. Meuser, Michael/ Nagel, Ulrike 2009: Das Experteninterview - konzeptionelle Grundlagen und methodische Anlage, in: Pickel, Susanne/ Pickel, <?page no="210"?> 210 l I t E r a t u r V E r Z E I c h n I s Gert/ Lauth, Hans-Joachim/ Jahn, Detlef (Hrsg.): Methoden der vergleichenden Politikwissenschaft. Neue Entwicklungen und Anwendungen, Wiesbaden, 465-479. Miles, Matthew B./ Huberman, A. Michael/ Saldaña, Johnny 3 2014: Qualitative Data Analysis. A Methods Sourcebook, Los Angeles et al. Mill, John S. 1843: A System of Logic, London. Miller, Delbert C./ Salkind, Neil J. 6 2002: Handbook of Research Design & Social Measurement, Thousand Oaks. Morgenthau, Hans J. 2 1956: Politics among Nations. The Struggle for Power and Peace, New York. Müller, Thomas/ Pickel, Susanne: Wie lässt sich Demokratie am besten messen? Zur Konzeptqualität von Demokratieindizes, Politische Vierteljahresschrift 48 (3): 511-539. Münkler, Herfried 2010: Strategien der Sicherung. Welten der Sicherheit und Kulturen des Risikos. Theoretische Perspektiven, in: Münkler, Herfried/ Bohlender, Matthias/ Meurer, Sabine (Hrsg.): Sicherheit und Risiko. Über den Umgang mit Gefahr im 21. Jahrhundert, Bielefeld, 11-34. Mummendey, Hans D./ Grau, Ina 5 2008: Die Fragebogen-Methode, Göttingen et al. Munck, Gerardo L./ Verkuilen, Jay 2002: Conceptualizing and Measuring Democracy: Evaluating Alternative Indices, Comparative Political Studies 35 (1): 5-34. Muno, Wolfgang 2009: Fallstudien und die vergleichende Methode, in: Pickel, Susanne/ Pickel, Gert/ Lauth, Hans-Joachim/ Jahn, Detlef (Hrsg.): Methoden der vergleichenden Politikwissenschaft. Neue Entwicklungen und Anwendungen, Wiesbaden, 113-131. Nerlich, Uwe 2018: Die Trump-Präsidentschaft - Jahr 2, SIRIUS - Zeitschrift für Strategische Analyse 2 (1): 52-57. Niemann, Hans-Joachim 2005: 70 Jahre Falsifikation: Königsweg oder Sackgasse? , Aufklärung und Kritik 2, 52-79. Norpoth, Helmut/ Gschwend, Thomas 2005: Mit Rot-Grün ins Schwarze getroffen: Prognosemodell besteht Feuertaufe, in: Falter, Jürgen W.; Gabriel, Oscar W.; Weßels, Bernhard (Hrsg.): Wahlen und Wähler: Analysen aus Anlass der Bundestagswahl 2002, Wiesbaden, 371-387. O’Brien, Robert M. 2007: A Caution Regarding Rules of Thumb for Variance Inflation Factors, Quality & Quantity 41 (5): 673-690. Patsiurko, Natalka/ Campbell, John L./ Hall, John A. 2012: Measuring cultural diversity: ethnic, linguistic and religious fractionalization in the OECD, Ethnic and Racial Studies 35 (2): 195-217. Peele, Gillian 4 2004: Governing the UK: British Politics in the 21st Century, Oxford. <?page no="211"?> 21 1 l I t E r a t u r V E r Z E I c h n I s Pfisterer, Valentin 2010: Die nationale Sicherheitsstrategie der Vereinigten Staaten von Mai 2010 - ein Bericht, Max-Planck-Institut, Zeitschrift für ausländisches und öffentliches Recht und Völkerrecht 70: 735-766. Ponterotto, Joseph G. 2006: Brief Note on the Origins, Evolution, and Meaning of the Qualitative Research Concept Thick Description, The Qualitative Report 11 (3): 538-549. Porst, Rolf 3 2011: Fragebogen. Ein Arbeitsbuch, Wiesbaden. Poser, Hans 2005: Gottfried Wilhelm Leibniz. Zur Einführung, Hamburg. Raab-Steiner, Elisabeth/ Benesch, Michael 3 2010: Der Fragebogen. Von der Forschungsidee zur SPSS-Auswertung, Wien. Ramsenthaler, Christina 2013: Was ist »Qualitative Inhaltsanalyse? «, in: Schnell, Martin W./ Schulz, Christian/ Kolbe, Harald/ Dunger, Christine (Hrsg.): Der Patient am Lebensende, Palliative Care und Forschung, Wiesbaden, 23-42. Rademacher, Christian/ Koll, Christian 2009: Computergestützte telefonische Befragungen politischer Eliten, in: Schnapp, Kai U./ Behnke, Nathalie/ Behnke, Joachim (Hrsg.): Datenwelten. Daten in der Politikwissenschaft, Wiesbaden, 49-70. Ragin, Charles C. 1987: The comparative method. Moving beyond qualitative and quantitative strategies, Berkeley. Ragin, Charles C. 2008: Redesigning social inquiry: Fuzzy sets and beyond, Berkeley et al. von Randow, Gero 2011: Das Ziegenproblem, Reinbek. Reh, Werner 1995: Quellen- und Dokumentenanalyse in der Politikfeldforschung. Wer steuert die Verkehrspolitik? , in: Alemann, Ulrich von/ Tönnesmann, Wolfgang (Hrsg.): Politikwissenschaftliche Methoden. Grundriss für Studium und Forschung, Opladen, 201-260. Reinhardt, Sibylle 2012: Das Zusammenspiel von quantitativer und qualitativer Forschung. The interplay between quantitative and qualitative research, Zeitschrift für interpretative Schul- und Unterrichtsforschung 1 (1): 231-238. Rihoux, Benoit/ Rezsohazy, Ilona/ Bol, Damien, 2011: Qualitative comparative analysis (QCA) in public policy analysis: An extensive review, German Policy Studies 7 (3): 9-82. Ritsert, Jürgen 1964: Zur Gestaltung der Ideologie in der Popularliteratur über den Zweiten Weltkrieg, Soziale Welt 15 (3): 244-253. Ritsert, Jürgen 1972: Inhaltsanalyse und Ideologiekritik. Ein Versuch über kritische Sozialforschung, Frankfurt/ M. Rivas, Jorge 2010: Realism. For Real this Time: Scientific Realism is not a Compromise between Positivism and Interpretativism, in: Joseph, Jonathan/ Wight, Colin (Hrsg.): Scientific Realism and International Relations, Basingstoke, 203-227. <?page no="212"?> 212 l I t E r a t u r V E r Z E I c h n I s Röd, Wolfgang 2009: Der Gott der reinen Vernunft. Ontologischer Gottesbeweis und rationalistische Philosophie, München. Sager, Fritz 2008: Institutionelle Bedingungen kollektiver Handlungsfähigkeit im urbanen Raum: Eine QCA von siebzehn europäischen Entscheidungsfällen, Zeitschrift für Vergleichende Politikwissenschaft 2 (1): 3-28. Saiz, Albert 2007: Immigration and Housing Rents in American Cities, Journal of Urban Economics 61 (2): 345-371. Scheuregger, Daniel/ Spier, Tim 2007: Working-class authoritarianism und die Wahl rechtspopulistischer Parteien. Eine empirische Untersuchung für fünf westeuropäische Staaten, Kölner Zeitschrift für Soziologie und Sozialpsychologie 59 (1): 59-80. Schmiedl-Neuburg, Hilmar 2005: Normative Theorien der Internationalen Beziehungen. Eine vergleichende Inventur und Einordnung, Analyse und Kritik der normativen Theorien und Probleme Internationaler Beziehungen, Norderstedt. Schnapp, Kai-Uwe/ Behnke, Nathalie/ Behnke, Joachim (Hrsg.) 2009: Datenwelten. Datenerhebung und Datenbestände in der Politikwissenschaft, Baden-Baden. Schneider, Carsten Q./ Wagemann, Claudius 2012: Set-Theoretic Methods for the Social Sciences. A Guide for Qualitative Comparative Analysis and Fuzzy Sets in Social Science, Cambridge. Schnell, Rainer/ Hill, Paul B./ Esser, Elke 10 2013: Methoden der empirischen Sozialforschung, München. Schöne, Helmar 2009: Teilnehmende Beobachtung, in: Schnapp, Kai U./ Behnke, Nathalie/ Behnke, Joachim (Hrsg.): Datenwelten. Daten in der Politikwissenschaft, Wiesbaden, 22-48. Schramm, Wilbur L. 1997: The Beginnings of Communication Study in America: A Personal Memoir, London. Schreier, Margrit 2014: Varianten qualitativer Inhaltsanalyse: Ein Wegweiser im Dickicht der Begrifflichkeiten, Forum: Qualitative Sozialforschung 15 (1), Art. 18. Schulze-Bentrop, Conrad 2011: Qualitative Comparative Analysis (QCA) and the Configurational Thinking in Management Studies, Frankfurt/ M. Schülein, Johann A./ Reitze, Simon 3 2012: Wissenschaftstheorie für Einsteiger, Wien. Schumacher, Ingmar 2014: An Empirical Study of the Determinants of Green Party Voting, Ecological Economics 105: 306-318. Schumann, Siegfried 2018: Quantitative und qualitative empirische Forschung: Ein Diskussionsbeitrag, Wiesbaden. Schurz, Gerhard 2006: Einführung in die Wissenschaftstheorie, Darmstadt. Siewert, Markus B. 2017: Qualitative Comparative Analysis, in: Jäckle, Sebastian (Hrsg.): Neue Trends in den Sozialwissenschaften. Innovative Techniken für qualitative und quantitative Forschung, Wiesbaden, 273-305. <?page no="213"?> 213 l I t E r a t u r V E r Z E I c h n I s Silverman, David 2014: Interpreting qualitative data, Los Angeles et al. Steigleder, Sandra 2008: Die strukturierende qualitative Inhaltsanalyse im Praxistest. Eine konstruktiv kritische Studie zur Auswertungsmethodik von Philipp Mayring, Marburg. Stepan, Alfred/ Linz, Juan J./ Minoves, Juli F. 2014: Democratic Parliamentary Monarchies, Journal of Democracy 25 (2): 35-51. Stoiber, Michael 2011: Die Qualität von Demokratien im Vergleich. Zur Bedeutung des Kontextes in der empirisch vergleichenden Demokratietheorie, Baden-Baden. van der Brug, Wouter 2010: Structural and Ideological Voting in Age Cohorts, West European Politics 33 (3): 586-607. Van Evera, Stephen 1997: Guide to Methods for Students of Political Science, Ithaca/ London. Vetter, Angelika/ Heinelt, Hubert/ Rose, Lawrence E. 2018: Mayors’ Notions of Local Democracy, in: Heinelt, Hubert/ Magnier, Annick/ Cabria, Marcello/ Reynaert, Herwig (Hrsg.): Political Leaders and changing local democracy. The European mayor, Cham, 173-208. Volkens, Andrea/ Lehmann, Pola/ Matthieß, Theres/ Merz, Nicolas/ Regel, Sven 2016: The Manifesto Data Collection. Manifesto Project (MRG/ CMP/ MAR- POR). Version 2016b. Wissenschaftszentrum Berlin für Sozialforschung (WZB), Berlin. Vornholz, Günter 2013: Volkswirtschaftslehre für die Immobilienwirtschaft. Studientexte Real Estate Management, Bd. 1, Oldenburg. Wagner, Wolfgang 2001: Die Konstruktion einer europäischen Außenpolitik. Deutsche, französische und britische Ansätze im Vergleich, Frankfurt/ M. et al. Wagner, Wolfgang 2011: Die demokratische Kontrolle internationalisierter Sicherheitspolitik. Demokratiedefizit bei Militäreinsätzen und in der europäischen Politik innerer Sicherheit, Baden-Baden. Weber, Max 5 1972: Wirtschaft und Gesellschaft. Grundriss der verstehenden Soziologie, bearb. von Johannes Winckelmann, Tübingen. Wernet, Andreas 3 2009: Einführung in die Interpretationstechnik der Objektiven Hermeneutik, Wiesbaden. Wonka, Arndt 2007: Um was geht es? Konzeptspezifikation in der politikwissenschaftlichen Forschung, in: Gschwend, Thomas/ Schimmelfennig, Frank (Hrsg.): Forschungsdesign in der Politikwissenschaft. Probleme - Strategien - Anwendungen, Frankfurt/ M., 63-89. Zöttl, Ines 2018: Der neue Kalte Krieg, online abgerufen am 02.10.2018, URL: https: / / www.zeit.de/ politik/ ausland/ 2018-04/ donald-trump-russlandwladimir-putin-syrien. <?page no="214"?> 214 Tabellenverzeichnis Tab. 1: Strukturierung in der qualitativen Inhaltsanalyse (I) 105 Tab. 2: Strukturierung in der qualitativen Inhaltsanalyse (II) 106 Tab. 3: Strukturierung in der qualitativen Inhaltsanalyse (III) 107 Tab. 4: Arbeitslosenquote 2017 114 Tab. 5: Variablenübersicht für die QCA 123 Tab. 6: Rekodierte Daten für die QCA 126 Tab. 7: Wahrheitstabelle für die QCA 127 Tab. 8: Wahrheitstabelle für die QCA ohne fehlende Fälle 128 Tab. 9: Endgütige Wahrheitstabelle für die QCA 130 Tab. 10: Deskriptive Statistik der Variablen 141 Tab. 11: Korrelationen zwischen den Variablen (Pearsons r) 143 Tab. 12: Vergleich verschiedener linearer Regressionsmodelle 151 Tab. 13: Fälle mit großen Residuen 153 Tab. 14: Weiterer Vergleich der Regressionsmodelle 155 Tab. 15: Fälle mit großen Residuen (reloaded) 155 Tab. 16: Verteilung der Zweitstimmen gemäß ESS 2014 167 Tab. 17: Vergleich der Zweitstimmen bei ESS 2014 und Bundestagswahl 2013 167 Tab. 18: Klassifizierungstabelle (Nullmodell) 169 Tab. 19: Klassifizierungstabelle (Modell mit einer Kovariaten) 172 Tab. 20: Vergleich verschiedener logistischer Regressionsmodelle 173 Tab. 21: Deskriptive Statistik über die Variablen, Jahr 1970 183 Tab. 22: Korrelationen zwischen den Variablen, Jahr 1970 184 Tab. 23: Korrelationen zwischen den Variablen (volle Fälle), Jahr 1970 185 Tab. 24: Anti-Image-Korrelationsmatrix, Jahr 1970 186 Tab. 25: Faktoren und Eigenwerte, Jahr 1970 188 Tab. 26: Faktorladungsmatrix, Jahr 1970 190 Tab. 27: Faktorladungsmatrix nach Varimax-Rotation, Jahr 1970 192 Tab. 28: Beispiele für Faktorwerte, Jahr 1970 193 Tab. 29: Faktorladungsmatrix nach Varimax-Rotation, Jahr 1980 195 Tab. 30: Faktorladungsmatrix nach Varimax-Rotation, Jahr 1990 196 Tab. 31: Faktorladungsmatrix nach Varimax-Rotation, Jahr 2000 197 <?page no="215"?> 215 Abbildungsverzeichnis Abb. 1: Untersuchungsanordnungen nach Lauth et al. 2015: 50 47 Abb. 2: Phasen der quantitativen Forschung (Krumm und Westle 2009: 117) 57 Abb. 3: Phasen der qualitativen Forschung (Krumm und Westle 2009: 118) 59 Abb. 4: Allgemeines inhaltsanalytisches Ablaufmodell (nach Mayring 2015). 92 Abb. 5: Einfaches bivariates Streudiagramm 145 Abb. 6: Output der Regressionsanalyse mit einer unabhängigen Variablen 146 Abb. 7: Streudiagramm mit Regressionsgerade 147 Abb. 8: Output der Regressionsanalyse mit zwei UVs 149 Abb. 9: Verteilung der Residuen nach linearer Regression 153 Abb. 10: Output der Regressionsanalyse mit drei UVs plus Dummy 154 Abb. 11: Streudiagramm bei binärer abhängiger Variablen 160 Abb. 12: Lineare Regressionsgerade bei binärer abhängiger Variable 161 Abb. 13: Prototypische Kurve der logistischen Regression 163 Abb. 14: Nullmodell der logistischen Regression 169 Abb. 15: Logistische Regression mit einer Kovariaten 170 Abb. 16: Logistische Regression mit einer Kovariaten und Odd Ratio 171 Abb. 17: Screeplot für acht Faktoren, Jahr 1970 189 <?page no="216"?> 216 Schlagwortverzeichnis A Als-ob-Physik 18 Aneignung 47 Annahme 9, 25, 29, 33, 42, 136, 156, 178 Anti-Image-Korrelationsmatrix 186 äquifinale Erklärung 111 archetypische Fallstudie 76 argumentative Interpretationsabsicherung 85 Ausreißer 154 Auswertungsobjektivität 78 B Bedingungen 112 Befragung 66 Beobachtung 30, 65 Beweisdenken 20 Bool’sche Algebra 112, 129 C chi2-Test 170 Clusteranalyse 176 D Datenerhebung 62 Definition 26 deskriptive Datenschau 140, 183 Determinismus 19 deterministische Hypothese 26 Dialektischer Materialismus 18 Diskurs 22 Durchführungsobjektivität 78 E Eigenwerte 188 Einheitenhomogenität 65 Einzelbeobachtung 47 Einzelfallstudie 50 Ellbogen-Kriterium 189 Empirismus 15 entscheidende Fälle 76 Epistemologie 14 Erkenntnis 14 Erkenntnisinteresse 41 Erklärung 36 Experiment 8, 20, 63 Ex-post-facto-Design 64 F Faktoranalyse - Basistheorem 187 - Beispiel 178 - Eigenwerte 188 - Eignung von Datensätzen 185 - explorative 178 - konfirmatorische 177 - Prinzip 177 - Vorgehen 182 - Z-Werte 192 Faktorenanzahl 189 Faktorladungsmatrix 190 Faktorrotation 192 Faktorwerte 192 Fall 30 Fallauswahl 72, 120, 135 Fallzahl 72, 75 Falsifikation 20, 28 Forschungsdesign 46 Forschungsfrage 41, 103, 116, 134, 164, 179 Forschungsprozess - qualitativ 59 - quantitativ 57 Frage - analytische 42 - deskriptive 42 G Gesetz 28 Gottesbeweis 15 Grundgesamtheit 72 Gütekriterien <?page no="217"?> 217 s c h l a g w o r t V E r Z E I c h n I s - der Messung 77 - der qualitativen Forschung 82 H Hauptachsenanalyse 178 Hauptkomponentenanalyse 178 Hypothese 25, 140, 165, 179 I ideale Beschreibung 49 Idealismus 16 Implikanten 112 Index 70 Induktionsproblem 17 Inhaltsvalidität 81 Inkonsistenz 128 Interpretationsobjektivität 78 interpretative Ansätze 23 Itembatterie 79 K Kausalität 29, 36, 47, 111 Klassifikation 48 Klumpenauswahl 73 KMO-Kriterium 186 Kollinearität 142 kommunikative Validierung 84 komparative Methode 51 Konditionen 112 Konfidenzintervall 148 Konsistenzanalyse 79 Konstruktivismus 22 Konstruktvalidität 81 Konzeptspezifikation 53 Korrelation 18, 142, 143, 183, 185 Korrelationsmatrix 143 korrigiertes R2 149 Kovariate 168 Kriteriumsvalidität 81 Kritischer Rationalismus 19 L Logik 15 logistische Regression - Anwendungsbeispiel 164 - Modelldiskussion 172 - Modellprämissen 174 - Nullmodell 168 - Prinzip 161 - Standardformel 163 Log-likelihood 170 M Mechanismus 36 Median 114, 140 Methode - als Problemlösungsmittel 43 - Anwendung 44 - komparative 51 - qualitative 56 - quantitative 56 - statistische 52 - Wahl der 44 metrische Skala 69 Modelldiskussion 150, 172 most different systems design 51 most similar systems design 51 multiple Regression 148 N Nähe zum Gegenstand 82 Nominalskala 68 Nullmodell 168 O Objektivität 77 Odds Ratio 171 Online-Befragung 66 Operationalisierung 55, 121, 137 Ordinalskala 69 Outcome 112 P Paradigma 20 Paralleltest 79 Positivismus 16 Postmodernismus 21 Poststrukturalismus 21 Prämissen - der linearen Regression 156 - der logistischen Regression 174 Prima-facie-Validität 81 probabilistische Hypothese 26 prototypische Fallstudie 75 Prozessrekonstruktion 47 Pseudo-R2 170 Q QCA-Varianten 113 qualitative Forschung - Gütekriterien 82 R Rationalismus 15 Regelgeleitetheit 84 Regressionsanalyse 134 Regressionsgerade 145 Regressionsgleichung 146 Relevanz 42 Reliabilität 78 <?page no="218"?> 218 s c h l a g w o r t V E r Z E I c h n I s repräsentative Fallstudie 75 Repräsentativität 141 Residuendiagnostik 152, 155 Residuum 147 S Schichtung 74 Schwellenwert 114 Screeplot 189 Sekundärdatenanalyse 67 Signifikanz 144 Skalenniveau 68, 143, 158 Sonntagsfrage 66 Sprache 21 Standardabweichung 140 Standardfehler des Schätzers 148 statistische Methode 52 Stichprobe 72 Streudiagramm 145 Symbole 21 Systemtheorie 22 T Tautologie 26 Testhalbierung 79 Test-Retest-Verfahren 79 texanischer Scharfschütze 29 Theorie 25, 33 thick description 47 Triangulation 83 U umfassende Erklärung 49 Umkodieren 114 Umkodierung 164 universaler Test 50 universelle Klassifikation 48 V Validität 80 Variable 29 - abhängige 30, 135, 167 - unabhängige 30, 136, 164 Verfahrensdokumentation 83 Verstehen 34 Vierfeldermatrix 168 W Wahrheitstabelle 115 wissenschaftlicher Fortschritt 20 Z Zufallsauswahl 73 <?page no="219"?> ,! 7ID8C5-cfcdfj! ISBN 978-3-8252-5235-9 Eine verständliche, praxisorientierte und kompakte Einführung: ▶ Die gängigen Methoden der Politikwissenschaft werden theoretisch erläutert. ▶ Alle vorgestellten Methoden werden auch anhand eines politikwissenschaftlichen Beispiels dargestellt. ▶ Das Verstehen von empirischen Arbeiten wird enorm erleichtert. Lehrbücher mit einem klaren Konzept: ▶ Merksätze, Definitionen und Boxen erleichtern das Lernen. ▶ Prüfungsfragen fördern das Verständnis. ▶ Das Buch eignet sich ideal für die Prüfungsvorbereitung im Haupt- und Nebenfach. ▶ 31 Tabellen und 17 Abbildungen machen Fakten deutlich. basics Dies ist ein utb-Band aus dem UVK Verlag. utb ist eine Kooperation von Verlagen mit einem gemeinsamen Ziel: Lehrbücher und Lernmedien für das erfolgreiche Studium zu veröffentlichen. utb-shop.de QR-Code für mehr Infos und Bewertungen zu diesem Titel Politikwissenschaft
