eBooks

Statistik für Journalist:innen

Grundlagen und Praxis

0117
2022
978-3-8385-5340-5
978-3-8252-5340-0
UTB 
Julia Lück-Benz
10.36198/9783838553405

Arbeitslosenquote, Wahlumfragen, Infiziertenzahlen - Daten sind aus dem journalistischen Alltag nicht mehr wegzudenken. Wie Journalist:innen Statistiken für ihre Arbeit richtig nutzen können, erklärt dieses Buch. Julia Lück-Benz geht dabei auf den gesamten statistischen Prozess ein. Sie zeigt auf, worauf bereits bei der Fragestellung und Datenbeschaffung zu achten ist. Ausführlich erklärt sie die Grundlagen für eine kompetente Datenanalyse und vermittelt die notwendigen Kenntnisse zum kritischen Umgang mit bereits existierenden Statistiken. Auch die verschiedenen Visualisierungsmöglichkeiten führt sie auf. Kurzum: ein Must-have für alle (angehenden) Journalist:innen, die Zahlen und Daten besser verstehen und richtig einsetzen wollen.

<?page no="0"?> Julia Lück-Benz Statistik für Journalist: innen Grundlagen und Praxis <?page no="1"?> utb 5340 Eine Arbeitsgemeinschaft der Verlage Brill | Schöningh - Fink · Paderborn Brill | Vandenhoeck & Ruprecht · Göttingen - Böhlau Verlag · Wien · Köln Verlag Barbara Budrich · Opladen · Toronto facultas · Wien Haupt Verlag · Bern Verlag Julius Klinkhardt · Bad Heilbrunn Mohr Siebeck · Tübingen Narr Francke Attempto Verlag - expert verlag · Tübingen Psychiatrie Verlag · Köln Ernst Reinhardt Verlag · München transcript Verlag · Bielefeld Verlag Eugen Ulmer · Stuttgart UVK Verlag · München Waxmann · Münster · New York wbv Publikation · Bielefeld Wochenschau Verlag · Frankfurt am Main <?page no="2"?> Dr. Julia Lück-Benz ist wissenschaftliche Mitarbeiterin am Journalistischen Seminar der Johannes Gutenberg-Universität Mainz sowie an der Arbeitsstelle Medienanalyse/ Forschungsmethoden am Institut für Publizistik- und Kommunikationswissenschaft der Freien Universität Berlin. Sie hat in Mannheim Medien- und Kommunikationswissenschaft, VWL und Politikwissenschaft studiert und im Bereich der international vergleichenden politischen Kommunikation promoviert. Ihre Schwerpunkte in der Lehre liegen in den Bereichen der empirischen Methoden, Statistik und des wissenschaftlichen Arbeitens. In ihrer Forschung beschäftigt sie sich unter anderem mit Fragen medialer Deliberation, Datenjournalismus, Cross-Border-Journalismus sowie Vielfalt im Journalismus. <?page no="3"?> Julia Lück-Benz Statistik für Journalist: innen Grundlagen und Praxis UVK Verlag · München <?page no="4"?> © UVK Verlag 2022 ‒ ein Unternehmen der Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Alle Informationen in diesem Buch wurden mit großer Sorgfalt erstellt. Fehler können dennoch nicht völlig ausgeschlossen werden. Weder Verlag noch Autor: innen oder Herausgeber: innen übernehmen deshalb eine Gewährleistung für die Korrektheit des Inhaltes und haften nicht für fehlerhafte Angaben und deren Folgen. Diese Publikation enthält gegebenenfalls Links zu externen Inhalten Dritter, auf die weder Verlag noch Autor: innen oder Herausgeber: innen Einfluss haben. Für die Inhalte der verlinkten Seiten sind stets die jeweiligen Anbieter oder Betreibenden der Seiten verantwortlich. Internet: www.narr.de eMail: info@narr.de Einbandgestaltung: Atelier Reichert, Stuttgart CPI books GmbH, Leck utb-Nr. 5340 ISBN 978-3-8252-5340-0 (Print) ISBN 978-3-8385-5340-5 (ePDF) ISBN 978-3-8463-5340-0 (ePub) Umschlagabbildung: © DragonImages - iStock Autorinnenphoto: privat Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http: / / dnb.dnb.de abrufbar. www.fsc.org MIX Papier aus verantwortungsvollen Quellen FSC ® C083411 ® www.fsc.org MIX Papier aus verantwortungsvollen Quellen FSC ® C083411 ® <?page no="5"?> 9 1 11 1.1 11 1.2 15 1.3 17 1.4 18 1.5 27 28 2 31 2.1 31 2.2 34 2.3 35 2.4 37 2.5 40 2.6 48 2.7 51 2.8 56 2.9 62 63 64 3 65 3.1 65 3.2 66 3.2.1 67 Inhalt Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Statistikkompetenz für Journalist: innen . . . . . . . . . . . . . . . . Statistik als Argument . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Statistik als fester Bestandteil des Rechercherepertoires . . Der statistische Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Hinweise zum Arbeiten mit diesem Buch . . . . . . . . . . . . . . Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das Problem: (Richtige) Fragen stellen und eine Theorie entwickeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gesellschaftlich relevante Probleme . . . . . . . . . . . . . . . . . . . Unterschiedliche Problemarten . . . . . . . . . . . . . . . . . . . . . . . Probleme formulieren zur Prozessstrukturierung . . . . . . . . Probleme erkennen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Quellenkritik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Relevanz und Reichweite von Problemen einschätzen . . . . Das Problem mit Kontextwissen füttern . . . . . . . . . . . . . . . . Vermutungen aufstellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Probleme formulieren als kreativer Prozess . . . . . . . . . . . . . ► Checkliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Messen, was gemessen werden soll . . . . . . . . . . . . . . . . . . . . Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Messen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . <?page no="6"?> 3.2.2 67 3.2.3 71 3.3 74 3.4 77 3.4.1 78 3.4.2 79 3.4.3 79 3.4.4 81 3.4.5 81 3.4.6 83 3.4.7 85 3.5 87 3.5.1 88 3.5.2 88 3.5.3 90 3.5.4 95 3.6 97 3.6.1 98 3.6.2 99 3.7 102 3.7.1 103 3.7.2 104 3.8 106 3.9 109 3.9.1 109 3.9.2 111 3.9.3 114 3.9.4 116 3.9.5 122 124 125 4 127 4.1 128 4.2 130 4.3 131 Variablen und Skalenniveaus . . . . . . . . . . . . . . . . . . . . . . . . . Gütekriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die klassischen Erhebungsarten . . . . . . . . . . . . . . . . . . . . . . Die Befragung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Formen der Befragung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Varianten der standardisierten Befragung . . . . . . . . . . . . . . Vor- und Nachteile der Befragung . . . . . . . . . . . . . . . . . . . . . Güte einer Befragung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Frageformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Frageformulierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Etablierte Fragebogenelemente . . . . . . . . . . . . . . . . . . . . . . . Die Inhaltsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inhalte erfassen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kategorien bilden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Besondere Herausforderungen bei der Inhaltsanalyse . . . . Automatisierte Inhaltsanalyse . . . . . . . . . . . . . . . . . . . . . . . . Die Beobachtung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Formen der Beobachtung . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das Beobachtungsinstrument . . . . . . . . . . . . . . . . . . . . . . . . Das Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Experimental- und Kontrollgruppen . . . . . . . . . . . . . . . . . . . Arten von Experimenten . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pretests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stichprobenziehung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die Zufallsstichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . Stichprobengröße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Weitere Auswahlverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . Rücklaufquoten und Non-Response . . . . . . . . . . . . . . . . . . . ► Checkliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die Form: Datentabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Daten aus PDF-Dateien herauslesen . . . . . . . . . . . . . . . . . . . Monitoring der Erhebung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Inhalt <?page no="7"?> 4.4 132 4.5 135 4.5.1 137 4.5.2 139 4.5.3 140 4.5.4 141 4.6 145 4.7 149 4.8 155 4.9 155 160 161 5 163 5.1 165 5.1.1 166 5.1.2 170 5.1.3 180 5.1.4 189 5.2 201 5.2.1 202 5.2.2 207 5.2.3 210 5.3 211 5.3.1 211 5.3.2 215 5.3.3 217 5.3.4 227 5.3.5 228 5.3.6 229 5.3.7 231 232 232 Datenfälschung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Datenbeschaffung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Open Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anfragen an staatliche Akteure (Informationsfreiheitsgesetz) . . . . . . . . . . . . . . . . . . . . . . . . . Daten auf Webseiten sammeln: Webscraper . . . . . . . . . . . . APIs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Datenbereinigung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Daten aus unterschiedlichen Quellen zusammenführen . . Datenaufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lagerung und Sicherung (Datenmanagement) . . . . . . . . . . ► Checkliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Deskriptive Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Häufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Prozentrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Verteilung von Merkmalen . . . . . . . . . . . . . . . . . . . . . . . . . . . Zusammenhangsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inferenzstatistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Signifikanzprinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kritik am p-Wert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die Gegenbewegung: Open Science . . . . . . . . . . . . . . . . . . . Weitere Analyseverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . Mittelwertvergleiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mehrfaktorielle Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Faktorenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Netzwerkanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Strukturgleichungsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . ► Checkliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Inhalt <?page no="8"?> 6 235 6.1 235 6.1.1 235 6.1.2 236 6.1.3 237 6.1.4 238 6.1.5 238 6.1.6 239 6.1.7 240 6.1.8 240 6.1.9 244 6.2 246 6.2.1 253 6.2.2 279 279 280 7 281 7.1 281 7.2 285 293 301 306 309 Aufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erkenntnisse kommunizieren . . . . . . . . . . . . . . . . . . . . . . . . Was ist berichtenswert? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die zentrale Aussage finden und formulieren . . . . . . . . . . . Vom Einzelfall zum Allgemeinen . . . . . . . . . . . . . . . . . . . . . . Lösungsorientierter Journalismus . . . . . . . . . . . . . . . . . . . . . Zielgruppe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Form . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Weitere Recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zahlen im Text . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kommunikation von Unsicherheit . . . . . . . . . . . . . . . . . . . . Visualisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Arten von Diagrammen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Interaktivität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ► Checkliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abschluss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Übersicht statistischer Prozess . . . . . . . . . . . . . . . . . . . . . . . . Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stichwörter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildungsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabellenverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Inhalt <?page no="9"?> Vorwort Selten war die Berichterstattung so stark von Zahlen und Daten geprägt wie seit März 2020. Und selten hat ein Ereignis die Relevanz des Buchthemas derart deutlich vor Augen geführt. Die täglichen Corona-Zahlen nehmen mittlerweile einen ähnlich routinierten Platz in den Medien ein wie der Wetterbericht. Dabei wird sehr deutlich, wie wichtig es doch ist, zu verste‐ hen, wie Zahlen zustande kommen und was genau sie aussagen können - oder was eben auch nicht. Ebenso hat sich gezeigt, dass das Verständnis, wie Wissenschaft funktioniert und welche Rolle Wahrscheinlichkeit und Unsicherheit spielen, nicht automatisch vorausgesetzt werden kann. Die Idee dieses Buches entstand jedoch weit vor Corona. Denn auch in Zeiten ohne globale Pandemie ist unsere Gesellschaft zunehmend von Daten geprägt. Der Einfluss von Zahlen, Daten und Statistiken auf unser Leben ist enorm, wenngleich nicht immer so offensichtlich wie im Schatten steigender oder fallender Inzidenzen. Um zu verstehen, wie Daten und die aus ihnen gewonnenen Erkenntnisse gesellschaftliches Handeln beeinflussen, ist eine gute Datenkompetenz von allgemeiner Relevanz. Allerdings kommt Jour‐ nalist: innen hier eine besondere Rolle zu, denn sie nehmen im öffentlichen Diskurs eine spezielle Vermittlungsposition ein. Es liegt insbesondere in ihrer Verantwortung, die faktengestützte Debatte zu gewährleisten und durch sorgfältiges Prüfen auch eine gewisse Kontrollfunktion zu überneh‐ men. Um dies leisten zu können, muss Statistik einen festen Platz in der journalistischen Ausbildung einnehmen. Dieses Buch richtet sich darum an angehende und praktizierende Journa‐ list: innen und ist ihnen am Ende hoffentlich eine Hilfe bei der Bewältigung ihres journalistischen Arbeitsalltags. Was mir dabei wichtig ist: Die folgen‐ den Ausführungen sollen ermutigen, sich der Statistik anzunehmen, um guten Journalismus noch besser zu machen. Sie sollen zu der Erkenntnis beitragen, dass die Arbeit mit Daten und Statistik Werkzeuge im journalis‐ tischen Repertoire bietet, die eine gleichberechtigte Daseinsberechtigung neben anderen Recherchemethoden des Journalismus haben. Für alle anderen Interessierten oder Statistikgeplagten kann dieses Buch ebenfalls eine Unterstützung sein, denn es ist darauf angelegt, ein grundle‐ gendes Verständnis von statistischen Prozessen zu vermitteln, die für die generelle Statistikkompetenz immer wichtiger werden. Dies hilft vielleicht <?page no="10"?> auch dabei, die Statistiken, mit denen man in der Berichterstattung konfron‐ tiert wird, noch besser zu verstehen und einordnen zu können. Bevor es nun aber richtig losgeht, bleibt noch einiges an Dank auszuspre‐ chen: Mein großer Dank gilt allen Journalist: innen, die sich mit mir im Zuge der Erarbeitung dieses Buches über ihre Arbeit und ihre Routinen ausgetauscht haben und mir Einblicke in die Entstehungsgeschichten ihrer datengestützten Berichterstattung gegeben haben. Ich danke dem Gutenberg Lehrkolleg der Johannes Gutenberg-Universi‐ tät Mainz für die Förderung eines Lehrfreisemesters, das es mir ermöglicht hat, das Lehrkonzept für meine Statistikworkshops im Master Journalismus zu erarbeiten und damit den Grundstein dieses Buches zu legen. Ganz herzlicher Dank geht ebenso an meine beiden studentischen Hilfs‐ kräfte Selina Rudolph und David Metzmacher, deren verlässliche Zuarbeit und kluge Rückmeldung eine großartige Unterstützung gewesen sind. Besonders hervorheben möchte ich Tanjev Schultz, Professor am Journalis‐ tischen Seminar in Mainz, der mir auf meiner aktuellen Stelle den Freiraum und die Unterstützung für ein so großes Projekt gegeben hat. Für ihr wert‐ volles Feedback danke ich außerdem meinen wunderbaren Kolleg: innen Charlotte Löb, Carina Weinmann, Karin Boczek, Frederik von Castell und Lukas Herzog. Mein Dank gilt ebenso meinem guten Freund Benjamin Hertlein für seine unermüdliche Ausdauer beim Aufspüren schiefer Formulierungen und unverständlicher Passagen. Trotz selbstattestierter Zahlenphobie hat sich auch meine Mama das ganze Manuskript vorgenommen und meinen Blick immer wieder auf solche Teile gelenkt, deren Verständlichkeit noch ausbaufähig gewesen ist - auch dafür gilt mein großer Dank. Und zu guter Letzt danke ich Immanuel, der sich wie kein anderer in die Rolle des mäßig vom Statistikthema begeisterten Studierenden hinein‐ versetzen kann, um mich auf die „nerdigen“ (Zitat! ) Stellen hinzuweisen, bei denen ich Gefahr laufen könnte, Leser: innen zu verlieren. Darüber hinaus kann ich mir seiner grenzenlosen Unterstützung jederzeit voll und ganz sicher sein - insbesondere aber in Momenten, in denen er mich mit liebevoll-aufforderndem Ton an meinen Schreibtisch verweist und mich dann in regelmäßigen Abständen mit Kaffee versorgt. Julia Lück-Benz, im September 2021 10 Vorwort <?page no="11"?> 1 Einleitung Begriffsklärung | Statistik Der Begriff Statistik ist zweideutig. Er umfasst einerseits die tabella‐ rische oder grafische Darstellung eines vorliegenden Datenmaterials. Andererseits bezeichnet er die Gesamtheit der Methoden, die für die Gewinnung und Verarbeitung ebendieser Daten relevant sind. Als Daten wiederum werden empirische Informationen verstanden, die durch Be‐ obachtungen, Messungen und Erhebungen in Form von (Zahlen-)Wer‐ ten verfügbar sind und die es ermöglichen, aus ihnen Erkenntnisse und Wissen zu generieren. 1.1 Statistikkompetenz für Journalist: innen Grundlegende Kenntnisse in Statistik, sowohl im Sinne der Methoden für die Gewinnung und Verarbeitung als auch der Darstellung von Daten, sind für Journalist: innen unerlässlich. In Anbetracht der stetig wachsenden Menge an verfügbaren Daten steigen auch die Anforderungen an einen sicheren Umgang mit den Möglichkeiten zur Beschaffung, Aufbereitung, Auswertung und Präsentation. Allerdings herrscht unter manchen Journa‐ list: innen gleichzeitig eine gewisse Skepsis gegenüber Zahlen. Nicht wenige, so hält sich zumindest ein weit verbreitetes Vorurteil, entscheiden sich für die schreibende Zunft, um der Mathematik den Rücken zu kehren. Dies hängt vielleicht auch damit zusammen, dass die Fähigkeit zum Sprach- und Leseverständnis (im Englischen mit dem Begriff „Literacy“ auf den Punkt gebracht) deutlich stärker mit Journalismus assoziiert wird als bei‐ spielsweise die Fähigkeit zum sicheren Umgang mit Zahlen (Englisch: „Numeracy“). Zusätzlich hat der eine oder die andere in der Schule oder im Grundlagenstudium vielleicht die Erfahrung gemacht, dass Mathematik wenig zugänglich geblieben ist und Statistikvorlesungen sogar oft als Anlass zum „Aussieben“ eingesetzt worden sind. Dabei gewinnt insbesondere die „Data Literacy“ als spezifische Bezeichnung für die Fähigkeit, Daten und <?page no="12"?> Statistiken zu verstehen, einordnen und selbst produzieren zu können, zunehmend an Bedeutung. Mathematik und Statistik werden daher auch immer wichtiger im journa‐ listischen Repertoire. Statistiken und Daten sind in der Medienberichterstat‐ tung fast allgegenwärtig: von der Berichterstattung vor und nach Wahlen über Kriminalitätsstatistiken, Marktanalysen, aber auch in der Sportbericht‐ erstattung bis hin zu größeren investigativen Recherchen, die darauf zie‐ len, Muster oder Unregelmäßigkeiten in großen Mengen an verfügbaren (oder geleakten) Daten zu finden und zu enthüllen. Nicht zuletzt hat die globale Corona-Pandemie gezeigt, wie wichtig es für Journalist: innen ist, mit sich regelmäßig aktualisierenden Datenlagen arbeiten zu können, das Zustandekommen dieser Daten nachzuvollziehen und diese gegebenenfalls kritisch auf Fehler zu prüfen, zentrale statistische Begrifflichkeiten selbst zu verstehen sowie die wichtigen Informationen verständlich und sorgfältig zu kommunizieren. Der Bereich des Datenjournalismus wächst seit den 2000er Jahren und ist längst nicht mehr auf wenige Spezialist: innen innerhalb der journalistischen Profession beschränkt. Auch die Reichweite visualisierter Daten ist durch die Einbettung im Online-Kontext vor allem durch die Möglichkeiten zum Verbreiten in den sozialen Medien heute deutlich erhöht. Damit einher geht allerdings auch die Gefahr, dass sich falsche Informationen ebenso schnell verbreiten. Journalist: innen sind hier in der Verantwortung, besondere Sorgfalt an den Tag zu legen, um Fehler zu vermeiden. Die Statistikausbildung bei angehenden Journalist: innen hinkt diesen Entwicklungen oft noch hinterher. Es gibt bisher kein deutschsprachiges Lehrbuch, das die spezifischen Herausforderungen der Statistikausbildung für Journalist: innen thematisiert. Statistik ist in vielen Studiengängen und Volontariatsprogrammen kein fester Bestandteil. Besteht Interesse am Thema, ist häufig Eigeninitiative gefragt. Dort, wo Statistik unterrichtet wird, ist die Herausforderung groß, die Lehre so zu gestalten, dass das vermittelte Wissen nicht abstrakt bleibt, sondern tatsächlich im journalis‐ tischen Alltag auch anwendbar ist. Statistiklehre an Universitäten und Hochschulen ist in der Regel allerdings stark auf den empirischen For‐ schungskontext eines spezifischen Faches ausgerichtet. Einzelne Schritte im Forschungsprozess werden über mehrere Semester in unterschiedlichen Veranstaltungsformen kennen gelernt und fachspezifisch trainiert. Von hier aus die Verbindungen zwischen einzelnen Arbeitsschritten herzustellen und dann den Transfer auf breite Themen aus unterschiedlichen Kontexten 12 1 Einleitung <?page no="13"?> zu vollbringen, ist keine einfache Aufgabe. Journalist: innen müssen aber oft eher als Generalist: innen fungieren und sich im Zweifel auch ohne den konkreten Fachhintergrund in die unterschiedlichsten Themengebiete eindenken, seien es beispielsweise Arbeitslosigkeit (Bereiche Soziologie und Wirtschaft), Verstehen und Einordnen von Wahlergebnissen (Politikwissen‐ schaft), Konjunkturdaten (Wirtschaftswissenschaft), die Veröffentlichung von Pisa-Ergebnissen (Bildungs- und Erziehungswissenschaften), die Vor‐ stellung neuer Medikamente (Medizin und Pharmazie), die Vorstellung eines neuen IPCC-Berichts (Klimawissenschaften), welcher wiederum Einfluss auf internationale Politik (Politikwissenschaft) und Weltwirtschaft (Wirt‐ schaftswissenschaft) haben kann, und so weiter … Für die Arbeit von Journalist: innen lassen sich im Großen und Ganzen drei mögliche Szenarien ausmachen, bei denen fundierte Statistikkenntnisse relevant sind. Diese sind für die Behandlung in diesem Lehrbuch zentral und werden mit ihren jeweiligen Anforderungen immer wieder thematisiert: 1. Journalist: innen benötigen im Zuge einer Recherche Daten, die aber bisher nicht erhoben sind und die sie entsprechend selbst oder in Zusammenarbeit mit einer Forschungseinrichtung oder einem Umfra‐ geinstitut erheben (müssen). 2. Journalist: innen arbeiten mit bereits existierenden Daten. Sie werden entweder mit Daten konfrontiert, die von Dritten erhoben und veröf‐ fentlicht worden sind, und müssen mit diesen arbeiten, Erkenntnisse daraus gewinnen und aufbereiten (z. B. von Regierung und Verwaltung erhobene Daten wie Bevölkerungsstatistiken, aber auch geleakte Da‐ ten). Oder aber sie recherchieren bereits erhobene Daten im Zuge einer Recherche (z. B. Open Government Data, investigative Datenrecher‐ chen). Gegebenenfalls müssen sie Daten aus unterschiedlichen Quellen zusammenführen, um daraus Aussagen zu generieren. 3. Journalist: innen werden mit Studien und Statistiken Dritter (Politik, Wissenschaft, Unternehmen/ PR, Interessensverbänden) konfrontiert bzw. stoßen auf diese im Zuge einer Recherche. Dann müssen sie die Forschung nachvollziehen können, die Qualität und Gültigkeit ein‐ schätzen und entscheiden, ob und wie eine Berichterstattung erfolgen soll. Die drei Szenarien werden in diesem Lehrbuch eine wichtige Rolle spielen, denn alle drei tragen dazu bei, den Kern des Journalismus zu erfüllen, den Bürger: innen relevante, unabhängige, akkurate und verständliche In‐ 13 1.1 Statistikkompetenz für Journalist: innen <?page no="14"?> formationen zu liefern. Damit leistet der Journalismus einen unersetzlichen Beitrag für die Demokratie. Denn in einer demokratischen Gesellschaft sind verlässliche Informationen als Grundlage für politische Diskussionen und Entscheidungen nicht erst seit dem Auftauchen des Begriffs Fake News unerlässlich. Guter Journalismus will dazu beitragen, dass sich Bürger: innen ein umfangreiches Bild von der Welt und ihren Vorgängen machen können, damit sie ihre Entscheidungen daran ausrichten und an den demokratischen und wirtschaftlichen Prozessen der Gesellschaft teilhaben können. Systematische Datenanalysen, die dabei helfen, die Komplexität der Welt zu verringern und in eine erfassbare Form zu bringen, können hier beitragen und Hilfe zur Entscheidungsfindung liefern. So lassen sich beispielsweise mithilfe von Wahrscheinlichkeiten und Aussagen über Unsicherheiten Sach‐ verhalte besser einschätzen. Auch im politischen Betrieb und in der Wirt‐ schaft werden ständig datenbasierte Entscheidungen getroffen und Schlüsse gezogen. Diese müssen von Journalist: innen auf Plausibilität geprüft werden können, wenn es darum geht, Unsicherheiten einzuschätzen oder Konse‐ quenzen abzuwägen. Journalist: innen tragen eine große Verantwortung dafür, die Öffentlichkeit beim Verständnis von Daten zu unterstützen. Diese ist sonst anfällig für politische und kommerzielle Manipulationen ihrer Ängste und Hoffnungen, die die Ziele der informierten Zustimmung und der gemeinsamen Entscheidungsfindung untergraben. An dieser Stelle aber gilt: Statistik ist, was man daraus macht. Weil Statistik mit Zahlen arbeitet und Mathematik seit der Schulzeit als Wahrheit verstanden wird mit klarem Richtig oder Falsch, wird häufig übersehen, dass es in der Statistik eigentlich um Wahrscheinlichkeiten und den Umgang mit Unsicherheit geht. Auch müssen sich Journalist: innen bewusst sein, dass die Darstellung von Zahlen und Daten immer eine gewisse Präzision und Genauigkeit suggeriert, die so aber nicht unbedingt gegeben ist, denn eine gewisse Unsicherheit liegt in der Regel den meisten statistischen Zahlen zugrunde. Wird dieser Aspekt verantwortungsvoll kommuniziert, kann ihre Berichterstattung diesbezüg‐ lich mehr Transparenz herstellen. Das Bewusstsein über die der Statistik zugrundeliegende Unsicherheit hilft darüber hinaus auch, einer gewissen Datenhörigkeit entgegenzuwirken, die im politischen Alltagsgeschäft regel‐ mäßig zu beobachten ist. Nur weil Daten und Statistiken einen vermeintlich zwingenden Schluss nahelegen, heißt das nicht, dass nicht auch alternative Perspektiven zumindest gründlich geprüft werden sollten. Um zum besseren Verständnis gesellschaftlicher, wirtschaftlicher, aber auch natürlicher bzw. naturwissenschaftlicher Sachverhalte beizutragen, 14 1 Einleitung <?page no="15"?> müssen Journalist: innen Studien und Statistiken aus vielen unterschiedli‐ chen Kontexten und Themengebieten verstehen. Sie müssen wissen, wann es angebracht ist, selbst Statistiken und Daten heranzuziehen, die Güte von Daten und Analysewegen einschätzen können, die Relevanz und Tragweite der gewonnenen Erkenntnisse abschätzen und das Ganze dann in eine für die Leser: innen, Hörer: innen und/ oder Zuschauer: innen erfassbare Form bringen. Letzteres wird dabei immer eine Gratwanderung sein, weil man sich als Journalist: in dabei nicht der Sprache bedienen kann, die Wissen‐ schaftler: innen an ihr Fachpublikum richten und weil notwendigerweise die Komplexität verringert werden muss. Journalist: innen müssen eine enorme Übersetzungsleistung vollbringen, um hier als verbindendes Glied zu fungieren. Die Herausforderung dabei ist, es trotzdem richtig zu machen. Je besser das Verständnis dessen ist, was statistisch passiert, desto leichter wird es auch sein, sorgfältige Berichterstattung gewährleisten zu können. Insbesondere bei der Arbeit unter Zeitdruck ist es wichtig, entsprechendes Werkzeug an der Hand zu haben und abrufen zu können, wenn es darum geht, statistische Prozesse nachvollziehen oder selbst durchführen zu kön‐ nen. Das Lehrbuch soll dabei helfen, dieses Werkzeug an die Hand zu bekommen, um angst- und frustfrei mit Daten und Statistiken arbeiten zu können. 1.2 Statistik als Argument Um sich ein grundlegendes Statistikverständnis anzueignen, das es für den sicheren Umgang mit Daten und Statistiken braucht, sollte man sich zu Beginn eines bewusst machen: Daten sprechen nicht für sich und sind nicht neutral. Wir erschließen uns die Welt über unterschiedliche Zugänge. Mithilfe von Statistik können große Mengen an Informationen zusammengefasst und vom Einzelfall abstrahierte Erkenntnisse ermöglicht werden. Diese aus einer Statistik gewonnenen Erkenntnisse sollten dabei als eine Form des Arguments verstanden werden. Als solches können sie auch entsprechend geprüft werden. Statistik als Argument zu verstehen, verhilft auch zu der Einsicht, dass das Anführen einer Statistik in der Regel einen Zweck verfolgt, nämlich als empirisches Argument eine bestimmte These über Zusammenhänge in der Welt zu stützen oder zu widerlegen. So wie an‐ dere Argumente - seien sie empirischer, normativer, evaluativer oder prag‐ matischer Art -, die als Begründung für eine zuvor formulierte Behauptung 15 1.2 Statistik als Argument <?page no="16"?> dienen, soll mit einer Statistik eine getroffene Annahme belegt oder eben widerlegt werden. Da könnten zum Beispiel für den Beleg der Wirksamkeit bestimmter arbeitspolitischer Maßnahmen gesunkene Arbeitslosenzahlen angeführt werden. Zu einem kritischen Umgang mit Statistik gehört es für Journalist: innen, solche Annahmen offen zu legen, zugrundeliegende Prämissen zu hinterfragen und das statistische Argument auf Qualität und Gültigkeit zu überprüfen, so wie auch jede andere Behauptung und die dafür angeführten Argumente auf Qualität und Gültigkeit hin überprüft werden würden. Interessant wird es da, wo dieselbe Statistik zu unterschiedlichen Schlüssen führt und in Debatten gegnerische Seiten zum Beispiel auf der Basis unterschiedlicher normativer Prämissen, konträre Interpretationen liefern. Dieser Ansatz widerspricht vielleicht erst einmal der Intuition. Wir ver‐ binden Statistik in erster Linie mit Zahlen und assoziieren Zahlen wiederum seit jeher mit Wahrheit, weil wir das im Mathematikunterricht so gelernt haben: 1 + 1 = 2. Da gibt es keine Diskussion. Und je komplexer die Formel, desto weniger angreifbar und gesetzmäßiger erscheint uns, was wir sehen. Dazu im Widerspruch stehen aber Redewendungen wie „Traue keiner Statistik, die du nicht selbst gefälscht hast“ oder der Mark Twain zugeschriebene Satz „There are three kinds of lies: lies, damned lies, and statistics.“ In solchen Aussprüchen liegt das grundlegende Missverständnis begründet, dass Statistik als Bereich der Mathematik deren spezifischen Wahrheitsanspruch teilt. Wird die Verbindung aber umgedreht und wird die eigentliche Mathematik als Teilbereich im statistischen Prozess verstanden, kann das den Blick erweitern. In diesem Sinne ist Statistik komplexer und die Mathematik das Hilfsmittel. Denn hinter den Zahlen der Statistik stehen immer menschliche Entscheidungen, die auf eine bestimmte Weise ausge‐ fallen sind, aber auch hätten anders getroffen werden können. Das Erzeugen von Daten ist eine menschliche Erfindung, um die Welt zu beschreiben und darzustellen. Dies kann mit strategischem und sogar manipulativem Hintergedanken passieren, keine Frage. Aber auch wenn dies nicht der Fall ist, Statistiken werden immer bewertet, eingeordnet, verglichen und interpretiert. Daher ist jede Statistik nur abhängig vom jeweiligen Kontext zu verstehen. Aber: Die Arbeit mit menschlich erzeugten Daten unterliegt auch der menschlichen Vernunft und dem menschlichen Vermögen zu prüfen und zu hinterfragen. Für Journalist: innen ergibt sich hieraus der Ansatz für den Umgang mit Statistiken aller Art. Sie können den Prozess 16 1 Einleitung <?page no="17"?> begleiten und offenlegen, wie Daten produziert, verwendet und ihnen gesellschaftlich Bedeutungen zugewiesen wird. 1.3 Statistik als fester Bestandteil des Rechercherepertoires Versteht man, dass Statistik Argumente liefert, um bestimmte Annahmen zu stützen, dann bedarf es der Prüfung dieser Argumente auf Gültigkeit, um sich nicht unreflektiert von ihnen abhängig zu machen. Gleichzeitig sind wir heute mehr denn je mit unbegründeten Behauptungen und sogar als vermeintliche Fakten präsentierten Falschinformationen („Fake News“) konfrontiert. Für Verifikationsprozesse und zur unabhängigen Prüfung von Behauptungen ist der kompetente Umgang mit Statistik ein wertvolles Mittel. Grundlegende Kenntnisse für den Umgang mit Daten und Statistiken sollten darum feste Bestandteile im Rechercherepertoire von allen Journa‐ list: innen (von Politik und Wirtschaft bis Kultur und Sport) darstellen, da sie alle früher oder später, aber wahrscheinlich sogar recht regelmäßig mit Daten und Statistiken konfrontiert sein werden. Ein fehlendes Grundver‐ ständnis wäre fast fahrlässig, denn ohne das entsprechende Wissen können journalistische Grundprinzipien wie Unabhängigkeit und Verifikation weniger zuverlässig gewährleistet werden. Das soll nicht heißen, dass jede und jeder nur noch und überall mit Statistik arbeiten muss. Das ist weder möglich noch nötig. Es geht vielmehr um die Einsicht, dass die sta‐ tistischen Methoden ein Teil im journalistischen Werkzeugkoffer sind und angewendet werden sollten, wenn es für die Recherche zielführend ist. Einen Sachverhalt von unterschiedlichen Blickwinkeln aus betrachten zu können, ist ein relevanter Aspekt zur Sicherung journalistischer Unabhängigkeit. Die statistischen Methoden sollten sich daher in die Reihe der möglichen Arbeitsweisen einordnen, die Journalist: innen nutzen, um zum Verständnis dessen beizutragen, was in der Welt passiert und warum. Um das Bild des journalistischen Werkzeugkoffers weiterzuführen: Für Journalist: innen aller Medientypen ist es ratsam, eine Reihe von Werkzeu‐ gen nutzen und sich zum Beispiel ganz unterschiedlicher Darstellungsfor‐ men bedienen zu können, um einem Thema flexibel und angemessen zu begegnen. In der journalistischen Ausbildung lernt man den Unterschied zwischen Bericht, Kommentar, Reportage, Feature, Glosse, Interview usw. 17 1.3 Statistik als fester Bestandteil des Rechercherepertoires <?page no="18"?> Dazu kommt die jeweilige technische und stilistische Umsetzung im Fern‐ sehen, Radio, Print oder Online-Bereich. Gerade Letzteres eröffnet noch einmal die Möglichkeit für neue und ganz unterschiedliche Formen der Aufarbeitung in der Kombination aus Video, Bild, Ton und Text. Statistik verläuft quer zu allen diesen Darstellungsformen, weil Statistiken theore‐ tisch überall relevant sein und einfließen können. Die Frage ist nur: wie? Ob als Hintergrundinformation, im Fließtext, als einfaches Diagramm, Infografik oder gar als interaktive Grafik - die Möglichkeiten sind vielfältig und sollten angemessen Verwendung finden. Was genau das heißen kann, soll sich im Laufe dieses Buches klären. 1.4 Der statistische Prozess Dieses Lehrbuch soll als Einstieg dienen. Es trägt hoffentlich dazu bei, dass der Umgang mit Statistik als ganz normaler Bestandteil der journalistischen Recherche angenommen wird. Gleichzeitig soll es auch Lust machen, sich mit dem Thema weiter zu befassen. Vielleicht hilft es dabei, eventuelle Ängste abzubauen, die während Schulzeit und Studium im Bereich Mathe‐ matik und Statistik angesammelt wurden. Damit das gelingt, wird es nicht immer möglich sein, soweit in die Tiefe zu gehen, dass auch ausgebildete Statistiker: innen keine weiteren Einwände mehr haben. Die Abwägung hier ist nötig, soll aber gleichzeitig damit ausgeglichen werden, dass es an vielen Stellen Hinweise zu weiterführenden Informationen oder vertiefender Lek‐ türe gibt. Mehr als die Herleitung einzelner Formeln steht in diesem Buch im Vordergrund, ein grundlegendes Verständnis für statistische Prozesse auf‐ zubauen. Komplexe Rechnungen führen heute Computerprogramme aus. Es ist aber durchaus nötig, nachvollziehen zu können, was da passiert und was wozu nützlich ist. Dazu jedoch muss auch der Rahmen etwas weiter geöffnet und der gesamte statistische Prozess als Mittel zum Lösen konkreter Probleme betrachtet werden, anstatt sich auf das reine Rechnen zu beschränken, was viele Leser: innen wahrscheinlich in erster Linie mit Sta‐ tistik verbinden. Denn Klarheit über den statistischen Prozess zu erlangen, ermöglicht größere journalistische Unabhängigkeit, weil an jeder Stelle des Prozesses die richtigen Fragen gestellt werden können. Da Journalist: innen mit Studien, Statistiken und Daten aus ganz unterschiedlichen Themenge‐ bieten, Fachrichtungen und Kontexten konfrontiert werden, ist es besonders 18 1 Einleitung <?page no="19"?> nützlich, sich mit den grundlegenden Prinzipien auseinanderzusetzen, die jeder statistischen Untersuchung zugrunde liegen, und anhand der einzel‐ nen Prozessschritte die Arbeit nachzuvollziehen. Das klingt auf den ersten Blick zunächst nach noch mehr Arbeit. Tatsäch‐ lich aber hilft die Strukturierung des Prozesses beispielsweise dabei, Fehler zu vermeiden bzw. wahlweise Fehler bei anderen aufzudecken. Damit lässt sich unterm Strich sogar Zeit sparen und die Arbeit insgesamt gründlicher und effektiver gestalten. Außerdem gibt die Prozessstruktur der Arbeit Sinn. Statt stupide nur auf Zahlen zu starren, werden diese in einen Kontext eingebunden. Wenn die Zahlen dabei dazu dienen, ein bestimmtes Problem zu lösen bzw. konkrete Antworten auf eine spezifische Frage zu liefern, dann macht das sowohl die Arbeit als auch das daraus entstehende Produkt spannender. Der Prozess wird hier kurz skizziert und dient dann der weiteren Strukturierung dieses Buches, das sich dadurch von vielen anderen reinen Statistikbüchern unterscheidet. Dafür ist es aber insofern hoffentlich nütz‐ licher, als dass es dann auch hilft, die weiterführende Statistik in diesen Rahmen einzuordnen. Das, was hier im Buch über den statistischen Prozess gelernt wird, ist breit anwendbar und gültig gleichermaßen auch für die wissenschaftliche Arbeit. Der statistische Prozess dient zum Lösen von Problemen und gliedert sich in fünf Phasen, die nicht zwangsläufig nacheinander, sondern ggf. auch überlappend oder in kleineren Zirkeln verlaufen können. Jeder dieser Schritte wird im Buch ausführlich behandelt und mit Beispielen aus der Medienpraxis veranschaulicht. Konkrete Lernziele sollen bei der Motivation helfen und aufzeigen, mit welchem Wissenszuwachs in jedem Kapitel zu rechnen ist. 19 1.4 Der statistische Prozess <?page no="20"?> Interpretation Schlussfolgerungen Konsequenzen neue Fragen Visualisierung (1) Problem (2) Plan (3) Daten (4) Analyse (5) Aufbereitung Problem verstehen und eingrenzen Reichweite und Relevanz abschätzen Datenbeschaffung/ -erhebung planen Studiendesign und Messinstrument Datenmanagement Erhebung Bereinigung Datenexploration Datenauswertung Hypothesen testen Abbildung 1 | Der statistische Prozess (eigene Darstellung nach Wild & Pfannkuch, 1999) Die Abbildung zeigt den Prozess in einer Kreisform. Tatsächlich ist es aber auch möglich, dass einzelne Sequenzen in der Praxis ineinander verschach‐ telt, nacheinander oder parallel verlaufen. Generell aber stellt der statistische Prozess eine lineare Struktur dar, die vom Problem bis zum abschließenden oder zumindest vorläufigen Fazit führt. 1. Problem Am Anfang jedes statistischen Prozesses steht ein Problem, das einer Lösung bzw. einer Antwort bedarf. Die Klärung, was eigentlich das Problem ist, hilft dabei zielgerichtet zu arbeiten und im Folgenden auch genau die Vorgehens‐ weise und schlussendlich die Informationen auszuwählen, die eine konkrete Antwort auf das Problem liefern. Je besser sich das Problem eingrenzen lässt, desto effektiver gestalten sich alle folgenden Schritte. Das heißt nicht, dass das Problem in der Praxis immer von Anfang an ganz klar ist. Manch ein Anfangsverdacht ist vielleicht noch etwas vage. Manchmal verändert neues Wissen aus der Recherche die konkrete Formulierung des Problems. 20 1 Einleitung <?page no="21"?> Es hilft aber, sich regelmäßig das Problem neu zu vergegenwärtigen und es ggf. zu konkretisieren. So lässt sich jeder folgende Schritt im Hinblick darauf reflektieren, ob er für die Beantwortung der eigentlichen Frage auch zielführend ist. Die Leser: innen … ■ lernen, welche Arten von Problemen am Anfang eines statistischen Prozesses stehen, ■ können die Relevanz und Reichweite eines statistischen Problems einschätzen, ■ können die Gültigkeit der Argumentation Dritter hinsichtlich eines formulierten Problems prüfen, ■ erkennen, wann ein statistisches Problem relevant für die journa‐ listische Arbeit ist, ■ können ein statistisches Problem spezifizieren, eingrenzen und mit dem Kontext unterfüttern, der zur Einordnung nötig ist, ■ können mögliche Szenarien für wahrscheinliche Antworten auf das statistische Problem entwickeln. 2. Plan Ist das Problem so gut wie möglich definiert, braucht es einen Plan, mit dessen Hilfe man das Problem lösen möchte. Es muss geklärt werden, welche Arten von Informationen benötigt werden, um fundierte Aussagen zu machen, und wie diese Informationen erhalten werden können. Gibt es vielleicht bereits verfügbare Daten, wenn ja, wie können sie beschafft werden und mit welchem Aufwand ist die Beschaffung verbunden? Handelt es sich vielleicht sogar um geheime Daten? Oder müssen Daten selbst erhoben werden? Wenn das der Fall ist, muss geklärt werden, welche Me‐ thode zur Erhebung benötigt wird, damit die gesammelten Daten auch zum Problem passen bzw. zur Lösung nützlich sind. Wie können die relevanten Aspekte gemessen werden? Wie muss die Erhebung durchgeführt werden (Stichwort Stichprobenziehung)? Wie wird mit den Daten umgegangen (Stichworte Lagerung, Datensicherheit und Datenschutz)? - All das sind wichtige Fragen, die während dieses Prozesses geklärt werden müssen. 21 1.4 Der statistische Prozess <?page no="22"?> Bei all diesen Überlegungen ist insbesondere der wiederholte Abgleich nötig, ob der entstehende Plan auch tatsächlich zum statistischen Problem passt. Das heißt: Führt dieser Plan dahin, eine Antwort für das Problem zu finden, und ist dabei zielstrebig und sparsam. Denn, je besser und konkreter der Plan ohne Umschweife auf die Beantwortung des Problems hinarbeitet, desto geringer ist die Gefahr, sich in Einzelheiten zu verlieren. Die Leser: innen … ■ lernen unterschiedliche Datenerhebungsmethoden und ihr jeweili‐ ges Einsatzgebiet kennen, ■ können die Durchführung einer Erhebung und Auswertung planen, ■ können Variablenarten unterscheiden, ■ lernen Strategien zur Operationalisierung von Konzepten, ■ lernen Grundprinzipien der Stichprobenziehung kennen, ■ sind in der Lage das Forschungsdesign in Studien Dritter zu über‐ prüfen und einzuschätzen. 3. Daten Der nächste Schritt ist die eigentliche Beschaffung bzw. Erhebung der Daten, die äußerst sorgfältig verlaufen muss. Fehler in den Daten ziehen sich durch und produzieren zweifelhafte oder sogar falsche Erkenntnisse. Bei schlech‐ ten Daten können auch die ausgefeiltesten Auswertungsmethoden nicht helfen. Werden Daten nicht selbst erhoben, sondern wird auf vorliegende Daten zurückgegriffen, muss in diesem Arbeitsschritt besonders Wert auf die Kontrolle, Datenbereinigung und Aufbereitung gelegt werden. Es ist zu prüfen, in welchem Format Daten vorliegen, wie sie geordnet sind und ob das den für die Problemlösung benötigten Anforderungen entspricht. Besonderes Augenmerk muss auf die Frage gelegt werden, ob die Daten tatsächlich das messen, was gemessen werden soll, oder ob beispielsweise Werte oder Fälle systematisch fehlen. 22 1 Einleitung <?page no="23"?> Die Leser: innen … ■ lernen, worauf im Einzelnen bei einer Datenerhebung zu achten ist, ■ kennen Methoden zur Recherche externer Datenquellen, die zur Beantwortung des Problems herangezogen werden können, ■ können die Qualität von extern erhobenen Daten einschätzen, ■ kennen Strategien zur Datenbereinigung und -aufbereitung, ■ lernen Möglichkeiten für das Datenmanagement kennen. 4. Analyse Diesen Teil verbinden die meisten mit dem Begriff Statistik, dabei ist er nur ein Teil im Prozess. Hier geht es um die tatsächliche Auswertung der erhobenen und bereinigten Daten im Hinblick auf das Problem, das es zu lösen gilt. Grundlegende Techniken der Auswertung werden in diesem Buch behandelt. Wichtig ist: Ist die Wahl der Auswertungsmethode plausibel und passt sie zu den Daten? Hier benötigt es selbstverständlich ein solides Grundwissen und einen Überblick über die Möglichkeiten, die es zur Aus‐ wertung bestimmter Daten gibt. Ziel des Buches ist es, diese Grundlagen zu schaffen. Die Leser: innen … ■ können mit den Begriffen „deskriptive Statistik“ und „Inferenzsta‐ tistik“ etwas anfangen, ■ kennen grundlegende Auswertungstechniken und wissen, wofür sie gut sind, ■ können die zur Beantwortung eines Problems konkrete Auswer‐ tungsmethode wählen, ■ können prüfen, ob in Studien Dritter die für das definierte Problem passende Auswertungsmethode gewählt wurde, ■ wissen, auf welche Bedingungen bei der Wahl spezifischer Auswer‐ tungsmethoden geachtet werden muss und können diese prüfen, ■ verstehen das Prinzip der „Signifikanz“ und können Konfidenzin‐ tervalle interpretieren und anwenden, 23 1.4 Der statistische Prozess <?page no="24"?> ■ können die Ergebnisse der Auswertungsmethoden selbst interpre‐ tieren bzw. die Interpretation der Ergebnisse in Studien Dritter prüfen und nachvollziehen. 5. Aufbereitung Daten sprechen nicht für sich allein. In der Regel braucht es eine Einordnung und Interpretation dessen, was erhoben und analysiert wurde. Das sollte mit klarem Bezug zum Problem geschehen: Was wird daraus für die Lösung des Problems gelernt? Welche Konsequenzen ergeben sich eventuell und gibt es Folgeprobleme? Ist etwas ungeklärt geblieben, wenn ja, warum und was wäre nötig, um die Leerstellen zu füllen? An dieser Stelle kann der Kreislauf gegebenenfalls von Neuem starten. Die Leser: innen … ■ können Ergebnisse interpretieren und Schlüsse mit Rückbezug auf ein Problem ziehen, ■ können die Reichweite und Relevanz der Ergebnisse abschätzen, ■ können Konsequenzen abschätzen, ■ erkennen offen gebliebene Fragen, die weitere Klärung benötigen, ■ können die von Dritten in Studien gezogenen Schlüsse kritisch betrachten und auf die Gültigkeit, Reichweite und Relevanz prüfen. Für die journalistische Arbeit ist es hiermit nicht getan. Es fehlt die eigent‐ liche journalistische Aufbereitung. Hierzu muss die Story gefunden und die Form definiert werden, in der diese publiziert werden soll, bzw. an die Form angepasst werden, die von Seiten der Redaktion vielleicht schon zu Beginn festgelegt worden ist. Zeit und Umfang des journalistischen Produkts sind in der Regel in irgendeiner Weise beschränkt. Entsprechend müssen zwangsläufig Informationen ausgewählt werden, die ein kohärentes Bild erschaffen. Es muss auf das ursprüngliche Problem Bezug genommen und eine Lösung angeboten werden. Die Darstellung der Statistik - ob im Text oder als Visualisierung - muss dabei in erster Linie korrekt sein. Selbstver‐ ständlich muss die Aufarbeitung aber auch zugänglich und verständlich sein, 24 1 Einleitung <?page no="25"?> sodass das Publikum für sich einen Mehrwert aus der Beschäftigung mit dieser ziehen kann. Die Leser: innen … ■ lernen Strategien kennen zur Storyentwicklung, ■ kennen grundlegende Regeln zur Visualisierung. Zu guter Letzt, bevor es richtig losgeht: Dieses Lehrbuch ist in erster Linie auf die journalistische Praxis ausgerichtet. Es werden auf allen Ebenen des statischen Prozesses solche Aspekte ausgewählt, die unmittelbar relevant sind zum Aufbau eines grundlegenden Statistikverständnisses. Damit kön‐ nen die Ausführungen durchaus auch für den Alltag von Nichtjournalist: in‐ nen nützlich sein, die das Zustandekommen von Berichterstattung und die Bedeutung von Statistiken besser verstehen wollen. Zwangsläufig werden bei einer solchen Konzentration auf breitere Zusammenhänge Aspekte zu kurz kommen, die für die wissenschaftliche Forschung grundlegend sind, zum Beispiel weitere Ausführungen zu Erkenntnis- oder Wissenschafts‐ theorie. Gleichzeitig liegen dem Konzept selbstverständlich Annahmen aus ebendiesen Bereichen zugrunde, beispielsweise dass sich eine objektive Realität als absolute Wahrheit nicht erfassen lässt. Man kann sich ihr aber annähern, indem Theorien über die Welt aufgestellt werden, aus denen sich Annahmen (Hypothesen) ableiten lassen, die mithilfe intersubjektiv nachvollziehbarer Schritte und Methoden systematisch überprüft und für brauchbar befunden werden können oder verworfen (falsifiziert) werden müssen. Solche abgelehnten Hypothesen können dann wiederum modifi‐ ziert und zur erneuten Prüfung nach dem Prinzip „Versuch und Irrtum“ herangezogen werden, was langfristig dazu dient, Wissen und Erkenntnis zu generieren. Diese Grundidee des hypothesengeleiteten Testens von Annahmen ist auch für den Journalismus relevant, was im Verlauf dieses Buches noch an mehreren Stellen eine Rolle spielen wird. 25 1.4 Der statistische Prozess <?page no="26"?> Exkurs | Geschichte des Datenjournalismus - Verhältnis Journalismus und (Sozial-)Wissenschaft Der Umgang mit und die Aufbereitung von Daten ist nichts Neues im Journalismus. Allerdings gehörte diese Arbeit lange überwiegend in das Feld von wenigen Spezialist: innen. Mit zunehmender Digitalisierung - sowohl der Gesellschaft als auch des Journalismus - wird datenge‐ stützte Arbeit immer wichtiger und rückt damit auch ins Zentrum des Berufs. Datengestützter Journalismus verfolgt dabei bereits seit seinen Ursprüngen eine wichtige Grundidee, nämlich demokratische Transparenz herzustellen und die Arbeit von Institutionen, Regierung und Verwaltung zu kontrollieren. Die Ursprünge der Arbeit mit Daten liegen im „computer-assisted reporting“ und der Idee des „precision journalism“, für den der US-amerikanische Journalist und späterer Journalismus-Professor an der Universität von North Carolina Philip Meyer bereits in den 1970er Jahren warb. Dabei handelt es sich um ei‐ nen Journalismus, der sich an den Sozialwissenschaften orientiert, em‐ pirische Methoden verwendet (insb. Befragung und Inhaltsanalysen) und Statistik nutzt, um Antworten auf journalistische Fragen zu finden. Diese Form des Journalismus hält Ende der 1980erJahre langsam Einzug in die Redaktionen, vornehmlich aber in investigativen Abteilungen. Mit Beginn der 2000er Jahre verliert diese Verbindung allerdings auch wieder an Bedeutung, weil durch die weitere Verbreitung von Com‐ putern und den Zugang zum Internet „computer-assisted reporting“ bzw. die computer-gestützte Recherche generell zum festen Bestandteil journalistischer Arbeit wird. Die Entwicklung verläuft weiter, bis der moderne Datenjournalismus entsteht. Dessen Kern liegt in der Beschaffung, Beschreibung, Veröffentlichung von Daten im Interesse der Öffentlichkeit. Er stellt eine Hybridform dar aus statistischen Ana‐ lysen, Informatik/ Computerwissenschaften (Programmierung), Visua‐ lisierung und Webdesign sowie Berichterstattung (Coddington, 2014). Das Interesse der Öffentlichkeit nimmt beim Datenjournalismus eine zentrale Rolle ein. Der heutige Datenjournalismus bezieht diese Öffent‐ lichkeit noch mehr ein, beispielsweise über Crowdsourcing-Projekte, bei denen Daten dem Publikum zur gemeinsamen Bearbeitung zur Verfügung gestellt werden, aber auch über die Veröffentlichung von Daten und Auswertungsmethoden, um dem Publikum Einsicht zu gewähren und Nachvollziehbarkeit zu gewährleisten. 26 1 Einleitung <?page no="27"?> 1.5 Hinweise zum Arbeiten mit diesem Buch Beim erstmaligen Gebrauch empfiehlt es sich, dieses Buch in der Reihenfolge der Kapitel von vorne nach hinten zu lesen. Der statistische Prozess wird als aufeinander aufbauend behandelt. Den gesamten Prozess mindestens einmal vollständig überblickt zu haben, sollte als Grundlage zum Aufbau der eigenen Datenkompetenz nützlich sein. Gleichzeitig ist dieses Buch als Einstieg gedacht, der eben genau das leisten soll: einen Überblick geben und grundlegende Datenkompetenz vermitteln. Viele Aspekte werden deshalb nicht in abschließender Tiefe behandelt werden können. Auch die technische Umsetzung wird nicht dargestellt, da der Gebrauch von Statistik-Software und Visualisierungstools in den Journalismuskursen der Hochschulen und Universitäten, aber auch der Redaktionen unterschiedlich ist und dieses Buch unabhängig von der Technik die Inhalte verständlich machen will. Während der praktischen Arbeit kann das Buch aber später auch als Handbuch dienen, mit dem es sich schnell Wissen auffrischen lässt. Zusätzlich zu den Grundlagen gibt es an vielen Stellen Exkurse, die gewisse Aspekte etwas genauer beleuchten, den Blick noch etwas weiter in die Praxis schweifen lassen oder einfach interessante Hintergrundinforma‐ tionen liefern sollen. Übersicht | Exkurse ■ Geschichte des Datenjournalismus - Verhältnis Journalismus und (Sozial-)Wissenschaft → S. 26 ■ Wissenschaftliche Publikationen → S. 44 ■ Umfrageinstitute → S. 45 ■ Wissenschaftliche Netzwerke → S. 52 ■ Induktion und Deduktion → S. 54 ■ Wie misst man … → S. 72 ■ Soziographie und Journalismus → S. 100 ■ Spektakuläre Fälschungen und wissenschaftliches Fehlverhalten → S. 134 ■ Big Data, Data Science, Data Mining → S. 158 ■ Inflation → S. 175 ■ Fragwürdige wissenschaftliche Praxis → S. 208 ■ Barrierefreiheit → S. 252 27 1.5 Hinweise zum Arbeiten mit diesem Buch <?page no="28"?> Darüber hinaus gibt es Medienbeispiele aus der jüngeren Vergangenheit, die in der Rubrik „Die Geschichte hinter der Statistik“ dargestellt werden. Dabei geht es weniger um das eigentliche Endprodukt als vielmehr um den Weg dahin. Auf Gesprächen mit den Journalist: innen basierend wird die Entstehungsgeschichte betrachtet, um die Arbeitsschritte im statistischen Prozess praxisnah zu illustrieren. Übersicht | Geschichten hinter der Statistik ■ Repräsentative Befragung → S. 38 ■ Überprüfung der Zahlen → S. 42 ■ Vergleich der Schneemengen → S. 61 ■ Berichterstattung über Geflüchtete → S. 94 ■ Textanalyse von Bundestagsdebatten → S. 96 ■ Datengestützte Corona-Berichterstattung → S. 144 ■ Mindestlohn im internationalen Vergleich → S. 153 ■ Falsche Meldungen über Corona → S. 245 Am Ende der Kapitel wird es jeweils sowohl eine Checkliste geben, mit der sich schnell die wichtigsten Punkte in Erinnerung gerufen werden können, als auch eine kommentierte Literaturliste, die Hinweise zum Weiterlesen und Vertiefen anbietet. Literatur Die folgenden Bücher sind kurzweilige, eher populärwissenschaftliche Werke, die sich für am Thema interessierte Leser: innen zum Einstieg ins Gebiet der Statistik eignen. Sie helfen vor allem dabei, das Verständnis von Statistik als bestimmte Disziplin des Denkens und Welterfassens zu entwickeln und den Blick für Statistik im Alltag zu schärfen: Magnello, E., & van Loon, B. (2013). Statistik. Infocomics. Überlingen, Mülheim an der Ruhr: TibiaPress Verlag GmbH. Rosling, H., Rönnlund, A. R., & Rosling, O. (2020). Factfulness: Wie wir lernen, die Welt so zu sehen, wie sie wirklich ist (H. Freundl, H.-P. Remmler & A. Schreiber, Trans.) (8. Auflage, ungekürzte Ausgabe). Berlin: Ullstein. 28 1 Einleitung <?page no="29"?> Spiegelhalter, D. J. (2019). The art of statistics: Learning from data. London: Pelican, an imprint of Penguin Books. Wheelan, C. J. (2014). Naked statistics: Stripping the dread from the data (1. publ. as a Norton paperback). New York: Norton. 29 Literatur <?page no="31"?> 2 Das Problem: (Richtige) Fragen stellen und eine Theorie entwickeln 2.1 Gesellschaftlich relevante Probleme Zur sorgfältigen Berichterstattung über Vorgänge in der Gesellschaft gehört es für Journalist: innen auch, Transparenz über Probleme herzustellen. Dabei müssen Probleme nicht automatisch Missstände sein. Ein Problem kann erstmal in der Feststellung begründet sein, dass etwas nicht ideal funktio‐ niert. Ein Prozess soll auf eine bestimmte Art und Weise verlaufen, sodass ein bestimmtes Ergebnis erzielt wird bzw. ein wünschenswerter Zustand erreicht wird. Was dabei als „wünschenswert“ erachtet wird, ist mindestens eine normative oder auch eine politische Frage. So kann es zum Beispiel aus wirtschaftlicher Sicht wünschenswert sein, einen Wald abzuholzen, aber aus Sicht des Naturschutzes nicht. Ein Problem in diesem Sinne kann also immer dann bestehen, wenn es etwa Entscheidungen zu treffen gilt oder zum Beispiel ein Interessenausgleich erfolgen muss. Wie eine Entscheidung ausfällt, hängt neben den Interessen allerdings auch von den verfügbaren Informationen zum Problem und den Optionen zur Lösung ab. Solche Probleme zu identifizieren, die von allgemeiner gesellschaftlicher Relevanz sind - die also zum Beispiel Entscheidungen betreffen, die zu‐ mindest breitere Teile der Bevölkerung angehen - ist ein grundlegender Anspruch eines Journalismus, der nicht nur Sprachrohr der Mächtigen sein will. Probleme identifizieren und benennen ist deshalb eine nicht zu unterschätzende Fähigkeit für Journalist: innen. Damit ist es aber in der Regel noch nicht getan: Journalist: innen wollen ihr Publikum meist auch mit den nötigen Informationen versorgen, die es zum Treffen mün‐ diger Entscheidungen braucht. Manchmal können mithilfe von Statistik die nötigen Informationen zur Lösung eines Problems geliefert werden. Gesellschaftliche Probleme identifizieren zu können und dann die nötigen Fähigkeiten zur Bearbeitung, sprich zur journalistischen Aufbereitung zu haben, sind daher zwei Seiten derselben Medaille. Entscheidungen werden auch tagtäglich im politischen und wirtschaftli‐ chen Kontext mithilfe von Statistik(en) getroffen. Erhobene Daten bilden <?page no="32"?> die Grundlage für Maßnahmen, die steuernd eingreifen und die Daten zukünftig verändern sollen (z. B. mehr Wirtschaftswachstum, geringere Arbeitslosenzahlen etc.). Um sowohl einem Watchdog-Anspruch als auch der Informationsvermittlungs- und Erklärfunktion des Journalismus gerecht zu werden, sollte Journalist: innen daran gelegen sein, diese Entscheidungen vollends nachvollziehen zu können. Dazu müssen sie in einem ersten Schritt verstehen können: Was wird von den Entscheider: innen als Problem ausgemacht? Und im Weiteren: Wie kommt die Datenbasis zustande, die eine Antwort auf das Problem geben soll? Aber auch jenseits der Watch‐ dog-Rolle und der Berichterstattung zu politischen Themen und Konflikten eröffnen sich für Journalist: innen ständig Probleme im Sinne von Rätseln oder Erkenntniswünschen. Dies gilt ebenso für Bereiche wie Sport oder Kultur, in denen beispielsweise Fragen über Trends in der Freizeit, im Sport, in der Gesellschaft aufkommen oder wo es um die Popularität bestimmter Phänomene gehen kann. Daraus wird schon ersichtlich: Der Begriff „Problem“ ist selbst nicht ganz unproblematisch, weil er im Alltagsgebrauch in der Regel negativ konnotiert und mit Schwierigkeiten verbunden ist, was irreführend sein kann. Zum besseren Verständnis hilft es, sich die unterschiedlichen Arten von möglichen Problemen vor Augen zu führen. Ein praktisches Problem, mit dem wir im Alltag konfrontiert sind, soll dadurch gelöst werden, dass gegen seine Ursache etwas Konkretes unternommen wird. Im echten Leben versuchen wir praktische Probleme eher zu vermeiden. „Ich brauche Geld, habe aber keins“ oder „Ich habe meinen Haustürschlüssel vergessen und komme nicht in meine Wohnung.“ - das sind ganz praktische Probleme, die es zu vermeiden gilt. Im wissenschaftlichen Sinne verweist der Problembegriff hingegen eher auf etwas Unbekanntes, vielleicht ein Rätsel, das noch nicht gelöst ist oder ein Phänomen, das nicht geklärt ist und das dann ggf. zu Schwierigkeiten führen kann, wenn es unbekannt bleibt. Die Lösung eines solchen theore‐ tischen Problems besteht in erster Linie im Zugewinn von Wissen und Verständnis, z. B. über mögliche Ursachen. Anders als bei der Vermeidung von Alltagsproblemen sucht die Wissenschaft sogar nach ungeklärten Problemen, zu deren Lösung/ Klärung sie beitragen kann. Das statistische Problem nimmt gewissermaßen einen Zwischenpart zwischen dem praktischen und dem theoretischen ein. Die Frage „Warum habe ich kein Geld? “ beispielsweise kann einen statistischen Prozess zur Be‐ antwortung nach sich ziehen und vielleicht bei der Lösung des praktischen 32 2 Das Problem: (Richtige) Fragen stellen und eine Theorie entwickeln <?page no="33"?> Problems helfen oder zumindest statt der alleinigen Sicht auf die individuelle Problemlage die gesellschaftliche Dimension des Problems vor Augen füh‐ ren. Allgemeiner formuliert: Es geht bei der Lösung des Problems mithilfe von Statistik oft darum, theoretisches Wissen über Zusammenhänge herzu‐ stellen, aus dem dann praktische Konsequenzen zur Veränderung ebendieser Statistik entstehen. Ein kurzes fiktives Beispiel: Eine Kommune möchte eine möglichst hohe vergleichbare Qualität all ihrer Schulen sicherstellen, weil es ein Problem ist, wenn die Schulen sich in der Qualität stark unterscheiden. Eine Bildungsstatistik erhebt darum die Leistungen von Schulen, z. B. anhand von Abschlussnoten. Zusätzlich werden eine Reihe unterschiedli‐ cher Faktoren erfasst, die möglicherweise Einfluss auf die Abschlussnoten haben können, z. B. Klassengrößen, Anzahl der Schulabgänger: innen in früheren Jahrgängen, Unterrichtsausfall usw. Aus dieser Statistik geht nun vielleicht hervor, dass an Schulen mit weniger Unterrichtsausfall bessere Leistungen erbracht werden. Aus dieser statistischen Erkenntnis könnte bei entsprechendem politischen Willen die Konsequenz folgen, Maßnahmen zu beschließen, die Unterrichtsausfall eindämmen in der Hoffnung, dass die Statistik sich verändert und bessere Leistungen aufzeigt. Zu prüfen und kritisch zu begleiten, warum welche Konsequenzen aus Daten gezogen werden und welche Maßnahmen aufgrund datenbasierter Erkenntnisse getroffen werden, kann wiederum ebenfalls Aufgabe von Journalismus sein. Entsprechend können Journalist: innen auch beobachten bzw. kontrollieren, welche unbeabsichtigten Nebenfolgen zahlengetrieben, kennzifferngesteuerte Maßnahmen haben. Zur Datenkompetenz gehört in diesem Sinne dann eben auch, Datenkritik zu üben und reduktionistischen Statistik-Gebrauch zu hinterfragen. Ziel dieses Kapitels ist die eingehende Beschäftigung mit der Frage der „Probleme“ im statistischen Prozess. Die nächsten Seiten sollen für die folgenden Punkte Klarheit schaffen und damit eine gute Grundlage für die weiteren Schritte im Prozess legen. Am Ende des Kapitels sollen die Leser: innen daher ■ Probleme identifizieren können, die mithilfe des statistischen Prozesses bearbeitet werden können, ■ Unterschiedliche Arten von Problemen kennen, ■ Probleme mit Kontext anreichern können, ■ Vermutungen über mögliche Zusammenhänge und Antworten anstel‐ len. 33 2.1 Gesellschaftlich relevante Probleme <?page no="34"?> Vor dem Einstieg lohnt es, sich noch einmal die drei Szenarien zum Ver‐ hältnis von Journalist: innen und Statistik(en) ins Gedächtnis zu rufen. Diese haben jeweils unterschiedliche Implikationen dafür, wie an das „Problem“-Thema herangegangen werden muss. Vielleicht bekommt eine Journalistin ein Thema zur Bearbeitung auf den Schreibtisch oder stößt selbst auf ein Thema. Dann muss sie selbst das Problem ausmachen und entscheiden, ob es zur Lösung des Problems statistische Mittel benötigt. Oder aber sie wird mit Studien oder Forschungsberichten Dritter konfrontiert und muss erkennen, von wem eigentlich was genau als Problem ausge‐ macht wird und ob sich die Relevanz und Reichweite der Erkenntnisse für eine Berichterstattung lohnen. Schließlich kann die Journalistin mit einem frisch veröffentlichten Datensatz konfrontiert sein und soll daraus „etwas machen“. Auch dann lohnt es sich, zuerst Klarheit darüber zu schaffen, für die Lösung welcher Probleme dieser Datensatz herangezogen werden kann. So oder so, am Anfang steht das Problem, das identifiziert werden muss. Die folgenden Seiten sollen dazu Hilfestellung leisten. 2.2 Unterschiedliche Problemarten Es gibt weitere Möglichkeiten, Probleme nach ihrer Art einzuteilen. Insbe‐ sondere für statistische Probleme ist die Unterscheidung von deskriptiven, kausalen und prädiktiven Problemen nützlich. Bei deskriptiven Proble‐ men muss zunächst Klarheit darüber geschaffen werden, wie der Stand der Dinge ist, um diese zu beschreiben. „Unterscheiden sich Ostdeutsche und Westdeutsche in ihrem Demokratieverständnis? “ ist eine deskriptive Frage, genauso wie „Wie stark unterscheiden sie sich? “ (siehe unten Beispiel-Box „Die Geschichte hinter der Statistik“). Kausale Probleme fragen auch nach der Ursache für ein bestimmtes Problem - „Wenn ja, warum unterscheiden sie sich? “. Eine dritte Form sind die prädiktiven (= vorhersagenden) Probleme, also solche Fragen, die vorausschauen wollen und auf Erkennt‐ nisse abzielen, was zukünftig erwartet werden kann. Wann, beispielsweise, erreicht die Welt im Rahmen des Klimawandels einen globalen Temperatur‐ anstieg von 2 Grad Celsius, wenn nichts an aktuellen Formen des Lebens und Wirtschaftens geändert wird? Zwei weitere Formen von Problemen sollen hier nicht unterschlagen werden: Maßnahmen- und Werteprobleme. Diese sind meist nur indirekt für den statistischen Prozess relevant. Sie können aber im journalistischen 34 2 Das Problem: (Richtige) Fragen stellen und eine Theorie entwickeln <?page no="35"?> Kontext durchaus wichtig sein oder sich aus einem statistischen Prozess ergeben. Maßnahmenprobleme lassen sich mit der Frage zusammenfas‐ sen: „Was soll man tun? “ Werteprobleme zielen auf die Frage: „Ist das so richtig? “ Beide Arten der Probleme können sich nach der Beantwortung eines statistischen Problems ergeben. Nach der Klärung der Frage, warum Schüler: innen an bestimmten Schulen bessere Abschlussnoten erreichen, könnte sich die Frage anschließen, ob sich Maßnahmen finden, die eine allgemeine Verbesserung an allen Schulen ermöglichen. Zeigen die Ergeb‐ nisse für diese zweite Frage, dass die Schulen mit weniger Unterrichtsausfall bessere Leistungen vollbringen, kann vielleicht durch mehr Personal oder neue Betreuungskonzepte geholfen werden. Stellt die Untersuchung fest, dass die besseren Noten in den Schuleinzugsgebieten geschrieben werden, in denen gutverdienende Akademiker: innen-Milieus angesiedelt sind, ist es mit der Frage der Maßnahmen schon deutlich komplexer. Auch Werte‐ probleme sind naturgemäß nicht einfach zu lösen, da es hier noch viel stärker auf die normative Grundlage ankommt, von der aus das Problem betrachtet wird. Manager verdienen ein Vielfaches ihrer Belegschaft - ist das so richtig? Je nachdem, wie und von welchem Standpunkt aus man diese Frage beantwortet, wird entsprechend mehr oder weniger Handlungsbedarf ausgemacht. 2.3 Probleme formulieren zur Prozessstrukturierung Am Anfang eines jeden statistischen Prozesses steht ein Problem, für das eine Antwort bzw. eine Lösung gesucht wird. Bereits den allerersten statistischen Bestrebungen ging ein Problem voraus. Die ältesten bekannten Volkszählungen in Babylon, dem alten Ägypten oder im chinesischen Altertum wollten Fragen klären wie: Wie viele junge Männer stehen als Rekruten für die Streitkräfte zur Verfügung? Oder: mit wie vielen Steuern können die Herrschenden rechnen? Probleme können alle erdenklichen Lebensbereiche betreffen von Politik und Gesellschaft, Wirtschaft (Märkte, Unternehmen, Arbeitswelt, Konsum) über Medizin und Gesundheit zu Natur, Umwelt, Verkehr aber auch Sport und selbst Kultur und Geschichte. Überall können Probleme auftauchen, deren Beantwortung mehr bedarf als ein Bauchgefühl und vor allem: mehr als die Betrachtung eines Einzelfalls. Dieser eine Fall könnte nämlich auch ganz anders aussehen und schon würden vielleicht andere Schlüsse 35 2.3 Probleme formulieren zur Prozessstrukturierung <?page no="36"?> gezogen werden. Am Anfang des statistischen Prozesses steht daher die Einsicht, dass für ein vorliegendes Problem die persönliche Erfahrung oder anekdotische Hinweise nicht ausreichen, um ein Gesamtbild zu erfassen und um Erklärungen dafür zu liefern, warum eine Sache so ist und nicht anders - oder auch warum die Sache in einem Fall so, aber in dem anderen Fall anders ist. Die Suche nach der Antwort auf ein Problem zielt in der Regel darauf ab, eine Entscheidung treffen zu können, die eine Lösung des Problems nach sich zieht. Die Frage etwa „Warum verdienen Frauen und Männer unterschiedlich? “ interessiert Leute vermutlich vor allem dann, wenn sie ungleiche Bezahlung als problematisch wahrnehmen und Lösungen suchen, das bestehende System zu ändern. So zielen die meisten statistischen Prozesse darauf ab, einen bestimmten Zustand mithilfe der gewonnenen Erkenntnisse über Zusammenhänge gegebenenfalls zu verändern. Dazu muss man aber auch verstehen, wie groß das Problem eigentlich ist. Im Fall des Beispiels also, wie groß die Lohnlücke zwischen Männern und Frauen tatsächlich ist. Doch selbst dann, wenn vor allem das Bedürfnis zugrunde liegt, etwas in ganzer Tiefe zu verstehen, erwartet man im Grunde, dass dieses Verständnis auf lange Sicht praktische Vorteile mit sich bringt. Bei der Definition eines Problems geht es darum, explizit Klarheit darüber zu schaffen, was von einer daraus folgenden Untersuchung gelernt werden soll oder welchen Beitrag die Arbeit mit Daten für eine bestimmte Recherche leisten soll. Es muss deutlich gemacht werden, worauf genau eine Antwort zu erwarten ist. Diesen Gedanken später auch im journalistischen Beitrag transparent zu machen, kann für den Rezeptionsprozess des Publikums durchaus nützlich sein. Es ist davon auszugehen, dass auch Teile des Publi‐ kums gewisse Vorbehalte haben, sobald sie Zahlen und Grafiken entdecken. Vielleicht erfordert das Verständnis auch eine gewisse kognitive Leistung, die man aufbringen muss. Dazu sind Leser: innen und Zuschauer: innen eher bereit, wenn schnell deutlich wird, welcher Zugewinn an Informationen und Wissen zu erwarten ist. Vielleicht betrifft das Problem auch Teile des Publikums und sie können einen praktischen Erkenntnisgewinn erwarten? Das Problem ist mithin der Anstoß für alles Folgende. Durch die Formu‐ lierung eines Problems bekommen die folgenden Arbeitsschritte Bedeutung. So wird Lernen über einen Sachverhalt ermöglicht. Das Problem grenzt den Sachverhalt, um des es gehen soll, erstmals ein. Eine klare Vorstellung vom Problem erlaubt es, zielgerichtet Informationen zu sammeln und diese auch mit ihrem Kontext und mit bekannten Informationen zusammen zu bringen, um daraus neue Informationen zu generieren. Alle Daten, die im weiteren 36 2 Das Problem: (Richtige) Fragen stellen und eine Theorie entwickeln <?page no="37"?> Prozess erhoben werden, bekommen erst Sinn durch ihren Kontext, der von Beginn an abgesteckt werden sollte. Gerade wenn Journalist: innen es schaffen, diese Verbindung zwischen einem Problem und seinem Kontext gut herzustellen, werden sie die Aufgabe als Vermittler: innen zwischen Daten und Publikum gut umsetzen können. 2.4 Probleme erkennen Zwar steht am Anfang jedes statistischen Prozesses ein Problem, das es zu lösen gilt, aber nicht jedes Problem bedarf der Statistik zur Lösung. Die Frage ist, wann Statistik ein adäquates Mittel zur Lösung ist oder zumindest dazu beitragen kann. Dies können beispielsweise Probleme sein, die unbekannte Aspekte betreffen, die im Puzzle zur Erklärung bestimmter Phänomene in der Welt fehlen. Sollen Lücken gefüllt und Erkenntnisse gewonnen werden, die Gültigkeit über den Einzelfall hinaus besitzen, handelt es sich wahrscheinlich um ein Problem, das mit Hilfe von Statistik gelöst werden kann. Zugrunde liegt dabei das Interesse daran, wie etwas funktioniert oder warum etwas der Fall ist. Vielleicht lassen sich Variationen erkennen, also Unterschiede, und dass etwas einmal die eine Form und manchmal eine andere annimmt. Ausschlaggebend für den Beginn eines statistischen Prozesses kann das das Interesse sein, die Gründe dafür zu ermitteln. Zum Beispiel: Es gibt Schulen, an denen erbringen die Schüler: innen bessere Leistungen und Schulen mit weniger guten Leistungen. Warum ist das so? Frauen und Männer verdienen unterschiedlich. Warum ist das so? Ein Medikament wirkt bei der einen Patient: innengruppe, bei der anderen aber nicht. Warum ist das so? Der Bus der Linie 248 kommt immer zu spät. Warum ist das so? Manchmal kann auch ein vermeintlicher Widerspruch ausschlaggebend für ein Problem sein: Obwohl diverse Maßnahmen einge‐ leitet worden sind, verbessert sich eine Situation nicht. Warum ist das so? Was wurde übersehen, das auch ausschlaggebend sein könnte? Es bedarf einer gewissen Neugier darauf, Dinge zu verstehen und ihnen auf den Grund gehen zu wollen, um sich solche Fragen zu stellen. Den meis‐ ten Journalist: innen kann mit Sicherheit genau solche Neugier unterstellt werden, was eine gute Voraussetzung ist für alles weitere, was sich daraus ergibt. Auch eine gewisse kritische bzw. skeptische Natur hilft Probleme zu erkennen. Basiert eine Behauptung, mit der die Journalistin oder der 37 2.4 Probleme erkennen <?page no="38"?> Journalist konfrontiert wird, auf einem Gefühl oder lässt sich das Behaup‐ tete belegen. „Ist das wirklich so? “ ist eine Frage, die im journalistischen Hinterkopf immer präsent sein sollte. „Ostdeutsche sind unzufrieden und demokratieverdrossen.“ - Dies sind verbreitete Vorurteile, aber: ist das tatsächlich so? Und wenn ja, warum? Genau diesen Fragen gingen zwei Journalisten der ZEIT in ihrem Artikel zum Tag der deutschen Einheit 2019 nach (siehe Textbox). Das Ergebnis ist ein gutes Beispiel, wie durch die beiden einfachen Fragen „Ist das so? “ und „Warum ist das so? “ ein Problem ausgemacht wurde, das einen statistischen Prozess nach sich zog, um eine Lösung zu präsentieren. Das erkannte Problem beruht erstmal auf einer wahrgenommenen gesellschaftlichen Stimmung. Es nimmt sich ein Vorurteil vor, hinterfragt es und begibt sich auf die Suche nach Erklärungen. Ein weiterer wichtiger Aspekt kommt bei diesem Beispiel hinzu: Hat sich das Problem (Unzufriedenheit und Demokratieverdrossenheit bei ostdeutschen Bürger: innen) über die Zeit verändert? Weil bereits aus einer früheren Studie Daten vorlagen, konnten die beiden Journalisten den Vergleich ziehen und das Problem auf diese Weise noch umfänglicher betrachten. Die Geschichte hinter der Statistik | Repräsentative Befragung Heinrich Wefing: „Die Idee zum Artikel entstand im Zuge der Überle‐ gungen für die Ausgabe der ZEIT zum 30. Jahrestag des Mauerfalls. Für die Serie ‚Erklär mir den Osten‘ wurde über viele Sitzungen hinweg geplant, wie man mit unterschiedlichen Ansätzen an das Thema herangehen kann - u. a. eben auch mit den Zahlen von Demoskopen. Schon zum 10. Jahrestag hatte DIE ZEIT eine repräsentative Befragung von Menschen in Ostdeutschland durchführen lassen. Jetzt haben wir die Chance gesehen, auch Verläufe in der Zeit vergleichen zu können. Der damalige Leiter der Studie und heutige Geschäftsführer des Instituts Policy Matters, Richard Hilmer, konnte auch für diese neue Erhebung gewonnen werden. In mehreren Telefonschalten haben wir mit ihm besprochen, welche Fragen aus der früheren Befragung übernommen und welche Fragen neu aufgenommen werden sollten mit Blick auf aktuelle Entwicklungen. Das ging über mehrere Wochen 38 2 Das Problem: (Richtige) Fragen stellen und eine Theorie entwickeln <?page no="39"?> vor und zurück, in denen Hilmer die Fragen hinsichtlich unserer Vorstellungen weiter konkretisierte. Am Ende hatten wir einen zeit‐ gemäßen und originellen Fragebogen, mit dem das Institut dann die repräsentative Befragung starten konnte. Nach der Erhebungsphase bekamen wir die Rohdaten sowie eine detaillierte Aufbereitung der Ergebnisse. Aus der sehr feinen Aufglie‐ derung der Daten ergaben sich einige überraschende Erkenntnisse für uns, die wir wiederum in mehreren Telefonaten auch mit Hilmer diskutierten. Schlussendlich haben wir dann die Auswahl getroffen, welche As‐ pekte der Ergebnisse abgedruckt werden sollen. Für unseren Artikel haben wir Hilmer dann auch noch mal interviewt. Die Infografik zum Text wurde in unserer hauseigenen Grafikabteilung aufbereitet.“ Martin Machowecz, Henrich Wefing, Doreen Borsutzki (Illustration): „Jetzt hört mal zu“, Die ZEIT No. 41, 2.10.2019. Dr. Heinrich Wefing ist Ressortleiter Politik bei der ZEIT. Zusammen mit Martin Macho‐ wecz und Doreen Borsutzki (Infografik) hat er Daten zum 30. Jahres‐ tag des Mauerfalls zusammengestellt. https: / / www.zeit.de/ 2019/ 41/ mau‐ erfall-deutsche-wiedervereinigung-ostdeutschland-skepsis? utm_referrer =https%3A%2F%2Fduckduckgo.com%2F (letzter Zugriff: 16.7.2021) Die Ergebnisse der repräsentativen Befragung von 1029 Menschen aus den fünf ostdeutschen Bundesländern wurden sowohl mit einer ganzseitigen Infografik visualisiert als auch in einem ebenfalls ganzseitigen Artikel erklärt und eingeordnet. Mithilfe der Visualisierung wird die Antwort auf die Ausgangsfrage - Wie zufrieden sind die Menschen in Ostdeutschland mit der Demokratie? - sofort erkennbar: 52 % geben an, weniger oder gar nicht zufrieden mit der Demokratie in Deutschland zu sein. Im Text wer‐ den umfangreiche Erklärungen und damit Antworten auf das statistische Problem geliefert. So scheint nicht die aktuelle wirtschaftliche Situation der Einzelnen (die überwiegend gut eingeschätzt wird) ausschlaggebend für das Urteil über den Zustand der Demokratie zu sein, sondern die Einschätzungen über soziale Ungerechtigkeit, Wahrnehmung staatlicher Willkür sowie Meinungsfreiheit. Ganz besonders aber scheint ein Gefühl des Nichtgesehen-werdens die Stimmung im Osten zu bestimmen: Laut Studie sind 70 % der Befragten der Meinung, dass zu wenig auf die Meinung von Menschen in Ostdeutschland Rücksicht genommen werden; über 50 % sagen, 39 2.4 Probleme erkennen <?page no="40"?> dass Ostdeutsche zu wenig in gesellschaftlichen Führungsrollen vertreten sind. Eine große Mehrheit von 80 % findet zudem, dass ihre Leistung seit der Wiedervereinigung nicht ausreichend wertgeschätzt wurde. 2.5 Quellenkritik Bekommt man als Journalist: in eine wissenschaftliche Studie, einen For‐ schungsbericht oder auch nur die Pressemitteilung zu veröffentlichten For‐ schungsergebnissen auf dem Schreibtisch, muss entschieden werden, ob sich darüber eine Berichterstattung ergeben soll. Bei der Entscheidungsfindung lohnt es sich, gezielt danach zu schauen, ob explizit ein Problem benannt wird, auf das die Studie eine Antwort geben will. Dieses Problem und seine Lösung können gute Anhaltspunkte für einen späteren Aufhänger liefern. Gleichzeitig sollte auch geprüft werden, wer hinter der Studie steht. Quellenkritik ist ein zentraler Aspekt für die Einschätzung der Güte einer Studie und von erhobenen Daten. Ganz wertfrei ist zunächst festzuhalten, dass jedes Problem eng verbunden ist mit denjenigen, die das Problem iden‐ tifizieren und zur Grundlage einer Untersuchung machen. Die zu klärende Frage muss danach sein, ob sich aus dieser Verbindung auch Interessen ergeben. Handelt es sich um staatliche Organisationen und wenn ja, wie unabhän‐ gig sind diese? Staatliche Universitäten in Deutschland sind als Körperschaf‐ ten öffentlichen Rechts erst einmal autonom und haben Forschungsfreiheit, was nicht heißt, dass der Journalismus ihnen als staatliche Institution nicht ebenfalls kritisch gegenübertreten kann. Selten ist Forschung tatsächlich unabhängig, da die meisten Forschenden auf Förder- und Drittmittel als Finanzierung ihrer Arbeit angewiesen sind. Auch kann an Universitäten natürlich Auftragsforschung erfolgen. Gute Studien stellen Transparenz darüber her, ob und wenn ja von wem und für welche Leistung Gelder erhalten wurden. Basiert eine vorliegende Studie auf solchen Drittmitteln, gehört zur Quellenkritik, auch den entsprechenden Geldgeber auf Seriosität und Interessen zu überprüfen. Oder handelt es sich beim Verfasser der Studie direkt um eine private Organisation, die kommerzielle Interessen verfolgt? Und wenn ja, liegen die kommerziellen Interessen in der Veröffentlichung der Daten oder soll beispielsweise ein Konsumbedürfnis erzeugt werden? Die Feststellung, dass ein bestimmter Typ Laufschuh beispielsweise zu mehr Gelenkproblemen führt als ein anderer, ist in einer Untersuchung 40 2 Das Problem: (Richtige) Fragen stellen und eine Theorie entwickeln <?page no="41"?> 1 Malte Kreuzfeldt: Lungenarzt mit Rechenschwäche, 13.2.2019, https: / / taz.de/ Falsche-A ngaben-zu-Stickoxid/ ! 5572843/ (letzter Zugriff: 16.7.2021) der Stiftung Warentest anders zu bewerten, als käme die Erkenntnis vom Laufschuhhersteller des zweiten Typs, der sein Produkt damit bewerben will. Sind Autor: innen von Studien namentlich bekannt, schadet es auch nicht, eine direkte Personenrecherche anzustellen. Wieviel Expertise im betroffenen Wissenschaftsbereich der Studie kann bereits vorgewiesen wer‐ den? Welches Renommee hat die Person in der Forschungsgemeinschaft? Hinweise darauf geben zum Beispiel Zitationsindizes oder auch die Mitglied‐ schaft in Gremien der Fachgemeinschaft. Wie wichtig eine solche gründliche Personenrecherche sein kann, zeigte ein in den Medien viel beachtetes Beispiel Anfang 2019. Nachdem ein deutscher Lungenarzt in einer von 112 weiteren Lungenärzten unterschrie‐ benen Stellungnahme die Übertriebenheit von Feinstaubgrenzwerten an‐ prangerte, entbrannte eine gesellschaftliche Debatte über die Sinnhaftigkeit solcher Grenzwerte. Die Wissenschaftlichkeit der Aussagen des Arztes blieb zunächst unhinterfragt. Bis der Redakteur Malte Kreuzfeldt durch Nachrechnen bei seiner Recherche für einen taz-Artikel 1 herausfand, dass der Arzt zum einen mit falschen Grenzwerten gearbeitet hatte und ihm zum anderen auch noch erhebliche Rechenfehler unterlaufen sind, hatten die falschen Aussagen bereits tagelang die Schlagzeilen bestimmt. Dabei hätten auch andere Medienvertreter: innen durch etwas ausführlichere Personen‐ recherchen skeptisch werden können. Ein Blick in die wissenschaftlichen Publikationen des Arztes hätte wohl schon Hinweise darauf liefern können, dass er mitnichten der Spezialist ist, für den er sich ausgegeben hat. Auch liegt die Beurteilung solcher Umwelteinflüsse wie Feinstaub im Fachgebiet der Epidemiologen, die bereits früh in der Debatte die Seriosität der Ausfüh‐ rungen des Lungenarztes anzweifelten. 41 2.5 Quellenkritik <?page no="42"?> 2 https: / / taz.de/ Diskussion-um-Stickoxid-Grenzwerte/ ! 5565421/ (letzter Zugriff: 16.7.2021) Die Geschichte hinter der Statistik | Überprüfung der Zahlen Anfang 2019 sorgte der Lungenarzt Dieter Köhler im Zuge der politi‐ schen Diskussion um Dieselfahrverbote mit einer Stellungnahme für Aufsehen, in der er argumentierte, dass die aktuellen Grenzwerte für Feinstaub und Stickoxide viel zu streng angelegt seien. Laut seiner Berechnung würden Raucher: innen innerhalb weniger Monate bereits mehr dieser Schadstoffe aufnehmen als jemand, der/ die sein Leben an einer vielbefahrenen Straße verbringt. Nachdem unter anderem der damalige Bundesverkehrsminister Andreas Scheuer diese auch von etwa 100 weiteren Lungenärzt: innen unterzeichnete Stellungnahme zum Anlass genommen hatte, die aktuellen Grenzwerte überprüfen lassen zu wollen, bekamen die Stellungnahme sowie ihr Verfasser viel mediale Aufmerksamkeit. Malte Kreutzfeldt begleitete die Debatte als Redakteur für Wirtschaft und Umwelt bei der taz. Kurz nach Erscheinen der Stellungnahme veröffentlichte er bereits einen Artikel, in dem er die Qualifikation Köhlers kritisch hinterfragte und seine Aussagen den aktuellen offi‐ ziellen Positionen der zuständigen medizinischen Fachgesellschaft (Deutsche Gesellschaft für Pneumologie und Beatmungsmedizin - DGP) gegenüberstellte. 2 Bemerkenswert war vor allem, dass von den rund 3.800 angefragten Mitgliedern der Fachgesellschaft nur ein sehr kleiner Teil die Initiative Köhlers überhaupt unterstützt hatte. Offensichtlich handelte es sich bei den Thesen Köhlers um eine Minderheitenmeinung in den entsprechenden Fachkreisen. Ein weiteres Ergebnis der Quellenkritik: Köhler hatte in dem spezifischen Fachbereich, zu dem er jetzt öffentlich Stellung bezog, nie selbst geforscht oder publiziert. Seine gesamte Argumentation wurde von Vertreter: innen des Fachs auch als unzulässig und nicht schlüssig eingestuft. Dies allein hätte laut Kreutzfeldt bereits reichen müssen, dem Debat‐ tenbeitrag die Seriosität abzusprechen. Nach einem Hinweis durch einen Leser auf bereits in früheren Publikationen Köhlers gefundene Unstimmigkeiten, griff Kreutzfeldt das Thema erneut auf und begann 42 2 Das Problem: (Richtige) Fragen stellen und eine Theorie entwickeln <?page no="43"?> nach Rücksprache mit seiner Redaktion die konkret von Köhler genutzten Zahlen zu überprüfen. Weil die Stellungnahme bis dahin schon durch so viele Hände gegangen war - eben auch durch die anderer Expert: innen im Feld - hatte er die Grundlage bis dahin gar nicht angezweifelt. Mit dem Blick auf die Zahlen aber fielen mehrere Fehler schnell auf, sowohl in Bezug auf zugrundeliegende Angaben von Grenzwerten als auch auf Berechnungen selbst. Während die eigentliche Recherchearbeit zu den nötigen Kennwerten nicht ungewöhnlich viel Aufwand bedurfte, gestaltete sich die Kom‐ munikation in Bezug auf Rückfragen und Klärung mit dem Urheber der Stellungnahme mühselig und schlussendlich wenig zielführend. Nach mehrtägiger gründlicher Recherche und Rücksprache mit Kol‐ leg: innen zur Prüfung der Ergebnisse, veröffentlichte Kreutzfeldt schließlich und erhielt selbst viel Aufmerksamkeit. Die Debatte um die Überprüfung der Grenzwerte war anschließend schnell vom Tisch, obwohl sie es auch ohne die fehlerhaften Zahlen schon hätte sein müssen - wie Kreutzfeldt mit Nachdruck mehrfach auch in Folgearti‐ keln betonte. Die fehlende Expertise Köhlers, der mangelnde Rückhalt aus der eigenen Fachgesellschaft sowie die seriösen Einschätzungen ausgewiesener Expert: innen zur ungültigen Argumentation der Stel‐ lungnahme hätten bereits zum Ende der Diskussion und medialen Auf‐ merksamkeit führen müssen. Im Kontext einer aufgeheizten Debatte konnte dies jedoch offenbar erst der Nachweis falscher Berechnungen herbeiführen. Malte Kreutzfeldt: „Lungenarzt mit Rechenschwäche“, taz, 13.2.2019. https: / / taz.de/ Falsche-Angaben-zu-Stickoxid/ ! 5572843/ (letzter Zugriff: 16.7.2021) Zugegebenermaßen ist die Einschätzung nicht immer einfach vorzunehmen, ob es sich bei Stimmen wie diesen um eine unseriöse Außenseitermeinung innerhalb eines Fachgebietes handelt oder vielleicht doch um berechtigte und interessante Minderheitenmeinungen. Für Journalist: innen, die den Wissenschaftsbetrieb nur von außen beurteilen können, wird es daher immer eine Gratwanderung sein, einerseits nicht Scharlatanen aufzusitzen, andererseits aber auch kritisch gegenüber herrschenden bzw. vermeintlich herrschenden Lehren zu bleiben. 43 2.5 Quellenkritik <?page no="44"?> Exkurs | Wissenschaftliche Publikationen Wie und wo eine Studie veröffentlicht worden ist, sagt bereits einiges über ihre Qualität aus. Qualitativ hochwertige Forschung durchläuft vor ihrer Veröffentlichung bereits einen Prozess, der der Qualitätssi‐ cherung dienen soll. Das Peer-Review-Verfahren ist ein zentrales Prinzip wissenschaftlicher Publikationsprozesse. Dabei werden Manu‐ skripte von in der Regel zwei bis drei Fachleuten auf dem Gebiet der Studie begutachtet und bewertet. Oft ist dieses Verfahren „dou‐ ble-blind“, d. h. dass weder die Autor: innen erfahren, wer die Gutach‐ ter: innen sind, noch umgekehrt. Bei angesehenen Fachzeitschriften ist dieses Verfahren Standard, aber auch manche Sammelbände greifen darauf zurück. Ob dies bei einem Sammelband der Fall ist, lässt sich aus dem Vorwort oder der Einleitung herauslesen. Fachzeitschriften erwähnen in ihrer Selbstbeschreibung an prominenter Stelle, ob sie dem double-blind Review-Verfahren folgen. Das Peer-Review-Verfahren ist allerdings nicht unumstritten. Es nimmt viel Zeit in Anspruch. Aktuelle Forschung kann über Monate in Begut‐ achtung und Bearbeitungsschleifen sein, bis sie endlich erscheint. Auch ist die Unabhängigkeit von Reviewer: innen nicht immer zweifelsfrei anzunehmen. Entspricht ein Manuskript nicht den Vorstellungen eines bestimmten Reviewers (bzw. einer im Forschungsfeld vorherrschenden Lehrmeinung), hat dieser viel Gewicht, die Publikation zu verhindern. Auch darum gibt es Bewegungen, die dem double-blind Review-Verfah‐ ren andere Möglichkeiten zur Qualitätssicherungen entgegenstellen. Herausgeber: innen-Kreise, die den Entscheidungsprozess transparen‐ ter machen wollen, sind eine Möglichkeit. „Pre-registration“ von Stu‐ dien, die bereits vor ihrer Anfertigung begutachtet und im Fall einer Annahme unabhängig von den Ergebnissen veröffentlicht werden, ist eine andere. Diese Vorgehensweise verhindert, dass Ergebnisse, die nicht die theoretischen Annahmen bestätigen, es nicht bis zur Veröffentlichung schaffen. Wichtig ist in jedem Fall zu prüfen, ob eine vermeintlich wissen‐ schaftliche Studie von unterschiedlichen Leuten einer Fachgesellschaft begutachtet worden ist. Bei unveröffentlichten oder privat veröffent‐ lichten Manuskripten ist genauso Vorsicht geboten, wie bei manch einem Online-Journal, hinter dem ein „Raubverlag“ (engl.: predatory journals) steht, der wissenschaftliche Studien gegen (hohe) Gebühren 44 2 Das Problem: (Richtige) Fragen stellen und eine Theorie entwickeln <?page no="45"?> und ohne Qualitätssicherung veröffentlicht. Solche Verlage arbeiten heute hoch professionell und sind deshalb nicht immer gleich als solche zu erkennen. Zur Einschätzung der Qualität und Reichweite einer wissenschaftli‐ chen Fachzeitschrift helfen sogenannte Journal Rankings, die unter‐ schiedliche Faktoren wie Zitationshäufigkeiten heranziehen, um eine Zeitschrift nach ihrer Wirkung bzw. ihrem Einfluss in der Fachgemein‐ schaft zu bewerten. Ein bekanntes internationales Journal Ranking findet sich bei SJR - Scimago Journal & Country Rank (https: / / www.s cimagojr.com/ ). Exkurs | Umfrageinstitute Die Arbeit von Umfrageinstituten spielt heutzutage eine wichtige Rolle. Sie betreiben Meinungsforschung (Demoskopie) und wollen be‐ stimmte Aspekte der öffentlichen Meinung (Einstellungen, Stimmun‐ gen, Wünsche der Bevölkerung) darstellen. Dies ist zu unterscheiden von der Marktforschung (Ökoskopie), mithilfe derer Aussagen über Konsumverhalten, Konsument: innen-Strukturen oder Umsätze und Marktentwicklungen gemacht werden. Die wichtigsten Umfrageinstitute in Deutschland sind: Institut für Demoskopie Allensbach, Emnid, Forsa, Forschungsgruppe Wahlen, GMS, Infratest dimap und INSA. Diese erheben im Auftrag beispiels‐ weise für Medien oder Parteien aktuelle Wählertrends wie die klas‐ sische „Sonntagsfrage“. So verbinden wir infratest dimap eng mit dem ARD-Deutschlandtrend, die Forschungsgruppe Wahlen mit dem ZDF-Politibarometer. Forsa erhebt Daten u. a. im Auftrag der Fernseh‐ sender RTL und n-tv. Die Frankfurter Allgemeine Zeitung bezieht sich klassischerweise auf das Institut für Demoskopie Allensbach. Die Ergebnisse der Umfrageinstitute unterscheiden sich üblicherweise um einige wenige Prozentpunkte. Das liegt vor allem am Prinzip der Stichprobenziehung, auf das im nächsten Kapitel noch eingegangen wird. Darüber hinaus hat jedes Umfrageinstitut eigene „Rezepte“, was den Umgang mit systematischen Verzerrungen angeht. So ist bekannt, dass junge berufstätige Eltern für Umfragen schwieriger zu erreichen sind, d. h., dass zum Beispiel die Antworten von Personen dieser 45 2.5 Quellenkritik <?page no="46"?> Gruppe stärker gewichtet werden könnten, um die Unterrepräsentanz auszugleichen. Der Ausdruck „könnten“ ist hier mit Bedacht gewählt, denn tatsächlich lassen sich die Umfrageinstitute nicht in die Karten schauen und machen aus Wettbewerbsgründen selten transparent, wel‐ che Art von Gewichtungen und Datenbereinigungen sie vornehmen. Einen fortlaufenden Vergleich der Ergebnisse zur Sonntagsfrage der großen Umfrageinstitute findet sich hier: http: / / www.wahlrecht.de/ u mfragen/ index.htm (letzter Zugriff: 19.7.2021). Eine problematische Entwicklung im Bereich der Bevölkerungsumfra‐ gen zeichnet sich seit einiger Zeit ab. Es ist ein vermehrtes Aufkommen von pseudo-wissenschaftlichen Umfrageinstituten zu beobachten, die Echtzeit-Erhebungen online versprechen, aber sehr undurchsichtig ar‐ beiten und sich nicht an allgemeine Richtlinien der Umfrageforschung halten. Unter dem Vorwand, ihre Betriebsgeheimnisse nicht zu verra‐ ten, machen diese teils sehr professionell wirkenden Unternehmen keine ausreichenden Angaben zu ihrem methodischen Vorgehen, so‐ dass für Außenstehende die Qualität kaum einzuschätzen ist. Auch wenn versichert wird, dass die Umfragen repräsentativ sind, sollte dies sehr kritisch hinterfragt werden. Das größte Problem bei vielen Unternehmen, die ihre Umfragen nun online durchführen, ist, dass sich die Umfrageteilnehmer: innen selbst rekrutieren und es keine klassische Zufallsauswahl gibt. Bei der Arbeit mit von Dritten veröffentlichten Daten gilt es, sich darüber schlau zu machen, welche Institution oder Organisation hinter der Veröf‐ fentlichung steht und wieviel Expertise und Zuverlässigkeit diese auf dem entsprechenden Gebiet vorweisen kann. Ist die grundlegende Vertrauens‐ würdigkeit der Quelle geklärt, sollte sich zunächst beim Blick auf die Daten bewusst gemacht werden, was diejenigen, die die Daten erhoben haben, als Problem identifiziert und als Anlass für die Datenerhebung genutzt haben. Zum Beispiel bei einer Schulstatistik: Vielleicht will das Bildungsministerium wissen, wie der Stand der Dinge ist und wo und warum an manchen Stellen Nachholbedarf besteht. Oder denken wir an den Zensus: Der Staat hat ein Interesse daran, einen Überblick darüber zu haben, wer ihm alles angehört (z. B., um Politik daran auszurichten: ganz platt gesagt, werden eher Altenheime oder Kitas benötigt? ). Das heißt nicht automatisch, dass man als Journalist: in sich eben genau dieses Problems annehmen muss. Es ist auch möglich, eigene entwickelte 46 2 Das Problem: (Richtige) Fragen stellen und eine Theorie entwickeln <?page no="47"?> Probleme an fertige Datensätze heranzutragen. Um solche Probleme zu identifizieren, muss man sich mit dem Datensatz vertraut machen. An dieser Stelle löst sich der lineare Prozess etwas auf, denn es kann nötig sein, erste Analyseschritte vorzuziehen. Dabei helfen erste explorative Fragen an den Datensatz, um überhaupt ein Problem zu identifizieren, das sich für weitere Überlegungen und eine Berichterstattung lohnt. Fragen, die man an einen vorliegenden Datensatz in diesem Stadium richtet, sollten sinnvoll sein und mit dem Datensatz beantwortbar. Dafür muss man sich zwangsläufig bereits damit vertraut machen, welche Variablen mit welchen Ausprägungen der Datensatz enthält. (Hinweis: Das Thema Variablen und welche Arten davon es gibt, wird im nächsten Kapitel behandelt. Entsprechend kann es bei fehlender Erfahrung nützlich sein, sich damit zuerst zu befassen sowie mit grundlegenden Auswertungsmöglichkeiten, um dann hierher zurück‐ zukehren und sich dann der Aufgabe der konkreten Problemfindung und -formulierung zu stellen.) Mögliche Fragen, die an einen Datensatz gestellt werden können, um diesen zu erschließen, sind beispielsweise: ■ Fragen zu einem Individuum (Wer ist der Größte? Welches Land ist das reichste? ), ■ Fragen nach Fällen in einer bestimmten Kategorie (z. B. Wie viele Leute wählen eine bestimmte Partei? ), ■ Fragen nach den Fällen, die sich innerhalb einer bestimmten Spannweite befinden (Wie viele Leute verdienen zwischen 35.000 und 45.000 Euro im Jahr? ), ■ Fragen danach, was am beliebtesten oder am weitesten verbreitet ist (Welches Verkehrsmittel nehmen die Leute am liebsten auf dem Weg zur Arbeit? ), ■ Fragen nach dem Typischen (Wie kommen die meisten Kinder zur Schule? ), ■ Fragen nach der Verteilung, von der Rückschlüsse auf Grundgesamtheit gezogen werden können (Welche Meinungen liegen in der Gesamtbe‐ völkerung vor? ). Bei diesem Arbeitsschritt mit einem unbekannten Datensatz ist es wichtig, den Blick darauf zu richten, neue Aspekte hervorzubringen oder vermeint‐ liches Wissen zu hinterfragen. Welchen Zugewinn an Information und Wissen können die Daten liefern? Und vor allem: Zu welchem Problem liefern mir die Daten eine Antwort? Es gilt also das Jeopardy-Prinzip: Die 47 2.5 Quellenkritik <?page no="48"?> Antworten liegen vor, nun müssen die passenden Fragen dazu gefunden werden. Dazu kann auch der Blick darauf gerichtet werden, was bei der Erkundung der Daten vielleicht als überraschend aufgefallen ist. Gibt es beispielsweise mehr oder weniger Variation bei bestimmten Variablen als man es intuitiv angenommen hätte. Gibt es Fälle, die „aus der Reihe tanzen“ - also bestimmte Extreme darstellen? Mit solchen Ansätzen lassen sich die weiteren Schritte zur Formulierung des Problems angehen. 2.6 Relevanz und Reichweite von Problemen einschätzen Die Prüfung der Relevanz einer Information ist für Journalist: innen ihr täglich Brot. Informationen müssen eine Neuigkeit beinhalten und von Bedeutung sein, um als Nachricht Wert zu haben. Sich bereits zu Beginn einer Recherche über die Relevanz der Idee im Klaren zu sein, erspart im Zweifel auch Arbeit und erhöht die Publikationswahrscheinlichkeit. Insbesondere bei statistischen Problemen können gezielte Fragen helfen, die Relevanz des Problems einzuschätzen und damit auch, ob sich die Arbeit lohnt, den weiteren statistischen Prozess in Gang zu setzen. Handelt es sich beispielsweise um einen aktuell in der Gesellschaft diskutierten Themen‐ komplex, in dem das Problem angesiedelt ist? Ist es also anschlussfähig an aktuelle gesellschaftliche Debatten (z. B. Klimawandel)? Auch das Gegenteil kann aber hoch relevant sein: Handelt es sich um einen von der Gesellschaft bisher eher übersehenen Bereich, der aber eigentlich beachtet werden sollte - etwa, weil er viele Leute betrifft? So oder so kann es hilfreich sein, für sich selbst eine gute Antwort auf die Frage nach dem „Na und? “ zu haben. Kann man darauf eine überzeugende Antwort geben, die deutlich macht, welche Kosten oder sogar welches Risiko mit Nichtwissen verbunden ist, nähern wir uns dem relevanten Problem. Nicht zu wissen, wie deutsche Schüler: innen im internationalen Vergleich abschneiden, birgt - so gerne die Argumenta‐ tion - langfristige wirtschaftliche Risiken für Deutschland im Wettbewerb der Bildungsgesellschaften. Nicht zu wissen, unter welchen Risikogruppen bestimmte Krankheiten auftreten können, erschwert Behandlungen und birgt die Gefahr hoher Kosten für die Gesundheitskassen, wenn nicht durch Prävention gegengesteuert wird. Ist das „Na und? “ ausreichend geklärt, warten die nächsten Fragen: Wie spezifisch oder kleinteilig ist das Problem? Stochern wir noch im Nebel oder ist bis auf ein letztes Puzzleteil schon alles bekannt? Meistens wird es 48 2 Das Problem: (Richtige) Fragen stellen und eine Theorie entwickeln <?page no="49"?> etwas dazwischen sein. Aber gerade dann ist es wichtig, sich darüber klar zu werden, wie groß das Unwissen eigentlich ist bzw. was genau noch unklar ist. Fehlt es an Einblick darüber, wie genau der Stand der Dinge ist (wie sind Meinungen verteilt; wieviel Schnee fällt im Schwarzwald)? Dann sollte man sich immer auch fragen, warum es denn wichtig wäre zu wissen, wie bestimmte Merkmale verteilt sind (Meinungen/ Ereignisse/ Phänomene). Welche Schlüsse ließen sich ziehen, welche Konsequenzen kann es haben? Wären beispielsweise bei bestimmten Ergebnissen politische Maßnahmen nötiger als bei anderen? Geht es nicht nur um die Verteilung von Merkmalen, sondern werden sogar Erklärungen gesucht für ein bestimmtes Ereignis (z. B., warum schneiden deutsche Schüler: innen bei Pisa schlechter ab)? Als Daumenregel kann wohl gelten: Je besser und stärker die Erklärungen für ein Phänomen sind, desto relevanter sind am Ende auch die Ergebnisse. Vielen Erklärungen liegen dabei fundierte Beschreibungen zugrunde. Wir müssen wissen, wie etwas genau ist, bevor wir nach dem Warum fragen können. Für die Abschätzung der Relevanz eines Problems ist darum aber in erster Linie wichtig: Ist das Potential da, das Beschriebene auch erklären zu können? Erklärungen sind dann wiederum häufig die Grundlage für Konsequenzen, die aus Ergebnissen gezogen werden. Entsprechend ist es besonders wichtig, Erklärungen und Alternativerklärungen sorgfältig zu prüfen, um auch die Folgerichtigkeit von Entscheidungen einschätzen zu können. Gerade zum Beispiel bei Untersuchungen wie einer groß angelegten PISA-Vergleichs‐ studie, die für politische Entscheider: innen als Grundlage für Eingriffe ins Bildungssystem dient und damit potenziell Einfluss auf tausende Indi‐ viduen haben kann, ist es für die journalistische Begleitung wichtig, den angenommenen und angebotenen Erklärungen besondere Aufmerksamkeit zu schenken. Die Reichweite eines Problems spielt bei der Einschätzung der Relevanz ebenfalls eine wichtige Rolle. Wen betrifft das Problem eigentlich, über wen oder was genau sollen Aussagen getroffen werden? Geht es z. B. um alle in Deutschland lebenden Jugendlichen, um alle Unternehmen eines bestimmten Produktionszweigs oder um alle Länder mit Küsten, die vom Klimawandel bedroht sind? Dies zielt auf die klassische Frage nach der Grundgesamtheit (target population), über die man sich an dieser Stelle des Prozesses bereits erste Gedanken machen sollte. Die Grundgesamtheit setzt sich zusammen aus den einzelnen Merkmalsträgern, auch Elementen genannt. Das können Personen, aber auch Länder, Gegenstände, Medienin‐ 49 2.6 Relevanz und Reichweite von Problemen einschätzen <?page no="50"?> halte, Ereignisse und vieles mehr sein. Die Elemente der Grundgesamtheit sind durch mindestens ein zentrales Merkmal verbunden, das ausschlag‐ gebend sein muss für die Zugehörigkeit zu ihr. Bei Personen könnte es das Kriterium der Wahlberechtigung sein oder die Zugehörigkeit zu einer Altersgruppe oder der Wohnsitz in einem bestimmten Gebiet. Dieses eine ausschlaggebende Kriterium steht in engem Zusammenhang mit dem Pro‐ blem, das es zu lösen gilt, weil es zum Beispiel genau die Objekte mit den entsprechenden Merkmalen betrifft. Die Anzahl aller Merkmalsträger bzw. Elemente der Grundgesamtheit wird mit einem großen N gekennzeichnet Die Bestimmung der Anzahl erfolgt über die Definition eben jener Merk‐ male, die für unsere Untersuchung relevant sind. Zum Beispiel: N = 64,5 Millionen Wahlberechtigte zur Europawahl 2019 in Deutschland - hier sind gleich vier Kriterien ausschlaggebend: Wahlberechtigung, die Wahl, das Jahr und das Land. Aus dieser Definition ergibt sich die Reichweite des Problems. Bei der Bestimmung der Grundgesamtheit sollte man sich auch bereits über die Untersuchungsebene klar werden. In der Regel wird zwischen Individual- und Kollektivebene unterschieden. Auf der Individualebene sind die Informationen/ Merkmale einzelner Individuen interessant (wie oben können dies Personen, aber auch Ereignisse, Objekte etc. sein). Ein Beispiel wäre die PISA-Untersuchung: Die Betrachtung der einzelnen Leistungen deutscher Schüler: innen erfolgt auf der Individualebene. Vergleicht man die Gesamtheit der deutschen Schüler: innen mit den Schüler: innen anderer Länder, bewegt man sich auf der Kollektivebene. Es interessieren dann aggregierte Merkmale im Vergleich. Mehrebenenuntersuchungen, die beide Ebenen miteinander verbinden, sind ebenfalls möglich, bedürfen aber deut‐ lich fortgeschrittener Analysetechniken. Aus der Bestimmung der Grundgesamtheit lässt sich im Folgenden bereits auch die Wahl des Untersuchungsdesigns und insbesondere der Erhebungsmethode ableiten. So banal es klingt: Gegenstände lassen sich beispielsweise schlecht befragen. Bei der Untersuchung von Personen kom‐ men wir hingegen mit der Inhaltsanalyse sicher nicht weit. Auf die Passung von Untersuchungseinheiten und Wahl der Erhebungsmethode wird daher im nächsten Kapitel noch weiter eingegangen. Ebenso wie auf das Problem, dass in der Regel nicht alle Untersuchungsobjekte einer Grundgesamtheit tatsächlich einzeln untersucht werden können, sondern dass eine Auswahl getroffen werden muss: Die so genannte Stichprobe (study population) als Gesamtheit der Untersuchungseinheiten (study units), die als einzelne Fälle das Grundgerüst der Untersuchung bilden. Mit den Erkenntnissen, 50 2 Das Problem: (Richtige) Fragen stellen und eine Theorie entwickeln <?page no="51"?> die aus der Auswertung der Fälle gezogen werden, können anschließend Aussagen über die Grundgesamtheit gemacht werden. Diese Planung der Stichprobenziehung ist ein zentraler Aspekt des nächsten Arbeitsschritts und wird im folgenden Kapitel betrachtet. Die Reichweite hat auch eine zeitliche Komponente. So sind Meinungs‐ umfragen Momentaufnahmen und abhängig von einem bestimmten zeitli‐ chen Kontext. Von diesen Ergebnissen zum Untersuchungszeitpunkt kön‐ nen keine Schlüsse auf eine allgemein gültige Regel gezogen werden, was an sich eher der Anspruch wissenschaftlicher Studien ist. Den Zeitbezug gilt es daher genau zu prüfen, wenn es um die Einschätzung der Relevanz einer vorliegenden Studie geht: Wie allgemeingültig wird der Rahmen gesetzt? In welchem zeitlichen (historischen) und räumlichen Kontext wird das Problem eingeordnet? 2.7 Das Problem mit Kontextwissen füttern Konkretisiert sich das Problem, muss es für die weitere Bearbeitung durch Kontextwissen gefüttert werden, um dieses wiederum Schritt für Schritt in statistisches Wissen umzuwandeln. Dazu ist es nötig, das Problem in seinen Facetten zu erfassen. So wird der Grad der bisherigen Unwissen‐ heit bestimmt, aber auch erste Überlegungen zu möglichen Erklärungen, Ursachen und Mechanismen angestellt. Wir müssen danach fragen, wie ein System zusammenhängt, um uns klar zu werden, welche Arten von Informationen nötig sind, um sich dem Problem zu nähern. In der Wissen‐ schaft wird ein erheblicher Teil der Arbeitszeit auf diesen Schritt verwendet. Wochenlange Literaturrecherche und Lektüre zur möglichst vollständigen Erfassung eines Forschungsstandes sind natürlich im Journalismus nicht möglich. Es müssen also Abkürzungen gefunden werden. Trotzdem muss selbstverständlich eine gründliche Recherche gewährleistet werden. Eine Möglichkeit wäre es, jemanden zu fragen, der sich auskennt und vielleicht diesen Schritt der intensiven Lektüre schon vollzogen hat, weil die Person in dem Bereich forscht. Eine andere Möglichkeit ist die eigene kurzgehaltene Literaturrecherche. Über Google Scholar lässt sich recht schnell erfassen, wie breit erforscht ein Thema ist (z. B. über die Anzahl der Treffer), aber auch was der aktuelle Stand ist, lässt man sich beispielsweise nur die Publikationen des letzten Jahres anzeigen. Forschung baut aufeinander auf. Aus den Theorieteilen der aktuellen Studien lässt sich der Forschungsstand 51 2.7 Das Problem mit Kontextwissen füttern <?page no="52"?> in der Regel gut ablesen. Auch weitere Ansprechpartner: innen können auf diese Weise gefunden werden. Forschung ist ein fortlaufender Prozess. Die Lösung eines Problems offenbart in der Regel neue Probleme. Wissen wird auf früherer Erkenntnis aufgebaut und greift auf diese zurück, baut sie aus oder verwirft sie. Darum ist es wichtig zu verstehen: Wo kommt eine Studie her, worauf bezieht sie sich (z. B. welche Forschungstraditionen bzw. bestimmte Disziplinen innerhalb eines Faches gibt es, worauf bezieht sich eine bestimmte Studie, wovon grenzt sie sich ggf. auch ab? ). Exkurs | Wissenschaftliche Netzwerke Wissenschaft lebt von der Zusammenarbeit. Entsprechend vernetzen sich Wissenschaftler: innen untereinander, um zusammen zu arbeiten und um über den aktuellen Stand der Forschung in ihrem Gebiet auf dem Laufenden zu bleiben. Zunehmend beliebt sind speziell für Forscher: innen zugeschnittene soziale Netzwerke wie beispielsweise Google Scholar oder Research Gate. Hier präsentieren Wissenschaft‐ ler: innen ihre vergangenen und aktuellen Projekte, listen ihre Publika‐ tionen auf und teilen manchmal auch Vorabdrucke oder unveröffent‐ lichte Working Paper. Gerade durch die Netzwerkfunktion kann es auch für Journalist: innen interessant sein, sich auf diesen Seiten für Personen- und Themenrecherchen zu bewegen. Insbesondere wenn man regelmäßig einen bestimmten Bereich abdeckt, kann es hilfreich sein, sich im Netzwerk von Wissenschaftler: innen des dazu passenden Forschungsbereichs zu bewegen. Gleichzeitig eine gewisse kritische Distanz zu solchen Netzwerken zu bewahren, sollte für Journalist: innen trotzdem wichtig bleiben. Sie soll‐ ten den Blick dafür nicht verlieren, dass es auch in wissenschaftlichen Netzwerken zu Konformismus kommen kann, der es (berechtigten) Gegenbewegungen und alternativen Ansätzen schwer macht, Gehör zu finden. Der Gruppendruck in wissenschaftlichen Netzwerken sei daher nicht unterschätzt, gerade dann, wenn man vielleicht auch auf der Suche nach kritischen Einschätzungen zu aktuellen Entwicklungen in einem Bereich ist. 52 2 Das Problem: (Richtige) Fragen stellen und eine Theorie entwickeln <?page no="53"?> Im Idealfall hilft das Gespräch mit Expert: innen oder die Recherche voraus‐ gegangener Studien schon dabei, erste Vermutungen über die konkrete Ausgestaltung eines identifizierten Problems anzustellen. Welche Bedingun‐ gen müssen zum Beispiel in Betracht gezogen werden, die das Problem beeinflussen könnten? Welche möglichen Zusammenhänge sind denkbar (und wenn warum)? Hier ist eine gewisse Offenheit nötig. Keinesfalls sollte man erste Ideen haben und sich dann genau die Informationen zusammensuchen, die diese Vermutung stützen. Wie man mit fundierten Vermutungen arbeitet, behandelt der nächste Abschnitt. Wissenschaftler: innen entwickeln eine Theorie zu den möglichen Zu‐ sammenhängen und vermutlichen Erklärungen. Liegt einem als Journalist: in eine Studie oder ein Forschungsbericht vor, sollte der theoretische Unterbau auf Plausibilität und Kohärenz geprüft werden. Wird für das zu bearbeitende Problem tatsächlich nützliches Kontextwissen geliefert? Die Einordnung des Problems in eine Theorie gibt erneut Hinweise auf die Relevanz der Forschung insgesamt: Hat die Lösung des Problems das Potential bahnbre‐ chend in einem Forschungsgebiet zu sein? Oder trägt sie zumindest dazu bei, einen Ausschnitt der Wirklichkeit ein Stück besser zu verstehen? Die Daten dienen später als Beweise für die Theorie. Lässt diese sich halten und liefern Theorie und Daten eine zusammenhängende Erklärung für das dargestellte Problem? Unterstützen die Daten die Theorie nicht, muss die Theorie verändert werden (es gibt aber auch die Möglichkeit, dass die Theo‐ rie eigentlich gut ist, aber das Messinstrument und die Daten fehlerhaft). Generell müssen in der Wissenschaft Theorien spezifisch genug sein, um konkrete Annahmen formulieren zu können. Zu allgemeine Theorien, die sich durch alles belegen lassen, sind nicht sinnvoll. Bekommt man als Journalist: in Daten von Dritten - roh oder schon auf‐ bereitet oder ausgewertet - fehlt der Theorieteil oft komplett. Eventuell wird in einer Pressemitteilung etwas Kontext geliefert, beispielsweise was Anlass einer Erhebung gewesen ist. Manchmal lässt sich aber auch nur spekulativ anhand der erhobenen Daten darauf schließen, was der Kontext und die angenommenen Zusammenhänge sind. Dann kann es sich lohnen, an die Urheber: innen der Erhebung konkrete Fragen bezüglich des Kontextes zu stellen. 53 2.7 Das Problem mit Kontextwissen füttern <?page no="54"?> 3 https: / / www.kas.de/ einzeltitel/ -/ content/ respekt (5.12.2019, letzter Zugriff: 16.7.2021) Beispiel | Kritisches Hinterfragen von Quellen Anfang Dezember 2019 veröffentlichte die Konrad-Adenauer-Stiftung die Ergebnisse einer repräsentativen Umfrage mit dem Titel „Respekt verschiedener Berufsgruppen in der Gesellschaft“ 3 . Viele Nachrichten‐ medien haben über die Umfrage berichtet. Die Pressemitteilung ließ darauf schließen, dass Berichterstattung über Gewalt gegenüber Ret‐ tungskräften oder Polizisten, aber auch die Anfeindungen gegenüber Journalist: innen (Stichwort „Lügenpresse“) ausschlaggebend für die Erhebung war. Mehr war aus der Mitteilung allerdings nicht zu erfahren. Die Pressemitteilung referierte direkt die zentralen Ergebnisse. Eine Powerpoint-Präsentation zum Download für Journalist: innen und Inter‐ essierte enthielt kurze Infos zur Methode und detaillierte Auswertungen in Diagrammform. Den Kontext musste man sich als Journalist: in nun also erschließen. In einer solchen nicht unüblichen Situation sollte man sich Gedanken machen: Wer genau ist die Quelle und welches Interesse hat sie an der Art der Befragung? Was genau wurde warum erhoben und lässt sich daraus ein Rückschluss ziehen auf mögliche zugrundeliegende Annahmen über Zusammenhänge? Kann man selbst nur spekulieren, lohnt es sich vielleicht Rückfragen genau zu diesen Punkten an die Macher: innen der Erhebung zu stellen. Exkurs | Induktion und Deduktion In der Wissenschaftstheorie gibt es im Grunde zwei gegensätzliche Ansätze, wie sich wissenschaftliche Erkenntnis produzieren lässt. Das Schließen von einzelnen Fällen auf breitere Zusammenhänge wird im erkenntnistheoretischen Zusammenhang auch als Induktion bezeich‐ net. Das Gegenteil davon ist die Deduktion, bei der vom Allgemeinen auf den Einzelfall geschlossen wird. Der Gegensatz zwischen diesen beiden konkurrierenden Verfahren zur Gewinnung wissenschaftlicher Erkenntnis ist so alt wie die Wis‐ senschaft selbst. Theoretische Überlegungen zu dieser Unterscheidung 54 2 Das Problem: (Richtige) Fragen stellen und eine Theorie entwickeln <?page no="55"?> finden sich bereits bei Aristoteles. Sehr deutlich zutage tritt der Gegen‐ satz aber mit dem Aufkommen der empirischen Sozialwissenschaft und den Anfängen der systematischen Bevölkerungsstatistik (in ihren Anfangszeiten als „politische Arithmetik“ bezeichnet). Francis Bacon (1561-1626) gilt als prominenter Vorreiter der Idee, soziale und politi‐ sche Realität mit naturwissenschaftlichen Methoden zu erfassen (siehe ausführlich dazu Haller, 2017). Mithilfe von statistischen Methoden sollten induktiv zugrundeliegende Gesetzmäßigkeiten abgeleitet und Theorien gebildet werden. Das größte Problem an diesem Ansatz ist, dass bereits ein aus der Reihe der Gesetzmäßigkeit abweichender Fall die Theorie ins Wanken bringt. Außerdem hängen die gezogenen Schlussfolgerungen erheblich von den zugrundeliegenden Fällen ab und bewegen sich oftmals in den Schranken des Vorstellbaren derjeni‐ gen, die die Schlüsse ziehen. Aus dieser Erkenntnis heraus hat das deduktive Prinzip über die Zeit in der wissenschaftlichen und vor allem der statistischen Praxis deutlich an Relevanz gewonnen. Aber gerade das Wechselspiel aus Induktion und Deduktion ist zur treibenden Kraft des wissenschaftlichen Fort‐ schritts geworden. Mithilfe deduktiver Schlüsse können Theorien über‐ haupt erst überprüft werden. Finden sich Fälle oder Zusammenhänge, die der Theorie widersprechen, muss diese als gültige Erklärung für die Realität abgelehnt und gegebenenfalls angepasst werden. Das Verständnis von deduktiven und induktiven logischen Schlüssen ist eine enorm wichtige Voraussetzung für kritisches Denken im All‐ gemeinen. Aus diesem Grund sollte der Unterschied nicht nur Wissen‐ schaftler: innen bewusst sein, sondern gerade auch Journalist: innen, die damit halbgaren Behauptungen auf den Grund gehen können. Erkennt man einen induktiven Schluss in einer Behauptung eines Akteurs, d. h. wird von einem oder wenigen spezifischen Fällen auf eine allgemeine Regel geschlossen, sollten Journalist: innen diesen nicht unhinterfragt replizieren, sondern prüfen, ob die Behauptung auch auf der Basis weiterer (ausreichend zufällig ausgewählter! ) Fälle Bestand hat. So lautet eine in der öffentlichen Debatte immer wieder aufkommende Behauptung zum Beispiel: Migrant: innen seien krimineller als „Deut‐ sche“. Oftmals hört man Sätze wie diese nach öffentlich gewordenen Gewaltverbrechen durch Täter: innen mit Migrationshintergrund. Es wird dann schnell vom Einzelfall (oder von wenigen bekannten Fällen) auf eine vermeintlich allgemeine Regel geschlossen. Dabei zeigt ein 55 2.7 Das Problem mit Kontextwissen füttern <?page no="56"?> 4 Sehr schön dargelegt und ausführlich erklärt zum Beispiel von Ronen Steinke im Artikel: „Vernebelte Kriminalstatistik“, 7.8.2019 (https: / / www.sueddeutsche.de/ politik/ fluechtlinge-kriminalitaet-statistik-1.4556323, letzter Zugriff: 16.7.2021) Blick auf die statistisch erhobenen Daten, dass nicht der Migrationshin‐ tergrund das ausschlaggebende Kriterium ist, sondern das Geschlecht im Zusammenspiel mit dem Alter und dem sozialen Status bestimmend sind. Junge Männer mit geringem Bildungsgrad und oftmals betroffen von Arbeits- und Perspektivlosigkeit sind demnach diejenigen, die am ehesten zu Gewaltverbrechen neigen - unabhängig von Staatsangehö‐ rigkeit oder Geburtsort. Denn vergleicht man diese Gruppen direkt, sind die Unterschiede gering. Die Schwierigkeit bei der Interpretation der Daten besteht allerdings oft darin, dass die Gruppe der jungen Männer mit schwachem sozio-ökonomischem Status innerhalb der in den letzten Jahren angekommenen geflüchteten Menschen überpro‐ portional hoch vertreten ist. Vergleicht man in der Kriminalitätssta‐ tistik dann allein die Anteile der Gewaltverbrechen von Menschen mit und ohne Migrationsbzw. Fluchthintergrund in Bezug auf die jeweilige Gesamtgruppengröße, dann ist der Anteil der Verbrechen mit Täter: innen mit Migrationsbzw. Fluchthintergrund höher. Unter Ausblendung der anderen oben genannten Faktoren daraus auf fremde Kulturkreise als Ursache zu schließen, ist aber nicht legitim 4 . 2.8 Vermutungen aufstellen Kontextwissen dient dazu, sich darüber klar zu werden, was über einen Sachverhalt bereits bekannt ist, insbesondere welche Dynamiken zugrunde liegen, die beachtet werden müssen. In der Regel können wir als Menschen gar nicht anders und stellen Vermutungen über Zusammenhänge und mög‐ liche Gründe auf. Wir wollen Erklärungen für Phänomene haben. Auf unsere Intuition ist dabei allerdings nicht sicher Verlass. Auch Journalist: innen sind da miteingeschlossen. Daher sollte man gerade als Journalist: in bewusster und planvoller an die Abwägung von Zusammenhängen und Gründen heran gehen und die eigene Alltagsintuition regelmäßig hinterfragen. Im Zuge des Ansammelns von Kontextwissen sollte daher bewusst danach gefragt werden, wie viel Variation (im Sinne unterschiedlicher Möglichkeiten oder Ausprägungen eines Phänomens) und welche Art von Variation erwartet 56 2 Das Problem: (Richtige) Fragen stellen und eine Theorie entwickeln <?page no="57"?> werden kann und welche Möglichkeiten es gibt, diese zu erklären. Ziel der Untersuchung sollte schließlich sein, Varianz (die möglichen Unterschiede oder Abweichungen einer Sache) zu erkennen und nach dem Warum zu fragen. Man würde gar nicht erst mit der Erhebung für eine Statistik beginnen, würde nicht irgendeine Form der Variation, also der Unterschiedlichkeit er‐ wartet werden. Unterschiedliche Meinungen, unterschiedliche Einkommen, unterschiedliche Schneemengen (siehe Beispielbox) - ohne Varianz keine Statistik. Variation ist der Grund, warum Menschen ausgefeilte statistische Methoden entwickeln mussten, um Botschaften aus Daten herauszufiltern. Wichtige Ziele von Statistik sind es, Varianz zu erkennen, Regelmäßigkeiten festzustellen und diese zu erklären. Bei all dem nur allzu menschlichen Wunsch nach Eindeutigkeit gilt es dabei allerdings dennoch, die Offenheit dafür zu behalten, dass es auch Wahrscheinlichkeiten und Zufälle gibt. Welche Formen kann ein Phänomen annehmen und warum passiert etwas? Für diese Fragen kann uns die Statistik wertvolle Werkzeuge zur Beantwor‐ tung liefern. Aber: Was bedeuten die Ergebnisse? Um diese Verknüpfung herzustellen, braucht es eine konsequente Rückbindung an den jeweiligen Kontext. So lässt sich verhindern, dass Menschen zu falschen Schlussfolge‐ rungen über Zusammenhänge kommen. Auch kann es dazu beitragen, ihnen zu gültigen, brauchbaren Schlussfolgerungen zu verhelfen. Entsprechend ist bei der Abwägung möglicher Einflussfaktoren eine große gedankliche Offenheit nötig, denn Voreinstellungen und Wissenslü‐ cken können Folgen haben: Was wir wissen, bestimmt zum großen Teil, was und wo wir nach Informationen und möglichen Erklärungen suchen. Entsprechend müssen bei der Suche nach relevanten Aspekten, die zur Lö‐ sung des Problems beitragen sollen, auch Gewissheiten hinterfragt werden. Hierbei lohnt sich die Teamarbeit: Menschen mit unterschiedlichen Hin‐ tergründen und Hintergrundwissen gehen Sachen anders an. Es sollte nicht unterschätzt werden, welch hohes Maß an Kreativität und Offenheit in diesem Arbeitsschritt gefragt ist, um auch neue Verknüpfungen herzustellen und über gedankliche Grenzen hinaus zu gehen. Es gilt zunächst zu überlegen, welches die Merkmale sind, bei denen mit Variation zu rechnen ist. Beispielsweise im Vergleich zwischen Männern und Frauen (beim Thema Gehalt) oder zwischen Ost- und Westdeutschland (bei der Wahrnehmung von Demokratie). Die Merkmale sollten nicht aus der Luft gegriffen sein, sondern sich aus dem Kontextwissen ergeben. Die Auswahl der zu untersuchenden Faktoren sollte plausibel sein und etwa 57 2.8 Vermutungen aufstellen <?page no="58"?> daraus folgen, was schon bekannt ist. Bereits durch die Auswahl der relevant scheinenden Aspekte wird mindestens implizit immer ein statistisches Modell erstellt, das die bekannten Kontextfaktoren in eine Beziehung zueinander setzt. Wissenschaftliche Forschung sollte ein solches zugrundeliegendes Modell auch explizit darstellen, wenn sie damit arbeitet. Jeder Aspekt im Modell sollte nachvollziehbar aus der Theorie hergeleitet sein und kann dann darauf hin überprüft werden, ob er für die Lösung des Problems tatsächlich relevant ist. Besteht beispielsweise ein Interesse daran, zu verstehen, wie Lohnun‐ gleichheit zustande kommt, sind Aspekte wie Geschlecht, Alter, Jahre der Berufserfahrung und Familienstatus wahrscheinlich relevanter als die Haarfarbe oder die Ernährungsgewohnheiten. Rigoroses Hinterfragen von (angenommenen) Zusammenhängen sollte für Journalist: innen besonders wichtig sein. So ist die Gefahr zumindest geringer, Scheinzusammenhängen auf den Leim zu gehen. Wissenschaftliche Forschung geht in der Regel noch einen Schritt weiter. Nicht nur werden Vermutungen darüber aufgestellt, nach welchen Aspekten mit Variation zu rechnen ist, sondern wie diese Unterschiedlichkeit gerichtet ist. Es werden also konkrete Annahmen oder Hypothesen über Zusam‐ menhänge erstellt. Hypothesen sind bereits mögliche Problemlösungen bzw. erste Erklärungsversuche, die forschungsleitend weitere Schritte nach sich ziehen. Soll in der Forschung ein Problem durch Statistik gelöst werden, sollten auch explizite Hypothesen aufgestellt werden. Nicht immer sind Hypothe‐ sen deutlich als solche gekennzeichnet, beispielsweise bei Erhebungen durch Meinungsforschungsinstitute. Dennoch liegen sie in der Regel jeder statistischen Untersuchung irgendwie zugrunde. Spätestens dann, wenn Verbindungen zwischen Variablen hergestellt werden, liegen implizite Annahmen darüber vor, was die abhängige und was die unabhängige Variable ist, also was erklärt werden soll und was erklären soll. Sollen Alter und Gehalt zusammengebracht werden, kann man davon ausgehen, dass Gehalt in Abhängigkeit vom Alter betrachtet wird. Die naheliegendste Hypothese wäre, dass das Gehalt mit zunehmendem Alter steigt. Die Abhängigkeit ergibt andersherum wenig Sinn: Mehr Gehalt lässt Menschen altern? Wahrscheinlich nicht. Die Plausibilität der in der Hypothese angenommenen Wirkrichtung sollte auf jeden Fall immer geprüft werden. Egal, ob bei der eigenen Hypothese, einer in einer Studie explizit ausformulierten Hypothese oder 58 2 Das Problem: (Richtige) Fragen stellen und eine Theorie entwickeln <?page no="59"?> der implizit zugrundeliegenden Hypothese bei Meinungsforschung. Nicht immer ist das ein eindeutiges Unterfangen. Beim Zusammenhang von Alter und Gehalt mag die angenommene Richtung der Abhängigkeit relativ klar sein, aber bei anderen Beispielen ist dies weit weniger eindeutig. Zum Beispiel: Es soll erklärt werden, warum alte Leute mit Hund länger leben. Die grundlegende Annahme ist, dass alte Menschen mit Hund gesünder sind. Naheliegend wäre die Annahme (Hypothese 1), dass sich ältere Leute mit Hund mehr bewegen und daher eher fit bleiben. Es ist aber auch eine andere sogar fast gegenteilige Hypothese denkbar, nämlich dass sich ohnehin nur die älteren Menschen einen Hund anschaffen, die sich fit genug fühlen (und es auch sind), das Tier zu versorgen. In der Hypothese 1 ist der Hund die angenommene Ursache für die Gesundheit. In Hypothese 2 ist die Gesundheit die angenommene Ursache für die Anschaffung eines Hundes. Welche Hypothese verfolgt würde, bräuchte eine entsprechend gute Begründung. Es gibt eine Reihe unterschiedlicher Hypothesen. Bei Zusammenhangs‐ hypothesen geht man davon aus, dass ein Merkmal immer dann auftritt, wenn ein anderes ebenfalls vorliegt. Unterschiedshypothesen verglei‐ chen oft Gruppen und gehen davon aus, dass diese sich im Hinblick auf ein Merkmal unterscheiden. Bei Veränderungshypothesen wird erwartet, dass sich beispielsweise ein Merkmal mit fortschreitender Zeit ändert. Alle drei Formen lassen sich weiterhin danach unterscheiden, ob sie gerichtet sind (etwas ist mehr oder weniger) oder ungerichtet (etwas ist anders). Gerichtete Hypothesen wiederum können sowohl spezifisch (etwas ist dreimal so oft) oder unspezifisch sein (etwas ist häufiger). Klassischerweise nehmen Hypothesen entweder eine „Wenn-dann“ oder eine „Je-desto“ Form an. Eine weitere relevante Unterscheidung ist die zwischen deterministischen (oder nomologischen) und probabilistischen Hypothesen. Die determinis‐ tische Hypothese vermutet, dass ein Ereignis unter bestimmten Voraus‐ setzungen auf jeden Fall eintritt. Bei der probabilistischen Hypothese treten die Annahmen nur mit einer bestimmten Wahrscheinlichkeit ein. Bei der oben bereits erwähnten Studie der Konrad-Adenauer-Stiftung sind keine expliziten Hypothesen formuliert. Diese können aber anhand der vorgenommenen Auswertungen nachvollzogen werden. Sich mögliche zugrundeliegende Hypothesen zu vergegenwärtigen, kann Journalist: innen, die eine solche externe Studie auf den Schreibtisch bekommen, für eine kritische Überprüfung sehr nützlich sein. Die erste Hypothese war sicherlich 59 2.8 Vermutungen aufstellen <?page no="60"?> eine Unterschiedshypothese, nämlich dass unterschiedliche Berufsgruppen unterschiedlichen Respekt in der Gesellschaft genießen. Zweitens würden die Autor: innen nicht danach fragen, ob man früher mehr oder weniger Re‐ spekt vor einer Berufsgruppe gehabt hat, wenn sie nicht eine Veränderungs‐ hypothese zugrunde gelegt hätten. Ob diese gerichtet oder ungerichtet war, ist anhand der verfügbaren Informationen nicht mehr eindeutig feststellbar. Weil die Studie aber mit dem Verweis auf die aktuelle Berichterstattung eingeleitet wird, in der immer häufiger von Übergriffen auf bestimmte Berufsgruppen die Rede ist, kann vermutet werden, dass die Autor: innen davon ausgehen, dass diesen früher mehr Respekt entgegengebracht wurde. Weitere Unterschiedshypothesen liegen wahrscheinlich den Auswertungen nach Parteizugehörigkeit, Geschlecht und Wohnregion zugrunde. Auch hier gilt: Die Aspekte wären nicht mit aufgenommen, wenn keine Unterschiede erwartet worden wären. Warum dabei allerdings Unterschiede erwartet werden, bleibt mit den zur Verfügung stehenden Informationen unklar, genauso wie übrigens auch, was genau daraus gelernt werden kann, dass Frauen zwar mehr Respekt vor Professoren haben als Männer, aber Männer mehr Respekt vor Hausärzten als Frauen. Solche Erklärungslücken durch die Vergegenwärtigung möglicher Hypothesen aufzudecken, bietet Journalist: innen die Möglichkeit zur (kritischen) Nachfrage. Ein aufschlussreiches Beispiel, wie ein Problem und eine diesem zugrun‐ deliegende Veränderungshypothese Anstoß für eine eigene datenjournalis‐ tische Recherche bieten können, liefert der Journalist Simon Haas mit seinem Artikel „Städte im Schneevergleich“. Anlass für diesen war eine vom Baden-Württembergischen Ministerpräsidenten dahingesagte Behauptung, dass es „früher“ mehr Schnee gab. Auch hier lautete die zentrale Frage ganz zu Beginn des Prozesses: „Ist das wirklich so? “ und lässt es sich belegen? Neben der Frage, über welchen Zeitraum hier eine Entwicklung betrachtet werden soll, mussten neben der Zeit auch andere mögliche Kontextfaktoren identifiziert werden. Wie im Beispiel beschrieben, hat sich dabei die Zusammenarbeit mit Expert: innen vom Deutschen Wetterdienst (DWD) als fruchtbar erwiesen. 60 2 Das Problem: (Richtige) Fragen stellen und eine Theorie entwickeln <?page no="61"?> Die Geschichte hinter der Statistik | Vergleich der Schneemengen Simon Haas: „Die Idee kam mir, nachdem Ministerpräsident Kretsch‐ mann in einem Interview mit der Stuttgarter Zeitung behauptete hatte, früher habe er in seiner oberschwäbischen Heimat mehr ‚knackigere Winter‘ erlebt. Gefühlt gebe es diese heute nicht mehr. Anschließend fragte ich mich, ob sich dieses Gefühl auch mit Zahlen belegen lässt. Mein Interesse galt vor allem den Mittelgebirgen Schwarzwald und Schwäbische Alb, wo sich die sinkende Zahl der Frosttage am stärks‐ ten auf den Schneefall und dementsprechend auch auf den Skibetrieb auswirken musste. (Die allermeisten baden-württembergischen Pisten befinden sich komplett unter 1200 Metern.) Außerdem wollte ich meinen Lesern eine nutzwertige Karte bieten, auf denen sie für ihren Ort sehen können, wann im Schnitt der erste Schnee fällt und wie viele Schneetage es im Jahr gibt. ‚Früher‘ ist natürlich kein Begriff der Statistik; ich entschied mich daher für den 30-jährigen Vergleichszeitraum 1961-1990 und hielt anschließend kurz Rücksprache mit dem regionalen Klimabüro des DWD in Freiburg. Die Zusammenarbeit mit dem DWD konzentrierte sich darüber hinaus fast ausschließlich auf die Interpretation der Daten, sprich: Für welche Daten ist es sinnvoll, Durchschnittswerte für ganz Baden-Württemberg zu nennen (Differenz erster Schneefall), für welche nicht (Differenz Anzahl der Schneetage)? Welche weiteren, regionalen Faktoren neben der Höhe beeinflussen die Anzahl der Schneetage und die Schneemenge? Ganz allgemein: Was ist der Un‐ terschied zwischen Wetter und Klima - und wie kann ich das meinen Lesern erklären? Für all diese Fragen hat sich der DWD viel Zeit genommen, außerdem habe ich noch mit einem Klimaexperten vom KIT Karlsruhe gesprochen.“ Simon Haas: „Im Südwesten fällt weniger und seltener Schnee als früher“, Badische Neuste Nachrichten, 29.11.2019. https: / / bnn.de/ lokales/ karlsru he/ schneetage-und-erster-schnee-baden-wuerttemberg (letzter Zugriff: 16.7.2021) 61 2.8 Vermutungen aufstellen <?page no="62"?> 5 nach Wild & Pfannkuch 1999: 235 2.9 Probleme formulieren als kreativer Prozess Es ist nicht übertrieben zu behaupten, dass ein gut durchdachtes und sauber formuliertes Problem einen erheblichen Teil des statistische Gesamtprozes‐ ses ausmacht. Sich nur mit einer groben Idee in die weitere Arbeit zu stürzen, kann erhebliche Folgekosten nach sich ziehen. Wenn aufgrund fehlender Zielrichtung zu viel oder zu wenig Arbeit investiert wird, können zum Schluss zentrale Informationen fehlen, die eigentlich relevant zur Erfassung des Problems gewesen wären. Im schlimmsten Fall entstehen Fehler und es gelangen falsche oder unvollständige Informationen in die Öffentlich‐ keit, die negative Konsequenzen haben können. Das soll auf keinen Fall demotivierend klingen, eher im Gegenteil als Plädoyer verstanden werden, sich mit der Formulierung des Problems intensiv auseinander zu setzen. In der Wissenschaft wie im Journalismus ist dies lohnend, weil es auch den Schreibprozess erleichtert, wenn die grundlegende Argumentation im Hinblick auf ein bestehendes Problem erstmal als Gerüst steht, an dem man sich abarbeiten kann. Der statistische Prozess ist generell ein kreativer Prozess. Insbesondere die Phase der Problemfindung ist hier hervorzuheben. Und wer sich (auch nach der Lektüre dieses Buches) noch vor dem eher mathematischen Teil des Prozesses scheut, wird sich vielleicht dennoch für diesen Teil der Arbeit er‐ wärmen können. Zum Rechnen kann man sich im Zweifel auch Hilfe suchen (z. B. Unterstützung durch ein Umfrageinstitut). Die Zusammenarbeit wird sich aber umso besser und produktiver gestalten, desto mehr gedankliche Vorarbeit in der Problemfindungsphase erfolgt ist. Eine Reihe von Eigenschaften, die in dieser Phase des statistischen Prozesses wichtig sind 5 : In erster Linie eine gewisse natürliche Neugier und ein Problembe‐ wusstsein. Es geht darum, Fragen zu stellen an die Welt und darüber, wie sie funktioniert. Es geht auch darum, Variation zu erkennen und sich für die Gründe dahinter zu interessieren. Darüber hinaus spielt auch Engagement eine große Rolle. Ein gewisses eigenes Interesse an einem Thema wird dazu führen, dass die Auseinandersetzung mit diesem intensiver ist. Die Sensibilität für ein Thema und seine Facetten ist mit größerem Interesse höher; auch die Ausdauer dem Thema auf den Grund zu gehen wird höher sein. Meistens wird ein Problem sogar erst entdeckt, wenn es sich in 62 2 Das Problem: (Richtige) Fragen stellen und eine Theorie entwickeln <?page no="63"?> einem interessanten Bereich befindet. Nicht zu unterschätzen ist das nötige Vorstellungsvermögen: Von hohem Wert für den Prozess ist es, sich die unterschiedlichen Szenarien zur Erklärung von Sachverhalten vorstellen zu können. Dazu sollte dann die entsprechende Offenheit an den Tag gelegt werden, die nötig ist, über das Offensichtliche hinaus zu denken. Gerade auch für das Hinterfragen der eigenen Intuition braucht es ein gewisses Maß an Skepsis. Dazu gehört bei sich und bei anderen die Suche nach Fehlern und Fehlschlüssen sowie die kritische Einstellung gegenüber gezogenen Schlüssen. Oft hilft hier bereits die konsequente Anwendung der Logik, mit der Argumente und angenommene Zusammenhänge und sogar Wirkrichtungen überprüft werden sollen. ► Checkliste ■ Quellenkritik ■ Wer sind die Autorinnen und Autoren? □ Handelt es sich um etablierte Wissenschaftler: innen an Uni‐ versitäten oder Forschungseinrichtungen? □ Welche Informationen lassen sich über die Qualifikation der Autor: innen herausfinden? □ Entspricht die Studie dem Fachgebiet der Autor: innen (siehe Lungenarzt-Beispiel aus der taz)? ■ Wer hat die Studie in Auftrag gegeben? □ Handelt es sich um eine Interessensvertretung? □ Ist in irgendeiner Weise mit Parteilichkeit oder Einflussnahme zu rechnen? ■ Wie/ wo wurde sie veröffentlicht? □ Handelt es sich um eine angesehene Fachzeitschrift der jewei‐ ligen Disziplin? □ Liegt der Veröffentlichung ein Peer Review Verfahren zu‐ grunde, d. h. wurde die Studie vor der Veröffentlichung an‐ onym durch Vertreter: innen des Faches begutachtet? ■ Welches Ziel verfolgt die Studie? ■ Was wird als Problem definiert? Welche Relevanz und Reichweite hat dieses Problem? ■ Was ist über den Kontext des Problems bereits bekannt? ■ Theorie: ist diese kohärent und plausibel? 63 ► Checkliste <?page no="64"?> ■ Wird ein statistisches Modell explizit gemacht? ■ Welche Variation liegt vor, die beschrieben oder erklärt werden soll? ■ Welche Einflussfaktoren für ein Problem werden definiert? ■ Welche Zusammenhänge zwischen Problem und Einflussfaktoren werden angenommen? ■ Welche Arten von Hypothesen werden verfolgt? Zusammenhangs-, Unterschieds- oder Veränderungshypothese? Sind Vorhersagen konkret und gerichtet? Literatur Das englischsprachige Standardwerk zum wissenschaftlichen Arbeiten von Booth, Colomb und Williams beschreibt Schritt für Schritt, wie der Weg von der Themenfindung zur Problemformulierung erfolgen kann. Die im Buch formulierten Hilfestellungen und Tipps können auch zu Beginn einer journalistischen Recherche hilfreich sein, insbesondere wenn es darum geht, die Relevanz von Problemen explizit herauszuarbeiten. Booth, W. C., Colomb, G. G., & Williams, J. M. (2003). The craft of research (2nd). Chicago: University of Chicago Press. In dem unterhaltsamen Statistik-Sachbuch von Schüller wird deutlich, dass Statistik eine bestimmte Art des Denkens ist und statistische Probleme nicht unabhängig von denjenigen betrachtet werden können, die sie aufgestellt haben. Wie wichtig es ist, schon die Argumentation nachzuvollziehen, die ein statistisches Problem aufstellt, wird im Verlauf dieses Buches sehr deutlich. Schüller, K. (2015). Statistik und Intuition: Alltagsbeispiele kritisch hinterfragt (1. Aufl. 2015). Sachbuch. Berlin, Heidelberg: Springer Spektrum. 64 2 Das Problem: (Richtige) Fragen stellen und eine Theorie entwickeln <?page no="65"?> 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten 3.1 Messen, was gemessen werden soll Statistik wird von den meisten Leuten stark mit Mathematik assoziiert. Tatsächlich ist aber die eigentliche Mathematik für Journalist: innen im Umgang mit Daten weniger wichtig als die Frage "Ergibt das einen Sinn? ". Natürlich sollte auch die der Datenanalyse zugrundeliegende Mathematik nachvollziehbar und richtig sein. Die ausgefeilteste Rechnung kann aber noch so korrekt sein, sind die Daten von schlechter Qualität und messen gar nicht, was gemessen werden soll, dann hilft die im mathematischen Sinne richtige Rechnung auch nichts. Deshalb darf nicht unterschätzt werden, wie wichtig die Frage nach der Sinnhaftigkeit der Arbeitsschritte in dieser Phase des statistischen Prozesses ist, in der entschieden wird, was und wie gemessen werden soll und wie die Messung von statten geht. Es geht um nicht weniger als den Plan, wie man vom Problem zur Lösung kommen kann. Die Devise dabei ist: „Müll rein, Müll raus.“ Wenn das Instrument schlecht ist und nicht misst, was es soll, oder wenn nicht die Fälle erhoben werden, über die Aussagen getroffen werden sollen, ist mit den erhobenen Daten schlussendlich wenig anzufangen. Es ist also fundamental wichtig, auf diesen Arbeitsschritt die nötige Energie und Sorgfalt zu legen bzw. zu prüfen, ob andere eben diese nötige Sorgfalt an den Tag gelegt haben. Für Journalist: innen gilt es daher an dieser Stelle, besonders genau hinzusehen und kritisch nachzufragen, ob das Fundament einer Analyse auch tatsächlich auf entsprechend festen Boden steht. Nachvollziehen zu können, wie Daten zustande kommen, ist ein wichtiger Bestandteil der Datenverifikation, mit der die die Richtigkeit und Zuverlässigkeit von Daten geprüft werden kann. Dieses Kapitel soll dann entsprechend den Blick auch dafür schärfen, ob datengestützte Argumente auch wirklich das aussagen, was behauptet wird. Im vorherigen Kapitel ging es darum, ein Problem zu identifizieren, das es zu lösen gilt. Alle weiteren Arbeitsschritte verfolgen als Ziel die Lösung des Problems. Der erste Schritt in diese Richtung ist das Sammeln von Kontextinformationen, um herauszufinden, welche Aspekte schon bekannt <?page no="66"?> sind und welche Formen der Variation zu erwarten sind. Eventuell auch um erste Annahmen darüber zu treffen, was die Lösung des Problems sein könnte bzw. in welchem Zusammenhang die wichtigen Aspekte stehen, die von Interesse sind. In diesem Kapitel geht es nun darum, wie man an genau die Informationen kommt, die zur Lösung des Problems gebraucht werden. Sind die wichtigen Aspekte identifiziert, ist nun die Frage, wie diese erfasst werden können. Es geht also in erster Linie um die Planung der Datenerhebung. Dazu muss auf Basis der Überlegungen aus dem ersten Schritt entschieden werden, welche Art von Daten überhaupt benötigt werden. Aus dieser Erkenntnis ergibt sich bereits, welche die angemessene Methode zur Erhebung der Daten ist. Anschließend stellen sich die Fragen: Gibt es diese Daten in der benötigten Form bereits? Oder müssen sie selbst erhoben werden? Das Kapitel behandelt die entsprechenden Schritte in der Art, wie sie bei der eigenen Erhebung gemacht werden müssten. Damit lässt sich dann auch nachvollziehen und prüfen, wie andere diese Schritte gegangen sind und welche Entscheidungen dabei getroffen worden sind. Welche Möglichkeiten es gibt, bereits existierende Daten ausfindig zu machen und zu erhalten bzw. wie diese für die eigenen Zwecke nutzbar gemacht werden können, wird ausführlich im folgenden Kapitel behandelt. Wenn klar ist, welches Erhebungsverfahren angemessen ist, geht es an die Erstellung des Messinstruments. Dieses dient dazu, die für uns relevanten Informationen tatsächlich auch zu erfassen. Dazu müssen die theoretisch relevanten Aspekte in beobachtbare Sachverhalte übersetzt werden. Dieses „zählbar Machen“ von Informationen bzw. die planvolle Zuordnung von Zahlenwerten zu Sachverhalten, die sich beobachten lassen, nennt man Operationalisieren. Dieses Kapitel befasst sich daher mit dem Begriff und dem Grundprin‐ zip des Messens, mit Erhebungsmethoden, der Entwicklung des Messin‐ struments sowie den Grundlagen der Stichprobenziehung. Wir behandeln mehrere Schritte innerhalb dieser Prozessphase, die sich auch überlappen können bzw. die eventuell wiederholt werden müssen. 3.2 Grundbegriffe Um den statistischen Prozess selbst durchlaufen zu können oder auch zur Prüfung eines solchen Prozessen in der Arbeit von Anderen, braucht es 66 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="67"?> einige grundlegende Begriffe. Das Problem ist, dass es häufig nicht nur einen Begriff für ein und dieselbe Sache gibt, sondern unterschiedliche statistische Lehrbücher unterschiedliche Begriffe verwenden, was sicherlich nicht sel‐ ten zur Verwirrung bei Statistik-Neulingen führt. Man hat dann vielleicht erstmal das Gefühl, Vokabeln für eine neue Sprache lernen zu müssen, ohne davon überzeugt zu sein, diese Sprache dann auch anwenden zu können. Im journalistischen Kontext mag das noch mal verstärkt sein, denn hier wird niemand erwarten, irgendwann mal Begriffe wie "Merkmalsträger" oder "Ordinalskala" im journalistischen Stück zu verwenden. Das Lernen der Sprache und Begriffe dient demnach erstmal nur der Strukturierung des analytischen Prozesses. 3.2.1 Messen Das übergeordnete Ziel ist des statistischen Prozesses ist es, ein Problem mithilfe von Informationen zu lösen, die über den Einzelfall oder das einzelne Ereignis hinaus gehen. Dazu müssen von jedem Einzelfall genau die Informationen gesammelt werden, die es braucht, um allgemeine Aussagen über das Problem zu generieren. Diese Informationen sind die Daten, die es uns erlauben, zusammenfassende Aussagen zu treffen, die die Informationen vieler Einzelfälle aggregiert (also auf eine bestimmte Art und Weise zusam‐ mengefasst) erfassen. Daten sind durch Kategorisierung und Messungen gewonnene (Zahlen-)Werte, die es ermöglichen, durch gezielte Auswertung Erkenntnisse zu erlangen. Messen bedeutet also das zählbar-Machen von Eigenschaften. Das Ziel dabei ist, Erkenntnisse durch Zusammenfassen und Verdichten zu gewinnen. Das, was gemessen werden soll, muss ein beobachtbarer Sachverhalt sein. Den Schritt, sich zu überlegen, wie die interessante Information tatsächlich beobachtbar und erfassbar gemacht werden kann, nennt man Operationalisierung. Dabei werden theoretische Konstrukte in beobacht‐ bare Sachverhalte übersetzt. 3.2.2 Variablen und Skalenniveaus Möchte man zum Beispiel wissen, wie sich die Personen einer bestimmten Gruppe von Menschen hinsichtlich ihrer Haarfarben, Größen und ihrer Zuneigung zu Katzen unterscheiden, kann eine Messung vorgenommen werden, die diese Erkenntnis ermöglicht. Jede Person aus der Gruppe 67 3.2 Grundbegriffe <?page no="68"?> stellt einen Fall da. Jeder Fall ist Träger bestimmter Merkmale. In diesem Beispiel interessant sind die Merkmale Haarfarbe, Körpergröße und Zuneigung zu Katzen. Die Merkmale werden auch als Variablen bezeichnet. Jede Variable kann unterschiedliche Ausprägungen annehmen. Diese Unterschiedlichkeit (Variation) ist die Grundlage für Statistik. Die Gesamtheit der Ausprägungen einer Variablen wird als Skala be‐ zeichnet. Im Fall der Haarfarbe könnte das zum Beispiel braun, schwarz, blond, mittelblond, rot, bunt usw. sein. Man spricht hier auch von einem diskreten, kategorialen oder qualitativen Merkmal. Das Konstrukt „Haarfarbe“ wird so operationalisiert, in dem die beobachtbaren Ausprä‐ gungen definiert werden. Jeder Ausprägung wird dann ein eindeutiger Zahlenwert zugeschrieben, z. B. 1 = braun, 2 = schwarz, 3 = blond, usw. Die Werte auf dieser Skala der möglichen Ausprägungen stehen allerdings nicht in Relation zueinander. Die Zuordnung zu einer Zahl dient nicht der Her‐ stellung einer Rangfolge, sondern allein der eindeutigen Unterscheidung. Wir sprechen in diesem Fall von einer Nominalskala. Ein Spezialfall nomi‐ nalskalierter Merkmale sind binäre Merkmale (auch dichotome Merkmale genannt). Dabei handelt es sich um Merkmale mit nur zwei Ausprägungen. Das klassische Beispiel für ein solches Merkmal war nun über Jahrzehnte das Geschlecht mit den Ausprägungen männlich und weiblich. Mit der Einfüh‐ rung der dritten Option „divers“ ist dies nun hinfällig. Ein anderes Beispiel, das einem in der Praxis oft begegnet, wäre die Unterscheidung zwischen „vorhanden“ und „nicht vorhanden“, wenn man sich beispielsweise dafür interessiert, ob ein bestimmtes Merkmal schlicht vorliegt oder eben nicht. In der Regel wird die Kodierung von binären Merkmalen mit den Zahlenwerten 0 und 1 vorgenommen, wobei es sich anbietet, die 0 für das nicht vorhandene Merkmal zu verwenden. Die Operationalisierung des Konstrukts „Größe“ in den beobachtbaren Sachverhalt benötigt die Festlegung einer standardisierten Maßeinheit, weil es sich hier um ein stetiges oder quantitatives Merkmal handelt, bei dem die Werte in einer bestimmten (ebenfalls messbaren) Relation zueinanderstehen. So ist 162 cm genau 5 cm kleiner als 167 cm und 10 cm kleiner als 172 cm. Jeder einzelne Zentimeter ist gleich lang. Die Zuordnung von Zahlen den Ausprägungen erfolgt nach bestimmten Regeln. Um genau zu sein, erfolgt die Zuordnung hier auf eine Weise, bei der die Beziehung, die zwischen den Objekten hinsichtlich eines bestimmten Merkmals besteht, durch die numerische Relation, also die Beziehung der Zahlen, abgebildet wird. Demnach muss für eine präzise und verlässliche 68 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="69"?> Messung eine eindeutige Zuordnung von realen Eigenschaften des Objekts zu Zahlenwerten gewährleistet sein, damit eine strukturtreue Abbildung hergestellt wird. In der Regel wird der Begriff der Intervallskala für dieses Messniveau verwendet. Die Messung der Zuneigung zu Katzen stellte eine Zwischenform da. Das Merkmal könnte zum Beispiel mit diesen Kategorien gemessen werden: 1 = keine Zuneigung, 2 = geringe Zuneigung, 3 = mal so, mal so, 4 = große Zuneigung, 5 = bedingungslose Zuneigung. Diesen Werten liegt damit ein nominaler Ausdruck zugrunde. Gleichzeitig ist es in diesem Fall aber nicht egal, wie die Zahlen zugeordnet werden, denn der Grad der Zuneigung lässt sich in eine eindeutige Reihenfolge bringen von „sehr gering“ bis „sehr hoch“. Die Abstände zwischen den Werten allerdings kann nicht eindeutig bestimmt werden, wie das bei intervallskalierten Ausprägungen der Fall ist. Man spricht daher in diesem Fall von einer Ordinalskala. Abbildung 2 zeigt eine Person der Gruppe und illustriert die Begriffe. Merkmal/ Variable: Größe Ausprägung: 165cm  stetige/ quantitative Variable Merkmal/ Variable: Haarfarbe Ausprägung: mittelblond  diskrete/ qualitative/ kategoriale Variable Merkmal/ Variable: Katzenaffinität Ausprägung: 4 = hohe Zuneigung  ordinale Variable Abbildung 2 | Arten von Merkmalen und Variablen Nicht immer lässt sich ein Merkmal direkt messen. Darum werden manch‐ mal Indikatoren als Hilfsmittel benötigt, die das Merkmal messbar ma‐ chen sollen. Das gilt für die Naturwissenschaften, beispielsweise für die 69 3.2 Grundbegriffe <?page no="70"?> 6 https: / / www.destatis.de/ DE/ Themen/ Gesellschaft-Umwelt/ Nachhaltigkeitsindikatore n/ _inhalt.html (letzter Zugriff: 19.7.2021) Messung des pH-Werts mithilfe von Indikatorpapier, das entsprechend des Werts die Farbe wechselt. Aber gerade auch in den Wirtschafts- und Sozialwissenschaften sind Indikatoren dann nötig, wenn es darum geht, abstrakte Konzepte zu erfassen. Das Konzept der „Nachhaltigkeit“ lässt sich beispielsweise nicht über einen direkten Wert bestimmen, denn es ist per Definition so vielschichtig, dass es unterschiedliche Indikatoren zur Bestimmung benötigt. So listen die Vereinten Nationen beispielsweise 232 globale Indikatoren zur Bestimmung, ob Nachhaltigkeitsziele erreicht werden. Die EU demgegenüber beschränkt sich auf 100 Indikatoren, um den Fortschritt bei den Nachhaltigkeitszielen zu dokumentieren 6 . Auch zur Messung vieler Persönlichkeitsmerkmale werden Indikatoren benötigt, mit deren Hilfe sich dem eigentlichen Merkmal angenähert wird. Intelligenz, Vertrauen oder Autoritarismus sind zum Beispiel klassische Konstrukte, die in den Sozialwissenschaften mithilfe von Indikatoren erfasst werden. Zur Erfassung solcher Konstrukte werden theoretisch relevante Aspekte ausgewählt, die den Bedeutungsumfang des Begriffs repräsentieren, und in einzelnen Testfragen übersetzt. Man spricht in diesem Zusammenhang oft auch von Items. Sehr häufig wird zur Erstellung solcher Items nach der Zustimmung zu einer bestimmten Aussage gefragt, die Befragte dann in Abstufungen ausdrücken können. Ein weit verbreiteter Standard für eine derartige Erfassung ist die 5-stufige Kategorialskala (auch Likert-Skala genannt) mit den Antwortmöglichkeiten trifft zu (1), trifft eher zu (2), trifft teilweise zu (3), trifft eher nicht zu (4), trifft nicht zu (5). Ebenfalls weit verbreitet ist die 7-stufige Variante, von der sich Forscher: innen noch mehr Erkenntnisse aus detaillierteren Abstufungen in der jeweiligen Zustimmung versprechen. In der Regel werden mehrere Indikatoren oder Items im weiteren Verfah‐ ren zu einem Index zusammengefasst, um einen Wert für ein theoretisches Konstrukt zu bekommen, mit dem es sich dann im Weiteren arbeiten lässt. Ein solcher Index ergibt sich dann aus mehreren über bestimmte Rechenoperationen in Beziehung gesetzte Variablen. Weil bei einer solchen Indexbildung zwangsläufig wieder Information und Komplexität verringert werden, verlieren Indizes aber oftmals eine direkte Interpretierbarkeit. Sie sind dann vor allem aus der Relation der Indexwerte unterschiedlicher Fälle, über die Definition von Schwellenwerten oder über die Zeit zu bewerten. 70 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="71"?> Wurde beispielsweise der Fortschritt bei der Entwicklung der Nachhaltigkeit mit den oben erwähnten Nachhaltigkeitsindikatoren in mehreren Ländern gemessen, können diese Indikatoren durch Indexbildung zu einem Wert zu‐ sammengefasst werden. Auf diese Weise ließen sich die untersuchten Länder in eine schnell erfassbare Reihenfolge bringen. Wie diese Zusammenfassung unterschiedlicher Werte zu einem Index vorgenommen wird, will dabei gut überlegt sein. Müssen beispielsweise bestimmte Indikatoren stärker ge‐ wichtet werden, weil sie für die Bewertung der Nachhaltigkeitsentwicklung wichtiger sind? Würde der Erhalt der Biodiversität als doppelt so wichtig eingeschätzt wie der Ausbau von Solaranlagen, müsste der Indikator für Biodiversität mit dem Faktor 2 in die Indexbildung einfließen. Daher ist es wichtig, sich das Zustandekommen von Indizes und die Begründung für eventuelle Gewichtungen genauer zu betrachten, denn auch hier werden Entscheidungen getroffen, die sich auf Ergebnisse wie beispielsweise Ran‐ kings auswirken können. 3.2.3 Gütekriterien Zwei Kriterien sind für jegliches Messen relevant, egal mit welcher Er‐ hebungsmethode die Messung erfolgt: die Reliabilität und die Validität. Unter dem Begriff der Reliabilität wird die formale Genauigkeit bzw. Verlässlichkeit einer wissenschaftlichen Messung verstanden. Das bedeu‐ tet in erster Linie, dass es bei jeder Wiederholung der Messung unter gleichen Bedingungen auch zum gleichen Ergebnis kommen muss. Bei Befragungen beispielsweise müssen die Fragen so eindeutig gestellt sein, dass alle Befragten auch das Gleiche darunter verstehen und die gleichen Informationen abrufen können. Werden bei Befragungen mehrere Fragen zur Erfassung eines komplexeren Konstrukts gestellt, muss sichergestellt werden, dass auch wirklich alle Fragen eben dieses Konstrukt erfassen. Bei Beobachtungen oder Inhaltsanalysen müssen die Vorschriften für die Erfassung bestimmter Merkmale so eindeutig formuliert sein, dass unter‐ schiedliche mit der Erhebung betraute Personen auch dasselbe erkennen und entsprechend notieren würden. Die Validität bezieht sich auf die Gültigkeit einer Messung. Das umfasst einerseits die Allgemeingültigkeit der Ergebnisse in Hinblick auf die Gene‐ ralisierbarkeit und Repräsentativität. Anderseits geht es darum, dass mit dem Messinstrument auch wirklich die Aspekte erhoben werden, die für 71 3.2 Grundbegriffe <?page no="72"?> 7 Helliwell, J., Layard, R., & Sachs, J. (2019). World Happiness Report 2019, New York: Sustainable Development Solutions Network. die Problemlösung (und das Testen der Hypothesen) benötigt werden. Wird also wirklich das gemessen, was inhaltlich relevant ist. Exkurs | Wie misst man … Wie misst man „Glück“? Sinn des Operationalisierens ist es, die Aspekte messbar zu machen, die zur Lösung eines Problems gebraucht werden. Diese Aufgabe kann unterschiedlich schwierig sein. Während man bereits Grundschüler: innen fragen kann, wie man einen Abstand zwi‐ schen zwei aufgezeichneten Punkten auf einem Blatt Papier messen würde und sie sicherlich zielsicher zum Lineal greifen würden, ist es gerade bei abstrakteren Konstrukten deutlich schwieriger, sich darauf zu einigen, was das passende „Lineal“ ist, das angelegt werden könnte. Wie beispielsweise sollte man Glück messen? Würde man die besagten Grundschulkinder danach fragen, was denn Glück ist und wie man es messen könnte, bekäme man sicher weniger eindeutige Antworten. Es ist davon auszugehen, dass auch die Vorstellungen davon, was Glück bedeutet, unter Erwachsenen weiter auseinanderge‐ hen als die Vorstellung, was es mit Größe auf sich hat. Die Frage aber, wo die Menschen am glücklichsten sind und warum, ist im Sinne eines statistischen Problems durchaus interessant. Aus diesem Grund erhebt die UN seit 2012 regelmäßig den Glücksindex 7 , um darzustellen, wo auf der Welt die Menschen am glücklichsten sind. Gerade weil die Vorstellung von Glück etwas sehr Subjektives ist, können die Forscherinnen und Forscher nicht einfach fragen „Sind Sie glücklich? “ - weil die Vorstellungen weit auseinandergehen und auch stark abhängig sein dürften von anderen Faktoren wie dem kulturellen Einfluss, sodass die Antworten nicht zuverlässig zu vergleichen wären. Darum müssen Wege gefunden werden, dass Konzept „Glück“ so zu übersetzen, dass man es auch über kulturelle Kontexte hinweg erheben kann. Forscher: innen haben sich deshalb dazu entschieden, Glück mithilfe eines Indikators zu erfassen. Konkret bedeutet das, dass die Befragten gebeten worden sind, sich eine Leiter mit 0 bis 10 Stufen vorzustellen. Das obere Ende soll dabei das bestmögliche 72 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="73"?> Leben repräsentieren, welches sich die Befragten für sich vorstellen können. Das untere Ende ist entsprechend das denkbar schlechteste Leben. Die Befragten wurden dann gebeten, sich auf dieser Leiter zu positionieren entsprechend der Wahrnehmung ihres eigenen Lebens. Aus den Antworten der Befragten eines Landes wird der Durchschnitt ermittelt, der wiederum als Grundlage für ein Länderranking dient, wo die Menschen auf dieser Welt am glücklichsten sind. Diverse Faktoren werden zur Erklärung herangezogen. Dazu dienen einerseits subjek‐ tive Faktoren des „well-beings“ (Wohlergehen), wie beispielsweise die Freiheit Entscheidungen für das eigene Leben treffen zu können oder sich sozialer Unterstützung in Problemlagen sicher zu sein. Aber auch länderspezifische Werte wie das Bruttoinlandsprodukt (BIP) und die Lebenserwartung werden zur Erklärung von Länderunterschieden herangezogen. Die Erhebung in mehreren Befragungswellen über die Jahre hinweg ermöglicht es den Forscher: innen außerdem, globale „Happiness Trends“ auszumachen und mit globalen und nationalen Entwicklungen in Verbindung zu bringen. Wie misst man „Lichtgeschwindigkeit“? Auch in den Naturwissen‐ schaften ist eine grundlegende Herausforderung, natürliche Phäno‐ mene zählbar bzw. messbar zu machen und beispielsweise Geräte zu entwickeln, mit deren Hilfe Messungen vorgenommen werden können. Selbst das Lineal oder das Thermometer mussten erst erfunden werden. So hat es Jahrhunderte gedauert, bis schließlich die Lichtgeschwin‐ digkeit gemessen werden konnte und heute als Naturkonstante mit dem Wert 299 792,458 km/ s in den Physikbüchern steht. Den ersten Versuchen zur Messung der Lichtgeschwindigkeit gingen mehrere Jahrhunderte Diskussion darüber voraus, ob Licht sich überhaupt bewegt. Zahlreiche Pro- und Kontra- Argumente dazu wurden aus‐ getauscht und basierten auf zeitgenössischen Theorien des Lichts, auf der Interpretation widersprüchlicher Ansichten von Autoritäten oder religiösen Führern. Unter den Vertretern der Theorie, dass Licht sich bewegt, machte sich die Spaltung an der Frage „endlich“ oder „unendlich“ auf - so glaubten beispielsweise Francis Bacon (1561- 1626), Johannes Keppler (1571-1630) und René Descartes (1596-1650) an die Unendlichkeit der Lichtgeschwindigkeit. Bekannter Verfechter der Theorie, dass die Geschwindigkeit des Lichts endlich und damit messbar ist, war Galileo Galilei (1564-1642). Den 73 3.2 Grundbegriffe <?page no="74"?> ersten empirischen Hinweis auf die Endlichkeit der Lichtgeschwin‐ digkeit lieferte der dänische Astronom Ole Rømer (1644-1710) im Jahr 1676. Bei der Beobachtung des Jupitermondes Io stellte Rømer zeitliche Unregelmäßigkeiten zwischen den Mondfinsternissen fest und führte diese auf die wechselnden Entfernungen zwischen Jupiter und Erde zurück. Weitere astronomische Beobachtungen in den fol‐ genden Jahrzehnten räumten die letzten bestehenden Zweifel über die Endlichkeit der Lichtgeschwindigkeit aus. Die Frage allerdings, wie die Lichtgeschwindigkeit unabhängig von astronomischen Theorien auf der Erde gemessen werden kann, sollte die Wissenschaft noch eine Weile beschäftigen. In der Theorie braucht es dazu zwei Personen, die sich auf einer Distanz mit bekanntem Abstand gegenüberstehen. Person 1 deckt eine Lichtquelle auf, Person 2 ermittelt den Zeitpunkt, zu dem das Licht gesehen wird. Das Problem ist offensichtlich: Da das Licht so schnell ist, bräuchte es eine sehr weite Distanz zwischen den Personen oder eine enorm kurze Zeitmessung - beides ist sehr schwer zu bewerkstelligen. Weitere Annäherungen brachten Apparaturen, die mit Spiegeln (anstelle von Person 2) und Zahnradkonstruktionen (anstelle von Person 1) arbeiteten, mit deren Hilfe die Lichtquelle unabhängig von den Personen auf- und abgedeckt werden konnte. Mit diversen Verfeinerungen der Versuchsanordnung und der Erweiterung durch Drehspiegel gelang es Albert Michelson (1852-1931) im Jahr 1926 die Lichtgeschwindigkeit mit 299 796 ± 4 km/ s zu bestimmen. Dieser Wert hatte lange Gültigkeit bis feinere Messungen mit Interferometern (Geräte, die zur präzisen Messung die Überlagerung von Wellen nutzen) und schließlich Lasern zur endgültigen Festlegung der bis heute gülti‐ gen Konstante der Lichtgeschwindigkeit führten. 3.3 Die klassischen Erhebungsarten In den folgenden Abschnitten werden die klassischen Erhebungsarten zur Erfassung von Daten vorgestellt. Im Kapitel „Die Daten“ folgen weitere Ausführungen dazu, wie bereits existierende Daten gefunden und nutzbar gemacht werden können. Die einfachste Form der Datenerhebung besteht dabei aus dem Festhalten einer Kombination aus einer Untersuchungseinheit und einem bestimmten 74 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="75"?> Merkmal, wobei als Merkmal alles erfasst werden kann, was „messbar“ im Sinne von zähl- und kategorisierbar ist. Sobald also die Haarfarbe und die Größe einer Person notiert sind, wurden bereits zwei Daten für die Untersuchungseinheit (Person) erhoben. Wie genau Daten erhoben werden, hängt davon ab, wer oder was mit welchem Ziel untersucht werden soll. Es gibt im Großen und Ganzen zwei Arten von Studien, die nach ihrem Forschungsdesign, also der Anlage der Studie, unterschieden werden: Be‐ obachtungsstudien und Experimentalstudien. Zu den Beobachtungsstudien zählen Befragungen, Inhaltsanalysen und natürlich Beobachtungen aller Art. Diese Formen der Erhebung zeichnen sich dadurch aus, dass in den Prozess der Datenerfassung nicht eingegriffen wird und die Daten selbst nicht beeinflusst werden. So will man bei der Befragung die Meinungen, Ge‐ fühle oder Einstellungen der Befragten erfassen, wie diese sind, und versucht alle Einflüsse zu minimieren, die diese aufgrund der Befragungssituation irgendwie verändern oder verzerren könnten. Auch bei Beobachtungen, z. B. von Naturphänomenen, sollte nichts unternommen werden, das Phänomen zu verändern, bevor es gemessen wird. Experimentalstudien zeichnen sich dadurch aus, dass bei der Datener‐ hebung sehr wohl eingegriffen wird, und zwar plan- und absichtsvoll. Man spricht in dem Zusammenhang von „Manipulation“. Dabei werden Untersuchungsobjekte einer festgelegten Prozedur unterzogen, um dann die Reaktion zu messen. Experimente haben im direkten Vergleich zu den Beobachtungsstudien einen besonders hervorzuhebenden Vorteil: Sie ermöglichen es deutlich effektiver Ursache- und Wirkungszusammenhänge zu ergründen. Untersuchungsobjekte werden einer bestimmten Ursache ausgesetzt, was den Forschenden ermöglicht, die darauffolgende Wirkung zu erfassen. Beispiel | Tee oder Kaffee? Es soll herausgefunden werden, ob Tee- oder Kaffeetrinker: innen gesün‐ der sind. Dazu könnten Tee- und Kaffeetrinker: innen ausfindig gemacht werden, um diese gesundheitlich auf Herz und Nieren durchzuchecken und mithilfe dieser Beobachtungen dann zu dem Ergebnis zu kommen, dass die Teetrinker: innen im Großen und Ganzen gesünder sind. Jetzt aber gibt es ein Problem: Es kann nicht mit Sicherheit gesagt werden, dass es tatsächlich das Teetrinken ist, dass die Studienteilnehmer: innen gesünder sein lässt. Es könnte genauso gut auch sein, dass Leute, die 75 3.3 Die klassischen Erhebungsarten <?page no="76"?> sich mehr Gedanken über ihre Gesundheit machen, mehr Sport treiben, weniger Fleisch essen usw., dann auch lieber zum Tee greifen als zum Kaffee. Der Tee selbst trägt aber vielleicht gar nichts Positives oder Negatives zum Gesundheitszustand bei. Anders würde die Frage in einer Experimentalstudie angegangen werden. Die Teilnehmer: innen an der Studie würden zufällig auf zwei Gruppen aufgeteilt werden. Eine Gruppe darf über einen festgelegten Zeitraum nur noch Tee trinken, die andere Gruppe nur noch Kaffee. Alle Teilnehmer: innen werden zu Beginn und zum Ende gesundheitlich geprüft. Stellt man dann am Ende der Testphase bei einer Gruppe bessere Werte fest als zu Beginn der Studie und im Vergleich zur anderen Gruppe, dann kann man schon mit höherer Sicherheit sagen, dass das jeweilige Getränk gesünder ist. Diese zugegebenermaßen etwas vereinfachte Erklärung soll auf den fol‐ genden Seiten mit deutlich mehr Informationen über die jeweiligen Erhe‐ bungsmethoden, ihre spezifischen Vor- und Nachteile sowie grundlegenden Anlagen für die Durchführung unterlegt werden. Auch die Problematik zur Unterscheidung zwischen einfachen Zusammenhängen (Korrelationen) und tatsächlichen Ursache-Wirkungsmechanismen (Kausalitäten) wird in späteren Abschnitten noch eingehend behandelt. Bei der Betrachtung der einzelnen Erhebungsmethoden werden auch jeweils unterschiedliche Varianten erklärt. Dabei soll deutlich werden: Mit der Wahl der Erhebungsmethode ist der Entscheidungsprozess noch lange nicht abgeschlossen. Immer wieder müssen Forscher: innen Entscheidungen zur genauen Anlage ihrer Studie darüber treffen, auf welche Art und Weise ihre Forschungsfrage am besten zu beantworten ist. Jede mögliche Variante hat dabei gewisse Vorteile, aber auch immer irgendwelche Nachteile, die von den Forscher: innen abgewogen werden müssen. Um einschätzen zu können, welche Einschränkungen solche Nachteile beispielsweise für die Gültigkeit und Reichweite der Ergebnisse der Studie haben können, lohnt es auch für Journalist: innen, sich mit den wichtigsten Unterschieden vertraut zu machen. Gleichzeitig gilt für die folgenden Abschnitte, dass hier nur für einen grundlegenden Überblick gesorgt werden kann. Dieser reicht aus für ein fundiertes Grundverständnis. Möchte man die Erhebungsmethoden in einem Forschungskontext selbst anwenden, braucht es aber wahrscheinlich noch eine tiefergehende Beschäftigung (und Übung und Erfahrung), wozu 76 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="77"?> am Ende der jeweiligen Abschnitte weitere Literaturhinweise geliefert werden. 3.4 Die Befragung Die Befragung ist wohl die Erhebungsmethode, die in der öffentlichen Debatte am präsentesten ist. Meinungsumfragen aller Art begegnen uns in der Medienberichterstattung regelmäßig. Aus ihnen erfahren wir, wo die Gesellschaft bei bestimmten Themen steht oder welches politische Klima herrscht. Weil Befragungen in solcher Fülle vorhanden und vermeintlich einfach gemacht sind, können sie aber in der Qualität schwanken. Aus diesem Grund wird die Befragung hier etwas detaillierter behandelt. Wann und warum ist die Befragung nützlich? Wir brauchen Befragungen vor allem dann, wenn wir Informationen benötigen, die für Beobachtungen oder Inhaltsanalysen unzugänglich sind, zum Beispiel wenn etwas über kognitive Inhalte (Wahrnehmung, Denken) oder Verhalten aus Vergangen‐ heit oder in der Zukunft (Handlungsabsichten) in Erfahrung gebracht werden soll. Aber auch immer dann, wenn es um das Erfahren subjektiver Bewertungen, Einschätzungen, Einstellungen und Interpretationen geht. Zentrales Ziel vieler Befragungen ist die Ermittlung von Meinungen, Wissen und Wertvorstellungen. Jede Befragung ist eine Interaktion mit real existierenden Personen, die auch als solche gesehen werden sollten und nicht als Objekte bzw. reine Merkmalsträger. Sie sind Informantinnen und Informanten, deren Würde zu respektieren ist. Daraus ergeben sich Folgen für die Forschungsethik, die jeder Befragung - natürlich auch im journalistischen Kontext - zugrunde liegen sollte. Unter den Stichworten Selbstbestimmung, Nichtschaden und Gerechtigkeit verbergen sich im Zusammenhang mit der Befragung kon‐ krete Handlungsleitlinien. Um die Selbstbestimmung der Befragten zu ge‐ währleisten, muss diesen das Recht auf freie, informierte und widerrufbare Zustimmung eingeräumt werden. Zur informierten Zustimmung gehört auch Klarheit darüber, wie mit den eigenen Daten umgegangen wird. Um dies abzudecken, muss Befragten eine Einverständniserklärung vorgelegt werden. Das Nichtschadensprinzip umfasst eine Schaden-Nutzen-Abwä‐ gung. Dabei ist die zentrale Frage: Welche Art der Belastung des Befragten kann im Hinblick auf den Erkenntnisgewinn in Kauf genommen werden? Befragte ohne Vorwarnung mit sensiblen Aspekten zu konfrontieren, sie 77 3.4 Die Befragung <?page no="78"?> unter Stress zu setzen, der über die Befragungssituation hinauswirkt, oder sie einer unnatürlichen Belastung auszusetzen, ist nicht ohne Weiteres zulässig. Forschung, für die eine solche Belastung nötig ist, braucht die Zustimmung einer Ethikkommission. Zum Gerechtigkeitsprinzip gehört, dass die Verteilung von Lasten nicht einseitig auf Personen erfolgt. Das heißt auch, dass prinzipiell niemand von der Befragung ausgeschlossen werden darf, wenn die Person Teil der zu untersuchenden Grundgesamtheit ist. Dies ist forschungspraktisch nicht immer zu erreichen, beispielsweise wenn Umfragen unter allen Wahlberechtigten per Telefon durchgeführt werden, denn dann sind Wahlberechtigte ohne Telefonanschluss bereits ausgeschlossen. 3.4.1 Formen der Befragung Es gibt unterschiedliche Formen der Befragung, die nach dem Grad ihrer Standardisierung unterschieden werden können. Für den statistischen Pro‐ zess sind die Befragungen mit einem hohen Grad der Standardisierung relevant. Bei diesen ist der Verlauf des Interviews genau festgelegt und die Fragen sind für alle Befragten identisch. Es wird versucht, Störeinflüsse so weit wie möglich zu vermeiden, um die Kontrolle über Reiz und Reaktion zu behalten. Ziel dieser Form der Befragung ist es, eine Vergleichbarkeit und Generalisierbarkeit der Ergebnisse zu gewährleisten. Das Sicherstellen der Repräsentativität der Gesamtstudie ist hier ein wichtiges Anliegen. Bei weniger standardisierten Befragungsformen lassen sich weitere Unterteilungen vornehmen. Die unstrukturierte Befragung kommt dem „normalen“ Gespräch am nächsten. Halbstrukturierte Interviews oder auch Leitfadeninterviews folgen einem Plan mit vorher festgelegten Fragen, von denen beispielsweise durch Nachfragen auch abgewichen werden kann. Auch besteht die Möglichkeit der Interviewführung als Gruppendiskussion, bei der auch die Interaktion der Befragten eine Rolle spielen kann. Die weniger standardisierten Formen zielen in der Regel darauf ab, individuelles Verhalten oder subjektive Einstellungen nachzuvollziehen. Auch weniger standardisierte Befragungen können Teil eines statistischen Prozesses sein, allerdings weniger unmittelbar als die standardisierten. Das erhobene Mate‐ rial kann aber beispielsweise Grundlage sein für weitere quantitative Codie‐ rungen, durch die dann wiederum quantifizierbare Erkenntnisse gewonnen werden können. Allerdings sind hier die Methoden der Inhaltsanalyse zur Aufbereitung der statistischen Daten nötig, dazu später mehr. 78 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="79"?> 3.4.2 Varianten der standardisierten Befragung Innerhalb der standardisierten Befragung kann man weiterhin nach der Form (mündlich, schriftlich, computergestützt, mediengestützt) und nach der Frequenz (einmalig oder mehrmalig) unterscheiden. Querschnittstu‐ dien finden einmalig statt. Bei den Längsschnittstudien (oder auch Pa‐ nelstudien) werden dieselben Befragten mehrmals befragt. Befragungen zum selben Thema aber zu unterschiedlichen Zeitpunkten und mit unter‐ schiedlichen Befragten nennt man Trend- oder Tracking-Studien. Wann es angebracht ist, eine einmalige oder mehrmalige Erhebung zu machen, hängt vom zu lösenden Problem bzw. der zu beantwortenden Frage ab. Ursache und Wirkungszusammenhänge beispielsweise benötigen eher das Längsschnittdesign, um Wirkungsrichtungen identifizieren zu können. Das Beispiel aus dem vorherigen Kapitel mit der Befragung ostdeutscher Bürger: innen zu ihrem Demokratieverständnis würde in die Kategorie dieser Trendstudien fallen, denn hier wurde im Abstand von 15 Jahren die Befragung mit größtenteils ähnlichen Fragen zum selben Thema aber mit neuen Befragten wiederholt. Dieses Vorgehen ermöglicht, Änderungen statt nur einer Momentaufnahme der kollektiven Meinung zu erfassen und eröffnet Möglichkeiten für Erklärungen durch Ereignisse oder politische Entwicklungen. 3.4.3 Vor- und Nachteile der Befragung Der große Vorteil der Befragung ist, dass damit die Untersuchung von Situationen möglich ist, die für weniger reaktive Verfahren (Inhaltsanalyse, Beobachtung) nicht zugänglich sind. Nur durch die Befragung können sub‐ jektive Bewertungen, Einschätzungen, Einstellungen und Interpretationen erhoben werden. Aus diesem Vorteil ergeben sich aber auch Nachteile, die es zu reflektieren gilt. Weil jede Befragung eine soziale Situation darstellt, können vor allem zwischenmenschliche Faktoren die Messungen beeinflus‐ sen. Die Reaktivität dieser Erhebungsmethode ist im Vergleich zu anderen Erhebungsmethoden am höchsten, d. h. das vor allem soziale Komponenten in der Erhebungssituation Einfluss auf die Messung nehmen können. Das Problem der sozialen Erwünschtheit ist hier besonders hervorzuheben. Weil Menschen sich nicht isolieren wollen, wenn sie vermeintlich von einer Norm abweichen, kann es passieren, dass ihr Antwortverhalten nicht dem entspricht, was sie eigentlich denken/ fühlen/ planen sondern eher dem, was 79 3.4 Die Befragung <?page no="80"?> sie erwarten, was sozial angemessen ist und wie man denken/ fühlen/ han‐ deln sollte. Sie antworten nicht wahrheitsgemäß, weil sie glauben, dass eine andere Antwort von ihnen erwartet wird oder weil sie sich z. B. vor den Interviewer: innen für ihre Einstellung schämen. Auch kann die Interviewsituation als solche das ehrliche Antworten beeinflussen, wenn Befragte sich beispielsweise von der Umgebung oder denjenigen, die das Interview führen, eingeschüchtert fühlen. Die Befragung zielt oft darauf ab, nicht manifeste Informationen zu erhalten. Das hat Konsequenzen, denen man sich bewusst sein sollte. Oft stellen Befragungen daher Momentaufnahmen dar. Meinungen aber sogar Erinnerungen können sich verändern (auch nach Tagesform von Befrag‐ ten). Einstellungen zu bestimmten Themen können durch äußere Einflüsse (Ereignisse, Medienkonsum, Gespräche) beeinflusst werden. Handlungsab‐ sichten (wie Wahlentscheidungen) können sich kurzfristig ändern. Oder Menschen können sich ihrer Gefühle gar nicht genau bewusst sein oder haben vielleicht schlicht keine Meinung zu einem Thema, auf das sie erst durch die Befragung aufmerksam gemacht werden. Dazu kommt, dass nicht alle Befragten gleichermaßen zugänglich sind. Kinder oder sehr alten Menschen, Leute mit Problemen beim Verstehen oder sich Ausdrücken können weniger verlässlich(e) Informationen liefern. Führt man sich den kognitiven Prozess vor Augen, den Befragte in der Untersuchungssituation durchlaufen müssen, erkennt man schnell, dass bei jedem Schritt Probleme auftauchen können. Diese sollten durch die sorgfältige Vorbereitung und Durchführung möglichst klein gehalten werden. Zu Beginn müssen Befragte zur Kenntnis nehmen, dass sie sich in einer Befragungssituation befinden, die mit bestimmten Erwartungen an sie verknüpft ist, beispielsweise dass sie ehrlich antworten. Sie müssen die Frage oder Aufgabe als solche erkennen und verstehen, was von ihnen verlangt ist, also welche Art der Information (und in welcher Form) abgerufen werden muss/ soll. Entsprechend müssen sie überlegen, sich vielleicht erinnern, um zu einem Urteil zu kommen. Dieses Urteil muss sich in einer Antwort ausdrücken. Bei standardisierten Befragungen muss dieses Urteil im Rahmen der vorgegebenen Antwortmöglichkeiten erfolgen, das heißt, es muss auch noch ein Abgleich auf Passung der eigenen Einschätzung und der Vorgabe erfolgen. Die Befragungssituation sowie die Frageformulierung müssen darauf ausgerichtet sein, dass dieser Prozess bei den Befragten möglichst störungsfrei abläuft, um die gültige Messung zu gewährleisten. 80 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="81"?> 3.4.4 Güte einer Befragung Die Gütekriterien der Reliabilität und Validität bei der Befragung zu prüfen ist keine einfache Aufgabe, gerade weil es sich hier um eine hoch reaktive Erhebungsmethode handelt. Ob das Messinstrument zu unterschiedlichen Zeitpunkten unter gleichen Bedingungen dasselbe misst (Reliabilität), kann beispielsweise nicht mit derselben Person getestet werden, weil dann die erste Befragungssituation Einfluss auf die zweite nimmt. Dazu kommen mögliche Meinungswandel bei den Befragten oder unterschiedliche Stim‐ mungen oder Gefühlslagen, die die Reliabilitätsmessung durch Wiederho‐ lung verhindern. Die Reliabilität von Konstrukten zur Messung von kom‐ plexeren Sachverhalten wiederum kann mathematisch getestet werden. Die Grundidee ist, dass wenn ein Konstrukt über mehrere Fragen erfasst wird (man spricht von „Items“), dann sollten diese in der Richtung und Stärke des Antwortverhaltens auch ähnlich sein. Eine aus den Items zusammengesetzte Skala, die das theoretische Konstrukt abbilden soll, muss daher intern konsistent sein. Die Validität der Messung zu prüfen ist nur eingeschränkt möglich. Verständnisprobleme der Befragten lassen sich im Pretest klären. Schwie‐ riger wird es eine „falsche“ Beantwortung durch eingeschränkte Erinnerung aufzudecken. Auch soziale Erwünschtheit kann die Gültigkeit der Messung einschränken, wenn die Antworten nicht der Realität entsprechen. Gleiches gilt, wenn eigentlich gar keine Meinung vorhanden ist, aber eine Frage trotzdem beantwortet wird. 3.4.5 Frageformen Der Fragebogen stellt bei der Befragung das Messinstrument da. Das heißt, er muss genau die Variablen erfassen, die als nötig für die Beantwortung des Problems erachtet werden. Um dies zu leisten, müssen Testfragen entworfen werden, mit denen die relevanten Variablen gemessen werden. Im Zuge dieser Operationalisierungsleistung werden diverse Entscheidungen getroffen. Das grundlegendste Problem, das es zu lösen gilt, lautet dabei immer: Wie muss eine Frage gestellt sein, damit wirklich gemessen wird, was gemessen werden soll. Nicht immer kann so direkt gefragt werden, wie beispielsweise nach der Angabe des Alters. Soll beispielsweise ein Phä‐ nomen wie Rassismus erfasst werden, wird man nicht weit kommen mit der direkten Frage: „Wie rassistisch sind Sie? “ Stattdessen wird man überlegen 81 3.4 Die Befragung <?page no="82"?> müssen, über welche weniger direkten Angaben rassistische Einstellungen oder rassistisches Handeln erfasst werden kann und in welcher Form diese abgefragt werden können. Es gibt zwei wichtige Oberkategorien für Fragen: offene und geschlossene Fragen. Beide Formen haben Vor- und Nachteile, die es abzuwiegen gilt entsprechend des Ziels, das man verfolgt. Offene Fragen kommen dem informellen Gespräch und auch dem journalistischen Interview am nächs‐ ten. Sie laden die Befragten zum Erzählen und Berichten ein. Es werden keine Antwortmöglichkeiten vorgegeben. Damit kommt es weniger zu Verzerrungen durch vorgefasste Meinungen der Forschenden. Auch ermög‐ lichen sie mehr Spontaneität und eine größere Bandbreite der Antworten. Die individuelle Ausdrucksweise und Wortwahl sowie subjektive Assozia‐ tionen lassen sich mit offenen Fragen konservieren und erfassen. Allerdings sind offene Fragen deutlich aufwendiger in der Auswertung. In der Regel benötigen sie einen eigenen Kodiervorgang mit einem inhaltsanalytischen Instrument zur nachträglichen Kategorisierung. Auch stellen offene Fragen höhere Ansprüche an die Befragten, was beispielsweise die Artikulations‐ fähigkeit aber auch die Motivation zur ausführlichen und authentischen Antwort angeht. Da der Kontakt zur interviewenden Person durch die persönlichere Gesprächssituation in der Regel enger ist, kann auch der Einfluss der Interviewenden entsprechend höher sein und zu Verzerrungen im Antwortverhalten, insbesondere durch soziale Erwünschtheit, führen. Geschlossene Fragen sind in der Regel reliabler. Bei offenen Fragen kann man nie ganz sicher sein, ob die Befragten auch genau die Aspekte behandeln, die gemessen werden sollen bzw. die für die Lösung des Ein‐ gangsproblems relevant sind. Durch die Vorgabe der Antwortmöglichkei‐ ten wird diese Gefahr verringert. Die Einheitlichkeit des Bezugsrahmens erhöht daher die Validität. Dazu kommt die bessere Vergleichbarkeit der Antworten. Auch lassen sich die Antworten geschlossener Fragen eher generalisieren. Dem gegenüber stehen die Nachteile, die als Gegenpart zu den Vorteilen der offenen Fragen gelesen werden können. Natürlich entspricht die Befragung mit geschlossenen Fragen stärker einer künstli‐ chen Situation im Vergleich zum natürlichen Gespräch. Sie lässt weniger Spontaneität zu und die individuelle Ausdrucksweise und die Wortwahl der Befragten werden nicht erfasst. Auch müssen die Befragten ihre persönliche Antwort auf eine Frage in Übereinstimmung mit einer der ihnen vorgegeben Kategorien bringen. Entspricht die Passung nicht Hundertprozent, kann es zu Verzerrungen kommen. 82 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="83"?> 3.4.6 Frageformulierung Egal ob offene oder geschlossene Fragen, es gibt grundlegende Regeln, die es bei der Formulierung der Fragen und Erstellung des Fragebogens zu beachten gilt (ausführlich dazu Porst, 2014). Diese können gleichzeitig als Checkliste gesehen werden, um das Befragungsinstrument von anderen zu beurteilen. 1. Einfache, unzweideutige Begriffe verwenden: Ist man in einem be‐ stimmten Fachgebiet mit einer ausgeprägten Fachsprache und entspre‐ chenden Begriffen unterwegs, fällt es manchmal schwer, sich von diesen Begriffen zu lösen und alltagstaugliche Formen zu finden. Für die allermeisten Fachbegriffe gibt es aber einen einfachen alltagstauglichen Begriff. Je nach Zielgruppe und Grundgesamtheit sollte auch bedacht werden, dass auch nicht muttersprachliche Befragte erreicht werden sollten. Eine Sprachbarriere aufgrund von unnötig schwierigem Voka‐ bular sollte vermieden werden. Die Mehrdeutigkeit von Begriffen muss im Kontext der Frage und der Gesamtbefragung überprüft werden. Kann ein Wort unterschiedlich verstanden werden im entsprechenden Kontext, sollte eine einschränkende Erklärung oder ein anderer Begriff gewählt werden. 2. Unklare Begriffe definieren: Ist es nicht möglich, einen bestimmten Fachbegriff zu „übersetzen“, sollte eine kurze und verständliche Erklä‐ rung geliefert werden. Dies kann auch bei modernen Lehnworten - also aus anderen Sprachen entnommene Begriffe - der Fall sein. 3. Lange und komplexe Fragen vermeiden: Gerade bei Telefoninterviews sind lange Fragen unangebracht, die eine hohe Konzentration der Befragten voraussetzen. Auch bei schriftlichen Befragungen erst einen Absatz lesen zu müssen, um die eigentliche Frage überhaupt zu finden, kann die Motivation der Befragten enorm einschränken. Kurze und auf den Punkt gebrachte Fragen sind sicher eine Kunst, sollten aber immer das Ziel sein. Verschachtelungen, bei denen Befragte erst überlegen müssen, welche Bezüge zwischen welchen Gedanken hergestellt wor‐ den sind, sollten dringend vermieden werden. 4. Hypothetische Fragen vermeiden: „Nehmen wir mal an, dass…“, „Vor‐ ausgesetzt Sie haben.“, „Gesetzt dem Fall, dass…“ - solche Fragen laden zur Spekulation ein. Man erfährt dabei nichts darüber, wie Befragte in einer tatsächlichen Situation handeln, denken oder fühlen würden. Das macht das Fragen nach zukünftigen Handlungsabsichten in der Regel 83 3.4 Die Befragung <?page no="84"?> auch schwierig. Selbst bei der häufig gestellten Frage, welche Partei gewählt würde, wäre am nächsten Sonntag Bundestagswahl, muss man sich der Schwäche bewusst sein, dass die tatsächliche Handlung dann eben auch ganz anders aussehen könnte. 5. Doppelte Stimuli und Verneinungen vermeiden: Die Frage sollte eindeu‐ tig sein und auf genau eine Antwort abzielen. Verwirrung darüber, was genau eigentlich Gegenstand der Frage ist, sollte vermieden werden. 6. Unterstellungen und Suggestivfragen vermeiden: „Wie Sie vielleicht auch schon wissen…“; „Viele Leute meinen ja…“, „Sie haben doch be‐ stimmt auch schon einmal …“ - Diese Art der Fragen haben in einer Befragung nichts zu suchen. Sie fördern soziale Erwünschtheit und die Orientierung an einer vermeintlichen Mehrheit. 7. Fragen zu Informationen vermeiden, die Befragte nicht haben: Insbe‐ sondere wenn Befragte anfangen zu spekulieren, obwohl ihnen die tatsächlichen Informationen fehlen, kann es zu Verzerrungen der Er‐ gebnisse führen. 8. Fragen mit eindeutigem zeitlichem Bezug formulieren: Statt allgemein zu fragen, ist es oft ratsam, einen sehr genauen zeitlichen Rahmen zu setzen. Statt beispielsweise zu fragen: „Wie oft gehen Sie ins Kino? “ kann man konkret fragen, „Wie oft waren Sie im letzten Monat/ im letzten halben Jahr im Kino? “ Mit der Vorgabe einer Zeit sollen Befragte gezielt ihre Erinnerung aktivieren, statt nach Bauchgefühl einen ver‐ meintlichen Mittelwert zu nennen. 9. Disjunkte (überschneidungsfreie) und erschöpfende Antwortkatego‐ rien verwenden: Die Erstellung der Antwortkategorien erfordert eine besonders hohe Aufmerksamkeit. Die Spannbreite der möglichen Ant‐ worten soll abgedeckt werden. Befragten soll die Möglichkeit gegeben werden, sich eindeutig zu positionieren und nicht erst abwägen zu müssen, weil ihre Antwort anteilig zur einen oder zur anderen Kategorie passt. 10. Kontext der Frage soll sich nicht auf die Beantwortung auswirken: Sogenannte „Reihenfolgeeffekte“ kommen in der Praxis oft vor, sollten aber natürlich minimiert werden. Das heißt, der Fragebogen sollte nach Möglichkeit so angeordnet werden, dass die Beantwortung einer Frage nicht die Beantwortung anderer Fragen beeinflusst. Das kann der Fall sein, wenn besonders sensible Fragen (z. B. zu Geld, Sexualität etc.) die Bereitschaft zur Beantwortung weiterer Fragen verringert. Auch bei politischen Fragen ist auf die Reihenfolge besonders zu achten. Wird 84 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="85"?> 8 https: / / www.gesis.org/ angebot/ studien-planen/ items-und-skalen (letzter Zugriff: 19.7.2021) 9 Hübner, M., Schmidt, P., Schürhoff, R., Schwarzer, S. (2014). Allgemeine Autoritaris‐ mus-Kurzform. Zusammenstellung sozialwissenschaftlicher Items und Skalen (ZIS). http s: / / doi.org/ 10.6102/ zis119 (letzter Zugriff: 19.7.2021) beispielsweise erst nach der Meinung zu Klimapolitik gefragt und etwas später zur Zustimmung zu Parteien, dann ist die Wahrscheinlichkeit hoch, dass genau dieses Thema „Klimapolitik“ herangezogen wird zur Bewertung der Parteien, weil es gerade präsent (gemacht worden) ist im Kopf der Befragten, obwohl die Forscher: innen die Fragen unabhängig voneinander gedacht haben. 3.4.7 Etablierte Fragebogenelemente Nicht mit jeder Befragung muss das Rad neu erfunden werden. Viele kluge Köpfe machen sich fortlaufend Gedanken darüber, wie bestimmte soziale Konstrukte reliabel und valide gemessen und in Befragungen erhoben wer‐ den können. Auch zur Vergleichbarkeit von Studien bietet es sich schließlich an, gleiche Instrumente zu verwenden, die in mehrstufigen Verfahren bereits getestet und für brauchbar erklärt worden sind. Eine für den deutschen Forschungsraum wichtige Zusammenstellung sozialwissenschaftlicher Items und Skalen findet sich bei GESIS - Leib‐ niz-Institut für Sozialwissenschaften 8 . Zu übergeordneten Bereichen wie Arbeit und Beruf, Bildung, Gesundheit, Persönlichkeit, Politik, Umwelt und weiteren finden sich etablierte Instrumente, die dort mit ihrem theoreti‐ schen Hintergrund, ihrer Entwicklungsgeschichte, den Gütekriterien und weiteren Literaturhinweisen gelistet sind. Für manche Konstrukte gibt es Item-Batterien in unterschiedlichem Umfang. Je nachdem wie wichtig das jeweilige Konstrukt für die Forschungsfrage ist, müssen Forscher: innen abwägen, ob sie kürzere oder längere Varianten für ihre Fragebögen ver‐ wenden. Beispiel | Erfassung von allgemeinem Autoritarismus Das folgende Beispiel zur Erfassung von allgemeinem Autoritarismus - also der Zugewandtheit zu autoritären Führungs- und Herrschaftsfor‐ men - als Persönlichkeitsmerkmal wurde von Hübner und Kolleg: innen 9 85 3.4 Die Befragung <?page no="86"?> 10 Allgemeine Bevölkerungsumfrage der Sozialwissenschaften, https: / / www.gesis.org/ al lbus/ allbus (letzter Zugriff: 19.7.2021) entwickelt und ist seither unter anderem regelmäßig Teil der großen Allbus-Erhebungen, einer allgemeinen Bevölkerungsumfrage für Sozi‐ alwissenschaften 10 . Diese Kurzform basiert auf einer ausführlicheren Autoritarismusskala mit 22 Items, die Anfang der 1980er Jahre von Gerda Lederer entwickelt wurde. Diese Items sahen u. a. wie folgt aus: 1 Zu den wichtigsten Eigenschaften, die jemand haben kann, gehört disziplinierter Gehorsam der Autorität gegenüber. 2 Die derzeitige Kriminalität und sexuelle Unmoral lassen es unumgäng‐ lich erscheinen, mit gewissen Leuten härter zu verfahren, wenn wir unsere moralischen Prinzipien wahren wollen. 3 Wir sollten dankbar sein für führende Köpfe, die uns genau sagen können, was wir tun sollen und wie. 4 Im Allgemeinen ist es einem Kind im späteren Leben nützlich, wenn es gezwungen wird, sich den Vorstellungen seiner Eltern anzupassen. Befragte werden hier um die Zustimmung auf der 7-stufigen Skala von 1 = stimme zu bis 7 = lehne ab gebeten. Alle Items sind so konstruiert, dass sie von Personen mit autoritären Denkstrukturen bejaht werden sollten. Der Autoritarismus einer Person sollte also umso höher sein, je niedriger ihr Punktwert auf der Gesamtskala ist, nachdem die Werte der einzelnen Antworten zu jedem Item zu einem Index zusammenaddiert worden sind. Dieser Schritt ist wiederum nur zulässig, wenn eine Faktorenanalyse vergleichbare Faktorenladungen der Items aufzeigt. Die Faktorladung des einzelnen Items gibt dabei an, wie dieses Item zur Erklärung der Varianz (der Streuung) der zugrundeliegenden Variablen, in diesem Fall also Autoritarismus, beiträgt. 86 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="87"?> 3.5 Die Inhaltsanalyse Im Vergleich zur Befragung ist die Inhaltsanalyse eine sogenannte nicht reaktive Erhebungsmethode. Papier ist geduldig, ist ein Ausspruch, der auch hier gilt. Bei der Inhaltsanalyse sollen Merkmale bereits festgehaltener Me‐ dieninhalte erfasst werden, sei es gedruckt, audio-visuell oder digital. Diese Inhalte werden durch die Analyse aber weder verändert noch beeinflusst. Anders als bei der Befragung, wo die Befragungssituation durchaus Einfluss auf die Befragten nehmen kann. Inhaltsanalysen gehören klassischerweise ins Feld der Medien- und Kommunikationswissenschaften. Sie unterscheiden sich beispielsweise von Textanalysen in den Literaturwissenschaften dadurch, dass sie nicht auf den einzelnen Text abzielen, sondern größere Mengen erfassen wollen, um übergreifende Aussagen machen zu können. In vielen Fällen dienen Inhaltsanalysen also dazu, direkt oder indirekt die Arbeit von Journalist: in‐ nen zu bewerten, indem sie aufzeigen, wie die Medienberichterstattung über bestimmte Themen oder in einem Zeitverlauf beschaffen ist. Journa‐ list: innen kann das generelle Einblicke in ihre Branche und damit ein besseres Verständnis ihres Arbeitsumfelds liefern. Auch kann es bei der Reflexion der eigenen Arbeit nützlich sein, wenn man diese mit allgemeinen Trends abgleicht. Analysen über die Darstellungen von Migrant: innen bei‐ spielsweise können sowohl meta-mediale Diskussionen (also Diskussionen in den Medien über die Medienberichterstattung) initiieren, als auch zum Hinterfragen persönlicher Arbeitsweisen und Stereotype dienen. Selbstver‐ ständlich dienen solche Analysen darüber hinaus auch dem allgemeinen Verständnis über bestimmte gesellschaftliche Debatten und wie diese sich im Laufe der Zeit verändern. Solche Reflexionen wiederum können durchaus als Anstoß zur Berichterstattung dienen. Zunehmend relevant werden aber über die Untersuchung von Berichter‐ stattung hinaus auch Erhebungen, die sich mit den Inhalten in sozialen Netzwerken befassen. Untersuchungen von Kommentarverhalten beispiels‐ weise können nützliche Hinweise für Journalist: innen und Social Media Editor: innen liefern, die online Debatten moderieren (müssen). Auch über die Dynamiken von sogenannten Shitstorms ließe sich per Inhaltsanalyse Wissen generieren. Automatisierte Inhaltsanalysen bieten darüber hinaus heute weitere Möglichkeiten, gesellschaftliche Debatten nachvollziehen zu können. 87 3.5 Die Inhaltsanalyse <?page no="88"?> 3.5.1 Inhalte erfassen Die große Schwierigkeit bei der Inhaltsanalyse besteht darin, sehr genau und eindeutig zu definieren, welche inhaltlichen und formalen Merkmale erfasst werden sollen. Außerdem prägt die Debatte um latente und manifeste Inhalte die Tradition der Inhaltsanalyse. Manifeste Inhalte sind solche, die sich relativ eindeutig definieren und zählen lassen. Die Häufigkeit des Vorkommens bestimmter Wörter, die Häufigkeit der Nennung bestimmter Personen, Ereignisse, Orte etc. Deutlich schwieriger wird es, will man latente Inhalte erheben, beispielsweise Implikationen, einen mitschwingen‐ den Kontext oder Wertungen. Aber schon der Ton eines Textes ist als latentes Merkmal schwer zu erfassen, weil im Prinzip die zugrundeliegende Intention der Autor: innen mitgedacht und interpretiert werden muss. Bei der Erfassung von latenten Inhalten ist es darum ungleich schwerer sicher‐ zustellen, dass unterschiedliche Personen auch das Gleiche verstehen und die Erfassung nicht allein in der Betrachtung einer Einzelperson liegt. In der Forschungsrealität zeigt sich allerdings schnell, dass die Dichotomie zwischen latent und manifest oft wenig hilfreich ist, weil die Grenzen in vielerlei Hinsicht fließend sind. Was für eine Person manifest erscheint, kann für die andere weniger eindeutig sein und sehr wohl Spielraum für Interpretation offenlassen. 3.5.2 Kategorien bilden Bei der Inhaltsanalyse sollen größere Textmengen hinsichtlich bestimmter Merkmale untersucht werden. Dies dient vor allem der Komplexitätsreduk‐ tion, aus der dann übergreifende Schlüsse gezogen werden können. Die zu erfassenden Merkmale nennt man im Kontext der Inhaltsanalyse Katego‐ rien. Das Kategoriensystem muss - so wie der Fragebogen bei der Befragung - genau die Variablen erfassbar machen, die von theoretischem Interesse sind und zur Lösung des Eingangs formulierten Problems dienen. Je nach Tiefe der Fragestellungen können Kategorien noch in Unterkategorien eingeteilt werden. Für jede (Unter-)Kategorie werden außerdem die mögli‐ chen Ausprägungen definiert, die vergleichbar sind mit den vorgegebenen Antworten bei einer standardisierten Befragung. In der Regel wird zwischen formalen und inhaltlichen Kategorien un‐ terschieden. Formale Kategorien erfassen die formalen Merkmale der Untersuchungseinheit, beispielsweise die Form des Mediums, das Erschei‐ 88 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="89"?> nungsdatum, Länge eines Textes (in Form der Wortzahl bei Artikeln oder mit der Angabe der Dauer bei audiovisuellen Produkten) oder das Ressort bzw. die Rubrik, in der die Untersuchungseinheit erschienen ist. Anhand der formalen Angaben sollte jede Untersuchungseinheit eindeutig identifizier‐ bar sein. Die inhaltlichen Kategorien erfassen solche Merkmale des Textes, die unmittelbar im Interesse der Forschungsfrage liegen. Bei allen Kategorien muss darauf geachtet werden, dass sie systematisch erstellt werden, d. h. eben genau auf das Forschungsvorhaben und die theoretischen Konzepte ausgerichtet, dabei aber auch sparsam im Sinne der Vermeidung von Erfas‐ sung unnötiger Informationen. Dazu müssen alle Kategorien intersubjektiv nachvollziehbar sein, d. h. eindeutig verständlich unabhängig von den Forschenden. Die Definitionen der Kategorien werden im Codebuch festgehalten. Dieses enthält alle Anweisungen, die dazu benötigt werden, die relevanten Informationen des Textes zu erfassen. Die Kodieranweisungen beschreiben im Detail, was mit einer Kategorie gemeint ist und wie die Merkmale erkannt und erfasst werden sollen. In der Regel wird jede Kategorie mit einem oder mehreren Ankerbeispielen versehen, die einen typischen Fall darstellen, der zu erheben wäre. Wie schon die Antwortmöglichkeiten bei der Befragung müssen die Aus‐ prägungen der Kategorien der Inhaltsanalyse vor allem den Anforderungen der Vollständigkeit und Trennschärfe entsprechen. Vollständig sind die angegeben Ausprägungen, wenn jede Variation eines Merkmals erfasst wird. Im Zweifel können selten vorkommende Ausprägungen, die von weniger großem Interesse sind, unter „Sonstiges“ oder ähnliches zusammengefasst werden. Dabei sollte sehr darauf geachtet werden, dass sich wirklich eine kleine Minderheit der Fälle in so einer Restekategorie wiederfindet. Eine erschöpfende Beantwortung der Forschungsfragen wäre anderweitig nicht möglich, wenn durch unvollständige Kategorien wichtige Informationen verloren gehen. Trennscharf sind Kategorien dann, wenn sich die Ausprä‐ gungen gegenseitig ausschließen und eindeutig zuordenbar sind. Sehen sich Befragte bei der Erhebung gezwungen, sich zwischen zwei Ausprägungen entscheiden zu müssen, kann das erhebliche Konsequenzen für die Güte der Studie haben. Das Kategoriensystem muss sich schlussendlich in ein Variablensystem in einem Datenblatt, dem Codiersheet, übertragen lassen. In der Regel sind alle Inhaltsanalysen heute computergestützt, das heißt dass Kodierer: innen 89 3.5 Die Inhaltsanalyse <?page no="90"?> die Daten im Zuge der Erhebung direkt am PC eingeben. Dazu wird eine Form gewählt, die später einen Datensatz ergibt, in dem jede Zeile einen Fall darstellt. Je nach Analyseeinheit kann das dann ein Artikel oder ein Online-Kommentar sein oder, wenn kleinteiliger erhoben wird, ein Absatz oder eine Sinneinheit, ein Beitrag innerhalb einer Sendung usw. Jede Spalte repräsentiert dann eine Variable, sodass Kodierer: innen in jedes Feld der Tabelle die Ausprägung eines Merkmals der Variable für den jeweiligen Fall eintragen. 3.5.3 Besondere Herausforderungen bei der Inhaltsanalyse Wenn sie gut und sorgfältig gemacht sind, können Inhaltsanalysen viel zum Verständnis gesellschaftlicher Debatten und öffentlicher Kommunikation beitragen und damit auch für Journalist: innen sehr nützlich sein. Sie sind allerdings mit spezifischen Herausforderungen verbunden, die jeweils gro‐ ßen Einfluss auf die Qualität von Inhaltsanalysen haben können und daher besonderer Beachtung bedürfen. Es sprengt den Rahmen dieses Buches, auf alle Punkte im Detail einzugehen, insbesondere weil die Durchführung einer eigenen Inhaltsanalyse in der journalistischen Arbeit eher unwahrscheinlich ist. Dennoch gilt natürlich, dass auch Journalist: innen Inhaltsanalysen nach ihrer Qualität beurteilen können sollten, wenn ihnen diese bei einer Recherche begegnen. Daher bietet dieser Abschnitt einige Anhaltspunkte, auf die man den Blick besonders richten sollte. Material(beschaffung) Wie auch bei der Befragung gibt es bei der Inhaltsanalyse eine Grundgesamt‐ heit, beispielsweise Medienberichterstattung oder Kommentare in Social Media zu bestimmten Themen, über die Aussagen getroffen werden soll. Die Bestimmung der Grundgesamtheit hängt auch hier genau davon ab, was untersucht werden soll. Interessiert man sich beispielsweise dafür, wie sich die gesellschaftliche Debatte um Kernkraft in den letzten Jahrzehnten entwickelt hat, ist es nötig, den räumlichen und zeitlichen Geltungsbereich genau zu definieren. Dieser sollte nicht willkürlich gewählt werden, sondern ebenfalls rückgebunden sein an das Erkenntnisinteresse. Das erste Kern‐ kraftwerk ging in Deutschland im Jahr 1961 ans Netz. Will man die gesell‐ schaftliche Debatte vollständig nachvollziehen, könnte es sinnvoll sein, rund um diesen Zeitpunkt den Beginn des Erhebungszeitraums zu definieren. 90 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="91"?> 11 https: / / www.lexisnexis.de (letzter Zugriff: 19.7.2021) Interessiert man sich für die gesellschaftliche Debatte in Deutschland, wird man auch auf deutsche Medien und ihre Berichterstattung über das Thema zurückgreifen. Die zweite große Herausforderung, der sich jede Inhaltsanalyse stellen muss, ist die Frage, welche Medien untersucht werden sollen. Welche Me‐ dien beispielsweise bilden die gesellschaftliche Debatte zu einem gewählten Thema ab? Der öffentliche Diskurs findet an sehr vielen unterschiedlichen Stellen statt und ist über die Jahrzehnte komplexer geworden. Während die Reichweiten einzelner Zeitungen, Fernseh- und Radiosender noch vor wenigen Jahrzehnten mangels eingeschränkter Alternativen und weniger Ausdifferenzierung deutlich höher waren, kommt man heute bei der De‐ finition von Leitmedien schon eher ins Straucheln. Leider ist es gerade bei zurückblickenden Inhaltsanalysen sehr häufig der Fall, dass die Mate‐ rialerhebung stark von forschungspraktischen Beschränkungen bestimmt wird, vor allem wenn Medieninhalte gar nicht oder nicht systematisch archiviert oder archiviertes Material nur sehr schwer zugänglich ist. Bei großen Qualitätszeitungen ist die Beschaffung häufig noch eher möglich, heutzutage zunehmend auch schon digitalisiert. So reicht das digitale Archiv des Spiegels beispielsweise bis zur ersten Ausgabe 1947. Über die Datenbank Nexis 11 lässt sich eine Vielzahl internationaler Printangebote mehrerer Jahre (unterschiedlich und abhängig vom Medium) einsehen. Das Angebot bedarf allerdings einer gültigen Lizenz, die nicht alle Universitäten bereitstellen. Soll es darüber hinaus um die Erhebung von Audio- oder audiovisuellem Material gehen, wird es ungleich schwieriger. Und auch wenn es gerne heißt, das Internet vergisst nicht, so stimmt das nicht grundsätzlich. Gerade Seiten mit Artikeln, Blogeinträgen oder Videos werden durchaus nach gewisser Zeit wieder offline genommen, wenn beispielsweise Webspace und Serverkapazitäten gespart werden sollen. Hier müssen Wege zur Sicherung des Materials gefunden werden. Will man Material ab der Gegenwart (oder einem Zeitpunkt in naher Zukunft) erheben, besteht die Möglichkeit, die gewünschten Medien selbst zu sammeln und zu sichern. Je nach Umfang der Untersuchung kann das zur logistischen und finanziellen Herausforderung werden und will gut geplant und organisiert sein. Ist die Grundgesamtheit bestimmt, muss auch bei der Inhaltsanalyse die Entscheidung getroffen werden, ob eine Vollerhebung möglich ist (bei einer 91 3.5 Die Inhaltsanalyse <?page no="92"?> klar eingegrenzten und überschaubaren Grundgesamtheit) oder ob eine Stichprobe gezogen wird (siehe dazu Abschnitt zur Stichprobenziehung). Neben der klassischen Zufallsstichprobe gibt es bei der Wahl des Untersu‐ chungsmaterials für die Inhaltsanalyse noch weitere Möglichkeiten. Eine weit verbreitete Variante ist die Erstellung künstlicher Wochen über einen definierten Zeitraum. Dies soll sicherstellen, dass besondere Ereignisse in der Berichterstattung im Untersuchungsmaterial nicht überrepräsentiert sind und ggf. zu Verzerrungen führen können. Dazu beginnt man mit der Auswahl am Jahresanfang, nimmt aus der ersten Woche die Berichterstat‐ tung von Montag, aus der zweiten Woche die vom Dienstag, aus der dritten Woche die vom Mittwoch usw. Eine weitere große Herausforderung stellt die Definition des sogenannten Aufgreifkriteriums dar. Zu bestimmen, welches Medienmaterial tatsäch‐ lich in die Analyse einfließen soll, muss sehr genau durchdacht werden. Ziel bei der Definition des Aufgreifkriteriums muss es sein, wirklich alle relevanten Beiträge zu erfassen und gleichzeitig die Anzahl unrelevanter Beiträge so gering wie möglich zu halten. Für das Atomkraft-Beispiel bedeutet dies, dass man sich sehr genau überlegen muss, welche Begriffe und Synonyme vorkommen könnten oder sollten. Nutzt man nur Atomkraft, läuft man Gefahr, alle Beiträge zu verpassen, die statt Atomkraft den Begriff Kernkraft verwenden. Andererseits kann auch ein Beitrag, der den Begriff Atomkraft zwar erwähnt, allerdings nur beiläufig, für die Untersuchung nicht relevant sein. Bei der digitalen Suche können komplexere Suchstrings verwendet werden, um beide Probleme einzuschränken. Dennoch sollte das Material zumindest in Teilen daraufhin überprüft werden, ob so viel wie nötig, aber so sparsam wie möglich erfasst worden ist. Arbeitet man mit nicht digitalisiertem Material bietet es sich an, Regeln aufzustellen, dass bestimmte Begriffe in der Überschrift und im ersten Absatz vorkommen sollten. Arbeitet man mit einer Mischung aus digitalem und nicht digitalem Material in derselben Erhebung ist dann aber Einheitlichkeit geboten. Coder-Training Steht das Codebuch und liegt das Material vor, muss der eigentliche Kodier‐ prozess, also die Identifikation und Bestimmung der relevanten Merkmale, vorbereitet werden. Je nach Umfang von Fragestellung und Material werden mehrere Personen für diese Arbeit benötigt. Damit alle Personen aber auch das Gleiche in hoher Qualität erheben, braucht es - neben dem sorgfältig 92 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="93"?> ausgearbeiteten Codebuch - ein gutes Kodiertraining. In diesem werden alle Beteiligten auf einen Stand gebracht. Alle Kategorien werden im Einzelnen erklärt und an Beispielen geübt. Unsicherheiten werden so weit wie möglich ausgeräumt. Bereits bei der Auswahl der Kodierer: innen sollte man darauf achten, Personen mit hoher Motivation und gutem Kontextwissen zu rekrutieren. In der Regel sind Kodierprozesse aufwendig und können auch langwierig sein. In jedem Fall benötigen sie viel Konzentration und Ausdauer, die die Kodie‐ rer: innen unbedingt mitbringen sollten. Im Idealfall bleiben Kodierer: innen den gesamten Kodierprozess an der Arbeit beteiligt. Späteres Einsteigen und Nachschulen ist immer mit hohem Aufwand verbunden. Reliabilität Auch nach dem besten Training muss sichergestellt werden, dass tatsächlich alle Kodierer: innen das Codebuch und seine Anweisungen gleich verstehen und das Material entsprechend kodieren. Das heißt, dass gewährleistet werden sollte, dass ein zweiter Kodierer den gleichen Abschnitt auf die gleiche Weise kodiert, wie es der erste getan hat. Wie hoch die Überein‐ stimmung bei den Entscheidungen der Kodierer: innen ist, wird im Vorfeld der Haupterhebung durch einen Reliabilitätstest ermittelt. Dieser Test gibt Auskunft über die Güte und Zuverlässigkeit der Erhebung und damit über die Datenqualität. Es führt zu weit, hier auf die Einzelheiten zur Durchführung eines solchen Reliabilitätstest einzugehen. Klar ist aber: Jede Studie mit einer Inhaltsanalyse sollte Angaben zu einem Reliabilitätstest vorweisen, und zwar über alle Variablen im Detail und nicht nur mit einem Übereinstimmungswert über alle Variablen hinweg, wie es nach wie vor immer wieder geschieht. Sind keine Antworten zum Reliabilitätstest ange‐ geben, sollte man skeptisch sein und gegebenenfalls kritisch nachfragen. Das folgende Beispiel verweist auf den Beitrag „Deutschland sticht abso‐ lut heraus“ aus dem Deutschlandfunk-Medienmagazin @mediasres. In dem Beitrag wurde eine inhaltsanalytische Studie aufgegriffen, die untersucht hat, wie 2015 welches Bild über nach Deutschland kommende Flüchtlinge in den Medien vermittelt worden ist. Das Beispiel zeigt vor allem, wie Inhaltsanalysen für eine Selbstreflexion des Journalismus nützlich sein können. 93 3.5 Die Inhaltsanalyse <?page no="94"?> Die Geschichte hinter der Statistik | Berichterstattung über Geflüchtete Bettina Schmieding: „Die Studie bot zwei spannende Aspekte für uns. Als Medienmagazin interessieren wir uns natürlich generell für Erkenntnisse über den Journalismus. In diesem Fall aber beson‐ ders für den Blick auf die Vergangenheit im Zusammenhang mit dem Vorwurf, die Medien hätten ihre Glaubwürdigkeit im Zuge der sogenannten Flüchtlingskrise 2015 verspielt. Wir beobachten schon lange aufmerksam, wie sich das Vorurteil hält, die Medien hätten die Flüchtlinge quasi herbeigeschrieben. Daher interessieren wir uns sehr für Studien darüber, wie die Berichterstattung über die Flüchtlinge wirklich gewesen ist. Und selbst wollen wir ein Best-Practice-Beispiel liefern, also auch über die Methodik hinter der Studie sprechen. Ganz besonders interessant an dieser Studie war zudem noch die vergleichende Perspektive zwischen den euro‐ päischen Ländern. Wir hatten bereits in der Vergangenheit über eine von der Otto-Bren‐ ner-Stiftung in Auftrag gegebene Studie über die Berichterstattung während der Flüchtlingskrise berichtet. Daher hatte uns die Stiftung auch schon im Verteiler, über den die Veröffentlichung der aktuellen Studie bereits einige Zeit vorher angekündigt worden war. Das gab uns die Möglichkeit, unseren Beitrag im Vorfeld gut zu planen und das Interview mit einer deutschen Vertreterin aus dem Forschungsteam zu vereinbaren. Ein kritischer Umgang mit Studien, Fragestellungen und Motiven dahinter ist uns als Medienmagazin dabei immer sehr wichtig. Wir schauen besonders dann auch genauer hin, wenn Studien in anderen Medien nachlässig oder falsch wiedergegeben werden und beispiels‐ weise die Interessen von Herausgebern von Studien nicht geprüft und dann Narrative unhinterfragt übernommen werden.“ Bettina Schmieding: „Deutschland sticht absolut heraus“, Berichterstat‐ tung über Flüchtlinge im Dlf-Medienmagazin @mediasres, Grundlage für den Bericht war die Studie „Stumme Migranten, laute Politik, gespal‐ tene Medien: Die Berichterstattung über Flucht und Migration in 17 Län‐ dern“ im Auftrag der Otto-Brenner Stiftung. https: / / www.deutschlandf 94 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="95"?> unk.de/ studie-zur-berichterstattung-ueber-fluechtlinge-deutschland.290 7.de.html? dram: article_id=467831 (letzter Zugriff: 16.7.2021) 3.5.4 Automatisierte Inhaltsanalyse Formen der automatisierten Inhaltsanalyse halten zunehmend Einzug in unterschiedlichen Forschungsfeldern, aber auch in den Bereich des Daten‐ journalismus. Der Begriff umfasst unterschiedliche Verfahren, aber meist werden dem Computer Aufgaben des Codierens übertragen. Oder es werden komplexe Algorithmen und maschinelles Lernen genutzt, um in großen Textmengen Entwicklungen zu identifizieren. So kann dem Computer zum Beispiel aufgetragen werden, bestimmte Worte zu suchen und darzustellen. Auch denkbar ist es, den Computer untersuchen zu lassen, ob bestimmte Wörter oft gemeinsam auftreten und sich darüber bestimmte Themen identifizieren lassen („Topic Modeling“). Interessante Fragestellungen, die so bearbeitet werden können, umfassen zum Beispiel die Bereiche des Agenda-Setting (wann kommt wo welches Thema auf) oder Themenauf‐ merksamkeitszyklen. Über sogenannte Sentiment Analysen lässt sich der Ton (positiv/ negativ/ neutral) von Texten bestimmen. Dabei werden der Analyse geprüfte Wortlisten zugrunde gelegt, die Wörtern entsprechend ih‐ rer positiven oder negativen Bedeutung einen Score zuschreiben. Die Listen werden mit den Texten angeglichen, die dann jeweils einen Sentiment-Wert zugeschrieben bekommen. Der klare Vorteil der automatisierten Inhaltsanalyse besteht darin, dass teure Personalkosten für Kodierer: innen gespart werden können. Auch können eher Vollerhebungen durchgeführt werden, weil große Mengen Material vom Computer in kürzerer Zeit bewältigt werden können. Damit ist die Analyse auch mit deutlich weniger Aufwand wiederhol- und erwei‐ terbar. Gleichzeitig können mit der automatisierten Variante bisher noch deutlich weniger komplexe Fragestellungen bearbeitet werden als bei der konventionellen Inhaltsanalyse. Menschliche Kodierer: innen können den Kontext mit einbeziehen, um beispielsweise Doppel- oder Mehrdeutigkeit von Aussagen, Ironie aber auch doppelte Verneinungen zu erkennen, was für den Computer heute noch hohe Hürden darstellt. Bisher am ehesten verbreitet sind daher Kombinationen aus automatisier‐ ter und konventioneller Inhaltsanalyse. So können automatisierte Verfahren im Vorfeld dabei unterstützen, in großen Textmengen die relevanten Bei‐ 95 3.5 Die Inhaltsanalyse <?page no="96"?> träge zu erfassen. Dazu werden Wörterbücher verfasst, die dem Computer als Grundlage zur Erkennung des relevanten Materials dienen sollen. Das Ziel ist die Textreduktion, um die Arbeit der konventionellen Inhaltsanalyse effizienter zu gestalten. Das folgende Beispiel zeigt eine aufwendige automatisierte Inhaltsanalyse der Süddeutschen Zeitung, die aus Grundlage Sitzungsprotokolle von Bun‐ destagsdebatten genutzt hat. Die Geschichte hinter der Statistik | Textanalyse von Bundestagsdebatten Am Anfang der umfangreichen Datenrecherche von Martina Schories vom Datenteam der Süddeutschen Zeitung stand die Frage, wie Spra‐ che die Politik verändert. Dazu hat sie in einem mehrmonatigen Pro‐ jekt anhand von Sitzungsprotokollen und mithilfe von Algorithmen die Bundestagsdebatten der letzten 40 Jahren analysiert und sich auf die Veränderungen der Debatten konzentriert. Anfangs interessierte sie insbesondere die Frage, ob und wie die AfD die Debattenkultur verändert hat. Schließlich warf sie dann aber doch den Blick noch wei‐ ter zurück in die Vergangenheit. Anhand der Themen Klimawandel und Migrationspolitik sollten das jeweilige Vorkommen des Themas sowie das vornehmlich genutzte Vokabular nachvollzogen werden. Zur Durchführung automatisierter Analysen wird ein Set an Worten und Ausdrücken benötigt, die ein Algorithmus als Grundlage nutzen kann. Dafür mussten auch zu Beginn der Analyse von Martina Schories Vokabeln identifiziert und in sogenannten Wörterbüchern festgehalten werden, die mit den Themen in Verbindung stehen, bzw. die zur Be‐ schreibung der Sachverhalte genutzt wurden. Diese aufwendige Grund‐ lagenarbeit wurde manuell durchgeführt, um für jede Legislaturperiode ein Modell für Kontextworte zu erstellen. Auch in diesem explorativen Arbeitsschritt ließen sich bereits erste Erkenntnisse gewinnen, zum Beispiel, dass der Klimawandel in den ersten Legislaturperioden noch gar keine Rolle gespielt hat, sondern sich die Debatte vor allem um Umweltpolitik und Treibhausgase drehte. Die größte Herausforderung im Projekt stellte dann im nächsten Schritt die computerlinguistische Umsetzung des automatisierten 96 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="97"?> Teils der Analyse da. Hierbei holte sich die Autorin Unterstützung eines Experten von der Stuttgarter Universität, der in langen Gesprä‐ chen viel Übersetzungsleistung zwischen Wissenschaft und Journalis‐ mus leisten konnte. In dem teils langwierigen Prozess war es nötig, mit viel Geduld immer wieder zu überprüfen, ob die entwickelten Modelle auch wirklich tragen und ob es sich bei identifizierten Veränderungen in der Verwendung von Begriffen und Ausdrücken nicht nur statisti‐ sche Artefakte handelt, sondern um einen tatsächlichen Wandel. Nach mehrmonatiger Arbeit stellte sich schließlich noch die Frage der journalistischen Aufarbeitung. Die interessanten Ergebnisse der aufwen‐ digen Analyse waren durchaus komplex, sodass die Gratwanderung zwischen Tiefe und Allgemeinverständlichkeit bei der Umsetzung eine weitere Herausforderung bedeutete. Schlussendlich konnte in mehreren längeren Datenreportagen aufgezeigt werden, wie sich die beiden The‐ men und die dazugehörigen Begriffe entwickelt haben. Mithilfe der Daten konnten Strömungen sichtbar gemacht werden, die auch die Entwicklung des gesellschaftlichen Diskurses und die Meinungsbildung nachzeichneten. Darüber hinaus können die Erkenntnisse der Analysen als Grundlage für Wörterbücher dienen, die zu weiteren Überprüfungen genutzt werden können und die Fortführung bzw. Ausweitung der Untersuchung mit etwas weniger Aufwand ermöglichen. Martina Schories: „Das gehetzte Parlament“ und „Wie der Bundestag den Klimawandel verdrängte“, Süddeutsche Zeitung, 5.3.2021. https: / / projekte.sueddeutsche.de/ artikel/ politik/ bundestag-d as-gehetzte-parlament-e953507/ und https: / / projekte.sueddeutsche.de / artikel/ politik/ wie-der-bundestag-ueber-klimapolitik-spricht-e704090/ (letzter Zugriff: 16.7.2021) 3.6 Die Beobachtung Mit der Befragung lassen sich Meinungen, Wissen und auch Handlungsab‐ sichten von Personen erfassen. Ob letztere dann aber auch zu tatsächlichen Handlungen führen, das liegt außerhalb des Erkenntnisraums der Befra‐ gung. Alle Informationen, die man mithilfe der Befragung gewinnen kann, basieren auf Selbstauskünften. Die Verlässlichkeit dieser Selbstauskünfte ist gerade in Bezug auf Verhalten mit Vorsicht zu betrachten. Erinnern wir uns 97 3.6 Die Beobachtung <?page no="98"?> an das Phänomen der sozialen Erwünschtheit. Wir können nur schwer mit Sicherheit sagen, wie ehrlich Personen auf die Frage antworten werden, ob sie ein bestimmtes sozial erwünschtes Verhalten an den Tag legen oder nicht. Kaum jemand würde wahrscheinlich zugeben, nicht den Müll zu trennen. Oder der Umfang eines bestimmten Verhaltens, das als schlecht und sozial unerwünscht wahrgenommen wird, wird zumindest abgerundet, z. B. wieviel Zeit man vor dem Computer oder dem Fernseher oder am Smartphone verbringt. Da muss auch gar keine Absicht unterstellt werden. Tatsächlich ist es einfach schwierig, eine exakte Angabe aus dem Gedächtnis zu machen, wie viel Zeit man mit einer bestimmten Tätigkeit verbracht hat. Die Datenerhebungsmethode der Beobachtung kann hier Abhilfe schaf‐ fen. Diese zielt eben genau auf die Erfassung von tatsächlichem und authentischem Verhalten ab. Oder wie es in einem Standardwerk zur Beobachtung in der Kommunikationswissenschaft heißt: Die Befragung dient der „systematischen Erfassung und Protokollierung von sinnlich oder apparativ wahrnehmbaren Aspekten menschlicher Handlungen und Reaktionen“ (Gehrau 2002, S. 25). Der Ausdruck „sinnlich“ zielt dabei auf die Beobachtung durch andere Menschen ab, „apparativ“ wiederum meint die Messung mithilfe von Geräten. Das kann ein Blutdruckmessgerät sein oder ein Gerät zur Messung von Hirnströmen, wenn beispielsweise körperliche Reaktionen auf bestimmte Reize erfasst werden sollen. Auch die telemetri‐ sche Zuschauerforschung zählt in diesen Bereich der Datenerhebung, denn hier wird mithilfe von Geräten tatsächliches Verhalten erfasst, nämlich der Fernsehkonsum. 3.6.1 Formen der Beobachtung Es lassen sich unterschiedliche Formen der Beobachtung unterscheiden. Bei der Fremdbeobachtung wird das Verhalten bzw. werden die Reaktionen einer Versuchsperson von einem Beobachter oder einer Beobachterin nach festgelegten Regeln erfasst und protokolliert. Dies ist nicht in allen Situatio‐ nen möglich, gerade auch weil davon auszugehen ist, dass Beobachter: innen ebenso wie Interviewer: innen bei der Befragung (unbewusst) Einfluss auf die Untersuchungsstation und -personen nehmen. Deshalb wurden in der Psychologie beispielsweise auch Verfahren zur Selbstbeobachtung entwi‐ ckelt. Dabei protokollieren die Untersuchungspersonen ihr Verhalten selbst, legen zum Beispiel Zeitbudgets an. Eine weitere wichtige Unterscheidung ist die zwischen teilnehmender und nicht teilnehmender Beobachtung. Bei der 98 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="99"?> teilnehmenden Beobachtung sind Beobachter: innen in das Geschehen integriert und nehmen aktiv an diesem teil. Bei der nicht teilnehmen‐ den Beobachtung sind die Beobachter: innen anwesend, bleiben aber im Hintergrund ohne eigene aktive Beteiligung. Das ermöglicht ihnen zwar einerseits besser in Echtzeit zu protokollieren, hat aber gleichzeitig auch den größeren Einfluss auf die Untersuchungspersonen. Diese verändern mögli‐ cherweise ihr Verhalten, wenn sie sich beobachtet fühlen. Eng verbunden mit diesem Problem ist daher auch die Frage nach der wissentlichen oder unwissentlichen Beobachtung, d. h. werden Personen im Vorfeld darüber aufgeklärt, dass sie beobachtet werden. Bei verdeckten Beobachtungen ist allerdings eine Reihe ethischer Fragen zu beachten, vor allem muss sichergestellt werden, dass die Privatsphäre der Untersuchungspersonen nicht verletzt wird. Gleichzeitig ist es aber gar nicht immer möglich, alle Beobachtungsobjekte darüber aufzuklären, dass sie beobachtet werden. Gerade wenn Personen und ihr Verhalten in größeren Menschenmengen erfasst werden sollen, zum Beispiel ihr Verhalten auf Demonstrationen. Bei solchen Feldbeobachtungen allerdings erfolgt die Beobachtung in der Regel so anonym, dass von späteren aggregierten Daten gar nicht mehr auf die Einzelperson rückgeschlossen werden kann. Bei Laborbeobachtungen demgegenüber ist es den Untersuchungspersonen klarer, dass sie beobachtet werden. Gerade wenn es beispielsweise um die Messung physiologischer Reaktionen geht, bei denen beobachtete Personen an Geräte angeschlossen werden. Laborbeobachtungen haben den Vorteil, dass Störfaktoren besser ausgeschlossen und kontrolliert werden können. Gleichzeitig stellt sich in einer solchen künstlichen Situation immer eher die Frage, ob das Verhalten der Untersuchungspersonen auch wirklich authentisch ist und die Ergeb‐ nisse am Ende auf Situationen außerhalb des Labors übertragbar sind. Eine letzte Unterscheidung betrifft die Beobachtung mit und ohne Stimulus, d. h. mit oder ohne einen Anstoß für ein Verhalten oder eine Reaktion. Will ich zum Beispiel wissen, wie Leute emotional auf Bilder reagieren, die den Klimawandel symbolisieren und dann körperliche Re‐ aktionen messen, dann muss ich sie mit solchen Bildern als Stimulus konfrontieren. 3.6.2 Das Beobachtungsinstrument Wie auch schon bei der Befragung und der Inhaltsanalyse braucht es auch bei der Beobachtung ein Instrument, mit dem die eigentliche Messung 99 3.6 Die Beobachtung <?page no="100"?> vollzogen wird. Das können Geräte sein, wenn es beispielsweise um physio‐ logische Reaktionen geht. Will man aber Verhalten beobachten, braucht es ebenso ein Kategoriensystem, mit dem das jeweilige Verhalten festgehalten wird. Mit diesem lässt sich unterschiedlich umgehen. Es besteht die Mög‐ lichkeit das Kategoriensystem direkt in einen strukturierten Protokollbogen umzusetzen, mit dessen Hilfe Beobachter: innen in Echtzeit Verhalten nach bestimmten vorgegebenen Kategorien klassifizieren. Eine andere Möglich‐ keit bietet die unstrukturierte Protokollierung, bei der Beobachter: innen angehalten sind, das Verhalten frei und möglichst präzise schriftlich fest‐ zuhalten. Im Anschluss wird dann bei einem zusätzlichen Codierschritt das Kategoriensystem angewendet oder erst entwickelt. Letzteres kann der Fall sein, wenn über einen Untersuchungsgegenstand bisher so wenig bekannt ist, dass die Beobachtung überhaupt erst dazu dient, unterschiedli‐ che Merkmalsausprägungen zu erfassen. Möglich ist darüber hinaus auch die Aufzeichnung von Verhalten per Video, um die Protokollierung des Verhaltens später von der eigentlichen Untersuchungssituation losgelöst vornehmen zu können. Dies kann dabei helfen, Störfaktoren zumindest zu identifizieren und zu bewerten. Auch kann es die Reliabilität der Messungen erhöhen, wenn das Material von mehreren Personen gesichtet werden kann. Exkurs | Soziographie und Journalismus Ein wichtiger Meilenstein in der Entwicklung der Sozialwissenschaft wird mit den Anfängen der sogenannten „politischen Arithmetik“ in London im 17. Jahrhundert verzeichnet. Mithilfe von Kirchenbüchern erstellten Forscher erstmals umfangreiche Statistiken über Geburten und Todesfälle und glichen diese mit weiteren Datenquellen ab, um so Verbindungen zwischen Todesfällen und den sozialen Lebensum‐ ständen der Menschen herstellen zu können. Im Laufe des 18. Jahr‐ hundert entwickelte sich aus diesem Ansatz eine ganze Bewegung. Es wurden „statistical societies“ gegründet, die sich der Erforschung der Auswirkungen des Kapitalismus auf die Gesellschaft verschrieben. Mithilfe dieser Daten sollten induktiv Gesetzmäßigkeiten über die sozialen Zusammenhänge in der Gesellschaft gefunden werden und zur Verbesserung der Lebenssituation beitragen. Etwa zur gleichen Zeit entstand das journalistische Genre der Repor‐ tage, das zunächst einen eher gegensätzlichen Ansatz verfolgte, näm‐ 100 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="101"?> lich nicht das Allgemeine zu erfassen, sondern das Besondere. Während die Bevölkerungsstatistiken auch zur generellen Verbesserung der Lebensqualität beitrugen, beispielsweise weil Verbindungen zwischen Sterblichkeit und Hygiene oder Wasserqualität hergestellt werden konnten, beschrieben die ersten journalistischen Reportagen im Detail die nach wie vor gravierenden Auswirkungen von Armut und Elend anhand von Einzelfällen, Beobachtungen und Augenzeugenberichten. Aber die ersten grenzüberschreitenden Formen ließen allerdings nicht lange auf sich warten. Der Engländer Henry Mayhew (1812-1887) wird bei Wikipedia beispielsweise als „Sozialforscher, Journalist und Stückeschreiber“ geführt. In seiner Armutsreportage London Labour and the London Poor verband er detaillierte Beschreibungen aus teil‐ nehmenden Beobachtungen, Augenzeugenberichte und eigens erstellte Befragungen sowie Statistiken aus offiziellen Quellen und Zensusda‐ ten. Ansätze wie dieser schafften es, der abstrakten Statistik wiederum unmittelbare Bedeutung zu verleihen und sie an die Lebensrealitäten zurückzubinden. Ein ähnliches Vorgehen verbreitete sich Anfang des 20. Jahrhundert dann auch vermehrt innerhalb der Sozialwissenschaften unter dem Begriff der Soziographie. Darunter wird ein Teilbereich der Soziolo‐ gie zusammengefasst, der sowohl quantitative als auch qualitative Datenerhebungsmethoden vereint. Dabei wird das Ziel verfolgt, einen bestimmten Ausschnitt der sozialen Realität in modernen Gesellschaf‐ ten im Detail zu erfassen. Dazu werden in einem klar definierten räumlichen Bezugsrahmen, wie einem Stadtviertel oder innerhalb einer Fabrik, standardisierte und nicht standardisierte Verfahren aufeinan‐ der abgestimmt, um eine ganzheitliche Beschreibung der Situation zu ermöglichen und gegebenenfalls auf breitere Zusammenhänge zu schließen (siehe Exkurs Induktion und Deduktion in Kapitel 2). Eine der wohl bekanntesten und bedeutendsten soziographischen Stu‐ dien wurde 1933 von Marie Jahoda, Paul Lazarsfeld und Hans Zeisel vorgelegt: „Die Arbeitslosen von Marienthal. Ein soziographischer Versuch über die Wirkungen langandauernder Arbeitslosigkeit.“ In dieser Studie untersuchten die Forscher: innen das Leben der Menschen in der Arbeitersiedlung Marienthal in einem Ort in der Nähe von Wien, nachdem die dortige Fabrik geschlossen wurde. Mithilfe amtlicher und selbst erhobener Statistiken, Beobachtungen und detaillierten Situationsschilderungen, quantitativen Befragungen und qualitativen 101 3.6 Die Beobachtung <?page no="102"?> Interviews konnten sie ein umfassendes Bild der Lage der Menschen und ihrem Umgang mit der Arbeitslosigkeit nachzeichnen. Die zentrale Erkenntnis des Buches: Arbeitslosigkeit führt nicht zur Revolte, son‐ dern zu Resignation. Der Grenzgang zwischen dem Allgemeinen und dem Besonderen bleibt auch in der journalistischen Reportage des ausgehenden 19. und frühen 20. Jahrhunderts ein wichtiger Bestandteil. Mit ausführli‐ chen Einzelfallrecherchen aus teilnehmenden Beobachtungen wiesen Journalist: innen vor allem auf die Bedeutung des Einzelschicksals hin und deckten dabei systematische Missstände auf (ausführlich zur Geschichte der Recherche im Zusammenspiel der Entwicklung von Sozialwissenschaft und Journalismus: Haller 2017). 3.7 Das Experiment Der Begriff „Experiment“ ist im Alltag häufig etwas anders konnotiert als im wissenschaftlichen Zusammenhang, nämlich eher als ein „riskanter Versuch“. In der politischen Medienberichterstattung wird der Begriff zum Beispiel verwendet, wenn bisher nicht dagewesene politische Regierungs‐ konstellation zusammentreten oder neue politische Maßnahmen erstmalig ausprobiert werden. Experimente im wissenschaftlichen Sinne dienen aber vor allem dem Zweck, Ursachen und ihren Wirkungen (sogenannten Kausalzusammen‐ hängen) auf die Spur zu kommen. Dazu eignen sie sich in der Regel deutlich besser, als reine Beobachtungsstudien (zu denen Befragung und Inhaltsanalyse ebenfalls zählen). Streng genommen ist das Experiment aber gar keine Datenerhebungsmethode, sondern ein Untersuchungsdesign. Die eigentlichen Datenerhebungen können über Messungen via Befragung, Inhaltsanalyse und Beobachtung erfolgen, je nachdem, was erfasst werden soll. Um aber genau eine sichere Verbindung zwischen einer Ursache und einer Wirkung herstellen zu können, braucht es einen Vergleichspunkt. Die Herstellung eines solchen Vergleichspunkts ist die Grundidee des Ex‐ perimentaldesigns. Das bedeutet, dass die Untersuchungsobjekte bei einem Experiment immer in mindestens zwei Gruppen eingeteilt werden. Eine Gruppe wird der zu erforschenden Ursache (dem sogenannten Stimulus) ausgesetzt, die zweite Gruppe nicht. Man variiert hier ein bestimmtes Merk‐ 102 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="103"?> mal bzw. eine unabhängige Variable, beispielsweise nach Vorkommen und Nichtvorkommen. Gemessen wird dann eine abhängige Variable, also ein Merkmal, von dem man theoretisch begründet ausgeht, dass es von der unabhängigen Variablen beeinflusst wird. Wenn sich die erste Gruppe dann bei diesem Merkmal von der zweiten Gruppe unterscheidet, kann dies auf den Stimulus zurückgeführt und dieser damit als Ursache anerkannt werden. Klassischerweise ist dies die Anlage von klinischen Studien, die die Wirkung von Medikamenten untersuchen. Einer Gruppe von Patient: innen wird ein Wirkstoff verabreicht, einer weiteren Gruppe wird der Wirkstoff nicht verabreicht bzw. sie bekommen ein Placebo. Verbessert sich der Zustand der Patient: innen, die den Wirkstoff erhalten haben, kann diese Verbesserung auf das Mittel zurückgeführt werden. 3.7.1 Experimental- und Kontrollgruppen Um eine bestimmte Ursache mit einer Wirkung verknüpfen zu können, muss sichergestellt werden, dass andere mögliche Einflussfaktoren keine Rolle spielen. Denken wir an die Frage am Kapitelanfang zurück, ob Tee- oder Kaffeetrinken gesünder ist, lassen für den Moment zur Vereinfachung aber mal den Kaffee weg und fragen ganz konkret (aber hypothetisch), ob Grüntee zur Verbesserung der Herzgesundheit beiträgt. Zur Beantwortung, ob Teetrinken positive gesundheitliche Auswirkungen hat, muss ausgeschlossen werden können, dass andere Faktoren wie Sport, Ernährung oder vielleicht sogar das Geschlecht oder die Gene eigentlich dafür verantwortlich sind, dass Personen, die Grüntee trinken, gesündere Herzen haben als Personen, die keinen Tee trinken. Klar ist, es braucht zwei Gruppen, eine davon muss Tee trinken, die andere darf keinen Tee trinken. Die teetrinkende Gruppe ist in diesem Fall die Experimentalgruppe. Sie wird dem Stimulus, dem Tee, ausgesetzt. Die nicht teetrinkende Gruppe ist in diesem Fall die sogenannte Kontrollgruppe. Ist Gruppe 1 am Ende gesünder, dann hat der Tee dazu beigetragen. Aber: Ein solcher Schluss darf erst gezogen werden, wenn vorher sicher‐ gestellt wurde, dass sich die Personen der Experimentalgruppe bei allen anderen erdenklichen Einflussfaktoren NICHT von der Kontrollgruppe unterscheidet. Das heißt, beide Gruppen müssen gleich viele junge und alte Leute enthalten, da gerade das Alter auf die Gesundheit des Herzens Einfluss hat. Es müssen gleich viele Raucher: innen in beiden Gruppen vorhanden sein, um auch das Rauchen als Einflussfaktor ausschließen zu können, usw. Aber wie kann sichergestellt werden, dass sich die Gruppen in allen 103 3.7 Das Experiment <?page no="104"?> sonstigen Merkmalen tatsächlich gleichen? Die Antwort lautet - wie auch schon bei der Stichprobenziehung bei Beobachtungsstudien - Zufall. Oder in der Fachsprache: Randomisierung. Werden alle Personen ganz zufällig auf eine der beiden Gruppen verteilt, dann ist die Wahrscheinlichkeit sehr gering (nicht unmöglich, aber deutlich geringer als bei der absichtlichen Zuteilung), dass sich in einer Gruppe die Extreme sammeln. Im Gegenteil dazu: Durch absichtliches Zuteilen von Personen auf beide Gruppen, also beispielsweise gleich vielen Frauen und Männern, Jungen und Alten, Raucher: innen und Nichtraucher: innen usw. könnten wir niemals sicher gehen, auch wirklich alle potentiell relevanten Faktoren bedacht zu haben. Am Ende haben wir doch alle Leute mit guten Genen in einer Gruppe, weil wir die Gene bei der Zuteilung zur Gruppe gar nicht beachtet haben oder gar nicht erfassen konnten. Auch können wir nicht erlauben, dass sich die Teilnehmer: innen selbst auf die Gruppen aufteilen. Denn auch dann müssten wir davon ausgehen, dass sich die Leute, die sich für die Experimentalgruppe entscheiden, wahrscheinlich systematisch unterscheiden von denjenigen, die sich für die Kontrollgruppe entscheiden. Zumindest in ihrer Eigenschaft zur Risikobereitschaft und wer weiß, was das für Folgen haben könnte. 3.7.2 Arten von Experimenten Man kann zwei klassische Formen des Experiments unterscheiden: das Laborexperiment und das Feldexperiment. Das Laborexperiment findet in speziell für den Forschungszweck eingerichteten Untersuchungsräumen statt. In der Regel bieten diese wenig Anlass für Ablenkung von Versuchs‐ personen, um die Versuchssituation so wenig wie möglich zu stören. Alle Versuchspersonen werden im Idealfall der exakt gleichen Situation ausge‐ setzt, um eine weitestgehende Kontrolle über mögliche Störfaktoren zu gewährleisten. Die interne Validität ist dadurch sehr hoch: Jede Messung misst wirklich das Gleiche. Dem gegenüber steht allerdings: Die externe Validität solcher Laborexperimente, also die Übertragbarkeit auf die Realität, kann dadurch stark eingeschränkt sein, denn in der Realität sind die Leute mit allerlei weiteren Einflussfaktoren konfrontiert, sodass man sich nicht sicher sein kann, ob ein im Labor gemessener Effekt überhaupt realistischer‐ weise in der Realität auftreten würde. Feldexperimente finden in der natürlichen Umgebung der Versuchsper‐ sonen statt. Das hat den Vorteil, dass sich die Personen deutlich natürlicher verhalten, gerade auch, wenn sie beispielsweise gar nicht wissen, dass sie 104 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="105"?> an einem Experiment teilnehmen, d. h. wenn ihnen beispielsweise nicht bewusst ist, dass andere Studienteilnehmer mit einem anderen Stimulus konfrontiert werden. Bei klinischen Studien wissen die Teilnehmer: innen, dass es mindestens zwei Gruppen gibt, wissen aber nicht, ob sie selbst den Wirkstoff oder ein Placebo erhalten. Bei sozialwissenschaftlichen oder psychologischen Experimenten wissen sie nicht, dass es mehrere Gruppen gibt. Es kann dagegen sogar verzerrend sein, wenn Teilnehmer: innen wis‐ sen, dass sie an einem Experiment teilnehmen und dadurch beispielsweise ihr (Antwort-)Verhalten beeinflusst wird. Die Stärke der Feldexperimente ist aber generell die externe Validität. Dadurch dass die Versuchssituation näher an der Alltagssituation der Teilnehmer: innen ist, ist ihr Verhalten natürlicher und über die Experimentalsituation hinaus auch wahrscheinli‐ cher. Dafür aber leidet die interne Validität. Durch die Vielzahl an möglichen Störfaktoren, die durch die Forschenden nicht kontrolliert oder beeinflusst werden können, sind Fehler bei Messungen wahrscheinlicher. Eine weitere wichtige Einteilung von Experimenten erfolgt anhand des Untersuchungsdesigns danach, wie viel Variation bei der unabhängigen Variablen ermöglicht wird. Man spricht von einfaktoriellen Untersu‐ chungsdesigns, wenn eine unabhängige Variable auf zwei oder mehr Stufen variiert wird. Das oben angeführte Teebeispiel stellt ein solches einfaktorielles Design dar. Die unabhängige Variable Teetrinken wird nur variiert zwischen den Ausprägungen „trinken“ und „nicht trinken“. Auch das ursprüngliche Vergleichsbeispiel zwischen Kaffee und Tee stellt ein einfaktorielles Design dar. Die unabhängige Variable „Getränk“ wird variiert zwischen Kaffee und Tee und ist potentiell erweiterbar um weitere Ausprä‐ gungen, beispielsweise um Wasser und Orangensaft. Immer noch handelt es sich um ein einfaktorielles Design, weil nur eine unabhängige Variable (mehrfach) variiert wird. In diesem Fall entfällt übrigens die Notwendigkeit einer Kontrollgruppe, die nichts trinkt, denn alle Gruppen werden hier miteinander verglichen. Man sagt, sie kontrollieren sich gegenseitig, und meint damit, dass der Effekt jeder Variation im Vergleich zu den anderen gemessen wird. Bei mehrfaktoriellen Designs wird die Komplexität erhöht, denn es wird mehr als ein Faktor variiert. Es gibt also mehrere unabhängige Varia‐ blen, die jeweils unterschiedliche Ausprägungen haben können. Bleiben wir bei unserem fiktiven Tee- und Kaffeebeispiel und fügen eine weitere unab‐ hängige Variable ein: die Frühstücksmahlzeit mit den zwei Ausprägungen „Müsli“ und „Toast“. Es ergibt sich ein sogenanntes 2 × 2 Design, weil zwei 105 3.7 Das Experiment <?page no="106"?> Faktoren jeweils zweimal variiert werden. Daraus ergibt sich wiederum die Notwendigkeit, insgesamt vier Experimentalgruppen einzurichten: Gruppe 1 trinkt Tee und isst Müsli; Gruppe 2 trinkt Tee und isst Toast; Gruppe 3 trinkt Kaffee und isst Müsli; Gruppe 4 trinkt Kaffee und isst Toast. Jede weitere Variation erhöht die Anzahl der notwenigen Experimentalgruppen. Wird der Orangensaft aufgenommen, braucht es ein 3 × 2 Design mit sechs Gruppen. Wird eine weitere unabhängige Variable aufgenommen, sagen wir „Morgengymnastik“ mit den Ausprägungen „keine Gymnastik“ und „Gymnastik“ kommen wir bei zwei Getränken auf ein 2 × 2 × 2 Design mit acht Gruppen. Bei drei Ausprägungen pro unabhängige Variable bräuchte es dann bereits 27 Gruppen. Hier stößt man bald an die Grenzen des forschungspraktisch Machbaren, vor allem wenn man bedenkt, dass pro Gruppe mindestens 20 bis 30 Versuchspersonen benötigt werden. Der Vorteil dieser mehrfaktoriellen Designs ist, dass sie differenzierte Aussagen ermöglichen und damit näher an der Realität sind, weil viele Faktoren auch miteinander in Wechselwirkung treten. Man spricht dann von einer Interaktion, wenn ein Effekt bei isolierter Betrachtung der unabhängigen Variablen nicht festgestellt werden würde. Führt Tee trinken beispielsweise nur in Kombination mit Müsli essen zu einer Verbesserung der Herzgesundheit, kann eine komplexere Vorstellung über Ursache-Wir‐ kungs-Zusammenhänge gewonnen werden. 3.8 Pretests Zur Sicherung der Qualität von Forschung ist es notwendig, das entwickelte Messinstrument vor der eigentlichen Erhebung daraufhin zu testen, ob auch wirklich das erfasst wird, was im Hinblick auf das Problem erfasst werden soll. Das Instrument muss unabhängig von äußeren Umständen immer gleich gut funktionieren. Die Wichtigkeit dieses Schrittes im Forschungs‐ prozess kann gar nicht genug betont werden, aber tatsächlich sind es sehr oft fehlende finanzielle oder zeitliche Ressourcen, die dazu führen, dass Pretests nicht mit der nötigen Sorgfalt durchgeführt werden. Ein nicht oder nur oberflächlich durchgeführter Pretest kann erhebliche Auswirkungen auf die Datenqualität haben und schlussendlich die Aussagekraft einer Studie einschränken. Für Forschende kann das im Nachhinein deutlich mehr Arbeit und viele Nerven kosten. Im schlimmsten Fall können Daten schlechter Qua‐ lität in die Öffentlichkeit gelangen und dort zu Schlussfolgerungen führen, 106 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="107"?> die der eigentlichen Grundlage entbehren. Journalist: innen sollten daher ein sehr genaues Augenmerk auf die zum Pretest gelieferten Informationen in Studien werfen. Es gibt sehr unterschiedliche Möglichkeiten zur Durchführung eines Pre‐ tests. Tatsächlich dürfte es sich auch zwischen Fächern oder sogar zwischen Disziplinen innerhalb von Fächern unterscheiden, was als Mindestmaß für den Standard eines Pretests akzeptiert wird. Auch können sich die Anforderungen über die Zeit verändern. Klar ist, jede seriöse Studie sollte Transparenz darüber herstellen, ob und wie das Erhebungsinstrument vor der Haupterhebung getestet worden ist. In den Abschnitten zu den einzelnen Erhebungsmethoden wurde jeweils schon darauf eingegangen, was bei der Erstellung eines Instruments zu beach‐ ten ist. Im Pretest gilt es nun zu überprüfen, ob es tatsächlich gelungen ist, ein qualitativ hochwertiges Instrument zu entwickeln. Dabei ist es keine Schande, wenn vielleicht an der ein oder anderen Stelle nachjustiert werden muss. Besser solche Problemstellen werden im Vorfeld der Haupterhebung identifiziert, als dass man sich im Nachhinein über schlechte Datenqualität ärgern muss. Bei der Befragung gilt es im Großen und Ganzen zwei Aspekte im Pretest sicherzustellen: Sind die Fragen so formuliert, dass sie für die Befragten ohne Hürden zu beantworten sind? Das heißt, sind die Fragen verständlich und eindeutig und beinhalten die Antwortmöglichkeiten alle Aspekte, damit Befragte die für sie passende Antwort geben können. Au‐ ßerdem muss gewährleistet werden, dass auch diejenigen, die die Interviews führen, eindeutige und verständliche Anweisungen bekommen, damit jede Interviewsituation nach demselben vorgegebenen Muster verlaufen kann. Nur so kann garantiert werden, dass die vom Interviewer ausgehenden Störfaktoren möglichst minimiert werden. Pretests für einen Fragebogen können sowohl unter Laborbedingungen als auch unter den realen Bedingungen der Haupterhebung stattfinden. In der Regel wird eine verkleinerte Stichprobe von Personen gezogen, die dann als Befragte am Pretest teilnimmt. Im Idealfall sollten Interviewer der Haupterhe‐ bung auch Teil des Pretests sein. Eine Möglichkeit für die Durchführung besteht darin, die Befragungssituation zu beobachten und zu protokollieren. Folgt der Interviewer den Vorgaben und weicht nicht vom vorgegebenen Ablauf ab? Herrscht Klarheit über diesen Ablauf oder kommt es zu sichtbarem Stocken, Zögern oder sogar Nachfragen? Erkennt man am Reaktionsverhalten von Befragten, ob sie Probleme bei der Beantwortung haben? Auch kann man Befragte im Nachhinein bitten, ihre jeweiligen Antworten zu begründen, um zu 107 3.8 Pretests <?page no="108"?> überprüfen, ob die Frage auch im Sinne der Forschenden verstanden worden ist. Wenn es sich außerdem zum Beispiel um eine schriftliche Befragung handelt, kann man Befragte bitten, nach der Think-Aloud-Methode ihre Gedanken während der Beantwortung auszusprechen. Eine etwas andere Herangehensweise bietet der Expert: innencheck, bei dem Menschen, die sich auf dem Gebiet des Themas der Befragung ausken‐ nen, gebeten werden, das Instrument einzuschätzen. Das sind dann häufig Fachkolleg: innen, aber nicht zwangsläufig. Auch besonders qualifizierte Personen der Zielgruppe der Befragung können gebeten werden, eine Einschätzung abzugeben, weil sie vielleicht einen guten Überblick und In‐ sider-Kenntnisse haben. Will man beispielsweise Gewerkschaftsmitglieder zu einem Thema befragten, kann es sich anbieten, mit Vertreter: innen der Gewerkschaft gemeinsam zu überprüfen, ob die Ansprache zielgruppenge‐ recht ist und das Thema umfassend beleuchtet wird. Beim Pretest von standardisierten Inhaltsanalysen und Beobachtungen würde man etwas anders vorgehen. Hier ist es deutlich notwendiger, dass alle in den Kodierbzw. Beobachtungsprozess involvierten Personen auch tatsächlich am Pretest teilnehmen. Hier geht es vor allem darum zu testen, ob wirklich alle Personen das Instrument gleich verstehen und anwenden, d. h. entsprechend den Anweisungen dieselben Entscheidungen treffen. Nur so kann sichergestellt werden, dass die Kodierung eines Medieninhalts oder einer Beobachtungssituation nicht im individuellen Ermessen der Einzelperson liegt. Es muss später egal sein, wer welches Material kodiert bzw. welche Situation beobachtet, die Kodierungen und Beobachtungen müssen wiederholbar unabhängig von Personen sein. Bei einer Inhaltsanalyse wird dazu allen Kodierer: innen das gleiche Medienmaterial (zum Beispiel ein zufällig gezogenes Subsample aus der Grundgesamtheit) gegeben. Sie werden dann gebeten, dieses entsprechend dem Codebuch zu kodieren. Anschließend können die Forschenden über‐ prüfen, wie hoch die Übereinstimmung bei den Kodierentscheidungen ist. Auch können so einzelne Kodierer: innen identifiziert werden, die systema‐ tisch in ihren Entscheidungen abweichen und eventuelle Nachschulungen brauchen. Am Ende sollten Inhaltsanalysestudien Werte angeben, die diese Übereinstimmung ausdrücken. Dazu gibt es unterschiedliche Maße, auf die hier nicht im Einzelnen eingegangen werden kann. Das einfachste Maß ist das der prozentualen paarweisen Übereinstimmung. Es gibt aber eine Reihe strengerer (im Forschungskontext sagt man „konservative“) Maße, die zum Beispiel berücksichtigen, dass bei Codierungen mit nur 108 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="109"?> zwei Auswahlmöglichkeiten (etwas kommt vor oder kommt nicht vor), die Wahrscheinlichkeit der zufälligen Übereinstimmung deutlich höher ist, als hätte es fünf Auswahlmöglichkeiten gegeben. Nach wie vor findet man in Studien häufig einen kurzen Hinweis mit einem zusammengefassten Wert für die übergreifende Übereinstimmung der Kodierer: innen. Bei solchen Durchschnitten sei zur Vorsicht geraten, denn so lassen sich einzelne schlechte Werte für Variablen leicht kaschieren. Ganz ähnlich wäre auch das Vorgehen beim Pretest des Instruments bei einer Beobachtung. Um aber beispielsweise zu vermeiden, dass mehrere Beobachter zur selben Zeit in derselben Situation arbeiten und damit mehr noch als bei alleiniger Anwesenheit auf die Situation Einfluss nehmen könnten, kann es sich anbieten Videoaufnahmen vom relevanten Verhalten zu machen und allen Beobachtern zur Verfügung zu stellen. Beim Experiment muss zusätzlich zum Erhebungsinstrument auch noch das Stimulusmaterial getestet werden (im Englischen: manipulation check). Soll beispielsweise getestet werden, welche Effekte mehr oder weniger beleidigende Sprache in Kommentaren bei Social Media Beiträgen auf die Leser: innen hat, könnten einer Gruppe von Versuchspersonen Kommentare mit und ohne beleidigende Sprache vorgelegt werden, um diese genau auf dieses Kriterium bewerten lassen. Die Befragten im Pretest sollten sich darüber dann weitgehend einig sein, bei welchen Kommentaren es sich um diejenigen mit und um welche ohne beleidigenden Inhalt handelt. 3.9 Stichprobenziehung 3.9.1 Die Zufallsstichprobe Egal welche Erhebungsmethode angewendet wird, in den seltensten Fällen wird es möglich sein, eine sogenannte Vollerhebung durchzuführen, also wirklich alle Elemente einer Grundgesamtheit zu analysieren. In der Regel ist dies praktisch gar nicht möglich, weil zeitliche und finanzielle Ressourcen hier Grenzen setzen. Die gute Nachricht aber ist: Es ist auch gar nicht nötig. Mithilfe des Prinzips der Teilerhebung durch eine repräsentative Stichprobe kann hier Abhilfe geschaffen werden. Bei den meisten Leuten tritt wahrscheinlich eine ganz bestimmte Vorstel‐ lung im Kopf auf, wenn sie hören, dass eine Stichprobe repräsentativ ist. Irgendwo im Hinterkopf klingelt das Schulwissen, das besagt, dass die Stich‐ 109 3.9 Stichprobenziehung <?page no="110"?> probe eine verkleinerte Abbildung der Grundgesamtheit ist. Das heißt also im Idealfall, dass die Stichprobe in ihrer Struktur genauso aufgebaut ist, wie die Grundgesamtheit, also beispielsweise anteilig genauso viele Männer und Frauen enthält, genauso viele junge und alte, und Personen mit und ohne Mi‐ grationshintergrund und aus allen sozialen Schichten usw. Entsprechend müs‐ sen für eine Stichprobe dann eine bestimmte Zahl Leute so zusammengesucht werden, dass sie in ihren Strukturmerkmalen genau der Grundgesamtheit entsprechen. Dann kann man Aussagen über die Grundgesamtheit machen. Das ist natürlich nicht falsch, aber auch nicht in allen Fällen richtig. Dieses Unterkapitel wird die verschiedenen Möglichkeiten zur Stichprobenziehung behandeln. Dazu fangen wir mit der grundlegendsten Variante an, die nicht auf einer bewussten Auswahl beruht, sondern im Grunde viel unkomplizierter ist. Die relevanten Stichwörter hier sind Zufall und Wahrscheinlichkeit. Kurz und knapp: Bei einer Zufallsstichprobe kann mit einer bestimmten Wahrscheinlichkeit davon ausgegangen werden, dass keine extremen Abwei‐ chungen von den Merkmalen der Grundgesamtheit vorliegen. Keine extremen Abweichungen heißt aber nicht: gar keine Abweichun‐ gen. Eine bis ins letzte Merkmal strukturgenaue Abbildung der Grundge‐ samtheit ist gar nicht möglich. Zieht man eine Stichprobe von 1000 Leuten und eine weitere mit anderen 1000 Leuten, dann werden diese beiden Stichproben mit sehr hoher Wahrscheinlichkeit nicht deckungsgleich in all ihren Merkmalen sein. So wie sie nicht deckungsgleich mit der Grund‐ gesamtheit sein werden. Von dieser ist die Verteilung der Merkmale in vielen Fällen wahrscheinlich aber sowieso nicht bekannt. Eine Ausnahme bilden hier allerdings repräsentative Bevölkerungsbefragungen. Für diese können Forscher: innen die Merkmalsdaten von Volkszählungen und des Mikrozensus heranziehen, um sicher zu gehen, dass sich ihre Stichprobe nicht ‘extrem‘ von der Grundgesamtheit unterscheidet. Aber nun von vorne in der ausführlichen Version. Grund dafür, dass von einer Stichprobe auf eine Grundgesamtheit geschlossen werden kann, ist ein Phänomen, das durch den Zentralen Grenzwertsatz beschrieben wird. Wichtig für den zentralen Grenzwertsatz sind die Begriffe des Mittelwerts und der Standardabweichung. Der Mittelwert ergibt sich aus der Summe aller Einzelwerte geteilt durch die Anzahl der Fälle. Der daraus entstehende Wert bildet den (sogenannten) Durchschnitt aus allen Werten. Die Standardabwei‐ chung gibt Auskunft darüber, wie stark die einzelnen Werte vom Mittelwert durchschnittlich abweichen. Man sagt auch: wie stark die Streuung der Werte um den Mittelwert ist. Bei einer kleinen Standardabweichung lägen alle 110 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="111"?> Einzelwerte sehr nah beieinander, also sehr nah am Mittelwert. Bei einer großen Standardabweichung können die Einzelwerte einen deutlich weiteren Abstand voneinander bzw. zum Mittelwert aufweisen. 3.9.2 Der zentrale Grenzwertsatz Warum überhaupt von einem Wert in einer Stichprobe auf den Wert in einer Grundgesamtheit geschlossen werden kann, hängt mit dem zentralen Grenz‐ wertsatz zusammen. Zum Verständnis des zentralen Grenzwertsatz wiederrum wird das Wissen über die Normalverteilung benötigt. Die Abbildung 3 zeigt eine vereinfachte Darstellung einer Normalverteilungskurve. Die typische (Gaußsche) Glockenform beschreibt eine Verteilung von Messwerten, bei der es viele Werte gibt, die nah am Durchschnitt (dem höchsten Punkt der Kurve) liegen und immer weniger Werte, die weiter entfernt vom Durchschnitt liegen. Ein klassisches Beispiel für eine Normalverteilung wäre die Körpergröße. In einer zufällig zusammengestellten Gruppe von Menschen, deren Körpergröße erfasst wird, werden die meisten Personen mit ihrer Körpergröße dem Durch‐ schnitt entsprechen oder knapp darunter oder darüber liegen. Je weiter sich die Größen vom Durchschnitt entfernen, desto weniger Personen wird es geben, die eine entsprechende Körpergröße haben. Nur sehr wenige Leute werden sehr viel kleiner oder sehr viel größer als der Durchschnitt sein. Abbildung 3 | Die klassische Gaußsche Normalverteilungskurve 111 3.9 Stichprobenziehung <?page no="112"?> Nun ist es beim zentralen Grenzwertsatz aber so, dass dieser besagt: Wenn eine Grundgesamtheit mit den Ausprägungen eines bestimmten Merkmals vorliegt, dann ist es in der Regel unwahrscheinlich, dass diese Merkmale normalverteilt sind. Nehmen wir als Beispiel die 33.000 Studierenden einer durchschnittlich großen Universität als Grundgesamtheit und betrachten deren Alter. Man würde nicht davon ausgehen, dass das Alter der Studierenden normalverteilt ist, sondern dass es etwa gleich große Gruppen von 19-, 20-, 21-, 22-, 23-,24-Jährigen gibt (wobei hier von Jahr zu Jahr ein paar weniger pro Altersgruppe zu erwarten sind), außerdem gibt es einige Leute, die sind noch jünger und ein paar die vielleicht sogar auch noch deutlich älter sind. Würde man die Werte in einer Kurve abtragen, ergäbe sich wahrscheinlich eher ein linksseitig schiefes Plateau. Der Altersdurchschnitt der Studierenden läge vielleicht irgendwo bei 22 Jahren. Zu diesem Wert würde dann auch noch eine bestimmte Standardabweichung gehören, was man sich für den Moment erstmal als die durchschnittliche Abweichung vom Mittelwert vorstellen kann. Wird eine Stichprobe aus diesen 33.000 Studierenden gezogen und der Altersdurchschnitt in dieser Stichprobe ermittelt, dann liegt der recht wahr‐ scheinlich nicht exakt bei dem Wert der Grundgesamtheit. Wird eine weitere Stichprobe gezogen, unterscheidet sich der dabei ermittelte Durchschnitt sowohl vom Durchschnitt der Grundgesamtheit als auch von Stichprobe 1. Die Streuung der Mittelwerte der unterschiedlichen Stichproben um den Mittelwert der Grundgesamtheit nennt man Stichprobenfehler oder auch Standardfehler. Das Gute am zentralen Grenzwertsatz ist die Erkenntnis, dass, wenn mit der Stichprobenziehung weiter so fortgefahren wird, sich die ermittel‐ ten Mittelwerte dieser Stichproben der Normalverteilung annähern. Viele Stichproben werden mit ihrem Altersdurchschnitt dann recht nah am tatsächlichen Altersdurchschnitt der Grundgesamtheit liegen, bei wenigen Stichproben wird der Abstand größer sein, d. h. der Altersdurchschnitt der Stichprobe also deutlich kleiner oder deutlich größer sein als der tatsächliche Altersdurchschnitt der Grundgesamtheit. Um genau zu sein: Bei etwa 68 % aller Stichproben wird sich der für die Stichprobe ermittelte Altersdurchschnitt im Bereich einer Standardabweichung vom Mittelwert der Grundgesamtheit unterscheiden (Abb. 4), bei 95 % aller Stichproben wird er sich im Bereich von etwa zwei Standardabweichungen unterscheiden (1,96 Standardabweichungen, um genau zu sein). Diese Logik des zentralen 112 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="113"?> Grenzwertsatzes ist anwendbar ab Stichproben mit einem Umfang von 30 Einheiten. eine Standardabweichung eine Standardabweichung Mittelwert 68% aller Stichproben Abbildung 4 | Normalverteilungskurve mit Intervall zwischen +/ einer Standardabwei‐ chung Diese zweite Grenze mit den 95 % im Bereich von 1,96 Standardabweichun‐ gen dient auch als Grundlage zur Berechnung von Konfidenzintervallen, also dem Bereich in dem 95 % aller Stichprobenmittelwerte liegen. Die untere Intervallgrenze ergibt sich, indem man vom Mittelwert das Produkt aus Standardabweichung und dieser Grenze 1,96 abzieht. Die obere Intervall‐ grenze ergibt sich aus der Addition des Mittelwerts mit Standardabweichung und dieser Grenze. Hat man dieses Intervall, kann man sagen, dass 95 % aller Stichproben einen Mittelwert aufweisen werden, der innerhalb dieses Intervalls liegt (Abb. 5). Wenn man nun aber nur eine Stichprobe hat und der Mittelwert und die Standardabweichung der Grundgesamtheit nicht bekannt sind, muss mit den Werten der Stichprobe gearbeitet werden, die bekannt sind. Das sind als erstes der Mittelwert, um den es geht, sowie die Stichprobengröße. Mit diesen Werten kann man den Stichprobenfehler berechnen, der das erwart‐ bare Ausmaß darstellt, mit dem der Wert der Stichprobe vom tatsächlichen Wert der Grundgesamtheit abweicht. 113 3.9 Stichprobenziehung <?page no="114"?> 12 dazu ausführlicher bei Kahnemann, 2011 ab S. 112 Konfidenzintervalle für die Stichprobe werden dann also stattdessen mit‐ hilfe des Stichprobenfehlers berechnet. Wichtig ist: Der Stichprobenfehler wird kleiner (und damit auch der Konfidenzintervall), je größer die Stich‐ probe ist. Und dann funktioniert es analog wie oben: Die Intervallgrenzen ergeben sich aus dem Mittelwert der Stichprobe minus bzw. plus 1,96-mal Stichprobenfehler. Hat man dieses Intervall, kann man dann also sagen, dass mit 95 % Sicherheit (bzw. Irrtumswahrscheinlichkeit) der tatsächliche Mittelwert der Grundgesamtheit in eben diesem Bereich des Intervalls liegt. Die Beispiele im folgenden Abschnitt illustrieren dieses Prinzip. 1,96 Standardabweichungen 1,96 Standardabweichungen Mittelwert 95% aller Stichproben Abbildung 5 | Normalverteilungskurve mit Intervall zwischen +/ - 1,96 Standardabweichun‐ gen 3.9.3 Stichprobengröße Wie groß muss eine Stichprobe sein, um verlässliche Ergebnisse zu produ‐ zieren? Auf diese Frage gibt es eigentlich eine relativ einfach zu berech‐ nende Antwort. Allerdings zeigt sich, dass selbst Forscher: innen völlig falsche Einschätzungen abgeben, wenn sie danach gefragt werden, und viele Studien zu kleine Stichproben wählen 12 . Die Formel zur Berechnung wird an dieser Stelle ausgespart, denn erfreulicherweise gibt es einige 114 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="115"?> 13 Zum Beispiel: https: / / www.surveymonkey.de/ mp/ sample-size-calculator/ . Zur Berech‐ nung der Fehlerspanne: https: / / www.surveymonkey.de/ mp/ margin-of-error-calculato r/ (letzter Zugriff: 19.7.2021) Internetseiten, auf denen man die nötigen Parameter eingeben und dann die entsprechend richtige Stichprobengröße errechnet bekommt. 13 Diese hängt von der Größe der Grundgesamtheit ab. Außerdem muss eine Angabe darüber gemacht werden, mit welcher Sicherheit am Ende die Ergebnisse der Stichprobe um nur bestimmte Prozentpunkte vom tatsächlichen Wert in der Grundgesamtheit abweichen sollen. Das heißt, es muss hier sowohl die gewünschte Irrtumswahrscheinlichkeit (das Konfidenzintervall) festgelegt werden, beispielsweise 95 %, 99 % oder sogar 99,9 %. Außerdem muss der akzeptierte Stichprobenfehler (z. B. 3 %) bestimmt werden. Was heißt das konkret? Wenn beispielsweise für eine Grundgesamtheit von 10.000 Personen mit 95-prozentiger Sicherheit gesagt werden soll, dass der tatsächliche Mittelwert der Grundgesamtheit nicht mehr als +/ - 3 % vom in der Stichprobe ermittelten Wert abweicht, dann wird eine Stichprobe im Umfang von mindestens 965 Personen benötigt (danke Internet, aber es gibt in vielen Statistik- und Methodenlehrbüchern auch Tabellen, aus denen dieser Wert abgelesen werden könnte, z. B. Häder, 2019). Werden diese 965 Personen beispielsweise gefragt, ob sie lieber Schoko- oder Erdbeereis essen und geben 50 % die Antwort Schokoeis, dann kann mit 95-prozentiger Sicherheit gesagt werden, dass der tatsächliche Wert der Schokoeisfans in der Grundgesamtheit zwischen 47 und 53 % liegen wird. Es ist interessant zu sehen, was mit der Stichprobengröße passiert, wenn einzelne Parameter verändert werden. Ist die Grundgesamtheit bei‐ spielsweise 100.000 Personen groß, aber es sollen weiterhin Aussagen mit 95-prozentiger Sicherheit für die maximale Abweichung von 3 % gemacht werden können, so werden tatsächlich nur wenig mehr Leute in der Stich‐ probe gebraucht, nämlich 1.056. Wird eine weitere Null an die Größe der Grundgesamtheit gehängt, sind es nur weitere 10 Leute mehr, die für die Stichprobe gebraucht werden. Bei 10 Millionen Menschen in der Grundge‐ samtheit werden dann auch nur 1.067 Personen benötigt. Daraus wird schon ersichtlich, warum 1.000 Befragte sich als ein Standardmaß für viele Befra‐ gungen etabliert hat. Soll aber beispielsweise die Irrtumswahrscheinlichkeit verringert werden, um zu sagen, dass der Wert der Stichprobe bei einer Grundgesamtheit von 10.000 Leuten mit 99-prozentiger Sicherheit nicht mehr oder weniger als 3 % abweicht, werden 1.561 Personen benötigt. Ein 115 3.9 Stichprobenziehung <?page no="116"?> deutlicher Unterschied! Wird der Wert, um den der tatsächliche Mittelwert schwanken soll, beispielsweise auf nur 1 % für dieses Beispiel mit 99 % Sicherheit verringert, werden 6.247 Personen in der Stichprobe benötigt (für die Grundgesamtheit von 10.000 Leuten wohlgemerkt)! 3.9.4 Weitere Auswahlverfahren Auch bei der Stichprobenziehung gilt es Entscheidungen zu treffen und Vor- und Nachteile abzuwiegen. Die Zufallsauswahl bei der Stichprobenziehung ist dabei nur eines von verschiedenen möglichen Auswahlverfahren. Ein wich‐ tiges Prinzip der Zufallsauswahl beruht darauf, dass das verkleinerte Abbild der Grundgesamtheit darüber hergestellt wird, dass prinzipiell alle möglichen Merkmalsträger bzw. Elemente die gleiche Chance haben ausgewählt zu werden. Wenn diese gleiche Chance sichergestellt ist - und man sollte immer genau überprüfen, ob das auch wirklich der Fall ist und nicht doch systema‐ tisch Gruppen ausgeschlossen werden - dann ist die Zufallsauswahl die beste Möglichkeit Repräsentativität zu erreichen. Wie aber bei allen anderen Schritten im Forschungsprozess gibt es auch bei der Stichprobenziehung As‐ pekte entsprechend dem eigentlichen Erkenntnisinteresse abzuwiegen. Auch innerhalb der Zufallsauswahl gibt es unterschiedliche Herangehensweisen, die im Folgenden kurz behandelt werden. Besondere Vorsicht ist aber immer dann geboten, wenn die Zufallsauswahl nicht gegeben ist und eine bewusste oder willkürliche Auswahl von Fällen stattgefunden hat. Dies kann auch durchaus im Rahmen bestimmter Fragestellungen sinnvoll sein. Wie gut die Begründung für eine solche Entscheidung dann ist, sollte aber mit genauem Blick geprüft und hinterfragt werden. Formen der Zufallsauswahl Die einfache oder auch uneingeschränkte Zufallsauswahl ist die ein‐ fachste und mathematisch korrekte Variante zur Ziehung einer Stichprobe. Die Ziehung der Lottozahlen entspricht einer solchen einfachen Zufallsaus‐ wahl: Alle Elemente haben die exakt gleiche Chance ausgewählt zu werden. In der empirischen Forschung lässt sich eine Zufallsauswahl beispielsweise mit einem Zufallsgenerator herstellen. Oftmals werden aber auch gewisse Systematiken angewendet, nach der die zufällige Ziehung von Elementen (zum Beispiel von Befragten) aus einer bekannten Grundgesamtheit erfolgt. So ist bei Telefonumfragen häufig die erste Frage, wer im Haushalt zuletzt 116 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="117"?> Geburtstag hatte, um dann diese Person zu befragen und nicht diejenige, die als erstes das Telefonat entgegengenommen hat. Denn es ist nicht zufällig, wer ans Telefon geht. Liegt das Beantworten des Telefons innerhalb einer Familie immer in der Verantwortung einer Person, dann hatten die anderen Personen im Haushalt nicht die gleiche Chance Teil der Umfrage zu werden. Das Zufallsprinzip wäre gestört. Problematisch bei Telefonumfragen ist dar‐ über hinaus, dass diejenigen Haushalte ohne Telefonanschluss systematisch ausgeschlossen sind. Oftmals werden außerdem Nummernverzeichnisse wie Telefonbücher (und ihre digitalen Pendants) als Grundlage für die Auswahl genutzt, doch es gibt gute Gründe für manche Personen, ihre Tele‐ fonnummer nicht zugänglich zu machen. Das müssen nicht nur Prominente sein, auch Journalist: innen, teilweise auch Lehrer: innen verzichten darauf, ihre Telefonnummer zugänglich zu machen. Hier kann Abhilfe geschaffen werden, indem beispielsweise die letzte Ziffer einer zufällig gezogenen Nummer ausgetauscht wird. Es steigt zumindest die Wahrscheinlichkeit, so auch nicht verzeichnete Nummern zu treffen, allerdings werden damit auch viele nicht vergebene Nummern gewählt. Gleichzeig können Haushalte auch mehrere Telefonnummern im Telefonbuch verzeichnet haben. Auch hier kommt es zur Verletzung des Zufallsprinzips, weil diese Haushalte eine höhere Wahrscheinlichkeit haben, ausgewählt zu werden. Andere systematische Zufallsauswahlen könnten zum Beispiel jeden 100. Fall aus einer Liste aller Fälle wählen. Hier ist Vorsicht bei der Ordnung solcher Listen geboten, die gegebenenfalls auch zu Verzerrungen führen kann. Eine beliebte Methode, um Experimentalgruppen einzuteilen, ist zum Beispiel der Geburtstag - ungerade Tage in die eine Gruppe, gerade Tage in die andere - weil davon auszugehen ist, dass dieses Kriterium keinen Einfluss auf die zu untersuchenden Merkmale hat. Beispiel | Prognose zur Präsidentschaftswahl Ein sehr eingängiges Beispiel über den Wert der Zufallsauswahl hat es bereits in zahlreiche Methoden- und Statistiklehrbücher geschafft und soll auch hier nicht vorenthalten werden, weil der Erkenntnisge‐ winn tatsächlich groß ist. Im Jahr 1936 wollte die US-amerikanische Zeitschrift „Readers Digest“ im Vorfeld der stattfindenden Präsident‐ schaftswahl eine Prognose darüber abgeben, wer als nächster Präsident zu erwarten ist. Dazu wählte sie aus einem Verzeichnis, in dem Tele‐ fonanschlüsse und Kraftfahrzeughalter gelistet waren, immerhin 10 117 3.9 Stichprobenziehung <?page no="118"?> Millionen zufällige Adressen aus, an die Stimmzettel verschickt worden sind. Beeindruckende 2,5 Millionen dieser Stimmzettel kamen zurück (eine Rücklaufquote, von der viele Forscher: innen heute träumen). Das Ergebnis war eindeutig: Der Kandidat Landon würde deutlich gegen Roosevelt gewinnen. Was die Zeitschrift nicht bedacht hatte: Zur Gruppe der Telefon- und Autobesitzer gehörten in dieser Zeit vor allem Mitglieder der oberen Gesellschaftsschichten. Arbeiter: innen waren praktisch nicht vertreten in der Stichprobe, die damit trotz ihrer Größe nicht annähernd repräsentativ für die amerikanische Wahlbevölkerung gewesen ist. Tatsächlich gewann am Ende Roosevelt mit einem weit von der Umfrage abweichenden Ergebnis von 62 %. Manchmal kann es nötig werden, geschichtete Zufallsstichproben zu ziehen, beispielsweise wenn sichergestellt werden soll, dass auch kleine Gruppen wirklich in der Stichprobe vertreten sind. Bei einer reinen Zufalls‐ stichprobe kann es passieren, dass die Wahrscheinlichkeit doch sehr hoch wäre, dass Personen aus zahlenmäßig geringer vertretenen Gruppen nicht erreicht würden oder unterrepräsentiert blieben. Von den insgesamt rund 69 Millionen Wahlberechtigten in Deutschland leben beispielsweise gerade mal rund 482.000 in Bremen. Glücklicherweise ist auch bekannt, wie viele Wahl‐ berechtigte in allen anderen Bundesländern leben, sodass man mit einer geschichteten Zufallsstichprobe nicht aus dem Pool aller Wahlberechtigten, sondern aus dem jeweiligen Pool der Wahlberechtigten jedes Bundeslandes zufällig Befragte zieht. Man zieht dann entsprechend so viele Personen pro Bundesland, bis der Anteil der Befragten pro Bundesland auch dem Anteil der Wahlberechtigten in diesem Bundesland an der Gesamtzahl der Wahlberechtigten entspricht. Ein weiterer Sonderfall der zufälligen Stichprobenauswahl stellt die Klumpenstichprobe dar (im Englischen: cluster sample). Dabei werden nicht einzelne Elemente, sondern raumzeitlich zusammenhängende Ele‐ mente gemeinsam als ganze Klumpen ausgewählt. Eines der wohl bekann‐ testen Beispiele für so ein Vorgehen bietet die PISA Studie, mit der die Leistungen von 15-jährigen Schüler: innen im internationalen Vergleich erhoben werden. Statt aus einem (nicht existenten) Verzeichnis aller Schü‐ lerinnen und Schüler der entsprechenden Altersgruppe zufällig einzelne Personen auszuwählen, werden für die PISA Studie aus einem Verzeichnis aller Schulen zufällig ganze Schulen als Klumpen ausgewählt. Aus diesen 118 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="119"?> 14 Mag et al. (2018): Technische Hintergrundinformationen PISA 2018, https: / / www.pi sa.tum.de/ fileadmin/ w00bgi/ www/ Berichtsbaende_und_Zusammenfassungungen/ Tec hnische_Hintergrundinformationen_PISA_2018.pdf (letzter Zugriff: 19.7.2021 ) wiederum wird eine festgelegte Anzahl 15-jähriger Schüler: innen zufällig ausgewählt. Für eine an die PISA Studie angehängte eigene Erhebung wurden in Deutschland zusätzlich noch ganze 9. Klassen gezogen, also eine weitere Klumpenauswahl vorgenommen 14 . Der Vorteil der Klumpenstichprobe liegt auf der Hand, das Verfahren ist deutlich einfacher als die reine Zufallsauswahl. Im Fall der PISA Studie lassen sich durch die Teilnahme im Klassenverband auch die Befragungssi‐ tuationen besser aneinander anpassen (statt, dass beispielsweise alle einzeln zufällig gezogenen Schüler: innen an einem fremden Ort gesammelt den Test schreiben müssten). Allerdings muss man bei der Klumpenstichprobe von höheren Werten für den Stichprobenfehler ausgehen. Entsprechend sind größere Stichproben nötig als bei der reinen Zufallsauswahl. Bewusste Auswahlverfahren Den Gegensatz zur Zufallsstichprobe stellen bewusste Auswahlverfahren dar. Dabei erfolgen bei der Auswahl der Merkmalselemente bestimmte Erwägungen darüber, wer oder was für die jeweilige Untersuchung „ge‐ braucht“ wird. Klar ist, das Wahrscheinlichkeitsprinzip wird hierbei ausge‐ setzt, entsprechend problematisch ist auch die Frage der Repräsentativität. Manchmal ist Repräsentativität aber auch gar nicht das entscheidende Kriterium. Dies kann zum Beispiel gegeben sein, wenn man typische Fälle auswählt. Ein bestimmtes Kriterium ist hierbei ausschlaggebend für die Aus‐ wahl. Das kann eine Berufsgruppe oder eine Personengruppe mit einer be‐ stimmten Krankheit sein. Je nachdem, was für die Untersuchung relevant ist. Das kann bei der Inhaltsanalyse auch die Auswahl ganz bestimmter Medien sein. Sehr oft wird für Inhaltsanalysen nicht die gesamte Berichterstattung über alle Medien zur Grundlage genommen, sondern man konzentriert sich auf bestimmte Leit- oder Qualitätsmedien, die vielleicht auch stellvertretend für bestimmte politische Richtungen stehen (klassischerweise von eher links nach eher konservativ: taz, Frankfurter Rundschau, Süddeutsche Zeitung, Frankfurter Allgemeine Zeitung und die Welt). Die Auswahl von Extremfällen verfolgt ein etwas anderes Ziel. Hier erhoffen sich Forschende in der Regel tiefere Einblicke in bisher weniger erforschte Bereiche und wählen dazu Elemente aus, bei denen ein Merkmal 119 3.9 Stichprobenziehung <?page no="120"?> besonders stark ausgeprägt ist. Auch Expert: innen-Interviews können zu dieser Auswahlmethode gezählt werden, denn von ihnen erhofft man sich, spezielle und detailreiche Informationen, die von zufällig gewählten Personen nicht erbracht werden könnten. Eine weitere Besonderheit stellt das Schnellballprinzip dar, das nützlich sein kann, wenn eine bestimmte Grundgesamtheit gar nicht abschließend bekannt ist. Man würde in die‐ sem Fall relevante Personen identifizieren und diese dann bitten, weitere Personen zu nennen, die ebenfalls zu der für die Forschenden relevanten Zielgruppe gehören. Irgendwann würde man bei diesem Vorgehen an einen Punkt kommen, an dem man nur noch dieselben Namen hört. Ist die Gefahr groß, bei einer reinen Zufallsstichprobe zu viele für die Forschungsfrage nicht relevante Fälle in der Stichprobe zu versammeln, kann man sich nach dem Konzentrationsprinzip auf solche Teile der Grundge‐ samtheit konzentrieren, in denen die meisten relevanten Elemente vermutet werden. Will man beispielsweise Mobilitätsstrategien der Landbevölkerung untersuchen, ergibt es durchaus Sinn, sich auch bei der Stichprobenziehung nur auf die Landbevölkerung zu beziehen. So weit, so logisch in den meisten Fällen. Dennoch sollte man ein besonderes Augenmerk darauflegen, dass schlussend‐ lich die Erkenntnisse auf eben genau diese Grundgesamtheit bezogen werden. Werden beispielsweise Frauen im Alter von 20 bis 40 Jahren aus Frankfurt befragt, kann man keine Aussagen über alle Frauen in Hessen machen, sondern lediglich über Frauen im Alter von 20 bis 40 Jahren aus Frankfurt. In Zeiten des Internets ist es deutlich einfacher und günstiger geworden, Befragungen selbst zu erstellen und online zu platzieren bzw. zu verschicken. Ein solches Verfahren wird auch als River-Sampling bezeichnet, weil das Vorgehen an einen Fischer denken lässt, der sein Netz auswirft, um Fische zu fangen. So werden hier Befragte „gefangen“. Bei dieser Art der „Umfrage“ ist ganz besondere Vorsicht geboten, wie ein Beispiel aus dem Jahr 2018 eindrücklich darlegt. Beispiel | Probleme beim River-Sampling Nachdem die beiden deutschen Fußballnationalspieler Mesut Özil und Ilkay Gündogan nach einem Treffen mit dem türkischen Präsidenten Erdogan in die Kritik geraten waren, veröffentlichte Focus Online das Ergebnis einer Online-Umfrage, die das Umfrage Start-up Civey durchgeführt hatte. Demnach seien 80 % der Deutschen der Meinung, die beiden Spieler sollten aus der Nationalmannschaft ausgeschlossen 120 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="121"?> 15 https: / / www.focus.de/ politik/ deutschland/ repraesentative-civey-umfrage-fuer-focusonline-nach-erdogan-fotos-klare-mehrheit-will-oezil-und-guendogan-aus-nationalelfausschliessen_id_8934133.html (letzter Zugriff: 19.7.2021) 16 Der ganze Fall wurde detailliert vom Deutschlandfunk nachgezeichnet. Nachzulesen hier: https: / / www.deutschlandfunk.de/ methodenstreit-der-meinungsforschung-was-is t-repraesentativ.724.de.html? dram: article_id=434924 (letzter Zugriff: 19.7.2021) werden 15 . Die Umfrage sorgte für einigen Wirbel und schlussendlich sogar für eine Beschwerde beim Presserat durch das Umfrageinstitut Forsa, das - ebenso wie das Umfrageinstitut Emnid - eine ähnliche Umfrage durchgeführt hatte mithilfe der klassischen Telefonbefragung. Die Befragungen der beiden Institute ergaben lediglich zwischen 25 und 36 % Zustimmung zur Problematik. Forsa sah hier das für Meinungsfor‐ schungsinstitute wichtige Label der Repräsentativität von Civey unge‐ rechtfertigt verwendet und damit die Glaubwürdigkeit von Umfragen gefährdet 16 . Tatsächlich gibt Civey an, dass 5.057 Befragte an der Um‐ frage teilgenommen haben. Eine große Menge auch im Vergleich zu den üblichen 1.000 Befragten bei den meisten Standardumfragen. Allein von dieser Größe lässt sich aber keine Repräsentativität ableiten. Erinnern wir uns an das oben beschriebene Beispiel der Umfrage der Zeitschrift Readers Digest im Jahre 1936. Trotz 2,5 Millionen Befragten lag die Vorhersage des Wahlgewinners völlig daneben. Das Problem beim River-Sampling bei Online-Umfragen ist ganz ähnlich. Es findet keine Zufallsauswahl statt, denn es werden potenziell nur Menschen erreicht mit einem Internetanschluss. Das heißt, es haben nicht alle Personen der Grundgesamtheit (z. B. bundesdeutsche Bevölkerung) die gleiche Chance in die Stichprobe aufgenommen zu werden. Es findet darüber hinaus eine Selbstselektion statt. Mit sehr hoher Wahrscheinlichkeit nehmen genau die Leute an einer solchen Umfrage teil, die eine starke Meinung zum Thema haben. Wem es egal ist, der wird die Umfrage viel eher übergehen. Im Fall der Civey-Umfrage gibt das Unternehmen zwar an, dass die Befragten mit ihren demographischen Merkmalen bekannt und registriert sind und die Stichprobe entsprechend repräsentativ zur deutschen Bevölkerung ab 18 Jahren ist. Aber das wichtige Merkmal der Internetaffinität, das wahrscheinlich bereits bei der Registrierung bei Civey ausschlaggebend gewesen ist, ist sehr wahrscheinlich nicht gleichverteilt in Stichprobe und Grundgesamtheit und bringt die Reprä‐ sentativität der gesamten Stichprobe ins Wanken. 121 3.9 Stichprobenziehung <?page no="122"?> Zuletzt im Abschnitt der bewussten Auswahlverfahren soll auch die Quo‐ tenstichprobe nicht unbeachtet bleiben. Sie ist in der Einleitung dieses Abschnittes zur Stichprobenziehung schon einmal angedeutet worden und spielt im Beispiel der Focus-online Umfrage oben ebenfalls eine wichtige Rolle. Bei der Auswahl nach Quotierung geht es darum, Merkmalsträger so auszuwählen, dass zentrale Merkmale in der Stichprobe gleich verteilt sind wie in der Grundgesamtheit. In der Regel geht es hier um demogra‐ phische Merkmale. Ist bekannt, wie viele Männer und Frauen anteilig in der Grundgesamtheit vorhanden sind, wird die Stichprobe so zusam‐ mengestellt, dass der Anteil entsprechend gleich ist. Selbiges gilt dann für Alter, Wohnort, Einkommen, Bildungsstand, Religion usw. Zentrale Voraussetzung für diese Art der Stichprobenziehung ist logischerweise, dass eben diese Merkmalsverteilung der Grundgesamtheit bekannt ist, um tatsächlich sicher gehen zu können, dass die Stichprobe am Ende ein Abbild der Grundgesamtheit darstellt. Und zwar nicht nur die Verteilung der einzelnen Merkmale, sondern vor allem auch bestimmter zentraler Merkmale in Kombination, z. B. Frauen im Alter von 14-29, die in einer Gemeinde mit unter 20.000 Einwohner: innen leben und Angestellte sind. Die Grundlage für diese Auswahl bilden Daten von Volkszählungen, die durch Mikrozensus-Erhebungen regelmäßig aktualisiert werden. Markt‐ forschungsinstitute greifen in der Regel auf dieses Verfahren zurück. Der größte Kritikpunkt an dieser Art der Stichprobenziehung ist ebenfalls oben schon angedeutet worden: Selbst, wenn man sicher gehen kann, dass die Verteilung der demographischen Merkmale in der Stichprobe den Merkmalen der Grundgesamtheit entspricht, kann ohne Zufallsprinzip streng genommen nicht davon ausgegangen werden, dass die in der Untersuchung zu erhebende (und unbekannte) Merkmale in der Stichprobe auch der Verteilung in der Grundgesamtheit entsprechen. 3.9.5 Rücklaufquoten und Non-Response Auch bei einer sehr sorgfältig geplanten Stichprobenziehung kommt es am Ende zu Ausfällen, d. h. man wird nicht alle geplanten Elemente tatsächlich untersuchen können. Der Anteil derer, die an einer Befragung teilgenommen haben, an der Gesamtzahl der Personen, die kontaktiert worden sind, nennt man Rücklaufquote. Bei großen Umfrageinstituten geht man davon aus, dass die Responsequote bei ca. 30 % liegt. Dass nicht alle kontaktierten Personen tatsächlich auch an der Befragung teilnehmen, 122 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="123"?> wäre kein Problem, wenn man davon ausgehen könnte, dass die Ausfälle (Non-Response) zufällig wären. Das kann man in der Regel leider nicht. Viel eher muss erkundet werden, welche systematischen Faktoren dazu führen, dass Personen nicht an einer Befragung teilnehmen. In der Um‐ frageforschung kann man drei Formen des Nichtzustandekommens eines Interviews unterscheiden. 1. Personen können einfach nicht erreichbar sein. So lassen sich junge arbeitende Leute beispielsweise deutlich schwerer tagsüber am Telefon erreichen als Personen, die schon in Rente sind. 2. Personen können die Teilnahme schlicht verweigern, beispielsweise weil sie Bedenken hinsichtlich des Datenschutzes haben. Es ist davon auszugehen, dass bestimmte Personenkreise solche Vorbehalte hegen, die damit systematisch für Befragungen ausfallen. 3. Personen können aufgrund persönlicher Umstände, z. B. Krankheit, nicht in der Lage sein, an der Befragung teilzunehmen. Auch solche Ausfälle können zu systematischen Verzerrungen führen. Die Probleme betreffen Zufallsstichproben übrigens genauso wie auch Quo‐ tenstichproben. Bei Letzteren muss man vielleicht etwas genauer hinsehen, weil es auf den ersten Blick natürlich verlockend ist, beim Ausfall einer Befragungsperson eine weitere Person der gleichen Kategorie zu kontaktie‐ ren und so die Stichprobe am Ende trotz Ausfällen vollständig zu haben. Wenn mir aber der 14-29-jährige Mann aus der Großstadt die Teilnahme verweigert und der nächste 14-29-jährige Mann aus der Großstadt meine Fragen beantwortet, weiß ich noch nicht, ob der erste zu einer Gruppe von systematischen Verweigerern gehört, die am Ende damit nicht repräsentiert sind. Mit dem Verfahren der Gewichtung bei der Datenauswertung wird versucht, den Problemen zumindest im Ansatz Herr zu werden. Stellt man am Ende der Datenerhebung beispielsweise fest, dass junge Leute unterrepräsentiert sind (hierzu ist wiederum ein Abgleich mit der Bevölke‐ rungsstatistik nötig), kann man die Antworten derjenigen aus der Gruppe, die teilgenommen haben, höher gewichten, d. h. also mit einem Faktor, der größer ist als 1, in die Analysen einfließen lassen. Das geht aber, wie gesagt, nur bei solchen Ausfällen, die sich mit demografischen Merkmalen abgleichen lassen. Systematische Ausfälle von Verweigerern aufgrund von Datenschutzbedenken lassen sich weder einfach identifizieren noch durch 123 3.9 Stichprobenziehung <?page no="124"?> 17 Eine ausführliche Liste von Strategien zur Eindämmung der Nichtbeteiligung (beispiels‐ weise durch Anreize, Ankündigungen, mehrmalige Kontaktversuche) findet sich bei Häder (2019) ab Seite 189. Gewichtung in die Analyse einbringen, da alle Teilnehmer: innen schließlich gerade nicht zur Gruppe der Verweigerer gehörten. 17 ► Checkliste ■ Passt der Plan zum Problem? Lassen sich die eingangs gestellten Fragen mit dem gewählten Studiendesign beantworten? ■ Wie wird die Wahl der Erhebungsmethode begründet? ■ Ist die generelle Argumentation zum Vorgehen schlüssig und sind die Arbeitsschritte im Einzelnen (intersubjektiv) nachvollziehbar? ■ Welche Rolle spielen forschungspraktische Überlegungen, d. h. Ein‐ schränkungen aufgrund von personellen und finanziellen Ressourcen? Wird hierüber Transparenz hergestellt? Erstellung des Messinstruments ■ Entspricht die Operationalisierung des Messinstruments den theoreti‐ schen Konstrukten, d. h. finden sich alle als relevant identifizieren Merkmale als Kategorien und Variablen wieder? ■ Ist das Messinstrument gleichzeitig aber sparsam, d. h. wurden wirklich nur die als relevant identifizierten Merkmale und Variablen aufgenom‐ men? ■ Messen die Kategorien tatsächlich, was sie messen sollen? ■ Wenn Items und Skalen zum Messen komplexer Konstrukte verwendet werden, wie wurden diese daraufhin getestet, ob das Phänomen durch die Indikatoren abgedeckt wurden? ■ Werden etablierte Fragebogenitems zur Erfassung komplexer Kon‐ strukte verwendet, die bereits extern getestet worden sind? ■ Ist ein Pretest durchgeführt worden und wird aussagekräftig über dessen Ergebnisse berichtet? ■ Bei Experimenten: Wurde ein Manipulationscheck durchgeführt? 124 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="125"?> Stichprobenziehung ■ Welches Auswahlverfahren wurde zur Stichprobenziehung verwendet? Wie wird die Auswahl begründet? ■ Wie wurde sichergestellt, dass die Stichprobe der verkleinerten Abbil‐ dung der Grundgesamtheit entspricht, mithilfe der reinen Zufallsstich‐ probe oder durch Abgleich mit Zensusdaten? ■ Welche Schlüsse lassen sich ziehen, d. h. was wurde als Grundgesamt‐ heit definiert und kann man mithilfe der gewählten Stichprobe auf diese Grundgesamtheit schließen? ■ Haben alle Elemente der Grundgesamtheit die gleiche Chance Teil der Stichprobe zu werden? ■ Welche Angaben werden zu Konfidenzintervall und Stichprobenfehler gemacht? (Diese Angaben haben wichtige Auswirkungen auf die spä‐ tere Einordnung der Ergebnisse.) ■ Welche Angaben werden zu Rücklaufquoten (Non-Response) gemacht? Literatur Es gibt eine Reihe guter Lehrbücher zu den Grundlagen der empirischen Sozialforschung. Häufig sind diese allerdings einem spezifischen Fachgebiet zugeordnet, zum Beispiel der Kommunikationswissenschaft, Soziologie, Politikwissenschaft, Erziehungswissenschaft, soziale Arbeit, Wirtschafts‐ wissenschaft usw. Allgemeine Überblicke zu Methoden empirischer Sozialforschung findet sich hier: Hug, T., & Poscheschnik, G. (2020). Empirisch forschen: Die Planung und Umsetzung von Projekten im Studium (3., überarbeitete und ergänzte Auflage). UTB: 3357. Schlüsselkompetenzen. München: UVK Verlag. Diekmann, A. (2020). Empirische Sozialforschung: Grundlagen, Methoden, Anwen‐ dungen (Originalausgabe, vollständig überarbeitete und erweiterte Neuausgabe, 13. Auflage). rororo: Rowohlts Enzyklopädie. Reinbek bei Hamburg: Rowohlt Taschenbuch Verlag. 125 Literatur <?page no="126"?> Aus dem Bereich der Kommunikationswissenschaft sind diese Lehrbücher zu empfehlen: Brosius, H.-B., Haas, A., & Koschel, F. (2015). Methoden der empirischen Kommu‐ nikationsforschung: Eine Einführung (7th ed.). Studienbücher zur Kommunika‐ tions- und Medienwissenschaft. Wiesbaden: Springer VS. Scheufele, B., & Engelmann, I. (2009). Empirische Kommunikationsforschung. UTB: Vol. 3211. Konstanz: UVK-Verl.-Ges. Umfangreichere Ausführungen zu einzelnen Erhebungsmethoden finden sich hier: Steiner, E., & Benesch, M. (2018). Der Fragebogen: Von der Forschungsidee zur SPSS-Auswertung (5. aktual. u. überarb. Aufl.). UTB: Schlüsselkompetenzen. Wien: UTB GmbH Früh, W. (2017). Inhaltsanalyse: Theorie und Praxis (9th ed.). utb-studi-e-book: Vol. 2501. Konstanz, München: UTB GmbH; UVK. Rössler, P. (2017). Inhaltsanalyse (3., völlig überarbeitete Auflage). UTB Basics: Vol. 2671. Konstanz, München: UVK Verlagsgesellschaft mbH; UVK/ Lucius. Gehrau, V. (2017). Die Beobachtung als Methode in der Kommunikations- und Medienwissenschaft (2., völlig überarbeitete Auflage). UTB: UTB-Band Nr. 2355. Konstanz, München: UVK Verlagsgesellschaft mbH; UVK Lucius. Huber, O. (2019). Das psychologische Experiment: Eine Einführung, mit fünfund‐ fünfzig Cartoons aus der Feder des Autors (7., überarbeitete Auflage). Bern: Hogrefe. Zum Verständnis der Anlage klinischer Studien: Benesch, M., & Raab-Steiner, E. (2018). Klinische Studien lesen und verstehen (2., aktualisierte und überarbeitete Auflage). UTB: Vol. 3982. Wien: facultas. Zum weiteren Verständnis der Arbeit im Bereich Marktforschung: Fantapié Altobelli, C. (2017). Marktforschung: Methoden - Anwendungen - Praxisbei‐ spiele (3., vollständig überarbeitete Auflage). UTB: Vol. 8342. Konstanz, München: UVK Verlagsgesellschaft mbH; UVK/ Lucius. 126 3 Der Plan: Messinstrument entwickeln und Datenbeschaffung vorbereiten <?page no="127"?> 4 Die Daten Das übergeordnete Ziel statistischer Prozesse ist es, Antworten auf Fragen zu finden, die über anekdotische Evidenzen hinausgehen und systematische Aussagen zulassen. Dies soll mit Hilfe von Daten geschehen, die viele Einzelfälle zusammenfassen und den Blick auf größere Zusammenhänge ermöglichen. Für die öffentliche Debatte, zu der die journalistische Bericht‐ erstattung entscheidend beiträgt, liefert dies eine wertvolle Grundlage, um informierte Entscheidungen treffen zu können. Dazu muss sichergestellt sein, dass die Daten mit höchster Sorgfalt zustande gekommen und die abgeleiteten Erkenntnisse mathematisch korrekt und logisch fundiert sind. Deshalb hat das letzte Kapitel einen Überblick gegeben, welche Arten von Daten es gibt, wie Daten erhoben werden können und was bei der Planung einer Datenerhebung insbesondere mit dem Blick auf die Stichpro‐ benziehung zu beachten ist. In den seltensten Fällen müssen Journalist: innen diese Schritte der Datenerhebung allerdings selbst durchführen. Die Wahr‐ scheinlichkeit ist größer, dass sie mit Studien oder Erhebungen Dritter konfrontiert werden und nachvollziehen müssen, ob die Datenerhebung sorgfältig geplant und durchgeführt worden ist und die Ergebnisse der Analyse dieser Daten daher als zuverlässig gelten können. Welche Daten wie erhoben worden sind, steht in direktem Zusammenhang damit, welche Aussagen über wen oder was schlussendlich gemacht werden und als wie sicher diese Erkenntnisse gelten können. In diesem Kapitel wird es darum gehen, welche Aspekte im eigentlichen Schritt der Erhebung zu beachten sind. Darüber hinaus wird ein weiteres Szenario für die journalistische Arbeit genauer betrachtet: die Suche, Verifi‐ kation und Aufarbeitung bereits existierender Daten für eine journalistische Recherche. Denn viele Daten gibt es schon. Tatsächlich verdoppelt sich die Menge an verfügbaren Daten in immer kürzeren Zeiträumen. Die Frage für Journalist: innen ist also, wie und wo die „richtigen“ Daten für die eigene Recherche zu finden sind und wie sie nutzbar gemacht werden können. Dabei spielen alle im letzten Kapitel behandelten Aspekte zur Einschätzung der Qualität von Daten gerade auch beim Umgang mit existierenden Da‐ tensätzen eine sehr wichtige Rolle. Sorgfältig nachzuvollziehen, wie Daten zustande gekommen sind, wer sie erzeugt hat und was sie eigentlich messen, ist die Basis für eine gründliche Data Verification. <?page no="128"?> Daher wird es im Folgenden zum einen um Strategien gehen, wie Daten in eine gut zu nutzende Form gebracht werden können und zum anderen darum, welche Möglichkeiten es zur Kontrolle von vorliegenden Daten gibt bzw. wie bei der Datenbereinigung (also der Aufarbeitung und Fehlerberei‐ nigung bei einem Datensatz) vorgegangen werden kann. 4.1 Die Form: Datentabelle Stellen wir uns vor, es wurde eine klassische schriftliche Befragung durch‐ geführt und nun liegt ein Stapel ausgefüllter Fragebögen auf Papier auf dem Schreibtisch. Jeder Bogen stellt einen Einzelfall dar. Das Ziel ist es, alle Ein‐ zelfälle in einer Form zusammenzuführen, die Aussagen über den Einzelfall hinaus ermöglicht. Die Form, die eine effiziente Bearbeitung ermöglicht, ist die Tabelle - um genau zu sein: die Datentabelle. Ein Datensatz in einer Datentabelle, die alle Fälle mit den relevanten Merkmalen zusammenfasst, ermöglicht die Bearbeitung in allen gängigen Statistikprogrammen. Fallbezeichnung Variable 1 Variable 2 Variable 3 Fall 1 Merkmalsausprä‐ gung 1 Merkmalsausprä‐ gung 1 -99 Fall 2 Merkmalsausprä‐ gung 2 -99 Merkmalsausprä‐ gung 2 Fall 3 Merkmalsausprä‐ gung 3 Merkmalsausprä‐ gung 3 Merkmalsausprä‐ gung 3 Tabelle 1 | Die klassische Datentabelle In der klassischen Datentabelle bildet jede Zeile einen Fall ab. Die Variablen, also die interessanten Merkmale eines Falls, die erhoben worden sind, werden spaltenweise festgehalten (siehe Tabelle 1). Jedem Fall werden demnach in der Zeile die Merkmalsausprägungen der jeweiligen Variablen zugewiesen. Basiert die Datentabelle beispielsweise auf einer Befragung, stellt jede/ r Befragte einen Fall da. Alle erhobenen Merkmale der Person folgen in derselben Zeile. In Anlehnung an das Beispiel aus dem vorherigen Kapitel könnte eine Da‐ tentabelle mit den Merkmalen Haarfarbe, Größe und Zuneigung zu Katzen 128 4 Die Daten <?page no="129"?> für drei Befragte wie in Tabelle 2 aussehen. Jede Variable bildet entsprechend eine Spalte. Für alle Fälle stehen die entsprechenden Ausprägungen einer Variablen der Befragten dann untereinander in dieser Spalte. Fallbezeichnung Haarfarbe Größe in cm Zuneigung zu Katzen Peter dunkelblond 173 4 = hohe Zuneigung Paul schwarz 166 5 = bedingungslose Zuneigung Mary rot 169 1 = Abneigung Tabelle 2 | Beispiel einer Datentabelle Fehlende Werte werden in der Regel durch einen nummerischen Ausdruck gekennzeichnet, der selbstverständlich nicht Teilen der den Merkmalen zugeordneten Werten entsprechen darf. „-99“ ist zum Beispiel ein gängiger Wert für fehlende Werte. Bei manchen Programmen bietet es sich an, einen Buchstabenwert als fehlenden Wert einzutragen, z. B. N/ A oder NA (=not available oder no answer). Auf jeden Fall sollten Felder mit fehlenden Werten aber auf keinen Fall freigelassen werden. Hier kann es zu Problemen bei der Übertragung zwischen Programmen kommen. Darüber hinaus sollten fehlende Werte vor allem dann nicht mit „0“ gekennzeichnet werden, wenn die Null Teil der Skala ist und durch die gleichzeitige Verwendung nicht klar würde, ob das Merkmal vielleicht nicht vorhanden oder eben nicht erfasst worden ist. Je nach Statistikprogramm sollten fehlende Werte auch unbedingt als „missing“ gekennzeichnet werden, damit die gewählten Zah‐ lenwerte nicht aus Versehen in Berechnungen einfließen und zu falschen Ergebnissen führen. Was genau ein Fall ist, hängt natürlich vom Forschungsinteresse ab. Die Fälle können einzelne Befragte sein, aber zum Beispiel auch Zeitungsartikel. Oder je nach Analyseeinheit auch einzelne Abschnitte oder Zitate innerhalb eines Artikels oder Beitrags. Es kann aber auch ein Land, eine Schule, ein bestimmter Zeitpunkt, eine Zeitspanne, ein Tier oder eine Pflanze oder jedes andere Element, dem sich Merkmale zuweisen lassen, einen Fall darstellen. Nicht immer haben Daten automatisch diese Form der Datentabelle mit Fällen in den Zeilen und Variablen in den Spalten. Einer der ersten Blicke auf einen unbekannten Datensatz sollte überprüfen, was in Bezug auf die 129 4.1 Die Form: Datentabelle <?page no="130"?> Anordnung des Datensatzes die Ausgangslage ist. Bevor man selbst mit dem Datensatz arbeitet, sollte er in die beschriebene Form gebracht werden. Im Idealfall liegt der Datensatz auch in einem Dateiformat vor, dass von allen gängigen Statistikprogrammen gelesen werden kann. Ein universal lesbares Format stellt das CSV-Format dar, wobei CSV für Comma-separa‐ ted values steht und im Prinzip eine Textdatei ist, in der ebenfalls zeilenweise die Fälle gelistet sind und jede Merkmalsausprägung hinter dem Fall in der Zeile durch Komma getrennt angeordnet wird. Die obige Tabelle würde im CSV-Format dann zum Beispiel so aussehen: Beispiel | CSV-Format "Fallbezeichnung","Haarfarbe","Größe","Zuneigung zu Katzen" "Peter","dunkelblond",173.4 "Paul","schwarz",166.5 "Mary","rot",169.1 Das CSV-Format hat den großen Vorteil, dass damit auch zwischen verschie‐ denen Statistikprogrammen gewechselt werden kann. Beim Einlesen einer CSV-Datei (häufig über eine Import-Funktion) in ein Statistikprogramm ist zu beachten bzw. dem Programm kenntlich zu machen, ob die Werte tatsächlich mit Komma oder vielleicht einem Semikolon oder Punkt getrennt sind. Zur Verwirrung und zu Fehlern beim Import kann es beispielsweise kommen, wenn in einem deutschen Datensatz das Komma bei Dezimalzah‐ len verwendet wird, bei Datensätzen aus dem englischsprachigen Raum aber ein Punkt. Wird das jeweilige Zeichen aber auch genutzt, um in der CSV-Datei Variablenausprägungen in der Zeile voneinander zu treffen, können Angaben falsch übertragen werden. Außerdem fragen die meisten Programme während des Importvorgangs danach, ob die erste Zeile die Variablennamen enthält. Im Beispiel oben wäre das der Fall. 4.2 Daten aus PDF-Dateien herauslesen Kann auf Daten im CSV-Format zurückgegriffen werden, wird die Weiter‐ verarbeitung deutlich erleichtert. Oft genug müssen Journalist: innen aber auch mit anderen Formaten umgehen. Schwieriger ist etwa das Herauslesen von Daten aus PDF-Dateien. Beim Versuch, Tabellen herauszukopieren, 130 4 Die Daten <?page no="131"?> verrutschen Formatierungen und Zeilen. Spalten sind zudem eventuell nicht mehr eindeutig zuordbar. Im schlimmsten Fall handelt es sich um Scans oder abfotografierte Dokumente, aus denen gar nicht unmittelbar herauskopiert werden kann. Es gibt einige Strategien, mit denen versucht werden kann, hier Abhilfe zu schaffen. Viele PDF-Programme (im Idealfall Adobe Acrobat Pro, aber auch viele Freeware-Programme) bieten Möglichkeiten, die Qua‐ lität von Scans zu verbessern. Auch ist die Funktion „Scan durchsuchbar machen“ mittlerweile eine gängige Operation und zuverlässig, wenn das PDF-Dokument ein gewisses Maß an Qualität aufweist. Damit lässt sich auch Text aus Scans herauskopieren. Insbesondere beim Kopieren von Tabellen sollte man versuchen, eine Option zu nutzen, die die Formatierung des mar‐ kierten Bereichs weitestgehend beibehält (zum Beispiel „mit Formatierung kopieren“ oder als Excel-Arbeitsmappe exportieren). Die Wahrscheinlich‐ keit, dass Spalten und Zeilen verrutschen, ist dennoch hoch, weshalb eine gründliche Kontrolle in jedem Fall dringend geboten ist. Muss im Zuge einer Recherche ein Dokument zum Beispiel mit dem Smartphone oder Tablet abfotografiert werden, um die Daten zu sichern, sollte im besten Fall die Sicherung auch als PDF-Datei vorgenommen werden statt als Foto-Datei. Bei iOS-Geräten (iPhone, iPad) gibt es in der Noti‐ zen-App die Funktion „Dokument scannen“, mit der automatisch PDF-Da‐ teien erstellt werden. Für Android-basierte Geräte müssen entsprechende Apps heruntergeladen werden. Gibt es aber doch nur eine Foto-Datei, kann versucht werden, dieses mit einem PDF-Creator umzuwandeln, um die oben genannten Schritte zur Optimierung und zum Durchsuchbarmachen durch‐ zuführen. Mit jedem Konvertierungsschritt geht in der Regel allerdings Qualität verloren und wird die Weiterverarbeitung erschwert. 4.3 Monitoring der Erhebung Die Kontrolle des Datenerhebungsprozesses ist ein fundamentaler Beitrag zur Sicherung der Datenqualität. In den wenigsten Fällen geht alles glatt und reibungslos. Allerdings werden auftretende Probleme selten thematisiert, insbesondere wenn sie im Verlauf der Bearbeitung gelöst werden konnten. Ist dies aber nicht der Fall, findet sich bei Studien in der Regel in einem der letzten Abschnitte der Bereich „Einschränkung“ (bzw. Englisch: limitations), in dem solche Probleme aufgelistet werden, die nicht lösbar waren und sich auf die Datenqualität oder die Aussagekraft der Ergebnisse auswirken 131 4.3 Monitoring der Erhebung <?page no="132"?> können. Eine solche Reflektion der eigenen Arbeit ist ein wichtiges Quali‐ tätsmerkmal seriöser Forschung. Wie ein Datenerhebungsprozess organisiert worden ist, sollte zumin‐ dest in groben Zügen in allen wissenschaftlichen Studien sowie auch in Meinungsumfragen skizziert sein. Dazu gehört beispielsweise, dass der Zeitpunkt der Erhebung genannt wird. Aber auch die Form der Erhebung (z. B. schriftlich, telefonisch, online) und wie viele Personen an einer Erhebung beteiligt waren (z. B. als Interviewer: innen, Kodierer: innen etc.) sollte deutlich gemacht werden. Wie das Training dieser Personen für die Erhebungen erfolgt ist, sollte ebenfalls transparent nachvollziehbar sein. Bei Meinungsforschungsinstituten findet man dazu häufig allgemeine me‐ thodische Hinweise, die einem vertraut sein sollten, wenn man regelmäßig mit solchen Daten arbeitet. Ist man selbst an einer Erhebung beteiligt und begleitet den Prozess im Hinblick auf die Qualitätssicherung, ist die oberste Frage natürlich: Klappt die Erhebung wie geplant und werden die Daten wie erwartet und benötigt eingefahren? Ergeben sich zum Beispiel erst im laufenden Prozess Probleme mit Anweisungen, die der Pretest noch nicht zutage hat treten lassen? Gerade wenn mehrere Menschen an der Sammlung von Daten beteiligt sind, ist ein intensiver Austausch erforderlich, sodass Probleme schnell geklärt und gegebenenfalls Anpassungen vorgenommen werden können. Regelmä‐ ßige Treffen oder eine Austauschplattform für kollaboratives Arbeiten (ein Forum, eine Gemeinschaftssoftware mit Themen oder Chatfunktion etc.) können helfen, damit sich die Personen auch untereinander unterstützen und bei Fragen gegenseitig helfen können. 4.4 Datenfälschung Auch stichprobenartige Kontrollen sind ein wichtiges Mittel zur Qualitäts‐ sicherung und sollten als solche kommuniziert werden. Nach Möglichkeit werden alle an der Erhebung beteiligten Personen im Verlauf der Erhebung kontrolliert, um Datenfälschung zu erschweren. Bei Umfragen kann bei‐ spielsweise bei Befragten nachgehakt werden, ob diese auch wirklich befragt worden sind. Bei Inhaltsanalysen können zufällige Teile des Materials an mehrere Kodierer: innen vergeben werden (ohne dass es den Kodierer: innen bewusst ist, welche diese doppelten Elemente sind), die dann im laufenden Prozess auf die Übereinstimmung überprüft werden können. Gerade im na‐ 132 4 Die Daten <?page no="133"?> turwissenschaftlichen Bereich kann ein Zwei-Augen-Prinzip und die direkte Replikation von Versuchen und Messungen von unterschiedlichen Personen direkte Fälschungen von Daten verhindern. Auch digitale Laborbücher mit fälschungssicherer elektronischer Signatur können zur Vorbeugung dienen. Für Außenstehende und damit auch für Journalist: innen ist es allerdings in der Regel sehr schwer nachvollziehbar, ob die berichteten Daten einer Erhebung auch tatsächlich so gemessen oder schlicht und einfach erdacht worden sind. Der Wissenschaftsbetrieb vertraut darauf, dass Fälschungen über kurz oder lang aufgedeckt werden, weil Ergebnisse beispielsweise von anderen Forschenden nicht reproduziert werden können. Ein großes Pro‐ blem dabei ist, dass Reproduktionsstudien deutlich weniger prestigeträchtig sind. Sie schaffen es seltener zur Veröffentlichung als originäre Forschung, die etwas Neues präsentiert. Gleichzeitig lässt sich auch berechtigte Kritik an Reproduktionsstudien finden. Es lässt sich zum Beispiel mit Wahrschein‐ lichkeiten argumentieren und aufzeigen, dass auch tatsächlich signifikante Effekte in Replikationsstudien nicht in gleicher Form oder Stärke auftreten müssen. Es sei an dieser Stelle an das Prinzip der Zufallsstichprobe erinnert. Es kann natürlich immer mit einer gewissen Wahrscheinlichkeit sein, dass eine Reproduktionsstudie eine der Stichproben aufgreift, die „extrem“ vom eigentlichen Merkmal der Grundgesamtheit abweichen. Selbst bei sorgfältiger Originalstudie und sorgfältiger Replikation kann es hier zu einem (falschen) Gegensatz führen, der dann vielleicht die Kompetenz der Forscher: innen in Zweifel zieht. Darüber hinaus lässt sich aber auch bei bestätigten Ergebnissen gar nicht ausschließen, dass beim Original und der Reproduktion nicht derselbe systematische Fehler aufgetreten ist. Es ist also ein vertracktes Gebiet und Gegenstand lebhafter wissenschaftlicher De‐ batten. Mit einer sauberen Dokumentation von Erhebungen und Maßnah‐ men zur Qualitätssicherung durch zufällige Kontrollen, fälschungssichere Laborbücher sowie einem Mehr-Augen-Prinzip schon im laufenden Prozess ist man aber auf alle Fälle gut beraten, um Fälschungen in der eigenen Forschung zu vermeiden. Journalist: innen können insbesondere bei besonders spektakulär wirken‐ den Ergebnissen von Datenerhebungen überprüfen, ob die Erkenntnisse sich in bisherige Forschung einreihen oder allem bisher Bekannten widerspricht. Die Einschätzungen weiterer Expert: innen aus dem entsprechenden Feld kann ebenfalls hilfreich im Rahmen der Recherche sein. 133 4.4 Datenfälschung <?page no="134"?> Exkurs | Spektakuläre Fälschungen und wissenschaftliches Fehlverhalten Der als „Wunderkind der Physik“ bezeichnete und mit Anfang 30 be‐ reits als künftiger Nobelpreisträger gehandelte deutsche Physiker Jan Hendrik Schön löste 2002 einen Skandal mit gefälschten Forschungs‐ ergebnissen aus. Seit 1997 forschte Schön an den Bell Laboratories im Bereich Nanotechnologie zu organischen Halbleitern und veröffent‐ lichte überdurchschnittlich viele Artikel in teils hochrangigen Fach‐ zeitschriften wie Science und Nature. Eine Untersuchungskommission der Bell Laboratories deckte 2002 nach lauter werdender Kritik von Fachkolleg: innen schließlich zahlreiche Fälle schweren wissenschaftli‐ chen Fehlverhaltens auf. Die betroffenen Publikationen wurden von den Fachzeitschriften zurückgezogen. Schön wurden mehrere Preise aberkannt. Auch seinen Doktortitel von der Universität Konstanz verlor Schön, wogegen er noch erfolglos versucht hatte, vor dem Bundesverfassungsgericht zu klagen. 2005 flogen nach anonymen Hinweisen massive Fälschungen des koreanischen Stammzellenforschers Hwang Woo Suk auf. Er hatte in der Fachzeitschrift Science in einem Artikel veröffentlicht, dass es ihm erstmalig gelungen sei, menschliche Embryonen zur Gewinnung von Stammzellen zu klonen. Hierfür erhielt er weltweite Medienaufmerk‐ samkeit. Seine Ergebnisse erwiesen sich allerdings als Totalfälschung, woraufhin er alle akademischen Ämter sowie seinen Lehrstuhl an der Seoul National University verlor. Außerhalb der Naturwissenschaften waren es vor allem Plagiatsvor‐ würfe, die in der Vergangenheit regelmäßig zu hoher Medienaufmerk‐ samkeit geführt haben und politische Folgen nach sich zogen. So musste etwa der damalige Bundesverteidigungsminister Karl-Theodor zu Gutenberg sein Amt abgeben, nachdem die Universität Bayreuth ihm seinen Doktortitel wegen massiver Plagiatsvorwürfe aberkannt hatte. Die ehemalige Bundesbildungsministerin Annette Schavan ver‐ lor 2013 nach dem Nachweis des wissenschaftlichen Fehlverhaltens in ihrer Dissertation durch die Heinrich-Heine-Universität Düsseldorf nicht nur ihren Doktortitel sondern ihren Hochschulabschluss insge‐ samt, weil sie beides als Einheit erworben hatte. 134 4 Die Daten <?page no="135"?> 4.5 Datenbeschaffung Es ist für Journalist: innen wichtig, detailliert nachvollziehen zu können, wie Daten zustande gekommen sind, um ihre Qualität und Aussagekraft einschätzen zu können. Selten allerdings werden sie selbst Daten erheben. Der wahrscheinlichere Fall ist, dass im Laufe einer Recherche die Frage auftritt: Lässt sich eine bestimmte Behauptung auch über den Einzelfall oder die anekdotische Evidenz hinaus belegen? Denken wir an Beispiele aus früheren Kapiteln zurück: Sind Ostdeutsche wirklich demokratiekritischer als Westdeutsche? Gibt es tatsächlich weniger Schneetage? Für das erste Beispiel ließen die Kollegen von der Wochenzeitung Die Zeit eigens Daten erheben und waren in die Planung dieser Befragung mit eingebunden. Im zweiten Beispiel konnte der Autor auf bereits existierende Daten vom Deutschen Wetterdienst zurückgreifen und mit diesen arbeiten. Die große Frage, die sich also stellt, wenn man auf ein Problem trifft, das statistische Evidenz zur Lösung benötigt, muss lauten: Gibt es bereits Daten und wenn ja, woher bekommt man sie? Eine generelle und allgemeingültige Anleitung zur Beschaffung von Daten ist nicht möglich. Es gibt unterschiedliche Quellen und Techniken, um an Daten zu kommen. Hier kann nur ein Überblick geschaffen werden, aber mit zunehmender Erfahrung (und Weiterentwicklung technischer Möglichkeiten) eröffnen sich auch neue Wege. Darüber hinaus ist es in diesem Arbeitsschritt immer nötig, unterschiedliche Ansätze zu verfolgen, Varianten auszuprobieren und manchmal kreative Problemlösungen zu finden. Abbildung 6 gibt einen Hinweis für ein allgemeines Vorgehen, wenn man sich fragt, ob zu einem bestimmten Thema bereits ein Datensatz existiert. Ist das der Fall und ist er zugänglich, muss eigentlich nur noch das Format überprüft und der Datensatz gegebenenfalls in das Format gebracht werden, mit dem es sich am besten arbeiten lässt. Ist dieser einfache Weg möglich, kann man sich glücklich schätzen. Liegt der Datensatz nicht als Ganzes vor, muss das nicht heißen, dass die nötigen Daten nicht existieren. Falls doch, kommt man um die ei‐ gene Erhebung nicht herum. Manchmal gibt es die Daten, eventuell an unterschiedlichen Stellen und noch nicht im nötigen Tabellenformat, aber immerhin so, dass sie zusammengesammelt werden können. Handelt es sich bei diesen Stellen allerdings um nicht digitale Formate, z. B. gedruckte Materialien, muss man die Datentabelle eventuell selbst anlegen und Daten 135 4.5 Datenbeschaffung <?page no="136"?> selbst eingeben. Vielleicht lassen sich gedruckte Materialien auch scannen und mithilfe von Texterkennungssoftware digitalisieren. Liegen Daten in irgendeiner Weise digital im Internet vor, kann man sich sogenannter Webscraper bedienen, um Daten einzusammeln und nutzbar zu machen. Auch auf diese Variante wird im Folgenden weiter eingegangen. Existiert bereits ein Datensatz? Im CSV-Format? Existieren die Daten digital, z.B. auf einer oder mehrerer Webseiten? Existieren die Daten? Nutze einen Webscraper Speichere ggf. im CSV-Format Lade Datei in Statistikprogramm Eigene Erhebung nötig! Eigene Eintragung in Datentabelle nötig! Ja Ja Ja Ja Nein Nein Nein Nein Stelle eine Anfrage bei den zuständigen Stellen (z.B. Ämtern, Betreiber: innen) Abbildung 6 | Daten finden: Entscheidungshilfe (eigene Darstellung in Anlehnung an Braumoeller (2016), Min. 8: 40) Die Menge an Daten wächst und es gibt unterschiedliche Möglichkeiten, an Daten verschiedenster Art zu kommen. Der zu betreibende Aufwand kann allerdings sehr unterschiedlich ausfallen. Manche Daten liegen sauber aufgearbeitet bereits vor, andere müssen mühselig aus unterschiedlichen Quellen zusammengeführt werden. Wollen Journalist: innen für eine Recher‐ che Daten nutzen, brauchen sie eine sehr genaue Vorstellung davon, welcher Art die Daten sein und was sie erfassen sollten. Bei der Suche nach passenden Daten zahlen sich gründliche Vorüberlegungen zu dem zu beantwortenden Problem aus. Die Recherche wird deutlich zielgerichteter verlaufen können, je konkreter das Anliegen. Im Folgenden wird ein Überblick über mögliche Datenquellen gegeben. 136 4 Die Daten <?page no="137"?> 18 https: / / www.govdata.de/ (letzter Zugriff: 19.7.2021) 19 https: / / www.destatis.de/ DE/ Service/ Datenbanken/ _inhalt.html (letzter Zugriff: 19.7.2021) 4.5.1 Open Data Die gute Nachricht ist: Es gibt reichlich Daten. Und es werden mehr. Immer öfter sind diese Daten darüber hinaus auch frei zugänglich. Man spricht in dem Zusammenhang von offenen Daten (Englisch: Open Data), die frei genutzt, verarbeitet und weiterverbreitet werden können (auch für kommerzielle Zwecke). Der Begriff schließt offene Daten aus Wissenschaft und Forschung ein, geht aber noch weiter. Offene Daten beziehen sich auch auf von Regierungen und Verwaltungen erhobene und frei zur Verfügung gestellte Daten im Rahmen von Open Government Prozessen, die unmittel‐ bar aus Steuermitteln finanziert werden. Open Government, also „offene Regierung“, ist ein Konzept, dass für mehr Transparenz beim Regierungs- und Verwaltungshandeln sorgen soll. Durch den freien Zugang zu Daten und Informationen aus Institutionen, Organisationen und Behörden soll deren gesellschaftliche Kontrolle (beispielsweise zur Korruptionsbekämpfung) genauso ermöglicht werden wie bürgerschaftliche Teilhabe. Zwei Datenbanken für den Zugang zu offenen Daten sind für Deutschland besonders zentral: Das Datenportal GovData 18 sowie die Hauptdatenbank des statistischen Bundesamts GENESIS-Online. 19 GovData bietet neben weiteren Informationen zur Open Government Strategie Deutschlands zum Zeitpunkt, da dieses Kapitel entsteht, knapp 37.000 Datensätze in den Kategorien: ■ Bevölkerung und Gesellschaft ■ Bildung, Kultur und Sport ■ Energie ■ Gesundheit ■ Internationale Themen ■ Justiz, Rechtsystem und öffentliche Sicherheit ■ Landwirtschaft, Fischerei, Forstwirtschaft und Nahrungsmittel ■ Regierung und öffentlicher Sektor ■ Regionen und Städte ■ Umwelt ■ Verkehr ■ Wirtschaft und Finanzen ■ Wissenschaft und Technologie 137 4.5 Datenbeschaffung <?page no="138"?> 20 https: / / www.europeandataportal.eu/ (letzter Zugriff: 19.7.2021) 21 https: / / data.europa.eu/ euodp/ en/ data (letzter Zugriff: 19.7.2021) 22 https: / / ec.europa.eu/ eurostat/ de/ data/ database (letzter Zugriff: 19.7.2021) 23 https: / / data.worldbank.org/ (letzter Zugriff: 19.7.2021) 24 https: / / www.imf.org/ en/ Data (letzter Zugriff: 19.7.2021) 25 https: / / data.oecd.org/ (letzter Zugriff: 19.7.2021) In der Regel sind die dort zu findenden Datensätze im CSV-Format verfügbar und damit unmittelbar nutzbar. Manchmal finden sich beispielsweise auch Geodaten, Luftaufnahmen oder Bebauungspläne im PDF-Format. Teilweise sind die Daten nicht als Rohdatentabelle bereitgestellt, sondern über einen Link zu Webseiten von Behörden zu erreichen, auf denen die Daten bereits aufgearbeitet sind. Generell muss man bei der Menge der Daten in diesem Portal recht genau wissen, was man sucht. An dieser Stelle macht sich der eigene Plan aus dem letzten Prozessschritt in der Regel bezahlt. Ein guter Plan hilft beim gezielten und effizienten Suchen und Finden der nötigen Informationen. Allerdings muss man sich darauf gefasst machen, dass die angebotenen Daten oftmals sehr speziell und kleinteilig für einzelne Gemeinden sind. Nicht alle Inhalte sind gleichermaßen interessant oder nützlich. Ein offener Blick kann aber ungeahnte Zusammenhänge oder in der Menge der Daten versteckte Besonderheiten zutage fördern. Die Hauptdatenbank des Statistischen Bundesamtes GENESIS-Online macht die Ergebnisse der amtlichen Statistiken zugänglich. Auch die Daten des Zensus sind hier abrufbar. Für den speziellen Dienst GENESIS-Webser‐ vice ist eine kostenlose Registrierung nötig. Über diesen Dienst werden bestimmte Funktionen von GENESIS-Online zur automatischen Verarbei‐ tung zugänglich gemacht. Dadurch wird beispielsweise der Download durch und in spezifische Applikationen der Nutzer: innen ermöglicht. Äquivalente für die Europäische Ebene lassen sich ebenfalls finden. Hier besonders hervorzuheben sind European Data Portal 20 , EU Open Data Portal 21 sowie Eurostat Database 22 . Die beiden erstgenannten stellen Informationen aus dem öffentlichen Sektor der EU und der EU-Institutionen zur Verfügung. Eurostat als statistische Behörde der EU will sowohl politi‐ schen Entscheidungsträger: innen Informationen als Handlungsgrundlage liefern, als auch der Öffentlichkeit zugänglich machen. Insbesondere die regionale Vergleichbarkeit wird hier hervorgehoben bzw. soll durch die bereitgestellten Daten ermöglicht werden. Weitere interessante Datenbanken sind die der Weltbank 23 , des Inter‐ nationalen Währungsfonds (IMF) 24 sowie der OECD 25 (Organisation für 138 4 Die Daten <?page no="139"?> 26 https: / / datasetsearch.research.google.com/ (letzter Zugriff: 19.7.2021) wirtschaftliche Zusammenarbeit und Entwicklung). Diese liefern eine große Menge an Wirtschafts- und Entwicklungsdaten für einzelne Länder sowie Ländervergleiche. Ein relativ neues Angebot bietet Google mit einer eigenen „Dataset Search 26 “ Suchmaschine. Hiermit lassen sich per Stichwortsuche Datensätze im gesamten Web suchen. Die Suchergebnisse verweisen dann auf die jeweilige Herkunftsseite des Datensatzes. Das können zum Beispiel alle oben bereits genannten sein. Ebenfalls von Google mitdurchsucht wird das Statistikportal „Statista“, das Daten von Markt- und Meinungsforschungs‐ institutionen sowie aus Wirtschaft und amtlicher Statistik zugänglich macht. Für die vollständige Nutzung dieses Dienstes aber braucht man eine kostenpflichtige Lizenz. Ohne Lizenz lassen sich Daten hier in der Regel nur in einfacher Diagrammform ansehen, die dahinter liegenden Datensätze aber nicht herunterladen. Auch detailliertere Informationen zur Quelle der jeweiligen Statistik sind ohne Registrierung nicht aufrufbar, was für die Einschätzung der Qualität der Statistik nachteilhaft ist. Viele Universitäten bieten einen Zugang über ihre Bibliotheken. Auch viele Redaktionen haben die Lizenz. 4.5.2 Anfragen an staatliche Akteure (Informationsfreiheitsgesetz) Nicht immer ist man bei der Suche nach den geeigneten Daten auf den frei zugänglichen Portalen erfolgreich. In manchen Fällen kann die direkte Anfrage an staatliche Stellen Abhilfe schaffen. Ermöglicht werden solche Anfragen durch das am 1. Januar 2006 in Kraft getretene Informationsfrei‐ heitsgesetz, das grundsätzlich Bürger: innen ermöglicht, Informationen von staatlichen Stellen einzufordern. Anfragen können ohne Begründung oder persönliche Betroffenheit gestellt werden. Gerade für die Recherchearbeit von Journalist: innen kann das ein Vorteil sein. Allerdings gibt es auch eine ganze Reihe Ausnahmeregelungen, die den wirklich freien Zugang er‐ schweren. So können Anfragen mit der Begründung abgelehnt werden, dass der Schutz personenbezogener Daten sowie der Schutz von Betriebs- und Geschäftsgeheimnissen nicht gewährleistet werden würde, oder aber wenn die Anfrage die innere Sicherheit oder internationale Beziehungen betreffen. Wird eine Anfrage aufgrund solcher Regelungen abgelehnt, kann man sich 139 4.5 Datenbeschaffung <?page no="140"?> 27 https: / / fragdenstaat.de/ (letzter Zugriff: 19.7.2021) an die Datenschutzbeauftragten wenden, die dann eine vermittelnde Rolle einnehmen sollen. Auch ist die spezifische Rechtslage in den Bundesländern sehr verschieden und ermöglicht nicht überall die gleichen Zugänge. Für angenommene Anfragen können darüber hinaus Kosten entstehen, die vor der Bearbeitung festgesetzt werden. Dabei hat man die Möglichkeit, seine Anfrage auch wieder zurückzuziehen. Auch bei Anfragen im Rahmen des Informationsfreiheitsgesetzes sollte man sich sehr genau bewusst sein, welche Art von Informationen man braucht. Die Gefahr einer unspezifi‐ schen Antwort auf eine unspezifische Anfrage ist groß. Das Webangebot von fragdenstaat.de 27 bietet Unterstützung bei Anfragen und ermöglicht zudem Zugang zu den Antworten aus rund 150.000 Anfragen. 4.5.3 Daten auf Webseiten sammeln: Webscraper Wenn Daten nur auf einer Website und nicht direkt als eigene Datei down‐ loadbar sind, können sogenannte Webscraper („Auskratzer“) eine Möglich‐ keit bieten. Beim Webscraping werden Programme benutzt, um Informatio‐ nen von Webseiten direkt herunterzuladen und zu verarbeiten. Besonders effektiv kann das sein, wenn die nötigen Daten bereits in Tabellenform auf einer Seite vorliegen. In diesem Fall kann man es selbstverständlich auch mit dem Herauskopieren der Tabelle versuchen, nicht immer führt das aber zum gewünschten Ergebnis und die kopierten Tabellen verrutschen, sodass Informationen nicht ordentlich ablesbar sind. Es gibt darüber hinaus auch hilfreiche Browsererweiterungen, die Tabellen auf einer Seite erkennen und als Excel oder CSV speichern. Für Chrome wäre „Table Capture“ ein Beispiel für eine solche Anwendung, bei Firefox „Table to Excel“. Eventuell lässt sich auf diesem Weg das aufwendigere Scrapen sogar umgehen. Insbesondere aber in dem Fall, wenn ähnliche Informationen über meh‐ rere Seiten verteilt sind, können Webscraper eine effiziente Lösung bieten, diese einzusammeln. Lässt man Informationen automatisch über das Verfol‐ gen von Links einsammeln, spricht man auch von „spidern“ oder „crawlen“. Vom Prinzip her nutzen Webscraper in der Regel Informationen aus dem Quellcode einer Webseite. Ein Grundverständnis vom HTML-Code ist bei der Arbeit mit Scrapern daher auf jeden Fall hilfreich. Bei komplexeren Projekten ist die Zusammenarbeit mit Programmierer: innen zu empfehlen. Es gibt aber auch freie und eher niederschwellige Software-Lösungen, mit 140 4 Die Daten <?page no="141"?> 28 https: / / www.outwit.com/ (letzter Zugriff: 19.7.2021) denen man nach einer kurzen Einarbeitungsphase ins Programm ohne weit‐ reichendere Programmierkenntnisse zurechtkommt. Eine Variante ist die Datenextraktionssoftware „Outwit Hub“ 28 , die in einer Freeversion online verfügbar ist. Das Programm sieht auf den ersten Blick einem Browser sehr ähnlich. In eine Browserzeile gibt man die gewünschte Webseiten-Adresse ein, die dazugehörige Seite wird dann im Fenster angezeigt. In einer Me‐ nüleiste kann man Elemente auswählen, die auf der Webseite vorhanden sind und sich vom Programm gesondert anzeigen lassen, z. B. alle auf der Seite vorhandenen Links oder Bilder und eben auch Tabellen, die sich dann einfach in ein CSV-Format exportieren lassen. Darüber hinaus lassen sich auch automatisierte Scans durchführen, die gewünschte Informationen von einer oder mehreren Seiten herauslesen, beispielsweise wenn sich immer von der Art her ähnliche Informationen auf Unterseiten befinden (z. B. bestimmte Länderdaten, die auf einer Unterseite zu jedem Land aufgelistet sind und die man über Links zu jedem einzelnen Land auf einer Hauptseite erreicht). Ohne an dieser Stelle weiter ins Detail gehen zu können, sei auf die detaillierten Tutorials des Anbieters verwiesen, mit denen man einen schnellen Überblick über die Möglichkeiten, die das Programm bietet, bekommt. Einige Webseiten machen es allerdings absichtlich schwer, ihre zugrun‐ deliegenden Daten mit den gängigen Webscraping-Methoden zu erfassen. In diesem Fall werden weiterführende Fähigkeiten und tiefergehendes Wissen benötigt, beispielsweise über die Möglichkeiten, die die Programmierspra‐ chen Python und R für solche Fälle bieten. 4.5.4 APIs Eine weitere Möglichkeit, online an Daten zu gelangen, bietet in einigen Fällen der Weg über die API (application programming interface) einer Website. Bei einer API handelt es sich um eine Art Schnittstelle zwischen Software- oder Webanwendungen. Eine solche Schnittstelle ermöglicht, dass die eine Anwendung auf die andere zugreifen kann, zum Beispiel um Informationen auszutauschen. Diese Programmierschnittstellen zwischen Anwendungen sind für die Nutzer: innen nicht sichtbar, die Prozesse laufen im Hintergrund ab. APIs sind heute praktisch allgegenwärtig und sehr vielfältig. Jede Smartphone App benötigt eine API, um das Zusammenspiel 141 4.5 Datenbeschaffung <?page no="142"?> mit der Hardware und dem Betriebssystem des Geräts zu gewährleisten. Jede Website benötigt eine API, um sicherzustellen, dass sie in unterschiedlichen Browsern funktioniert. Versucht man ohne spezifische Vorkenntnisse in das Thema einzusteigen, stößt man bei der Internetrecherche vor allem auf Informationen von Soft‐ ware- und Webseiten-Entwickler: innen für (angehende) Entwickler: innen. Das kann möglicherweise schnell zu Überforderung führen, gerade weil die Nutzungs- und Anwendungsgebiete von APIs groß sind. Nicht alle Bereiche sind für Journalist: innen gleich relevant, daher werden hier lediglich ein paar grundlegende Aspekte betrachtet, die für potenzielle Datengewinnung für die journalistische Arbeit von Bedeutung sein könnten. Tatsächlich ist es für die Nutzung unvermeidlich, sich einige grundlegende Code-Kennt‐ nisse anzueignen. Die Programmiersprachen R und Python können für ein solches Anliegen schon gute Dienste leisten. Einführungen in die konkrete Umsetzung übersteigen allerdings den Rahmen dieses Lehrbuchs. Es soll zumindest versucht werden, mit einigen grundsätzlichen Ausführungen die prinzipiellen Möglichkeiten aufzuzeigen und die wichtigsten Grundbegriffe zu klären, die bei Bedarf und Interesse für das weitere Einarbeiten in die Materie nützlich sind. Gerade im Onlinebereich sind APIs nicht mehr wegzudenken. Viele Webseiten sind über APIs verbunden, beispielsweise Vergleichsportale, die Informationen wie Preise von den eigentlichen Anbietern über die jeweiligen APIs dieser Anbieter abrufen. Viele Webseiten nutzen aber auch APIs als „unsichtbare“ Webseiten hinter einer sichtbaren Webseite, um Daten zu hinterlegen, die für eben diese sichtbare Webseite nötig sind. Auf dieser unsichtbaren Website kann beispielsweise eine Datenbank hinterlegt sein, aus der die sichtbare Website Informationen bezieht. Es sind solche Daten, die für die Datensammlung von Journalist: innen interessant sein können. Allerdings sind diese Daten nicht direkt zugänglich, in manchen Fällen stellen Website-Betreiber bzw. Provider aber Zugänge zu ihren APIs zur Verfügung, um die dort hinterlegten Informationen nutzbar zu machen. Die Deutsche Bahn hat beispielsweise ein Portal, auf dem sie mehrere APIs zur Verfügung stellt, mit denen man auf Echtzeitdaten der Bahn zugreifen und diese verarbeiten kann. Über die APIs der Musikstreamingplattform Spotify lassen sich zahlreiche Informationen von Künstler: innen erfassen (Abonnent: innenzahlen, Anzahl und Namen der Songs und Alben sowie deren Beliebtheit, Bilder und viele weitere Metadaten). Über die Graph API von Facebook lassen sich Informationen über öffentliche Fan-Pages auf 142 4 Die Daten <?page no="143"?> Facebook abrufen (Anzahl der Likes, Posts, Bilder, Links und ähnliches). Bis zum Cambridge Analytica Skandal 2018, bei dem detaillierte Persön‐ lichkeitsprofile von Facebook-Nutzer: innen für politische Zwecke genutzt wurden, ließen sich zahlreiche Daten von privaten Facebook-Profilen über diese API erfassen. Diese Möglichkeiten wurden im Zuge des Skandals aber weitgehend eingeschränkt. Gibt es einen solchen zur Verfügung gestellten Zugang, lassen APIs sich nutzen, um Daten zu erfassen und um Verbindungen zwischen Daten von unterschiedlichen Stellen im Web herzustellen. Eine weit verbreitete Art der API ist die sogenannte „RESTful API“ (Representational State Transfer), durch die Daten mit einem Webprotokoll transferiert werden. Das heißt, RESTful APIs funktionieren im Prinzip wie Webseiten: Ein: e Nutzer: in stellt eine Abfrage (Englisch: query) an einen Server und bekommt Informatio‐ nen über das http-Protokoll. Um eine Abfrage an ein http-Protokoll zu senden, braucht es eine Quellen-URL (Uniform Resource Locator), also die spezifische Adresse der Website, auf der die benötigten Informationen zu finden sind. Das kann im Falle des Spotify-Beispiels die URL in Kombination mit der Identifikationsnummer einer bestimmten Künstlerin sein, deren Informationen man erfassen will. Die richtige URL für die gewünschte Abfrage zu finden bzw. zu erstellen, kann etwas Detektivarbeit erfordern. Aus den Informationen, die eine Website über ihre APIs zur Verfügung stellt, lassen sich aber in der Regel Hinweise auf die Konstruktion der URL finden. Eine konkrete Abfrage an eine RESTful API erfolgt mithilfe von http-Be‐ fehlen. Für den Zweck der Datengewinnung wird der Befehl „GET“ der wichtigste Standardbefehl sein. Mit der Quellen- URL und dem http-Befehl hat man bereits zwei wichtige Bausteine für eine API-Abfrage. In der Regel braucht es dann ein weiteres zentrales Element: die Authentifikation. Der Zugriff auf viele APIs kann erst nach vorheriger Registrierung erfolgen. Alle bisher hier aufgeführten Beispiele erfordern eine Anmeldung. Um Abfragen stellen zu können, muss ein Authentication oder Access Token generiert werden, eine persönliche ID, die mit bestimmten Rechten je nach Status (im Sinne der Zugriffsrechte) des Anfragenden verbunden ist. Mit diesen drei Elementen hat man die benötigte Grundausstattung für eine Abfrage an eine API. Wie genau diese dann praktisch umgesetzt wird, hängt - wie gesagt - davon ab, mit welchem Tool bzw. welchem Code gearbeitet wird, sei es R oder Python oder etwas anderes. Manche Webseiten bieten sogar webbasierte Lösungen an, um eine direkte Abfrage an ihre jeweiligen API(s) zu stellen, und dokumentieren, wie damit gearbeitet 143 4.5 Datenbeschaffung <?page no="144"?> werden kann. Aber auch hier braucht es in der Regel das Grundverständnis der oben genannten Elemente. Die Antwort auf eine Abfrage erfolgt in vielen Fällen im sogenannten JSON-Format ( JavaScript Object Notation), als einer Standardmöglichkeit Daten einzubetten und zu strukturieren. Das kann auf den ersten Blick etwas unübersichtlich wirken. Die relevanten Informationen lassen sich aber herauslesen und weiterverarbeiten. Die Geschichte hinter der Statistik | Datengestützte Corona-Berichterstattung Christian Endt, Teamleiter Datenjournalismus bei der Süddeutschen Zeitung, berichtete von der ungeheuren Dynamik, die zu Beginn der Covid-19-Pandemie herrschte. Mit dieser musste sich das Datenteam der Süddeutschen Zeitung erstmal zurechtfinden. Eine der größten Herausforderungen bestand darin, die Datenbasis zusammenzutra‐ gen. Anfangs mussten die aktuellen Daten bei den Bundesländern noch selbst abgefragt werden. Das Robert-Koch-Institut (RKI), das als Bundesbehörde den Stand der Bevölkerungsgesundheit sowie Infek‐ tionszahlen erfasst, richtet sich normalerweise an ein Fachpublikum und war eine derart hohe öffentliche Aufmerksamkeit nicht gewöhnt. Daher stand in der Anfangszeit auch noch keine Möglichkeit für eine automatisierte Abfrage aktueller Fallzahlen zur Verfügung. Eine solche Schnittstelle (API) zur automatisierten Erfassung der Zahlen wurde erst ab dem Spätfrühling 2020 eingerichtet, woraufhin das SZ Datenteam die eigene Datenerhebung einstellte. Die Automatisierung der Prozesse und das Entwickeln von Skripten zur Verknüpfung von Arbeitsschritten bestimmten die Arbeit des drei bis zeitweise vier Personen starken Datenteams in der ersten Phase der Pandemie und nahm einen großen Teil der Arbeitszeit in Anspruch. Diese Arbeit zahlte sich spätestens ab der zweiten Welle im Spätsommer und Herbst 2020 aus, in der die entwickelten Skripte nur noch gewartet und gegebenenfalls aktualisiert werden mussten. 144 4 Die Daten <?page no="145"?> 4.6 Datenbereinigung Es gibt keinen perfekten Datensatz. In der Regel müssen Daten bereinigt und aufbereitet werden, bevor mit ihnen gearbeitet kann, um verlässliche Erkenntnisse zu gewinnen. In "normalen" Statistikkursen wird meist mit fertig aufbereiteten Datensätzen gearbeitet, die Studierenden können (und sollen) dann direkt mit dem Rechnen beginnen. Statistiklehrbücher behan‐ deln das Themenfeld in der Regel gar nicht. Datenbeispiele sind perfekt und illustrieren eindeutig das gerade behandelte Prinzip. Sobald man aber das erste Mal einen eigenen Datensatz vor Augen hat, stellt man schnell fest, dass der noch längst nicht in einem Zustand ist, um ebenso direkt losrechnen zu können. Die Datenbereinigung ist dabei selten Thema in der Statistikausbildung und man muss sich mühselig einarbeiten und irgendwie hoffen, dass das schon richtig ist, was man tut. Schließlich sollen die Daten eine hohe Qualität aufweisen und keine durch Fehler im Datensatz falschen oder verzerrten Ergebnisse produzieren. Was aber beeinträchtigt die Datenqualität und muss in diesem Arbeits‐ schritt beachtet werden? Es sollen im Folgenden einige mögliche Schritte dargestellt werden. Es gibt kein eins-zu-eins anwendbares Standardrezept, weil das genaue Vorgehen von der Art der Daten und ihrer Erhebung ab‐ hängig ist. Einige grundlegende Aspekte sollten allerdings immer überprüft werden, unabhängig davon, ob man die Daten selbst erhoben hat oder mit fremden Daten arbeitet. Der erste und wirklich immer nötige Schritt: Rohdaten speichern! Deutlich gekennzeichnet im Dateinamen und in einem eigenen Dateiordner, damit das Original immer erhalten bleibt. So können später versehentlich gemachte Fehler im Zweifel immer wieder korrigiert werden. Der Daten‐ satz, mit dem dann weitergearbeitet wird, sollte im Dateinamen klar als Arbeitsdatensatz gekennzeichnet sein. Ein fertig bereinigter Datensatz sollte ebenfalls als solcher gekennzeichnet und abgelegt werden. Oft ist es sinnvoll, wichtige Zwischenschritte in einer separat gespeicherten Datei zu hinterle‐ gen, um im Zweifel nicht wieder komplett beim Rohdatensatz beginnen zu müssen. Genauso wichtig ist es, alle im Zuge der folgenden Bearbeitung des Datensatzes vorgenommenen Änderungen sorgfältig zu dokumentieren, beispielsweise in dem die Syntax bzw. der Code, mit dem gearbeitet wurde, gesichert wird. Auch damit lassen sich Fehler nicht nur nachvollziehen, sondern auch schneller beheben. Außerdem dient die gründliche Dokumen‐ tation der Transparenz und damit der Qualitätssicherung. 145 4.6 Datenbereinigung <?page no="146"?> Bei der Datenbereinigung geht es generell darum, Datenfehler zu identi‐ fizieren, die sich aus fehlenden, inkorrekten, redundanten, inkonsistenten oder falsch formatierten Eintragungen im Datensatz ergeben. Immer (! ) bevor die ersten Analysen durchgeführt werden - sei es auch nur für erste Explorationen - sollte ein Datensatz auf mögliche Datenfehler hin überprüft und gründlich bereinigt werden. Der Blick auf fehlende Daten (missing data) sollte bei einer eigenen Erhebung im Idealfall schon im laufenden Prozess der Datenerhebung mehrfach erfolgen, um systematische Ausfälle frühzeitig zu erkennen und ihnen entgegenzuwirken. Gerade bei Online-Erhebungsverfahren kann es zu technisch bedingten Aussetzern führen, die möglichst rasch erkannt wer‐ den sollten. Bei einer abgeschlossenen Erhebung muss überprüft werden, ob die Fallzahl mit der geplanten Fallzahl übereinstimmt. Sind also entspre‐ chend der Stichprobenvorgabe genügend Menschen befragt worden? Oder fehlen ganze Personengruppen, weil sie systematisch schwerer erreichbar sind (etwa junge berufstätige Eltern)? Sind bei einer Inhaltsanalyse alle vorgegebenen Dokumente kodiert worden? Wurden Onlinedaten mithilfe von Webscraping gesichert (z. B. Tweets, Blogeinträge, Nachrichtenartikel usw.), ist vor allem auf Lücken in der Zeit zu achten, wurde also an allen vergebenen Tagen gespeichert? Bei der Übertragung sowie beim Zusammenführen sehr großer Datensätze kann es passieren, dass Fälle verloren gehen und nicht mehr angezeigt werden. Dies kann schwerwie‐ gende Folgen haben, wenn Datensätze Entwicklungen wie beispielsweise ein Infektionsgeschehen abbilden sollen und die Grundlage von politischen Entscheidungen darstellen. Ist die Vollständigkeit der Fälle geklärt, muss überprüft werden, ob alle nötigen Variablen im Datensatz vorhanden sind. Durch einfache technische Übertragungsfehler können ganze Spalten mit Variablen verloren gehen. Entsprechend ist ein Abgleich vorzunehmen, beispielsweise mit dem Frage‐ bogen (bzw. der Variablenübersicht der Befragung) oder dem Codebuch. Bei den Online-Erhebungsverfahren überprüft man entsprechend, ob alle erwünschten Merkmale gesichert worden sind (z. B. Datum eines Tweets, Name des Verfassers, vielleicht eine Ortsangabe, alle dazugehörigen Bilder, Verlinkungen etc.). Anschließend verfeinert sich der Blick weiter und es gilt, einzelne feh‐ lende Werte innerhalb von Variablen ausfindig zu machen. Hier ist die Frage zu klären, ob es sich um eine zufällig oder systematisch fehlende Angabe handelt. War eine Frage in einer Befragung vielleicht zu persönlich und 146 4 Die Daten <?page no="147"?> wurde sie deshalb oft nicht beantwortet? Wurde eine Frage von bestimmten Personen systematisch nicht beantwortet (z. B. Frage nach Einkommen von besonders gut Verdienenden)? Sind bei automatisierten Erhebungsverfahren Eintragungen mit einem Umlaut oder Sonderzeichen nicht erfasst worden? In der Regel werden fehlende Werte in Datensätzen mit -99 oder N/ A (not available oder no answer) markiert. Gerade wenn Zahlenwerte genutzt werden, um fehlende Werte zu kennzeichnen, muss besonders darauf geachtet werden, dass diese auch als fehlende Werte definiert sind und nicht aus Versehen als eigene Werte in die Berechnungen einfließen. Um dies auszuschließen, hilft es zum Bespiel für eine Variable das Minimum und Maximum anzeigen zu lassen. Interviewer: innen und Kodierer: innen sollten dazu angehalten sein, fehlende Werte immer direkt als solche zu kennzeichnen und nicht etwa Felder oder Zellen im Datenblatt freizulassen. So kann beim Blick auf den Datensatz später sichergestellt werden, dass es sich nicht nur um eine fehlende Eintragung, sondern tatsächlich um einen fehlenden Wert handelt. Neben fehlenden Werten können auch falsche oder ungenaue Daten auf vielfältige Weise in einen Datensatz geraten. Wenn viele Personen mit der Datenerhebung betraut waren, steigt die Wahrscheinlichkeit, dass Fehler gemacht werden. Alle Stellen der Datenerhebung müssen sich beispiels‐ weise zwingend einig über Definitionen sein. Natürlich sollten Definitions‐ fragen im Vorfeld einer Datenerhebung und spätestens beim Pretest geklärt worden sein. Gerade wenn ein nicht selbst erhobener Datensatz vorliegt, darf man sich darauf aber nicht verlassen. Eine Strategie zur Identifikation falscher Werte kann sein, sich die Verteilung und insbesondere die Minimal- und Maximalwerte anzeigen zu lassen. Gibt es hier Fälle, die stark nach oben oder unten abweichen? Falls ja, befinden sich diese Werte im Bereich des Plausiblen (ist der Wert überhaupt möglich bei dem, was gemessen werden sollte? ) oder sollte er nachträglich überprüft und abgeglichen werden? Ist statt eines Alters von 21 vielleicht 210 eingetragen worden? Vielleicht handelt es sich um einen Zahlendreher oder die Maßeinheit wurde falsch verwendet, weshalb es zu abweichend großen oder kleinen Werten kommt. Fehler wie Zahlendreher oder auch Rundungsfehler lassen sich leider nicht immer identifizieren. Einfacher ist es, falsche Werte zu erkennen, die außer‐ halb einer vorgegebenen Skala liegen. War man zum Beispiel angehalten, die Zustimmung zu einer Aussage auf einer Skala zwischen 1 und 5 anzugeben, im Datenblatt findet sich aber ein Wert außerhalb dieser Spannweite, dann ist der Fall recht eindeutig. Aber auch wenn es sich scheinbar „nur“ um eine 147 4.6 Datenbereinigung <?page no="148"?> doppelte Ziffer handelt, z. B. die Eintragung einer 33 statt einer 3, sollte der Fall bei dem entsprechenden Merkmal überprüft werden. Solche Art falscher oder ungenauer Daten lässt sich häufig durch eine grafische Darstellung schnell erkennen. Mit einem Boxplot oder einem Streudiagramm lassen sich sogenannte Ausreißer erkennen und erleichtern die Identifikation. Redundante Daten können zum Beispiel doppelte Fälle sein. Hat man bei einer Inhaltsanalyse Kodierer: innen absichtlich Fälle doppelt zugeteilt, um später die Reliabilität erneut überprüfen zu können, muss sichergestellt werden, dass der endgültige Datensatz diese Dopplungen nicht mehr ent‐ hält. Insbesondere ist bei automatisierten Speicherungen und Erhebungen auf doppelte Eintragungen zu achten. Solche Dopplungen können vielfältige Ursachen haben. Posts und Tweets werden zum Beispiel ohne Änderung erneut zu anderen Zeiten veröffentlicht oder es kommt zu internen Verschie‐ bungen von Blog- oder Nachrichtenartikeln, die zu einer zweiten Erfassung führen. Wenn Artikel im Laufe der Zeit geändert werden, sei es aufgrund von Erweiterungen, Fehlerkorrekturen oder ähnlichem, muss ein Verfahren gefunden werden, das die Vergleichbarkeit gewährleistet. Entweder es werden alle Versionen in einem bestimmten Zeitraum gespeichert oder nur die erste oder eine bestimmte Version nach einem vorher festgelegten Zeitpunkt nach der ersten Veröffentlichung. Inkonsistente Daten können auch aufgrund von technischen oder Übertragungsfehlern vorkommen. Bei einer zeitlich versetzen Messung mit einem Ausgangswert, der sich im Laufe der Zeit verkleinert oder vergrößert, sollte die Summe am Ende darauf überprüft werden, ob sie sich aus dem Ausgangswert und den Zwischenmessungen auch wirklich ergibt. Inkonsis‐ tente Daten können aber auch Hinweise zur Aufdeckung von Fehlverhalten liefern, wie Manipulationen oder Betrug. Bei Daten, denen beispielsweise finanzielle Buchungen aus einer doppelten Buchführung zugrunde liegen, müssen beispielsweise Soll- und Habenseiten übereinstimmen. Ist das nicht der Fall, ist man eventuell Fehlverhalten (oder Inkompetenz) auf der Spur. Schließlich kann auch eine falsche Formatierung von Eingaben und Werten eine Fehlerquelle darstellen. Sind Datumsangaben immer überall im gleichen Format vorgenommen? Wurden Namen in einer vorgegebenen Reihenfolge notiert (z. B. Nachname, Name)? Sind Abkürzungen (insb. bei Titeln) einheitlich verwendet worden (z. B. B.A. oder BA für den Bachelorabschluss, Professor oder Prof.)? 148 4 Die Daten <?page no="149"?> 4.7 Daten aus unterschiedlichen Quellen zusammenführen Eine der häufig auftretenden Herausforderungen bei der Datenbeschaffung ist es, dass es die benötigten Informationen zwar gibt, aber an verschiedenen Stellen und in unterschiedlicher Form. Sollen zum Beispiel bestimmte Kennzahlen aus unterschiedlichen Gemeinden, Regionen, Ländern usw. verglichen werden, kann es nötig sein, sich aus einer Vielzahl eigenständiger und voneinander völlig unabhängiger Erhebungen die relevanten Informa‐ tionen zusammenzusuchen. Auch viele globale Wirtschafts- und Sozialdaten sind zwar frei verfügbar, allerdings selten in einer so einheitlichen Form, dass sie ohne weiteres miteinander in Beziehung gesetzt werden können. Ob und wie Daten zusammengebracht, verglichen, aufeinander bezogen und schlussendlich ausgewertet werden können, muss dann im Einzelfall und gegebenenfalls auch mit Expert: innen-Rücksprache überprüft werden. Einige wichtige Aspekte sollten bei der Arbeit mit Daten aus unterschied‐ lichen Quellen generell beachtet werden. 1. Definitionen vergleichen Sobald Kennzahlen in unterschiedlichen Datensätzen identifiziert worden sind, die nach ihrer Bezeichnung etwas Gleiches erfassen, müssen zwingend die der Erhebung zugrundeliegenden Definitionen und Operationalisierun‐ gen überprüft werden. Oft können Feinheiten in der Definition eines Sach‐ verhaltes bereits große Unterschiede machen. Arbeitslosenzahlen bieten hierfür ein eingängiges Beispiel. Gerade beim Ländervergleich ist hier sehr genau darauf zu achten, wer als „arbeitslos“ gezählt wird und welche Unterschiede beispielsweise zwischen arbeits- und erwerbslos gemacht werden, wie mit Menschen in Fortbildungsmaßnahmen umgegangen wird, ob Unterbeschäftigung betrachtet wird, welche Personengruppen keine Berücksichtigung finden (z. B. Menschen in Haft, Personen die aus unter‐ schiedlichen Gründen dem Arbeitsmarkt nicht zur Verfügung stehen), oder ob Saisonbereinigungen vorgenommen wurden. Ein Beispiel, das die Notwendigkeit des Vergleichs von Definitionen illustriert, sorgte Anfang 2020 für Aufsehen und umfangreiche, teilweise alarmierende Berichterstattung. Laut dem Deutschen Institut für Wirt‐ schaftsforschung DIW sei die Mordrate in Berlin mit Abstand die höchste im Vergleich europäischer Hauptstädte. Tatsächlich stellte sich heraus, dass diese Angabe auf einem Fehler aufgrund unterschiedlicher Definitionen der 149 4.7 Daten aus unterschiedlichen Quellen zusammenführen <?page no="150"?> 29 https: / / taz.de/ Falsche-Berichte-ueber-Mordrate-in-Berlin/ ! 5650406/ (letzter Zugriff: 19.7.2021) „Mordrate“ beruhte. 29 Anders als bei den Werten aus der Kriminalstatistik anderer Hauptstädte beinhaltete die für Berlin verwendete Kennzahl alle „Straftaten gegen das Leben“. Diese fassen neben Mord- und Todschlag - den eigentlich relevanten Zahlen für diesen Vergleich - auch alle Unfälle mit Todesfolge aufgrund von fahrlässigem Verhalten (inkl. ärztlicher Kunstfeh‐ ler) und sogar Verstöße gegen das Werbeverbot für Abtreibungen. Um all diese Werte bereinigt, landet Berlin für die eigentliche Mordrate doch „nur“ im europäischen Mittelfeld. Welche Definition einer Variablen zugrunde liegt, ist insbesondere dann oft nicht einfach zu klären, wenn ausschließlich der Datensatz ohne um‐ fangreiche Dokumentation zur Verfügung steht. Erklärungen zu den ver‐ wendeten Konzepten verstecken sich dann vielleicht im Kleingedruckten und in Fußnoten oder müssen sogar angefragt werden. Werden lediglich Verweise auf offizielle Definitionen von Organisationen gegeben, ist es ratsam, diese sehr genau nachzuvollziehen und auf ihre richtige Anwendung im vorliegenden Datensatz zu überprüfen. Auch können sich Definitionen im Laufe der Zeit ändern. Wenn in einer über einen längeren Zeitraum erhobenen Statistik plötzlich maßgebliche Veränderungen zu verzeichnen sind, kann es sich gegebenenfalls auch um statistische Artefakte aufgrund neu vorgenommener Definitionen von Phänomenen handeln. 2. Gültigkeitsbereich und Reichweite Die Vergleichbarkeit von Daten und Studien zu ähnlichen Themen wird in der Regel durch den jeweiligen Gültigkeitsbereich und die Reichweite erschwert, daher sind diese beiden Aspekte genau zu prüfen. Zentral ist hier die Frage, wie allgemeingültig Daten sind. Basieren sie auf repräsentativen Erhebungen? Wenn ja, in welchem Gültigkeitsbereich? Dieser hat immer eine räumliche und in der Regel eine zeitliche Einschränkung. Viele Mei‐ nungserhebungen beispielsweise liefern ein Bild zu einem ganz bestimmten Zeitpunkt und können stark von aktuellen Ereignissen abhängen. Hätte man die Zustimmung zur Kernkraft eine Woche vor und eine Woche nach dem Reaktorunglück im japanischen Fukushima im März 2011 erhoben, würden die Ergebnisse wahrscheinlich stark voneinander abweichen, während die 150 4 Die Daten <?page no="151"?> 30 Eurostat, Pressemitteilung vom 30. April 2019, https: / / ec.europa.eu/ eurostat / documents/ 2995521/ 9752723/ 3-30042019-BP-DE.pdf/ c3c6dc2a-d06b-407f-87ff-c30dfb7 049a2? t=1556542094000 HYPERLINK „https: / / fragdenstaat.de/ “ (letzter Zugriff: 19.7.2021) gleiche Befragung ohne Ereignis stabilere Werte produziert hätte. Das ist selbstverständlich ein recht extremes Beispiel. Dennoch sollten mögliche Schlüsselereignisse im Erhebungszeitraum, die Einfluss auf die Daten haben können, in Betracht gezogen werden. Will man Informationen aus unterschiedlichen Datenquellen zusammen‐ führen, beispielsweise Bevölkerungs-, Wirtschafts-, Umweltdaten usw., ist darauf zu achten, dass diese zu einem möglichst nah beieinanderliegenden Zeitraum festgestellt worden sind. In der Regel sollten die zu verwendenden Daten mindestens aus dem gleichen Jahr stammen. Je feiner noch nach Jahresquartal oder Monat unterschieden werden kann, desto besser. Dabei ist auch auf Stichtage zu achten und für welchen rückwirkenden Zeitraum Daten Gültigkeit haben. 3. Absolute oder relative Zahlen Für Vergleiche gilt in sehr vielen Fällen: Absolute Zahlen sind schwer vergleichbar. Sobald sich absolute Zahlen nicht auf die genau gleiche Basis beziehen, sind sie in der Regel schon nicht mehr aussagekräftig. 1,3 Millionen Arbeitslose in Deutschland im März 2019 mit 307.000 Arbeitslosen in den Niederlanden oder 2,6 Millionen in Italien zu vergleichen, ist wenig hilfreich, wenn nicht ad hoc die jeweiligen Einwohnerzahlen der Länder bzw. noch genauer die Zahl der Erwerbsfähigen im Land bekannt sind. Deutlich besser vergleichbar sind darum die in der Arbeitslosenquote der Länder ausgedrückten relativen Werte: 3,2 % in Deutschland zu 3,3 % in den Niederlanden und 10,2 % in Italien. 30 Hier zeigt sich: Obwohl die absolute Zahl der Arbeitslosen in Deutschland viermal so hoch ist wie in den Niederlanden, ist die relative Arbeitslosenquote fast gleich. Und während die absolute Zahl der Arbeitslosen in Italien doppelt so hoch wie die in Deutschland ist, ist die Quote sogar dreimal so hoch. So weit, so klar, denkt man sich vielleicht bei diesem Beispiel. Tatsächlich kommt es in der Praxis überraschend oft vor, dass absolute Zahlen angege‐ ben werden ohne dass die Bezugsbasis einheitlich ist bzw. ohne, dass diese angegeben wird. Ein kritischer Blick bei jeder Datenquelle lohnt sich hier auf jeden Fall. Liegen nun aber auch Daten aus unterschiedlichen Quellen 151 4.7 Daten aus unterschiedlichen Quellen zusammenführen <?page no="152"?> vor und sind in der einen als absoluter und in der anderen als relativer Wert angegeben, müssen sie für den Vergleich vereinheitlicht werden. Dazu muss in allererster Linie sichergestellt werden, dass die vorliegenden Zahlen auf derselben Definition beruhen, siehe oben. Dann muss die Basis des relativen Wertes genau bekannt sein, um einen absoluten Wert in die vergleichbare Form zu bringen. Es muss also bekannt sein, zu welcher Gesamtgröße der relative Wert im Verhältnis steht. 4. Bereits vorgenommene Datenbereinigungen Sollen Informationen aus verschiedenen Datensätzen zusammengebracht werden, muss auch überprüft werden, welche Schritte der Datenbereinigung vorgenommen worden sind. Gerade der Umgang mit fehlenden Werten kann zum Beispiel problematisch für die direkte Vergleichbarkeit von Daten aus verschiedenen Quellen sein. Werden fehlende Werte einfach frei gelassen oder werden Berechnungen vorgenommen, die aufgrund von Wahrschein‐ lichkeit und Verteilungszusammenhängen fehlende Werte ersetzen? Für die Vergleichbarkeit von Datensätzen ist hier selbstverständlich Einheitlichkeit nötig. Weitere Formen der Datenbereinigung müssen unbedingt beachtet wer‐ den. Die Saisonbereinigung ist oben bereits erwähnt. Mit dieser Methode wird versucht, saisonbedingte Schwankungen, beispielsweise bei Konjunk‐ tur- oder eben Arbeitslosenzahlen auszugleichen, um so einen besseren Eindruck einer tatsächlichen Entwicklung über die Zeit zu erhalten. Eine weitere klassische statistische Bereinigung bei wirtschaftsbezogenen Daten ist die Inflationsbereinigung, die die Preisentwicklung beachtet, beispiels‐ weise bei der Entwicklung von Reallöhnen oder der Kaufkraft. 5. Maßangaben, Währungen Daten, die im Grunde das Gleiche aussagen, können sich trotzdem in ihrer Form unterscheiden, zum Beispiel durch die zur Darstellung gewählte Maß‐ einheit, beispielsweise Längenmaße nach dem metrischen System einerseits und nach dem angloamerikanischen System anderseits, oder Temperatur nach Grad Celsius oder Fahrenheit. Auch beim Vergleich von Angaben in unterschiedlichen Währungen ist Vorsicht geboten. Will man hier Umrechnungen vornehmen, muss ein einheitlicher Zeitpunkt festgelegt werden. Tägliche Schwankungen im Umrechnungskurs können ansonsten zu Verzerrungen und falschen 152 4 Die Daten <?page no="153"?> Schlüssen führen. Deshalb braucht es einen begründeten Stichtag, zu dem der Wechselkurs für die Umrechnung genutzt wird. Das folgende Beispiel beschreibt eindrücklich, mit welchem Aufwand die Zusammenführung unterschiedlicher Daten einhergehen kann. Die Datenjournalistin Kira Schacht hatte für die Deutsche Welle untersucht, wie gut Menschen in unterschiedlichen europäischen Ländern vom Mindestlohn ihres Landes leben können. Dazu brauchte es Daten aus unterschiedlichen Quellen, die dann zu einer gemeinsamen Basis zusammengebracht werden mussten. Die Geschichte hinter der Statistik | Mindestlohn im internationalen Vergleich Als Deutschland Anfang 2019 Deutschland seinen Mindestlohn von 8,84 Euro auf 9,19 Euro anhob, ergab sich für Kira Schacht die Gelegen‐ heit für einen europäischen Vergleich. Hier ist dies nämlich einer der höchsten Mindestlöhne. Solche absoluten Werte für den Mindestlohn sind allerdings wenig aussagekräftig, wenn nicht berücksichtig wird, welcher Lebensstandard mit einem Einkommen auf Mindestlohnbasis ermöglicht wird. Daher stand am Anfang der Analyse die Frage, wie gut man von einem Vollzeit-Mindestlohneinkommen leben kann. Daraus ergab sich im Weiteren die spezifische Frage, wie weit in unterschiedlichen europäischen Ländern das verfügbare Einkommen der Menschen in Mindestlohnbeschäftigung von der Armutsgrenze in ihrem Land entfernt ist. Das verfügbare Einkommen setzt sich dabei aus dem Einkommen mit allen verfügbaren Sozialleistungen abzüglich sämtlicher zu zahlender Abgaben und Steuern zusammen. Um die Frage zu beantworten, mussten in einem aufwendigen Re‐ cherche- und Analyseprozess Informationen aus unterschiedlichen Datenquellen zusammengetragen, bearbeitet und miteinander in Be‐ ziehung gesetzt werden. Die zentralen Informationen, die benötigt wurden, waren der jeweilige Mindestlohn in den Ländern, das den Menschen in Vollzeit-Mindestlohnbeschäftigung tatsächlich zur Ver‐ fügung stehende Netto-Einkommen, sowie die Armutsgrenze, die nach Definition in der EU bei 60 % unterhalb des Medians der verfüg‐ baren Einkommens eines Landes liegt. 153 4.7 Daten aus unterschiedlichen Quellen zusammenführen <?page no="154"?> Für die Angabe der Mindestlöhne wurde eine OECD-Statistik heran‐ gezogen, die für das Jahr 2017 für die Mitgliedstaaten jeweils das Jahreseinkommen einer Vollzeit arbeitenden Person mit Mindestlohn‐ bezahlung in US-Dollar angibt. Für vier weitere EU-Länder, die nicht in der OECD Statistik gelistet sind, wurden entsprechende Daten aus einer Eurostat-Statistik generiert. Dabei handelte es sich um den jeweiligen Brutto-Verdienst. Um das Einkommen allerdings in Relation zur den auf Nettoeinkommen basierenden länderspezifischen Armutsgrenzen zu setzen, musste das tatsächlich verfügbare Einkom‐ men ermittelt werden. Ebenfalls auf Daten der OECD beruhend, wurde deshalb das Ein‐ kommen von alleinstehenden Personen ohne Kinder bei einem Voll‐ zeit-Mindestlohnjob ermittelt, dass ihnen nach den länderspezifischen Zuschlägen und Steuern zur Verfügung steht. Die jeweiligen Armutsgrenzen für die europäischen Länder wurden Daten von Eurostat entnommen. Die Angaben zu den verfügbaren Einkommen sowie zu den Armutsgrenzen waren in den jeweiligen Länderwährungen angegeben. Um das verfügbare Mindestlohneinkommen mit der jeweiligen län‐ derspezifischen Armutsgrenze ins Verhältnis setzen zu können, muss‐ ten zuvor also sowohl die in US-Dollar angegebenen Mindestlöhne als auch die in nationalen Währungen angegeben verfügbaren Ein‐ kommen einheitlich in Euro umgerechnet werden. Zur besseren Darstellung wurden außerdem alle Werte für die Jahreseinkommen auf monatliche Einkommen heruntergerechnet. Es zeigt sich dann, dass der absolute Wert des Mindestlohns in einem Land wenig aussagekräftig ist, wenn man diesen nicht in Relation zur Armutsgrenze setzt. Das Ranking der europäischen Mindestlöhne gestaltet sich dann nämlich deutlich anders als bei der Betrachtung der absoluten Werte. Auch hohe Mindestlöhne, wie die in Deutschland oder Luxemburg, liegen dann nämlich teilweise nur knapp über der Armutsgrenze und weit unter dem Medianeinkommen des Landes. Kira Schacht: „Deutschlands Mindestlohn - nicht so gut, wie er aus‐ sieht“, Deutsche Welle, 2.1.2019. https: / / www.dw.com/ de/ deutschlands -mindestlohn-nicht-so-gut-wie-er-aussieht/ a-46797536 (letzter Zugriff: 16.7.2021) 154 4 Die Daten <?page no="155"?> 4.8 Datenaufbereitung Manchmal liegen Daten in einem Datensatz nicht in der Form vor, wie sie für bestimmte Berechnungen gebraucht werden, selbst wenn die inhaltliche Information enthalten ist. Vielleicht wird beispielsweise das Alter von Be‐ fragten für die Auswertung benötigt, angegeben ist aber nur das Geburtsjahr. Oder die Erfassung eines Merkmals ist für die journalistische Aufbereitung zu kleinteilig erfolgt. So könnte die politische Orientierung von Befragten auf einer Skala zwischen 1 = ganz links und 9 = ganz rechts erhoben worden sein, das Interesse der Auswertung liegt aber nur auf der Unterscheidung links - Mitte - rechts. In solchen Fällen müssen Variablen neu berechnet oder umkodiert und als neue Variablen im Datensatz angelegt werden. Für die Berechnung des Alters würde das Jahr der Geburt vom Jahr der Erhebung abgezogen (das ergäbe immerhin das Alter aller Befragten am Jahresende). Zur Einteilung der politischen Orientierung müssten Ausprägungen zusam‐ mengefasst werden, beispielsweise ließen sich die Ausprägungen 1, 2 und 3 in eine neue Kategorie 1 = links, die Ausprägungen 4, 5 und 6 in die neue Kategorie 2 = Mitte sowie 7, 8 und 9 in die neue Kategorie 3 = rechts umwandeln. 4.9 Lagerung und Sicherung (Datenmanagement) Zuletzt soll in diesem Kapitel noch der Frage nachgegangen werden, wie Daten sinnvoll gelagert, organisiert und gemanagt werden können und sollten. Effektives Datenmanagement ist nötig, um nicht vom Umfang und von der Komplexität von Daten überwältigt zu werden und zu jedem Zeitpunkt einen guten Überblick bewahren zu können. Fehler können auch in unsauberer Lagerung von Daten ihren Ursprung haben, beispielsweise wenn unterschiedliche Versionen von Datensätzen durcheinandergeraten sind und nicht mit aktuellen Dateien gearbeitet wird. Manchmal werden Daten im Laufe der Zeit erweitert. Es kommen zum Beispiel neue Fälle dazu. Jede Übertragung und Zusammenführung von Daten kann durch (technische) Fehler gestört werden, was es natürlich zu vermeiden gilt. Arbeiten mehrere Personen an einem Datensatz, ist die Gefahr noch grö‐ ßer, dass es zur Verwirrung von Versionen kommt oder Änderungen im Datensatz später nicht mehr nachvollzogen werden können. Außerdem, je größer und auch unstrukturierter Daten sind, desto schwieriger ist es, 155 4.8 Datenaufbereitung <?page no="156"?> den Überblick zu behalten und genau die Informationen zu extrahieren, die für die eigenen Analysen benötigt werden. Sobald man unterschiedliche Datenarten aus verschieden Quellen zusammen betrachten will, steht man vor großen Herausforderungen (z. B. Twitter-Daten, Website-Sammlungen, Textdokumente, klassische Datentabellen etc.). Ein Aspekt, der insbesondere bei der Arbeit mit sehr großen Datensätzen beachtet werden muss, betrifft schlicht und einfach die Leistungsfähigkeit von den zur Analyse zur Verfügung stehenden Computern. Werden um‐ fangreiche Datensätze mit mehreren tausend, hunderttausend oder sogar Millionen Zeilen als Ganzes in eines der gängigen Statistikprogramme geladen, können auch einfachere Berechnungen viel Zeit in Anspruch nehmen und schnell an technische Grenzen stoßen. Handelt es sich um persönliche oder sensible Daten muss man sich zu‐ sätzliche Fragen stellen, wie man Sicherheit und Datenschutz gewährleisten kann. Dazu muss geklärt werden, wer überhaupt Zugriff zu den Daten hat. Als Faustregel sollte gelten, dass nur die Leute Zugang haben, die tatsächlich mit den Daten arbeiten und über die Art der Daten und den nötigen Um‐ gang damit aufgeklärt worden sind. Freier Zugang über Redaktionsserver oder File-Sharing Plattformen mit allgemeiner Freigabe sollte entsprechend ausgeschlossen werden. Ein passwortgeschützter Bereich und kontrollierte Freigaben sind das Minimum, das für die Einhaltung von Datenschutz gewährt werden sollte. Je nach Brisanz oder sogar Geheimhaltungsnotwen‐ digkeit kann aber auch das nicht ausreichend sein. In solchen Fällen sollten Möglichkeiten der Verschlüsselung bis hin zur Lagerung und Bearbeitung auf Computern, die nicht an das Internet angeschlossen sind, in Betracht gezogen werden. Die Frage, was für die Datensicherheit nötig ist, muss also relativ am Anfang geklärt werden, denn daraus ergeben sich eventuell weitere Ein‐ schränkungen für die Lagerung. Anschließend muss anhand der Art der Daten abgeschätzt werden, welche Form der Dateiorganisation benötigt wird. Liegt ein moderat großer Datensatz in einer einzelnen Datei vor, mit der man alleine arbeitet und für die nicht mit Erweiterungen oder Updates gerechnet wird, kann es bei einer einfachen Ordnerablage auf dem eigenen System belassen werden. Es sollte aber auch dann immer eine Originaldatei des Datensatzes extra gekennzeichnet separat gespeichert werden, an der keine Änderungen vorgenommen werden. Falls durch einen Arbeitsschritt oder einen Systemausfall unbeabsichtigt Daten verloren gehen, kann man im Zweifel immer wieder an den Anfang zurückkehren. Je nach Statistik‐ 156 4 Die Daten <?page no="157"?> programm, mit dem man arbeitet, bietet es sich darüber hinaus an, eine systematische Ordnerstruktur anzulegen, um sich bei unterschiedlichen Auswertungsschritten schnell zurecht finden zu können. SPSS beispiels‐ weise speichert den Datensatz, den Output einer Analyse sowie die Syntax, mit der man Analysen programmieren kann, in unterschiedlichen Dateifor‐ maten ab. Je einen Unterordner für „Datensätze“, „Output“ und „Syntax“ anzulegen, hilft für den Überblick. Werden mehrere unterschiedliche Ana‐ lysen durchgeführt, bieten sich weitere Unterordner an, beispielsweise im Format „Syntax_Netzwerkanalyse“ und „Output_Netzwerkanalyse“. Sollten mehrere Personen über eine Serverlösung Zugriff zu den Daten haben, ist es sehr wichtig, Regeln für die Ordnerstruktur zu besprechen und festzulegen und die Einhaltung dieser Regeln zu kontrollieren. Sobald Datensätze und Datenstrukturen komplexer werden, dürften die zu Beginn des Abschnitts genannten Probleme allerdings vermehrt auftre‐ ten. Um all diese unterschiedlichen Probleme anzugehen, kann es sich daher lohnen, sich mit dem Thema Datenbankmanagementsysteme etwas näher zu befassen. Bei der Arbeit mit solchen Systemen ist der Einstieg in der Regel etwas aufwändiger. Danach können aber viele Arbeitsschritte deutlich vereinfacht und effizienter gestaltet werden. Es geht dabei um Systeme zum Managen von Datenbanken, die mit Benutzer: innen, anderen Anwendungen und der Datenbank selbst interagieren, um Daten zu erfassen und zu analysieren. Es gibt eine Reihe, teils frei verfügbarer Softwarelösungen, die bei der Sicherung und dem effizienten Nutzen von Datenbanken sowie bei der Verwaltung, Erweiterung und Analyse helfen sollen. Die meisten Systeme basieren auf drei wichtigen Komponenten: 1. das Datenmodel, das definiert, wie Daten dargestellt werden, 2. die Abfragesprache (Englisch: query language), die definiert, wie Nut‐ zer: innen mit den Daten umgehen können sowie 3. eine Unterstützung zur Wiederherstellung bei Zusammenbrüchen und Systemausfällen. Gemeinsames Arbeiten mit Daten und die Verteilung von unterschiedlichen Zugängen lässt sich mithilfe solcher Systeme einfacher lösen. Aber auch zielgerichtetes Extrahieren relevanter Daten sowie das Verbinden von Daten, die nicht zusammengefasst in einer Datei vorliegen, aber durch Verbindungen gekennzeichnet sind, kann so ermöglicht werden. Zeichnet sich ab, dass die Komplexität der Daten ein solches Managementsystem notwendig macht, sollte man sich bei fehlender Vorerfahrung im besten 157 4.9 Lagerung und Sicherung (Datenmanagement) <?page no="158"?> Fall mit Programmier: innen zusammentun, die dann auch auf individuelle Bedürfnisse eingehen können. Eine detaillierte Einführung zum Thema Datenbankenmanagementsysteme mit einigen Beispielen und der Beschrei‐ bung unterschiedlicher Arten von Datenbanken findet sich bei Foster et al. (2017). Exkurs | Big Data, Data Science, Data Mining Statistik hat Hochkonjunktur. Natürlich war Statistik schon immer wichtig, aber in Zeiten der digitalen Transformation der Gesellschaft und Wirtschaft und den wachsenden Mengen an Daten, die teilweise als Beiprodukt der Digitalisierung mitentstehen, teilweise explizit als Geschäftsmodell genutzt werden, nimmt das Feld ganz neue Züge an. Nicht nur erzeugt jede unserer Online-Handlungen digitale Spuren in Form von Daten, auch werden zahlreiche Informationen unserer täglichen Umgebung gesammelt, gespeichert und verarbeitet. Und - auch diese Erkenntnis ist sicher - es wird mehr! Im Alltagsverständnis hat sich bereits der Begriff „Big Data“ etabliert, um die großen, oft komplexen und teilweise unstrukturierten Mengen an Daten zu beschreiben, die im Zuge digitaler Information und Kom‐ munikation erzeugt werden. Streng genommen geht es bei Big Data in erster Linie um Daten, deren Volumen so umfangreich ist und die sich so schnell verändern können, dass sie die Kapazitäten herkömmlicher Datenbanksysteme überschreiten. Diese großen Datenmengen, deren Erzeugung und Bearbeitung erst durch die gesteigerte Rechenfähigkeit moderner Computersysteme möglich geworden ist, können in ihrer Form sehr vielfältig sein. Strukturierte Daten entsprechendem her‐ kömmlichen Datensatzsystemen, wohingegen unstrukturierte Da‐ ten beispielsweise textbasierte Formen wie E-Mails, Blogbeiträge, pdf- oder Worddokumente oder Bilddateien umfassen können und damit nicht ohne weiteres auswertbar sind. Halbstrukturierte Daten sind die vielfältigen Zwischenformen, die zwar nicht dem Datensatzsystem entsprechen, aber beispielsweise durch Metadaten und Markierungen strukturiert sind und so bereits eine Ordnung oder Hierarchie erzeugen lassen. Daten im Sinne von Big Data werden aus vielfältigen Daten‐ quellen generiert, heute allen voran anhand von Social Media und Online-Aktivitäten (Klickpfade und Log-Dateien), aber auch aus medi‐ 158 4 Die Daten <?page no="159"?> zinischen Aufzeichnungen, Finanztransaktionen, Absatz- und Konsu‐ maufzeichnungen oder der Vielzahl von gespeicherten Verbindungen zwischen elektronischen Geräten des täglichen Lebens (Stichwort „Internet der Dinge“). Der Begriff Big Data impliziert gleichzeitig eine soziale Komponente und weist auf gesellschaftlichen Wandel in der Informationsgesell‐ schaft hin. In den Bereichen von Industrie- und Arbeitswelt ist Big Data Grundlage für die Automatisierung und Effektivitätssteigerung von Prozessen und Entscheidungen. Sowohl im wirtschaftlichen als auch im staatlichen Bereich dient die Auswertung von Big Data zum Treffen von Entscheidungen über Ressourcenverteilung sowie zur Vorhersage von Trends und Ereignissen (z. B. Wirtschaftskrisen). Im staatlichen Bereich spielt der Bereich der öffentlichen Sicherheit außerdem eine zentrale Rolle (Stichwort Vorratsdatenspeicherung). Was alle Bereiche gleichermaßen betrifft, ist die Frage nach den Persönlichkeits- und Datenschutzrechten derjenigen, deren Informationen gesammelt und ausgewertet werden. Die gesellschaftliche Debatte um die Abwägung von NVutzen und potenziellem Schaden ist noch längst nicht abschlie‐ ßend geklärt. Der schmale Grat zwischen Freiheit und Sicherheit wird immer wieder neu verhandelt und justiert. Wobei auch klar ist: Die Fähigkeit zum Sammeln und Auswerten von Big Data ist ein Machtinstrument. Wer (politische und wirtschaftliche) Macht hat, kann Daten sammeln und über ihre Verwendung bestimmen. Wer über Daten verfügt, ist in der Wissensgesellschaft klar im Vor‐ teil. Von systematischen Auswertungen erwarten Unternehmensfüh‐ rungen Wettbewerbsvorteile, wenn es ihnen beispielsweise gelingt, individualisierte Serviceangebote entsprechend der Nachfrage- und Absatzmärkte zu erzeugen. Um die Flut der Daten zu verarbeiten und aus ihr Erkenntnisse zu gewinnen, erlangen Berufsfelder vermehrt Relevanz, die den Umgang mit Daten wirtschaftlich nutzbar machen können. Allen voran die Bereiche Data Science und Data Analytics, die sich an der Schnittstelle von Statistik und Betriebswirtschaft befinden. Die Berufsbezeichnung Data Scientist (und auch die deutsche Entspre‐ chung als Datenwissenschaftler: in) ist dabei in gewissem Maße irrefüh‐ rend, weil Wissenschaft im eigentlichen Sinne hier keine nennenswerte Rolle spielt. Data Scientists, die in Unternehmen angesiedelt sind, extrahieren Informationen aus Daten mit klarem wirtschaftlichem Ziel. Sie nutzen dabei Methoden der Wissenschaft (allen voran die Methoden 159 4.9 Lagerung und Sicherung (Datenmanagement) <?page no="160"?> der Statistik), um Erkenntnisse zu gewinnen. Der für die Wissenschaft aber essenzielle Teil des Testens oder Generierens von Theorien ist in der Regel allerdings vollkommen ausgeblendet. Unter dem Stichwort Data Mining werden stattdessen explorativ Zusammenhänge in Daten gesucht. Auf Wikipedia heißt es dazu, Data Mining werde betrieben, „mit dem Ziel, neue Querverbindungen und Trends zu erkennen“. Das klingt natürlich vielversprechend und interessant, kann in der Praxis aber Gefahren mit sich bringen, wenn die Suche nach Zusammenhän‐ gen zum Fishing for Correlations (Bosbach & Korff, 2012: 61) wird. In diesem Buch wird alles Grundlegende behandelt, was es auch für den Bereich Data Science braucht. Es wird aber stark davon abgeraten, die Grundannahme vieler Data Scientists gerade aus dem wirtschaft‐ lichen Bereich zu übernehmen, das man sich nur einen Datensatz anschauen muss, um mal eben so zu suchen, was sich ergibt und wo sich (überraschende) Zusammenhänge finden lassen. Es darf gerne als starker Appell gesehen werden, nicht vollkommen gedankenfrei an Daten heranzugehen, ganz egal wie groß dieser Datensatz ist und wie verlockend die Fülle an Informationen erscheint. Manch ein überraschender Zusammenhang ist schlicht und einfach Zufall und überhaupt kein Zusammenhang, sondern lediglich eine Scheinkorre‐ lation, die sich aus der mangelnden Beschäftigung mit schlüssigen Wirkungszusammenhängen und möglichen Einflussfaktoren ergibt. ► Checkliste ■ Form: Daten lassen sich am besten in der klassischen Datentabelle verarbeiten, die Fälle in den Zeilen und Merkmale in den Spalten vermerkt. Liegen Daten nicht in dieser Form vor, sollten sie nach Möglichkeit entsprechend aufgearbeitet werden. ■ Monitoring: Werden selbst Daten erhoben, ist das Monitoring der Erhebung zur Sicherung der Datenqualität von hoher Wichtigkeit. Technische und menschliche Fehler sollten schnell erkannt und beho‐ ben werden. ■ Beschaffung: Zu vielen Themen liegen bereits erhobene Daten vor. Aber auch bei offiziell erhobenen Daten müssen die Qualität und Zuverlässigkeit geprüft werden. 160 4 Die Daten <?page no="161"?> □ Passung von Daten und Recherche: Liefern die Daten tatsächlich die Informationen, die zur Recherche benötigt werden? □ Nachvollziehbarkeit: Ist die Erhebung transparent? Lässt sich die Qualität einschätzen? ■ Bereinigung: Kaum ein Datensatz liegt in der perfekten Form vor. Fehler bei der Erstellung können passieren und müssen gründlich geprüft werden: Fehlende, falsche oder ungenaue, inkonsistente oder redundante Daten müssen entdeckt und behoben werden. ■ Datenmanagement: Daten müssen ordentlich und sicher gelagert sein. □ Übersichtliche Speicherung: Es darf nicht zur Verwirrung zwischen unterschiedlichen Arbeitsversionen kommen. □ Datenschutz: Je nach Sensibilität der Daten müssen die entspre‐ chenden Schutzmaßnahmen erfolgen, um den Zugriff Unberechtig‐ ter zu verhindern. Generell sollten nicht mehr Personen, als für den Arbeitsprozess nötig, Zugriff auf die Daten haben. Literatur Viele inspirierende Datenrecherchen und -aufarbeitungen finden sich im Data Journalism Handbook, zu finden auf der Website DataJournalism.com vom European Journalism Centre. Die Seite sowie der dazugehörige Podcast „Conversations With Data“ lohnen sich darüber hinaus, um aktuellen Entwicklungen im Bereich des Datenjournalismus zu folgen. Viele weitere hintergründige Informationen zum Informationsfreiheits‐ gesetz finden sich auf der Webseite https: / / fragdenstaat.de/ . Die Seite bietet außerdem die Sammlung an über 10.000 Anfragen und Antworten, die mithilfe von FragDenStaat.de gestellt (und teilweise eingeklagt) worden sind. 161 Literatur <?page no="163"?> 5 Die Analyse Die Analysephase ist das Herzstück des statistischen Prozesses. Viele wer‐ den genau diesen Teil primär mit Statistik verbinden. Das ist nicht verwun‐ derlich. Schließlich wird man in der Regel bereits beim Aufschlagen eines Statistikbuches und in vielen Statistikseminaren direkt damit konfrontiert. Die vorherigen Kapitel dieses Buches konnten hoffentlich schon einen umfangreichen Eindruck darüber vermitteln, wie wichtig es aber auch ist, ein sorgfältiges Augenmerk auf alle vorherigen Prozessschritte zu richten. Gründliche Vorarbeit - sei es bei einer eigenen Erhebung oder bei der Recherche, Prüfung und Aufarbeitung von externen Daten - wird sich nun auszahlen. Denn je konkreter die Fragestellung, je besser der Plan und je sorgfältiger die Gedanken in der Umsetzungs-, Erhebungs- und Aufbereitungsphase, desto einfacher wird es in der Analysephase sein, die genau richtigen Auswertungsmethoden zu wählen, um schlussendlich Antworten auf die eingangs gestellten Fragen zu finden. Das nun folgende Analysekapitel ist zweigeteilt. Es behandelt die de‐ skriptive Statistik in einem ersten Teil. Mithilfe der deskriptiven Statistik soll ein vorliegender Datensatz in erster Linie verstanden und beschrieben werden. Jedes mithilfe deskriptiver Statistik gewonnene Ergebnis sagt etwas über genau die Gruppe der Merkmalsträger als Elemente des untersuchten Datensatzes aus. Nicht aber darüber hinaus. Mithilfe der induktiven - das heißt schließenden - Statistik soll wiederum genau dieser Schritt vollzogen werden. Von den Ergebnissen eines vorliegenden Datensatzes kann auf eine über die Stichprobe hinausgehende Grundgesamtheit, ihre Merkmale und auf allgemeingültigere Zusammenhänge geschlossen werden. Wann und unter welchen Voraussetzungen es erlaubt ist, von den in einem Datensatz festgestellten Merkmalen auf die unbekannten Subjekte oder Objekte der Grundgesamtheit zu schließen, ist dabei eine der relevantesten Fragen, die es zu klären gilt. Gefolgt von der Frage, mit welcher Sicherheit davon ausgegangen werden kann, dass die im Datensatz erkannten Merkmale und Zusammenhänge auch für die unbekannte Gruppe aller möglichen Elemente und Merkmalsträger gelten können. Dazu wurden im Abschnitt zu Stichprobenziehung und Repräsentativität bereits wichtige Grundlagen gelegt, die im Folgenden vertieft werden. Vorab noch ein kurzes Beispiel <?page no="164"?> zur Verdeutlichung des Unterschiedes zwischen deskriptiver und induktiver Statistik. Beispiel | Deskriptive und induktive Statistik Stellen wir uns vor, in einer Stadt sollen die aktuelle Auslastung und die Arbeitsbedingungen von Kinderärzt: innen in Erfahrung gebracht werden. Die Zahl der Kinderärzt: innen ist überschaubar, die Namen sind über ein Ärzt: innenverzeichnis schnell identifiziert und alle kontaktier‐ ten Mediziner: innen sind bereit, Auskunft zu geben. Es muss also keine Stichprobe gezogen werden, denn es ist möglich eine Vollerhebung durchzuführen. In einem solchen Beispiel bräuchte es entsprechend keine Gedanken über induktive Statistik, weil die untersuchten Fälle der Grundgesamtheit entsprechen. Es sind also alle relevanten Elemente und Merkmalsträger, über die Aussagen gemacht werden sollen, im Datensatz enthalten. Mithilfe statistischer Analysen ließen sich sowohl wichtige Kennzahlen ermitteln (z. B. die durchschnittliche Wochenar‐ beitszeit, die durchschnittliche Anzahl der Patient: innen pro Tag, usw.) als auch Zusammenhänge erkennen (z. B. zwischen der Länge der Praxisöffnungszeiten und des Geschlechts der Ärzt: innen oder des sozialen Einzugsgebiets). Alle Aussagen, die gemacht werden, beziehen sich dann eben genau auf die befragten Kinderärzt: innen der Stadt, nicht aber darüber hinaus. D. h. die Aussagen können nicht auf alle Ärzt: innen (also auch Hausärzt: in‐ nen, Dermatolog: innen, Kardiolog: innen usw.) der Stadt oder gar auf alle Kinderärzt: innen im Land angewendet werden. Weil nicht davon ausgegangen werden kann, dass die Rahmenbedingungen für das Leben und die Arbeit von Ärzt: innen in anderen Städten und Gemeinden genau die gleichen sind, wären entsprechende Schlüsse nicht gültig. Anders wäre vorzugehen, wenn die Situation aller Kinderärzt: innen im ganzen Land untersucht werden sollte. Dazu alle mithilfe einer Befra‐ gung zu erreichen, wäre deutlich schwerer möglich. Deshalb könnte zum Beispiel anhand eines Ärzt: innenverzeichnisses eine Zufallsstich‐ probe gezogen werden. An die per Zufall ausgewählten Ärzt: innen könnte ein Fragebogen verschickt werden. Um dann auch mithilfe der so erhobenen Daten tatsächlich auf die Situation der Kinderärzt: innen im gesamten Land schließen zu können und allgemein gültige Aussagen zu treffen, muss sichergestellt sein, dass die Rücklaufquote hoch genug 164 5 Die Analyse <?page no="165"?> gewesen ist und es keine systematischen Ausfälle gegeben hat. Letzteres könnte zum Beispiel der Fall sein, wenn ausgerechnet diejenigen nicht an der Befragung teilnehmen, die so stark ausgelastet sind, dass sie keine Zeit hatten. Sich über den Unterschied zwischen deskriptiver und induktiver Statistik klar zu sein und sich bewusst machen zu können, wann es nötig und möglich ist, von einem Datensatz allgemeinere Aussagen zu schließen, ist eine wichtige Grundlage für die folgenden Ausführungen. 5.1 Deskriptive Statistik So nerdig es vielleicht auch klingen mag: Der erste Blick auf einen Datensatz hat oft etwas Aufregendes. Gerade wenn es sich um den Datensatz einer selbst konzipierten Erhebung handelt. Aber auch dann, wenn nach längeren Recherchen endlich die Informationen für das geplante journalistische Stück vorliegen, die zur Beantwortung der Ausgangsfrage nötig sind. Nun kommt es darauf an, den Daten und Zahlen auch die spezifischen Informationen zu entlocken, die die benötigten Antworten liefern. Dabei kann der Blick auf die Daten aber auch etwas überwältigend wirken. Gerade für manche (angehende) Journalist: innen, die sich und anderen vor allem durch Sprache (und ggf. Bilder) den Zugang zur Welt erschließen, kann so ein frischer Datensatz auf den ersten Blick auch eine Hürde darstellen, vielleicht sogar Blockaden erzeugen. „Dafür bin ich nicht Journalist: in geworden“, mag dem einen oder der anderen in den Sinn kommen, wenn auf dem Bildschirm nur noch ein Meer aus Zahlenkolonnen zu sehen ist. Die gute Nachricht ist: Die ersten Schritte sind eigentlich recht einfach gemacht und zeigen schnelle Erfolge. Mit den ersten Ergebnissen stellt sich dann vielleicht auch schon die Einsicht ein, dass sich hinter den Zahlen auch wirklich sinnvolle Informationen verbergen, die sich wiederum in Sprache und Erkenntnis übersetzen und in eine ansprechende journalistische Dar‐ stellungsform bringen lassen. Die Möglichkeiten der statistischen Auswertungs- und Analyseverfahren sind schier grenzenlos. Beim Zücken eines Standard-Statistiklehrbuchs kann 165 5.1 Deskriptive Statistik <?page no="166"?> die Fülle der Varianten, Möglichkeiten und Sonderfälle schnell unübersicht‐ lich werden. Darum sei an dieser Stelle etwas zur Beruhigung gesagt: Erstens: Von Journalist: innen werden nicht die gleichen statistischen Fähigkeiten erwartet, wie von jemandem in wissenschaftlicher Position. Das Gute ist, dass viele Leute in der Wissenschaft auch gerne mit Rat und Tat zur Seite stehen, wenn ihr Expert: innen-Wissen gebraucht wird. Und zweitens: Wenn man ein paar Basics beherrscht und sicher anwenden kann, ist schon wirklich sehr viel geholfen. Mit einigen grundlegenden Auswertungsmethoden lässt sich bereits eine ganze Menge anfangen. Wenn das Fundament sicher gelegt ist, lässt sich darauf im Bedarfsfall auch deutlich einfacher aufbauen. Auf den nächsten Seiten sollen diese Grundlagen behandelt werden. Dabei können gerade die ersten Schritte getrost wie eine Gebrauchsanweisung angewendet werden. Denn liegt ein Datensatz vor, muss dieser als Erstes verstanden und beschrieben werden. Für alle Variablen, die für die Lösung des Eingangs formulierten Problems benötigt werden, sollten zum Beispiel die Häufigkeiten und Verteilungen der Ausprägungen bekannt sein, bevor komplexere Auswertungen vorgenommen werden. Ausgehend von dieser Grundlage lassen sich bereits die ersten Erkenntnisse gewinnen und weitere Schritte zur konkreten Beantwortung der ursprünglich gestellten Problem‐ stellung vollziehen. 5.1.1 Häufigkeiten Die erste und grundlegende Frage, mit der man an eine Variable herantritt, kann immer sein: Wie oft tritt ein Merkmal denn überhaupt auf ? Die Ant‐ wort darauf kann unterschiedlich ausgedrückt werden. Als absolute Häu‐ figkeit bezeichnet man die reine Anzahl von Fällen, für die ein bestimmtes Merkmal gemessen wurde. Wäre beispielsweise 1.000 Leute die sogenannte Sonntagsfrage gestellt worden („Welche Partei würden Sie wählen, wenn am nächsten Sonntag Bundestagswahl wäre? “), und 273 Personen CDU/ CSU geantwortet hätten, entspräche diese Zahl der absoluten Häufigkeit dieser Antwortkategorie. Von relativen Häufigkeiten ist die Rede, wenn nicht die reine Anzahl, sondern der prozentuale Anteil der Fälle mit einem bestimmten Merkmal an der Gesamtheit aller Fälle von Interesse ist. Dieser Anteil lässt sich berechnen, in dem die absolute Häufigkeit der Fälle durch die Gesamtheit der Fälle (in der Stichprobe) dividiert wird. Für das Beispiel aus dem vorherigen 166 5 Die Analyse <?page no="167"?> Abschnitt wäre also zu rechnen: 273 1 . 000 = 0, 273 . Dies entspricht 27,3 % (siehe auch Exkurs zur Auffrischung von Prozentrechnung). Bei der Ausgabe von Häufigkeiten in Statistikprogrammen werden oft‐ mals auch kumulierte Häufigkeiten angezeigt. Diese entstehen bei der Gruppierung und dem sukzessiven Aufaddieren von relativen Häufigkeiten. Das heißt, in der Darstellung einer Häufigkeitstabelle (siehe Beispiel Ta‐ belle für unterschiedliche Altersstufen von 1.000 Untersuchungspersonen) werden Zeile für Zeile die Werte der relativen Häufigkeiten schrittweise addiert, sodass zum Schluss in der letzten Zeile die Gesamtzahl der Fälle bzw. 100 % zusammenkommen (müssen). Für die erste Zeile gilt entspre‐ chend nur der Wert der ersten Gruppe (0,022). Dieser wird für die zweiten Zeile mit dem Wert der relativen Häufigkeit der zweiten Gruppe addiert: 0, 022 + 0, 073 = 0, 095, usw. Altersgruppen absolute Häufigkeit relative Häufigkeit kumulierte Häufigkeit 0-9 22 0,022 0,022 10-19 73 0,073 0,095 20-29 180 0,18 0,275 30-39 192 0,192 0,467 40-49 219 0,219 0,686 50-59 178 0,178 0,864 60-69 43 0,043 0,907 70-79 65 0,065 0,972 80-89 21 0,021 0,993 90-99 7 0,007 1 Gesamt 1000 1 1 Tabelle 3 | Beispiel einer Häufigkeitstabelle Der Blick auf die kumulierten Häufigkeiten kann gerade bei solchen Varia‐ blen nützlich sein, die sich - wie im Beispiel in der Tabelle 3 - der Größe nach ordnen lassen. So lässt sich schneller erfassen, wie viele Fälle bis zu 167 5.1 Deskriptive Statistik <?page no="168"?> einer bestimmten Grenze bereits zusammenkommen. Im Beispiel erkennt man anhand der kumulierten Häufigkeiten in der Tabelle, dass etwas über zwei Drittel der Untersuchungspersonen jünger als 50 Jahre alt gewesen sind. Eine Möglichkeit zur gemeinsamen Darstellung von Häufigkeiten von zwei Variablen bietet die Kreuztabelle (auch Kontingenztabelle genannt). Mit dieser lässt sich ermitteln, welche Ausprägungen von zwei Variablen in welchen Kombinationen auftreten. Dies ist sowohl für zwei nominale als für auch nominale und ordinale oder zwei ordinale Variablen möglich (zur Erklärung der Skalenniveaus siehe Abschnitt 2.2). In einer Kreuztabelle wird die als unabhängig angenommene Variable in den Spalten dargestellt, die abhängige Variable in den Zeilen. Tabelle 4 zeigt ein einfaches (ausgedachtes) Beispiel zu Eisvorlieben von 100 befragten Männern und Frauen (zugegebenermaßen sind bei diesem Beispiel sowohl mögliche Eisvorlieben als auch Geschlechtsausprägungen eingeschränkt dargestellt). Es handelt sich hierbei um die einfachste Kreuztabelle mit zwei Variablen und jeweils zwei Ausprägungen, oft als 2x2-Kreuztabelle bezeichnet. Geschlecht Männer* Frauen* Gesamt Eisvorliebe Schokoeis 31 27 58 Erdbeereis 22 20 42 Gesamt 53 47 100 Tabelle 4 | 2x2-Kreuztabelle mit absoluten Häufigkeiten und Randverteilungen Das Geschlecht wird hier als unabhängige Variable angenommen und in den Spalten dargestellt. Die Eisvorliebe als abhängige Variable wird in den Zeilen vermerkt (besonders sinnvoll ist die dahinterliegende Annahme, dass die Eisvorliebe vom Geschlecht abhängt, sicherlich nicht - andersherum, nämlich dass das Geschlecht von der Eisvorliebe abhängt, scheint es aller‐ dings noch weniger naheliegend). Aus der Tabelle sind nun die absoluten Häufigkeiten ablesbar, die ausdrü‐ cken, wie oft die Ausprägung der einen Variablen mit den Ausprägungen der anderen Variablen auftritt. Es wird sichtbar, dass 31 Männer Schokoeis und 168 5 Die Analyse <?page no="169"?> 22 Männer Erdbeereis präferieren. Bei den Frauen haben 27 eine Vorliebe für Schokoeis, weitere 20 für Erdbeereis angegeben. In der untersten Zeile sowie der hinteren Spalte lassen sich die sogenannten Randverteilungen ablesen. Hier lässt sich erkennen, dass von den 100 Befragten 53 männlich und 47 weiblich sind. Außerdem haben insgesamt 58 Befragte angegeben, lieber Schokoeis zu essen, während sich 42 Befragte für Erdbeereis entschieden haben. Die Darstellung lässt sich schrittweise in ihrer Komplexität und Aussa‐ gekraft durch die Betrachtung der relativen Werte erhöhen, in dem man Zeilen-, Spalten-, und Gesamtprozentzahlen mit angibt. Tabelle 5 enthält die Zeilenprozente. Geschlecht Männer* Frauen* Gesamt Eisvorliebe Schokoeis 31 27 58 % innerhalb von Eisvor‐ liebe 53,45 % 46,55 % 100 % Erdbeereis 22 20 42 % innerhalb von Eisvor‐ liebe 52,38 % 47,61 % 100 % Gesamt 53 47 100 % innerhalb von Eis 53 % 47 % 100 % Tabelle 5 | 2x2-Kreuztabelle mit absoluten Häufigkeiten und Zeilenprozenten Die Prozentwerte beziehen sich hierbei auf die Basis der Gesamtzahl von Fällen in einer Zeile. Die 58 Personen, die lieber Schokoeis essen, bilden also die Basis zur Berechnung der Prozentwerte in dieser Zeile. Es ist ablesbar, dass von den 58 Schokofans 53,45 % Männer und 46,55 % Frauen sind. Von den 42 Erdbeereisgourmets sind 52,38 % Männer und 47,61 % Frauen. Insgesamt besteht das Sample von 100 Befragten aus 53 % Männern und 47 % Frauen (letzte Zeile). Ebenso lassen sich die Spaltenprozente betrachten, wie Tabelle 6 zeigt. 169 5.1 Deskriptive Statistik <?page no="170"?> Geschlecht Männer* Frauen* Gesamt Eisvorliebe Schokoeis 31 27 58 % innerhalb von Ge‐ schlecht 58,49 % 57,45 % 58 % Erdbeereis 22 20 42 % innerhalb von Ge‐ schlecht 41,51 % 42,55 % 42 % Gesamt 53 47 100 % innerhalb von Ge‐ schlecht 100 % 100 % 100 % Tabelle 6 | 2x2-Kreuztabelle mit absoluten Häufigkeiten und Spaltenprozenten Die relativen Werte addieren sich nun spaltenweise auf 100 zusammen. Daraus lässt sich erkennen, dass von den 53 Männern 58,49 % lieber Scho‐ koeis und 41,51 % lieber Erdbeereis essen. Von den 47 Frauen bevorzugen 57,45 die Sorte Schoko und 42,55 % Erdbeere. Insgesamt haben sich von den 100 Befragten 58 % für Schokoeis entschieden, 42 % für Erdbeere. Zu guter Letzt ist auch die Darstellung der Gesamtprozentzahlen möglich. Hierbei beziehen sich die relativen Werte auf die Gesamtzahl der Befragten als Basis. Die für das Beispiel dazugehörige Tabelle wird an dieser Stelle ausgespart, da bei 100 Befragten die relativen Werte den absoluten Werten entsprechen würden. Auch ohne Tabelle lässt sich an dieser Stelle einfach herausfinden, dass von 100 Befragten 31 % männliche Schokoeisfans iden‐ tifizierbar sind. 5.1.2 Prozentrechnung Der Begriff „Prozent“ stammt vom lateinischen pro centum und bedeutet „von Hundert“. Prozentangaben werden zur Veranschaulichung von Ver‐ hältnissen genutzt. Die absolute Zahl des Vorkommens eines Merkmals sagt erstmal nichts darüber aus, in welcher Relation, z. B. Größenordnung, dieses Merkmal im Verhältnis zur Gesamtzahl aller Elemente bzw. Merkmalsträger 170 5 Die Analyse <?page no="171"?> steht. Um eine solche Beziehung herzustellen, muss die Gesamtzahl der Ele‐ mente bekannt sein. Und auch dann, wenn die Anzahl sowie die Gesamtzahl bekannt sind, ist es nicht immer einfach, sich eine direkte Vorstellung vom Größenverhältnis zu machen. Sich zum Beispiel 373 von 1492 Befragten vorzustellen, geht intuitiv gar nicht so schnell. Eine Größe in Relation zu 100 aber können wir deutlich einfacher verarbeiten. Wenn 1492 Befragte die Basis von 100 % bilden, können wir uns 373 Befragte als 25 % viel besser vorstellen. Dass es sich bei 373 von 1492 Befragten um genau ein Viertel aller Befragten handelt, dürfte den Wenigsten beim Lesen der absoluten Zahlen direkt klar sein. Bei der Angabe, dass es sich um 25 % handelt, ist diese Größenrelation den meisten Leuten wahrscheinlich einfacher bewusst. Die Anzahl der Elemente, die „das Ganze“ bilden, also den 100 % ent‐ sprechen, nennt man Grundwert. Im Beispiel entsprechen also die 1492 Befragten diesem Grundwert und damit den 100 %. Die Zahl von 373 Befragten stellt den sogenannten Prozentwert da. Dieser Prozentwert entspricht in dem Beispiel einem Prozentsatz von 25 %. Wissen | Berechnung von Prozenten Ein Wert von 25 % lässt sich als Dezimalzahl ausdrücken, in dem die Kommastelle um zwei Positionen nach links verschoben wird, also 0,25. Diesen Ausdruck kann man auch als Prozentzahl bezeichnen. Einfaches Prozentrechnen anhand des obigen Beispiels: Soll nun herausgefunden werden, wieviel Prozent 373 von 1.492 ist, setzt man beide Zahlen ins Verhältnis 373 1 . 492 = 0, 25 - das entspricht also 25 %. Allgemein ausgedrückt: Prozentwert Grundwert = Prozentzahl Ist die Grundgesamtheit von 1.492 Befragten bekannt und möchte man wissen, wieviel Befragte davon 25 % entsprechen, rechnet man umgekehrt 1 . 492 × 0, 25 = 373 Allgemein ausgedrückt: Grundwert × Prozentzahl = Prozentwert Ist bekannt, dass 373 Befragte 25 % von einer aber unbekannten Grund‐ gesamtheit bilden, lautet die Rechnung entsprechend: 373 0, 25 = 1 . 492 Allgemein ausgedrückt: Prozentwert Prozentzahl = Grundwert 171 5.1 Deskriptive Statistik <?page no="172"?> Prozentuale Veränderungen Oft ist es von Interesse, um wieviel Prozent sich ein Wert verändert. Beispielsweise wenn es heißt, dass es 4 % mehr Gehalt gibt. Mit wieviel mehr Geld ist bei einem Ausgangsgehalt von 2.700 Euro (brutto im Monat - also vor Abzug aller Steuern und Abgaben) zu rechnen? Bei einem Grundwert von 2.700 und einem Prozentsatz von 4 % (Prozentzahl ist entsprechend 0,04) ergibt dies einen Prozentwert von 108 Euro, die zur Berechnung des neuen Gehalts auf das alte addiert werden. Nach der Erhöhung gibt es also ein Gehalt von 2.808 Euro. Diese zwei Rechnungen lassen sich auch in einer Rechnung zusammenführen. Wenn 2.700 Euro 100 % entsprechen, dann muss der neue Wert, der gesucht wird, 104 % entsprechen. Als Prozentzahl ausgedrückt, ist das 1,04. Dies kann nun mit dem Grundwert multipliziert werden, um in einem Schritt den Wert des neuen Gehalts nach der Erhöhung zu erhalten, also 2.700 Euro x 1,04 = 2.808 Euro. Je nachdem, welche Werte bekannt sind, lässt sich diese Rechnung entsprechend anders ausführen. Ist bekannt, dass das neue Gehalt 2.808 Euro nach einer Erhöhung von 4 % beträgt, lässt sich das alte Gehalt ausrechnen: 2 . 808 1, 04 = 2 . 700 Euro. Sind sowohl das alte als auch das neue Gehalt bekannt und soll ermittelt werden, um wieviel Prozent die Erhöhung stattgefunden hat, wird gerech‐ net: 2 . 808 2 . 700 = 1, 04. Bei diesem Wert wiederum muss man erkennen, dass es sich um die Prozentzahl des 1,04 des Prozentsatzes von 104 % handelt, von dem die 100 % entsprechend abzuziehen sind. Der etwas umständlichere Weg für diese Berechnung wäre, zu ermitteln, welchem Prozentsatz die Differenz der beiden Gehälter (2.808 - 2.700 = 108 Euro) vom alten Gehalt entspricht: 108 2 . 700 = 0, 04. Verändert sich hingegen der Prozentsatz - zum Beispiel von einem Zeit‐ punkt zum nächsten - wird dies in der Veränderung von Prozentpunkten ausgedrückt. Hat die Miete bei einem Privathaushalt beispielsweise bisher 27 % des Einkommens betragen, müssen nach einer Mieterhöhung aber nun 29 % des Einkommens für die Miete aufgebracht werden, dann handelt es sich um eine Veränderung von 29 - 27 = 2 Prozentpunkten. Falsch wäre hier zu sagen, die Miete ist um 2 % gestiegen! Um wieviel Prozent die Miete tatsächlich gestiegen ist, lässt sich mit allein diesen Informationen gar nicht 172 5 Die Analyse <?page no="173"?> sagen. Um hierüber Auskunft zu geben, müssten sowohl die alte als auch die neue Miete bekannt sein. Das Einkommen der Mieter: innen allerdings wäre nicht relevant für die Berechnung. Zinseszins Einen Spezialfall der Prozentrechnung stellt die Berechnung des Zinseszin‐ ses dar. Dabei findet eine prozentuale Erhöhung in mehreren Schritten statt, wobei sich durch die vorherige Erhöhung der Grundwert der neuen Rechnung ändert und eine zweite prozentuale Erhöhung auf eine neue Basis aufbaut. D. h. nach einer ersten prozentualen Veränderung hat sich der Wert, auf den dann die zweite Erhöhung bezogen ist, bereits geändert. Klassisch finden wir dies bei mehrjährigen Geldanlagen. Sollen beispielsweise 5.000 Euro über 3 Jahre zu 4 % Zinsen im Jahr angelegt werden, dann entwickelt sich - auch wenn dies aus heutiger Sicht eher utopische Konditionen sein mögen - die Geldanlage wie folgt: Nach Ausschüttung der Zinsen im ersten Jahr zeigt der Kontostand 5.000 x 1,04 = 5.200 Euro. Im zweiten Jahr sind diese 5.200 Euro nun die neue Basis, auf die wiederum 4 % Zinsen gezahlt werden sollen, also 5.200 x 1,04 = 5.408 Euro. Der Vorgang wiederholt sich im dritten Jahr mit diesem neuen Kontostand als Grundlage, also 5.408 x 1,04 = 5.624,32 Euro. Am Ende einer dreijährigen Anlage von 5.000 Euro zu 4 % jährlicher Zinsen beträgt der Kontostand also 5.624,32 Euro. Nun kann es aber sehr mühselig werden, Zinseszinsberechnungen in die‐ ser Weise für jedes Jahr einzeln vorzunehmen. Man denke an längerfristige Anlagen, Kredite oder wachsende Schulden. Die Rechnung lässt sich vereinfachen, indem der Steigerungswert (100 + Prozentzahl) mit der Anzahl der Jahre potenziert wird (in diesem Fall als „hoch 3“): 5.000 x 1,04 3 = 5.000 x (1,04 x 1,04 x 1,04) = 5.624,32 Euro. Bei einer zehnjährigen Anlage der 5.000 Euro zu jährlichen 4 %, sähe der Kontostand entsprechend am Ende so aus: 5.000 x 1,04 10 = 7.401,22 Euro. Erfreulicherweise braucht man heutzutage selbst zum Errechnen von Potenzen nicht einmal mehr einen eigenen Taschenrechner mitführen. Der vorinstallierte Taschenrechner eines durchschnittlichen Smartphones kann diese Funktion bedienen - eventuell etwas versteckt unter „erweiterten Funktionen“. Benötigt wird die Taste x y , wobei als x der Steigerungswert 173 5.1 Deskriptive Statistik <?page no="174"?> (im Beispiel 1,04) und y die Anzahl der Erhöhungsstufen (im Beispiel die Anzahl der Jahre) eingegeben wird. Lineares vs. exponenzielles Wachstum Das Verständnis vom Effekt des Zinseszins und seines exponentiellen Verlaufs kann beispielsweise auch zu Beginn von Epidemien besonders relevant sein. Das Diagramm zeigt in vereinfachter Form den Vergleich eines auf dem Prinzip des Zinseszins aufbauenden exponetiellen Wachstums und ein lineares Wachstum über einen Zeitraum von zwei Monaten. Beide Szenarien starten am Tag 1 mit 1.000 Betroffenen. Beim exponentiellen Wachstum steigt die Zahl der Betroffenen um 3 % am Tag. Nach dem ersten Tag gibt es somit 1.030 Betroffene, die dann als die Basis für die 3-prozentige Steigerung am nächsten Tag dienen. Beim linearen Wachstum kommen pro Tag jeweils einfach 30 neue Betroffene hinzu, unabhängig davon, wie viele Betroffene es am Vortag gab. Während beide Graphen fast zwei Wochen lang sehr eng beieinander liegen, trennen sich die Verläufe im Anschluss in immer größer werdenden Abständen voneinander. Hat sich der Ausgangswert von 1.000 Betroffenen beim linearen Wachstum nach zwei Monaten knapp verdreifacht, hat er sich beim exponentiellen Wachstum im gleichen Zeitraum bereits versechsfacht. Weil bei der exponentiellen Kurve der Basiswert für weitere 3 % Wachstum immer größer wird, vergrößert sich auch die Steigung des Graphen weiter. Nach etwa sechs Monaten (180 Tagen) würde das beim exponetiellen Wachstum bereits eine Betroffenenzahl von 1.000 x 1,03 180 = 204.503 bedeuten. Im Vergleich dazu wären es beim linearen Wachstum um 30 Betroffene pro Tag lediglich 1.000 + (30 x 180) = 6.400 Betroffene. Weil lineares und exponentielles Wachstum zu Beginn so ähnlich verlau‐ fen, ist zum Beispiel die Einschätzung der Lage zu Beginn der globalen Covid-19-Epidemie Anfang des Jahres 2020 vielerorts schwierig gewesen. Dort, wo drastische Maßnahmen zur Eindämmung erst mit deutlicher Klar‐ heit über den exponentiellen Verlauf der Infektionen beschlossen wurden, war es meist bereits zu spät, um die Überforderung von Versorgungs- und Gesundheitssystemen noch verhindern zu können. 174 5 Die Analyse <?page no="175"?> 0 1000 2000 3000 4000 5000 6000 7000 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 Exponentiell Linear Abbildung 7 | Exemplarischer Vergleich eines exponentiellen und eines linearen Ausbrei‐ tungsverlauf über den Zeitraum von zwei Monaten Exkurs | Inflation Der Begriff „Inflation“ bezeichnet allgemein hin die anhaltende Erhö‐ hung des Preisniveaus von Gütern und Dienstleistungen und wird in der Regel auch in prozentualer Veränderung angegeben. Die Erhöhung des Preisniveaus ist mit der Minderung der Kaufkraft des Geldes gleichzusetzen. Der Entwicklung des Preisniveaus wird der sogenannte Verbraucher‐ preisindex (VPI) zugrunde gelegt. Zur Bestimmung dieses Verbrau‐ cherpreisindex wird ein repräsentativer Warenkorb angenommen, der jeweils mit einer bestimmten Gewichtung alle Bereiche an Waren und Dienstleistungen abdeckt, die private Haushalte für Konsumzwe‐ cke kaufen. Hierzu zählen unter anderem Nahrungsmittel, Bekleidung und Ausgaben für Fahrzeuge ebenso wie Mieten, Reparaturen, Restau‐ rantbesuche sowie Ausgaben für Freizeit und Kultur. Der Inhalt des Warenkorbs und die Gewichtung der einzelnen Komponenten werden in der Regel alle fünf Jahre überprüft und in der Zwischenzeit konstant gehalten. Die Auswahl der Produkte erfolgt zum Stichtag und wird 175 5.1 Deskriptive Statistik <?page no="176"?> dann in repräsentativen Stichproben erhoben. Zur Messung der Preis‐ entwicklung dieses Warenkorbs werden monatlich die Einzelpreise dieser Güter in Handels- und Dienstleistungsunternehmen erfasst. Diese manuelle Erfassung wird ergänzt durch digitale Datenquellen zur Erhebung von komplexeren Preisgestaltungen wie Versicherungs‐ beiträgen. Um den Verbraucherpreisindex als den zentralen Indikator zur Ent‐ wicklung der Geldentwicklung nutzen zu können, wird die monatliche prozentuale Veränderung des für den Warenkorb ermittelten Preises errechnet. Muss man im Folgemonat mehr Geld für die gleichen Waren ausgeben, spricht man von Inflation. Kostet derselbe Warenkorb weniger als im Vormonat, liegt eine Deflation zugrunde. Für die Entwicklung der Wirtschaft ist insbesondere letzteres in der Regel problematisch. Man geht im Allgemeinen davon aus, dass Menschen Konsum in Zeiten der Deflation eher aufschieben, weil sie erwarten, dass Produkte und Dienstleistungen in nächster Zeit noch weniger kos‐ ten werden. Damit bricht den produzierenden Unternehmen sowie den Dienstleistern der Absatz weg. In der Konsequenz muss die Produktion runtergefahren bzw. müssen Dienstleistungen eingeschränkt werden, was das wirtschaftliche Wachstum als Ganzes hemmt. Um dieser Ent‐ wicklung vorzubeugen, wird durch politische Maßnahmen versucht, die Inflation in einem gewissen Rahmen stabil zu halten. Die Steuerung der Inflationsrate ist eine wichtige Aufgabe von Zentralbanken, die beispielsweise durch eine Anpassung des Leitzinses, für den sich Banken bei der Zentralbank Geld leihen können, die sich im Umlauf befindliche Geldmenge erhöhen oder verknappen können. Befindet sich mehr Geld im Umlauf, steigt in der Regel die Inflationsrate. Aus der Entwicklung des Verbraucherpreisindex werden also weitrei‐ chende Maßnahmen zur politischen und wirtschaftlichen Steuerung abgeleitet. Aber auch die Lohn- und Rentenentwicklung orientiert sich an diesen Angaben. Steigen Löhne und Renten beispielsweise weniger stark an als die Inflationsrate, kommt es zum Reallohnverlust. Das heißt, dass trotz nominal gestiegenen Lohns wegen des höheren Preisniveaus dennoch weniger Kaufkraft vorhanden ist im Vergleich zu einem Zeitpunkt vor Inflation und Lohnerhöhung. Um die politischen Maßnahmen und Lohnentwicklungen nachvollzie‐ hen zu können, ist es auch für Journalist: innen relevant, ein Grundver‐ ständnis vom Zustandekommen dieses Index sowie von der Berechnung 176 5 Die Analyse <?page no="177"?> 31 Zur Erklärung hier: https: / / www.destatis.de/ DE/ Themen/ Wirtschaft/ Preise/ Verbrauc herpreisindex/ Methoden/ Erlaeuterungen/ verbraucherpreisindex.html (letzter Zugriff: 19.7.2021) 32 Zum Beispiel die Entwicklung in den Jahren seit 1990: https: / / www-genesis.destatis.d e/ genesis/ online? operation=result&code=61111-0001&deep=true sowie der monatliche Vergleich der letzten zwei Jahre: https: / / www-genesis.destatis.de/ genesis/ online? operati on=result&code=61111-0002&deep=true (letzter Zugriff: 19.7.2021) der Inflationsrate zu haben. Weitere Hintergrundinformationen 31 zur Ermittlung des Verbraucherpreisindex und der Inflationsrate sowie die entsprechenden laufend aktualisierten Daten 32 finden sich auf den Seiten des statistischen Bundesamtes. Zur eingängigeren Darstellung wird dort das aktuelle Basisjahr (zum Zeitpunkt des Entstehens dieses Kapitels ist dies das Jahr 2015) dem Wert 100 zugeschrieben und alle Zeiten vorher und nachher dazu ins Verhältnis gesetzt. Wenn also in der Beispieltabelle unten der Preis des Warenkorbs von 2015 als Basis von 100 % gilt, dann lässt sich aus der Angabe von 103,4 für Januar 2019 ableiten, dass in diesem Zeitraum eine Inflation von 3,4 % erfolgt ist. Aus der Tabelle gehen darüber hinaus auch die Veränderungen von jedem Monat zum vorherigen Monat sowie zum gleichen Monat im Vorjahr hervor. Die Änderungsrate ergibt sich jeweils aus dem Verhältnis von einem Monat zum Vergleichsmonat, für den Zeitraum, für den man die Inflationsrate ermitteln will. Von Januar auf Februar 2019 verändert sich der Wert laut Tabelle also von 103,4 auf 103,8. Das Verhältnis daraus ist 103, 8 103, 4 = 1, 00387. Zur Darstellung der prozentualen Entwicklung muss von diesem Wert noch „1“ abgezogen werden, woraus sich nach Rundung die Angabe 0,4 % aus der letzten Spalte ergibt. Jahr Monate Verbraucher‐ preisindex Veränderung zum Vorjah‐ resmonat Veränderung zum Vormonat 2015=100 in (%) in (%) 2019 Januar 103,4 +1,4 -0,8 Februar 103,8 +1,5 +0,4 März 104,2 +1,3 +0,4 177 5.1 Deskriptive Statistik <?page no="178"?> April 105,2 +2,0 +1,0 Mai 105,4 +1,4 +0,2 Juni 105,7 +1,6 +0,3 Juli 106,2 +1,7 +0,5 August 106,0 +1,4 -0,2 September 106,0 +1,2 - Oktober 106,1 +1,1 +0,1 November 105,3 +1,1 -0,8 Dezember 105,8 +1,5 +0,5 2020 Januar 105,2 +1,7 -0,6 Februar 105,6 +1,7 +0,4 März 105,7 +1,4 +0,1 April 106,1 +0,9 +0,4 Mai 106,0 +0,6 -0,1 Juni 106,6 +0,9 +0,6 Juli 106,1 -0,1 -0,5 August 106,0 - -0,1 September 105,8 -0,2 -0,2 Oktober 105,9 -0,2 +0,1 November 105,0 -0,3 -0,8 Dezember 105,5 -0,3 +0,5 Tabelle 7 | Entwicklung des Verbraucherpreisindexes 2019-2020. (Quelle: © Statis‐ tisches Bundesamt (Destatis), 2020, Stand: 19.3.2021) 178 5 Die Analyse <?page no="179"?> 33 https: / / www.adac.de/ verkehr/ tanken-kraftstoff-antrieb/ deutschland/ kraftstoffpreisen twicklung/ (letzter Zugriff: 19.7.2021) Konkret anwendbar für die journalistische Berichterstattung kann die‐ ses Prinzip zum Beispiel werden, wenn man Preise von bestimmten Gü‐ tern aus unterschiedlichen Jahren vergleichen will. Beliebt ist etwa die Betrachtung der Entwicklung des Benzinpreises. Eine Übersicht über die durchschnittlichen Benzinpreise pro Jahr der letzten Jahrzehnte findet sich auf den Seiten des ADAC 33 . Dort lässt sich herauslesen, dass der Liter Super im Jahr 1991 bei 132,2 Pfennig lag, während man im Jahr 2019 durchschnittlich 140,5 Cent zu zahlen hatte. Um überhaupt einen Vergleich anstellen zu können, muss man im ersten Schritt die Währung vereinheitlichen und den D-Mark-Preis durch den festen D-Mark-Euro-Wechselkurs teilen: 132, 2 1, 95583 = 67, 59 . Der Liter-Preis von 1991 entspricht also 67,59 Cent. Vergleicht man diesen Wert von 67,59 Cent mit dem Literpreis von 2019 mit 140,5 Cent, sieht es auf den ersten Blick so aus, als hätte sich der Preis mehr als verdoppelt: 140, 5 67, 59 = 2, 079 . Das entspricht also einer prozentualen Veränderung von 107,9 %. Allerdings: Ohne die Zuhilfenahme der Inflationsrate ist dies kein gül‐ tiger Schluss. Soll der tatsächliche Preisanstieg des Liters Super Benzin von 1991 zu 2019 ermittelt werden, muss die Inflationsrate beachtet werden. Laut den Aufstellungen des statistischen Bundesamtes mit dem Basisjahr 2015 entspricht der Verbraucherpreisindex für 1991 einem Wert von 65,5, der VPI für 2019 dem Wert von 105,3. Zur Ermittlung der Entwicklung müssen beide Werte ins Verhältnis gesetzt werden. Der Wert von 2019 wird durch den Wert von 1991 dividiert: 105, 3 65, 5 = 1, 608. Nun muss der Preis von 1991 mit diesem ermittelten Wert multipliziert werden, um zu bestimmen, was der 1991er Preis in 2019er Kaufkraft bedeutet: 1,608 × 67, 59 = 108, 68. In „2019er Cent“ ausgedrückt, würde der Liter Super Benzin von 1991 also 108,68 Cent kosten. Der Unterschied zum tatsächlichen Durchschnittspreis von 2019 ist damit schon sichtlich kleiner. Er beträgt nur noch 140,5 - 108,68 = 31,82 Cent statt 140,5 - 67,59 = 72,91 Cent. Dies entspricht also lediglich einer prozentualen Verteuerung des Preises von 2019 von 28,5 % im Vergleich zum Preis von 1991 statt der ursprünglichen Verdopplung des Preises bei Nichtbeachtung der Inflation. 179 5.1 Deskriptive Statistik <?page no="180"?> 5.1.3 Verteilung von Merkmalen Wird die Verteilung eines Merkmals im Datensatz betrachtet, werden dafür sogenannte univariate Kennwerte genutzt, d. h. Kennziffern zur Beschreibung einer Variablen. Will man den Zusammenhang von zwei oder sogar mehr Merkmalen darstellen, braucht es bivariate bzw. multivariate statistische Kennwerte. Innerhalb der univariaten Kennwerte lassen sich zwei Arten unterschei‐ den: die Maße der zentralen Tendenz sowie die Streuungsmaße. Zu den Maßen der zentralen Tendenz werden das arithmetische Mittel (oft einfach nur als „Mittelwert“ oder „Durchschnitt“ bezeichnet), der Modus sowie der Median gezählt. Zentrale Streuungsmaße sind die Spannweite (auch „Range“), die Standardabweichung sowie die Varianz. Sowohl die Maße der zentralen Tendenz als auch die Streuungsmaße bilden wichtige Grundlagen für viele weitere statistische Verfahren. Maße der zentralen Tendenz Die Betrachtung der Maße der zentralen Tendenz gehört immer zu den ersten Schritten bei der Arbeit mit einem Datensatz. Um Daten zu verstehen und zu beschreiben, sind sie unerlässlich. Mittelwert, Median und Modus haben dabei unterschiedliche Aussagekraft, insbesondere in ihrer Genauig‐ keit. Auch hängt ihre Anwendung von der Art des Skalenniveaus ab. Wissen | Der Mittelwert Der Mittelwert - auch arithmetisches Mittel oder oft einfach Durch‐ schnitt genannt - ist das bekannteste der drei Maße der zentralen Tendenz. Er berechnet sich aus der Summe aller Werte geteilt durch die Anzahl der Werte und wird in der Regel mit dem großen kursiv geschriebenen M gekennzeichnet. Die meisten von uns sind gut vertraut mit dem Mittelwert, weil uns dieser bei der Notenverteilung nach Arbeiten in der Schule oft schon brennend interessiert hat, um die eigene Leistung im Vergleich zu den Mitschüler: in‐ nen einordnen zu können. Die Noten nach einer Arbeit von 10 Schüler: innen könnten zum Beispiel so aussehen: 2 2 1 4 3 4 5 2 1 1 180 5 Die Analyse <?page no="181"?> Der Mittelwert errechnet sich demnach: M = 2 + 2 + 1 + 4 + 3 + 4 + 5 + 2 + 1 + 1 10 = 25 10 = 2,5. Manchmal liegen aber statt solcher Einzelwerte auch bereits zusammen‐ gefasste (man sagt auch „aggregierte“) Daten vor. Beispielsweise könnten die Noten einer Vergleichsarbeit von insgesamt 100 Schüler: innen über mehrere Klassen in folgender Form aufgelistet sein. Note Anzahl der Schüler: innen mit dieser Note 1 12 2 26 3 31 4 20 5 8 6 3 Tabelle 8 | Notenverteilung von 100 Schüler: innen Um hier den Mittelwert aller Noten zu errechnen, muss ein weiterer Zwischenschritt eingefügt werden. Der Wert der Note muss erst mit der Anzahl dieser Note multipliziert werden, bevor aus diesen Produkten eine Summe berechnet wird, die dann durch die Gesamtzahl der Fälle (der Anzahl aller Schüler: innen) geteilt werden kann. M = 1 × 12 + 2 × 26 + 3 × 31 + 4 × 20 + 5 × 8 + 6 × 3 100 = 12 + 52 + 93 + 80 + 40 + 18 100 = 295 100 = 2, 95 Der Mittelwert wird in erster Linie für intervallskalierte Daten verwendet. Gerade in der sozialwissenschaftlichen Forschung sieht man allerdings auch oft die Anwendung bei ordinalen Skalen. Wenn die Antwortmöglichkeiten auf eine Frage zwischen „1 = ich stimme überhaupt nicht zu“ bis „5 = ich stimme voll und ganz zu“ gegeben waren, dann handelt es sich dabei um kategoriale Daten auf einer Ordinalskala. Das heißt, es liegen inhaltliche Kategorien zugrunde und die Reihenbzw. Rangfolge der Ausprägungen lässt sich klar bestimmen. Der Abstand zwischen zwei Antwortmöglich‐ keiten ist allerdings nicht eindeutig bestimmbar. Es lässt sich nicht mit Sicherheit sagen, dass der Abstand zwischen den Werten „ich stimme überhaupt nicht zu“ und „ich stimme eher nicht zu“ genauso groß ist wie 181 5.1 Deskriptive Statistik <?page no="182"?> zwischen „ich stimme eher zu“ und „ich stimme voll und ganz zu“. Weil aber jeder dieser Verbalisierungen ein numerischer Ausdruck zugeordnet wurde, zwischen denen der Abstand sehr wohl eindeutig definiert ist - der Abstand zwischen 1 und 2 ist exakt so groß wie der zwischen 2 und 3 usw. - wird die durchschnittliche Zustimmung eben doch berechnet, als handelte es sich um ein intervallskaliertes Maß. Genau genommen gelten diese Ausführungen auch für Schulnoten, bei denen es sich ebenfalls um ordinalskalierte Daten handelt und bei denen der Abstand zwischen der Note 1 und Note 2 nicht zwangsläufig genauso groß sein muss wie zwischen der Note 2 und 3 usw. Und trotzdem ist die Berechnung des Mittelwerts gang und gäbe. Dass ein Mittelwert für ordinalskalierte Daten entsprechend inhaltlich nicht sinnvoll ist, sollte man sich dann allerdings bewusst machen. In gewissem Maße nützlich kann ein solcher Wert aber für den Vergleich sein. Die Durchschnittsnoten zweier Klassen bei derselben Vergleichsarbeit geben im Vergleich Auskunft über die Leistung. Und wie zum Beispiel Männer im Vergleich zu Frauen durchschnittlich einer bestimmten Frage zustimmen, lässt sich mit dem Vergleich der Mittelwerte der Antworten ebenfalls interpretieren. Wissen | Median Beim Median handelt es sich um den Wert, der nach Aufreihung aller Werte entsprechend ihrer Größe genau in der Mitte liegt - bei dem also genau die Hälfte der Werte größer und die andere Hälfte der Werte kleiner ist. Stellen wir uns die Jahreseinkommen von 5 Personen in einem Unternehmen vor, bereits nach Größe von kleinstem zu größtem Jahresgehalt geordnet: 23.976 € 35.556 € 42.927 € 57.101 € 101.071 € Der Median ist der Wert, der genau in der Mitte liegt, also bei dem es genauso viele Werte gibt, die kleiner und größer sind. In diesem Fall ist 42.927 Euro der Medianwert. Bei einer geraden Anzahl von Werten bildet sich der Median aus dem Durchschnitt der beiden an die Mitte angrenzenden Werte. So sei das Beispiel also um ein weiteres Gehalt ergänzt: 23.976 € 35.556 € 37.123 € 42.927 € 57.101 € 101.071 € 182 5 Die Analyse <?page no="183"?> Zur Bestimmung des Medians werden hier die beiden Werte in der Mitte (37.123 € und 42.927 €) herangezogen. Der Durchschnitt beider Werte beträgt: M = 37 . 123 + 42 . 927 2 = 40 . 025 und entspricht damit dem Median. Warum die Betrachtung des Medians in einigen Fällen sinnvoller sein kann als das arithmetische Mittel, erschließt sich, wenn man beides zum Beispiel für die obere Liste der fünf Gehälter vergleicht. Der Durchschnitt in diesem Beispiel beträgt M = 23.976 + 35.556 + 42.927 + 57.101 + 101.071 5 = 260.631 5 = 86.877 €. Dieser Wert ist mathematisch völlig korrekt. Inhaltlich ist er allerdings ir‐ reführend, denn dieses Durchschnittsgehalt ist deutlich höher, als immerhin vier der fünf Personen aus diesem Beispiel verdienen. Der Mittelewert von 86.877 Euro erweckt den Eindruck von einem deutlich höheren Gehaltsni‐ veau, tatsächlich ist es aber nur eine Person, die weit mehr verdient als alle anderen und daher den Durchschnitt stark nach oben hin verzerrt. Der Median von 42.927 Euro gibt in diesem Fall ein deutlich realistischeres Bild vom Gehaltsniveau der Gruppe. Wissen | Modus Das dritte hier zu nennende Maß der zentralen Tendenz ist der Modus (plural: Modi), auch oft als Modalwert (Englisch: mode) bezeichnet. Er stellt das allgemeinste und ungenaueste Maß dieser Gruppe dar, spielt aber dennoch eine wichtige Rolle für das Verständnis einer Variablen. Der Modus ist der Wert, der am häufigsten vorkommt. Entsprechend gibt es keinen formalen Weg diesen Wert zu berechnen. Vielmehr lässt er sich über die Betrachtung der absoluten Häufigkeiten bestimmen. Die Häufigkeiten zur Zustimmung auf eine bestimmte Frage könnten bei 100 Befragten zum Beispiel aussehen wie in Tabelle 9. 183 5.1 Deskriptive Statistik <?page no="184"?> Häufigkeiten 1 = stimme überhaupt nicht zu 13 2 = stimme eher nicht zu 11 3 = teils, teils/ unentschlossen 33 4 = stimme eher zu 16 5 = stimme voll und ganz zu 27 Tabelle 9 | Antworthäufigkeiten von 100 Befragten Die am häufigsten gewählte Antwortkategorie ist in diesem Fall die Ausprä‐ gung „3 = teils, teils/ unentschlossen“ bei 33 von den 100 Fällen. Alle anderen Antwortmöglichkeiten wurden weniger oft gewählt. Der Modalwert ist hier also „3 = teils, teils/ unentschlossen“, also die Ausprägung an sich, nicht etwas die Häufigkeit des Vorkommens dieser Ausprägung. Gibt es zwei Antwortkategorien mit der gleichen Anzahl an Nennungen, bilden beide Werte gleichermaßen Modalwerte. Je nach Statistikprogramm, mit dem gearbeitet wird, können sich hierbei die Ausgaben unterscheiden. Nicht immer werden alle Modi angegeben, sondern beispielsweise nur der kleinste, aber versehen mit einem Hinweis darauf, dass es mehrere Modalwerte gibt. Zur Entscheidung, welcher der drei Werte der zentralen Tendenz der richtige für die Betrachtung vorliegender Daten ist, gibt es hier eine kleine Hilfestellung: 1. Der Mittelwert ist bei nicht kategorialen (also zum Beispiel intervalls‐ kalierten) Daten zu verwenden, die keine Extremwerte beinhalten. 2. Den Median statt den Mittelwert bei intervallskalierten Daten zu ver‐ wenden, bietet sich insbesondere dann an, wenn Extremwerte - also besonders kleine oder große Werte - den Mittelwert verzerren könnten und inhaltlich irreführende Werte entstehen würden. 3. Der Modus sollte verwendet werden, wenn kategoriale Daten vorliegen, also nominalskalierte oder ordinalskalierte Daten betrachtet werden. Der Modus ist dann sinnvoll, wenn Fälle in eine Kategorie eingeordnet werden und die möglichen Kategorien sich gegenseitig ausschließen, so wie Augenfarben, Haarfarben oder auch die Zustimmungswerte zu einer Frage. Hier zu bestimmen, welche die Antwortkategorie ist, die am 184 5 Die Analyse <?page no="185"?> häufigsten ausgewählt wurde, gibt erste inhaltliche Hinweise über eine Variable. Gerade dann, wenn zum Beispiel der Modalwert ausgerechnet die Auffangkategorie „Sonstige“ oder sogar „Weiß nicht“ darstellt, ist das ein Hinweis darauf, dass die Möglichkeiten der Antwortkategorien nicht ausreichend oder überfordernd gewesen sein könnten. Streuung Neben den Häufigkeiten und Maßen zur Bestimmung der zentralen Tendenz sind die Angaben zur Streuung wichtig zur Beschreibung von Daten. Die Streuung spiegelt wider, wie weit die Werte einer Variablen auseinander liegen. Warum die Betrachtung der Streuung die Aussagekraft des Mittel‐ werts sinnvoll ergänzen kann, zeigt folgendes Beispiel. Stellen wir uns fünf Mitarbeiter: innen eines Betriebes mit folgenden Stundenlöhnen vor: 9,35 € 12,75 € 15,42 € 22,98 € 37,94 € Im Durchschnitt verdienen diese fünf Mitarbeiter: innen 19,69 Euro pro Stunde. Genauso übrigens wie diese fünf Mitarbeiter: innen: 15,35 € 18,98 € 19,65 € 21,34 € 23,13 € Und auch diese fünf Mitarbeiter: innen verdienen im Durchschnitt 19,69 Euro pro Stunde: 19,69 € 19,69 € 19,69 € 19,69 € 19,69 € Bei gleichem durchschnittlichen Stundenlohn unterscheiden sich die drei Gruppen bei der Betrachtung der einzelnen Werte doch sichtlich. Die Werte der ersten Gruppe liegen deutlich weiter auseinander als die Werte der zweiten Gruppe. In der dritten Gruppe unterscheiden sich die Werte gar nicht voneinander. Die Betrachtung, wie weit Datenpunkte voneinander entfernt liegen, ist ein zentraler Aspekt statistischer Anwendungen. Erklärungen zu finden für Unterschiedlichkeit - oder auch Variabilität - sowohl zwischen indi‐ viduellen Fällen als auch Gruppen von Fällen ist das Kernanliegen der meisten statistischen Methoden. Die Maße der Streuung bilden eine wichtige Grundlage für viele weitere Berechnungen. Im Folgenden betrachten wir drei weit verbreitete Maße: die Spannweite, die Standardabweichung und die Varianz. 185 5.1 Deskriptive Statistik <?page no="186"?> Wissen | Spannweite Die Spannweite (englisch: range) ist das einfachste Maß bei der Be‐ trachtung der Streuung der Daten. Sie wird einfach berechnet durch Subtraktion des kleinsten vom größten Wert und in der Regel mit dem großen kursiven „R“ gekennzeichnet. Die Spannweite für die Gruppe 1 aus den Beispielen oben ist dementspre‐ chend: R = 37, 94 − 9, 35 = 28, 59. Schon deutlich kleiner ist die Spannweite der Werte aus der zweiten Gruppe: R = 23, 13 − 15, 35 = 7, 78. Während die Spannweite der dritten Gruppe R = 19, 69 − 19, 69 = 0 be‐ trägt. Die Spannweite dient damit als genereller Hinweis auf die Variabilität von Daten. Es lässt sich daraus allerdings noch keine Erkenntnis darüber ableiten, wie stark sich die Individualwerte dann tatsächlich voneinander unterscheiden. Minimum und Maximum bei den Ausprägungen einer Va‐ riablen zu bestimmen, kann aber zum Beispiel auch schon zur Identifizierung von sogenannten Ausreißern bzw. Extremwerten hilfreich sein. Die Spann‐ weite wird aber aufgrund der dennoch eingeschränkten Aussagekraft selten in Forschungsberichten dargestellt. Sie dient eher dem Vertraut-machen mit den eigenen Daten. Zentraler noch für die Darstellung der Streuung sind die Standardabweichung und die Varianz. Wie weit Datenpunkte voneinander entfernt liegen, ist ein Ansatzpunkt zur Bestimmung der Streuung. Noch genauer erfolgt die Betrachtung aber, wenn alle Datenpunkte zu einem bestimmten Wert verglichen werden. Für diesen Vergleich wird in der Regel der Mittelwert herangezogen. Wissen | Standardabweichung Die Standardabweichung (englisch: standard deviation) drückt die durchschnittliche Abweichung aller Werte zum Mittelwert aus. Je grö‐ ßer die Standardabweichung ist, desto größer ist auch die durchschnitt‐ liche Entfernung der Datenpunkte vom Mittelwert und desto weiter streuen die Daten. Die Standardabweichung wird in der Regel mit „s“ oder „SD“ abgekürzt. 186 5 Die Analyse <?page no="187"?> Zum besseren Verständnis und weil die Standardabweichung so ein zentra‐ les Maß ist, soll die genaue Berechnung hier einmal als Beispiel aufgeführt werden. Als Beispiel werden die Zahlen der Stundenlöhne der ersten Gruppe genutzt: 9,35 € 12,75 € 15,42 € 22,98 € 37,94 € Die offizielle Formel zur Berechnung der Standardabweichung lautet: s = ∑ X − X ² n − 1 Ausgangspunkt ist der Mittelwert der Daten, für die die Standardabwei‐ chung berechnet werden soll. In der Formel wird der Mittelwert durch das Zeichen X repräsentiert. Für die fünf Stundenlöhne ist der Mittelwert aus dem Beispiel oben schon bekannt: 19,69 Euro. Dieser Mittelwert wird von jedem einzelnen Datenpunkt, repräsentiert durch X (Spalte 1 von Tabelle 10), abgezogen (Spalte 2). Jede dieser Differenzen wird quadriert (Spalte 3). Durch diesen letzten Schritt fallen Extremwerte, die also weiter vom Durchschnitt entfernt liegen, noch einmal stärker ins Gewicht. X X − X X − X ² 9,35 -10,34 106,9156 12,75 -6,94 48,1636 15,42 -4,27 18,2329 22,98 3,29 10,8241 37,94 18,25 333,0625 Tabelle 10 | Schrittweise Berechnung der Standardabweichung Um nun den Teil im Zähler der Formel zu vervollständigen, muss die Summe (repräsentiert durch das Zeichen ∑) aus den Werten der letzten Spalte gebildet werden. Würde die Summe aus den Werten der mittleren Spalte gebildet werden, erhält man „0“ - aus diesem Grund und um die negativen Vorzeichen wegzubekommen, werden die Werte quadriert. Die Summe dieser Quadrate ist entsprechend ∑ X − X ² = 106, 9156 + 48, 1636 + 18, 2329 + 10, 8241 + 333, 0625 = 517.1987 187 5.1 Deskriptive Statistik <?page no="188"?> Damit ist der Zähler komplett und muss nun durch n − 1 geteilt werden. Das kleine „n“ steht dabei für die Anzahl der Fälle, im Falle des Beispiels sind das 5. Es wird also gerechnet 517, 1987 5 − 1 = 517, 1987 4 = 129, 2997 Um schlussendlich zu einer Standardabweichung zu kommen, die dieselbe Einheit aufweist wie die Ausgangwerte, wird noch die Wurzel gezogen: s = 129, 2997 = 11, 37 Diese Zahl lässt sich demnach interpretieren im Sinne, dass die durch‐ schnittliche Entfernung der Stundenlöhne vom Mittelwert 11,37 Euro be‐ trägt. Das könnte es an dieser Stelle mit den Ausführungen im Prinzip schon gewesen sein. Der eine oder die andere Leser: in wundert sich aber vielleicht doch, warum die Summe nicht einfach durch „n“ geteilt wird, also der Anzahl der Fälle wie es bei der Mittelwertberechnung getan würde, sondern aus „n - 1“. Das liegt darin begründet, dass die Standardabweichung als ein unverzerrter Schätzer dienen soll. Durch die Subtraktion der 1 wird der Gesamtwert für die Standardabweichung etwas größer. Bei nur wenigen Werten hat diese Subtraktion einen größeren Einfluss als bei einer größeren Anzahl. Im Beispiel wäre das Ergebnis 10,17 - würde man statt durch „4“ durch „5“ teilen. Durch die Subtraktion von 1 von der Anzahl der Fälle wird also erzwungen, dass die Standardabweichung etwas höher angesetzt wird. Damit steigt die Wahrscheinlichkeit, dass der für eine Stichprobe geschätzte Wert in der Grundgesamtheit eher leicht höher ist als niedriger. Man spricht hier von einer konservativen Schätzung, das heißt, dass das Risiko in der Folge Fehler zu begehen dadurch verringert werden soll, dass an dieser Stelle die Hürde etwas höher gelegt wird. Ein solcher Fehler könnte sein, dass man in der Folge schneller einen Zusammenhang zur Erklärung der Streuung identifiziert, dieser Zusammenhang aber „in Wirklichkeit“ gar nicht existiert. Dies wird auch als „Fehler 2. Art“ bezeichnet (im Gegensatz zum „Fehler 1. Art“, bei dem ein Zusammenhang nicht identifiziert wird, obwohl er existiert). Wie auch der Mittelwert ist die Standardabweichung allerdings sensibel gegenüber Extremwerten, das heißt, dass einzelne sehr große oder kleine Werte entsprechend hohen Einfluss haben. Umso wichtiger ist es, sich im‐ mer auch die Spannweite der Werte anzusehen, Minimal- und Maximalwert zu bestimmen und gegebenenfalls auf Ausreißer hinzuweisen. 188 5 Die Analyse <?page no="189"?> Schließlich ist in diesem Abschnitt zur Streuung von Daten noch die Varianz zu erwähnen. Diese sieht man selten als eigenständigen Wert in Forschungsarbeiten, sie ist allerdings von ganz grundlegender Bedeutung für viele weitere statistische Berechnungen und Teil zahlreicher Formeln. Der Begriff der „Varianzaufklärung“ wird in späteren Abschnitten noch eine wichtige Rolle spielen und bezieht sich darauf, wie viel Unterschiedlichkeit in Daten tatsächlich erklärt werden kann. Wissen | Varianz Die Varianz (englisch: variance) wird mit „s 2 “ gekennzeichnet, was schon darauf hinweist, wie sie zustande kommt. Es handelt sich dabei nämlich um die quadrierte Standardabweichung. Entsprechend wird bei der oben für die Standardabweichung durchgeführten Berechnung der letzte Schritt ausgespart, das Ziehen der Wurzel. Damit ist die Varianz allerdings auch nicht mehr so direkt interpretierbar wie die Standardabweichung, denn diese erhält durch das Ziehen der Wurzel schließlich wieder die Maßeinheit der Originalwerte. Das ist bei der Varianz nicht mehr der Fall. In den Ergebnisteilen von Forschungsarbeiten sieht man daher auch eher die Standardabweichung. Das Wissen für das Zustandekommen der Varianz ist aber dennoch wichtig für das weitere Vorgehen bei statistischen Analysen. 5.1.4 Zusammenhangsmaße Mit den Maßen der zentralen Tendenz können solche Werte identifiziert werden, die die Ausprägungen einer Variablen mithilfe eines zusammen‐ fassenden Wertes repräsentieren. Mithilfe der Streuungsmaße wird etwas über die Verteilung der Werte einer Variablen in Erfahrung gebracht. In einem weiteren Schritt kann es dann von Interesse sein, die Beziehung zwischen zwei Variablen näher zu betrachten und zu erkunden, ob zwischen den Variablen ein Zusammenhang identifiziert werden kann. Man spricht von einem statistischen Zusammenhang, wenn bestimmte Werte zweier Variablen häufiger zusammen auftreten, und zwar so, dass eine gewisse Regelhaftigkeit dabei identifiziert werden kann. Treten die hohen Werte der einen Variablen häufiger in Zusammenhang mit hohen Werten der anderen Variablen auf ? Oder sind die Werte der einen Variablen vielleicht 189 5.1 Deskriptive Statistik <?page no="190"?> sogar eher kleiner je größer die Werte der anderen Variablen sind? Treten die nominalen Ausprägungen einer Variablen häufiger in Verbindung mit bestimmten Ausprägungen der anderen Variablen auf ? Ist dies nicht der Fall, spricht man von statistischer Unabhängigkeit. Abbildung 8 illustriert den Zusammenhang zweier intervallskalierter Va‐ riablen: das Alter (auf der x-Achse) sowie die Dauer der Parteimitgliedschaft (auf der y-Achse) der Mitglieder des vierten Kabinetts von Bundeskanzlerin Angela Merkel (Stand Mai 2020). Dieser sogenannte Scatterplot ermöglicht einen guten ersten Eindruck darüber, wie die Ausprägung der einen Variable in Verbindung mit der Ausprägung einer anderen Variablen für jeden einzelnen Fall auftreten. Man erkennt am Beispiel der Abbildung 8 bereits auf den ersten Blick, dass die Personen umso länger Mitglied ihrer jeweiligen Partei sind, desto älter sie sind. Merkel Seehofer Altmaier Müller Lambrecht Heil Spahn Scheuer Braun Scholz Klöckner Karliczek Kramp-Karrenbauer Maas Schulze Giffey 0 10 20 30 40 50 60 0 10 20 30 40 50 60 70 80 Parteimitgliedschaft (in Jahren) Alter Abbildung 8 | Scatterplot zum Zusammenhang von Alter und Anzahl der Mitgliedsjahre in der eigenen Partei Dies ist kein besonders überraschendes Ergebnis, aber dennoch ein gutes Beispiel für einen statistischen Zusammenhang. Auch lassen sich „Ausrei‐ ßer“ und Extremwerte mithilfe einer solchen Abbildung rasch identifizieren. Es handelt sich dabei um solche Fälle, die sichtlich etwas entfernt von einer Gruppe von Fällen liegen und eventuell von einer gewissen Regelhaftigkeit abweichen. In diesem Fall sticht die Kanzlerin beispielsweise heraus, die 190 5 Die Analyse <?page no="191"?> zwar die zweitälteste Person der Gruppe ist, aber im Vergleich zum Großteil ihrer Ministerinnen und Minister deutlich kürzer Mitglied ihrer Partei ist. Auch dies ist nicht verwunderlich, denn als ehemalige DDR-Bürgerin konnte sie erst 1990 in die CDU eintreten. Ein weiterer Fall, der etwas abseits vom Hauptfeld der Fälle liegt, ist die Ministerin für Familie, Senioren, Frauen und Jugend Franziska Giffey, die offenbar im Vergleich zu Kolleg: innen im Kabinett, die etwa im selben Alter sind, erst später Mitglied in ihrer Partei geworden ist. Dass sich in der Abbildung die „Wolke“ der Fälle von links unten nach rechts oben erstreckt, weist auf einen positiven Zusammenhang hin: Je größer die Werte für das Alter auf der x-Achse werden, desto größer werden auch die Werte auf der y-Achse für die Jahre der Parteimitgliedschaft. Alle Fälle liegen relativ nah beieinander, was bereits einen Hinweis auf einen eher starken Zusammenhang gibt. Ein gängiges Maß für den Zusammenhang von zwei intervallskalierten Variablen nennt man Pearson-Korrelation, nach dem Entdecker dieser Zusammenhänge Karl Pearson. Generell sind Korrelationskoeffizienten Maße, die die Beziehung bzw. den Zusammenhang zwischen zwei Variablen in einem numerischen Wert ausdrücken. Solche Zusammenhangsmaße las‐ sen sich nicht nur für - wie im obigen Beispiel - intervallskalierte Variablen berechnen, allerdings benötigt es für die unterschiedlichen Variablentypen auch unterschiedliche Koeffizienten. Zum Verständnis des Prinzips soll hier der Pearson-Korrelationskoeffizient vornehmlich betrachtet werden. Korrelationskoeffizient nach Pearson Der Korrelationskoeffizient nach Pearson drückt den linearen Zusammen‐ hang zwischen zwei intervallskalierten Variablen aus. Er ist damit ein bivariates Maß und wird in der Regel mit dem kleinen „r“ gekennzeichnet. Der Koeffizient kann Werte zwischen −1 und +1 annehmen, je nach Art der Beziehung zwischen den zwei Variablen. Je kleiner der Zusammenhang, das heißt, desto weniger eine Regelmäßigkeit zwischen dem Auftreten der einen Variablen und dem Auftreten der anderen Variablen festgestellt werden kann, umso näher wird der Wert des Koeffizienten bei 0 liegen. Die Grafik links in Abbildung 9 zeigt eine solche Variante. Die Punkte (Fälle) zeigen keinen oder einen sehr geringen Zusammenhang zwischen der Variablen 1 und 2, sie liegen verstreut auf der gesamten Fläche des Diagramms. 191 5.1 Deskriptive Statistik <?page no="192"?> Verändern sich Variablen in die gleiche Richtung, treten also zum Beispiel höhere Werte für die eine Variable auf, wenn auch die Werte der anderen Variablen größer werden, spricht man von einem positiven Zusammenhang (Abb. 9, Mitte). Der Korrelationskoeffizient wird in diesem Fall positiv zwischen 0 und +1 liegen. Die Datenpunkte in der Grafik gruppieren sich hier entlang einer Linie von links unten nach rechts oben. Je enger die Punkte beieinander und entlang der imaginär gezogenen Linie liegen, desto weiter wird sich der Korrelationskoeffizient an +1 annähern. Werden die Werte der einen Variablen kleiner, während die Werte der zweiten Variablen größer werden, liegt ein negativer Zusammenhang vor (Abb. 9, rechts). Der Korrelationskoeffizient wird in diesem Fall zwischen 0 und −1 liegen. Der Verlauf der Punkte in der Grafik zeigt von links oben nach rechts unten. Es gilt das gleiche Prinzip: Je enger die Punkte beieinander liegen, desto stärker ist der Zusammenhang. Abbildung 9 | Scatterplots unterschiedlicher Korrelationen (links: keine Korrelation, Mitte: stark positive Korrelation, rechts: stark negative Korrelation) Je stärker ein Zusammenhang ist, desto näher liegen die Punkte entlang einer (imaginären) Linie und desto größer ist der absolute Wert des Koeffi‐ zienten. Demnach wäre eine Korrelation von r = − 0, 80 stärker als r = 0, 50 . Der Koeffizient spiegelt das Ausmaß der Variabilität wider, das zwei Varia‐ blen teilen, und was sie gemeinsam haben. Je stärker der Zusammenhang, desto sicherer lassen sich auch Vorhersagen über unbekannte Fälle machen. Wird beispielsweise ein starker Zusammenhang zwischen der Körpergröße und dem Gewicht von Personen festgestellt - je größer desto schwerer - lässt sich mit einer gewissen Sicherheit darauf wetten, dass Person A auch schwerer ist, wenn sie größer ist als Person B. Wäre das in wirklich jedem Fall so, läge eine perfekte Korrelation mit einem Koeffizienten von +1 vor. Dies ist allerdings nicht zu erwarten, wahrscheinlicher ist ein starker Zusammenhang von r = 0, 70 zum Beispiel. Aber auch dann läge man bei 192 5 Die Analyse <?page no="193"?> einer Wette über die Feststellung der schwereren Person deutlich häufiger richtig als falsch, auch wenn nur Informationen über die Körpergrößte der Personen vorliegen. Um überhaupt Korrelationen feststellen zu können, ist allerdings eine ausreichende Vielfalt in den Ausprägungen der vorliegenden Fälle eine Voraussetzung. Will man den Zusammenhang von Größe und Gewicht in einer Gruppe von männlichen Schwergewichtsboxern feststellen, wird man nicht weit kommen, denn die Werte für das Gewicht werden alle sehr nah beieinanderliegen. Der Zusammenhang zwischen Größe und Gewicht wird sehr viel schwächer ausfallen als im Vergleich zu allen Boxer: innen aus unterschiedlichen Gewichtsklassen oder sogar zur generellen Bevölke‐ rung. Will man also Korrelationen untersuchen, ist es ratsam, ausreichend unterschiedliche Daten zu sammeln, um tatsächlich ein aufschlussreiches Ergebnis zu bekommen. Hierbei kommt es selbstverständlich auch auf die Qualität des Messinstruments an, das die Vielfalt auch abdecken und alle möglichen Werte erfassen sollte. Eine Waage, die bei 100 kg endet, wäre denkbar ungeeignet für das Vorhaben, den Zusammenhang zwischen Größe und Gewicht zu untersuchen. Ebenso ist die Güte der Stichprobenziehung besonders wichtig, um niemanden systematisch auszuschließen. Als Daumenregel für die Interpretation der Stärke von Zusammenhängen - unabhängig vom Vorzeichen - lässt sich in der Regel eine Aufstellung wie die folgende finden: Größe des Koeffizienten Interpretation 0,7 bis 1 sehr starker/ extremer Zusammenhang 0,5 starker Zusammenhang 0,3 moderater Zusammenhang 0,2 schwacher bis moderater Zusammenhang 0 bis 0,2 sehr schwacher oder kein Zusammenhang Tabelle 11 | Interpretation von Zusammenhangsmaßen im Hinblick auf die Stärke In sozialwissenschaftlichen Studien wird man selten Zusammenhänge über Werten von r = ± 0, 5 finden, weil die soziale Realität komplex ist und viele Einflussfaktoren eine Rolle spielen können. Auch müssen Zusammen‐ hänge nicht zwangsläufig immer linear sein. Wir haben oben im Abschnitt 193 5.1 Deskriptive Statistik <?page no="194"?> „Lineares vs. exponentielles Wachstum“ bereits ein Beispiel für einen expo‐ nentiellen Zusammenhang gesehen. Auch kurvenförmige Zusammenhänge sind denkbar. So kann die Gedächtnisleistung bis zu einem bestimmten Alter erstmal besser werden (ansteigen), aber im Alter auch wieder schlechter. Über die Art eines erwarteten Zusammenhangs sollte man sich entspre‐ chend frühzeitig Gedanken machen bzw. die getroffenen Annahmen über Zusammenhänge in Studien auf Plausibilität prüfen. Solche Annahmen sollten in Theorieteilen hergeleitet, in Form von Hypothesen festgehalten und begründet sein. Korrelationsmatrix Interessiert man sich für mehr als zwei Variablen und deren Zusammen‐ hänge untereinander, lassen sich mehrere paarweise Korrelationen über‐ sichtlich in einer Korrelationsmatrix darstellen. Die Tabelle zeigt als Beispiel Daten der Kabinettsmitglieder der Bundesregierung im Mai 2020 (N=16). Sowohl in den Zeilen als auch in den Spalten sind die Variablen Alter, Par‐ teimitgliedschaft, Mitgliedschaft im Bundestag sowie Mitgliedschaft in der Bundesregierung gelistet. Alle Variablen sind in Jahren gemessen. Für jedes Variablenpaar wird ein Korrelationskoeffizient angegeben. In dieser Matrix mit vier Variablen gibt es entsprechend sechs Korrelationskoeffizienten, da jede Variable auch einmal mit sich selbst korreliert wird und dafür der Koeffizient von „1“ in der Matrix auftaucht. Für alle anderen Variablenpaare lässt sich der Zusammenhang jeweils in den Zellen ablesen. Im Vergleich können so die unterschiedlichen Korrelationen auf einen Blick erfasst und auf ihre Stärke hin interpretiert werden. In diesem Beispiel findet sich also der stärkste Zusammenhang zwischen dem Alter einer Person und den Jahren ihrer Parteimitgliedschaft (r = 0.83). Die schwächste Korrelation bilden die Variablen der Jahre der Parteimitgliedschaft und die Jahre als Mitglied in der Bundesregierung (r = .28). Hier ließe sich auf den ersten Blick zum Beispiel interpretieren, dass es weniger wichtig ist, wie lange jemand schon Mitglied in der eigenen Partei ist, wenn der*diejenige ins Kabinett berufen wird. Gleichzeitig lässt sich auch erkennen, dass es zwischen den Kabinetten Merkel III und Merkel IV so viele Personalwechsel gab, dass zum Zeitpunkt der Erhebung fast alle Minister: innen erst weniger als 4 Jahre Mitglied der Regierung waren. 194 5 Die Analyse <?page no="195"?> Alter (in Jahren) Parteimit‐ gliedschaft (in Jahren) Mitglied des deut‐ schen Bun‐ destages (in Jahren) Mitglied der Bun‐ desregie‐ rung (in Jahren) Alter (in Jahren) 1 ,83 ,493 ,67 Parteimitglied‐ schaft (in Jahren) ,83 1 ,48 ,28 Mitglied des deut‐ schen Bundestages (in Jahren) ,493 ,48 1 ,55 Mitglied der Bun‐ desregierung (in Jahren) ,67 ,28 ,55 1 Tabelle 12 | Korrelationsmatrix mit Korrelationen nach Pearson Wie bereits erwähnt, kann die Visualisierung von Zusammenhängen zum Verständnis der Beziehungen zwischen Variablen beitragen. Der zur Kor‐ relation zwischen der Länge der Parteimitgliedschaft und der Dauer der Mitgliedschaft in der Bundesregierung gehörige Scatterplot ist in Abbildung 10 dargestellt. Merkel Seehofer Altmaier Müller Lambrecht Heil Spahn ScheuerBraun Scholz Klöckner Karliczek Kramp-Karrenbauer Maas Schulze Giffey 0 5 10 15 20 25 0 10 20 30 40 50 60 Mitglied der Bundesregierung (in Jahren) Parteimitgliedschaft in Jahren Abbildung 10 | Scatterplot zum Zusammenhang der Dauer der Parteimitgliedschaft und der Anzahl der Jahre als Mitglied des Deutschen Bundestags 195 5.1 Deskriptive Statistik <?page no="196"?> Wie erwähnt ist gerade die Betrachtung der Extremfälle in der Regel aufschlussreich. Denn der Korrelationskoeffizient ist nicht robust gegenüber Ausreißern, d. h. er kann (gerade bei kleinen Fallzahlen wie im Beispiel) von einzelnen Werten stark beeinflusst werden. In diesem Beispiel ist es die Kanzlerin selbst, deren Datenpunkt stärker abweicht vom Rest der Fälle. Anders als alle anderen Fälle ist sie fast so lange in Regierungsverantwor‐ tung wie sie auch Mitglied der CDU ist (Mitglied seit 1990, Mitglied der Regierung seit 1991 - mit Unterbrechungen seither insgesamt 22 Jahre). Schließt man ihren Fall aus, ist der Zusammenhang zwischen der Länge der Parteimitgliedschaft und der Anzahl der Jahre als Mitglied der Bundes‐ regierung bei den Minister: innen mit r = 0,621 deutlich stärker. Partielle Korrelation Spielt es also doch eine Rolle, wie lange sich die Minister: innen bereits in der Partei verdient gemacht haben, als sie in die Regierung berufen worden sind? Bei einer starken Korrelation von r = ,621 lässt sich darauf leicht schließen. Tatsächlich ist das Lied hier noch nicht zu Ende. Was hier nach einem di‐ rekten Zusammenhang aussieht, muss nicht zwangsläufig einer sein. Nicht selten nehmen dritte Variablen Einfluss auf die Beziehung zwischen zwei Variablen. Man nennt solche Drittvariablen auch intervenierende oder moderierende Variablen. Der Effekt einer intervenierenden Variablen lässt sich allerdings bestimmen bzw. „rausrechnen“. Es heißt dann, dass der Einfluss der Variable „kontrolliert“ wird. Bereits bei der Planung einer Datenerhebung müssen entsprechend Überlegungen zu eventuellen inter‐ venierenden Variablen einbezogen werden, denn was nicht erhoben wird, kann später nicht kontrolliert werden. Das Fehlen von Kontrollvariablen kann dann schnell zur Feststellung von Scheinkorrelationen führen. Für das Beispiel zum Zusammenhang von der Länge der Parteimitglied‐ schaft und der Regierungserfahrung der aktuellen Minister: innen scheint dies der Fall. Bezieht man nämlich das Alter in die Rechnung als Kontrollva‐ riable mit ein, zeichnet sich nämlich ein anderes Bild. Die Berechnung ergibt dann sogar einen schwach negativen Zusammenhang von r = -0,25. Das Alter ist offensichtlich eine intervenierende Variable, die bei der Betrachtung nicht vernachlässigt werden darf. Allein die Dauer der Parteimitgliedschaft hat entsprechend wenig Aussagekraft über die Regierungserfahrung eines Kabinettmitglieds. 196 5 Die Analyse <?page no="197"?> Determinationskoeffizient Wie in einem der vorherigen Abschnitte angekündigt, kommt an diesem Punkt der Betrachtung die Varianz wieder ins Spiel. Ein zentrales Anliegen vieler statistischer Methoden ist es, die Streuung von Variablen zu erklären. Dies ist auch bei Korrelationen möglich. Mithilfe des Determinationskoef‐ fizienten lässt sich bestimmen, wie viel Prozent der Varianz einer Variablen durch eine andere Variable bestimmt wird. Sprich: Es geht also darum, welcher Anteil der Streuung einer Variablen durch die andere Variable erklärt wird. Manchmal ist auch von gemeinsamer Varianz die Rede, weil Variablen, die miteinander korrelieren, in der Regel Gemeinsamkeiten haben, die ihren Zusammenhang ausmachen. Bei Personen mit ähnlicher Größe und Gewicht sind zum Beispiel weitere gemeinsame Merkmale denkbar, die geteilt werden, wie die tägliche Anzahl benötigter Kalorien, Muskelmasse, Blutmenge, bis hin zu genetischen Gemeinsamkeiten. Um vorherzusagen, wieviel Varianz der einen Variablen durch eine andere Variable erklärt wird bzw. wie viel gemeinsame Varianz sie teilen, wird der Korrelationskoeffizient r quadriert und entsprechend mit r² gekenn‐ zeichnet. Daraus lässt sich bereits ableiten, dass stärkere Korrelationen auch automatisch mehr Varianz erklären können, also Variablen mit einem starken Zusammenhang auch einen hohen Anteil gemeinsamer Streuung haben. Für das Beispiel des Zusammenhangs zwischen Alter und Länge der Parteimitgliedschaft der Kabinettsmitglieder beträgt diese gemeinsame Varianz also beispielsweise r² = ,83² = ,69. Die Variablen teilen also immerhin 69 % ihrer Varianz bzw. 69 % der Varianz der einen Variable wird durch die andere erklärt. Weitere Zusammenhangsmaße Der Pearson-Korrelationskoeffizient ermittelt den Zusammenhang metri‐ scher bzw. intervallskalierter Daten. Für Zusammenhänge von Variablen mit anderen Skalenniveaus werden weitere unterschiedliche Koeffizienten benötigt. An dieser Stelle sollen ein paar gängige Koeffizienten kurz vorge‐ stellt werden. Die Grundlagen sollen ein Verständnis ermöglichen, wenn die Maße in Studien auftauchen. Hinweise für die Umsetzung werden am Ende des Kapitels in der weiterführenden Literatur gegeben. Die Zusammenhangsmaße zwischen nominalen Variablen beruhen auf dem Prinzip der Kreuztabelle und dem Unterschied zwischen den tat‐ sächlichen Zelleninhalten und den Zelleninhalten, die im Falle statistischer 197 5.1 Deskriptive Statistik <?page no="198"?> Unabhängigkeit vorliegen müssten. Man unterscheidet also die beobachte‐ ten Häufigkeiten von den erwarteten Häufigkeiten. Für letztere werden bei den gegebenen (tatsächlich beobachteten) Randverteilungen in einer Kreuztabelle theoretische Zelleninhalte bestimmt, die bei statistischer Un‐ abhängigkeit zu erwarten wären. Wenn es keinen Zusammenhang zwischen dem Geschlecht und der Eispräferenz gibt, dann müsste es eine ungefähre Gleichverteilung geben, sodass anteilig genauso viele Frauen wie Männer jeweils Schokobzw. Erdbeereis als Lieblingssorte angegeben haben (z. B.: sowohl 65 % der Männer als auch der Frauen bevorzugen Schoko.) Diese bei statistischer Unabhängigkeit erwarteten Werte werden mit den tatsächlich empirisch ermittelten Werten abgeglichen. Auf dieser Basis wird das sogenannte Chi-Quadrat χ2 ermittelt. Dabei wird eine Definition von Unabhängigkeit zugrunde gelegt, die auf Annahmen von Wahrschein‐ lichkeiten beruht. Wenn Abweichungen von den erwarteten Zellengrößen also nicht mehr nur durch Zufall bei der Stichprobenziehung zustande gekommen sein können, dann besteht ein Zusammenhang zwischen den Variablen. Die Berechnung erfolgt nach folgender Formel: χ 2 = ∑ beobachtete Häufigkeit − erwartete Häufigkeit 2 erwartete Häufigkeit Chi-Quadrat ergibt sich somit aus der Summe (dargestellt durch das Zeichen ∑) der für alle Zellen der Kreuztabellen berechneten Abweichung der beobachteten und erwarteten Werte. Mithilfe des Wertes kann allerdings nur ausgesagt werden, ob es Unterschiede gibt - nicht allerdings, welche Richtung ein Effekt hat. Es lässt sich also entsprechend nicht ablesen, ob die beobachteten Werte größer oder kleiner sind als die erwarteten, sondern gegebenenfalls nur, dass es einen Unterschied gibt. Wichtig für die Interpretation eines Chi-Quadrat-Werts sind außerdem die sogenannten Freiheitsgrade. Diese ergeben sich aus der Anzahl der Zellen, die frei wählbar sind bei einer gegebenen Randverteilung. Am Beispiel der Eispräferenzen von 100 befragten Männern und Frauen bedeu‐ tet dies: Sind die Randverteilungen gegeben (53 Männer, 47 Frauen, 58 Schokoeisesser, 42 Erdbeereisesser), dann kann genau ein Zelleninhalt der Verteilungen der Merkmale in der 2x2-Tabelle „frei“ gewählt werden, das Beispiel hat also einen Freiheitsgrad. Wäre also hierbei nur bekannt, dass es 31 männliche Schokofans gebe, würden sich die anderen drei Werte au‐ tomatisch ergeben, denn 53 Männer minus 31 männliche Schokofans sind 22 männliche Erdbeereisesser. Bei insgesamt 58 Schokoeisessern müssen nach 198 5 Die Analyse <?page no="199"?> Abzug von 31 männlichen Schokoeisessern noch 27 Frauen übrigbleiben. Bei insgesamt 47 Frauen ergeben sich dann auch die restlichen 20 weiblichen Erdbeereisliebhaberinnen. Geschlecht Männer* Frauen* Gesamt Eisvorliebe Schokoeis 31 27 58 Erdbeereis 22 20 42 Gesamt 53 47 100 Tabelle 13 | 2x2-Kreuztabelle mit absoluten Häufigkeiten und Randverteilungen Mithilfe von sogenannten Chi-Quadrat-Verteilungstabellen lassen sich Chi-Quadrat-Werte dann auch interpretieren. Solche Tabellen geben einen jeweiligen Grenzwert für gewisse Konfidenzintervalle und die zugehörigen Freiheitsgrade (df) an. Das Beispiel zeigt einen kleinen Ausschnitt einer solchen Tabelle. In jeder Zeile werden die feststehenden Chi-Quadrat-Werte angegeben, die bei einer Kreuztabelle mit den entsprechenden Freiheitsgr‐ aden erreicht werden müssen, um von einem Zusammenhang ausgehen zu können. Möchte man also mit 95-prozentiger Sicherheit (d. h. α=0,05) sagen, dass ein Zusammenhang zwischen zwei nominalen Variablen (einer Kreuz‐ tabelle mit einem Freiheitsgrad (df=1)) besteht, dann muss die Berechnung von Chi-Quadrat einen Wert von 3,84 oder größer annehmen. df α=0,05 α=0,01 α=0,001 1 3,84 6,63 7,88 2 5,99 9,21 10,60 3 7,81 11,34 12,84 4 9,49 13,28 14,86 5 11,07 15,09 16,75 … … … … Tabelle 14 | Chi-Quadrat-Verteilungstabelle (Ausschnitt) 199 5.1 Deskriptive Statistik <?page no="200"?> Für das obige Beispiel zum Zusammenhang von Geschlecht und Eisprä‐ ferenz ergibt die Berechnung von Chi-Quadrat einen Wert von χ2=0,01 (bei einem Freiheitsgrad). Der Wert ist also deutlich niedriger als die in der Tabelle angegeben Werte für Kreuztabellen mit einem Freiheitsgrad. Entsprechend kann nicht davon ausgegangen werden, dass zwischen den Variablen Geschlecht und Eispräferenz ein Zusammenhang besteht. Weil aber die Stärke des Zusammenhangs nicht erkennbar ist, sondern nur erkennbar ist, ob es einen Zusammenhang zwischen zwei nominalen Variablen gibt oder nicht, wird in der Regel eins von zwei weiteren Zusam‐ menhangsmaßen herangezogen, die beide auf Chi-Quadrat aufbauen: der Phi-Koeffizient für kleinere Kreuztabellen (2x2), Cramers V für größere. Beide haben einen Wertebereich von 0 bis 1, wobei 0 keinem Zusammenhang und 1 einem perfekten Zusammenhang entspricht. Für das Eis-Beispiel ergibt die Berechnung (im Statistikprogramm) für Phi beispielsweise ledig‐ lich 0,01. Es besteht also kein Zusammenhang zwischen Geschlecht und Eispräferenz. Würden aber alle Männer, die eine Eissorte präferieren und alle Frauen die andere, dann läge ein perfekter Zusammenhang vor. In diesem Fall könnte man allein über die Kenntnis des Geschlechts die bevorzugte Eissorte für jeden einzelnen Fall vorhersagen. Verbreitet für die Bestimmung eines Zusammenhangs zwischen ordinalen Variablen sind zum Beispiel die Koeffizienten Kruskals γ („gamma“), Kenndalls τ („tau “) sowie der Rangkorrelationskoeffizient Spearmans ρ („rho“). Die Wertebereiche dieser Koeffizienten reichen von −1 bis +1 und geben im Grunde Auskunft darüber, wie sich die Reihenfolgen von zwei ordinalen Variablen zueinander verhalten. Bei −1 verhielten sich die Werte genau umgekehrt zueinander. In diesem Fall würden entsprechend die hohen Werte der einen Variable beispielsweise immer mit niedrigen Werten der anderen Variablen einhergehen. Bei einem Wert von +1 gäbe es entsprechend eine perfekte Übereinstimmung in allen Rangplätzen. Antworten beispielsweise bei einer Befragung über die Affinität zu Hunden und Katzen alle Personen gleichermaßen, dass sie dem Satz „Ich liebe Hunde“ ebenso voll und ganz zustimmen wie dem Satz „Ich liebe Katzen“ bzw. beide Sätze in gleichem Maße ablehnen, dann ergibt sich daraus eine Korrelation von +1. Lehnen aber alle Hundeliebhaber: innen die Aussage ab, Katzen ebenfalls zu lieben, ergibt sich die umgekehrte Korrelation von −1. Die drei genannten Koeffizienten unterscheiden sich im Grunde vor allem nach den Bedingungen, die zu ihrer Berechnung erfüllt sein sollten. Enthal‐ ten die Daten zum Beispiel einen hohen Anteil gleicher Ausprägungen, ist 200 5 Die Analyse <?page no="201"?> der Anteil an sogenannten Bindungen hoch. In einem solchen Fall würde eher auf Kruskals gamma zurückgegriffen werden, da Kenndalls tau diese nicht berücksichtigt und dann gegebenenfalls zu irreführenden Ergebnissen führen kann (Näheres dazu findet sich zum Beispiel bei Heimsch, Niederer und Zöfel 2018, ab S. 165). 5.2 Inferenzstatistik Viele Forscher: innen interessieren sich eher dafür, was für eine Grund‐ gesamtheit als wahr gelten kann, als allein für die Stichprobenebene. Sie sind auf der Suche nach Erkenntnissen über Eigenschaften größerer Gruppen von Fällen (wie Personen, Ereignissen, Zeitpunkten usw.) oder Zusammenhängen zwischen Merkmalen unter allgemeinen Umständen. Da sich die allgemeinen Umstände oder die Gesamtzahl aller möglichen Fälle selten erfassen lassen, wird also mithilfe einer Stichprobe nur ein Teil der Gesamtheit untersucht. Studienergebnisse sind in der Regel aber nur dann interessant, wenn sie über die Teilnehmer: innen einer Stichprobe hinaus verallgemeinert werden können, weil man sich so allgemein gültige und auf die Realität anwendbare Erkenntnisse erhofft. Der Kern der Inferenzstatistik besteht daher aus dem Prinzip des Schlie‐ ßens von einer solchen Stichprobe auf die Grundgesamtheit, für die das eigentliche Interesse besteht. Ist ein in der Stichprobe gemessener Wert (z. B. Mittelwert, Anteilswert) von Variablen auch in der Grundgesamtheit zu erwarten? Kann ein in der Stichprobe ermittelter Zusammenhang zwischen bestimmten Merkmalen auch für die Grundgesamtheit angenommen wer‐ den? Es gibt eine Vielzahl von statistischen Instrumenten, die Forscher: in‐ nen helfen, auf der Grundlage von Stichprobendaten Rückschlüsse auf die Bevölkerung zu ziehen, d. h. zu ermitteln, ob die Ergebnisse der Stichprobe statistisch signifikant sind. Mit anderen Worten: Statistische Signifikanz bedeutet also, dass die Ergebnisse einer Studie über die Stichprobe hinaus als gültig gewertet werden können. Allerdings haben sich diverse Missverständnisse und Fehlinterpretatio‐ nen von statistischer Signifikanz in vielen Bereichen der Forschung festge‐ setzt. Es gibt Forschungsarbeiten, die zeigen, dass statistische Signifikanz in Statistiklehrbüchern bereits falsch definiert wird, dass bei der Interpretation von Signifikanztests in Studien eine Reihe von Fehlern auftreten sowie dass die starke Fokussierung auf statistisch signifikante Ergebnisse zu 201 5.2 Inferenzstatistik <?page no="202"?> 34 Siehe zum Beispiel Cassidy, S. A., Dimova, R., Giguère, B., Spence, J. R., & Stanley, D. J. (2019); Rinke & Schneider (2015); Anderson (2020) Überinterpretationen, fragwürdiger wissenschaftlicher Praxis und sogar wissenschaftlichem Fehlverhalten führen kann. 34 Ein gutes Verständnis der Grundlagen der Inferenzstatistik sowie des Signifikanzprinzips ist deshalb prinzipiell für jeden und jede wichtig, um falsche Schlüsse in Studien und vorschnell gezogene Schlussfolgerungen aufzudecken. Für Journalist: innen ist das wichtig, weil ihre Berichterstat‐ tung die öffentliche Debatte mit Infos versorgt. Faktengestützte Berichter‐ stattung muss in diesem Sinne auch wissenschaftliche Ergebnisse kritisch begleiten und darf sich nicht allein auf die Qualitätsmechanismen der Wis‐ senschaft zurückziehen. Falsch gezogene Schlüsse können weitreichende gesellschaftliche Konsequenzen haben. Deshalb soll der folgende Teil die Grundlagen darlegen sowie weit verbreitete Fehlerquellen aufzeigen. Das Wissen über diese Grundlagen soll dazu beitragen, für die journalistische Arbeit Studienergebnisse unabhängig prüfen zu können und Fehl- und Überinterpretationen zu vermeiden. Wichtig ist an dieser Stelle noch der Hinweis: Alles, was bisher in diesem Buch behandelt worden ist, ist bei diesem Schritt in die Interenzstatistik relevant. Um überhaupt von einer Stichprobe auf eine Grundgesamtheit schließen zu dürfen, ■ muss ein sauber definiertes Problem vorliegen, das gelöst werden soll, ■ müssen begründete Annahmen über Ausprägungen, Verteilungen und Zusammenhänge sowie mögliche weitere Einflussfaktoren und Dritt‐ variablen vorliegen, ■ muss das Messinstrument sorgfältig ausgearbeitet sein, ■ muss die Stichprobenziehung nach den Regeln der Kunst erfolgen. Fehler und Ungenauigkeiten bei jeder dieser Ebenen nehmen Einfluss auf die Analyse und werden die Richtigkeit und Aussagekraft von Ergebnissen mindestens einschränken. 5.2.1 Signifikanzprinzip In der Regel ist eine bestimmte begründete Hypothese über die Ausprägung oder Verteilung eines Wertes bzw. über den Zusammenhang zwischen Werten der Ausgangspunkt für Überlegungen. In der Wissenschaft wer‐ 202 5 Die Analyse <?page no="203"?> den solche Hypothesen begründet aus der Theorie und auf der Basis früherer Forschung aufgestellt. In der Regel besagen Hypothesen, dass eine bestimmte Ausprägung eines Wertes, eine bestimmte Verteilung, ein bestimmter Zusammenhang zwischen Variablen oder ein Unterschied zwi‐ schen Gruppen angenommen wird. Eine solche Hypothese wird dann anhand der Daten einer Stichprobe getestet (häufig liest man für diese Hypothese deshalb auch den Ausdruck Testhypothese). Lässt sich also zum Beispiel ein angenommener Zusammenhang mithilfe der Daten einer Stichprobe feststellen? Die darauffolgende Frage ist dann die für die meisten Forscher: innen tatsächlich spannende: Gilt das für die Stichprobe ermittelte Ergebnis auch für die Grundgesamtheit? Soll diese Frage geklärt werden, wird allerdings in der Regel erstmal vom gegenteiligen Fall ausgegangen, nämlich dass ein Zusammenhang nicht in der Grundgesamtheit besteht bzw. dass ein Effekt oder auch ein Unterschied zwischen Gruppen null ist. Bei einem Signifikanztest wird also die zur eigentlichen Ausgangshypothese gegenteilige Hypothese, die sogenannte Nullhypothese, überprüft. Die eigentliche Hypothese (bzw. Ausgangshy‐ pothese bzw. Testhypothese) wird häufig auch als Alternativhypothese zur Nullhypothese bezeichnet. Ziel ist es in der Regel, zu der begründeten Annahme zu kommen, dass ein Zusammenhang in der Grundgesamtheit nicht null entspricht. Das gewünschte Ergebnis wäre es also, die Nullhypothese ablehnen zu können. Dazu wird der in der Stichprobe ermittelte Wert, die sogenannte Teststatistik (z. B. ein Mittelwert oder Zusammenhangswert) mit einer hypothetischen Verteilung von Teststatistiken verglichen. Zur Ermittlung einer solchen hypothetischen Verteilung geht man von der wiederholten Ziehung von Zufallsstichproben mit derselben Stichprobengröße aus einer Grundgesamtheit aus, in der der Zusammenhang null ist, also die Nullhy‐ pothese gilt. Wäre die Nullhypothese wahr und der Zusammenhang in der Grundgesamtheit null, dann gäbe es - entsprechend des zentralen Grenzwertsatzes - viele Stichproben, die ebenfalls einen Wert von bzw. nahe Null ergeben würden. In immer weniger Stichproben würden extremere, also deutlich von null abweichende Ergebnisse berechnet werden. Wird nun bei der Ziehung einer einzelnen Stichprobe eine Teststatistik ermittelt, die in einer Grundgesamtheit mit gültiger Nullhypothese theo‐ retisch zu diesen Extremen gehören würde, dann spricht man von statisti‐ scher Signifikanz. Damit wird ausgedrückt, dass der ermittelte Wert sehr unwahrscheinlich wäre, würde die Nullhypothese tatsächlich in der Grund‐ 203 5.2 Inferenzstatistik <?page no="204"?> gesamtheit gelten. In der Konsequenz wird die Nullhypothese daraufhin verworfen. Das heißt, es wird der Schluss gezogen, dass die Nullhypothese in der Grundgesamtheit nicht gilt und der Wert oder Zusammenhang aus der Stichprobe auch in der Grundgesamtheit nicht null entspricht. Wie aber wird ermittelt, ob ein Wert innerhalb dieser Extreme liegt und die Nullhypothese verworfen werden kann? Um den Vergleich zwischen der Teststatistik mit der hypothetischen Verteilung vorzunehmen, wird der sogenannte p-Wert ermittelt (p als klassische Bezeichnung für eine Wahrscheinlichkeit). Dieser drückt das Verhältnis aus zwischen einer hy‐ pothetischen Teststatistik, die gleich oder extremer ist als die vorliegende Teststatistik, und eben dieser vorliegenden Teststatistik. Als ein solches Verhältnis kann der p-Wert im Bereich zwischen 0 und 1 liegen. Ein weitverbreiteter Grenzwert zur Annahme statistischer Signifikanz liegt bei p < 0, 05 . Dieses sogenannte Signifikanzniveau drückt aus, dass wenn der tatsächliche Zusammenhang in der Grundgesamtheit null wäre (die Nullhypothese entsprechend wahr), dann würden nur 5 % aller möglichen Zufallsstichproben einen Wert ergeben, der dem Wert der Teststatistik entspricht oder extremer ist. Weil aber die Wahrscheinlichkeit, eine dieser wenigen extremen Stichproben gezogen zu haben, so gering ist, geht man eher davon aus, dass die Nullhypothese eben nicht gültig ist. Je größer aber p ist, desto wahrscheinlicher ist es, dass die Teststatistik auch dann beobach‐ tet wird, wenn die Nullhypothese zutrifft - die vorliegenden Daten also durchaus Teil einer Grundgesamtheit sein können, in der der beobachtete Wert oder Zusammenhang doch null ist. Ergibt der Signifikanztest für den Wert einer Teststatistik zum Beispiel p = 0, 4, dann besagt dies, dass 40 % der theoretisch möglichen Stichproben einen Wert gleich oder extremer dem gemessenen Wert haben würden und dieser gemessene Wert der Stichprobe damit deutlich wahrscheinlicher im Einklang mit der Nullhypothese steht. Die Stichprobe könnte also mit relativ großer Wahrscheinlichkeit Teil einer Grundgesamtheit sein, in der kein Zusammenhang besteht. Neben dem Grenzwert von p < 0, 05 sieht man häufig auch die Angaben p < 0, 01und sogar p < 0, 001. Bei p < 0, 01 würde es entsprechend in nur 1 % aller möglichen Zufallsstichproben einen Wert geben, der dem Wert der Teststatistik entspricht oder extremer ist, wäre die Nullhypothese wahr. Bei p < 0, 001 wären es sogar nur 0,1 % der Zufallsstichproben. Die Sicherheit, dass ein in einer Stichprobe gemessener Wert auch in der Grundgesamtheit nicht null entspricht, steigt also, je kleiner p ist. Anders gesagt: Je kleiner p ist, desto höher ist die Wahrscheinlichkeit, dass die in einer Stichprobe 204 5 Die Analyse <?page no="205"?> ermittelten Zusammenhänge auch für die Grundgesamtheit gelten. Ob der Wert einer Teststatistik eines dieser drei Signifikanzniveaus erreicht, wird in Forschungsarbeiten häufig durch die Markierung des entsprechenden Werts mit Sternchen ausgedrückt, entweder p < 0,05 (*) für signifikant, p < 0,01 (**) für hoch signifikant oder p < 0,001 (***) für höchst signifikant. Ein weit verbreitetes Missverständnis, dem man im Zuge der Interpreta‐ tion und Erklärung von statistischer Signifikanz nach wie vor regelmäßig begegnet, ist der Glaube, dass der p-Wert die Wahrscheinlichkeit dafür an‐ gibt, dass der beobachtete Wert oder Zusammenhang zufällig hervorgerufen wurde. Aus der Erklärung des Signifikanzprinzips im vorherigen Abschnitt sollte hervorgehen, warum es sich hier um eine Fehlinterpretation handelt. Natürlich wäre es dem Zufall geschuldet, würde man ausgerechnet eine der wenigen unwahrscheinlichen Stichproben mit einer extremen Teststatistik ziehen. Die schiere Existenz der Teststatistik ist allerdings keineswegs Zufall, sondern durchaus im Rahmen aller möglichen Stichproben aus einer Grundgesamtheit denkbar, in der insgesamt aber die Nullhypothese zutreffend wäre. Bei der Entscheidung für die Nullhypothese oder die Alternativhypothese kann man zwei Arten von Fehlern begehen. Entscheidet man sich dafür, die Nullhypothese zurückzuweisen, weil man (nicht wissend! ) eine der wenigen unwahrscheinlichen Stichproben gezogen hat, die trotz extremer Werte Teil einer Grundgesamtheit ohne Zusammenhang sein kann, begeht man einen Fehler 1. Art - auch oft als alpha-Fehler bezeichnet. Der gegenteilige Fall wäre das fälschliche Verwerfen der Alternativhypothese. Wird die Nullhypothese in diesem Fall nicht zurückgewiesen, obwohl sie ungültig ist, wird entsprechend ein Fehler 2. Art (beta-Fehler) begangen. Je nachdem, ob die Entscheidung zugunsten der Null- oder Alternativhypothese ausfällt, wird entsprechend ein Fehler ausgeschlossen. Entscheidet man sich also für das Zurückweisen der Nullhypothese, ist es nur noch möglich, dabei den Fehler 1. Art zu begehen. Wird die Nullhypothese nicht zurückgewiesen, kann man entsprechend nur den Fehler 2. Art begehen. Der Idealfall ist es natürlich, gar keinen Fehler zu begehen und die nichtzutreffende Nullhypothese zugunsten der Alternativhypothese zurückzuweisen. 205 5.2 Inferenzstatistik <?page no="206"?> Begründete Testhypothese über Zusammenhang in Grundgesamtheit Hypothesentest mit Stichprobe starker Zusammenhang schwacher/ kein Zusammenhang statistisch signifikant bei p ≤ .05 statistisch signifikant bei p ≤ .05 statistisch nicht signifikant bei p > .05 statistisch nicht signifikant bei p > .05 Annahme: „Nullhypothese H 0 “ ist wahr (kein Zusammenhang in der Grundgesamtheit) Das Testergebnis ist unwahrscheinlich. Das Testergebnis ist (zunehmend) wahrscheinlich. Das Testergebnis ist unwahrscheinlich. Das Testergebnis ist (zunehmend) wahrscheinlich. H 0 kann verworfen werden. H 0 kann nicht verworfen werden. H 0 kann verworfen werden  aber wie sinnvoll ist das Ergebnis? H 0 kann nicht verworfen nicht werden  darf aber auch nicht als bestätigt betrachtet werden. Stichprobengröße? Abbildung 11 | Entscheidungshilfe Signifikanztest 206 5 Die Analyse <?page no="207"?> Abbildung 11 veranschaulicht die unterschiedlich möglichen Varianten des Signifikanztests und seiner Ausgänge. Dabei wird die grobe Unterscheidung zwischen starkem und schwachem Zusammenhang in der Stichprobe vor‐ genommen, denn der Einbezug der eigentlichen Effektstärke (z. B. ein Korrelationskoeffizient), die nicht durch den Signifikanzwert ausgedrückt wird, ist bei der Interpretation der Ergebnisse sehr wichtig und sollte nicht vernachlässigt werden. Gerade in den Sozialwissenschaften kann in der Regel höchstens mit moderaten Effekten und Zusammenhängen gerechnet werden. Dazu kommt die Problematik, dass in kleineren Stichproben auch stärkere Zusammenhänge schwieriger das Signifikanzniveau von p < 0,05 erreichen, während selbst schwache Zusammenhänge in großen Stichpro‐ ben als statistisch signifikant und damit in vielen Fällen automatisch auch als relevant interpretiert werden. Warum das problematisch ist, wird im folgenden Abschnitt noch näher betrachtet. 5.2.2 Kritik am p-Wert Die zentrale Botschaft des vorherigen Abschnitts ist: je kleiner der p-Wert, desto unwahrscheinlicher ist es, dass die Teststatistik der Stichprobe beob‐ achtet worden wäre, wenn in der Grundgesamtheit eigentlich die Nullhy‐ pothese gültig ist. Je größer der p-Wert, desto eher ist der ermittelte Wert der Stichprobe mit der Annahme der Gültigkeit der Nullhypothese vereinbar. Daraus ergibt sich aber auch: Bei einem kleinen p-Wert sinkt die Wahr‐ scheinlichkeit, dass die Teststatistik beobachtet wird trotz wahrer Nullhy‐ pothese. Das heißt aber nicht, dass nicht eine Restwahrscheinlichkeit bleibt und man die Nullhypothese verwirft, obwohl sie trotzdem wahr ist. Gleichzeitig muss man sich klarmachen, dass die Festlegung des Grenz‐ werts von p < 0,05 im Prinzip willkürlich ist, aber weitreichende Konsequen‐ zen hat. Viel zu oft wird dieser Wert als strikte Regel ausgelegt. Werte größer als p < 0,05 werden als nicht signifikant abgetan und im schlimmsten Fall gar nicht berichtet (siehe Exkurs). Dabei ist der p-Wert beispielsweise auch stark abhängig von der Größe der Stichprobe. So kann es leicht passieren, dass schwache Zusammenhänge bei großen Stichproben einen hohen Signifikanzwert erreichen, starke Effekte in kleineren Stichproben aber nicht. Eine Betrachtung der Effektstärke in Zusammenhang mit den ursprünglichen Modellannahmen sowie der Stichprobengröße sollte daher wichtiger sein als die strickte Fixierung auf das Überschreiten des willkürlich festgelegten Schwellenwerts von p < 0,05. 207 5.2 Inferenzstatistik <?page no="208"?> Viel zu oft schwingt bei der dichotomen Einteilung in „signifikant“ und „nicht signifikant“ auch die Konnotation von „relevant“ bzw. „nicht relevant“ mit. Dabei macht man es sich in der Regel zu einfach, wenn man automatisch annimmt, dass ein Zusammenhang oder ein Effekt existiert, nur weil er statistisch signifikant war. Und selbstverständlich auch im umgekehrten Fall: wenn man annimmt, dass ein Zusammenhang oder ein Effekt nicht vorhanden ist, nur weil er statistisch nicht signifikant war. Vor diesem Hintergrund ist es umso wichtiger, sämtliche Schlüsse über die wissenschaftliche und praktische Bedeutung von Effekten und Zusammenhängen genau zu prüfen, insbesondere wenn sie auf der Feststel‐ lung statistischer Signifikanz in diesem klassischen Sinne getroffen werden worden sind. Exkurs | Fragwürdige wissenschaftliche Praxis Die starke Konzentration auf die Signifikanz von Ergebnissen ruft in‐ nerhalb der wissenschaftlichen Gemeinschaft vermehrt Kritik hervor, vor allem weil immer wieder auch problematische Entwicklungen zu verzeichnen sind, die mindestens als fragwürdig, wenn nicht sogar unzulässig gewertet werden können. Wissenschaftsethisch hoch problematisch ist beispielsweise der soge‐ nannte Publikations-Bias - eine Verzerrung der veröffentlichten Ergebnisse zugunsten signifikanter Ergebnisse. Das heißt, dass die Wahrscheinlichkeit, signifikante Ergebnisse zur Veröffentlichung in einer Fachzeitschrift zu bringen, deutlich höher ist als für nicht signi‐ fikante Ergebnisse. Das beginnt schon beim Einreichverhalten, denn nicht signifikante Ergebnisse werden seltener bei Fachzeitschriften eingereicht. Allerdings werden nicht signifikante Ergebnisse im Zuge des Review-Prozesses auch häufiger abgelehnt. Der Grund dafür liegt in der weit verbreiteten (vielleicht oft auch unbewussten) Einstellung, dass nicht signifikante Ergebnisse keinen Beitrag zur Literatur- und Theorieentwicklung leisten. Der Effekt verstärkt sich dadurch, dass die Anzahl von Publikationen in hochrangigen Fachzeitschriften eine sehr zentrale Währung im Wissenschaftsbetrieb darstellen. Sowohl bei der Vergabe von Stellen als auch bei Fördermitteln sind einschlägige Publikationen ein wichtiges Kriterium, weshalb der Antrieb hier für Forschende hoch ist, Entsprechendes vorweisen zu können. 208 5 Die Analyse <?page no="209"?> Warum das aber problematisch ist, ergibt sich aus der Grundlogik des Signifikanztests. Wenn die gleiche Untersuchung eines Zusammen‐ hangs 100-mal in unterschiedlichen Stichproben der gleichen Grund‐ gesamtheit durchgeführt wird, dann werden 5 % der Untersuchungen signifikante Ergebnisse auch dann erzeugen, wenn der Zusammenhang in der Grundgesamtheit nicht besteht. Wenn es nun aber diese 5 Un‐ tersuchungen mit signifikanten Ergebnissen sind, die es aufgrund des Publikations-Bias zur Veröffentlichung schaffen, während die anderen 95 Untersuchungen in den Schubladen der Forschenden verschwinden, entsteht ein massiv verzerrtes Bild und es wird ein Zusammenhang angenommen, der gar nicht existiert. Weil veröffentlichte Forschung dann auch als Ausgangspunkt für weitere Forschung und die Theorie‐ entwicklung dient, reproduziert sich das Problem im Weiteren. Dabei kann es umgekehrt für die Theorieentwicklung natürlich auch wertvoll zu wissen sein, dass bestimmte Zusammenhänge nicht existieren. Eine Form des Publikations-Bias ist der Reporting-Bias. In der Re‐ gel werden im Rahmen einer Studie unterschiedliche Berechnungen durchgeführt. Um die Publikationschancen zu erhöhen, werden oft dann aber nur die Ergebnisse im Fachartikel dargestellt, die signifikante Effekte hervorgebracht haben, während die anderen verschwinden. Auch dies führt dazu, dass kein umfängliches Bild von Zusammenhän‐ gen entstehen kann. Um das Ergebnis teils monatelanger oder sogar jahrelanger Arbeit nicht in der Schublade verschwinden lassen zu müssen, sind Forschende aufgrund des Publikations-Bias oftmals getrieben, eben doch signifi‐ kante Ergebnisse vorzuweisen. Solche (mehr oder weniger bewusst und absichtsvoll) zu erzeugen, nennt man p-hacking. Dabei wird aus der vielfältigen Reihe der möglichen Auswertungsmethoden diese gewählt, die tatsächlich auch signifikante Ergebnisse liefert. Auch hat beispielsweise der Ausschluss oder Einbezug von Drittvariablen Einfluss auf untersuchten Effekt. Die Wahl der möglichen Einfluss‐ faktoren sollte im statistischen Prozess bereits in der Planung und Theorieentwicklung erfolgen. Ist dies nicht der Fall, ist die Gefahr ungleich höher, Scheinkorrelationen auf den Leim zu gehen. Gleiches gilt für den noch extremeren Fall des sogenannten HARKing, das für „Hypothesizing After Results are Known“ steht und die Dar‐ stellung explorativer Forschung als konfirmatorische (hypothesenteste) Forschung beschreibt. Das wiederum heißt, dass zu datenbasierten (signi‐ 209 5.2 Inferenzstatistik <?page no="210"?> fikanten) Ergebnissen nachträglich Hypothesen formuliert und begründet werden. Testet man alles mit allem in einem Datensatz, dann wird es au‐ tomatisch an Stellen zu signifikanten Ergebnissen kommen. Werden diese nachträglich plausibilisiert und als aus der Theorie hergeleitet dargestellt, grenzt dies bereits stark an wissenschaftliches Fehlverhalten. Das Problem ist aber auch, dass Methoden des theorie- und hypothesenfreien Testens im Zeitalter von Big Data und Data Science/ Data Analytics weitere Verbreitung finden. Und ist ein Zusammenhang erstmal entdeckt, lässt sich für alles eine Erklärung finden, was aber lange nicht heißen muss, dass es nicht auch plausible alternative Erklärungen gibt. Die Gefahr, Scheinkorrelationen zu plausibilisieren, steigt entsprechend. Erst nach Zusammenhängen zu suchen, um im Nachhinein eine Erklärung dafür zu liefern, davor müssen sich selbstverständlich auch Datenjournalist: innen in Acht nehmen. Die Versuchung ist groß, die Gefahr statistischen Artefakten aufzusitzen aber auch! 5.2.3 Die Gegenbewegung: Open Science Das Bewusstsein für die oben beschriebenen Schieflagen im Wissenschafts- und Publikationsbetrieb steigt. Ansätze, dem entgegenzuwirken, finden sich zum Beispiel im Rahmen von Open Science Prozessen. Dahinter ver‐ bergen sich Versuche, den gesamten wissenschaftlichen Erkenntnisgewinn transparenter und zugänglicher zu gestalten. Um das Vertrauen in die Wissenschaft zu stärken, wird dabei nicht allein auf Expertise und Erfahrung gepocht, sondern offengelegt, wie wissenschaftliche Arbeit im Einzelnen vonstattengeht, indem zum Beispiel die Prozessschritte offengelegt werden. Dies ermöglicht dann beispielsweise auch die Reproduktion von Studien, die in vielen Disziplinen nach wie vor vernachlässigt ist. Zur Agenda einer solchen Open Science Bewegung gehört zum Beispiel die Praxis, Daten, zugrundeliegendes Material (Fragebögen, Codebücher, Laboranweisungen etc.) sowie den Code der Analysen offenzulegen. Dies ermöglicht nicht nur eine Öffnung für Kritik, sondern es ergeben sich für Forschende hieraus nochmal mehr Ressourcen, aus denen geschöpft werden kann, um aus den Erfahrungen anderer zu lernen. Eine weitere Forderung umfasst die Ausweitung der Vorregistrierung von Studien (auf Englisch: preregistration), sodass nicht erst fertige Ergebnisse eingereicht werden, sondern Studien bereits in der Phase der Konzeption der wissenschaftlichen 210 5 Die Analyse <?page no="211"?> Gemeinschaft vorgestellt und zur Prüfung vorgelegt werden. Wenn die Anlage der Studie als plausibel und qualitativ hochwertig akzeptiert wird, soll die dann unabhängig von den hervorgebrachten Ergebnissen auch publiziert werden. Dadurch ließe sich vor allem das Problem des HARKing minimieren, weil alle Annahmen im Vorfeld sauber dargelegt und hergeleitet sein müssen. Außerdem nimmt es den Anreiz des p-hacking, wenn die Publikation sichergestellt ist und die Annahmen von der Fachcommunity bereits abgesegnet worden sind. Der Erkenntnisgewinn von nichtexistier‐ enden Zusammenhängen ist in diesem Fall umso größer. Der Anspruch vieler Datenjournalist: innen geht in eine ähnliche Richtung. Zugriff zu Daten zu haben - seien es Forschungsdaten oder von staatlichen Einrichtungen - vereinfacht die journalistische Kontrollfunktion, denn so können Qualität und Berechnungen eigenständig überprüft, nachvollzogen bzw. durchgeführt werden. Immer häufiger stellen auch Datenjournalist: innen den Hintergrund ihrer Arbeit (auf teilweise separaten Plattformen) da, teilen Daten und Code, um Transparenz über ihre Arbeit herzustellen. 5.3 Weitere Analyseverfahren Der folgende Abschnitt gibt einen Überblick über weitere multivariate Analysefahren, die sowohl im Bereich der deskriptiven Statistik als auch der Inferenzstatistik angewendet werden können. In den seltensten Fällen werden Journalist: innen diese Art der Analyseverfahren selbst durchführen (müssen). Ziel der folgenden Seiten soll es darum eher sein, ein grobes Verständnis für die unterschiedlichen Möglichkeiten zu vermitteln, um beispielsweise in vorliegenden Auswertungen und Studien zu verstehen, was gemacht wurde. Erläuterungen zu der konkreten Durchführung und Details den zu beachtenden Voraussetzungen würden an dieser Stelle zu weit führen. Die kommentierte Literaturliste am Ende des Kapitels gibt aber Hinweise auf Lehr- und Fachliteratur, die gegebenenfalls für die eigene Durchführung behilflich sein kann. 5.3.1 Mittelwertvergleiche Unterschiede zwischen verschiedenen Gruppen können die Grundlage für ein Forschungsinteresse und gegebenenfalls auch für ein statistisches Pro‐ blem bilden. Wie bewerten beispielsweise die Wähler: innen der CDU die 211 5.3 Weitere Analyseverfahren <?page no="212"?> Leistung von Kanzlerin Angela Merkel im Vergleich zu Wähler: innen der Grünen? Schätzen Menschen mit Kindern die Verkehrssicherheit in ihrer Nachbarschaft anders ein als Menschen ohne Kinder? Sind Leute kurz vor oder kurz nach ihrem Eintritt in die Rente zufriedener? Die Feststellung, dass es Unterschiede gibt, regt zum Vergleich an. Mithilfe der oben beschriebenen Maße der zentralen Tendenz, insbesondere des Mittelwertes, lassen sich Gruppen hinsichtlich ihrer Unterschiede charakterisieren. Wird ein solcher Mittelwertvergleich anhand von Daten einer Stichprobe vorgenommen, stellt sich die zusätzliche Frage, ob der gefundene Unterschied auch statistisch signifikant ist. Das bedeutet, ob dieser Unterschied auch in der Grundgesamtheit tatsächlich existiert und entsprechend von null verschieden ist. Mittelwerte im Hinblick auf statistische Signifikanz zu vergleichen ist mit einigen zu treffenden Entscheidungen verbunden, die auch in den Abbildungen 12 und 13 illustriert sind. Die Voraussetzung für die sogenannten parametri‐ schen Mittelwertvergleiche ist das Vorliegen metrischer und normalverteilter abhängiger Variablen. Zur Überprüfung dieser Voraussetzung müssen die abhängigen Variablen zuerst einer Analyse auf Normalverteilung unterzogen werden. Dies geschieht üblicherweise mit einem Chi-Quadrat-Test für grö‐ ßere Fallzahlen oder dem Kolmogorov-Smirnov-Test für kleinere Fallzahlen. Mithilfe von Statistikprogrammen lassen sich die entsprechenden Kennwerte berechnen. Werden diese als nicht signifikant ausgegeben, bedeutet dies, dass sich die gegebene Verteilung nicht signifikant von einer Normalverteilung un‐ terscheidet. (Zur Berechnung mit der dazugehörigen Formel sei das Lehrbuch von Heimsch, Niederer und Zöfel (2018) empfohlen. Das gilt ebenso für die Ausführungen in den folgenden Absätzen, die die ausführlichen Berechnungen ebenfalls zugunsten des allgemeinen Verständnisses aussparen.) Ist die Normalverteilung gewährleistet, muss im Folgenden festgestellt werden, ob die zu vergleichenden Gruppen aus abhängigen (oder auch ver‐ bundenen) Stichproben oder einer unabhängiger Stichprobe entstammen. Entsprechend müssen unterschiedliche Auswertungen erfolgen. Abhängig sind Stichproben, wenn sie die gleichen Fälle zu unterschiedlichen Zeit‐ punkten enthalten, z. B. bei Längsschnitt- und Panelstudien, bei denen dieselben Fälle (Personen) mehrfach zu unterschiedlichen Zeitpunkten be‐ fragt werden. Unabhängig sind Stichproben entsprechend, wenn sie nicht aus denselben Fällen bestehen, also zum Beispiel Gruppen innerhalb einer Stichprobe aus einer Querschnittstudie untersucht werden. Darüber hinaus ist es wichtig, ob zwei Gruppen oder mehr als zwei Gruppen verglichen werden sollen. Für zwei Gruppen wird ein t-Test verwendet; für mehr 212 5 Die Analyse <?page no="213"?> als zwei Gruppen die einfaktorielle Varianzanalyse (ANOVA). Die Abbildung 12 visualisiert den Entscheidungsprozess auf der Suche nach der richtigen Analysemethode. Mittelwertvergleich Für metrisch skalierte und normalverteilte Variablen abhängige Stichproben z.B. Messwiederholungen bei der gleichen Gruppen von Personen unabhängige Stichproben z.B. unterschiedliche Gruppen innerhalb einer Stichprobe 2 Gruppen 2 Gruppen mehr als 2 Gruppen mehr als 2 Gruppen t-Test für abhängige Stichproben t-Test für unabhängige Stichproben einfaktorielle Varianzanalyse (ANOVA) für Messwiederholungen einfaktorielle Varianzanalyse (ANOVA) Abbildung 12 | Entscheidungshilfe zur Durchführung von Mittelwertvergleichen bei me‐ trisch skalierten und normalverteilten Variablen Bei der Durchführung des t-Test zweier unabhängiger Stichproben muss in einem ersten Schritt betrachtet werden, ob sich die Varianzen der bei‐ den Stichproben signifikant unterscheiden oder ob Varianzhomogenität angenommen werden kann. Dies wird mithilfe eines Statistikprogramms zum Beispiel durch den Levene-Test der Varianzgleichheit vorgenommen (es gibt noch viele weitere Tests für die Varianzgleichheit, aber der Le‐ vene-Test ist einer der am häufigsten genutzten, weil dieser auch bei schlecht normalverteilten Werten unempfindlich ist). Dieser weist eine als F-Wert benannte Kennzahl aus, die in Kombination mit einer entsprechenden Zahl an Freiheitsgraden signifikant oder nicht signifikant sein kann. Ist der Wert nicht signifikant, kann von Varianzhomogenität angenommen werden. Ist der für den Gruppenvergleich eigentlich interessante t-Wert unter Berück‐ sichtigung der entsprechenden Freiheitsgrade signifikant, kann die Nullhy‐ pothese verworfen werden, dass sich die beiden untersuchten Gruppen nicht voneinander unterscheiden. Andersherum ausgedrückt: Ein signifikanter t-Wert verweist auf einen tatsächlich existierenden Unterschied zwischen den Gruppen. Dies gilt ebenso für den t-Test für abhängige Stichproben. 213 5.3 Weitere Analyseverfahren <?page no="214"?> Liegt Normalverteilung vor und sollen die Mittelwerte für mehr als zwei Gruppen verglichen werden, wird die einfaktorielle Varianzanalyse herangezogen. Auch für die einfaktorielle Varianzanalyse gilt, dass Varianz‐ homogenität über die Stichproben hinweg gegeben sein muss. Die durch die einfaktorielle Varianzanalyse ermittelte Prüfgröße F wird mit bei den entsprechenden Freiheitsgraden als signifikant angegeben, wenn sich die drei Gruppen signifikant voneinander unterscheiden. Allerdings geht aus diesem Test nicht hervor, welche Gruppen sich unterscheiden. Möglich wäre es bei drei Gruppen zum Beispiel, dass nur zwei sich signifikant voneinander unterscheiden, die dritte aber nicht. Um herauszufinden, zwischen welchen Gruppen ein signifikanter Unterschied besteht, wird ein sogenannter Post-hoc-Test benötigt. Mit diesen Post-hoc-Tests werden paarweise Vergleiche vorgenommen. Dabei gibt es wieder eine Reihe von Möglichkeiten, je nachdem ob die Gruppen zum Beispiel gleich groß sind und ob Varianzgleichheit vorliegt oder nicht. Die nachfolgende Tabelle basiert auf Empfehlungen von Field (2018): Stichprobeneigenschaften Post-hoc-Test Gleiche Varianzen und gleiche Fallzahl Q nach R-E-G-W Gleiche Varianzen und leicht unterschiedliche Fallzahl Gabriel Gleiche Varianzen und stark unterschiedliche Fallzahl GT2 nach Hochberg Ungleiche Varianzen (gleiche oder ungleiche Fallzahl) Games-Howell Tabelle 15 | Empfehlungen Post-hoc-Tests Häufig genutzt wird aber beispielsweise auch der Scheffé-Test, um nicht nur paarweise Vergleiche durchzuführen, sondern alle möglichen linearen Kombinationen von Gruppenmittelwerten zu untersuchen. Der große Vor‐ teil des Scheffé-Tests ist seine relative Robustheit gegenüber Verletzungen der Voraussetzungen. Allerdings gilt er auch als konservativer Test, das heißt, dass Signifikanz wird eher schwerer erreicht. Hat der Test auf Normalverteilung der Werten ergeben, dass diese nicht angenommen werden kann, muss zu einem der sogenannten nicht parame‐ trischen Tests gegriffen werden. Da diese im Großen und Ganzen vorausset‐ zungfrei angewendet werden können, lassen sie sich prinzipiell auch dann verwenden, wenn Normalverteilung und Varianzhomogenität angenommen 214 5 Die Analyse <?page no="215"?> werden können. In diesem Fall würden die nichtparametrischen Tests gegebenenfalls etwas ungenauer sein. Können Forschende dieses Risiko nach Abwägung eingehen, verringern sie auf der anderen Seite gleichzeitig die Gefahr Fehler aufgrund fälschlich angenommener Normalverteilung einzugehen. Die Abbildung 13 gibt eine Übersicht über die Verwendung nichtparametrischer Tests. Generell gilt auch hier: Werden die Prüfzahlen dieser Tests als signifikant ausgewiesen, kann die Nullhypothese (keine Gruppenunterschiede) verworfen werden. Entsprechend unterscheiden sich die untersuchten Gruppen im Hinblick auf das jeweilige Merkmal tatsäch‐ lich. Mittelwertvergleich Für ordinal oder nicht-normalverteilte Variablen abhängige Stichproben z.B. Messwiederholungen bei der gleichen Gruppen von Personen unabhängige Stichproben z.B. unterschiedliche Gruppen innerhalb einer Stichprobe 2 Gruppen 2 Gruppen mehr als 2 Gruppen mehr als 2 Gruppen Wilcoxon-Test U -Test von Mann und Whitney Friedman-Test H -Test nach Kruskal und Wallis Abbildung 13 | Entscheidungshilfe zur Durchführung von Mittelwertvergleichen bei ordinal skalierten und nicht normalverteilten Variablen 5.3.2 Mehrfaktorielle Varianzanalyse Oben wurde bereits die einfaktorielle Varianzanalyse vorgestellt. Diese kommt zur Anwendung, wenn die Mittelwerte einer Variablen für mehr als zwei Gruppen verglichen werden sollen. Die Gruppenzugehörigkeit ist bei einem solchen Vergleich die unabhängige Variable. Möchte man zum Beispiel rausbekommen, ob sich das Einstiegsgehalt von Absolvent: innen dreier unterschiedlicher Studienfächer unterscheidet, dann ist das Studi‐ enfach die unabhängige Variable, das Einstiegsgehalt ist die abhängige Variable zur Berechnung der einfaktoriellen Varianzanalyse. Nun ist es denkbar, dass das Studiendesign um eine weitere unabhängige Variable 215 5.3 Weitere Analyseverfahren <?page no="216"?> erweitert wird. So kann neben dem Studienfach zum Beispiel auch das Geschlecht der Absolvent: innen als mögliche Erklärungsvariable für das Einstiegsgehalt in Betracht gezogen werden. In diesem Fall ließen sich die Variablenbeziehungen mit einer mehrfaktoriellen Varianzanalyse. Weil die Gruppen als unabhängige Variable in der Varianzanalyse auch als Faktoren bezeichnet werden und man mit dem Studienfach und dem Geschlecht zwei Faktoren in die Analyse einbeziehen würde, spricht man in diesem Fall eben von einer mehrfaktoriellen Varianzanalyse. Auch für die mehrfaktorielle Varianzanalyse gilt, dass die Voraussetzungen der Normalverteilung sowie der Varianzhomogenität gegeben sein sollten. Statistikprogramme würden bei der Durchführung der Analyse von Studienfach, Geschlecht und Einstiegsgehalt drei Prüfziffern für den soge‐ nannten F-Wert (mit den dazugehörigen Freiheitsgraden) heraus: jeweils einen für die beiden Haupteffekte, nämlich sowohl den Zusammenhang von Studienfach und Einstiegsgehalt als auch vom Geschlecht und dem Einstiegsgehalt. Ein dritter F-Wert wird der Interaktion von Studienfach und Geschlecht zugewiesen. Für jeden dieser Werte würde ein p-Wert für die Signifikanz angegeben. Würde es also beispielsweise allein einen signifikanten F-Wert für das Studienfach geben, bedeutet dies, dass sich die Einstiegsgehälter der Absolvent: innen der unterschiedlichen Fächer signi‐ fikant unterscheiden (ein Post-hoc-Test müsste Klarheit darüber schaffen, zwischen welchen Gruppen der Unterschied genau besteht). Das Geschlecht spielt dann offenbar keine Rolle. Gäbe es aber allein einen signifikanten Wert für das Geschlecht, dann wäre das Studienfach wiederum egal. Es ist aber auch möglich, dass Studienfach und Geschlecht gemeinsam eine Wechselwirkung eingehen. Vielleicht verdienen zum Beispiel die Frauen eines bestimmten Studiengangs signifikant mehr. Im Beispiel mit Studienfächern und Geschlecht gibt es - wie gesagt - zwei Faktoren. Es ergeben sich entsprechend sechs (wenn Geschlecht binär definiert ist) oder sogar neun (wenn das dritte Geschlecht einbezogen wird) Kombinationen in diesem Untersuchungsdesign. Theoretisch ist die Anzahl der Faktoren für die Durchführung der mehrfaktoriellen Varianzanalyse un‐ begrenzt. Allerdings sollte gewährleistet werden, dass alle Kombinationen auch mit genügend Fällen hinterlegt sind. Außerdem kann die sich aus einer Vielzahl von Faktoren eine große Menge an Wechselwirkungen ergeben, was gegebenenfalls schnell unübersichtlich werden kann. 216 5 Die Analyse <?page no="217"?> 35 Studien zu Folgekosten unzureichender Bildung zum Beispiel Piopiunik, M., & Wöß‐ mann, L. (2010); Allmendinger, J., Giesecke, J., & Oberschachtsiek, D. (2011). 5.3.3 Regression Lineare Regression Das Interesse daran, wie Merkmale zusammenhängen - vor allem wie sich das Vorkommen oder die Ausprägung bestimmter Merkmale erklären lassen - ist groß. Mit der Korrelation wurden bereits wichtige Basics zur Betrachtung solcher Fragen behandelt. Oft geht das Interesse aber sogar noch einen Schritt weiter. Ziel ist es dann, Vorhersagen machen darüber machen zu können, wie die Ausprägung eines Merkmals zu erwarten ist, wenn ein oder mehrere andere Merkmale bekannt sind. Hier kommt die Regression ins Spiel, deren grundlegende Idee darin besteht, aus den bekannten Zusammenhängen (einer früheren Datenerhebung) auf die Zukunft zu schließen, und zwar auf Basis der Analyse einer gerichteten Beziehung zwischen (in der Regel) zwei metrischen Variablen. Der Ausdruck „gerichtete Beziehung“ weist dabei darauf hin, dass hierbei eine Ursache-Wirkungsbeziehung angenommen wird - die natürlich theoretisch begründet und plausibel sein sollte. Die einfachste Variante dieses Analyseverfahrens besteht dann aus der Regression einer abhängigen Variable y auf eine unabhängige Variable x. Es wird also eine Ursache x mit einer Wirkung auf y angenommen. Man sagt auch: y regressiert auf x, d. h. y wird auf x zurückgeführt. Ziel der Analyse ist es, eine Verbesserung der Vorhersagequalität der abhängigen Variable y zu erreichen, wenn Informationen über die unabhängige Variable x herangezogen werden. Wenn beispielsweise aus früheren Erhebungen bekannt ist, dass es einen starken Zusammenhang gibt zwischen der Anzahl der Schulabbrecher: innen (in diesem Fall die unabhängige Variable x) in einer Kommune und den zu leistenden Sozialausgaben der Kommune einige Jahre später (z. B. Wohn‐ geld, Hilfen zur Erziehung, Suchtberatung; in diesem Fall die abhängige Variable y), dann kann das der Kommune, erstens, Anreiz bieten politische Maßnahmen zur Verringerung der Schulabbrecher: innen-Quoten einzufüh‐ ren, um zukünftige Kosten zu sparen. Aber zweitens kann die Kommune das Wissen über diesen Zusammenhang auch für die mittel- und längerfristige Haushaltsplanung nutzen, wenn mithilfe der Daten zum Beispiel voraus‐ gesagt werden kann, dass jede: r Schulabbrecher: n durchschnittlich einen bestimmten Betrag an Folgekosten bedeutet. 35 217 5.3 Weitere Analyseverfahren <?page no="218"?> Um zu einer solchen Vorhersage zu kommen, wird im Zuge der Regres‐ sionsanalyse eine Gerade durch die „Wolke“ der Datenpunkte gesucht, die diese Punktwolke am besten repräsentiert. Aber was heißt das? Diese gesuchte Gerade repräsentiert die Punktwolke dann am besten, wenn sie den kleinst-möglichen Abstand zu allen Punkten hat. Man nennt diese gesuchte Linie dann auch Regressionsgerade. Sie wird beschrieben durch die Funktion y = a +bx. Dabei ist y die abhängige Variable (die vorhergesagt werden soll) und x ist die bekannte unabhängige Variable. Mit den Parametern a für den Achsenabschnitt, an dem der Grad die y-Achse schneidet, und b für die Steigung der Gerade, ergibt sich für jedes x ein eindeutiges y. Zur Veranschaulichung; Der Scatterplot aus Abbildung 14 ist uns bereits bekannt und zeigt für jedes Mitglied des vierten Kabinetts von Kanzlerin Angela Merkel den Zusammenhang von Alter und Dauer der Parteimitglied‐ schaft. Neu in der Grafik ist die durch die Datenpunkte verlaufende Gerade. Diese repräsentiert die Regressionsgerade und ist damit die eine Linie, die zu allen Datenpunkten den kleinsten möglichen Abstand hat. Denn: Nur der kleinstmögliche Abstand zu allen Punkten kann auch die treffsichersten Vorhersagen machen. Merkel Seehofer Altmaier Müller Lambrecht Heil Spahn Scheuer Braun Scholz Klöckner Karliczek Kramp-Karrenbauer Maas Schulze Giffey 0 10 20 30 40 50 60 0 10 20 30 40 50 60 70 80 Parteimitgliedschaft (in Jahren) Alter Abbildung 14 | Scatterplot zum Zusammenhang von Alter und Dauer der Parteimitglied‐ schaft (in Jahren) mit Regressionsgerade. Hinweis: R 2 linear = 0,69 218 5 Die Analyse <?page no="219"?> Dieser kleinstmögliche Abstand wird über die Summe der Abstandsquadrate ermittelt - auch bekannt als Methode der kleinsten Quadrate oder Englisch ordinary least squares, weshalb man oft auch den Begriff der OLS-Regression liest. Für das Beispiel lautet die Regressionsgerade y = − 16, 19 + 0, 9x Ist nun also das Alter einer Person bekannt, lässt sich damit die Dauer ihrer Parteimitgliedschaft schätzen. Kennen wir beispielsweise das Alter von Andreas Scheuer (46 Jahre im Jahr 2020), können wir mithilfe der Regressionsgerade die Dauer seiner Parteimitgliedschaft schätzen: y = − 16, 19 + 0, 9 * 46 y = 25, 21 Für Horst Seehofer gilt: y = − 16, 19 + 0, 9 * 71 y = 47, 71 Und für Franziska Giffey: y = − 16, 19 + 0, 9 * 42 y = 21, 61 Tatsächlich sind uns für diesen Datensatz die Werte für y bekannt. Andreas Scheuer ist im Jahr 2020 26 Jahre Mitglied seiner Partei, Horst Seehofer 46 Jahre und Franziska Giffey 13 Jahre. Wir begehen also streng genommen einen Fehler, denn das errechnete Ergebnis stimmt eben nur fast mit dem empirischen Wert überein. Daraus wird bereits ersichtlich, warum mit der Regressionsgerade lediglich eine Schätzung abgegeben werden kann. Diese Schätzung wird besser, also genauer sein, je stärker der beobachtete Zusammenhang ist, denn je stärker der Zusammenhang, desto näher werden auch die Datenpunkte an der Regressionsgeraden dran liegen. Einen „Restabstand“ zwischen jedem Punkt und der Geraden wird es praktisch aber immer geben. Außer bei einem perfekten Zusammenhang (einer Korrelation von +1 oder -1), trifft die Gerade in der Regel nicht alle Punkte genau. Dieser verbleibende Abstand zwischen den Datenpunkten und der Regressionsgeraden wird Residuum genannt. Die Regressions‐ gerade ist allerdings immer die bestmögliche aller Schätzungen, die die kleinstmögliche Summe der Residuen erzeugt und damit die Abstände der Gerade zu den Punkten möglichst geringhält. Innerhalb der Regressionsgleichung ist es insbesondere die Steigung, der noch genauere Aufmerksamkeit geschenkt werden sollte. Diese Steigung nennt man Regressionskoeffizient und sie stellt den Wert da, um den y steigt, wenn der Wert für x um 1 erhöht wird. Im Beispiel mit dem Regressi‐ onskoeffizienten 0,9 bedeutet das also: Mit jedem Jahr Alterszuwachs, steigt die Dauer der Parteimitgliedschaft um 0,9 Jahre. Ist der Regressionskoeffi‐ zient positiv, handelt es sich um eine positive Steigung, also steigt y wenn 219 5.3 Weitere Analyseverfahren <?page no="220"?> x um 1 steigt. Bei einem negativen Regressionskoeffizienten sinkt y, wenn x um 1 steigt. Ist die Steigung 0 hat x keinen Effekt auf y. Ein weiterer Koeffizient spielt zum Verständnis einer Regression eine wichtige Rolle: der Determinationskoeffizient R 2 . Dieser misst die Ver‐ besserung der Vorhersage durch die Regressionsgerade als Anteil der auf‐ geklärten Abstandsquadrate. Dieser Anteil entspricht der erklärten Varianz an der Gesamtvarianz und wird in Prozent angegeben. Mit einem Statistik‐ programm berechnet, beträgt im Kabinett-Beispiel R 2 = 0,693, entsprechend kann mit der Regression 69,3 % der Varianz erklärt werden. Gleichzeitig gibt der Determinationskoeffizient damit auch Stärke des statistischen Zusammenhangs an: Je näher die Datenpunkte an der Geraden liegen, desto größer R². Multiple Regression Der vorherige Textabschnitt erklärt die Grundlagen der linearen Regression am Beispiel mit zwei Variablen - eine unabhängige Variable x und eine anhängige Variable y. Tatsächlich kann die Regression noch mehr! Mit der multiplen Regression kann der gerichtete Einfluss gleich mehrerer unabhän‐ giger Variablen auf eine abhängige Variable betrachtet werden. Grundvor‐ aussetzung dafür ist, dass eine theoriegeleitete Auswahl von unabhängigen Variablen zugrunde liegt, von denen erwartet wird, dass sie Einfluss auf eine abhängige Variable haben. Eine solche begründete Auswahl sowie die angenommenen Zusammenhänge werden auch als Modell bezeichnet, das getestet werden soll. Die abhängige Variable in einem solchem Modell muss für die multiple Regression ein metrisches Skalenniveau aufweisen. Die unabhängigen Variablen können metrisch, quasi-metrisch (zum Beispiel nach der Indexbildung mit ordinalen Variablen) oder sogar dichotom (also nominal mit lediglich zwei Ausprägungen) sein. Auch hier gilt das Prinzip: Es soll eine Regressionsgleichung gefunden werden, die den kleinsten Abstand zu allen Datenpunkten aufweist (Methode der kleinsten Quadrate). Die Regressionsgleichung wird damit etwas komplexer als im Beispiel oben, aber nicht unbedingt komplizierter: y = a + b 1 x 1 +b 2 x 2 + … + b n x n Auch hier soll das Ergebnis ein Vorhersagewert für y sein, der sich zusam‐ mensetzt aus der Konstanten a (dem Wert, an dem die Gerade die y-Achse schneidet), sowie einer zu jeder unabhängigen Variablen zugeordneten Steigung b. Diese „b“-Werte sind nun partielle Regressionskoeffizienten, 220 5 Die Analyse <?page no="221"?> was bedeutet, dass sie unter rechnerischer Kontrolle der übrigen unabhän‐ gigen Variablen zustande gekommen sind. Bei dichotomen Variablen (Variablen mit genau zwei Ausprägungen) liest sich der Regressionskoeffizient dabei im Vergleich der einen Ausprä‐ gung zu einer anderen. Wenn beispielsweise die Kategorie „Geschlecht“ allein in der dichotomen Variante männlich/ weiblich aufgenommen wird, ist die gängigste Variante sich für eine Ausprägung zu entscheiden und beim Vorkommen dieser Ausprägung die Kodierung „1 = vorhanden“ vorzuneh‐ men. So könnten beispielsweise alle Frauen einer Befragung bei der Varia‐ blen „Geschlecht“ die Ausprägung „1 = vorhanden“ für weiblich, alle Männer die Ausprägung „0 = nicht vorhanden“ für nicht weiblich zugeschrieben bekommen. Wird die Variable Geschlecht dann in die Regressionsgleichung aufgenommen, ist der Regressionskoeffizient zu verstehen als der Unter‐ schied zwischen beiden Ausprägungen und nicht als absoluter Anstieg. Möchte man eine nominale Variable mit mehr als zwei Ausprägungen in die Regression einfließen lassen, ist auch das möglich, indem alle Ausprägungen in sogenannte Dummy-Variablen umgewandelt werden. Aus einer Varia‐ blen entstehen dabei mehrere Variablen - so viele wie die ursprüngliche Variable Ausprägungen hatte. Ist das Geschlecht beispielsweise mit den Ausprägungen männlich/ weiblich/ divers operationalisiert worden, werden nun drei Variablen erstellt: eine Variable „männlich“, eine Variable „weib‐ lich“ und eine dritte Variable „divers“. Alle drei Variablen werden jeweils mit den Ausprägungen „0 = nicht vorhanden“ und „1 = vorhanden“ kodiert. In die Regression werden dann nur zwei der drei Variablen aufgenommen. Die dritte Variable wird automatisch zur Referenzvariablen, zu der die anderen beiden Variablen verglichen werden. Welche diese Referenzvariable ist, sollte in der Ergebnisdarstellung notiert werden. Zu beachten ist, dass Regressionskoeffizienten nicht dimensionslos sind, was bedeutet, dass sie in der Einheit der Variable ausgedrückt sind, mit der gerechnet wurde. Das macht den einzelnen Regressionskoeffizienten intui‐ tiv interpretierbar, denn mit jedem Anstieg von x verändert sich y um den Koeffizienten in der ursprünglichen Einheit von x. War x also beispielsweise eine Angabe in Jahren, dann ist auch die Änderung in Jahren interpretierbar. Das bedeutet aber auch, dass der Koeffizient zum Beispiel deutlich größer würde, wenn die Angabe von y in Tagen statt Jahren erfolgt wäre. Der eigentliche Wert für y ist dann zwar der gleiche, weil aber die Einheit eine andere ist, wird auch der Koeffizient ein anderer sein. Das macht Regressi‐ onskoeffizienten untereinander deutlich schwerer vergleichbar. Hier wird 221 5.3 Weitere Analyseverfahren <?page no="222"?> Abhilfe geschaffen durch die Standardisierung der Koeffizienten. Mithilfe standardisierter Regressionskoeffizienten lassen sich die Effektstärken der unabhängigen Variablen vergleichbar machen. Sie werden auf Basis des partiellen Regressionskoeffizienten sowie den Standardabweichungen der unabhängigen Variablen x sowie der Standardabweichung der abhängigen Variable y nach folgender Formel berechnet: Standardisierter Regressionskoeffizient = partieller Regressionskoeffizient • Standardabweichung der UV Standardabweichung der AV Mit der so gewonnenen Vergleichbarkeit geht allerdings der Verlust der Interpretierbarkeit einher, weil die ursprüngliche Einheit der Variable zum Zwecke der Vergleichbarkeit herausgerechnet wird. Deshalb werden bei der Ergebnisdarstellung einer Regression immer nicht standardisierte und stan‐ dardisierte Koeffizienten gemeinsam angegeben. Der nicht standardisierte Wert wird in der Regel mit „B“ bezeichnet, der standardisierte Wert mit „Beta“. Das folgende Beispiel dient der Illustration der Ergebnisdarstellung einer linearen multiplen Regression (Tabelle 6). Wie lange jemand bereits Mitglied der Bundesregierung ist, soll erklärt werden durch das Alter, die Dauer der Parteimitgliedschaft sowie die Dauer der Mitgliedschaft im Deutschen Bundestag. Die abhängige Variable steht in der Regel in der Überschrift der Tabelle (oder ersten Zeile), die unabhängigen Variablen in der ersten Spalte. Dazu kommen die Angaben zu den nicht standardisierten Regressi‐ onskoeffizienten B und dazugehörigem Standardfehler SD sowie die der standardisierte Koeffizient Beta. In diesem Beispiel ist das Signifikanzniveau p in einer eigenen Spalte angegeben. Oft sieht man allerdings auch die Markierung des Koeffizienten mit Sternen je nachdem ob p<,001 (***), p<,01 (**) oder p<,05 (*). In der multiplen Regression werden die in das Modell einfließenden unabhängigen Variablen kontrolliert, das heißt, die Effekte der einen Varia‐ blen werden aus den Effekten der anderen Variablen herausgerechnet. Oft entscheiden sich Forschende bei der Betrachtung der Variablen schrittweise vorzugehen und nicht alle möglichen unabhängigen Variablen gleichzeitig in die Berechnung einfließen zu lassen. In einzelnen Berechnungen werden dann Gruppen von (plausibel zusammenhängenden) Variablen einbezogen. In der Ergebnisdarstellung erscheinen schließlich unterschiedliche Modelle zur Erklärung der abhängigen Variablen, die schrittweise mehr unabhängige 222 5 Die Analyse <?page no="223"?> Variablen mit den entsprechenden Koeffizienten ausweisen. Forschende sollten dann nicht nur eine plausible Begründung für diesen schrittweisen Aufbau der Modelle vorlegen, sondern auch sinnvolle Interpretationen an‐ bieten, unter welchen Bedingungen das eine dem anderen Erklärungsmodell vorzuziehen ist. Dauer der Mitgliedschaft in der Bundesregie‐ rung B SD Beta p Alter ,79 ,13 1,33 ,00 Dauer der Parteimit‐ gliedschaft -,56 ,12 -1,02 ,00 Dauer der Mitglied‐ schaft im Deutschen Bundestag ,19 ,07 ,38 ,02 Konstante -22,9 4,49 R 2 ,83 Tabelle 16 | Beispiel für eine multiple lineare Regression Die Zusammenstellung jedes einzelnen Modells sollte dabei gut durchdacht und begründet sein. Alle möglichen unabhängigen Variablen einzubeziehen, ist nicht sinnvoll. Nicht nur, weil die hier schon häufiger betonte Gefahr der Scheinzusammenhänge steigt, sondern auch weil die Wahrscheinlichkeit größer wird, gegen wichtige für die lineare Regression geltende Vorausset‐ zungen zu verstoßen und damit Ergebnisse zu verzerren. Vor der Durchfüh‐ rung einer linearen Regressionsanalyse müssen daher Voraussetzungen überprüft werden, um verlässliche Ergebnisse zu produzieren: ■ Linearität: Zuerst sollte für alle unabhängigen Variablen überprüft werden, ob der Zusammenhang zur abhängigen Variablen tatsächlich linear ist und nicht etwa kurvenförmig wie im Beispiel zunehmender Gedächtnisleistung bis zu einem bestimmten Alter mit anschließendem erneutem Rückgang der Leistung bei weiter fortschreitendem Alter. ■ Multikollinearität: Die unabhängigen Variablen müssen daraufhin geprüft werden, wie stark sie miteinander korrelieren. Dies lässt sich mit 223 5.3 Weitere Analyseverfahren <?page no="224"?> einer Korrelationsmatrix überprüfen. Es gibt keinen festen Grenzwert, allerdings dürfen die Zusammenhänge nicht zu stark sein. ■ Varianzhomogenität der Residuen (auch: Homoskedastizität): Zur Gewährleistung einer einheitlich guten Voraussageleistung sollten die Residuen eine einheitliche Varianz haben. ■ Normalverteilung der Residuen: Arbeitet man im inferenzstatisti‐ schen Kontext, sollten die Residuen (der Abstand zwischen den Daten‐ punkten und der Regressionsgeraden) normalverteilt sein. ■ Residuen sollten unkorreliert sein: Dies kann vor allem bei Zeitrei‐ henanalysen und Klumpenstichproben zum Problem werden. Logistische Regression Die logistische Regression ist eine Form der multiplen Regression, bei der die abhängige Variable aber nicht intervallskaliert, sondern nominal oder ordinal ist. Bei einer solchen kategorialen abhängigen Variablen wäre bei der linearen Regression eine der wichtigsten Voraussetzungen verletzt, nämlich eben die, wie der Name schon sagt, dass die Beziehung zwischen unabhängiger und abhängiger Variabler linear ist. Um dieses Problem zu lösen, wird bei der logistischen Regression eine logarithmische Transformierung der Daten durchgeführt, mithilfe derer eine nicht lineare Beziehung als lineare Beziehung dargestellt werden kann. Dieser Vorgang hat allerdings Auswirkungen darauf, wie das Ergebnis zu interpretieren ist. Denn anders als bei der linearen Regression trifft die logistische Regression in der Folge dieser Transformation der Daten eine Vorhersage darüber, mit welcher Wahrscheinlichkeit ein Fall einer bestimmten Kategorie der abhängigen Variablen zugeordnet werden kann, wenn bestimmte andere Merkmale (intervall- oder nominalskaliert) bekannt sind. Die Wahrschein‐ lichkeit, an einer bestimmten Krankheit zu erkranken, wenn gewisse weitere Faktoren wie körperliche Merkmale, Alter, Geschlecht, Vorerkrankungen usw. bekannt sind, lässt sich beispielsweise mit der logistischen Regression ermitteln, was sie zu einem sehr wichtigen Werkzeug macht. Besteht die abhängige Variable aus zwei Ausprägungen (z. B. „krank“ und „gesund“) handelt es sich um eine binäre logistische Regression. Bei mehr Kategorien der unabhängigen Variablen spricht man von der multinomi‐ nalen (auch polytome oder polychotome) logistischen Regression. Ein wichtiger Wert bei der Interpretation logistischer Regressionen wird durch die relative Chance („odds ratio“) ausgedrückt. Diese stellt einen 224 5 Die Analyse <?page no="225"?> Indikator für die Veränderung der Chance auf das Eintreten eines Ereignisses (z. B. Vorkommen eines Merkmals) dar, wenn sich die unabhängige Variable um eine Einheit erhöht. Eine solche Chance ergibt sich aus dem Verhältnis der Wahrscheinlichkeit des Eintretens des Ereignisses zum Nichteintreten des Ereignisses. Ist der Wert dieses Chancenverhältnisses größer als 1, steigt die Chance, dass ein Ereignis eintritt mit Zunahme der unabhängigen Variablen. Ist der Wert kleiner 1, sinkt entsprechend die Chance. Ein zur Bewertung der Güte, d. h. der Vorhersagekraft eines logistischen Regressionsmodells herangezogenes Maß ist Nagelkerkes R 2 (auch Pseudo R 2 genannt), das im Wertebereich zwischen 0 und 1 liegen kann. Je größer der Wert, desto besser ist die Vorhersagekraft. Die Signifikanz der Passung eines Modells („model fit“) wird über die -2 log-likelihood Statistik in Kombination mit dem dazugehörigen Chi-Quadrat-Wert angegeben. Ist letzterer kleiner als ,05, wird ein signifikanter Fit des Modells angenommen. Mehrebenenanalyse (auch: Multilevelmodelle/ multilevel analysis) Diese besondere Form der Regression kann sowohl bei der linearen als auch der logistischen Regression zur Anwendung kommen. Die Besonderheit dieser Form ist die Berücksichtigung des Problems, dass Fälle eben oft doch nicht unabhängig voneinander sind. Im Gegenteil, nicht selten liegen Daten als hierarchische Daten vor, das heißt, Variablen sind eingebettet in höhere Ebenen. Bezogen auf die für die Regression gültigen Vorausset‐ zungen bedeutet das: Die Residuen solcher Fälle korrelieren miteinander und Fälle sind sich im Hinblick auf eine bestimmte abhängige Variable ähnlicher, weil sie eine gemeinsame unabhängige Variable verbindet. Die Gefahr, die als Konsequenz aus der Nichtbeachtung solcher Beziehungen entsteht, ist die Unterschätzung des Standardfehlers und damit eine Ver‐ zerrung von Ergebnissen insbesondere im Hinblick auf die Berechnung von Konfidenzintervallen und p-Werten. Letztere werden in der Folge eher zu niedrig geschätzt, was dazu führt, dass die Nullhypothese häufiger als statistisch erwartet zu Unrecht verworfen wird und Parameter vorschnell als „signifikant“ eingestuft werden. Die Matheleistungen der Schüler: innen einer Klasse können zum Beispiel abhängig sein von gemeinsamen Faktoren, die im Vergleich zur nächsten Klasse Einfluss nehmen, sei es die Lehrkraft oder die Tageszeit des Unter‐ richts, die Temperatur oder Frischluftzufuhr im Unterrichtsraum - ganz egal, wichtig ist, dass die Fälle damit nicht unabhängig voneinander sind 225 5.3 Weitere Analyseverfahren <?page no="226"?> und die übergeordnete Ebene der Klasse als verbindendes Element einen gewissen Anteil an der Leistung hat, der berücksichtigt werden sollte. Die Grundidee, der die Mehrebenenanalyse also versucht gerecht zu werden, ist, dass in verschiedenen sozialen Kollektiven oder Clustern (Gruppen, Organisationen) Ursache-Wirkungsbeziehungen unterschiedlich ablaufen können. Wenn in der herkömmlichen multiplen linearen Regression beispiels‐ weise Daten aus unterschiedlichen Ländern einfließen und die Länder als Variable mitberücksichtigt werden sollen, dann gehen die Länder in Form von bivariaten Dummy-Variablen (kommt vor/ kommt nicht vor) in die Be‐ rechnung ein. Ein Land wird als Vergleichsbasis gesetzt und nicht als eigene Variable aufgenommen. Die Regressionskoeffizienten aller Dummy-Varia‐ blen beziehen sich auf die Vergleichsbasis. Alle anderen Variablen im Modell gehen gleichermaßen in die Berechnungen mit ein. Am Ende zielt die Berechnung auf die Erstellung einer Regressionsgleichung, die über alle Fälle Gültigkeit besitzen soll. Was aber nun, wenn in einem Land der Anstieg einer unabhängigen Variablen zum Anstieg der abhängigen Variablen führt, im nächsten Land der Anstieg der unabhängigen aber zum Rückgang oder zumindest zu einem deutlich geringeren Anstieg der abhängigen Variablen führt? Abhängig vom Land können die Regressionskoeffizienten also theo‐ retisch variieren. Die herkömmliche multiple lineare Regression würde diese Möglichkeit nicht einbeziehen. Beispiel | Anstieg der Arbeitslosenzahlen Während der Corona-Pandemie stiegen weltweit die Arbeitslosenzahlen (Quelle: OECD). Es ließe sich aber die Hypothese verfolgen, dass der Anstieg der Arbeitslosigkeit in verschiedenen Ländern unterschiedlich stark verlaufen ist. In Ländern mit stärkerem Kündigungsschutz oder sogar staatlicher Unterstützung wie Kurzarbeitergeld dürfte der Anstieg der Zahlen lange nicht so stark gewesen sein, wie in Ländern ohne vergleichbare Instrumente. Die Menschen eines Landes sind als Fälle in einer solchen Arbeitslosigkeitsstatistik also nicht unabhängig voneinan‐ der. Sie sind verbunden durch das politische und wirtschaftliche System, in dem sie leben. Dieses dürfte Einfluss darauf haben, ob jemand in einer solchen Pandemiesituation arbeitslos wird oder nicht. Würden jeweils einzelne Regressionen für den Zusammenhang zwischen Betroffenheit in der Pandemie (beispielsweise über die Zahlen der Infizierten oder 226 5 Die Analyse <?page no="227"?> Toten pro 100.000 Einwohner: innen) und dem Anstieg der Arbeitslosig‐ keit gerechnet, würde für jedes Land eine eigene Regressionsgleichung mit Konstante und Regressionskoeffizient entstehen. Liegt das Interesse aber doch auf dem Gesamteffekt über alle Fälle, dann wird man mit einzelnen Regressionen nicht weit kommen. Mithilfe der Mehrebenen‐ regression wird der Einfluss der clusternden Variable (in diesem Fall der Länder) nicht ausgeblendet. Stattdessen kann der Einfluss konkret berechnet werden, sodass im Ergebnis die durch die Länderunterschiede verursachte Variabilität der Effekte ausgedrückt werden kann. Darüber hinaus werden die zu Beginn des Abschnittes beschriebenen Probleme der verzerrten Schätzungen von Parametern, Konfidenzintervallen und p-Werten verringert. Auch Längsschnittdaten stellen hierarchische Daten dar, denn die Fälle können als Cluster zu den jeweiligen Untersuchungszeitpunkten verstanden werden. Der Zeitpunkt der Messung und die dazugehörige Variabilität mithilfe der Mehrebenenregression zu betrachten, stellt hier entsprechend eine mögliche Auswertungsmethode dar. Es ist auch möglich, dass Mehrebenenanalysen mehr als zwei Ebenen (level) einbeziehen. So könnten beispielsweise über die Klasse auch die Schule als weitere Ebene betrachtet werden, wenn die Leistungen der Schüler verglichen werden sollen, denn es ist gut vorstellbar, dass Standort und Ausstattung der Schule ebenfalls Einfluss auf die Leistung haben. Grundsätzlich sollten aber pro Ebene mindestens 10 Fälle in die Analyse einfließen, um sinnvolle Ergebnisse zu produzieren. Analysen mit weniger Fällen pro Ebene sollten zumindest auf gute Begründungen hin, aber auf jeden Fall mit Vorsicht im Hinblick auf die gezogenen Schlüsse betrachtet werden. 5.3.4 Clusteranalyse Die Clusteranalyse ist ein exploratives (strukturentdeckendes) multivariates Verfahren, das heißt, mit ihrer Hilfe sollen eher Strukturen freigelegt als Hypothesen geprüft werden. Ziel ist es, eine Typologie einer sozialen Wirk‐ lichkeit freizulegen, indem Fälle in einem Datensatz gruppiert werden. Die dabei entstehenden Gruppen sollten in Hinblick auf bestimmte Merkmale intern möglichst homogen und extern möglichst heterogen sein. Die in 227 5.3 Weitere Analyseverfahren <?page no="228"?> einer Gruppe (in einem Cluster) zusammengefassten Fälle sollen sich also ähnlich sein. Die unterschiedlichen Gruppen aber sollen sich möglichst klar voneinander unterscheiden. Bei der Erstellung von Clusteranalysen kommt den Forschenden eine wichtige Rolle beim Interpretationsprozess zu. Sie müssen erkennen, was das verbindende Element für eine Gruppe ist und was die Gruppen voneinander unterscheitet. Clusteranalysen können vielfältige Anwendungsbereiche finden. So kön‐ nen zum Beispiel Milieustudien auf diese Form der zusammenfassenden Analyse zurückgreifen. Aber auch im Bereich der Inhaltsanalyse können Clusterbildungen nützlich sein, um beispielsweise bestimmte Formen der Berichterstattung hinsichtlich unterschiedlicher inhaltlicher Berichterstat‐ tungsmuster („Framing“) zu unterscheiden. 5.3.5 Faktorenanalyse Die Faktorenanalyse gehört ebenfalls zu den explorativen Verfahren. Die Grundidee ist, dass durch die Faktorenanalyse eine größere Anzahl von Variablen in weniger sogenannte Faktoren zusammengefasst werden sol‐ len. Dies ist dann zulässig, wenn die Faktorenanalyse ein den Variablen gemeinsames zugrundeliegendes Konstrukt offenlegt. Anders ausgedrückt: Das Ziel ist der Faktorenanalyse ist es in der Regel, eine latente, also nicht manifeste bzw. nicht empirisch als Einheit beobachtbare Größe zu ermitteln auf der Basis mehrerer konkret beobachtbarer Variablen. Es sollen also mehrere manifeste Variablen durch einen latenten Faktor ersetzt werden. Ein solcher latenter Faktor kann dann zum Beispiel als einzelne Variable für die Berechnung von Zusammenhängen genutzt werden. Das kann entschei‐ dende Vorteile haben, beispielsweise zur Erfüllung von Modellannahmen bei einer Regression. Liegen mehrere Variablen vor, die etwas sehr Ähnliches gemessen haben (nämlich ein zugrundeliegendes latentes Konstrukt), dann sind die Zusammenhänge zwischen diesen Variablen selbst auch hoch. Für die Regressionsanalyse kann das zum Problem werden und zu Verzerrungen führen, würde man die miteinander hoch korrelierten Variablen einzeln ins Modell einfließen lassen. Stattdessen wird die Erkenntnis genutzt, dass hoch korrelierte Variablen eine gemeinsame zugrundeliegende Dimension haben. Mithilfe der Hauptkomponentenanalyse („principle component analysis“) kann so zum Beispiel eine große Anzahl gemessener Variablen durch eine geringere Anzahl von Faktoren (Hauptkomponenten) zur Bündelung von Variablen ersetzt werden. Ein solcher Faktor repräsentiert dann die 228 5 Die Analyse <?page no="229"?> latente Variable auf Grundlage mehrerer manifester Variablen. Es heißt, dass Variablen, die zu einem Faktor zusammengefasst werden, auf diesen Faktor laden. Ähnlich wie bei der Clusteranalyse obliegt die Interpretation dieser Faktoren dann wieder den Forschenden. Sie müssen die latente Variable benennen, die sich aus den Korrelationen der manifesten Variablen ergibt. Im Idealfall wurde im Zuge der Erstellung des Messinstruments bereits ein latentes Konstrukt durch bestimmte empirisch messbare Indikatoren operationalisiert. In diesem Fall kann die Hauptkomponentenanalyse zur Überprüfung beitragen, ob die gewählten Indikatoren auch tatsächlich das zugrundeliegende Konstrukt repräsentieren. Oft sind die zugrundeliegen‐ den Dimensionen aber auch zu Beginn noch nicht vollständig klar und es ist theoretisch nur herzuleiten, welche Aspekte zur Erfassung eines überge‐ ordneten Konstrukts nötig sind. Ziel einer Hauptkomponentenanalyse in einem solchen Fall könnte es sein, feinere Unterscheidungen vorzunehmen. 5.3.6 Netzwerkanalyse Der Bereich der Netzwerkanalysen ist eher als sozialwissenschaftlicher An‐ satz zur Untersuchung der Beziehungen zwischen sozialen Elementen bzw. Akteuren und deren Einbettung in Netzwerke zu sehen als eine konkrete Auswertungsmethode. Daher gibt es unterschiedliche statistische Verfahren zur Analyse von Netzwerkstrukturen. Gemein ist ihnen, dass nicht die Merkmale von Fällen, sondern die Beziehungen der Fälle zueinander im Fokus der Untersuchung stehen. Fälle können dabei Personen in einem sozialen Gefüge sein (einem Unternehmen oder einer Organisation, einer Nachbarschaft, einem Berufsfeld, usw.). Es können aber genauso auch Webseiten mit einer Verlinkung untereinander, Posts oder Accounts in sozialen Medien, Migrationsbewegungen und vieles mehr damit untersucht werden. Interessant bei solchen Analysen sind dann vor allem Aspekte von Distanz und Nähe einzelner Knoten (Punkte im Netzwerk) sowie die Richtung und Stärke von Kanten (Beziehungen zwischen den Knoten). Die Visualisierung spielt bei der Netzwerkanalyse eine zentrale Rolle. Mithilfe grafischer Elemente lassen sich wichtige Eigenschaften eines Netz‐ werkes ausdrücken. Die Abbildung zeigt als Beispiel eine sehr vereinfachte schematische Darstellung einer Netzwerkanalyse, in der die Farbintensität der Punkte (Knoten) die jeweilige Relevanz des Falls im Netzwerk ausdrü‐ cken und die Dicke der Verbindungen die Intensität der Beziehung. Man könnte sich hier die Darstellung einer Abteilung in einer Organisation 229 5.3 Weitere Analyseverfahren <?page no="230"?> vorstellen, aus der sich die Struktur der Abteilung und die Beziehungen der Abteilungsmitglieder erkennen lassen. Knoten 1 ist die Abteilungsleitung, die zu allen Mitgliedern der Abteilung direkten Kontakt hat. Knoten 2, 3 und 4 könnten Teamleiter: innen sein, deren Kontakt zur Abteilungsleitung sehr intensiv ist (zum Beispiel über regelmäßige Meetings). Die Teamleiter: innen arbeiten jeweils mit den Mitarbeit: innen ihres Teams zusammen, nicht aber mit den Mitgliedern anderer Teams. Das Team von Teamleiter: in 2 ist mit vier Mitarbeiter: innen am größten. Das gesamte Team arbeitet intensiv miteinander zusammen, zwischen fast allen Knoten gibt es Verbindungen. Knoten 6 arbeitet darüber hinaus mit Knoten 15 zusammen, der sonst keine weiteren Beziehungen zu Abteilungsmitgliedern pflegt. Hier könnte man sich eine externe punktuelle Zuarbeit zu einem bestimmten Aspekt vorstellen, der nur die Arbeit von Knoten 6 betrifft. Das Team von Knoten 3 ist mit zwei Mitarbeiter: innen zwar am kleinsten. Allerdings ist das Team gut vernetzt in die beiden anderen Teams. Eventuell erfüllt das Team von Knoten 3 eine Querschnittsaufgabe, in der die Absprachen mit den anderen Teams besonders relevant ist. Knoten 1 Knoten 2 Knoten 3 Knoten 4 Knoten 9 Knoten 5 Knoten 12 Knoten 11 Knoten 13 Knoten 10 Knoten 7 Knoten 6 Knoten 8 Knoten 15 Knoten 14 Abbildung 15 | Schematische Darstellung einer Netzwerkanalyse 230 5 Die Analyse <?page no="231"?> 5.3.7 Strukturgleichungsmodelle Bei Strukturgleichungsmodellen handelt es sich im Kern um eine Kombi‐ nation von Regressions- und Faktorenanalysen. Sie dienen der Prüfung von Kausalmodellen über die Beziehungen latenter Variablen (Regression), die als manifeste Variablen in das Modell eingeführt werden (Faktorenana‐ lyse). Die Besonderheit von Strukturgleichungsmodellen liegt dann aber auch darin begründet, dass simultan mehrere gerichtete Zusammenhänge zwischen multiplen abhängigen und unabhängigen Variablen untersucht werden können. Dabei spielen sowohl direkte als auch moderierende bzw. intervenierende Beziehungen eine Rolle. Die Darstellung erfolgt in der Regel - wie in Abbildung 16 veranschaulicht - als Pfaddiagramm, an dem gerichtete Beziehungen und ihre Zusammenhangsmaße (meist mit Signifikanzniveau) dargestellt werden. In Abbildung 16 ist eine vereinfachte Darstellung eines Pfadmodells mit zwei latenten unabhängigen Variablen auf Basis von je drei Indikatoren (I) und dazu gehörigen Faktorladungen, einer intervenierenden Variablen (Moderator), einer abhängigen Variablen (Outcome), sowie Pfadkoeffizienten mit Signifikanzniveau *p< ,05; **p< ,01; ***p< ,001 zu sehen. I 1 I 2 I 3 I 4 I 5 I 6 Latente UV 1 Latente UV 2 Moderator Outcome Faktorladung 4 Faktorladung 2 Faktorladung 3 Faktorladung 5 Faktorladung 1 Faktorladung 6 Pfadkoeffizient 3 ** Pfadkoeffizient 2 * Pfadkoeffizient 4 * Pfadkoeffizient 1 *** Pfadkoeffizient 5 *** Pfadkoeffizient 6 *** Abbildung 16 | Schematisches Strukturgleichungsmodell 231 5.3 Weitere Analyseverfahren <?page no="232"?> ► Checkliste ■ Art der Aussage: Sollen Aussagen über die vorliegenden Daten gemacht werden (deskriptive Statistik) oder über den Datensatz hinaus auf eine Grundgesamtheit geschlossen werden (Inferenzstatistik)? ■ Den Datensatz erfassen: Welche Ausprägungen und Verteilungen liegen den Variablen im Datensatz zu Grunde? Gibt es „Ausreißer“ und Ext‐ remwerte, die besonderer Beachtung bedürfen? ■ Zusammenhänge von Variablen: Lassen sich (entsprechend der zuvor im Prozess getroffenen Annahmen) Zusammenhänge zwischen Varia‐ blen identifizieren? □ Welche Stärke weisen die Zusammenhänge auf und was bedeuten sie inhaltlich? □ Kontrolle von Drittvariablen/ intervenierenden Variablen: Kann ein identifizierter Zusammenhang wirklich als direkter Zusam‐ menhang angenommen werden oder muss der Einfluss weiterer Variablen kontrolliert werden? ■ Inferenzstatistik: □ Sind die gewählten Auswertungsmethoden angemessen zur Über‐ prüfung der eingangs getroffenen Annahmen? □ Sind die Voraussetzungen zur Anwendung einer bestimmten Aus‐ wertungsmethode geprüft und erfüllt? (z. B. Annahmen über die Normalverteilung von Variablen oder die Linearität von Zusam‐ menhängen) □ Wie verhalten sich Effektstärke und Signifikanzniveau zueinander? Literatur Es gibt eine große Vielzahl an Statistikbüchern, die jeweils gewisse Schwer‐ punkte setzen und sich vor allem in der Wahl der Beispiele häufig an einem bestimmten Fachhintergrund orientieren. Wie nachvollziehbar und verständlich ein solches Lehrbuch ist, hängt sicherlich oft auch mit dem Hintergrundwissen und persönlichen Anknüpfungspunkten der Leser: in‐ nen zusammen. Die folgende Auswahl ist darum gewissermaßen auch eine persönliche. Es handelt sich um die Lehrbücher, die für die Lehre der Autorin und als Grundlage dieses Kapitels eine wichtige Basis bilden. 232 5 Die Analyse <?page no="233"?> Spezifisch für die Zielgruppe der Journalist: innen sind diese beiden englischsprachigen Bücher, die einige wichtige Grundlagen behandeln: Woodruff Wickham, K. (2003). Math tools for journalists (2nd ed, Student Edition). Oak Park, IL: Marion Street Press. Livingston, C., & Voakes, P. S. (2005). Working with numbers and statistics: A handbook for journalists. Lea's communication series. Mahwah, N.J.: Lawrence Erlbaum Associates. Ein englischsprachiger Klassiker unter den Statistikbüchern ist der folgende Titel. Der Autor reichert die Materie mit kurzweiligen Anekdoten aus seinem Leben an: Field, A. (2018). Discovering statistics using IBM SPSS statistics (5th edition). Los Angeles [i 5 pozostałych]: SAGE. Ebenfalls auf Englisch, aber mit gut nachvollziehbaren Beispielen und in alltagsnaher Sprache verfasst: Salkind, N. J., & Frey, B. B. (2020). Statistics for people who (think they) hate statistics (Seventh edition). Thousand Oaks, CA: SAGE. Wer das Verlangen nach den Formeln hinter den hier vorgestellten Analyse‐ verfahren hat, dem sei dieses Buch ans Herz gelegt. Mit einfachen Beispielen lassen sich die einzelnen Rechenschritte gut nachvollziehen. Heimsch, F. M., Niederer, R., & Zöfel, P. (2018). Statistik im Klartext: Für Psychologen, Wirtschafts- und Sozialwissenschaftler (2., aktualisierte und erweiterte Auflage). Pearson Studium Psychologie. Hallbergmoos/ Germany: Pearson. Dieses fachunabhängige Lehrbuch, das das Feld der Statistik anspruchsvoll aber (mit etwas vorhandenem Basiswissen) nachvollziehbar behandelt, ist vor allem nützlich, wenn zum eigenen Verständnis die zugrundeliegende Mathematik tiefgehender behandelt werden soll. Baur, F., Bamberg, G., & Krapp, M. (2015). Statistik (17th ed.). Oldenbourgs Lehr- und Handbücher der Wirtschafts- U. Sozialwissenschaften Ser. Berlin/ Boston: de Gruyter. 233 Literatur <?page no="234"?> Ein Buch, das sowohl die statistischen Methoden als auch die Umsetzung mit R behandelt.: Hellbrück, R. (2016). Angewandte Statistik mit R: Eine Einführung für Ökonomen und Sozialwissenschaftler (3. Aufl. 2016). Wiesbaden, s.l.: Springer Fachmedien Wiesbaden. Zur Umsetzung mit SPSS und R sind außerdem auch diese beiden Werke durchaus hilfreich: Brosius, F. (2017). SPSS 24 für Dummies (1. Auflage). --für Dummies. Weinheim: Wiley-VCH. Vries, A. de, & Meys, J. (2018). R für Dummies (2. Auflage). --für Dummies. Weinheim: Wiley-VCH Verlag GmbH & Co., KGaA. 234 5 Die Analyse <?page no="235"?> 6 Aufbereitung 6.1 Erkenntnisse kommunizieren Wie Daten und Erkenntnisse gut und effektiv kommuniziert werden, ist selten Teil eines typischen Statistikbuchs - gerade auch wenn es darum geht, diese Erkenntnisse nicht an ein Fachpublikum zu vermitteln, sondern an ein mehr oder weniger interessiertes Laienpublikum bis hin zum stark interessierten Quasi-Profi. Für Journalist: innen ist aber gerade dieser Teil der Kommunikation der Ergebnisse einer der zentralsten Arbeitsschritte im Pro‐ zess. Journalist: innen müssen in der Lage sein, eine Übersetzungsleistung zu vollbringen, in dem sie die Informationen und den Sinn aus den Zahlen nun in Worte fassen. Zentral dafür ist die gezielte und gute Auswahl eben der relevanten Informationen, die für Leser: innen, Zuschauer: innen oder Hörer: innen erkenntnisbringend und gegebenenfalls nützlich sind. Eine große Chance für eine erfolgreiche Kommunikation bietet die Visualisierung (im Print, Online- und TV Bereich), um Informationen aus Daten schneller und einfacher zugänglich machen. 6.1.1 Was ist berichtenswert? Dieser letzte Arbeitsschritt der Aufbereitung und gegebenenfalls Visuali‐ sierung der Erkenntnisse baut auf allen bisherigen Prozessschritten auf. Entsprechend wichtig ist es an diesem Punkt, dass alle Grundlagen stimmen und sorgfältig erarbeitet worden sind. Gleichzeitig wäre die ganze bisherige Mühe umsonst gewesen, wenn die Ergebnisse nun nicht gut kommuniziert würden. Eine zentrale Herausforderung bei der Kommunikation ist die Aus‐ wahl der zu kommunizierenden Informationen. Während der Bearbeitung der vorherigen Schritte wird in der Regel ein gewisses Expert: innen-Wissen angeeignet, das einen Vorsprung vor dem (potenziellen) Publikum liefert. Gleichzeitig wurden aber auch viel mehr Informationen gewonnen, als am Ende berichtet werden können. Viele Informationen dienten auch „nur“ dem eigenen Verständnis der Daten (z. B. Maße der Streuung und Verteilung). So steht nun am Anfang dieses letzten Arbeitsschritts im Prozess die Frage: Ist es berichtenswert? Bei der Antwort darauf hilft der Blick zurück <?page no="236"?> auf das ursprünglich identifizierte Problem. Konnte für dieses eine substan‐ zielle Lösung im Prozess gefunden werden, ist die Antwort ganz klar: Ja, es ist berichtenswert. Das ursprüngliche Problem wurde schließlich schon in seiner Relevanz begründet. Die gefundene Lösung im Hinblick auf die ursprüngliche Problemstellung auf den Punkt zu bringen, kann entsprechend schon den Kern der Aussage liefern. Es lohnt an dieser Stelle dennoch, die früheren Überlegungen mit den neu gewonnenen Erkenntnis‐ sen zusammenzubringen und zu reflektieren, warum das Thema wichtig ist, weshalb die Welt insbesondere die gewonnenen Erkenntnisse und Informa‐ tionen erfahren sollte und welche Kosten beispielsweise mit Nichtwissen verbunden sein könnten. Können beispielsweise politische, ökonomische und persönliche Einstellungen oder sogar Handlungsentscheidungen vor dem Hintergrund der neuen Erkenntnisse beeinflusst werden? Betrifft das Problem viele Leute? Oder handelt es sich um ein Spezialthema, bei dem es auch für Nichtbetroffene interessant ist, mehr zu erfahren? 6.1.2 Die zentrale Aussage finden und formulieren Sich diese Fragen zu stellen kann helfen, Klarheit über die zentrale Aussage zu schaffen, die im journalistischen Stück vermittelt werden soll. Auch im Zusammenhang mit Daten wird hier mitunter von Storytelling gesprochen - ein Begriff, der in jüngerer Vergangenheit im Journalismus allerdings eher überstrapaziert wird, aber zugleich oft vage bleibt. Mit Daten eine Geschichte erzählen, meint im Grunde aber vor allem mithilfe von Daten eine zentrale Aussage so zu entwickeln, dass sie als roter Faden mehr leistet, als schlicht die Fakten aneinanderzureihen. Solche Überlegungen zur eigentlichen Story, die erzählt werden soll, sollten der Frage nach der Form vorangestellt sein, denn diese kann bei gleicher Hauptaussage je nach Zielgruppe und Medium später variieren. Jede Anpassung, auch für die crossmediale Aufbereitung, wird leichter fallen, umso besser die Botschaft auf den Punkt gebracht worden ist. Dazu muss einerseits die Komplexität der Informationen erfasst werden, während gleichzeitig verbindende Elemente über die Gesamtheit der Aspekte identi‐ fiziert werden sollten. Diese können die Grundlage für den roten Faden im journalistischen Stück liefern, der die Aussagen der Daten sinnstiftend verbindet. Was dann genau kommuniziert werden soll, ist selbstverständlich the‐ menabhängig. Gibt es bisher weniger oder sogar unbekannte Aspekte? 236 6 Aufbereitung <?page no="237"?> Was also ist tatsächlich neu? Oder gibt es interessante Entwicklungen oder unerwartete Veränderungen? Auch mit bedacht werden sollten mögliche Fragen, die sich das Publikum stellen könnte. Der eigene Wissensvorsprung aus der Bearbeitung des Themas muss dazu natürlich reflektiert werden, denn anders als bei einer Live-Präsentation kann man auf Fragen des Publikums nach der Veröffent‐ lichung des journalistischen Produkts nur noch schwer eingehen. Welche Informationen sind tatsächlich nötig, um die Erkenntnisse zu erfassen? Welche Aspekte werden benötigt, um den Sachverhalt zu beschreiben und eventuell den Erkenntnisgewinn nachvollziehbar zu machen? Und welche Informationen werden benötigt, um Erklärungen zu liefern? Die Herausfor‐ derung wird dabei immer sein, Komplexität zu reduzieren, um Verständnis zu ermöglichen, ohne dabei so zu verkürzen, dass falsche Schlüsse gezogen werden. Das heißt also: Es einfach, aber richtig zu machen! Das Publikum muss die relevanten Informationen ohne viel Aufwand und Vorkenntnisse schnell aufnehmen können. Der Aufwand, den Rezipient: innen aufbringen, um eine Aufarbeitung zu verstehen, sollte im Verhältnis zum Nutzen stehen. Eine Vereinfachung darf aber nicht zu Fehlern führen. Denn wichtig ist: Die Notwendigkeit, eine zentrale Aussage zu finden und stringent zu verfolgen, darf auf keinen Fall implizieren, Informationen oder sogar Daten zu unterschlagen, die diese Aussage nicht unterstützen. Mit großer Sorgfalt darzustellen, was auch wirklich ohne Einschränkung belegt werden kann bzw. welche (Rest)unsicherheiten existieren und diese ins Verhältnis zu setzen oder auch zu erwähnen, was bisher weiterhin unklar ist, bildet die Basis für das journalistische Vertrauensverhältnis zum Publikum. 6.1.3 Vom Einzelfall zum Allgemeinen Im Journalismus sind die lebhafte Schilderung und die konkrete persönliche Geschichte wichtig, um Interesse zu wecken und Aufmerksamkeit auf ein Thema zu lenken. So kann der anekdotisch geschilderte Einzelfall auch im Bereich des Datenjournalismus nützlich sein, um die abstrakteren Zahlen zu veranschaulichen und ein im Sinne der Daten typisches Schicksal zu illustrieren. Durch die konkrete Schilderung von Fällen können der Kontext und das Ausmaß von datengestützten Erkenntnissen erfassbar gemacht werden. Vielleicht war ein spezifischer Einzelfall auch Auslöser für eine Recher‐ che, weil durch ihn ein statistisches Problem eröffnet wurde. Gerade dann 237 6.1 Erkenntnisse kommunizieren <?page no="238"?> kann die Darstellung dieses Falles hilfreich sein, um die gewonnenen Erkenntnisse in einen Kontext zu stellen. Hat die Datenerhebung vielleicht zu Tage gefördert, dass dieser anfängliche Einzelfall gar kein Einzelfall ist, sondern ein Beispiel für ein systematisches Problem darstellt, lässt sich die gewonnene Erkenntnis in ihrer ganzen Reichweite und Relevanz anschaulich darstellen. Einzelfall und Datenanalyse sollten in der Aufberei‐ tung Hand in Hand gehen und im Sinne der Hauptargumentation jeweils spezifische und allgemeine Aspekte beleuchten. 6.1.4 Lösungsorientierter Journalismus Datenauswertungen sind besonders oft auch Teil einer noch eher jünge‐ ren Form des Journalismus - dem lösungsorientierten Journalismus oder auch konstruktiven Journalismus. Diesem liegt die Einsicht zugrunde, dass die Aufdeckung und Darstellung von Schwierigkeiten und Missständen selbstverständlich ein zentraler Pfeiler des (westlichen) Journalismus und seiner Watchdog-Rolle sind. Nichtsdestotrotz könnte bzw. kann der Jour‐ nalismus darüber hinaus mehr leisten: Nämlich Möglichkeiten aufzeigen, um Missstände zu bekämpfen. Hierfür können Daten eine gute Grundlage liefern, denn mithilfe von Daten können zum Beispiel Vergleiche gezogen werden, sowohl in der Zeit als auch mit anderen Gruppen oder Orten, bei denen ein bestimmtes Problem oder ein Missstand nicht vorliegt oder in der Vergangenheit vorlag und gelöst wurde. Lässt sich vielleicht eine bestimmte (politische) Maßnahme identifizieren, die zu der Verbesserung einer bestimmten Situation geführt hat, die sich anhand von Daten nach‐ weisen lässt? Falls ja, könnte dies der Aufhänger für ein datengestütztes journalistisches Stück sein, dass sowohl einen Missstand identifiziert als auch Wege aufzeigt, die aus einem solchen herausführen. Dabei sollte auch ein lösungsorientierter Journalismus kritisch bleiben und zum Beispiel Grenzen der Lösung, mögliche unintendierte Nebeneffekte oder Kosten transparent machen, um sich nicht mit der jeweiligen Sache gemein zu machen und eine gewisse professionelle Distanz zu wahren. 6.1.5 Zielgruppe Was im Einzelnen und wie kommuniziert wird, ist eng damit verknüpft, an wen kommuniziert werden soll. Sich Klarheit über die Zielgruppe zu schaf‐ fen, sollte dabei helfen, Entscheidungen darüber treffen zu können, wie viel 238 6 Aufbereitung <?page no="239"?> Datenkompetenz sowie inhaltliches Wissen zum Thema einerseits bereits vorausgesetzt werden kann und wie viel Informationen zum Hintergrund und zum Verständnis noch nötig sind. Darüber hinaus ist es wichtig, sich darüber Gedanken zu machen, welche Informationen für die Zielgruppe im Speziellen relevant sind, weil sie beispielsweise nützlich sein können. Handelt es sich um ein interessiertes Fachpublikum eines Themas (z. B. Umwelt oder Klima) eines auf dieses Thema spezialisierten Magazins? In diesem Fall kann sicherlich mehr Hintergrundwissen vorausgesetzt werden als beim Publikum einer Lokalzeitung, in der dasselbe Thema im allgemeinen Nachrichtenteil auftauchen soll. Auch ist es naheliegend, dass ein Fachpublikum mehr am Kontext und den eigentlichen Daten interessiert ist, um eigene Schlüsse zu ziehen, während ein Laienpublikum mehr Leitung braucht, um Erkenntnisse aus den Daten zu generieren. Zielgruppen können sich aber auch darin unterscheiden, wie viel Zeit sie zur Aufnahme der Informationen bereits sind zu investieren und auch wie willig sie sind, nötige kognitive Arbeit in das Verständnis zu setzen. Eigene Schlüsse zu ziehen, ist in der Regel aufwendiger, als beim Verstehen stärker angeleitet zu werden. Ebenfalls zu bedenken, sind mögliche Vorurteile, die bei der Zielgruppe herrschen könnten und zu Ablehnung oder Widerstand führen könnten (z. B. das Thema Unwirksamkeit von Homöopathie bei einer Leserschaft bei der bekannt ist, dass weite Teile Homöopathie unterstützen oder zumindest offen gegenüberstehen). 6.1.6 Form In der Praxis gehen die Überlegungen zur Zielgruppe und zur Form in der Regel miteinander einher. Was soll für wen wie aufbereitet werden, um eine möglichst große Reichweite zu erlangen. Wieviel Information ist entsprechend der Form nötig, um Verständnis zu gewährleisten, aber wieviel Information ist auch möglich? Im Prinzip ist das Medium und die Form aber „egal“, wenn die Hauptbotschaft klar ist. Dann ist es eben nur die Frage nach dem „Wie“ im Rahmen der Möglichkeiten. Dabei können sich die Möglichkeiten bei guter Verknüpfung sogar ergänzen. Der Knackpunkt der Erkenntnis in einem Story-Post eines sozialen Netzwerks, kann auf die umfangreichere Online-Reportage hinweisen. Die Einbindung von Bewegt‐ bildern und Grafiken können sowohl Aufmerksamkeit generieren als auch zum tieferen Verständnis beitragen. 239 6.1 Erkenntnisse kommunizieren <?page no="240"?> Gleichzeitig sollte die Form aber immer auch zur Marke bzw. zum Medium passen, denn ein Publikum tritt in der Regel auch mit bestimmten Erwartungen und Gewohnheiten an ein journalistisches Stück heran. So könnte eine aufwendig animierte Infografik mit unterschiedlichen Interakti‐ onsmöglichkeiten auf der Website eines Mediums, das in der Regel vielleicht eher statisch aufbereitet, dazu führen, dass das Thema und die Erkenntnisse nicht die angemessene Aufmerksamkeit bekommen. 6.1.7 Weitere Recherche Eng verknüpft mit der Frage der Form sind auch Überlegungen zur Einbin‐ dung weiterer Akteure im journalistischen Stück. Sollen die Daten für sich selbst sprechen oder benötigen sie gegebenenfalls noch eine Einordnung durch Dritte? Expert: innen-Meinungen können hilfreich sein zur Interpreta‐ tion und Einschätzungen möglicher Konsequenzen aus den Erkenntnissen. Gegebenenfalls kann es sogar möglich oder nötig sein, Verantwortliche oder Betroffene mit der Erkenntnis zu konfrontieren und entsprechende Statements von Politik, öffentlicher Verwaltung, Institutionen und Organi‐ sationen einzuholen. 6.1.8 Zahlen im Text Die Verwendung von Zahlen im journalistischen Stück sollte mit Bedacht erfolgen - egal, ob es sich um ein datenjournalistisches Produkt handelt oder nur eine oder wenige Zahlen im Text verbaut werden. Zahlen suggerieren immer eine Genauigkeit und gewisse Seriosität. Sie dienen damit meist als Argument zur Stützung einer Hauptaussage oder These. Entsprechend nötig ist eine rigorose Prüfung aller Zahlen, um die Gültigkeit des Arguments uneingeschränkt gewährleisten zu können. Zahlen können aber auch abschreckend wirken oder auch überlesen werden. Um solche Reaktionen auf Zahlen zu vermeiden, sollten Texte nicht überladen werden. Ein paar generelle Hinweise können hier beachtet werden: ■ Als Daumenregel können zwei bis maximal drei Zahlen pro Absatz angesetzt werden. ■ Römische Zahlen sollten generell vermieden werden. 240 6 Aufbereitung <?page no="241"?> ■ Die Zahlen von 1 bis 12 werden in der Regel ausgeschrieben, ab 13 werden die Ziffern verwendet. Laut Duden gibt es bei dieser Regel heutzutage allerdings auch viel Spielraum. Ausdrücke wie zum Beispiel „Kinder im Alter von 9 bis 16 Jahren“, aber auch die Verwendung von Zahlen vor Abkürzungen und Maßeinheiten (6 km/ h, 2 EUR) verlangen nicht zwangsläufig ausgeschriebene Zahlen. ■ Auch bei Rangangaben werden die Ziffern verwendet: 1. Platz, 2. Preis, 3. Jahrestag etc. Für Adressen, Daten, Zeiten, Geschwindigkeiten, Tem‐ peraturangaben werden ebenfalls auch im einstelligen Bereich Ziffern statt ausgeschriebene Zahlen verwendet. ■ Brüche hingegen sollten ausgeschrieben werden, zum Beispiel: ein Drittel der Bevölkerung, zwei Fünftel aller Befragten, der drei Viertel volle Konzertsaal. ■ Bei Dezimalzahlen bietet sich das Runden auf maximal eine Nachkom‐ mastelle an, z. B. „3,4 Millionen“. Zahlen können jedoch nicht nur abschreckend wirken, sondern im Ge‐ genteil auch Aufmerksamkeit generieren, insbesondere dann, wenn sie überraschend erscheinen. Effekthascherei sollte im seriösen Journalismus allerdings vermieden werden, vor allem mit (vermeintlich) überraschenden Zahlen in Überschriften und Teasern. Die Sprache der Zahlen ist gründlich zu reflektieren. Ein und derselbe Wert kann im Deutschen unterschiedlich ausgedrückt werden - dabei ist die subjektive Bedeutungswahrnehmung aber eben nicht immer gleich, wie das folgende Beispiel zeigen soll. ■ 25 % der Beschäftigten im Unternehmen sind mit den Arbeitsbedingun‐ gen unzufrieden. ■ Ein Viertel aller Beschäftigten ist mit den Arbeitsbedingungen unzu‐ frieden. ■ Jede: r vierte Beschäftigte ist mit den Arbeitsbedingungen unzufrieden. ■ Eine: r von vier Beschäftigten ist mit den Arbeitsbedingungen unzu‐ frieden. Die vier Sätze sagen inhaltlich dasselbe aus, allerdings dürften die Ausdrücke „jede: r Vierte“ und „eine: r von vier“ bei Teilen des Publikums einen deutlich drastischeren Eindruck machen als die Angaben „25 %“ und „ein Viertel.“ Die Aussagekraft einer einzelnen Zahl ist oft eingeschränkt. Deshalb bieten sich häufig Vergleiche an, um Verständnis und Einordnung durch 241 6.1 Erkenntnisse kommunizieren <?page no="242"?> gezieltes in Beziehung setzen zu erleichtern. Dabei gibt es unterschiedliche Möglichkeiten für den Vergleich: Zeitliche Vergleiche drücken in der Regel eine Entwicklung aus, in dem sie den Wert zu einem früheren Zeitpunkt gegenüberstellen. Räumliche Vergleiche beziehen sich auf die geografische Gegenüberstellung von Werten, z. B. Länder, Städte, Regionen: wie viele Fußballfelder sind das, wie oft passt das Saarland herein? Aber auch der Vergleich eines Wertes mit einem Maßstab oder einer gesetzten Zielvorgabe ist denkbar. Grundlage jedes Vergleiches muss dabei immer die Vergleichbarkeit der Werte sein, die gründlich geprüft werden sollen. Beruhen zwei Werte auf der gleichen Definition, sind sie auf dieselbe Weise erhoben bzw. gemessen worden, stimmen die Einheiten überein? Besondere Vorsicht ist bei Preis- und Währungsvergleichen geboten. Der zeitliche Vergleich von Preisen sollte nicht ohne Inflationsbereinigung erfolgen. Werden monetäre Werte (Preise, Einkommen, Staatsausgaben usw.) aus unterschiedlichen Ländern verglichen, müssen Währungen umgerechnet werden. Dazu sollte sich je nach Kontext auf eine für das Publikum gut vorstellbare Währung festgelegt werden (z. B. Euro oder ggf. US-Dollar), zu der alle anderen Währungen umgerechnet werden. Dazu muss ein Wechselkurs zu einem festgelegten Zeitpunkt gewählt werden, wobei dieser möglichst nahe dem Erhebungszeitpunkt der Werte liegen sollte. Es ergibt keinen Sinn, die Durchschnittseinkommen zweier Bevölkerungen im Jahr 1995 vergleichen zu wollen und zur Umrechnung den Wechselkurs der aktuellen Zeit zu nutzen. Häufig werden Zahlen und Statistiken auch dazu herangezogen, Verän‐ derungen darzustellen. Bei der Darstellung der absoluten Veränderung wird der tatsächliche Wert als Zahl ausgedrückt. Der alte/ frühere Wert des gleichen Falls bzw. der Wert eines anderes Falls wird gegenübergestellt. Gerade dann, wenn mehrere Vergleiche zwischen Werten aufgezählt wer‐ den, sollte auch die jeweilige Differenz mit angegeben werden, um dem Publikum das Verstehen und Gegenüberstellen zu erleichtern, z. B.: In dem Unternehmen verdienen Männer durchschnittlich 65.300 Euro im Jahr während Frauen im Durchschnitt 67.800 Euro und damit 2.500 Euro mehr verdienen. Die relative Veränderung wird als prozentuale Veränderung angegeben. Hierbei ist besonders auf die Wahl der Basis für die Prozentangabe zu achten (Prozent von was? ) sowie auf den Vergleichspunkt (Veränderung in Bezug auf was? ). Die Differenz bei prozentualer Veränderung kann als Änderung 242 6 Aufbereitung <?page no="243"?> in Prozentpunkten (nicht Prozenten! ) angegeben werden, z. B.: Im Ver‐ gleich zum Vormonat konnte der Politiker A seine Zustimmungswerte um 3 Prozentpunkte von 41 auf 44 % verbessern. Veränderungen bis zu 100 % werden am bestem mit dem jeweiligen Prozentwert angegeben. Steigerungen um mehr als 100 Prozent sind allerdings schwer fassbar. Hier ist es besser Ausdrücke wie „Verdopplung“, „Verdreifachung“ etc. zu nutzen. Allerdings kann es auch dabei zu Ver‐ wirrung kommen, wie die folgende Beispielrechnung mit prozentualen Steigerungen über 100 % zeigen soll. Beispiel | Rechnung mit prozentualen Steigerungen über 100 % Ausgangswert: 75 Euro, Steigerung um: 10 % → 75 x 1,1 = 82,5 50 % → 75 x 1,5 = 112,2 99 % → 75 x 1,99 = 149,25 100 % → 75 x 2 = 150 → Verdopplung 150 % → 75 x 2,5 = 187,5 200 % → 75 x 3 = 225 → Verdreifachung 300 % → 75 x 4 = 300 → Vervierfachung Wichtig ist hier die Erkenntnis: Bei einer Steigerung um 100 % handelt es sich um eine Verdopplung. Bei einer Steigerung um 200 % wird der Ausgangswert verdreifacht. Zwar mathematisch korrekt allerdings für die Alltagsrezeption eher weniger intuitiv ist es daher ratsam im journalistischen Stück auf Ausdrücke wie „eine Steigerung um 200 %“ wenn möglich zu verzichten. Bei der Angabe von Durchschnittswerten sollte über die Verwendung von Mittelwert oder Median reflektiert werden. Je nachdem, ob es starke Ausreißer in den Daten gibt, die den Mittelwert in seiner Aussagekraft einschränken, kann die Verwendung des Medians sinnvoller sein. Gerade bei der Betrachtung von Einkommen bietet sich häufig die Angabe des Medians eher an als des Mittelwerts, weil wenige sehr hohe Einkommen einen Mittelwert irreführend hoch ausfallen lassen können, während dieser die tatsächliche Gehaltsstruktur gar nicht aussagekräftig repräsentiert. Dann allerdings sollte das Prinzip des Medians kurz erklärt werden, da nicht davon ausgegangen werden kann, dass das Prinzip allen Teilen des Publi‐ kums gleichermaßen bekannt ist. Vorsicht ist außerdem geboten bei dem Mittelwert von Mittelwerten, denn Mittelwerte unterschiedlicher Gruppen 243 6.1 Erkenntnisse kommunizieren <?page no="244"?> können nicht ohne Weiteres zusammengefasst werden, insbesondere wenn sich die Gruppen in ihrer Größe unterscheiden. 6.1.9 Kommunikation von Unsicherheit Zahlen und Grafiken suggerieren Genauigkeit und Sicherheit - und zu einem gewissen Grad sogar Autorität, wenn in vielen Bereichen von Politik, Gesellschaft und Wirtschaft zunehmend datengestützte Entscheidungen getroffen werden und strategisches Management an Datenlagen geknüpft wird. Wie aber an vielen Stellen in diesem Buch aufgezeigt wurde, spielen Aspekte von Wahrscheinlichkeit und Unsicherheit eine nicht unerhebliche Rolle im statistischen Prozess. Solche Aspekte werden in der Kommunika‐ tion von Umfragen und Studien oft nicht mittransportiert. Das hat Folgen. So ist eine wachsende Wissenschaftsskepsis zu beobachten (bis hin zur Zunahme der Verbreitung von Verschwörungstheorien), die möglicherweise auch mit der Wahrnehmung von Widersprüchen aus wissenschaftlicher Voraussage und tatsächlich eintretenden Ereignissen zu tun hat. Wenn Wahlprognosen einige Prozentpunkte vom eigentlichen Wahlergebnis ab‐ weichen, mag das auf manche Betrachter: innen nach fehlerhafter Arbeit aussehen und das allgemeine Vertrauen in Umfragen und Studien schwä‐ chen. Auch unverständlich mag für viele bleiben, warum zum Beispiel unterschiedliche Modelle über den Verlauf des Klimawandels zu ganz verschiedenen Zukunftsszenarien kommen können. „Was soll man denn da noch glauben? “ - kann für manche der Ausdruck von Verunsicherung sein, weil sie die Erwartung hegen, dass Wissenschaft eigentlich präzise Wahrhei‐ ten hervorbringen müsste (während Verschwörungstheorien keinen Raum lassen für Unsicherheit und einen vollkommenen Wahrheitsanspruch he‐ gen). Die Unsicherheit mitzukommunizieren, ohne dabei zu suggerieren, dass die Ergebnisse falsch sind, ist dabei aber weniger aufwendig als viel‐ leicht angenommen. Wenn, wie im Beispiel von Umfragen der Forschung ein üblicher Konfidenzintervall von 95 % mit einem Stichprobenfehler von 3 % zugrunde liegt, ließe sich zum Beispiel für ein Umfrageergebnis von 35 % (Zustimmung zu einer bestimmten Partei) in einem kurzen Satz erklären: „Die Ergebnisse spiegeln mit 95 %er Sicherheit wider, dass der geschätzte Wert im Bereich von 32 und 38 % liegt, wobei 35 % nach sorgfältiger An‐ 244 6 Aufbereitung <?page no="245"?> wendung der Erhebungs- und Auswertungsmethoden die beste Schätzung ist.“ Diesen Bereich des Stichprobenfehlers auch in Visualisierungen zum Beispiel durch Schraffierung kenntlich zu machen, bietet sich vor allem dann an, wenn Ergebnisse sehr nah aneinander liegen, wie bei einem Kopf an Kopf Rennen zwischen politischen Kandidat: innen. Denn selbst ein Vorsprung einer Person von 3 % vor der anderen kann im Endergebnis genau umgekehrt eintreten, was nicht zwangsläufig eine Überraschung ist, sondern von Beginn an im Bereich des Wahrscheinlichen der Konfidenzintervalle. Die Geschichte hinter der Statistik | Falsche Meldungen über Corona Christian Endt, Teamleiter Datenjournalismus bei der Süddeutschen Zeitung, und sein Datenteam sahen sich bei den Entscheidungen über die zu berichtenden Aspekten der Covid-19-Pandemie immer wieder auch vom Anspruch geleitet, gegen Desinformation anzuschreiben. Dieses Vorgehen verlor auch mit der Zeit nicht an Relevanz, denn bewusst oder unbewusst verbreitete Falschmeldungen klangen auch mit dem Verlauf der Pandemie nicht ab. Ein Beispiel stellte im Sommer 2020 die Diskussion um die Falsch-Positiv-Rate der Corona-Tests dar. Dabei wurde behauptet, dass der Anstieg der positiven Testergebnisse auf die vermehrten Testkapazitäten zurückzuführen sei statt auf tatsächlich steigende Fallzahlen. Wenn mehr getestet wird, gibt es automatisch mehr falsch-positive Ergebnisse, also solche Tests, die ein positives Ergebnis anzeigen, obwohl die Testperson negativ ist, so die Argumentation. Statistisch mochte das nicht falsch sein. Mit reiner Statistik kam man an dieser Stelle aber nicht weiter. Das Datenteam holte sich daher bei dieser Frage die Expertise von Laborärzt: innen ein, die versicherten, dass jede positiv getestete Probe in der Regel mindestens einem weiteren Test unterzogen wird, um die Rate der falsch-positiven Testergebnisse gering zu halten. Eines der Vorzeigeprojekte des SZ Datenteams zur Corona-Pande‐ mie entstand ebenfalls aus dem Anliegen, gegen Desinformationen anzugehen. Die Behauptung, die Leute würden mit, aber nicht wegen Corona sterben, veranlasste die Datenjournalist: innen, die 245 6.1 Erkenntnisse kommunizieren <?page no="246"?> 36 Christian Endt, Thomas Gröber, Christina Kunkel: „Zu viele Tote“ https: / / projekt e.sueddeutsche.de/ artikel/ wissen/ coronavirus-uebersterblichkeit-e350658/ (letzter Zugriff: 19.7.2021) Übersterblichkeit in verschiedenen Ländern in den Blick zu neh‐ men 36 , also zu analysieren, wie viel mehr Menschen in 2020 als im Durchschnitt der Vorjahre starben. Die Behauptung ließ sich deutlich widerlegen und damit die Gefährlichkeit der Covid-19-In‐ fektionen klar unterstreichen. Das Datenteam machte über die Zeit außerdem die Erfahrung, dass die reinen Zahlen für viele, die sich einen schnellen Überblick ver‐ schaffen wollen, von zentralem Interesse sind. Gleichzeitig sind aber auch immer wieder Artikel zum Hintergrund und zur Erklärung der Statistiken nötig gewesen. Auch Monate später durfte wenig bei den Leser: innen vorausgesetzt werden. Es war auch im weiteren Verlauf immer wieder wichtig, dass alle Fachbegriffe (wie „Inzidenzwert“) mit mindestens einem Halbsatz erklärt werden. Jeder Text sollte auch für sich selbst lesbar und verständlich sein, denn man kann nie wissen, wen der Text über die vielfältigen (mobilen) Wege erreicht. 6.2 Visualisierung Wenn wir mit Statistiken konfrontiert werden, dann meist in Form einer Visualisierung, zum Beispiel als Diagramm. Diagramme richtig lesen zu können ist ein zentraler Bestandteil guter Datenkompetenz. Dazu gehört auch, mit den Diagrammen ebenso umzugehen, wie in den vorherigen Kapiteln der Umgang mit Datenquellen beschrieben wurde. Das heißt, es ist zu überprüfen, welche Quelle zugrunde liegt, von wem die Visualisierung angefertigt wurde (mit welchem Zweck) und ob die zugrundeliegende pri‐ märe Datenquelle vertrauenswürdig ist. Gerade in den sozialen Netzwerken sind Diagramme mit vermeintlich schockierender Aussage schnell geteilt. Fake Statistics (also schlicht ausgedachte Statistiken) sowie Zombie Statistics (Statistiken, die schon oft widerlegt worden sind, aber dennoch immer wieder auftauchen) finden vor allem wegen ihrer vermeintlichen Brisanz schnelle Verbreitung. Als JournalistIn sollte man in der Lage sein, diese Art der Visualisierung erkennen und enttarnen zu können. Datenverifikation 246 6 Aufbereitung <?page no="247"?> muss daher zwingend zum Standard in der journalistischen Praxis gehören. Gerade dann, wenn Datenvisualisierungen besonders spektakulär oder überraschend wirken, sollte zum Beispiel das Zwei-Quellen-Prinzip zur Anwendung kommen: Gibt es eine weitere Datenquelle oder unabhängige Expert: innen, die die Aussage der Grafik bestätigen können? Darüber hinaus gehört zu guter Datenkompetenz, selbst die Kernaussage von Datenvisualisierungen zu erfassen. Ein wichtiger Schritt zum Verständ‐ nis einer Visualisierung ist die Betrachtung der Skalen: was wird überhaupt dargestellt (was wurde gemessen? ) und in welcher Größenordnung wird das Gemessene dargestellt? Neben dem Verstehen von Datenvisualisierungen sollte es dann auch journalistischer Anspruch sein, Visualisierungen selbst so herstellen zu können, dass Betrachter: innen die Kernbotschaft erkennen können, ohne fehlgeleitet zu werden. Die zentralen Grundlagen guter Visualisierung soll darum auf den folgenden Seiten vermittelt werden. Dabei soll es nicht darum gehen, wie man Grafiken besonders schön macht im Sinne ansprechender Design- und Gestaltungslektionen. Denn in dem Bereich sind Redaktionen jeweils spezialisiert (in der Regel mit eigenen Teams), haben eigene Vorgaben und Style Guides, nutzen bestimmte Programme usw. Aber auch wenn die konkrete grafische Umsetzung durch die Grafikabteilung der Redaktion erfolgt, ist es von Vorteil als ExpertIn der eigenen bzw. selbst bearbeiteten Daten möglichst konkrete Vorstellungen davon zu haben, wie die eigene Story grafisch erzählt bzw. ergänzt werden kann und sollte. Je besser man selbst mit den Grundlagen guter Datenvi‐ sualisierung vertraut ist, desto produktiver wird sich die Zusammenarbeit mit den Spezialist: innen gestalten. Von zentraler Bedeutung ist es, eine Vorstellung davon zu entwickeln, was sich mit welcher Art Visualisierung ausdrücken lässt und wie der Blick geleitet wird, um auf die Kernbotschaft zu verweisen, ohne Leser: innen zu fehlerhaften Interpretationen zu verleiten. Ist man bei der Visualisierung ohne die Möglichkeit zur Zusammenar‐ beit mit einer Grafikabteilung auf sich gestellt, gibt es unterschiedliche Möglichkeiten, wie beispielsweise mittlerweile eine Vielzahl an Online- und Freeware-Anbietern, die Tools zur Datenvisualisierung bereitstellen. Aber auch hier gilt: selbst das beste Grafik-Programm schützt nicht vor schlechten Daten und bewahrt nicht vor falsch gezogenen Schlüssen. Je konkreter die eigenen Vorstellungen davon, was zur guten Visualisierung der eigenen Daten nötig ist, desto besser werden die Programme ihre Zwecke erfüllen 247 6.2 Visualisierung <?page no="248"?> können. Darum soll es hier um Grundlagen gehen, die bei jeder Form der Visualisierung zu beachten und überprüfen sind. Eine gute und wirkungsvolle Visualisierung ermöglicht es, dass Muster sichtbar werden und Abstraktes nachvollziehbar wird. Dabei sollte die Visualisierung nicht zum Selbstzweck erfolgen. Sie sollte die Bedeutung und Tragweite der Daten vermitteln, substanziell zum Verständnis beitra‐ gen und einen Zugang liefern, der anders nicht erreicht werden kann. Die Kernaussage des gesamten journalistischen Stückes sollte von der grafischen Ergänzung gestützt werden. Die Datenvisualisierung ist ein Teil des Arguments, das unterstützt werden soll. Sie ist nicht einfach „nur“ Illustration. Eine saubere Passung von Kernaussage und Visualisierung erleichtern die analytische Einordnung und liefern sich gegenseitig sowohl nötigen Kontext als auch weiterführende Informationen zum Verständnis. Die Nützlichkeit der Visualisierung ist dabei ein zentrales Element: Die grafische Aufarbeitung von Daten sollte Neues beitragen, was sich für das Publikum eben genau durch die grafische Aufarbeitung besser aufnehmen lässt. Dabei sollte der Zugang möglichst einfach sein bzw. dem zu erwarten‐ den Erkenntnisgewinn angemessen, sodass das Publikum sich auch darauf einlässt, die nötigen kognitiven Ressourcen aufzubringen, die es für die Er‐ schließung benötigt. Auch hier ist eine möglichst konkrete Vorstellung von der eigenen Zielgruppe hilfreich, um die Einschätzung treffen zu können, wie viel Komplexität möglich und zweckmäßig sein kann. Je spezialisierter die Zielgruppe, desto eher wird man auch bei der Visualisierung ins Detail gehen können und unterschiedliche Einblicke in die Daten liefern können, damit das Publikum ggf. auch eigene Schlüsse ziehen kann. Ein weniger informiertes bzw. durchschnittlich interessiertes Publikum wird eventuell eine eindeutigere Storyline zur Verbindung von Visualisierungen brauchen, um den Kern der Daten zu verstehen, anstatt selbst Einblick in die Daten zu erhalten. Auch kann zu viel Kontextinformation in diesem Fall eher von der Hauptbotschaft ablenken. Während das Fachpublikum außerdem wahr‐ scheinlich eher an einer unaufgeregten Darstellung interessiert ist, kann es für das Laienpublikum durchaus angemessen sein, auch emotionalere Aspekte zu betonen (vorausgesetzt diese lassen sich wirklich aus den Daten ableiten), um die Relevanz der Daten und der Aussage hervorzuheben und Interesse am Thema zu wecken. Die Qualität der Daten ist für eine gute Visualisierung das wichtigste Fundament. Über die Visualisierung soll der Zugang zu den Daten erleichtert werden, um die Aufnahme möglichst vieler Informationen über die Daten 248 6 Aufbereitung <?page no="249"?> und ihre Aussage in wenig Zeit zu ermöglichen. Aber auch gute Daten können schlecht visualisiert sein und verhindern damit eben genau diese effiziente Aufnahme von Informationen. Visualisierung ist darum nicht nur Geschmacksfrage. Es gibt einige grundlegende Prinzipien, die eine gute und effiziente Visualisierung ausmachen. Die folgenden Prinzipien guter Visualisierung sollten als wichtige Grundlagen zum Beispiel stets beachtet werden: ■ Nur relevante Informationen einfließen lassen (bezogen auf die Kernaussage des gesamten Beitrags): Im Laufe der Beschäftigung mit Daten werden viele unterschiedliche Informationen zusammenge‐ tragen, die zum eigenen Verständnis beitragen. Nicht alle diese Infor‐ mationen müssen auch kommuniziert werden. Im Gegenteil: Es sollten die Informationen ausgewählt werden, die für die Hauptbotschaft des Stückes relevant sind. Bei allen Informationen sollte klar sein, wie sie zu‐ sammenhängen und was sie zur Erkenntnis (der Lösung eines bestimm‐ ten Problems/ Klärung einer Frage) beitragen. Wenn zum Verständnis gewisse Hintergrundinformationen gebraucht werden, können diese gegebenenfalls als Hinweis zusammengefasst werden. ■ Gleichzeitig wäre es aber nicht seriös, „cherry picking“ zu betreiben und nur solche Informationen auszuwählen, die zwar die Hauptbot‐ schaft unterstützen, dabei aber absichtlich solche Erkenntnisse aus‐ zulassen, die der eigenen These vielleicht sogar widersprechen. Die Auswahl der Informationen soll den Blick des Publikums auf das Wesentliche lenken. In keiner Weise sollten Informationen aber so ausgewählt werden, dass sie irgendeine Weise irreführen. ■ Aber es ist natürlich immer eine Abwägungssache, wie stark der Grad der Verallgemeinerung gewählt wird und wie viele Details eingear‐ beitet werden. Je allgemeiner, desto eher gehen relevante Informationen verloren und desto eher können Grafiken im Zweifel auch fehlleiten. Besonders bei Karten besteht die Gefahr schnell. Werden Gebiete zum Beispiel nach einer Wahl großflächig in der Farbe der Partei, die eine Mehrheit errungen hat, eingefärbt, ist nicht mehr zu erkennen, ob sich vielleicht Städte und der ländliche Raum unterscheiden bzw. mit welchem Vorsprung die jeweilige Partei vorne liegt. ■ Passung von Daten und Visualisierung: Spiegelt die Visualisierung wirklich auch die Daten wider? Dazu ist gute Kenntnis über den Zweck verschiedener Arten von Grafen nötig (dazu unten mehr). Die 249 6.2 Visualisierung <?page no="250"?> Visualisierung sollte genau so gewählt werden, dass sie den Blick auf den Kern der Daten lenkt und möglichst wenig Spielraum dazu lässt, wie die Darstellung gelesen bzw. verstanden werden sollte. ■ Kombination von Bekanntem und Unbekanntem: Jede Visuali‐ sierung sollte einen Zugang zum Verständnis über etwas Bekanntes ermöglichen. Das kann das Thema sein, beispielsweise ein aktuelles Thema von allgemeinem Interesse, etwas, das gerade in der öffentlichen Debatte diskutiert wird. Dann sollte die Visualisierung aber einen Neuigkeitswert haben, also etwas Unbekanntes liefern, das gleichzeitig aber ohne weiteres Hintergrundwissen verständlich ist ■ Verhältnis von Aufwand und Nutzen abwägen: Visulisierungen von Daten sollten einfach zugänglich sein und auf den ersten Blick Anhaltspunkte liefern, die das Verständnis erleichtern und ermöglichen. Manchmal sind Themen aber durchaus komplex und es benötigt auch komplexere Visualisierungen, um beispielsweise Zusammenhänge dar‐ zustellen. Es spricht auch nichts gegen komplexere Visualisierungen, solange sie die zum Verständnis nötige kognitive Beschäftigung auch mit entsprechendem Mehrwehrt im Sinne eines hohen Erkenntnisge‐ winns belohnen. Was der Erkenntnisgewinn sein wird, sollte allerdings recht schnell zu erschließen sein, damit das Publikum auch den Schritt wagt, sich in die Visualisierung hineinzudenken und zu dem Schluss kommt, dass sich die Beschäftigung lohnen wird. ■ Grafische Konventionen: Jedes gewählte Gestaltungselemente sollte eine Bedeutung haben: Ein wichtiges Merkmal grafischer Gestaltung ist, dass die Gestaltungselemente nicht verschwenderisch verwendet werden und jedes Element auch eine Bedeutung hat, die zur Erkennt‐ nis beiträgt. Unterschiedliche Farben, Schriftarten oder -größen, un‐ terschiedliche Größen von Balken/ Kreisen/ Linien sollten auch entspre‐ chend Unterschiedlichkeit im Inhalt repräsentieren. Dabei können eben genau solche Gestaltungselemente dazu genutzt werden, effektiv auf die wichtigen Aspekte der Darstellung hinzuweisen und den Blick auf die relevanten Informationen zu leiten. Größere oder kräftiger eingefärbte Elemente werden in der Regel als wichtiger wahrgenommen und sollten entsprechend dazu genutzt werden, besonders Relevantes hervorzuheben. ■ Chart-Junk vermeiden: Nichts an der Visualisierung sollte vom eigentlichen Thema und der Hauptaussage ablenken. Bildchen und Formen ohne Bedeutung, Schatten, 3D-Effekte und alles was, die Wahr‐ 250 6 Aufbereitung <?page no="251"?> nehmung ohne Zugewinn an Erkenntnis beeinträchtigen könnte, sollte vermieden werden. Unnötige Elemente schaffen Unruhe und erschwe‐ ren die Orientierung, erzeugen Durcheinander und können damit sogar zur Verwirrung führen. Gerade 3D-Elemente (z. B. Balken) lassen sich in Relation zueinander schwerer einschätzen. Durch ihre Massivität wirken 3D-Elemente dramatischer. Dabei bleibt das Gestaltungselement der Fläche ohne Bedeutung und sollte deshalb eingespart werden. ■ Vorsicht ist auch bei Piktogrammen und Symbolen geboten, de‐ ren übertragene Bedeutung nicht jedem gleich ersichtlich ist. Auch schwer lesbare Schriften (verschnörkelt/ zu klein/ zu hell) und unnötige Hintergrundfarben oder Gitterlinien können in der Kategorie Chart Junk geführt werden und sollten vermieden werden, genauso wie Dopplungen bei Beschriftungen und Legenden. Womit lässt sich Tinte einsparen? Alles, was nicht zwingend nötig ist zum Verständnis der Botschaft. Durch die Reduktion von unnötigen Elementen rückt die Hauptaussage der Daten weiter in den Vordergrund, was das Ziel der guten Visualisierung sein sollte. ■ Der eine oder die andere wird an dieser Stelle vielleicht einhaken, dass eine witzig aufgemachte Form durchaus die Aufmerksamkeit und das Erinnern an eine Grafik fördern können. Das kann durchaus stimmen, das Verständnis der eigentlichen Botschaft fördert eine auf‐ wendig gestaltete Grafik mit im Grunde unnötigen Grafikelementen aber in der Regel nicht. Nichtsdestotrotz ist es natürlich immer eine Abwägungssache von Gestalter: innen, die auch Aufmerksamkeit und vielleicht auch einen gewissen Grad an Unterhaltung erzeugen wollen, wie viel Beiwerk eine Grafik beinhalten darf, ohne die Wahrnehmung zu sehr abzulenken. Sicherlich sind dabei auch die Sehgewohnheiten und -vorlieben sowie das Vorwissen der jeweiligen Zielgruppe zu beachten. ■ Proportionen einhalten: Allein durch die Änderung von Proportio‐ nen können Fehleindrücke entstehen. Die Abstände von Zwischen‐ schritten auf Achsen sollten daher wohlüberlegt sein. Eine Stauchung oder Streckung kann den Gesamteindruck stark beeinflussen oder beispielsweise Anstiege von Werten über die Zeit dramatischer oder harmloser wirken lassen. ■ Einen Sonderfall stellen logarithmierte Skalen dar, die zum Beispiel häufig benutzt werden, um exponentielles Wachstum darzustellen. Bei logarithmierten Skalen bestehen die Abstände zwischen den Skalen‐ punkten nicht aus gleich großen Intervallen, sondern zum Beispiel aus 251 6.2 Visualisierung <?page no="252"?> 10er Potenzen dargestellt: 10 - 100 - 1.000 - 10.000 - 100.000. Das hat zur Konsequenz, dass drei Datenpunkte, die auf dem Papier eventuell den gleichen Abstand auf der jeweiligen Achse zueinander haben, real tatsächlich unterschiedliche Abstände haben: statt des einfachen Abstandes sogar den 10fachen Abstand. ■ Aussagekräftige Beschriftungen wählen: Gute Überschriften und Beschriftungen innerhalb der Visualisierung können dem Verständnis helfen und die Wahrnehmung der Betrachter: innen leiten. Über Be‐ schriftungen lassen sich Zusammenhänge und Verbindungen herstel‐ len. Allerdings gilt auch: nicht alles was beschriftet werden könnte, muss zwangsläufig auch beschriftet werden. Manchmal reicht es, auf Besonderheiten oder eben genau die Aspekte (z. B. spezifische oder typische Datenpunkte, Ausreißer, Ziele oder Trends) hinzuweisen, die für die zentrale Aussage der Visualisierung relevant sind. ■ Für seriöse Visualisierungen ist selbstverständlich auf die Wortwahl zu achten. Begrifflichkeiten leiten die Wahrnehmung und legen Interpreta‐ tionen nahe. Es macht für die Wahrnehmung einen Unterschied, ob von Sitzenblieben oder Wiederholen, Klimawandel oder Erderwärmung, oder Abschiebungen oder Rückführungen, usw. die Rede ist. Ideologisch besetzte Ausdrücke sollten daher vermieden werden, wobei es immer eine sorgfältige Abwägungssache sein sollte, wann ein Begriff politisch soweit besetzt ist, dass er nicht mehr als neutral wahrgenommen werden kann. Exkurs | Barrierefreiheit Macht man sich die Mühe zur visuellen Aufbereitung von Daten, soll diese dann auch für alle Teile des Publikums gleichermaßen zugänglich sein. Allerdings können die Voraussetzungen beim Publi‐ kum unterschiedlich sein. Unterschiedliche Arten der Sehschwächen wie Farbfehlsichtigkeit bis hin zur Blindheit müssen aber kein Aus‐ schlusskriterium sein. Bei der Beachtung einiger Grundlagen kann die Inklusionsleistung des journalistischen Stückes sichergestellt werden. Für blinde Personen, die Texte zum Beispiel mithilfe von Vorlese‐ software (Screenreader) erfassen, sind vor allem aussagekräftige Bildüber- und Unterschriften nötig. Ein im HTML-Quellcode hin‐ terlegter Alternativtext kann gegebenenfalls eine ausführlichere Be‐ 252 6 Aufbereitung <?page no="253"?> schreibung liefern. Mindestens aber sollte dieser die Bedeutung der Visualisierung auf den Punkt bringen und die Hauptaussage explizit ausdrücken. Sind konkrete Zahlen zum Verständnis der Grafik wichtig (beispielsweise die Prozentzahlen bei Wahlergebnissen), sollten diese nicht nur in der Grafik eingebettet sein, sondern als Tabelle angefügt werden, damit auch diese vom Screenreader erfasst werden kann. Für Menschen mit Farbfehlsichtigkeit sind kräftige Kontraste beson‐ ders wichtig. Auf einige Farbverlaufskombinationen sollte generell verzichtet werden: rot-grün, orange-grün, blau-grün und gelb-rosa. Problematisch sind aber auch unterschiedliche Farben in derselben Farbintensität. Das kann bei einigen Arten von Diagrammen und Grafiken besonders problematisch sein, beispielsweise bei gestapel‐ ten Säulendiagrammen oder Heat Maps, deren Bedeutung bei indis‐ tinkter Farbgebung schnell verloren geht. Starke Farbkontraste wie orange-blau bei gleichzeitiger sich unterscheidender Farbintensität können hier Abhilfe schaffen. Auch sind Musterrungen gegebenenfalls eine Lösung, wobei diese dann auch mit Bedacht eingesetzt werden sollten, um zu viel Unruhe in der Grafik zu vermeiden. Manche Visualisierungssoftware bietet sogar einen Check auf Bar‐ rierefreiheit an, beispielsweise als Simulation, wie die eigene Grafik mit einer bestimmten Farbfehlsichtigkeit aussehen würde. Damit lässt sich leicht überprüfen, ob die Farbwahl und -intensität noch besser angepasst werden kann. 6.2.1 Arten von Diagrammen Der folgende Abschnitt gibt einen Überblick über die unterschiedlichen Arten von Diagrammen. Bei der Wahl der Darstellung von Daten gibt es einige Aspekte abzuwägen - allen voran, welche Information vordergründig vermittelt werden soll. Diagramme sollen Beziehungen visuell ausdrücken, indem sie sich unterschiedliche Längen, Höhen, Breiten, Positionen, Flä‐ chen, Winkel, Farben, Schattierungen oder Dichten zunutze machen, um die Relationen der Daten zueinander zum Ausdruck zu bringen. Effektive Grafiken schaffen es, auf den ersten Blick die zentrale Erkenntnis zu präsen‐ tieren, ohne durch unnötige Aspekte abzulenken. Wenngleich es manchmal schwerfällt, sich diese einzugestehen, weil auch die weniger zentralen Aspekte doch auch „ganz interessant“ sein können. Für eine zielgerichtete 253 6.2 Visualisierung <?page no="254"?> Visualisierung muss der Leitsatz „Kill your darlings“ allerdings häufig zur Anwendung kommen. Die Vorstellung der Diagrammarten auf den folgenden Seiten soll bei der Entscheidungsfindung helfen, in dem die jeweiligen Möglichkeiten sowie die Vor- und Nachteile an einfachen Beispielen illustriert werden. Die erste Entscheidung, die bei der Wahl der Visualisierung häufig ansteht: Braucht es überhaupt eine Visualisierung? Reicht es nicht vielleicht, die entsprechenden Zahlen in Tabellenform darzustellen? Die Antwort darauf lautet, wie so oft im Leben: Das kommt ganz drauf an. Nämlich darauf, welches Ziel verfolgt wird. Wenn es für das angestrebte Publikum relevant ist, die spezifischen Zahlen zu erfahren, kann die Tabellenform tatsächlich die richtige Wahl sein. Diagramme aber dienen dazu, Relationen der Daten auf einen Blick sichtbar zu machen. Säulendiagramm Säulen- und Balkendiagramme sind sicherlich die am häufigsten Verwende‐ ten Visualisierungen von Daten. Aus dieser weiten Verbreitung mag bei der einen oder dem anderen vielleicht schnell der Impuls entstehen, auf Säulen oder Balken zu verzichten und eine aufwendigere Form zu wählen. Allerdings ist es gerade auch ein Vorteil, dass diese Art Diagramm dem Publikum gut bekannt ist. So kann davon ausgegangen werden, dass die vermittelte Information auch schnell aufgenommen werden kann, weil nicht erst das Prinzip der Visualisierung verstanden werden muss. Mit Säulendiagrammen lassen sich sowohl absolute (Abbildung 17, links) als auch relative Werte (Abbildung 17, rechts) darstellen. Es lässt sich sowohl die gleiche Eigenschaft bei unterschiedlichen Gruppen gegenüberstellen (Abbildung 17, links) als auch die Ausprägung unterschiedlicher Eigenschaf‐ ten bei einer Gruppe aufzeigen (Abbildung 17, rechts) ausdrücken. Den folgenden Beispielen liegt ein einfaches (ausgedachtes) Datenset zugrunde: In vier Redaktionen wurden die Verkäufe an den Snackautomaten ausgewertet, in denen es vier Arten von Snacks gibt: Schokolade, Nüsse, Salat und Sandwiches. Die folgende Tabelle zeigt die pro Tag durchschnitt‐ lich verkaufte Anzahl der jeweiligen Produkte. 254 6 Aufbereitung <?page no="255"?> Schokolade Nüsse Salat Sandwich Gesamt Redaktion 1 2 7 3 8 20 Redaktion 2 3 6 3 5 17 Redaktion 3 2 1 5 6 14 Redaktion 4 4 2 6 7 19 Gesamt 11 16 17 26 70 Tabelle 17 | Am Tag durchschnittlich verkaufte Produkte am Snackautomaten pro Redak‐ tion Die Abbildung 17 stellt die Randverteilungen dieser einfachen Kreuztabelle grafisch da. Die Grafik links zeigt in absoluten Zahlen, wie viele Snacks am Tag durchschnittlich in jeder Redaktion gekauft werden. Rechts ist der relative Anteil jedes einzelnen Produkts an der Gesamtzahl der verkauften Snacks über alle Redaktionen hinweg zu sehen. 20 17 14 19 Redaktion 1 Redaktion 2 Redaktion 3 Redaktion 4 15,7% 22,9% 24,3% 37,1% Schokolade Nüsse Salat Sandwich Abbildung 17 | Links: Absolute Werte: durchschnittliche Anzahl verkaufter Snacks pro Redaktion. Rechts: Relative Werte: Anteil der jeweiligen Produkte an der Gesamtzahl der verkauften Snacks über alle Redaktionen hinweg Säulen sind für das Auge schnell zu erfassen. Es ist in der Regel einfach zu erkennen, welche Kategorie die größte oder die kleinste ist und wie sich die Kategorien zueinander verhalten. Um eine solche Einschätzung sicher und richtig treffen zu können, ist es allerdings wichtig, dass die Markierung der y-Achse bei null beginnt. Anderenfalls können auch kleine 255 6.2 Visualisierung <?page no="256"?> Unterschiede (z. B. geringe prozentuale Anstiege in einem Zeitverlauf) schnell drastisch erscheinen und sogar manipulativ wirken. So wirkt der Unterschied zwischen den beiden Balken in Abbildung 18 (links) gewaltig, weil die y-Achse nur einen sehr kleinen Ausschnitt zeigt. Es wird der Eindruck vermittelt, dass deutlich mehr Salat gekauft wird als die Nüsse. Beginnt die Achse wie in Abbildung 18 (rechts) bei null, ist der Unterschied weit weniger dramatisch. 22,9% 24,3% 22% 23% 23% 24% 24% 25% Nüsse Salat 22,9% 24,3% 0% 5% 10% 15% 20% 25% 30% Nüsse Salat Abbildung 18 | Links: Säulendiagramm mit verzerrtem Ausschnitt aufgrund y-Achsen Startpunkt. Rechts: Start der y-Achse bei null Wie erwähnt sollte die y-Achse bei null beginnen. Diese Regel ist aber kein Gesetz. Wenn die y-Achse natürlicherweise bei null beginnt, wie das bei Prozentangaben der Fall ist, sollte dieser Ausschnitt auch gewählt werden. Stellt die y-Achse aber beispielsweise Temperaturen dar, sind 0 °C nicht automatisch der Null-Punkt. Würde man den Anstieg der jährlichen Durchschnittstemperatur auf der Welt (oder in einem bestimmten Land) der letzten Jahrzehnte darstellen wollen und die y-Achse bei 0 °C starten lassen, wären kaum Unterschiede zu erkennen, weil wenige Schritte auf der Grad Celsius Skala im Vergleich kaum erkennbar sind - geschweige denn dramatisch aussehen. Dabei hat schon ein Unterschied von beispielsweise 2 °C in der Durchschnittstemperatur erhebliche Folgen für Mensch und Natur. Trotz der Einfachheit der Aufnahme der Information sollte man es sich bei der Erstellung von Säulendiagrammen nicht zu einfach machen. Die 256 6 Aufbereitung <?page no="257"?> saubere Skalierung der Achsen ist das eine, aber auch die Anordnung und Gruppierung wollen überlegt sein, insbesondere wenn die Informationen komplexer werden und gruppierte Säulendiagramme zur Darstellung benötigt werden. Abbildung 19 liegen ebenfalls die oben verwendeten Daten zugrunde, sie unterscheiden sich aber in ihrer Perspektive und damit auch in der Information, die schlussendlich vermittelt wird. Der Fokus bei Abbildung 19, links, liegt auf dem Gruppenvergleich für unterschiedliche Kategorien. Für jede Gruppe (Redaktion) werden die Werte einer Kategorie (Snacks) nebeneinander abgebildet, sodass schnell erkennbar ist, welche Gruppe in einer jeweiligen Kategorie den kleinsten bzw. größten Wert hat. Bei Abbildung 19, rechts, steht der Vergleich der Kategorien innerhalb jeder Gruppe im Fokus. Für jede Gruppe zeigen die Säulen die Werte einer bestimmten Kategorie, sodass erkannt werden kann, welche die am stärksten bzw. schwächsten ausgeprägte Kategorie in der jeweiligen Gruppe ist. Die beide Diagramme zeigen also die durchschnittlichen Verkaufszahlen der Snackautomaten mit vier Produkten (Schokolade, Nüsse, Salat und Sandwich) pro Tag in vier unterschiedlichen Zeitungsredaktionen. Aus Abbildung 21 ist schnell ersichtlich, dass in Redaktion 4 im Vergleich zu den drei anderen Redaktionen die meiste Schokolade gegessen wird, während die Leute in Redaktion 1 im Vergleich zu den drei anderen Redaktionen die meisten Sandwiches aus dem Automaten holen. 0123456789 Schokolade Nüsse Salat Sandwich Redaktion 1 Redaktion 2 Redaktion 3 Redaktion 4 Abbildung 19 | Gruppierte Säulendiagramme (absolute Häufigkeiten) nach Snackform 257 6.2 Visualisierung <?page no="258"?> Abbildung 20 zeigt dann aber, dass innerhalb der Redaktion 4 trotz des vergleichsweise hohen Schokoladenkonsums trotzdem insgesamt mehr Salat und Sandwiches als Schokolade gekauft werden. Diese Informationen ist auch in Abbildung 19 enthalten, allerdings müssen Betrachter: innen dafür über mehrere Säulen hinweg die jeweils zusammengehörigen Säulen suchen. Kurzum: Die Auswahl der Anordnung - in diesem Fall nach Snacks oder nach Redaktionen - hängt von der Information ab, die anhand der Daten visuell untermauert vermittelt werden soll. 0123456789 Redaktion 1 Redaktion 2 Redaktion 3 Redaktion 4 Schokolade Nüsse Salat Sandwich Abbildung 20 | Gruppierte Säulendiagramme (absolute Häufigkeiten) nach Redaktionen Ähnliche Aufmerksamkeit für die Anordnung gilt es auch beim gesta‐ pelten Säulendiagramm aufzubringen, bei dem die einzelnen Werte zusammengefasst und aufaddiert werden. Der Vorteil dieser Darstellung liegt entsprechend darin, dass die Gesamtzahl der Häufigkeiten in einer Kategorie bzw. Gruppe miterfasst wird. Allerdings wird damit gleichzeitig die Vergleichbarkeit der Einzelwerte erschwert, wie auch das Beispiel zeigt. Denn auch die Abbildungen 21 und 22 visualisieren die Daten des Snackautomatenbeispiels. In Abbildung 21 wird so direkt deutlich, dass insgesamt über alle Redaktionen hinweg Sandwiches den beliebtesten Snack darstellen. Allerdings lässt es sich in dieser Darstellung schwerer ausma‐ chen, ob nun in Redaktion 1 oder 4 die meisten Sandwiches gegessen werden. Dies wiederum lässt sich mit Abbildung 22 deutlich einfacher herausfin‐ den. Aus dieser Darstellung geht hervor, dass Redaktion 1 insgesamt am häufigsten den Snackautomaten bedient (knapp gefolgt von Redaktion 4), 258 6 Aufbereitung <?page no="259"?> aber wieder ist hier deutlich schwerer auszumachen, ob innerhalb der Redaktion 1 dann mehr Nüsse oder mehr Sandwiches bestellt werden. 0 5 10 15 20 25 30 Schokolade Nüsse Salat Sandwich Redaktion 1 Redaktion 2 Redaktion 3 Redaktion 4 Abbildung 21 | Gestapelte Säulendiagramme (absolute Häufigkeiten): Kategorienver‐ gleich 0 5 10 15 20 25 Redaktion 1 Redaktion 2 Redaktion 3 Redaktion 4 Schokolade Nüsse Salat Sandwich Abbildung 22 | Gestapelte Säulendiagramme (absolute Häufigkeiten): Gruppenvergleich Gestapelte Säulendiagramme lassen sich auch mit relativen Anteilen dar‐ stellen. Wieder verschiebt sich dabei der Betrachtungsfokus. Auch den Abbildungen 23 und 24 liegen die gleichen Daten wie den beiden vorhe‐ 259 6.2 Visualisierung <?page no="260"?> rigen Beispieldarstellungen zugrunde. Aus der Abbildung 23 lässt sich nun nicht mehr ablesen, welcher der vier Snacks am häufigsten verkauft wird (aus Abbildung 21 wissen wir, dass sich Sandwiches insgesamt am besten verkaufen). Dafür drückt Abbildung 23 aus, wie sich die relativen Anteile der einzelnen Redaktionen am Verkauf eines Produkts verteilen. Wir bekommen zumindest den Eindruck, dass der Anteil der Redaktion 2 am Schokoladenkonsum etwas höher ist als der von Redaktion 1. Wir sehen im Vergleich der Säulen auch, dass der Anteil, den Redaktion 1 an den Nussverkäufen hat, am höchsten ist. Was an dieser Darstellung allerdings irreführend sein kann, ist, dass die Säulen nicht miteinander verglichen werden können. So ist beispielsweise die Nusssäule der Redaktion 1 größer als die Sandwichsäule der Redaktion 1. Das liegt daran, dass der Anteil der Nussverkäufe in der Redaktion 1 im Verhältnis zur Gesamtzahl der verkauften Nüsse hoch ist. Tatsächlich werden aber in Redaktion 1 absolut mehr Sandwiches als Nüsse aus dem Snackautomaten geholt, was sich aus dieser Darstellung aber nicht ableiten lässt. 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Schokolade Nüsse Salat Sandwich Redaktion 1 Redaktion 2 Redaktion 3 Redaktion 4 Abbildung 23 | Gestapelte Säulen (relative Werte): Gruppenvergleich 260 6 Aufbereitung <?page no="261"?> 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Redaktion 1 Redaktion 2 Redaktion 3 Redaktion 4 Schokolade Nüsse Salat Sandwich Abbildung 24 | Gestapelte Säulen (relative Werte): Kategorienvergleich Balkendiagramm Im Vergleich zum klassischen Säulendiagramm ist das Balkendiagramm in seiner horizontalen Anordnung oft sogar noch einfacher zu erfassen. Es las‐ sen sich untereinander noch mehr Kategorien übersichtlich anordnen (z. B. lange Länderlisten) und die danebenstehenden Kategorienbezeichnungen lassen sich besser im Einklang von links nach rechts mit dem Balken lesen. Auch das Erfassen der Informationen von oben nach unten entspricht dem natürlichen Lesefluss. Ansonsten bieten Balkendiagramme vom Fokus auf die dargestellte In‐ formation ähnliche Möglichkeiten wie die Säulendiagramme, weshalb hier nicht noch einmal jede Unterform im Einzelnen durchgegangen werden soll. Die Abbildung 25 zeigt in der Form eines einfachen bzw. gruppierten Balkendiagramms die durchschnittlichen Verkäufe der Snacks insgesamt (links) bzw. pro Redaktion (rechts). 261 6.2 Visualisierung <?page no="262"?> 0 5 10 15 20 25 30 Schokolade Nüsse Salat Sandwich durchschnittliche Verkäufe 0 2 4 6 8 10 Redaktion 1 Redaktion 2 Redaktion 3 Redaktion 4 Sandwich Salat Nüsse Schokolade Abbildung 25 | Links: einfaches Balkendiagramm. Rechts: gruppiertes Balkendiagramm Linienbzw. Kurvendiagramm Liniendiagramme verbinden Datenpunkte und implizieren damit eine Ver‐ bindung zwischen diesen Punkten. Deshalb werden sie oft benutzt, um zum Beispiel die Entwicklung von Werten über die Zeit darzustellen, z. B. über Tage, Monate, Quartale, Jahre oder gar Jahrzehnte. Die gewählten Zeitpunkte werden auf der x-Achse markiert. Zu jedem Zeitpunkt wird ein Datenpunkt zugeordnet, dessen Größe sich an der y-Achse ablesen lässt. Dieser Datenpunkt könnte ein absoluter Wert sein, z. B. die Anzahl gemel‐ deter Infektionsfälle an einem Tag. Die Abbildung 26 zeigt die für jeden Wochentag (einer zufällig ausgewählten Woche) die Anzahl der insgesamt verkauften Sandwiches an den Snackautomaten der vier Redaktionen. Die Abbildung 27 schlüsselt den Verkauf der Sandwiches pro Tag für die vier Redaktionen einzeln auf. Dabei wird schon deutlich, dass sich überlappende Linien auch schnell unübersichtlich werden können, insbesondere dann, wenn keine stark kontrastreichen Farben benutzt werden können. 262 6 Aufbereitung <?page no="263"?> 0 5 10 15 20 25 30 35 40 Montag Dienstag Mittwoch Donnerstag Freitag Samstag Sonntag Sandwichverkäufe Abbildung 26 | Absolute Anzahl von Sandwichverkäufen im Laufe einer Woche 0 2 4 6 8 10 12 14 16 Montag Dienstag Mittwoch Donnerstag Freitag Samstag Sonntag Redaktion 1 Redaktion 2 Redaktion 3 Redaktion 4 Abbildung 27 | Anzahl der Sandwichverkäufe in vier Redaktionen im Laufe einer Woche Es ist auch denkbar, dass der Datenpunkt einen Mittelwert darstellt, z. B. die Durchschnittstemperatur eines Monats. Gerade bei der Eintragung von Mit‐ telwerten, bietet es sich gegebenenfalls an, ebenso Minimum und Maximum für jeden Datenpunkt zu markieren, um ein Gefühl zu vermitteln, wie dieser zustande kommt aber auch wie sich beispielsweise Extremwerte entwickeln. Auch bei Prognosen in die Zukunft (gerade bei Wettervorhersagen) sieht 263 6.2 Visualisierung <?page no="264"?> man gelegentlich ein solches Feld unter dem eigentlichen Graphen, der die mögliche Spannbreite der zu erwartenden Temperaturen ausdrückt. In der Abbildung 28 repräsentiert die Linie nicht die absoluten Verkäufe einer Woche, sondern die durchschnittlichen Verkaufszahlen (mehrerer Wochen) aus den vier Redaktionen. Die graue Schraffierung markiert für jeden Datenpunkt den kleinsten und den größten Wert, der in die Berechnung dieses Mittelwertes eingegangen ist. Damit kann die Streuung von Daten und vor allem Extremwerte schnell erkannt werden. 0 5 10 15 20 25 30 35 40 45 50 Montag Dienstag Mittwoch Donnerstag Freitag Samstag Sonntag Abbildung 28 | Liniendiagramm mit Durchschnitt (dunkelgraue Linie) und Minimum und Maximum (hellgraue Fläche) Flächendiagramm Flächendiagramme sind eine spezielle Form der Liniendiagramme und zeigen in der Regel ebenfalls Entwicklungen. Über farblich unterschiedli‐ che Füllungen werden gleichzeitig Mengen dargestellt, die kumuliert zur Gesamtmenge beitragen (siehe auch kumulierte Häufigkeiten in Kapitel 5). Im Beispiel des gestapelten Flächendiagramms in Abbildung 29 addieren sich die Sandwichverkäufe der Redaktionen, sodass die gesamte Fläche die komplette Menge der in allen vier Redaktionen verkauften Sandwiches darstellt. Durch unterschiedliche Schraffierung lässt sich aber auch (grob) erkennen, welche Menge in jeder einzelnen Redaktion zur Gesamtmenge 264 6 Aufbereitung <?page no="265"?> beiträgt. Die exakten Zahlen lassen sich allerdings nur erahnen. Es ist aber zum Beispiel erkennbar, dass die Entwicklung der Verkäufe über die Woche hinweg in allen vier Redaktionen recht ähnlich verläuft. Die Stärke des Flächendiagramms liegt also darin, dass Beziehungen in einer Zeitreihe erkennbar werden und einen proportionalen Trend zur Gesamtentwicklung darstellen können. 0 5 10 15 20 25 30 35 40 Montag Dienstag Mittwoch Donnerstag Freitag Samstag Sonntag Redaktion 1 Redaktion 2 Redaktion 3 Redaktion 4 Abbildung 29 | Gestapeltes Flächendiagramm Bei dem zu 100 % gestapelten Flächendiagramm (Abbildung 30) wird mit den relativen Anteilen der Sandwichverkäufe in den vier Redaktionen an der Gesamtmenge der Sandwiches gearbeitet. Diese Form der Visualisierung stellt also die Relation der Einzelwerte an der Gesamtmenge dar und kann so auf Veränderung bei den Anteilen aufmerksam machen. So lässt sich im Beispiel erkennen, dass am Samstag der Anteil der Sandwichverkäufe in den Redaktionen 3 und 4 an der Gesamtmenge der Sandwiches zunimmt, da die jeweiligen Flächen im Vergleich größer werden. Auch hier zeigt sich aber, dass die exakten Informationen schwer ablesbar sind. Welchen Anteil genau samstags die Sandwichkäufe der Redaktion 3 an der Gesamtzahl der am Samstag verkauften Sandwiches haben, lässt sich nicht ablesen. Auch schwierig: der dem 100 %-Wert zugrundeliegende absolute Wert ist jeden Tag ein anderer, was aus dem 100 % gestapelten Flächendiagramm nicht ersichtlich wird. Das kann irreführend sein. Gerade diese Vergrößerung der 265 6.2 Visualisierung <?page no="266"?> Fläche am Samstag bei den Redaktionen 3 und 4 könnte so wirken, als ob dort plötzlich deutlich mehr Sandwiches verkauft werden. Beim Blick zurück in die Abb. 30 lässt sich aber erkennen, dass samstags in allen vier Redaktionen deutlich weniger Sandwiches verkauft werden. Die Gesamtzahl ist sehr viel kleiner als an allen anderen Tagen. Diese Information geht im 100 % gestapelten Flächendiagramm jedoch komplett verloren. 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Montag Dienstag Mittwoch Donnerstag Freitag Samstag Sonntag Redaktion 1 Redaktion 2 Redaktion 3 Redaktion 4 Abbildung 30 | Flächendiagramm (100 %): Wochenverlauf des Sandwichverkaufs in vier Redaktionen Kreisbzw. Tortendiagramm Prinzipiell dienen Kreisdiagramme der Visualisierung von Teilen eines Ganzen. Jedes „Tortenstück“ repräsentiert den Anteil an 100 %. Dieser Anteil wird über den Winkel dargestellt, der proportional zum Prozentwert gewählt wird. Wenn Kreisdiagramme zur Anwendung kommen, sollte sichergestellt werden, dass die Grundvoraussetzung gegeben ist, dass sich alle Teile auch wirklich auf 100 % zusammenaddieren lassen. Aber selbst dann lohnt sich die Überlegung, nicht trotzdem auf eine andere Darstellung zurückzugreifen. Die Informationen im Kreisdiagram sind schwerer zu erfassen als beispielsweise im Balken- oder Säulendiagramm, insbesondere dann, wenn Werte nah beieinander liegen, wie es in Abbildung 31 mit dem Anteil der Nüsse (23 %) und dem Salat (24 %) der Fall ist. Ohne die 266 6 Aufbereitung <?page no="267"?> Beschriftung wäre nicht zu erkennen, welche der Flächen größer ist. Aus einem Balkendiagramm könnte die Information leichter abgelesen werden. Selbst wenn erkannt wird, dass eine Fläche größer ist als die andere, ist es ohne Beschriftung fast unmöglich, eine Einschätzung über den tatsächlichen Größenunterschied abzugeben. Die Variante als „Donut“ (Abbildung 31) lockert das Bild zwar etwas auf und lässt den Kreis weniger massiv aussieht. Die Einschätzung über die Größen bzw. Größenverhältnisse erleichtert dies allerdings nicht. Eine weitere - oft eher verwirrende - Form des Kreisdiagramms ist in der Abbildung 32 dargestellt. Hier wird ein Teil des Kreises noch mal ausgekoppelt und in einem eigenen Kreis dargestellt, wenn zum Beispiel eine Oberkategorie noch aus mehreren Unterkategorien besteht, diese Unterkategorien aber zu klein sind, um sie im eigentlichen Kreis sinnvoll und unterscheidbar darzustellen. „Sonstiges“ wäre hier ein klassisches Beispiel für eine Kategorie, die sich aus mehreren kleinen Kategorien zusammen‐ setzt. Möchte man diese nicht ganz unter den Teppich kehren, kann man sie in einem weiteren Kreisdiagramm auskoppeln, wie es die Abbildung zeigt. Das Problem dann ist allerdings, dass Betrachter: innen gleich zwei Kreisdi‐ agramme verarbeiten müssen. Obwohl die Vollmilchschokolade nur einen kleinen Anteil an allen verkauften Snacks ausmacht, ist ihr Tortenstück doch von allen am größten (es wirkt auch größer als der Teil der Sandwiches), sodass hier ein irreführender Eindruck entstehen kann. Problematischer ist aber noch die Beschriftung des kleinen Kreises. Diese ist absichtlich so gewählt, um auf das Problem aufmerksam zu machen (entspricht jedoch auch der Voreinstellung von Excel): Die angegeben Prozentwerte beziehen sich auf die Basis der insgesamt verkauften Snacks. Die Vollmilchschokolade macht also 7 % aller verkauften Produkte aus. Im kleinen Kreis addieren sich die Prozentwerte der Einzelteile damit aber nicht auf 100 % zusammen, wie es die Konvention für jedes Kreisdiagramm sein sollte. Nähme man allerdings die Schokolade als Basis zur Berechnung des Anteils der Schokoladensorten, ließe sich daraus auch keine aussagekräftige Information ableiten. Wäre die Vollmilchschokolade mit „45 %“ gekennzeichnet, fiele es Betrachter: innen wahrscheinlich ebenso schwer, eine Vorstellung davon zu entwickeln, wie groß der Anteil der Vollmilchschokolade an den insgesamt verkauften Snacks ist. Dies ist aber die relevante Information, die mit der Visualisierung eigentlich transportiert werden sollte. 267 6.2 Visualisierung <?page no="268"?> Schokolade 16% Nüsse 23% Salat 24% Sandwich 37% Das Ganze (Kreis) Schokolade 16% Nüsse 23% Salat 24% Sandwich 37% Das Ganze (Donut) Abbildung 31 | Kreisdiagramme: Kreis und Donut Sandwich 37% Salat 24% Nüsse 23% Vollmilch 7% Zartbitter 6% Weiß 3% Schokolade 16% Teil des Ganzen Abbildung 32 | Kreisdiagramm: Teil des Ganzen Streudiagramm (Scatterplot) Streudiagramme sind im Verlauf dieses Buches schon das eine oder andere Mal aufgetaucht. Diese Art der Diagramme eignet sich zur Darstellung 268 6 Aufbereitung <?page no="269"?> von Zusammenhängen zwischen zwei Variablen. Zu jeder Ausprägung der unabhängigen Variablen x wird die abhängige Variable y zugeordnet, sodass gegebenenfalls bereits Beziehungen zwischen den beiden Variablen sichtbar werden. Der kognitive Aufwand, der mit dem Verständnis eines Streudiagramms einher geht, ist allerdings schon etwas höher. Betrachter: in‐ nen müssen direkt verstehen, dass hier zwei Merkmale zusammengedacht werden müssen. Sie müssen den möglichen Zusammenhang erkennen und Sinnhaftigkeit darin ausmachen. Gerade dann, wenn es sich auch nicht um einen einfachen linearen Zusammenhang handelt (wie in Abbildung 33), steigt der Anspruch an die Interpretationsleistung der Betrachter: innen. 0 1 2 3 4 5 6 7 0 0,5 1 1,5 2 2,5 3 3,5 4 Abbildung 33 | Streudiagramm zur Visualisierung des Zusammenhangs zwischen zwei Merkmalen Diese zu erbringende Interpretationsleistung kann auf unterschiedliche Art und Weise unterstützt werden. Eine Trendlinie, wie in Abbildung 34 einge‐ zeichnet, leitet den Blick und gibt Hinweise darauf, wie die Daten zu lesen sind. Ohne weiteren Kontext würde aber auch dieser komplexere Zusam‐ menhang wahrscheinlich schwierig zu verstehen sein. Eine Erklärung im Text oder zumindest ein aussagekräftiger Untertext, der die Hauptaussage des Diagramms auf den Punkt bringt, wäre hier im konkreten Fall sicher nötig. 269 6.2 Visualisierung <?page no="270"?> 0 1 2 3 4 5 6 7 0 0,5 1 1,5 2 2,5 3 3,5 4 Abbildung 34 | Streudiagramm mit Trendlinie Eine weitere Hilfestellung können auch im Streudiagramm farbliche Mar‐ kierungen leisten. Wenn sich zum Beispiel Gruppen bzw. sogenannte Cluster ergeben, aus Fällen, die sich untereinander ähnlicher sind (siehe dazu auch Abschnitt Clusteranalyse im Kapitel 5) oder wenn bestimmte Fälle durch ein gemeinsames externes Merkmal verbunden sind (weil es sich zum Beispiel um die Länder eines gemeinsamen Kontinents handelt). In Abbildung 35 sind drei unterschiedliche Datenwolken markiert, die theoretisch bei einer solchen Anordnung der Punkte sinnvolle Gruppierun‐ gen bilden könnten, wenn sich dafür mathematisch bzw. inhaltlich eine Erklärung liefern lässt. Auch hier gilt allerdings, dass eine weitere interpre‐ tatorische Hilfestellung im Text (z. B. die inhaltliche Charakterisierung der Gruppen) angebracht sein dürfte. Zum eigenen Verständnis eines Streudiagramms kann es helfen, sich die Fläche in vier imaginäre Quadranten aufzuteilen und diese Quadranten dann anhand ihrer Kombination aus x und y Werten zu definieren. Bei einem Streudiagramm mit Bruttoinlandsprodukt (BIP) als Variable auf der x-Achse und den Ausgaben für Bildung in einem Land auf der y-Achse entstünden so vier unterschiedliche Flächen, die bei der Interpretation eingetragener Datenpunkte helfen können: (1) Länder mit geringem BIP und geringen Bildungsausgaben, (2) Länder mit geringem BIP und hohen 270 6 Aufbereitung <?page no="271"?> Bildungsausgaben, (3) Länder mit hohem BIP und hohen Bildungsausgaben, (4) Länder mit hohem BIP und geringen Bildungsausgaben). 0 1 2 3 4 5 6 7 0 0,5 1 1,5 2 2,5 3 3,5 4 Abbildung 35 | Streudiagramm mit Clustermarkierung Blasendiagramm Das Blasendiagramm führt als Erweiterung des Streudiagramms - also zusätzlich zu y- und x-Achse - eine weitere Dimension ein, indem die Größe des Punktes, bzw. der Blase, die Ausprägung eines dritten Merkmals repräsentiert. (siehe Beispiel Abbildung 36). Denkbar wäre zum Beispiel, dass jede Blase eine bestimmte Stadt repräsentiert, die x-Achse die Ausgaben für Schulsozialarbeit, die y-Achse die Anzahl der Schulabbrecher: innen dar‐ stellt und durch die Größe der Blase zusätzlich noch das durchschnittliche Pro-Kopf-Einkommen der Stadtbevölkerung abgebildet. Es ließe sich sogar noch die Farbe der Blasen als weitere Dimension einbauen: So könnten Städte in gleichen Bundesländern oder Regionen dieselbe Farbe bekommen, wenn zum Beispiel darauf hingewiesen werden soll, dass sich Städte eines Bundeslandes/ einer Region in besonderem Maße zusammen gruppieren. Wie die einfachen Streudiagramme brauchen aber auch Blasendiagramme in der Regel etwas mehr Informationen zum Kontext, um eine sichere Inter‐ pretation zu ermöglichen. In welchem Zusammenhang stehen die bekannten 271 6.2 Visualisierung <?page no="272"?> Dimensionen mit dem dritten Merkmal? Vielleicht zeigt die Visualisierung, dass diejenigen Städte mit hohen Ausgaben für Schulsozialarbeit und hohen Schulabrecher: innen-Quoten ein geringes durchschnittliches Pro-Kopf-Ein‐ kommen haben, wohingegen Städte mit niedrigen Ausgaben für Schulsozial‐ arbeit, geringen Schulabrecher: innen-Quoten ein hohes durchschnittlichen Pro-Kopfeinkommen aufweisen. Dann kann es - zugegeben etwas plakativ ausgedrückt - vielleicht nötig sein, deutlich zu machen, dass nicht die Schulsozialarbeit der Grund für die hohen Schulabrecher: innen-Zahlen sowie das niedrige durchschnittliche Pro-Kopf-Einkommen ist. Besondere Vorsicht ist geboten, wenn sich Blasen überlappen, da in solchen Fällen die Darstellung schnell unübersichtlich wird. Zur besseren Orientierung bietet sich die Beschriftung der einzelnen Blasen an. Auch die farbliche Markierung von Blasen zur Verdeutlichung eines weiteren (gemeinsamen) Merkmals, z. B. der Zugehörigkeit von Ländern zu einer Gruppe, kann dem Verständnis helfen. Fall C Fall B Fall A Fall E Fall D Fall F Fall G 0 1 2 3 4 5 6 7 0 0,5 1 1,5 2 2,5 Abbildung 36 | Blasendiagramm zur Visualisierung des Zusammenhangs von drei Merk‐ malen 272 6 Aufbereitung <?page no="273"?> Tree Map Tree Maps (oder auch Kacheldiagramme) verwenden Flächen, um die Größen von Kategorien relativ zueinander und zum Ganzen auszudrücken. Auch dienen sie damit oft zur Visualisierung von hierarchischen Strukturen. Das Beispiel greift den Snack-Konsum in den vier Redaktionen erneut auf, der sich auf diese Weise vergleichen lässt. In Abbildung 37 sind die Snack-Kategorien innerhalb einer Redaktion der Größe nach angeordnet, sodass immerhin auf den ersten Blick erkennbar sein sollte, welcher jeweils der größte Posten ist und bei welchen Snacks sich die Redaktionen stärker unterscheiden. In einer farbigen Darstellung ließe sich dies zum Beispiel auch über eine hellere bzw. dunklere Einfärbung der Felder erzielen. Einzel‐ heiten aus dieser Art der Darstellung abzuleiten, ist allerdings schon etwas schwieriger. So sind Größenunterschiede zwischen einzelnen Kategorien schwer auszumachen. Abbildung 37 | Tree Map Word Cloud Word Clouds („Wortwolken“) sind im statistischen Sinne weniger aussage‐ kräftige Diagramme. Sie geben in der Regel lediglich einen Eindruck über das 273 6.2 Visualisierung <?page no="274"?> relative Vorkommen von Wörtern in einem Text oder zusammengestellten Textkorpus. Das Beispiel in Abbildung 38 basiert auf dem Text dieses Kapitels. Je größer ein Wort dargestellt ist, desto häufiger wurde es im Text verwendet. In die Erstellung ist der gesamte Fließtext eingegangen, entspre‐ chend unübersichtlich wird die Darstellung dann aber auch schon, weil viele selten vorkommenden Wörter und Ausdrücke trotzdem einfließen. Sicherlich bekommen Betrachter: innen einen Eindruck, worum es gehen könnte, für einen analytischen Einsatz eignen sich Word Clouds allerdings selten. Abbildung 38 | Word Cloud auf Grundlage der Texte dieses Kapitels Netzdiagramm Die Darstellung im Netzdiagramm bietet sich zum Beispiel an, wenn für wenige Fälle oder Gruppen von Fällen mehrere Eigenschaften gleichzeitig dargestellt und verglichen werden sollen. Die Eigenschaften sollten dabei in derselben Maßeinheit angegeben sein bzw. auf eine gemeinsame Skala zurückgreifen. Auch Prozentwerte und Gruppendurchschnitte bei den je‐ weiligen Eigenschaften sind dabei möglich. So ließen sich zum Beispiel Persönlichkeitsmerkmale unterschiedlicher Typen visualisieren oder die durchschnittliche Zustimmung zu unterschiedlichen politischen Maßnah‐ men von Anhänger: innen unterschiedlicher Parteien. 274 6 Aufbereitung <?page no="275"?> 05 10 15 20 25 30 35 Eigenschaft 1 Eigenschaft 2 Eigenschaft 3 Eigenschaft 4 Eigenschaft 5 Fall 1 Fall 2 Fall 3 Abbildung 39 | Netzdiagramm zum Vergleich von fünf Eigenschaften bei drei Fällen Statt eines Vergleichs unterschiedlicher Eigenschaften für mehrere Fälle kann das Netzdiagramm aber auch zum Vergleich einer Eigenschaft von ei‐ nem Fall über unterschiedliche Jahre angewendet werden, insbesondere zum Beispiel, wenn es einen Soll- und einen Ist-Wert für die Vergleichsdimension gibt (siehe Abbildung 39). Auf diese Weise lässt sich recht schnell erfassen, in welchen Jahren das gesetzte Maß erreicht, übertroffen (im Beispiel in den Jahren 2016-2018) oder doch unterboten (im Beispiel 2019-2020) wurde. 05 10 15 20 25 30 35 Jahr 2020 Jahr 2019 Jahr 2018 Jahr 2017 Jahr 2016 Soll-Wert Ist-Wert Abbildung 40 | Netzdiagramm zum Vergleich von Ist- und Soll-Wert über fünf Jahre 275 6.2 Visualisierung <?page no="276"?> Netzwerk Netzwerkgrafiken lassen ebenfalls viel Gestaltungsspielraum, je nachdem, was mit ihnen ausgesagt werden soll (siehe dazu auch Netzwerkanalyse im Kapitel 5). In der Regel werden Netzwerkgrafiken dazu genutzt, Beziehun‐ gen von Objekten darzustellen. Dazu kann die gerichtete Verbindung betont werden, beispielsweise durch die Verwendung von Pfeilen. Auch kann die Relevanz jedes einzelnen Punktes durch die Größe oder Einfärbung des Punktes markiert werden. Lassen sich Gruppen innerhalb eines Netzwerkes erkennen? Diese könnten durch die Länge der Linien mit einem gewissen Abstand symbolisiert werden oder in gleicher Farbe eingefärbt. Das Beispiel basiert auf einer Befragung von Journalist: innen in einem Recherchenetzwerk. Diese sollten andere Medien nennen, mit denen sie innerhalb des Netzwerkes besonders eng zusammenarbeiten. Jeder Punkt (Knoten) symbolisiert daher ein Medium. Die Größe der Punkte variiert - je größer desto häufiger wurde das Medium genannt. Entsprechend zeigt sich, dass einige Medien im Netzwerk eine zentralere Rolle spielen. Unterschiedliche Graustufen verweisen darüber hinaus noch auf regionale Netzwerke innerhalb des Gesamtnetzwerks. Abbildung 41 | Schematische Darstellung einer Netzwerkgrafik mit unterschiedlich großen und farbigen Knoten. (Die Größe der Knoten entspricht der Häufigkeit der Nennungen; unterschiedliche Farbgebung symbolisiert regionale Netzwerke.) 276 6 Aufbereitung <?page no="277"?> Heat Map Unter dem Oberbegriff der Heat Map lassen sich unterschiedliche Arten der Visualisierung zusammenfassen. In der Regel ist diesen gemeinsam, dass mithilfe unterschiedlicher Farbabstufungen die Aufnahme von Infor‐ mationen visuell erweitert werden soll. Dies lässt sich auch auf Tabellen anwenden, wie im Beispiel der Tabelle 16. Hier wurden die Zellen unter‐ schiedlich stark in Grautönen unterlegt, sodass die größten Werte auf den ersten Blick erkennbar sind. Redaktion 1 Redaktion 2 Redaktion 3 Redaktion 4 Schokolade 10 % 18 % 14 % 21 % Nüsse 35 % 35 % 7 % 11 % Salat 15 % 18 % 36 % 32 % Sandwich 40 % 29 % 43 % 37 % Tabelle 18 | Heat Map in Tabellenform Eine Unterform der Heat Map ist die Chloroplethenkarte (auch Flächenkar‐ togramm), bei der die Flächen einer Karte durch unterschiedliche Farbge‐ bung Informationen visuell transportieren. Die dabei zugrundeliegenden Daten sind in der Regel entweder ordinal oder intervallskaliert, sodass sie sich in eine klare Reihenfolge bringen lassen, nach der sich die Intensität der Farbgebung richten kann. Bei der Erstellung einer solchen Grafik sollte dann aber auch beachtet werden, dass starke Farbkontraste auch drastischere Unterschiede implizieren können und man daher tatsächliche Abstände zwischen Werten wohlüberlegt auf die Farbgebung abstimmen sollte. Die Grundlage für Chloroplethenkarten sollten außerdem relative statt absolute Werte sein, weil sonst der Vergleich zwischen mehr oder weniger bevölkerungsdichten Regionen nicht sinnvoll zu erkennen ist. 277 6.2 Visualisierung <?page no="278"?> Abbildung 42 | Unterform der Heat Map: Choroplethenkarte 278 6 Aufbereitung <?page no="279"?> 6.2.2 Interaktivität Die Aufbereitung einer Datenanalyse für eine Onlineumgebung bietet zusätzliche Möglichkeiten zum Einbau interaktiver Elemente mithilfe derer Nutzer: innen sich selbst bzw. eigene spannende Geschichte finden können. Interaktivität kann das weitere Eintauchen in die Daten ermöglichen und Nutzer: innen das Angebot machen, sich die spezifischen Aspekte herauszu‐ suchen, die sie selbst betreffen oder besonders interessieren. Die während der Covid-19-Pandemie wohl am häufigsten verwendete interaktive Daten‐ aufbereitung stellt die Karte (z. B. Deutschlandkarte) dar, in die man sich bis auf die lokalen Ebenen einzoomen kann, um Infiziertenzahlen, Todesraten und Inzidenzwerte anzeigen zu lassen. Eine derartige Aufbereitung ermög‐ licht es, das große Ganze zu erkennen, sich aber auch die relevanten und interessanten Details zu vergegenwärtigen. Gerade die regionale und lokale Aufschlüsselung kann die Bedeutung datenjournalistischer Aufbereitungen für Gruppen und Gemeinden erhöhen. ► Checkliste ■ Klarheit der Kernaussage der Daten ■ Wahl der Form ■ Abwägung der Zielgruppe ■ Story und Protagonist*innen ■ Korrekte und übersichtliche Nutzung von Zahlen im Text ■ Effektive Visualisierung □ Fokus auf Kernbotschaft und Hierarchisierung von Informationen □ Zugänglichkeit □ Förderung des Verständnisses durch grafische Konventionen ■ Interaktivität □ Aufbereitung von Details, die sich Nutzer: innen durch Auswahl selbst erschließen können □ Große Zusammenhänge durch Aufschlüsselung von Details besser verständlich machen □ Zielgruppenspezifische Ansprache ermöglichen 279 ► Checkliste <?page no="280"?> Literatur Insbesondere Journalist: innen als Zielgruppe haben diese Werke von Al‐ berto Cairo: Cairo, A. (2016). The truthful art: Data, charts, and maps for communication. New Riders. Cairo, A. (2019). How charts lie: Getting smarter about visual information (1st ed.). New York, NY: W. W. Norton & Company, Inc. Etwas allgemeiner aber mit wertvollen Hinweisen für effektive Visualisie‐ rung: Nussbaumer Knaflic, C. (2017). Storytelling mit Daten: Die Grundlagen der effek‐ tiven Kommunikation und Visualisierung mit Daten ([1. Auflage]). München: Verlag Franz Vahlen. Healy, K. J. (2019). Data visualization: A practical introduction. Princeton, Oxford: Princeton University Press. Viele eindrucksvolle Beispiele, wie man es besser nicht machen sollte, finden sich hier: Quatember, A. (2015). Statistischer Unsinn. Berlin, Heidelberg: Springer Berlin Heidelberg. 280 6 Aufbereitung <?page no="281"?> 7 Abschluss Anders als viele andere Statistiklehrbücher hatte dieses Buch zum Ziel, einen Überblick über den gesamten statistischen Prozess zu vermitteln statt abs‐ trakt das „reine Rechnen“ zu behandeln. Für (angehende) Journalist: innen ist es mindestens genauso wichtig, die richtigen Fragen zu stellen und Probleme zu identifizieren, die mithilfe von Daten beantwortet werden können. Um mithilfe einer Datenanalyse einen Beitrag zur gesellschaftlichen Debatte zu leisten, müssen Journalist: innen die Qualität der zugrundeliegenden Daten sicherstellen bzw. beurteilen können, um Fehlinformationen entgegenzu‐ wirken. Fake-Statistiken identifizieren und widerlegen zu können ist heute eine wichtige journalistische Leistung, zu der es die nötigen Fähigkeiten braucht. Aber auch aus qualitativ hochwertigen komplexen Daten und deren Analysen richtige Schlüsse ziehen zu können, ist ein wichtiger Bestandteil einer fundierten Datenkompetenz („Data Literacy“). Die Fähigkeit, auch selbst Daten erheben zu können, wenn keine offiziel‐ len Statistiken vorhanden sind, kann dabei helfen „Data Gaps“ zu schließen. So kann Datenjournalismus etwa auf lokaler oder regionaler Ebene Neues zu einer relevanten Berichterstattung für einzelne Gemeinden beizutragen oder gezielte Angebote für spezifische Zielgruppen zu schaffen. 7.1 Tools Die konkrete technische Umsetzung der in diesem Buch vorgestellten Methoden und Verfahren mithilfe von Programmen, Tools oder Program‐ miersprachen wurde vor dem Hintergrund ausgespart, dass es keinen einheitlichen Zugang zu dieser Frage gibt. Das Angebot an Analyse- und Visualisierungssoftware ist breit und je nach Art und Komplexität des Problems und der Daten können die Bedürfnisse unterschiedlich sein, mit welchem Programm man am besten, aber auch effektivsten zur Lösung kommen kann. Sicherlich spielen auch die Vorkenntnisse der Einzelnen, die Absprachen im Team sowie der Zugang zu Lizenzen bei der Wahl der Tools eine wichtige Rolle. Auch kann sich die Nutzung bestimmter Programme im Laufe der Zeit verändern, je nachdem, wie sich bestimmte Programme <?page no="282"?> 37 Es gab die Möglichkeit weitere Programme in einem offenen Feld anzugeben und die jeweilige Nutzungsregelmäßigkeit zu bewerten. Sieben Befragte gaben dabei an, regelmäßig Python Pandas zu nutzen. weiterentwickeln und welche Nützlichkeit auch neue Angebote für die (daten-) journalistischen Herausforderungen bieten. Zum Abschluss soll hier trotzdem eine kleine Momentaufnahme der aktuell meistgenutzten Analyseprogramme, Programmiersprachen und Vi‐ sualisierungstools präsentiert werden. Dazu wurde im Dezember 2020 eine kurze Umfrage unter Datenjournalist: innen durchgeführt, die erfassen sollte, auf welche Werkzeuge zur technischen Umsetzung in der Praxis zurückgegriffen wird. Auf 5er Skalen mit den Eckpunkten zur Nutzung zwi‐ schen „nie“ und „regelmäßig“ sollten die Befragte bestimmte Programme, Codesprachen und Visualisierungstool für die Relevanz ihrer eigenen Arbeit einschätzen. 30 Datenjournalist: innen haben sich an der Umfrage beteiligt, die mithilfe des Angebots von soscisurvey.de erstellt und sowohl über datenjournalistische E-Mail-Verteiler als auch Twitter verbreitet worden ist. Die Abbildungen zeigen die Ergebnisse und machen deutlich, welches die meistgenutzten Programme sind. Fundierte Kenntnisse zum Umgang mit dem Microsoft Office Programm Excel sind demnach definitiv empfeh‐ lenswert. Auch das Freeware Programm R-Studio ist weit verbreitet und in Kombination mit der Programmiersprache R ein Tool, das zwar höhere Hürden für die Einarbeitung setzt, dann allerdings Lösungsmöglichkeiten für fast alle statistischen Herausforderungen bietet. Die in der Wissenschaft weit verbreiteten Statistikprogramme Stata und SPSS dagegen finden sicher‐ lich auch aufgrund von Lizenzhürden in der journalistischen Praxis kaum Anwendung. 37 282 7 Abschluss <?page no="283"?> 3,4 34,4 42,4 62,5 100 96,6 65,6 57,6 37,5 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Stata SPSS Google Spreatsheets R-Studio Excel regelmäßige Nutzung seltene/ keine Nutzung Abbildung 43 | Analysesoftware (Angaben in Prozent, N = 31) Bei den Programmiersprachen ist das Ergebnis gemischter. Will man Daten aus dem Web erheben bzw. nutzbar machen, bietet es sich an, einige gute Grundkenntnisse in HTML vorweisen zu können. Mit Python und R lassen sich auch komplexere automatisierte Verfahren durchführen. CSS dient vornehmlich der Programmierung gestalterischer Elemente, während Java‐ Script die Möglichkeiten von HTML und CSS um dynamischere Elemente erweitert, wie beispielsweise, Daten auf einer Website aktualisieren zu lassen, ohne das Browserfenster neu zu laden. Da Webseiten in der Regel aus mehreren Elementen bestehen, die sowohl auf HTML, CSS und JavaScript zurückgreifen, können Grundkenntnisse in allen Sprachen nützlich sein, um im Code einer Website gezielt die Elemente identifizieren zu können, die für die eigene Datenerhebung benötigt werden. 283 7.1 Tools <?page no="284"?> 36,7 43,3 45,2 46,7 56,7 63,3 56,7 54,8 53,3 43,3 Java Script CSS R Python HTML regelmäßige Nutzung seltene/ keine Nutzung Abbildung 44 | Programmiersprachen (Angaben in Prozent, N = 31) Bei den Tools zur Datenvisualisierung gibt es einen klaren Gewinner: Datawrapper. Das Online-Angebot bietet in einer kostenlosen Version bereits weitreichende Funktionen und nutzt oder verkauft weder die zur Visualisierung hochgeladenen Daten für eigene Zwecke, noch werden die erstellten Produkte oder die Nutzer: innen getrackt. Das Angebot wurde unter anderem von Journalist: innen mitentwickelt und entsprechend auf die Bedürfnisse abgestimmt. Neben einer intuitiven Handhabung bietet es vor allem die Möglichkeit zum einfachen Probieren und Wechseln zwischen unterschiedlichen Visualisierungsvarianten. Für die anderen aufgelisteten Tools Flourish, Tableau und Adobe Illustrator werden Lizenzen benötigt, was sicherlich ein Grund für die geringere Nutzung im Vergleich zu Datawrapper darstellt. Die Abbildungen für dieses Kapitel wurden zu Beispielzwecken mit Datawrapper erstellt und zeigen das schlichte und klare Design, das einem in der Defaulteinstellung angeboten wird. 284 7 Abschluss <?page no="285"?> 21,4 45,2 46,7 79,3 100 78,6 54,8 53,3 20,7 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% RawGraphs Adobe Illustrator Tableau Flourish Datawrapper regelmäßige Nutzung seltene/ keine Nutzung Abbildung 45 | Visualisierungssoftware (Angaben in Prozent, N = 31) 7.2 Übersicht statistischer Prozess Abschließend soll der statistische Prozess noch einmal überblickt werden, um die Arbeitsschritte für die unterschiedlichen Szenarien der Arbeit mit Daten für Journalist: innen darzustellen. Egal ob Journalist: innen Daten komplett selbst erheben, bereits erhobene Daten im Rahmen einer Recher‐ che heranziehen oder eine vollständig ausgearbeitete Studie vorgelegt be‐ kommen, das Wissen über die Schritte des statistischen Prozesses erleichtert und strukturiert die eigene Arbeit. Was entsprechend in jedem Schritt durch‐ geführt werden sollte, fasst abschließend die folgende Tabelle zusammen. 285 7.2 Übersicht statistischer Prozess <?page no="286"?> Daten selbst erheben (ggf. Zusammenarbeit mit Forschungseinrich‐ tung) Mit existierenden Daten arbeiten Erhebungen und Stu‐ dien nutzen (veröffentlichte Stu‐ dien/ im Rahmen einer Recherche) Daten recherchieren (im Rahmen eigener Re‐ cherche) Daten bekommen (offizielle Veröffentli‐ chungen, geleakte Da‐ ten) Problem Ein statistisches Pro‐ blem erkennen und for‐ mulieren Ein statistisches Pro‐ blem erkennen und for‐ mulieren Statistisches Problem antizipieren: • Zweck einer Daten‐ erhebung nachvoll‐ ziehen • Ggf. eigenes statis‐ tisches Problem er‐ kennen und formu‐ lieren Erkennen, welches sta‐ tistische Problem zu‐ grunde liegt und durch Studie/ Erhebung gelöst werden soll Relevanz und Reichweite Relevanz und Reich‐ weite des Problems de‐ finieren Relevanz und Reich‐ weite des Problems de‐ finieren Relevanz und Reich‐ weite des Problems und der Daten nachvollzie‐ hen Relevanz und Reich‐ weite des Problems und der Studie/ Erhebung nachvollziehen Quellenkritik Urheber: innen der Da‐ ten Urheber: innen der Ver‐ öffentlichung Autor: innen Institutionen Kontextwissen • Definitionen und Konzepte Kontextwissen erarbei‐ ten Kontextwissen erarbei‐ ten Kontext nachvollziehen Kontext nachvollziehen 286 7 Abschluss <?page no="287"?> • Stand der Wissen‐ schaft/ frühere Erhe‐ bungen Modell Modell erstellen: Ver‐ mutungen/ Hypothesen formulieren Modell erstellen: Ver‐ mutungen/ Hypothesen formulieren Vermutungen aufstel‐ len (Modell)/ zugrunde‐ liegende Vermutungen prüfen Vermutungen prüfen (Modell prüfen), An‐ nahmen und Maßstäbe reflektieren Plan Erhebungsmethode Erhebungsmethode festlegen Erhebungsmethode re‐ flektieren (welche Art von Daten werden be‐ nötigt → inhaltlich und formal) Erhebungsmethode re‐ flektieren (Begründung für Art der Datenerhe‐ bung prüfen) Erhebungsmethode re‐ flektieren (Begründung für Art der Datenerhe‐ bung prüfen) Datenrecherche Datenrecherche: • Open Data Portale • Anfragen bei Organisatio‐ nen/ Institutionen • Wissenschaftliche Netzwerke • Webscraping • Crowdsourcing Quellenkritik Konzepte und Defini‐ tionen prüfen Ggf. Datenverifikation und Recherche zusätzli‐ cher Datenquellen zur Überprüfung der Plau‐ sibilität Ggf. Recherche zusätz‐ licher Datenquellen zur Überprüfung der Plau‐ sibilität Messinstrument Messinstrument entwi‐ ckeln Messinstrument nach‐ vollziehen Messinstrument nach‐ vollziehen Messinstrument nach‐ vollziehen 287 7.2 Übersicht statistischer Prozess <?page no="288"?> • Operationalisierung der Konzepte • Skalenqualität • Konzepte operatio‐ nalisieren • geprüfte Skalen re‐ cherchieren • Herleitung der Ope‐ rationalisierung • Nutzung geprüfter Skalen • Herleitung der Ope‐ rationalisierung • Nutzung geprüfter Skalen • Herleitung der Ope‐ rationalisierung • Nutzung geprüfter Skalen Zusatzmaterial Fragebogen/ Code‐ buch/ Laboranweisung zusammenstellen Zusatzmaterial prüfen (z. B. Anweisun‐ gen für Interviewer: in‐ nen/ Codierer: innen) Zusatzmaterial prüfen (z. B. Anweisun‐ gen für Interviewer: in‐ nen/ Codierer: innen) Zusatzmaterial prüfen (z. B. Anweisun‐ gen für Interviewer: in‐ nen/ Codierer: innen) Pretest Planen Durchführen Auswerten Angaben prüfen Angaben prüfen Angaben prüfen Stichprobe • Grundgesamtheit • Art der Stichprobe • Stichprobenziehung • Stichprobengröße • Aufgreifkriterium • Rücklaufquote Stichprobenplanung vornehmen • Grundgesamtheit definieren • Art der Stichprobe bestimmen • Nötige Stichproben‐ größe ermitteln • Aufgreifkriterium definieren • Ggf. Ansprache (schriftlich, telefo‐ nisch, online) Stichprobenplanung nachvollziehen • Angaben prüfen Stichprobenplanung nachvollziehen • Angaben prüfen Stichprobenplanung nachvollziehen • Angaben prüfen Training Training für Inter‐ viewer: innen, Codie‐ rer: innen • Planen Ggf. Testlauf für Daten‐ sicherung Angaben überprüfen Angaben überprüfen 288 7 Abschluss <?page no="289"?> • Durchführen • Kontrollieren Daten Monitoring der Erhe‐ bung (Fehler frühzeitig identifizieren) • Rücklaufquote/ Non-Response • Präzision des Auf‐ greifkriteriums Monitoring der Daten‐ sicherung Datenmanagement Datensicherung und Lagerung Datensicherung und Lagerung Datensicherung und Lagerung Mögliche Datenein‐ sicht prüfen (Open Data? ) Datenbereinigung und -aufbereitung Datenbereinigung • Prüfung der Daten‐ qualität • Fehlende Werte • Unplausible Werte • Doppelte Einträge Datenaufbereitung • Strukturierung des Datensatzes • Umrechnen/ Anglei‐ chen von Variablen Datenbereinigung (ggf. bereits vorgenom‐ mene Datenbereini‐ gung nachvollziehen) • Prüfung der Daten‐ qualität • Fehlende Werte • Unplausible Werte • Doppelte Einträge Datenaufbereitung • Strukturierung des Datensatzes • Umrechnen/ Anglei‐ chen von Variablen Datenaufbereitung und -bereinigung (ggf. bereits vorge‐ nommene Datenberei‐ nigung nachvollziehen) • Prüfung der Daten‐ qualität • Fehlende Werte • Unplausible Werte • Doppelte Einträge Datenaufbereitung • Strukturierung des Datensatzes • Umrechnen/ Anglei‐ chen von Variablen Wenn möglich, Daten‐ bereinigung und Auf‐ bereitung nachvollzie‐ hen • Originaldaten und Code anfordern 289 7.2 Übersicht statistischer Prozess <?page no="290"?> Analyse Deskription Datensatz erkunden (deskriptive Auswer‐ tungen) • Verteilungen • Streuung Datensatz erkunden (deskriptive Auswer‐ tungen) • Verteilungen • Streuung Datensatz erkunden (deskriptive Auswer‐ tungen) • Verteilungen • Streuung Rechnungen nachvoll‐ ziehen (wenn möglich: Code einsehen) • Angemessenheit der Auswertungs‐ methoden • Plausibilität der Er‐ gebnisse Modellprüfung • Wahl der Auswer‐ tungsmethode • Prüfung der Voraus‐ setzungen Auswertungen zur Mo‐ dellprüfung Auswertungen zur Mo‐ dellprüfung Auswertungen zur Mo‐ dellprüfung Plausibilität der Mo‐ dellprüfung nachvoll‐ ziehen Inferenzstatistische Prü‐ fung Inferenzstatistische Prüfung und Bewer‐ tung der Ergebnisse Inferenzstatistische Prüfung und Bewer‐ tung der Ergebnisse Inferenzstatistische Prüfung und Bewer‐ tung der Ergebnisse Inferenzstatistische Prüfung und Bewer‐ tung der Ergebnisse nachvollziehen Fazit Interpretation der Er‐ gebnisse im Hinblick auf ursprüngliches Pro‐ blem Interpretation der Er‐ gebnisse im Hinblick auf ursprüngliches Pro‐ blem Interpretation der Er‐ gebnisse im Hinblick auf ursprüngliches Pro‐ blem Schlussfolgerungen prüfen Reichweite und Gültig‐ keit der Ergebnisse Reflexion Reflexion von Reich‐ weite und Gültigkeit (Limitationen) Reflexion von Reich‐ weite und Gültigkeit (Limitationen) Reflexion von Reich‐ weite und Gültigkeit (Limitationen) Reflexion von Reich‐ weite und Gültigkeit (Limitationen) Aufbereitung Aufbereitung Aufbereitung Aufbereitung Aufbereitung 290 7 Abschluss <?page no="291"?> • Auswahl Darstel‐ lungsform • Auswahl Informatio‐ nen • Visualisierung Hintergrunddarstellung Hintergrunddarstel‐ lung • Veröffentlichung Material, Daten, Code • Quellen • Vorgehen Hintergrunddarstel‐ lung • Veröffentlichung Material, Daten, Code • Quellen • Vorgehen Hintergrunddarstel‐ lung • Veröffentlichung Material, Daten, Code • Quellen • Vorgehen Verweise auf Original‐ studie/ Erhebung und ggf. Hintergrundmate‐ rial 291 7.2 Übersicht statistischer Prozess <?page no="293"?> Literaturverzeichnis American Psychological Association (2020). Publication manual of the American Psychological Association: The official guide to APA style (7. edition) (2020). Washington D.C.: American Psychological Association. Adamek, T. (2016). Statistik für Anwender. Berlin, Heidelberg: Springer Berlin Heidelberg. https: / / doi.org/ 10.1007/ 978-3-662-44148-0 Ahmad, M. I. (2016). The magical realism of body counts: How media credulity and flawed statistics sustain a controversial policy. Journalism: Theory, Practice & Criticism, 17(1), 18-34. https: / / doi.org/ 10.1177/ 1464884915593237 Arnold, P. (2007). What about the P in the PPDAC cycle? An initial look at posing questions for statistical investigation. Education, 55. Ballov, K. (1913). Grundriss der Statistik enthält Bevölkerungs - Wirtschafts-, Finanz - und Handels - Statistik (Reprint 2018). Berlin, Boston: de Gruyter; Guttentag Verlagsbuchhandlung. Baur, F., Bamberg, G., & Krapp, M. (2015). Statistik (17th ed.). Oldenbourgs Lehr- und Handbücher der Wirtschafts- U. Sozialwissenschaften Ser. Berlin/ Boston: de Gruyter. Retrieved from https: / / ebookcentral.proquest.com/ lib/ gbv/ detail.action ? docID=5117541 Benesch, M., & Raab-Steiner, E. (2018). Klinische Studien lesen und verstehen (2., aktualisierte und überarbeitete Auflage). UTB: Vol. 3982. Wien: facultas. Retrieved from www.utb-studi-e-book.de/ 9783838548968 Booth, W. C., Colomb, G. G., & Williams, J. M. (2003). The craft of research (2nd). Chicago: University of Chicago Press. Retrieved from www.worldcat.org/ oclc/ 5 0643834 Bosbach, G., & Korff, J. J. (2012). Lügen mit Zahlen: Wie wir mit Statistiken manipu‐ liert werden (4. Auflage, Taschenbucherstausgabe). Heyne: Vol. 60248. München: Heyne. Bosch, K. (2018). Formelsammlung Statistik (Reprint 2018). Berlin, Boston: Olden‐ bourg Wissenschaftsverlag. https: / / doi.org/ 10.1515/ 9783486813302 Bosch, K. (2018). Statistik-Taschenbuch (3., verbesserte Auflage. Reprint 2018). Berlin, Boston: Oldenbourg Wissenschaftsverlag. https: / / doi.org/ 10.1515/ 9783486796605 Bourier, G. (2018). Statistik-Übungen. Wiesbaden: Springer Fachmedien Wiesbaden. https: / / doi.org/ 10.1007/ 978-3-658-23635-9 <?page no="294"?> Braumoeller, Bear F. (2016). Techniques of Political Analysis. Visualizing and Inter‐ preting Data. www.youtube.com/ watch? v=gQ73HzlWbhk&list=PLE3uzGh7FZR l4UEkm9LQpy7lOv9H6ibjY&index=2 (letzter Zugriff: 20.7.2021) Brell, C., Brell, J., & Kirsch, S. (2017). Statistik von Null auf Hundert: Mit Kochrezepten schnell zum Statistik-Grundwissen (2., überarb. Aufl.). Springer-Lehrbuch. Berlin: Springer Spektrum. Retrieved from www.springer.com/ Brosius, F. (2017). SPSS 24 für Dummies (1. Auflage). --für Dummies. Weinheim: Wiley-VCH. Brosius, H.-B., Haas, A., & Koschel, F. (2012). Methoden der empirischen Kommuni‐ kationsforschung: Eine Einführung (6th ed.). Studienbücher zur Kommunikations- und Medienwissenschaft. Wiesbaden: Springer VS. Cairo, A. (2016). The truthful art: Data, charts, and maps for communication. [Place of publication not identified]: New Riders. Retrieved from http: / / proquest.tech.s afaribooksonline.de/ 9780133440492 Cairo, A. (2019). How charts lie: Getting smarter about visual information (1st ed.). New York, NY: W. W. Norton & Company, Inc. Cassidy, S. A., Dimova, R., Giguère, B., Spence, J. R., & Stanley, D. J. (2019). Failing Grade: 89 % of Introduction-to-Psychology Textbooks That Define or Explain Statistical Significance Do So Incorrectly. Advances in Methods and Practices in Psychological Science, 7, 251524591985807. https: / / doi.org/ 10.1177/ 2515245919858072 Christensen, B., & Christensen, S. (2018). Achtung: Mathe und Statistik: 150 neue Kolumnen zum Nachdenken und Schmunzeln. Berlin, Heidelberg: Springer Berlin Heidelberg. https: / / doi.org/ 10.1007/ 978-3-662-57739-4 Coddington, M. (2014). Clarifying Journalism’s Quantitative Turn. Digital Journa‐ lism, 3(3), 331-348. https: / / doi.org/ 10.1080/ 21670811.2014.976400 Czado, C., & Schmidt, T. (2011). Mathematische Statistik. Berlin, Heidelberg: Springer Berlin Heidelberg. https: / / doi.org/ 10.1007/ 978-3-642-17261-8 Dernbach, B., & Loosen, W. (Eds.) (2012). Didaktik der Journalistik. Wiesbaden: VS Verlag für Sozialwissenschaften. https: / / doi.org/ 10.1007/ 978-3-531-93447-1 Diekmann, A. (2020). Empirische Sozialforschung: Grundlagen, Methoden, Anwen‐ dungen (Originalausgabe, vollständig überarbeitete und erweiterte Neuausgabe, 13. Auflage). rororo: Rowohlts Enzyklopädie. Reinbek bei Hamburg: Rowohlt Taschenbuch Verlag. Donsbach, W. (2009). Journalismus als Wissensprofession: Technische und wirt‐ schaftliche Einflüsse erfordern eine neue Definition journalistischer Kompetenz. In C. Holtz-Bacha, G. Reus, & L. B. Becker (Eds.), Wissenschaft mit Wirkung: Beiträge zu Journalismus- und Medienwirkungsforschung (1st ed., pp. 191-204). Wiesbaden, Germany: VS Verlag für Sozialwissenschaftens. 294 Literaturverzeichnis <?page no="295"?> Dunwoody, S., & Griffin, R. J. (2013). Statistical Reasoning in Journalism Education. Science Communication, 35(4), 528-538. https: / / doi.org/ 10.1177/ 1075547012475227 Eckstein, P. P. (2018). Klausurtraining Statistik. Wiesbaden: Springer Fachmedien Wiesbaden. https: / / doi.org/ 10.1007/ 978-3-658-22470-7 Ellenberg, J. (2015). How not to be wrong: The hidden maths of everyday life. London: Penguin Books. Fantapié Altobelli, C. (2017). Marktforschung: Methoden - Anwendungen - Praxisbei‐ spiele (3., vollständig überarbeitete Auflage). UTB: Vol. 8342. Konstanz, München: UVK Verlagsgesellschaft mbH; UVK/ Lucius. Felle, T. (2015). Digital watchdogs? : Data reporting and the news media’s traditio‐ nal ‘fourth estate’ function. Journalism: Theory, Practice & Criticism, 17(1), 85-96. https: / / doi.org/ 10.1177/ 1464884915593246 Field, A. P. (2009). Discovering statistics using SPSS: (and sex and drugs and rock 'n' roll) (3rd). Los Angeles [i.e. Thousand Oaks, Calif.], London: SAGE Publications. Retrieved from www.worldcat.org/ oclc/ 262584404 Foster, I., Ghani, R., Jarmin, R. S., Kreuter, F., & Lane, J. (Eds.) (2017). Chapman & Hall / CRC statistics in the social and behavioral sciences series. Big data and social science: A practical guide to methods and tools. Boca Raton, FL: CRC Press. Friel, S. N., Curcio, F. R., & Bright, G. W. (2001). Making sense of graphs: Critical factors influencing comprehension and instructional implications. Journal for Research in Mathematics Education, 124-158. Früh, W. (2017). Inhaltsanalyse: Theorie und Praxis (9th ed.). utb-studi-e-book: Vol. 2501. Konstanz, München: UTB GmbH; UVK. Retrieved from www.utb-studi-e-b ook.de/ 9783838547350 Gehrau, V. (2017). Die Beobachtung als Methode in der Kommunikations- und Medien‐ wissenschaft (2., völlig überarbeitete Auflage). UTB: UTB-Band Nr. 2355. Konstanz, München: UVK Verlagsgesellschaft mbH; UVK Lucius. Gelman, A., & Nolan, D. A. (2017). Teaching statistics: A bag of tricks (Second edition). Oxford, New York, NY: Oxford University Press. Gossel, B. M., & Konyen, K. (2019). Quo Vadis Journalistenausbildung? Wiesbaden: Springer Fachmedien Wiesbaden. https: / / doi.org/ 10.1007/ 978-3-658-23123-1 Griffin, R. J., & Dunwoody, S. (2016). Chair support, faculty entrepreneurship, and the teaching of statistical reasoning to journalism undergraduates in the United States. Journalism: Theory, Practice & Criticism, 17(1), 97-118. https: / / doi.org/ 10. 1177/ 1464884915593247 Häder, M. (2019). Empirische Sozialforschung: Eine Einführung (4th ed. 2019). Wies‐ baden: Springer Fachmedien Wiesbaden; Springer VS. 295 Literaturverzeichnis <?page no="296"?> Haller, M. (2017). Methodisches Recherchieren (8. komplett überarbeitete Auflage, Vol. 4655). Konstanz: UVK. Hammond, P. (2016). From computer-assisted to data-driven: Journalism and Big Data. Journalism, 18(4), 408-424. https: / / doi.org/ 10.1177/ 1464884915620205 Handl, A., & Kuhlenkasper, T. (2018). Einführung in die Statistik: Theorie und Praxis mit R. Berlin, Heidelberg: Springer Spektrum. https: / / doi.org/ 10.1007/ 978-3-662 -56440-0 Hanitzsch, T., Lauerer, C., & Steindl, N. (2016). Journalismus studieren in der Krise. Medien & Kommunikationswissenschaft, 64(4), 465-482. https: / / doi.org/ 10.5771/ 1 615-634X-2016-4-465 Harford, T. (2020). The data detective: Ten easy rules to make sense of statistics (First American edition). New York: Riverhead Books. Harrison, S. (2014). History of Numeracy Education and Training for Print Journa‐ lists in England. Numeracy, 7(2). https: / / doi.org/ 10.5038/ 1936-4660.7.2.2 Healy, K. J. (2019). Data visualization: A practical introduction. Princeton, Oxford: Princeton University Press. Hedderich, J., & Sachs, L. (2018). Angewandte Statistik. Berlin, Heidelberg: Springer Berlin Heidelberg. https: / / doi.org/ 10.1007/ 978-3-662-56657-2 Heimsch, F. M., Niederer, R., & Zöfel, P. (2018). Statistik im Klartext: Für Psychologen, Wirtschafts- und Sozialwissenschaftler (2., aktualisierte und erweiterte Auflage). Pearson Studium Psychologie. Hallbergmoos/ Germany: Pearson. Hellbrück, R. (2016). Angewandte Statistik mit R: Eine Einführung für Ökonomen und Sozialwissenschaftler (3. Aufl. 2016). Wiesbaden, s.l.: Springer Fachmedien Wiesbaden. https: / / doi.org/ 10.1007/ 978-3-658-12862-3 Helliwell, J., Layard, R., & Sachs, J. (2019). World Happiness Report 2019. New York: Sustainable Development Solutions Network. Heravi, B. R. (2019). 3Ws of Data Journalism Education. Journalism Practice, 13(3), 349-366. https: / / doi.org/ 10.1080/ 17512786.2018.1463167 Hewett, J. (2016). Learning to teach data journalism: Innovation, influence and const‐ raints. Journalism, 17(1), 119-137. https: / / doi.org/ 10.1177/ 1464884915612681 Huber, O. (2019). Das psychologische Experiment: Eine Einführung, mit fünfundfünfzig Cartoons aus der Feder des Autors (7., überarbeitete Auflage). Bern: Hogrefe. Hug, T., & Poscheschnik, G. (2020). Empirisch forschen: Die Planung und Umsetzung von Projekten im Studium (3., überarbeitete und ergänzte Auflage). UTB: 3357. Schlüsselkompetenzen. München: UVK Verlag. Kepplinger, H. M. (2009). Über den Umgang der Medien mit Ungewissheit. In C. Holtz-Bacha, G. Reus, & L. B. Becker (Eds.), Wissenschaft mit Wirkung: Beiträge zu 296 Literaturverzeichnis <?page no="297"?> Journalismus- und Medienwirkungsforschung (1st ed., pp. 241-256). Wiesbaden, Germany: VS Verlag für Sozialwissenschaftens. Kosfeld, R. (2018). Klausurtraining Deskriptive und Induktive Statistik (2. Auflage). Lehrbuch. Wiesbaden: Springer Gabler. https: / / doi.org/ 10.1007/ 978-3-658-20455-6 Kovach, B., & Rosenstiel, T. (2014). The elements of journalism: What newspeople should know and the public should expect (Revised and updated third edition). New York: Three Rivers Press. Krämer, W. (2015). Statistik für alle: Die 101 wichtigsten Begriffe anschaulich erklärt. Berlin: Springer Spektrum. Retrieved from http: / / search.ebscohost.com/ login.as px? direct=true&scope=site&db=nlebk&AN=984642 Kuckartz, U., Rädiker, S., Ebert, T., & Schehl, J. (2010). Statistik: Eine verständliche Einführung. Wiesbaden: VS Verlag für Sozialwissenschaften / GWV Fachverlage GmbH Wiesbaden. Retrieved from http: / / gbv.eblib.com/ patron/ FullRecord.aspx? p=970447 https: / / doi.org/ 10.1007/ 978-3-531-92033-7 Leask, J. (2017). Data journalism education in Canada: Challenges and opportunities (Masterarbeit). University of Alberta. Lewis, N. P., & Waters, S. (2018). Data Journalism and the Challenge of Shoe-Leather Epistemologies. Digital Journalism, 6(6), 719-736. https: / / doi.org/ 10.1080/ 216708 11.2017.1377093 Livingston, C., & Voakes, P. S. (2005). Working with numbers and statistics: A handbook for journalists. Lea's communication series. Mahwah, N.J.: Lawrence Erlbaum Associates. Lück, J., & Boczek, K. (2020). Statistik in der akademischen Journalist*innen-Ausbil‐ dung. In J. Schützeneder, K. Meier, N. Springer, & Deutsche Gesellschaft Für Publizistik- Und Kommunikationswissenschaft E. V. (Eds.), Neujustierung der Journalistik/ Journalismusforschung in der digitalen Gesellschaft: Proceedings zur Jahrestagung der Fachgruppe Journalistik/ Journalismusforschung der Deut‐ schen Gesellschaft für Publizistik- und Kommunikationswissenschaft 2019, Eich‐ stätt (pp. 105-116). Eichstätt: SSOAR - GESIS Leibniz Institute for the Social Sciences. https: / / doi.org/ 10.21241/ SSOAR.70827 Magnello, E., & van Loon, B. (2013). Statistik. Infocomics. Überlingen, Mülheim an der Ruhr: TibiaPress Verlag GmbH. Maier, S. R. (2002). Numbers in the News: a mathematics audit of a daily newspaper. Journalism Studies, 3(4), 507-519. https: / / doi.org/ 10.1080/ 1461670022000019191 Martin, J. D. (2017). A Census of Statistics Requirements at U.S. Journalism Programs and a Model for a “Statistics for Journalism” Course. Journalism & Mass Commu‐ nication Educator, 72(4), 461-479. https: / / doi.org/ 10.1177/ 1077695816679054 297 Literaturverzeichnis <?page no="298"?> Matzat, L. (2016). Datenjournalismus: Methode einer digitalen Welt (1. Auflage). Praktischer Journalismus. Köln: Herbert von Halem Verlag. McConway, K. (2016). Statistics and the media: A statistician’s view. Journalism, 17(1), 49-65. https: / / doi.org/ 10.1177/ 1464884915593243 Meng, X.-L. (2015). Statistics: Your chance for happiness (or misery). Retrieved from www.stat.harvard.edu/ Academics/ invitation_chair_txt.html Messer, M., & Schneider, G. (2019). Statistik: Theorie und Praxis im Dialog. Berlin, Heidelberg: Springer Berlin Heidelberg. https: / / doi.org/ 10.1007/ 978-3-662-59339-4 Meyer, P. (2002). Precision Journalism: A Reporter's Introduction to Social Science Methods (4th ed.). Lanham: Rowman & Littlefield Publishers. Retrieved from http: / / search.ebscohost.com/ login.aspx? direct=true&scope=site&db=nlebk &db=nlabk&AN=633359 Mittag, H.-J. (2017). Statistik: Eine Einführung mit interaktiven Elementen (5., we‐ sentlich überarbeitete Auflage). Springer-Lehrbuch. Berlin: Springer Spektrum. Retrieved from www.springer.com/ de/ book/ 9783662553206 Natrop, J. (2015). Angewandte deskriptive Statistik: Praxisbezogenes Lehrbuch mit Fallbeispielen. De Gruyter Studium. Berlin/ Boston: De Gruyter Oldenbourg. Ret‐ rieved from http: / / search.ebscohost.com/ login.aspx? direct=true&scope=site&db =nlebk&AN=984349 https: / / doi.org/ 10.1515/ 9783110413878 Nguyen, A., & Lugo-Ocando, J. (2015). The state of data and statistics in journalism and journalism education: Issues and debates. Journalism, 17(1), 3-17. https: / / do i.org/ 10.1177/ 1464884915593234 Nussbaumer Knaflic, C. (2017). Storytelling mit Daten: Die Grundlagen der effektiven Kommunikation und Visualisierung mit Daten ([1. Auflage]). München: Verlag Franz Vahlen. https: / / doi.org/ 10.15358/ 9783800653751 Pflaumer, P., Heine, B., & Hartung, J. (2017). Statistik für Wirtschafts- und Sozial‐ wissenschaften (4th ed.). Lehr- und Handbücher der Statistik. Berlin/ Boston: de Gruyter. Retrieved from https: / / ebookcentral.proquest.com/ lib/ gbv/ detail.action ? docID=4943311 Quatember, A. (2015). Statistischer Unsinn. Berlin, Heidelberg: Springer Berlin Heidelberg. https: / / doi.org/ 10.1007/ 978-3-662-45335-3 Rinke, E. M., & Schneider, F. M. (2015). Probabilistic misconceptions are pervasive among communication researchers: [65th Annual Conference of the International Communication Association, San Juan, Puerto Rico, 21. bis 25. Mai 2015. Rößler, I., & Ungerer, A. (2016). Statistik für Wirtschaftswissenschaftler: Eine anwen‐ dungsorientierte Darstellung (5., aktualisierte Auflage). BA KOMPAKT. Berlin, Heidelberg: Springer Gabler. https: / / doi.org/ 10.1007/ 978-3-662-48412-8 298 Literaturverzeichnis <?page no="299"?> Rössler, P. (2017). Inhaltsanalyse (3., völlig überarbeitete Auflage). UTB Basics: Vol. 2671. Konstanz, München: UVK Verlagsgesellschaft mbH; UVK/ Lucius. Retrieved from www.utb-studi-e-book.de/ 9783838547060 Rüschendorf, L. (2014). Mathematische Statistik. Berlin, Heidelberg: Springer Berlin Heidelberg. https: / / doi.org/ 10.1007/ 978-3-642-41997-3 Salkind, N. J. (2017). Statistics for people who (think they) hate statistics (6 edition). Thousand Oaks, California: Sage Publications, Inc. Schäfer, A., & Schöttker-Königer, T. (2015). Statistik und quantitative Methoden für Gesundheitsfachberufe (1. Aufl. 2015). Berlin: Springer. Retrieved from http: / / searc h.ebscohost.com/ login.aspx? direct=true&scope=site&db=nlebk&AN=1078892 ht tps: / / doi.org/ 10.1007/ 978-3-662-45519-7 Scheufele, B., & Engelmann, I. (2009). Empirische Kommunikationsforschung. UTB: Vol. 3211. Konstanz: UVK-Verl.-Ges. Schüller, K. (2015). Statistik und Intuition: Alltagsbeispiele kritisch hinterfragt (1. Aufl. 2015). Sachbuch. Berlin, Heidelberg: Springer Spektrum. Retrieved from http: / / ebooks.ciando.com/ book/ index.cfm/ bok_id/ 1983229 https: / / doi.org/ 10.1007/ 978-3-662-47848-6 Spielmann, R. (2017). Wahrscheinlichkeitsrechnung und Statistik: Mathematische Anwendungen in Natur und Gesellschaft. Berlin/ Boston: de Gruyter. Retrieved from https: / / ebookcentral.proquest.com/ lib/ gbv/ detail.action? docID=5106142 Splendore, S. (2016). Quantitatively Oriented Forms of Journalism and Their Episte‐ mology. Sociology Compass, 10(5), 343-352. https: / / doi.org/ 10.1111/ soc4.12366 Splendore, S., Di Salvo, P., Eberwein, T., Groenhart, H., Kus, M., & Porlezza, C. (2015). Educational strategies in data journalism: A comparative study of six European countries. Journalism, 17(1), 138-152. https: / / doi.org/ 10.1177/ 1464884915612683 Steiner, E., & Benesch, M. (2018). Der Fragebogen: Von der Forschungsidee zur SPSS-Auswertung (5. aktual. u. überarb. Aufl.). UTB: Schlüsselkompetenzen. Wien: UTB GmbH; facultas. Retrieved from www.utb-studi-e-book.de/ 9783838587271 Stocker, T. C., & Steinke, I. (2017). Statistik: Übungsbuch. Berlin, Boston: De Gruyter Oldenbourg. Retrieved from www.degruyter.com/ view/ product/ 248907 Stocker, T. C., & Steinke, I. (2017). Statistik: Grundlagen und Methodik. Berlin, Boston: De Gruyter Oldenbourg. Retrieved from www.degruyter.com/ view/ product/ 361 480 Stone, D. A. (2020). Counting: How we use numbers to decide what matters (First edition). New York, NY: Liveright Publishing Corporation, a division of W. W. Norton & Company, Inc. Tabary, C., Provost, A.-M., & Trottier, A. (2016). Data journalism’s actors, practices and skills: A case study from Quebec. Journalism: Theory, Practice & Criticism, 17(1), 66-84. https: / / doi.org/ 10.1177/ 1464884915593245 299 Literaturverzeichnis <?page no="300"?> Van Witsen, T. (2018, June). How Journalists Establish Trust In Numbers And Statistics: Results From An Exploratory Study. In Iowa State Summer Symposium on Science Communication. Iowa State University, Digital Repository. https: / / doi. org/ 10.31274/ sciencecommunication-181114-8 Völkl, K., & Korb, C. (2018). Deskriptive Statistik. Wiesbaden: Springer Fachmedien Wiesbaden. https: / / doi.org/ 10.1007/ 978-3-658-10675-1 Vries, A. de, & Meys, J. (2018). R für Dummies (2. Auflage). --für Dummies. Weinheim: Wiley-VCH Verlag GmbH & Co., KGaA. Retrieved from http: / / search.ebscohost. com/ login.aspx? direct=true&scope=site&db=nlebk&AN=1628726 Weiss, A. S., & Retis-Rivas, J. (2018). ‘I Don’t Like Maths, That’s Why I am in Journalism’: Journalism Student Perceptions and Myths about Data Journalism. Asia Pacific Media Educator, 28(1), 1-15. https: / / doi.org/ 10.1177/ 1326365X18780418 Wheelan, C. (2019). Naked economics: Undressing the dismal science (Fully revised and updated.). New York: W.W. Norton & Company. Wheelan, C. J. (2014). Naked statistics: Stripping the dread from the data (1. publ. as a Norton paperback). New York: Norton. Wild, C. J., & Pfannkuch, M. (1999). Statistical thinking in empirical enquiry. International Statistical Review, 67(3), 223-248. Woodruff Wickham, K. (2003). Math tools for journalists (2nd ed, Student Edition). Oak Park, IL: Marion Street Press. 300 Literaturverzeichnis <?page no="301"?> Stichwörter aggregiert 181 alpha-Fehler 205 Analyse Cluster- 227 Faktoren- 228 Netzwerk- 229 Ankerbeispiel 89 API 141 arithmetisches Mittel 180 Aufgreifkriterium 92 Auftragsforschung 40 Ausprägung 68 Auswahlverfahren, bewusstes 119 Bacon, Francis 55, 73 Balkendiagramm 261 Barrierefreiheit 252 Befragung 77 Beobachtung 97 Feld- 99 Fremd- 98 Labor- 99 nicht teilnehmende 99 Selbst- 98 teilnehmende 99 Beobachtungsstudie 75 beta-Fehler 205 Big Data 158 bivariat 191 Blasendiagramm 271 Chart-Junk 250 Chi-Quadrat 198 Chi-Quadrat-Test 212 Chloroplethenkarte 277 Clusteranalyse 227 Codebuch 89 Codiersheet 89 Cramers V 200 CSV-Format 130 Data Gap 281 Data Literacy 11, 281 Data Mining 158 Data Science 158 Data Verification 127 Datenaufbereitung 155 Datenbereinigung 145 Datenerhebung 74 Datenfälschung 132 Datenjournalismus 95 Datentabelle 128 Deduktion 54 Deflation 176 Demoskopie 45 Determinationskoeffizient 197, 220 Diagramm Balken- 261 Blasen- 271 Flächen- 264 Kachel- 273 Kreis- 266 Kurven- 262 Linien- 262 Netz- 274 Säulen- 254, 258 Streu- 268 Torten- 266 <?page no="302"?> disjunkt 84 double-blind 44 Durchschnitt 180 Erklärung 49 Erwünschtheit, soziale 79, 81f., 84, 98 Experiment 102 Feld- 104 Labor- 104 Experimentalgruppe 103 Experimentalstudie 75 Extremfälle 119 Fake News 17 Fake Statistic 246 Faktorenanalyse 228 Fall 68 Fehler 1. Art 188, 205 Fehler 2. Art 188, 205 Flächendiagramm 264 Flächenkartogramm 277 Frage geschlossene 82 offene 82 F-Wert 213, 216 Generalisierbarkeit 71 Gerechtigkeitsprinzip 78 Grenzwertsatz 110 Grundgesamtheit 49 Grundwert 171 Gütekriterium 71 HARKing 209, 211 Häufigkeit absolute 166 kumulierte 167 relative 166 Heat Map 277 Homoskedastizität 224 Hypothese 58, 72, 202f. deterministische 59 Null- 203 probabilistische 59 Unterschieds- 59 Veränderungs- 59 Zusammenhangs- 59 Index 70 Indikator 69 Induktion 54 Inferenzstatistik 201 Inflation 175 Informationsfreiheitsgesetz 139 Inhaltsanalyse 87 Interaktion 106 Interaktivität 279 Intervallskala 69 Item 70 Kacheldiagramm 273 Kategorie formale 88 inhaltliche 89 Kodiertraining 93 Kolmogorov-Smirnov-Test 212 Konfidenzintervall 113 Konsumverhalten 45 Kontrollgruppe 103 Konzentrationsprinzip 120 Korrelationskoeffizient 191 Kreisdiagramm 266 Kreuztabelle 168 künstliche Wochen 92 Kurvendiagramm 262 302 Stichwörter <?page no="303"?> Längsschnittstudie 79 Levene-Test 213 Linearität 223 Liniendiagramm 262 Literacy 11 lösungsorientierter Journalismus 238 Lottozahlen 116 Manipulation 75 Marktforschung 45 Maßnahmenprobleme 35 Median 182, 243 Mehrebenenanalyse 225 Meinungsforschung 45 Merkmal 49 binäres 68 quantitatives 68 stetiges 68 Messen 67 Mittelwert 110, 180 Mittelwertvergleich 211 Modell 220 Modell, statistisches 58 Modus 183 Multikollinearität 223 Multilevelmodelle 225 Nagelkerkes R2 225 Netzdiagramm 274 Netzwerkanalyse 229 Netzwerkgrafik 276 Nichtschadensprinzip 77 Nominalskala 68 Non-Response 122 Normalverteilung 111, 212, 224 Numeracy 11 Ökoskopie 45 Open Data 137 Open Science 210 Operationalisieren 66, 72 Ordinalskala 69 Peer-Review-Verfahren 44 p-hacking 209, 211 Phi-Koeffizient 200 Plausibilität 58 politische Arithmetik 55 Post-hoc-Test 214, 216 preregistration 210 Pretest 81, 106 Problem 20, 31 deskriptives 34 Maßnahmen- 35 praktisches 32 statistisches 32 theoretisches 32 Werte- 35 Programmiersprachen 281 Prozentpunkte 172 Prozentrechnung 170 Prozentsatz 171 Prozentwert 171 Publikations-Bias 208 p-Wert 204, 216 Qualitätssicherung 132 Quellenkritik 40 Querschnittstudie 79 Randomisierung 104 Randverteilungen 169 Rangkorrelationskoeffizient 200 Regression 217 binäre logistische 224 lineare 217 303 Stichwörter <?page no="304"?> logistische 224 multinominale logistische 224 multiple 220 Regressionskoeffizient 219 partieller 220 standardisierter 222 Reichweite 49 Reliabilität 71, 81 Reporting-Bias 209 Repräsentativität 116 Residuum 219, 224 River-Sampling 120 Rücklaufquote 122 Säulendiagramm 254 gestapeltes 258 Scatterplot 190, 268 Schnellballprinzip 120 Signifikanz 201 Signifikanzniveau 204 Signifikanztest 201 Skala 68 Intervall- 69 Nominal- 68 Ordinal- 69 Spannweite 185 Standardabweichung 110, 186 Standardfehler 112 Statistik deskriptive 163 induktive 163 Stichprobe 50, 109 Klumpen- 118 Quoten- 122 Zufalls- 118 Stichprobenfehler 112, 115 Storytelling 236 Streudiagramm 268 Streuung 185 Strukturgleichungsmodelle 231 Teilerhebung 109 Testfragen 81 Teststatistik 203 Theorie 53 Think-Aloud-Methode 108 Tools 281 Tortendiagramm 266 Trackingstudie 79 Tree Map 273 Trendlinie 269 Trendstudie 79 t-Test 212 univariate Kennwerte 180 Unterschiedshypothese 59 Untersuchungsdesign einfaktorielles 105 mehrfaktorielles 105 Untersuchungsebene 50 Untersuchungseinheit 50 Validität 71, 81 Variable 68 abhängige 58, 103 dichotome 221 Dummy- 221 intervenierende 196 moderierende 196 unabhängige 58, 103 Varianz 189, 197 Varianzanalyse einfaktorielle 213 mehrfaktorielle 215 Varianzhomogenität 224 Veränderungen 242 304 Stichwörter <?page no="305"?> Veränderungshypothese 59 Verbraucherpreisindex 175 Vergleich 241 Verifikation 17 Vollerhebung 109 Wahrscheinlichkeit 224 Watchdog 32, 238 Webscraper 136, 140 Werteprobleme 35 Word Cloud 273 Zeilenprozente 169 Zielgruppe 238 Zinseszins 173 Zombie Statistic 246 Zufallsauswahl 116 Zufallsstichprobe 110 geschichtete 118 Zusammenhangshypothese 59 305 Stichwörter <?page no="306"?> Abbildungsverzeichnis Abbildung 1 Der statistische Prozess (eigene Darstellung nach Wild & Pfannkuch, 1999) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Abbildung 2 Arten von Merkmalen und Variablen . . . . . . . . . . . . . . . . 69 Abbildung 3 Die klassische Gaußsche Normalverteilungskurve . . . . . 111 Abbildung 4 Normalverteilungskurve mit Intervall zwischen +/ einer Standardabweichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 Abbildung 5 Normalverteilungskurve mit Intervall zwischen +/ - 1,96 Standardabweichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 Abbildung 6 Daten finden: Entscheidungshilfe (eigene Darstellung in Anlehnung an Braumoeller (2016), Min. 8: 40) . . . . . . . . . 136 Abbildung 7 Exemplarischer Vergleich eines exponentiellen und eines linearen Ausbreitungsverlauf über den Zeitraum von zwei Monaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 Abbildung 8 Scatterplot zum Zusammenhang von Alter und Anzahl der Mitgliedsjahre in der eigenen Partei . . . . . . . . . . . . . . 190 Abbildung 9 Scatterplots unterschiedlicher Korrelationen (links: keine Korrelation, Mitte: stark positive Korrelation, rechts: stark negative Korrelation) . . . . . . . . . . . . . . . . . . 192 Abbildung 10 Scatterplot zum Zusammenhang der Dauer der Parteimitgliedschaft und der Anzahl der Jahre als Mitglied des Deutschen Bundestags . . . . . . . . . . . . . . . . . 195 Abbildung 11 Entscheidungshilfe Signifikanztest . . . . . . . . . . . . . . . . . . 206 Abbildung 12 Entscheidungshilfe zur Durchführung von Mittelwertvergleichen bei metrisch skalierten und normalverteilten Variablen . . . . . . . . . . . . . . . . . . . . . . . . . 213 Abbildung 13 Entscheidungshilfe zur Durchführung von Mittelwertvergleichen bei ordinal skalierten und nicht normalverteilten Variablen . . . . . . . . . . . . . . . . . . . . . . . . . 215 Abbildung 14 Scatterplot zum Zusammenhang von Alter und Dauer der Parteimitgliedschaft (in Jahren) mit Regressionsgerade. Hinweis: R 2 linear = 0,69 . . . . . . . . . . 218 Abbildung 15 Schematische Darstellung einer Netzwerkanalyse . . . . . 230 Abbildung 16 Schematisches Strukturgleichungsmodell . . . . . . . . . . . . 231 <?page no="307"?> Abbildung 17 Links: Absolute Werte: durchschnittliche Anzahl verkaufter Snacks pro Redaktion. Rechts: Relative Werte: Anteil der jeweiligen Produkte an der Gesamtzahl der verkauften Snacks über alle Redaktionen hinweg . . . . . . 255 Abbildung 18 Links: Säulendiagramm mit verzerrtem Ausschnitt aufgrund y-Achsen Startpunkt. Rechts: Start der y-Achse bei null . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 Abbildung 19 Gruppierte Säulendiagramme (absolute Häufigkeiten) nach Snackform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 Abbildung 20 Gruppierte Säulendiagramme (absolute Häufigkeiten) nach Redaktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258 Abbildung 21 Gestapelte Säulendiagramme (absolute Häufigkeiten): Kategorienvergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 Abbildung 22 Gestapelte Säulendiagramme (absolute Häufigkeiten): Gruppenvergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 Abbildung 23 Gestapelte Säulen (relative Werte): Gruppenvergleich . . 260 Abbildung 24 Gestapelte Säulen (relative Werte): Kategorienvergleich 261 Abbildung 25 Links: einfaches Balkendiagramm. Rechts: gruppiertes Balkendiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 Abbildung 26 Absolute Anzahl von Sandwichverkäufen im Laufe einer Woche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 Abbildung 27 Anzahl der Sandwichverkäufe in vier Redaktionen im Laufe einer Woche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 Abbildung 28 Liniendiagramm mit Durchschnitt (dunkelgraue Linie) und Minimum und Maximum (hellgraue Fläche) . . . . . . 264 Abbildung 29 Gestapeltes Flächendiagramm . . . . . . . . . . . . . . . . . . . . . . 265 Abbildung 30 Flächendiagramm (100 %): Wochenverlauf des Sandwichverkaufs in vier Redaktionen . . . . . . . . . . . . . . . 266 Abbildung 31 Kreisdiagramme: Kreis und Donut . . . . . . . . . . . . . . . . . . 268 Abbildung 32 Kreisdiagramm: Teil des Ganzen . . . . . . . . . . . . . . . . . . . . 268 Abbildung 33 Streudiagramm zur Visualisierung des Zusammenhangs zwischen zwei Merkmalen . . . . . . . . . . . . . . . . . . . . . . . . . 269 Abbildung 34 Streudiagramm mit Trendlinie . . . . . . . . . . . . . . . . . . . . . . 270 Abbildung 35 Streudiagramm mit Clustermarkierung . . . . . . . . . . . . . . 271 Abbildung 36 Blasendiagramm zur Visualisierung des Zusammenhangs von drei Merkmalen . . . . . . . . . . . . . . . 272 Abbildung 37 Tree Map . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 Abbildung 38 Word Cloud auf Grundlage der Texte dieses Kapitels . . . 274 307 Abbildungsverzeichnis <?page no="308"?> Abbildung 39 Netzdiagramm zum Vergleich von fünf Eigenschaften bei drei Fällen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 Abbildung 40 Netzdiagramm zum Vergleich von Ist- und Soll-Wert über fünf Jahre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 Abbildung 41 Schematische Darstellung einer Netzwerkgrafik mit unterschiedlich großen und farbigen Knoten. (Die Größe der Knoten entspricht der Häufigkeit der Nennungen; unterschiedliche Farbgebung symbolisiert regionale Netzwerke.) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 Abbildung 42 Unterform der Heat Map: Choroplethenkarte . . . . . . . . . 278 Abbildung 43 Analysesoftware (Angaben in Prozent, N = 31) . . . . . . . . 283 Abbildung 44 Programmiersprachen (Angaben in Prozent, N = 31) . . . 284 Abbildung 45 Visualisierungssoftware (Angaben in Prozent, N = 31) . 285 308 Abbildungsverzeichnis <?page no="309"?> Tabellenverzeichnis Tabelle 1 Die klassische Datentabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 Tabelle 2 Beispiel einer Datentabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 Tabelle 3 Beispiel einer Häufigkeitstabelle . . . . . . . . . . . . . . . . . . . . . . . 167 Tabelle 4 2x2-Kreuztabelle mit absoluten Häufigkeiten und Randverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 Tabelle 5 2x2-Kreuztabelle mit absoluten Häufigkeiten und Zeilenprozenten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 Tabelle 6 2x2-Kreuztabelle mit absoluten Häufigkeiten und Spaltenprozenten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 Tabelle 7 Entwicklung des Verbraucherpreisindexes 2019-2020. (Quelle: © Statistisches Bundesamt (Destatis), 2020, Stand: 19.3.2021) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Tabelle 8 Notenverteilung von 100 Schüler: innen . . . . . . . . . . . . . . . . . 181 Tabelle 9 Antworthäufigkeiten von 100 Befragten . . . . . . . . . . . . . . . . 184 Tabelle 10 Schrittweise Berechnung der Standardabweichung . . . . . . . 187 Tabelle 11 Interpretation von Zusammenhangsmaßen im Hinblick auf die Stärke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 Tabelle 12 Korrelationsmatrix mit Korrelationen nach Pearson . . . . . . 195 Tabelle 13 2x2-Kreuztabelle mit absoluten Häufigkeiten und Randverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 Tabelle 14 Chi-Quadrat-Verteilungstabelle (Ausschnitt) . . . . . . . . . . . . 199 Tabelle 15 Empfehlungen Post-hoc-Tests . . . . . . . . . . . . . . . . . . . . . . . . . 214 Tabelle 16 Beispiel für eine multiple lineare Regression . . . . . . . . . . . . 223 Tabelle 17 Am Tag durchschnittlich verkaufte Produkte am Snackautomaten pro Redaktion . . . . . . . . . . . . . . . . . . . . . . . 255 Tabelle 18 Heat Map in Tabellenform . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 <?page no="310"?> BUCHTIPP Christian Schicha Medienethik Grundlagen - Anwendungen - Ressourcen 1. Auflage 2019, 321 Seiten €[D] 21,90 ISBN 978-3-8252-5102-4 eISBN 978-3-8385-5102-9 Nach einer Einführung in die Grundlagen der Medienethik zeigt der Autor auf spannende Weise Medienskandale auf und reflektiert die so genannten Fake News kritisch. Er thematisiert Aspekte der PR-, Werbe- und Internetethik ausführlich. Das Buch beginnt mit einer kurzen Darstellung der Moralphilosophie und den normativen Kernbegriffen der Medienethik: Information, Öffentlichkeit, Authentizität, Inszenierung und Qualität. Im zentralen Kapitel des Buches steht die Medienethik im engen Sinne. Hier behandelt der Autor Praxisfälle, das Spannungsfeld zwischen Ideal- und Praxisnormen, Werte-und Normensysteme des Medienhandelns, die Bezugsebenen medienethischer Verantwortung sowie Reichweite und die Ebenen der Argumentation. Danach behandelt er ausgewählte Spannungsfelder des Journalismus wie den Boulevardjournalismus, den Reisejournalismus, die Kriegsberichterstattung sowie die Amok- und Terrorberichterstattung. Das Buch wird durch medienethische Initiativen und eine kommentierte Auswahlbibliografie zur Medienethik abrundet. UVK Verlag. Ein Unternehmen der Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 \ 72070 Tübingen \ Germany Tel. +49 (0)7071 97 97 0 \ Fax +49 (0)7071 97 97 11 \ info@narr.de \ www.narr.de <?page no="311"?> BUCHTIPP Andreas Behr Grundwissen Deskriptive Statistik mit Aufgaben, Klausuren und Lösungen 2., überarbeitete Auflage 2019, 256 Seiten €[D] 19,99 ISBN 978-3-8252-5321-9 eISBN 978-3-8385-5321-4 Kenntnisse der Deskriptiven Statistik gehören für Bachelorstudierende der BWL und VWL zu den Kernkompetenzen. Auf kompakte Art und Weise stellt diese zweite, überarbeitete Auflage die relevanten Fachtermini vor und vermittelt das Wichtigste zur Verteilung, Kerndichteschätzung, zu Maßzahlen sowie zur Korrelations- und Regressionsrechnung. Auch die Konzentrationsmessung sowie Preis- und Mengenindizes werden erklärt. Übungen mit Lösungen, Musterklausuren und ein Formelteil runden das Buch ab. UVK Verlag. Ein Unternehmen der Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 \ 72070 Tübingen \ Germany Tel. +49 (0)7071 97 97 0 \ Fax +49 (0)7071 97 97 11 \ info@narr.de \ www.narr.de <?page no="312"?> BUCHTIPP Uwe Eisenbeis, Magdalena Ciepluch (Hrsg.) Künstliche Intelligenz in Nachrichtenredaktionen Begriffe, Systematisierung, Fallbeispiele 1. Auflage 2021, 100 Seiten €[D] 29,90 ISBN 978-3-7398-3114-5 eISBN 978-3-7398-8114-0 KI in der Nachrichtenproduktion, -aufbereitung und -distribution effektiv einsetzen Austria Presse Agentur, Axel Springer Verlag, Stuttgarter Zeitung und Stuttgarter Nachrichten, Frankfurter Allgemeine Zeitung und Neue Osnabrücker Zeitung: Hier kommen Künstliche Intelligenz, Machine Learning, Robot Journalism, Natural Language Processing und Text-to-Speech- Technologie zum Einsatz. Die fünf Fallbeispiele gehen auf Ziele, Implementierung sowie Erfolgsfaktoren ein.Zudem führt das Buch in die wichtigsten Begrifflichkeiten ein und verortet die Implikationen der Technologien in Geschäftsmodell sowie Wertschöpfungskette. Das Buch richtet sich an alle, die sich für den Einsatz von Künstlicher Intelligenz im Verlagsumfeld interessieren und hierzu Entscheidungen treffen. UVK Verlag. Ein Unternehmen der Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 \ 72070 Tübingen \ Germany Tel. +49 (0)7071 97 97 0 \ Fax +49 (0)7071 97 97 11 \ info@narr.de \ www.narr.de <?page no="313"?> ,! 7ID8C5-cfdeaa! ISBN 978-3-8252-5340-0 Arbeitslosenquote, Wahlumfragen, Infiziertenzahlen - Daten sind aus dem journalistischen Alltag nicht mehr wegzudenken. Wie Journalist: innen Statistiken für ihre Arbeit richtig nutzen können, erklärt dieses Buch. Julia Lück-Benz geht dabei auf den gesamten statistischen Prozess ein. Sie zeigt auf, worauf bereits bei der Fragestellung und Datenbeschaffung zu achten ist. Ausführlich erklärt sie die Grundlagen für eine kompetente Datenanalyse und vermittelt die notwendigen Kenntnisse zum kritischen Umgang mit bereits existierenden Statistiken. Auch die verschiedenen Visualisierungsmöglichkeiten führt sie auf. Kurzum: ein Must-have für alle (angehenden) Journalist: innen, die Zahlen und Daten besser verstehen und richtig einsetzen wollen. Journalistik | Publizistik Kommunikationswissenschaft Dies ist ein utb-Band aus dem UVK Verlag. utb ist eine Kooperation von Verlagen mit einem gemeinsamen Ziel: Lehr- und Lernmedien für das erfolgreiche Studium zu veröffentlichen. utb.de QR-Code für mehr Infos und Bewertungen zu diesem Titel mit Erfahrungsberichten aus der Praxis