Leitfaden Onlineumfragen
Zielsetzung, Fragenauswahl, Auswertung und Dissemination der Ergebnisse
0513
2024
978-3-3811-1962-2
978-3-3811-1961-5
UVK Verlag
Kariem Soliman
10.24053/9783381119622
Onlineumfragen richtig gestalten, anwenden und auswerten
Im Studium und in der Forschung aber auch in Unternehmen und nicht zuletzt in der Verwaltung helfen Onlineumfragen dabei, wichtige Erkenntnisse zu gewinnen. Kariem Soliman berücksichtigt in diesem Leitfaden die wichtigsten Aspekte einer Onlineumfrage. Er verrät, was bei der Zielsetzung zu beachten ist und er hilft bei der Fragenauswahl. Auch auf die Auswertung und die Veröffentlichung der Ergebnisse geht er ein. Zahlreiche Abbildungen, Tabellen und Beispiele helfen beim Verständnis. Das Hauptaugenmerk des Leitfadens liegt auf der Verbindung zwischen Fragebogenitems und der Auswertung mit Excel und der Statistiksoftware R.
Kurzum: Der kompakte Leitfaden ist ideal für Studierende, Wissenschaftler: innen und Praktiker:innen, die im Rahmen ihrer Arbeit auf Onlineumfragen setzen.
<?page no="0"?> Kariem Soliman Leitfaden Onlineumfragen Zielsetzung, Fragenauswahl, Auswertung und Dissemination der Ergebnisse <?page no="1"?> Leitfaden Onlineumfragen <?page no="2"?> - - - M. Sc. Kariem Soliman ist Referent im Bereich Öffentliche Finanzen beim Thüringer Landesamt für Statistik. Nach dem Studium an der Universität Pots‐ dam war er dort und an der Hochschule Ruhr West (VWL, Wirtschaftsstatistik mit R) Wissenschaftlicher Mitarbeiter. In der Lehre immer am Zahn der Zeit zu sein, wird in unserer schnelllebigen Zeit immer mehr zur Herausforderung. Mit unserer neuen fachübergreifenden Reihe nuggets präsentieren wir Ihnen die aktuellen Trends, die Forschung, Lehre und Gesellschaft beschäftigen - wissenschaftlich fundiert und kompakt dargestellt. Ein besonderes Augenmerk legt die Reihe auf den didaktischen Anspruch, denn die Bände sind vor allem konzipiert als kleine Bausteine, die Sie für Ihre Lehrveranstaltung ganz unkompliziert einsetzen können. Mit unseren nuggets bekommen Sie prägnante und kompakt dar‐ gestellte Themen im handlichen Buchformat, verfasst von Expert: innen, die gezielte Information mit fundierter Analyse verbinden und damit aktuelles Wissen vermitteln, ohne den Fokus auf das Wesentliche zu verlieren. Damit sind sie für Lehre und Studium vor allem eines: Gold wert! So gezielt die Themen in den Bänden bearbeitet werden, so breit ist auch das Fachspektrum, das die nuggets abdecken: von den Wirtschaftswissenschaf‐ ten über die Geisteswissenschaften und die Naturwissenschaften bis hin zur Sozialwissenschaft - Leser: innen aller Fachbereiche können in dieser Reihe fündig werden. <?page no="3"?> Kariem Soliman Leitfaden Onlineumfragen Zielsetzung, Fragenauswahl, Auswertung und Dissemination der Ergebnisse <?page no="4"?> DOI: https: / / doi.org/ 10.24053/ 9783381119622 © UVK Verlag 2024 ‒ Ein Unternehmen der Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikro‐ verfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Alle Informationen in diesem Buch wurden mit großer Sorgfalt erstellt. Fehler können dennoch nicht völlig ausgeschlossen werden. Weder Verlag noch Autor: innen oder Heraus‐ geber: innen übernehmen deshalb eine Gewährleistung für die Korrektheit des Inhaltes und haften nicht für fehlerhafte Angaben und deren Folgen. Diese Publikation enthält gegebenenfalls Links zu externen Inhalten Dritter, auf die weder Verlag noch Autor: innen oder Herausgeber: innen Einfluss haben. Für die Inhalte der verlinkten Seiten sind stets die jeweiligen Anbieter oder Betreibenden der Seiten verantwortlich. Internet: www.narr.de eMail: info@narr.de CPI books GmbH, Leck ISSN 2941-2730 ISBN 978-3-381-11961-5 (Print) ISBN 978-3-381-11962-2 (ePDF) ISBN 978-3-381-11963-9 (ePub) Umschlagabbildung: © nathaphat ∙ iStockphoto Autorenportrait: © privat Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http: / / dnb.dnb.de abrufbar. www.fsc.org MIX Papier aus verantwortungsvollen Quellen FSC ® C083411 ® <?page no="5"?> 1 7 2 11 2.1 11 2.2 15 3 17 3.1 17 3.2 18 4 23 4.1 23 4.2 23 5 27 5.1 27 5.1.1 27 5.1.2 29 5.1.3 30 5.2 33 5.2.1 35 5.2.2 37 5.2.3 39 6 45 6.1 45 6.1.1 45 6.1.2 46 Inhalt Aufbau und Zielsetzung des Leitfadens . . . . . . . . . . . . . . . . . . . . . . Ziel einer empirischen Studie und Aufbau eines Fragebogens . . . Konkrete Fragen an eine Umfrage . . . . . . . . . . . . . . . . . . . . . Phasen der Fragebogenentwicklung/ -umsetzung . . . . . . . . Statistische Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Von der Grundgesamtheit zur Merkmalsausprägung . . . . . Skalenniveaus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bestimmung des Antworttypus . . . . . . . . . . . . . . . . . . . . . . . . . . . . Antworttypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Antwortformate und Antworttypen . . . . . . . . . . . . . . . . . . . Transformation von Antworttypen und Umsetzung mit Excel und R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Normierung, Zentrierung und Indexbildung . . . . . . . . . . . . Normierung der Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zentrierung der Werte anhand der z-Transformation . . . . Umsetzung mit Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Indexbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einfacher Index (verteilungsunabhängig) . . . . . . . . . . . . . . . Verteilungsabhängige Indizes . . . . . . . . . . . . . . . . . . . . . . . . . Umsetzung mit Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Auswertung mit Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Herunterladen und Einlesen des Datensatzes . . . . . . . . . . . Herunterladen und Einlesen der Daten in Excel . . . . . . . . Herunterladen und Einlesen der Daten in R . . . . . . . . . . . . <?page no="6"?> 6.2 48 6.2.1 53 6.2.2 56 6.3 58 6.3.1 58 6.3.2 59 6.4 61 6.4.1 61 6.4.2 66 7 69 7.1 71 7.1.1 71 7.1.2 73 7.1.3 74 7.1.4 76 7.2 77 7.2.1 77 7.2.2 79 7.2.3 81 7.2.4 88 8 91 93 95 97 99 Bereinigung des Datensatzes . . . . . . . . . . . . . . . . . . . . . . . . . Fehler, die zu einem unvollständigen Datensatz führen . . Fehler, die zu einem untypischen Antwortmuster führen . Teildatensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Vorauswahl im Programm Sosci-Survey . . . . . . . . . . . . . . . . Erzeugung von Teildatensätzen in R . . . . . . . . . . . . . . . . . . . Auswertung der Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Auswertung der Daten mit Excel . . . . . . . . . . . . . . . . . . . . . . Auswertung der Daten mit R . . . . . . . . . . . . . . . . . . . . . . . . . Dissemination der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Häufig verwendete Abbildungen . . . . . . . . . . . . . . . . . . . . . . Säulen- und Balkendiagramm . . . . . . . . . . . . . . . . . . . . . . . . Kreisdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Scatterplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Weitere Darstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Netzdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mehrebenenplot/ Spineplot . . . . . . . . . . . . . . . . . . . . . . . . . . . Darstellung von Likert-Skalen . . . . . . . . . . . . . . . . . . . . . . . Wordclouds (qualitative Daten) . . . . . . . . . . . . . . . . . . . . . . . Abschließende Reflexionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Register . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildungsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabellenverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Inhalt <?page no="7"?> 1 Aufbau und Zielsetzung des Leitfadens Im Studium oder der Forschung sowie in Verwaltungen, im Bereich der Sozialplanung oder in der Verbandsarbeit können Umfragen zur Erkenntnis‐ gewinnung notwendig sein. Neben den bekannten großen Umfragen sozial‐ wissenschaftlicher Institute, wie beispielsweise dem GESIS-Leibnitz-Institut, existieren zahlreiche privatwirtschaftliche Unternehmen, die regelmäßig Umfragen durchführen. Hierzu zählen u.-a. forsa, INSA, Ipsos, Infas u. v. m. Eine nähere Befassung mit Umfragen hat aus mindestens zwei grund‐ sätzlichen Gründen heraus einen Vorteil: Zum einen lassen sich Umfrage‐ ergebnisse besser methodisch nachvollziehen und zum anderen können eigenen Projekte systematischer verfolgt und umgesetzt werden, besonders im Studium oder in der Forschung. Der vorliegende Leitfaden beleuchtet ausschließlich quantitative As‐ pekte der Auswertung von Fragebögen. D.h. alle Fragen, die sich auf die Auswahl der Themen und subjektiv-normative Bewertungen von Indikato‐ ren beziehen und in vielen Bereichen der Sozialwissenschaften eine wichtige Rolle für die Erkenntnisgewinnung spielen, können hier nicht betrachtet werden. Der Leitfaden setzt an der Stelle im Befragungsprozess an, an dem die/ der Umsetzende bereits über ein Set an relevanten Themen und Fragen verfügt und gewillt ist, diese mittels eines Online-Fragebogens bei der ihm bzw. ihr bekannten Zielgruppe zu erfassen. Der Leitfaden ist dem Prozess einer Umfrage nachempfunden und gliedert sich in sechs inhaltliche Kapitel, wobei das letzte Kapitel eine Reflexion zu dem gesamten Prozess bietet. In → Kapitel 2 wird das Ziel der Unter‐ suchung und der generelle Aufbau des Fragebogens besprochen, bevor in → Kapitel 3 auf grundlegende statistische Begriffe, insbesondere die unterschiedlichen Skalenniveaus eingegangen wird, welche relevant sind um die Auswahl-Items im Fragebogen bewusst vornehmen zu können (→ Kapitel 4). In → Kapitel 5 wird für verhältnisskalierte Antworttypen gezeigt, wie diese transformiert und zu einem Index zusammengefasst werden können. In → Kapitel 6 werden Beispiele für die Umsetzung in Excel und R dargestellt, welche leicht nachvollzogen werden können und der Prozess des Einlesens und Auswertens der Daten aus Sosci-Survey in Excel und R thematisiert. Hierin inbegriffen ist ein Befehl zur Auswertung von Teildatensätzen, welcher es dem Auswertenden erlaubt, einzelne Variablen <?page no="8"?> nach bestimmten Kriterien darzustellen, z. B. nach dem Alter oder dem Geschlecht, ohne dafür einen Filter im Fragebogen vorab definiert zu haben. Mit → Kapitel 7 schließt sich der Prozess der Umfrage, indem die Ergebnisse grafisch dargestellt werden. Hierfür werden die grundlegenden Möglichkeiten der grafischen Aufbereitung am Beispiel der Software R aufgezeigt und der Code zur Nachvollziehung anhand eigener Daten ange‐ geben. Besonders die Darstellung von Likert-Skalen kann als Neuerung des Leitfadens angesehen werden, da hierin der Vorteil des Arbeitens mit statistischer Software klar hervorsticht. Zudem münden in diesem Kapitel die Erkenntnisse und Konzepte der vorherigen Kapitel, insbesondere aus → Kapitel 2 und → Kapitel 5, indem die Zuspitzung der Ergebnisse auf eine einzige zentrale Abbildung erfolgt, welche die Information verdichtet dar‐ stellt. Im finalen → Kapitel 8 steht ein abschließender Reflexionsprozess an, mit dem im Idealfall auch der Umfrageprozess als Ganzes noch einmal reflektiert wird und Erkenntnisse für künftige Umfragen festgehalten und in Form eines Wissensmanagements (institutionell) nachhaltig verankert werden können. Wie kann der Leitfaden verwendet werden? Der Leitfaden kann sowohl vor der Durchführung einer Untersuchung zurate gezogen werden, um sich mit zentralen Konzepten und Fragen aus‐ einanderzusetzen, aber auch je nach Stand der Untersuchung nur für punk‐ tuelle Aspekte herangezogen werden. Die einzelnen Kapitel bauen lediglich zeitlich mit Blick auf die praxisbezogene Umsetzung einer Online-Umfrage aufeinander auf sowie an wenigen Stellen, z. B. um Beispielrechnungen zu vertiefen. Für die Leserin oder den Leser resultiert aus dem Aufbau, dass nicht alle zu einem Themenfeld vorgelagerten Kapitel gelesen werden müssen, sondern direkt zu dem jeweils relevanten Kapitel gesprungen werden kann. Hierbei empfiehlt es sich, → Kapitel 1 bis → Kapitel 4 als Grundlage bzw. Wiederholung zu lesen und dann optional die inhaltlichen Vertiefungskapitel zu wählen, die für die eigene Fragestellung aktuell am relevantesten sind. 8 1 Aufbau und Zielsetzung des Leitfadens <?page no="9"?> Beispiel zur Nutzung des Leitfadens | Wollen Sie beispielsweise als Planungsfachkraft für Ihren Sachbericht einen Index bilden und brau‐ chen hierfür eine Anregung, können Sie nach Durchsicht der Kapitel eins bis vier direkt in den → Abschnitt 5.2 wechseln. Wenn Sie mit den statistischen Grundlagen bereits vertraut sind, können Sie auch gleich mit der praktischen Umsetzung eines Index beginnen. Der Leitfaden begleitet Sie bis zu der grafischen Umsetzung, was für das Indexbeispiel anhand des Netzdiagramms (→ Abschnitt 7.2.1.) veranschaulicht wird. Somit bietet der Leitfaden Ihnen - aufbauend auf ihren Interessen und Vorkenntnissen - eine individuelle und flexible Lesart, je nachdem welches der inhaltlichen Themen für Sie relevant ist. 1 Aufbau und Zielsetzung des Leitfadens 9 <?page no="11"?> 2 Ziel einer empirischen Studie und Aufbau eines Fragebogens 2.1 Konkrete Fragen an eine Umfrage Umfragen gehören neben der Beobachtung, dem Experiment, sowie der Dokumentenanalyse zu den vier Erhebungsmethoden, die in den Sozialwis‐ senschaften genutzt werden, um an Primärdaten zu gelangen und stellen sowohl in wissenschaftlichen Erhebungen als auch in der kommunalen Praxis ein zentrales Tool zur Erkenntnisgewinnung dar. Eine Umfrage stellt einen langfristigen Prozess dar, der weit über die reine Befragung hinaus‐ geht. Dafür ist entsprechend Zeit einzuplanen. Für eine Umfrage lassen sich folgende Schritte identifizieren, die in einer linearen Bearbeitungsweise erfolgen, wobei jede Prozessebene eigene Pfadabhängigkeiten schafft, die eine Rückkehr zur vorherige Prozessebene erschweren: • Was? - Ziel der Befragung und den eigenen Ressourcenstand klären. - Welche Arbeitsschritte können durch das Team bearbeitet und welche müssen extern bezogen werden? • Wer? Wie? - Zielgruppe möglichst exakt definieren, z.-B. nach Alter, Wohnort, Schulform etc. - Art der Befragung festlegen (Onlinevs. Papierform; Leitfadenge‐ stütztes Interview vs. Fragebogen, mit überwiegend geschlossenen Fragen) • Umsetzung - Fragebogen entwickeln und technisch, z. B. mittels Software umsetzen. - Durchführung eines Pretests zur Identifizierung und Behebung inhaltlicher und sprachlicher Ungereimtheiten. - Befragung durchführen: Befragungszeitraum festsetzen und ggf. Besonderheiten, wie Ferienzeiten und Schulungszeiträume beach‐ ten. • Daten auswerten - Festlegung der Software und wie die grundliegende Frage aus den Daten heraus beantwortet werden können (→ Abschnitt 7). <?page no="12"?> - Rückspiegelung der Ergebnisse an die Teilnehmer: innen der Um‐ frage sowie an den Auftraggeber und die interessierte Öffentlich‐ keit. Dies kann in Form von Broschüren, Sachberichten oder Darstellung zentraler Ergebnisse auf der Website oder Social-Me‐ dia-Kanäle passieren. Bevor es jedoch um die konkrete Gestaltung eines Fragebogens geht, sollten sich die Person(engruppe), welche mit der Erstellung einer Umfrage betraut wurde(n), z. B. im Rahmen eines vorbereitenden Strategieworkshops die drei nachfolgenden Fragen stellen und diesbezüglich möglichst frühzeitig Einigkeit erzielen: Wer soll befragt werden? Zunächst ist es notwendig sich zu vergegenwärtigen, welche Perso‐ nen(gruppen) zu der Zielgruppe gehören. Die Identifikation dieser Grund‐ gesamtheit kann sehr unterschiedlich ausfallen. So können bei Senio‐ renbefragungen je nach Definition und Bereich Personen ab 45 Jahren (arbeitsmarktliche Sichtweise), bei Marketingstudien Personen jenseits der 50 und aus gesundheitspolitischer Perspektive Personen ab 70 Jahren ge‐ meint sein. Eine ähnliche Herausforderung ergibt sich bei Jugendbefragun‐ gen, welche je nach Institution oder Träger unterschiedlich weit gefasst sein kann. Gemäß dem Jugendrecht werden als „Jugendliche“ jene Personen bezeichnet, die sich altersmäßig in der Zeit zwischen Kindheit und Erwach‐ sensein befinden. Grob definiert also jene Personen, die sich zwischen dem 13. und dem 21. Lebensjahr befinden. Rechtlich gesehen werden als Jugendliche jene Personen bezeichnet, welche zwischen 14 und 18 Jahre alt sind. In konkreten Fällen können die Altersgrenzen jedoch abweichen, so werden beispielsweise in einigen Projekten der Beschäftigungsförderungen auch Personen bis zum 27. Lebensjahr als Jugendliche erfasst. Für die nötige Trennschärfe ist in jedem Fall zu Beginn des Untersuchungsprozesses zu sorgen. Was soll erfragt werden? Ist das Wer geklärt, stellt sich die Fragen nach dem Was bzw. dem Wonach der Befragung. Dieser Prozess ist am schwierigsten, denn er stellt das Fun‐ dament aller weiteren Schritte der Befragung dar. Es handelt sich hierbei um 12 2 Ziel einer empirischen Studie und Aufbau eines Fragebogens <?page no="13"?> eine zentrale Weichenstellung für den weiteren Befragungsprozess. Fehler, die an dieser Stelle gemacht werden oder Aspekte, die nicht beachtet werden, können im laufenden Prozess nur unter erheblichen Ressourceneinsatz und in einigen Fällen gar nicht mehr korrigiert werden. Die Pfadabhängigkeit ist an dieser Stelle des Umfrageprojekts bereits sehr hoch. Was erfragt werden soll zu bestimmen, ist alles andere als trivial, da es auf einer Metaebene den roten Faden der Untersuchung darstellt. Das Was ist auch deshalb schwer zu beantworten, weil -analog zu dem Bild eines Trichterssich alle nachfolgenden Fragen bzw. Items dieser übergeordneten Fragen unterordnen bzw. sich aus dieser ableiten lassen sollten. Zudem bewegt sich die Beantwortung des Was in einem permanenten Spannungsfeld aus Abstraktheit und Genauigkeit. Einerseits sollen im Nachgang noch genug potenziell interessierende Fragen gestellt werden können, aber ande‐ rerseits sollten mit den Fragen keine immer neuen Themenfelder aufgetan werden. Ein adäquates Was im Rahmen einer Jugendbefragung könnte beispielsweise lauten, „Wie zufrieden sind Jugendliche mit dem Leben in der Stadt Erfurt? “ oder „Wie bewerten Jugendliche die Lebensqualität in Ihrem Stadtteil? “. Beide exemplarische Fragen erfüllen den Anspruch einerseits die Ziel‐ gruppe und den Untersuchungsgegenstand einzugrenzen, andererseits las‐ sen sie für den weiteren Umsetzungsprozess genug Spielraum den Begriff „Lebensqualität“ durch konkrete Angebote der Stadt bzw. des Stadtteils zu untersetzen. Beispielsweise könnte aufbauend auf dieser Leitfrage nach Sport-, Kultur- und Freizeitangeboten gefragt werden, ohne den Rahmen, welcher durch die Leitfrage gesetzt wurde, zu verlassen. Wie soll befragt werden? Die dritte elementare Leitfrage bezieht sich auf die Methode der Befragung. Neben den beiden Extremvarianten einer rein-qualitativen Befragung und einer rein-quantitativen Befragungen ist es bei Befragungen üblich, eine Variante mit offenen und geschlossenen Antworttypen zu verwenden. Die‐ ser Ansatz wird Mixed-Methods-Ansatz genannt und stellt nach Döring und Bertz im Gegensatz zu den reinen quantitativen bzw. qualitativen Verfahren nicht zwangsläufig ein eigenes Paradigma dar. Erst die konkrete Ausgestaltung des Mixed Methods Ansatzes anhand von fünf in der Literatur bekannter Paradigmen - auf die Inkommensurabilitätsthese wird an dieser Stelle nicht eingegangen, da sie eine Vereinbarkeit von qualitativen 2.1 Konkrete Fragen an eine Umfrage 13 <?page no="14"?> und quantitativen Verfahren per se ausschließt - gibt Aufschluss über das Zusammenspiel beider Befragungsmethoden. Von inhaltlicher Relevanz sind für die praktische Forschung die dialektische These sowie der Komplementaritätsthese, wobei für praktische Untersuchungen, die in unregelmäßigen Turnussen stattfinden, der dialektische Ansatz oftmals zu zeitaufwendig ist. Das liegt daran, dass dieser ein permanentes Monitoring und Evaluieren der verwendeten Schritte der Umfrage mit Blick auf die beiden Pole der verwendeten Methoden, als auch auf die zweckmäßige Verhältnismäßigkeit in der Anwendung der Methoden erforderlich macht. Der komplementäre Ansatz hingegen analysiert die Stärken beider Me‐ thoden und sucht nach Möglichkeiten, den Fragebogen so zu gestalten, dass diese möglichst adäquat Berücksichtigung finden, wohingegen die Schwächen der Methoden möglichst wenig Gewicht erhalten sollten (Döring und Bortz 2016, 72 ff.). Dies wird gewährleistet, indem kein Methodenmix im wörtlichen Sinne stattfindet, sondern sowohl qualitative als auch quan‐ titative Fragen verwendet werden und zwar ausschließlich an den Stellen, an denen sie aus methodischer Sicht sinnvoll erscheinen. Beispielsweise kann in einem Fragebogen eine Option darin bestehen, offenen Fragen als Ergänzungen zu Einfach- und Mehrfachauswahlfragen, z. B. über die Sons‐ tige-Kategorie zu verwenden oder Meinungen zu einem Thema abzufragen, was auch in Form eines Essays erfolgen kann. Fraglich erscheint jedoch, ob der Zielkonflikt zwischen einer möglichst hohen Teilnehmerzahl bei der Befragung (quantitative Sicht) und einer möglichst „tiefen Analyse“ im Rahmen einer Umfrage (qualitative Sicht) überhaupt gelöst werden kann, sodass es ratsamer scheint, sich im Fragebogen mit wenigen offenen Fragen zu begnügen und dafür den Befragungsprozess insgesamt partizipativ an‐ zulegen. Ein Beispiel für ein solches Vorgehen findet sich im Rahmen der IKPE-Studie zur Zukunft der Sozialplanung in Thüringen (Soliman et al. 2022) wobei zunächst anhand von zwei Expert: inneninterviews relevante Themen aus Sicht der Sozialplanenden in Thüringen ermittelt wurden und nach qualitativen Standards ausgewertet worden sind. Im Anschluss wurde ein Online-Fragebogen entwickelt, der zu den Frageblöcken, welche aus den Interviews erarbeitet worden sind, spezifische und überwiegend geschlos‐ sene Fragen enthielt. Nach Auswertung des Online-Fragebogens wurden die Ergebnisse mit Führungskräften in zwei parallelen Online-Gesprächen validiert. Das Validierungsgespräch wurde ebenfalls qualitativ ausgewertet. Der Prozess ist in →-Abbildung 1 dargestellt. 14 2 Ziel einer empirischen Studie und Aufbau eines Fragebogens <?page no="15"?> Abb. 1: Beispiel eines Mixed-Methods-Befragungsdesigns einschl. eines partizipativen Beteiligungsprozesses (Quelle: Soliman et al. (2023)) Abbildung 1: Beispiel eines Mixed-Methods-Befragungsdesigns einschließlich eines parti‐ zipativen Beteiligungsprozesses | Quelle: Soliman et al. (2022) Darüber hinaus finden sich im siebten technischen Report der GESIS aus dem Jahr 2012 Angaben zu allgemeinen Richtlinien zum Management von Forschungsdaten, welche auch für Umfragen außerhalb der Forschungs‐ gemeinschaft nützlich sein können. Für Umfragen ist das → Kapitel 2 empfehlenswert, da es allgemeine Hinweise zur Datenaufbereitung und -kontrolle, einschließlich des Umgangs mit fehlenden bzw. ungültigen Fällen beinhaltet ( Jensen 20212, S.-21-37). 2.2 Phasen der Fragebogenentwicklung/ -umsetzung Der Prozess der Umfrage läuft idealtypisch in fünf aufeinander folgenden Schritten ab. Die Prozessabfolge verläuft i. d. R. linear, sodass der nachfol‐ gende Prozess erst begonnen werden kann, wenn der vorherige Prozess abgeschlossen worden ist. Die Vorbereitungsphase umfasst die Beant‐ wortung der drei W-Fragen. Sobald diese beantwortet worden sind, kann mit der Konkretisierung, Ausarbeitung und technischen Umsetzung des Fragebogens begonnen werden. Im Zentrum steht hierbei die Generierung von Frage-Items, welche ggf. zu einem größeren Fragekomplex (multiple Mehrfachauswahlmatrix) zusammengefasst und einem gemeinsamen Ober‐ thema zugeordnet werden können. Die einzelnen Items sollten anschließend in Bezug auf die Verständlichkeit und Relevanz organisations-intern, z. B. über Mitarbeitende desselben Referats, die an der Konstruktion des Frage‐ 2.2 Phasen der Fragebogenentwicklung/ -umsetzung 15 <?page no="16"?> bogens nicht beteiligt waren sowie extern, z. B. im Rahmen eines Pretests validiert werden. Nach erfolgtem Pretest und anschließender Revision und Anpassung ist die Testentwicklungsphase abgeschlossen. Abhängig von der Art der erhobenen Daten und Zielsetzung der Untersuchung, kann in einem reflexiven Prozess überprüft werden, ob alle Daten mit Blick auf die weitere Verarbeitung, z. B. für eine Normierung, Zentrierung oder Indexbildung (→ Abschnitt 5), mit einem hierfür günstigen Skalenniveau (→ Abschnitt 3.2) erfasst worden sind. Im Anschluss wird der Fragebogen zur Beantwortung durch die Adressat: innengruppe für die Dauer der Befragung freigeschaltet. Hieran schließ sich die Auswertungsphase, in der auf Basis eines klaren Datenmanagementsystems ein Codebook erstellt bzw. heruntergeladen und dem Auswertungsteam zur Verfügung gestellt wird. Ferner ist zu bestim‐ men, mit welcher Software, z. B. Excel, SPSS oder R, der Datensatz mit Blick auf das Erkenntnisinteresse auszuwerten ist. Liegen die Ergebnisse, z. B. in Form von Abbildungen vor, sollte eine interne Präsentation und anschließende Auswahl der zu publizierende Ergebnisse erfolgen. Gegebe‐ nenfalls können aus den Ergebnissen bereits Rückschlüsse für die eigene Arbeit und Lehren zur Verstetigung für das künftige Vorgehen mit Umfragen gewonnen werden. Als letzter Schritt erfolgt die zielgruppenspezifisch aufbereitete Publikation der Ergebnisse, z. B. über Broschüren, Handbücher, Sammelwerke, Webseiten oder Social-Media-Kanäle. Tab. 1: Prozessschritte einer Umfrage (Quelle: eigene Darstellung) zeitliche und inhaltliche Planung Festlegung der Ziele und Zielgruppe(n) der Befragung Erstellung der Fragen Wahl des Umfrage- Tools Fragebogenerstellung Pre-Test Festlegung des zu verwendenden Auswertungs- Tools Auswertung der Umfrage im Hinblick auf das definierte Erkenntnisziel interne Präsentation der Ergebnisse Auswahl der Ergebnisse Bedeutung der Ergebnisse für die eigene Arbeit ableiten Verbreitung der Ergebnisse über die Netzwerke der Organisation zielgruppenadäquate Präsentation relevanter (Teil-) Ergebnisse Vorbereitung Umsetzung Auswertung Interpretation Dissemination Tabelle 1: Prozessschritte einer Umfrage | Quelle: eigene Darstellung 16 2 Ziel einer empirischen Studie und Aufbau eines Fragebogens <?page no="17"?> 3 Statistische Grundbegriffe 3.1 Von der Grundgesamtheit zur Merkmalsausprägung Im Sinne einer durchdachten Fragebogenerstellung und mit Hinblick auf eine gewissenhafte Auswertung, welche die Voraussetzung für belastbare Ergebnisse darstellt, sind einige Basiskenntnisse aus dem Bereich der de‐ skriptiven Statistik nicht nur hilfreich, sondern auch essenziell. Insbeson‐ dere die Skalenniveaus und die damit verknüpften Berechnungsvorschrif‐ ten für Lage- und Zusammenhangmaße stellen Praktiker- und Planer: innen im praktischen Umgang mit der Konzeption und Auswertung von Umfragen immer wieder vor Herausforderungen. Dies ist mit Blick auf die heterogenen Ausbildungs- und Anforderungsprofile sowie die Vielfalt an unterschiedli‐ chen Aufgabentypen im jeweiligen Arbeitskontext wenig überraschend. Bevor jedoch die Skalenniveaus adressiert werden können, sind zunächst einige Grundbegriffe zu klären: Wissen | Grundbegriffe In der deskriptiven Statistik nennt man die Objekte, auf die sich eine statistische Untersuchung bezieht, statistische Einheiten oder Merk‐ malsträger. Im Zuge einer Jugendbefragung im Landkreis X wären die Merkmalsträger also die Jugendlichen, die an der Umfrage teilnehmen. Diese speisen sich aus der Grundgesamtheit, also allen Jugendlichen des Landkreises. Somit beziehen sich Daten immer auf die statistischen Einheiten (Merkmalsträger). Die Antworten oder Eigenschaften der Merkmalsträger werden Merkmale genannt. Ein Merkmal der Jugend‐ befragung im Landkreis X könnte lauten, ob die Person „männlich“, „weiblich“ oder „divers“ ist, somit ist das Geschlecht ein Merkmal des Merkmalträgers und die Ausprägung „männlich“, „weiblich“ oder „divers“ nennt man Merkmalsausprägung. Die Begriffe mit weiteren Beispielen sind in → Tabelle 2 zusammengefasst. <?page no="18"?> Begriff Erklärung Beispiel statistische Einheit Informationsträger Personen, Objekte, Institutionen Merkmal Interessierende Ei‐ genschaft einer sta‐ tistischen Einheit Alter, Börsenwert, Gewicht, Kör‐ pergröße, Kosten, Beurteilung, Pro‐ duktanzahl, Geschlecht, Augenfarbe, Raucherstatus Merkmalsausprägung Werte, Zustände, Ka‐ tegorien, die ein Merkmal annehmen kann Jahre, Euro, Kilogramm (kg), Zentimeter (cm), Noten, Stück, männlich/ weiblich/ divers, grün/ blau/ braun, starker Rau‐ cher/ Nichtraucher Merkmals‐ wert der beobachtete Wert einer Merkmalsau‐ sprägung 31 Jahre, 1.300€, 90-kg, 175-cm Tabelle 2: Von der Grundgesamtheit zur Merkmalsausprägung | Quelle: Kohn und Öztürk 2016, S.-14, modifiziert 3.2 Skalenniveaus Jede Variable, auch Merkmal genannt, kann je nach Art der Erfassung i. d. R. eindeutig einem Skalenniveau zugeordnet werden. In manchen Fällen trifft jedoch auch mehr als eine Merkmalsausprägung pro Merkmal zu; so kann die Frage nach dem Lieblings(sport)verein oder dem Lieblingsort in einer Stadt mitunter zu mehreren Antworten führen, da eine Person mehrere Lieb‐ lingsvereine oder Lieblingsorte haben kann. In diesen - eher die Ausnahme als die Regel bildenden - Fällen spricht man von häufbaren Merkmalen. Häufungen beziehen sich dabei immer auf dasselbe Skalenniveau. Ferner wird zwischen diskreten und stetigen Variablen unterschieden: Ein Merkmal heißt stetig, wenn seine Ausprägungen beliebige Zahlenwerte 18 3 Statistische Grundbegriffe <?page no="19"?> aus einem Intervall annehmen können (z. B. Körpergröße). Hingegen han‐ delt es sich um ein diskretes Merkmal, wenn die Ausprägungen nur eine vorab bestimmbare Anzahl an Werten annehmen können (z. B. Schulno‐ ten, Geschlecht). Diskrete Merkmale haben abzählbar viele Ausprägungen. Ein Zwischenfall bilden quasi-stetige Variablen, welche zwar diskret sind, aber als stetig behandelt werden. Hierzu zählt z. B. das Einkommen einer bestimmten Person(engruppe), das zwar nach oben und unten begrenzt ist, jedoch sehr viele, unterschiedliche konkrete Ausprägungen annehmen kann. Bezüglich der Skalenniveaus wird zwischen Nominalskala, Ordinalskala und Metrischer Skala (auch: Kardinalskala) unterschieden. Nominalska‐ lierte Variablen geben lediglich Auskunft über die Existenz oder die Aus‐ prägung eines Merkmals. Hierzu zählen die Augenfarbe, das Geschlecht, die Nationalität und alle Angaben, die sich mit „ja“ bzw. „nein“ beantworten lassen, z. B. die Frage, ob ein Hochschulabschluss vorliegt, ein Gymnasium besucht wurde oder der Besuch eines Zahnarztes innerhalb der letzten 12 Monate unternommen worden ist. Diese Variablen spielen im Rahmen von Befragungen eine strategisch bedeutsame Rolle. So lassen sich Antworten der Befragten anhand dieser Kategorien auswerten, wodurch Unterschiede zwischen Gruppen sichtbar gemacht werden können. Dieser Typ von Ska‐ lenniveau wird üblicherweise zu Beginn im ersten Teil des Fragebogens - oftmals unter der Rubrik Persönliche Angaben - abgefragt und sollte eine geringe Anzahl an wohldurchdachten Fragen beinhalten. Bei ordinalskalierten Merkmalen handelt es sich um Variablen, für die eine natürliche Ordnung existiert. Hierzu zählen Tabellenplatzierungen, z. B. der Tabellenplatz eines Fußballvereins in der ersten Fußballbundesliga, die Zugehörigkeit zu einer Jahrgangsstufe in einer Schulklasse oder die Zuordnung eines Stadtteils zu einem Stadtteil mit geringem, mittlerem oder hohem Durchschnittseinkommen. Metrische Variablen sind Variablen, bei denen mindestens das Bilden von Differenzen möglich ist, ggf. könne sogar Quotienten gebildet werden. Ein Beispiel für eine Intervallskala stellt die Temperatur (in Grad Celsius) dar. Das Haushaltseinkommen (in Euro), das Alter (in Jahren) die Körper‐ größen (in Zentimetern), Gewichtsangaben (in Kilogramm) oder die Akku‐ laufzeit eines Handys (in Minuten) sowie die Anrufdauer (in Sekunden) stellen typische Beispiele für eine Verhältnisskala dar. Bei Erhebungen ist die Abgrenzung zwischen einer ordinalen Skala, die über eine Zahlenfolge (eins bis fünf für sehr gering bis sehr hoch) 3.2 Skalenniveaus 19 <?page no="20"?> abgebildet und als Likert-Skala bezeichnet wird und einer Verhältnisskala nicht immer klar zu erkennen. Wird z. B. als Antworttyp im Rahmen einer Online-Umfrage der Schieberegler verwendet, wird eine Werteskala von 0 bis 10 unterstellt. Jedoch handelt es sich auch hierbei nicht automatisch um eine stetige, (quasi-) metrische Variable bzw. eine Verhältnisskala. Die auf Basis der Skalenniveaus durchführbaren Berechnungen sind in → Tabelle 3 dargestellt. - sinnvolle Operationen Skala auszählen ordnen Differenzen Quotienten Nominalskala ja nein nein nein Ordinalskala ja ja nein nein metrische Skala Intervall‐ skala ja ja ja nein Verhältnis‐ skala ja ja ja ja Tabelle 3: Skalenniveaus und mögliche Operationen | Quelle: Mittag (2011, S.-16), modi‐ fiziert Sonderfall: Likert-Skala Die für Fragebögen besonders häufig genutzten Likert-Skalen gehören originär den ordinal-skalierten Variablen an, wenngleich diese oftmals ohne Prüfung der hierfür notwendigen Voraussetzung der Äquidistanz, als metrische Variablen (Intervallskala) behandelt werden. Mit Äquidistanz ist gemeint, dass die Befragten die Abstände zwischen den Items als gleichwer‐ tig bewerten, sodass im Rahmen einer 5-Punkte-Likert-Skala der Abstand zwischen „sehr gut“ und „gut“ genauso bewertet wird, wie der zwischen „schlecht“ und „sehr schlecht“. Dadurch wäre es möglich, Durchschnitte als metrisch zu interpretieren. Auch wenn die Voraussetzung zur Behandlung einer Likert-Skala als Verhältnisskala in der praktischen Forschung nicht ganz einfach zu überprüfen ist, erscheint ein Verweis auf den Trade-off zwi‐ schen Praktikabilität und der theoretischen und eindeutigen Zuordenbarkeit zu den dargestellten Skalenniveaus sinnvoll, da sich die in der → Tabelle 3 dargestellten Operationen aus dem zugrundeliegenden Skalenniveaus erge‐ ben. Völkl und Korb fassen dieses Spannungsverhältnis wie folgt zusammen: 20 3 Statistische Grundbegriffe <?page no="21"?> „Um jedoch bei der Datenanalyse die gesamten statistischen Operationen ein‐ setzen zu können, wird die Likert-Skala gerne als quasi-metrisch bezeichnet und wie eine Intervallskala behandelt. Voraussetzung für eine Interpretation als quasi-metrisch ist, dass die Variablen mindestens fünf Ausprägungen haben und die Abstände zwischen den Antworten semantisch und durch numerische Wertzuweisung als gleich groß interpretiert werden können (vgl. Urban und Mayerl 2011: 275).“ Quelle: Völkl und Korb 2018, S.-21 Konsequenzen für das weitere Vorgehen Ausgehend von dem jeweiligen Skalenniveau können unterschiedliche Berechnungen für die Variable vorgenommen werden. Wie sich anhand der Ausführungen in → Tabelle 3 erkennen lässt, können beim nominalen Variablen, z. B. dem Geschlecht lediglich Häufigkeiten oder Häufigkeitsta‐ bellen gebildet werden. Das einzige Lagemaß, das sich bilden lässt, ist somit der Modus, welcher die Ausprägung angibt, die am häufigsten auftritt. Streuungsmaße können für nominale Variablen grundsätzlich nicht gebildet werden. Für ordinalskalierte Variablen liegt eine natürliche Rangordnung vor, wodurch der Modus und Median bestimmt sowie die Spannweite (X max - X min ) ermittelt werden können. Für metrische Skalen können bei intervallskalierten Variablen die Spannweite und bei verhältnisskalierten Merkmalen zusätzlich die Varianz bzw. die Standardabweichung errechnet werden. Dies erklärt sich dadurch, dass für die Berechnung der Varianz die Bildung des Mittelwertes eine zwingende Voraussetzung ist. → Tabelle 4 ist folglich so zu verstehen, dass entlang der Leserichtung, von links nach rechts, die Anzahl an berechenbaren Lage- und Streuungsmaßen zunimmt, wobei die Maße, die für das niedrigere Skalenniveau ermittelt werden können, stets auch für das höhere Skalenniveau anwendbar sind. 3.2 Skalenniveaus 21 <?page no="22"?> Zunahme des Skalenniveaus Nominalskala → Ordinalskala → metrische Skala Nominalskala Ordinalskala metrische Skala Lagemaße Modus Modus arithmetisches Mittel Median Streuungsmaße - Spannweite Varianz bzw. Stan‐ dardabweichung Tabelle 4: Lage- und Streuungsmaße nach Skalenniveau | Quelle: eigene Darstellung 22 3 Statistische Grundbegriffe <?page no="23"?> 4 Bestimmung des Antworttypus 4.1 Antworttypen Analog zu der Unterscheidung zwischen qualitativen und quantitativen Fragen, lassen sich offene, geschlossene und halboffene Antworttypen unterscheiden. Während geschlossene Fragen z. B. durch eine Checkbox zum Ankreuzen ohne Eingabefeld im Rahmen einer Online-Umfrage reprä‐ sentiert werden können, stellen offene Fragen i. d. R. leere Textfelder oder Lückentexte dar, in die die Interviewten einen Text eingeben oder ein beliebiges Wort frei ergänzen können. → Tabelle 5 gibt einen Überblick über die verschiedenen Antworttools und den zugehörigen Antworttypus. Zunahme des Offenheitsgrads der Fragetypen (von links nach rechts) • Einfachbzw. Mehrfachaus‐ wahl • Likert-Skala • Schieberegler • Rangordnung • Einfachbzw. Mehrfachaus‐ wahl mit einem Freifeld für die Kategorie „Sonstige“ • Texteingabe mit Auswahl‐ empfehlung • Karten anord‐ nen • Ballontest • offener Lücken‐ text • Texteingabe ohne Auswahl‐ empfehlung Tabelle 5: Antworttypen für Umfragen | Quelle: eigene Darstellung 4.2 Antwortformate und Antworttypen Nicht immer ist auf Anhieb ersichtlich, welcher Antworttyp für welche Frage am besten geeignet ist. Oftmals sprechen sowohl Argumente für als auch gegen den jeweiligen Antworttypus, sodass u. U. selbst nach reiflicher Überlegung ex ante keine eindeutige Antwort möglich ist. In diesen Fällen kann eine Abwägung der jeweiligen Trade-offs vorgenommen werden. Ein Schieberegler ist beispielsweise gewöhnungs- und auch erklärungsbedürf‐ tiger als eine 5-Punkteskala, sodass ein Hinweis auf die spätere Auswertung gegeben werden sollte, z. B. in der Art, dass im Rahmen der Auswertung eine Umrechnung in eine 5-Punktskala erfolgt und daher der Interviewte zur Kenntnis nehmen kann, dass die unteren 20 % mit einer sehr geringen und die oberen 20 % mit einer sehr hohen Zustimmung korrespondiert, wodurch zusätzlich Unsicherheit bzgl. der Bedeutung von Einerschritten <?page no="24"?> 1 Das gilt für den Fall, dass es sich um eine Schieberegler mit sehr vielen Ausprägungen handelt. reduziert wird. 1 Für den Auswertenden hingegen erlaubt die Nutzung des Schiebreglers u. U. die Ausnutzung eines höheren Skalenniveaus, wodurch Lage- und Streuungsparameter berechenbar sind, welche für eine punktu‐ ell tiefergehende Auswertung genutzt werden könnten. Der Leserschaft wird an dieser Stelle empfohlen, grundsätzlich immer zuerst zu überlegen, welche Information auf welche Weise gewonnen werden soll und erst im Anschluss den entsprechenden Antworttypus auszuwählen und sich nicht von etwaigen Konventionen leiten zu lassen; auch und gerade, weil es sich in der Praxis oftmals zeigt, dass dieses Vorgehen eines der häufigsten und irreversibelsten Irrtümer zur Zeitersparnis darstellt. Ein leichter zu kontrollierender und daher vermeidbarer Fehler besteht in der Ausformulierung der Fragen und der zugehörigen Antwort-Items. So lassen sich nach Lienert (1998) sechs Kriterien formulieren, die zu einer Erhöhung der Quote der gültigen Antworten einerseits und einer überschau‐ baren zeitlichen und finanziellen Belastung des Befragenden andererseits beitragen können. Hierzu gehören: • leichte Verständlichkeit • einfache Durchführbarkeit • kurze Bearbeitungszeit • geringer Materialbzw. Papierverbrauch • leichte Auswertbarkeit • geringe Häufigkeit von Zufallslösungen Ein Paradebeispiel für eine gesteigerte Komplexität bei der Auswertung stellen Filterfragen in einem Fragebogen dar. Dies soll nicht heißen, dass deren Verwendung grundsätzlich in Frage gestellt werden muss. Aber sollte sich die Frage gestellt werden, nach welchen Grundsätzen welcher Fragetyp zum Einsatz kommen soll. Es sollte sich ferner Klarheit darüber verschafft werden, dass Filter stets zu einer Reduktion der Grundgesamtheit führen, für die eine Auswertung vorgenommen werden kann. Eine Rückreferenzierung auf die Grundgesamtheit ist für Filterfragen nicht möglich. Ein bewusster Umgang mit Filtern setzt an dieser Kenntnis an und beantwortet die Frage nach dem Mehrwert des Filters, indem es dem Nutzen, der sich aus der Fokussierung auf den Teildatensatz dem Nutzenverlust, der sich daraus ergibt, dass die jeweilige Information nicht für alle Befragten erhoben 24 4 Bestimmung des Antworttypus <?page no="25"?> wurden, gegenüberstellt. Die Verwendung von Filtern stellt aus technischer Perspektive eine ultima ratio dar. Möchte das Auswertungsteam wissen, ob auf die Frage nach der Beliebt‐ heit eines Freizeitangebots, z. B. einem Kletterpark je nach Wohnviertel unterschiedlich geantwortet wird, so wäre ein Filter kein probates Mittel, würde es einerseits zu einem erhöhten Aufwand bei der Konzeption des Fragebogens führen und andererseits die nachträgliche Auswertung der Frage nach anderen Kriterien, z. B. dem Geschlecht oder dem Einkommen der befragten Person unmöglich machen. Hierfür gibt es andere Möglich‐ keiten z. B. die Verwendung von Pivot-Tabellen in Excel oder das Erzeugen von Teildatensätzen in R (vgl. → Kapitel 6.4.2). Ein Filter hingegen sollte nur genutzt werden, wenn die Frage ausschließlich für eine Teilgruppe relevant ist und sichergestellt werden kann, dass sich dies im weiteren Umfrageprozess nicht ändert. 4.2 Antwortformate und Antworttypen 25 <?page no="27"?> 5 Transformation von Antworttypen und Umsetzung mit Excel und R In den Sozialberichten und anderen Ergebnisreporten ist es manchmal sinnvoll Entwicklungen bzw. Antworten anhand einer einheitlichen Skala vergleichbar zu machen. Liegt eine Verhältnisskala bei der Variablen vor, ist es möglich Items zu einem Gesamtwert zusammenzufassen (Indexbildung). In →-Abschnitt 5.1.1. und → Abschnitt 5.1.2. wird zunächst auf zwei weitverbreite Methoden zur Vereinheitlichung von Daten mit unterschiedlichen Einheiten eingegangen. In →-Abschnitt 5.1.3. werden unterschiedliche Arten der Indexbildung diskutiert. Die Datentransformation und die Indexbildung bilden in der Praxis oftmals zwei zusammenhängende Arbeitsschritte, da die Transformation dem Prozess der Indexbildung vorgelagert oder sogar Teil der Indexbildung sein kann. 5.1 Normierung, Zentrierung und Indexbildung 5.1.1 Normierung der Werte Liegt eine verhältnisskalierte Variable vor, so lässt sich dieses so transformie‐ ren, dass alle Werte zwischen null und eins liegen. Dies kann z.-B. sinnvoll sein, wenn man die Variable im Anschluss in Gruppen einteilen und anschließend grafisch anhand von Heatmaps darstellen möchte, die Antworten selbst aber verhältnisskaliert und nicht etwa durch die Zuordnung zu Einkommensgruppen erheben möchte. Ein Beispiel könnte die räumliche Darstellung der Höhe der monatlichen Einkommen in einer Stadt aufgeschlüsselt nach Stadtteilen sein. Mittels einer einfachen Berechnungsvorschrift können die Werte auf einer einheitlichen Basis von null bis eins, bzw. durch anschließende Multiplikation mit 100 in Prozent angegeben werden: X norm = X i − X min X max − X min <?page no="28"?> Beispiel | Um beim Beispiel mit den Haushaltseinkommen zu bleiben sei angenommen, dass in nachfolgender Tabelle, dass durchschnittliche Einkommen für die 10 Bezirke in Musterstadt abgebildet sind. Die Zah‐ len sind frei erfunden und dienen ausschließlich der Anschaulichkeit der Berechnungsweise normierter Werte. Be‐ zirk 1 Be‐ zirk 2 Be‐ zirk 3 Be‐ zirk 4 Be‐ zirk 5 Be‐ zirk 6 Be‐ zirk 7 Be‐ zirk 8 Be‐ zirk 9 Be‐ zirk 10 18.975 18.915 19.067 18.954 18.981 19.066 18.890 19.067 18.896 19.073 Tabelle 6: Durchschnittliches Einkommen Musterstadt (in Euro) | Quelle: eigene Dar‐ stellung Nun wird die Formel für die Werte aus → Tabelle 6 angewendet. Die neuen Werte können der → Tabelle 7 entnommen werden. Der Minimalwert ist auf null, der Maximalwert auf eins normiert und die resultierenden Werte als Prozente angegeben: Be‐ zirk 1 Be‐ zirk 2 Be‐ zirk 3 Be‐ zirk 4 Be‐ zirk 5 Be‐ zirk 6 Be‐ zirk 7 Be‐ zirk 8 Be‐ zirk 9 Be‐ zirk 10 46% 14% 97% 35% 50% 96% 0% 97% 3% 100% Tabelle 7: Normierte Werte | Quelle: eigene Darstellung und Berechnung Anhand dieser Methode lässt sich leicht ablesen, dass es sich bei dem fiktiven Beispiel um eine gleichmäßige Verteilung mit leichter Rechts‐ schiefe bei den Einkommen handelt, da ca. die Hälfte der Werte kleiner und in etwa die andere Hälfte der Werte größer als 50 % sind. Am oberen Rand findet sich jedoch eine Häufung von Datenpunkten; so haben 25 % der Einkommen einen normierten Wert von 96 % oder größer. Für reale Datenfälle insbesondere in Bezug auf das Einkommen ist das plausibel. 28 5 Transformation von Antworttypen und Umsetzung mit Excel und R <?page no="29"?> 5.1.2 Zentrierung der Werte anhand der z-Transformation Eine weitere Möglichkeit zur Transformation von verhältnisskalierten Da‐ ten besteht darin, dass von den Beobachtungen (X i ) zunächst das arithmeti‐ sche Mittel (X ) abgezogen und die Differenz durch die Standardabweichung (S X ) geteilt wird. Z = X − X S x In der Folge entstehen standardisierte Werte, mit einem Erwartungswert (Mittelwert) in Höhe von null und einer Standardabweichung in Höhe von eins. Von den neu erzeugten Werten weist die Hälfte ein positives und die andere Hälfte ein negatives Vorzeichen auf. Die Einheit der neu gebildeten Variablen bildet jeweils die Standardabweichung der ursprünglichen Varia‐ blen. Beispiel | Für die Bildung der standardisierten Werte wird in → Tabelle 8 zunächst für eine beliebige fiktive Kommune „A“ angenommen, dass es genau vier Einwohner mit Bargeldbeständen i.H.v. 100€, 200€, 250€ und 300€ gibt. Durch Anwendung der o. g. Formel wird in zwei Schritten der zugehörige Z-Wert (sprich: standardisierter Wert) gebildet. Die Idee der standardisierten Werte wird durch die Tatsache verdeutlicht, dass es sich um die standardisierten Abweichungen vom Mittelwert (rote, horizontale Linie) handelt, deren Summe für standardisierte Werte null beträgt (→-Abbildung 3). Kommune A Bargeld(X) X i − X Z-Berech‐ nung Z-Wert Person 1 100 100 - 212.5 = -112.5 −112 . 5 73 . 95 -1.52 Person 2 250 250 - 212.5 = 37.5 37 . 5 73 . 95 0.51 Person 3 300 300 - 212.5 = 87.5 87 . 5 73 . 95 1.18 5.1 Normierung, Zentrierung und Indexbildung 29 <?page no="30"?> Person 4 200 -12.5 −12 . 5 73 . 95 -0.17 arithmetisches Mittel 212.5 0 0 0 Standardabweichung 73.95 - - 1 Tabelle 8: Bildung Standardisierter Werte |-Quelle: eigene Darstellung und Berech‐ nung |- Anmerkung: Die Standardabweichung einer Variablen X berechnet sich als Wurzel aus der Varianz, gemäß der Formel: S x = 1 n X i − X 2 . Der zugehörige Befehl in Excel bzw. R lautet: WURZEL(VAR.P()), bzw. sqrt(var(x)). 5.1.3 Umsetzung mit Software 5.1.3.1 Umsetzung mit Excel Normierung der Werte Für die Umsetzung in Excel werden lediglich die Befehle MIN() und MAX() benötigt und Kenntnisse zur Anwendung der Punkt vor Strich- und Klam‐ merrechnung. In einer zusätzlichen Spalte können die jeweiligen normierten Werte durch die Befehlseingabe (Zellenwert-MIN())/ (MAX()-MIN()) ermittelt werden. Zur Überprüfung, ob die Transformation gelungen ist, kann die MIN() und MAX() Funktion auf die normierten Werte angewendet werden, wobei die resultierenden Werte null bzw. eines lauten sollten. Zentrierung der Werte In Excel bietet es sich an, eine Tabelle anzulegen, welche in einem anschlie‐ ßenden Schritt auch zur Indexbildung weiter genutzt werden kann. Diese sollte neben den Ursprungsdaten eine weitere Spalte für die Ermittlung der zentrierten Werte (z-Werte) enthalten. Dieser Schritt stellt die Ausgangslage der verteilungsabhängigen Indexberechnung dar. In → Tabelle 14 findet 30 5 Transformation von Antworttypen und Umsetzung mit Excel und R <?page no="31"?> sich eine beispielhafte Berechnung mit Excel, an dem die Umsetzung anhand der zweifachen Standardisierung im Rahmen der Indexbildung verdeutlicht wurde. Anstelle der manuellen Eingabe des Standardisierungsbefehls kann auch die implementierte Funktion STANDARDISIERUNG() verwendet wer‐ den. 5.1.3.2 Umsetzung mit R Normierung der Werte Beispiel | Die Umsetzung der Normierungsformel in R kann, wie an folgendem Beispielcode veranschaulicht wird, in fünf einfachen Schrit‐ ten umgesetzt werden, wobei die vertikale Linie als theoretische Mitte der normierten Werte erzeugt wird. Hierbei wird ersichtlich, dass die Normierung zu einer Stärkung der Ränder der Verteilung führt. In dem nachfolgenden Beispielcode in R steht „x“ für das Haushaltseinkommen: x<-c(18975, 18915, 19067, 18954, 18981, 19066, 18890, 19067, 18896, 19073) Normiert<-round((x-min(x))/ (max(x)-min(x)) *100,0) print(Normiert) plot(Normiert,x,ylab="HH-Einkommen in Euro",xlab="Normierte Werte") abline(v=50,col="red") Tabelle 9: R-Code für die Zusammenfassung zu Klassenwerten | Quelle: eigene Darstellung mit RStudio In R besteht zudem eine einfache Art und Weise, wie die normierten Daten nachträglich zu Einkommensklassen zusammengefasst werden können. Hierzu ein Beispiel: 5.1 Normierung, Zentrierung und Indexbildung 31 <?page no="32"?> Abbildung 2: Haushaltseinkommen vs. Normierte Werte R-Code mit Zahlenwert für Klassenzugehörigkeit R-Code mit Character für Klassenzugehörigkeit Normiert[Normiert<25]<-1 Normiert[Normiert<25]<-„sehr gering“ Normiert[Normiert>=25& Normiert<50]<-2 Normiert[Normiert>=25& Normiert<50]<-„gering“ Normiert[Normiert>=50& Normiert<75]<-3 Normiert[Normiert>=50& Normiert<75]<-„hoch“ Normiert[Normiert>=75]<-4 Normiert[Normiert>=75]<-„sehr hoch“ Tabelle 10: Umkodierung in R | Quelle: eigene Darstellung z-Standardisierung Wie sich der Befehl zur z-Standardisierung in R umsetzen lässt, wird nachfolgend kurz aufgezeigt: Für die Darstellung in → Abbildung 3 wird an dieser Stelle anhand von fiktiven Daten zunächst das Verfahren der Standardisierung erläutert. In → Abschnitt 5.1.3. wird auf den Zusammenhang zwischen Indexbildung und standardisierten Werten eingegangen. Generell kann In R - analog zu der 32 5 Transformation von Antworttypen und Umsetzung mit Excel und R <?page no="33"?> Umsetzung mit Excel - entweder die Formel manuell eingegeben oder die interne Funktion scale() verwendet werden. 1 2 3 4 −1 −0.5 0 0.5 1 HH−Einkommen (normiert) Personen Abbildung 3: Z-Werte | Quelle: eigene Darstellung und Berechnung mit RStudio Der zugehörige R-Code lautet: • Werte<-c(100,250,300,200) • Z<-scale(Werte) • Daten<-data.frame(Person=c(1: 4),"Norm.Einkommen"=Z) • print(Daten) • plot(Daten,xlim=c(1,4),xaxt="n") • axis(1,at=c(1,2,3,4)) • abline(h=mean(Z),col="red") 5.2 Indexbildung Bei einem Index werden mehrere Variablen zu einer neuen Variablen zusam‐ mengefasst, wobei für die resultierende Indexvariable von einem metrischen Skalenniveau ausgegangen wird. Diese Annahme wird z. T. selbst dann aufrechterhalten, wenn bei einzelnen Variablen, welche für die Indexbildung genutzt werden, eine Abweichung von der metrischen Skala besteht. Die weite Verbreitung von Indizes in den Sozialwissenschaften begründen Völkl und Korb damit, dass theoretische Konstrukte Analysegegenstand sind, die latent und nicht direkt messbar sind, wie beispielsweise das politische Kompetenzgefühl oder die Ausländerfeindlichkeit. Um das nicht direkt beobachtbare Phänomen möglichst strukturtreu abzubilden, erfolgt die Operationalisierung über mehrere 5.2 Indexbildung 33 <?page no="34"?> beobachtbare Einzelindikatoren, wobei in diesem Zusammenhang häufig die Likert-Skala Verwendung findet (Völkl und Korb 2018). Indizes können grob anhand von zwei Kriterien unterschieden werden; anhand der Art der mathematischen Verknüpfung und des Aspekts der Vertei‐ lungs(un)abhängigkeit. → Tabelle 11 gibt einen Überblick über verschiedene Indizes. Verteilungsabhängig meint dabei, dass bei der Indexbildung die Lagepa‐ rameter (insbesondere das arithmetische Mittel) berücksichtigt werden, sodass schon kleine Änderung der Basiswerte zu messbaren Auswirkungen in dem Index führen können. In dem Fall, dass lediglich eine Variable, z. B. die Höhe des durchschnittlichen Haushaltseinkommens einer Kommune als Index genutzt wird, spricht man von einem einfachen, verteilungsunabhängigen Index. Wird hingegen für verschiedene Kommunen das Haushaltseinkommen anhand einer Zentrierung verglichen, handelt es sich um einen einfachen, verteilungsabhängigen Index. Additive Indizes ergeben sich hingegen dadurch, dass entlang zweier Dimensionen, z.-B. mehrere Indikatoren für mehrere Kommunen Informationen zusammengefasst werden. Im verteilungsunabhängigen Fall findet weder eine Zentrierung noch eine Normierung statt, sondern maximal eine unterschiedliche Gewichtung, z. B. nach Größe der Kommune. Verteilungsunabhängige Indizes können zudem auch multiplikativ verknüpft sein, insbesondere wenn das Vorlie‐ gen aller Kriterien geprüft werden soll. Art des Index verteilungsabhängig verteilungsunabhängig einfach einfache Zentrierung bzw. Normierung (z.-B. Betrachtung nur einer Variablen oder eines Stadtteils) Indikator (=Index) additiv zweifache Standardi‐ sierung einfacher additiver Index (mit und ohne Ge‐ wichtung); z.B. Anzahl an Kitas im Stadtteil „Andreasvorstadt“ multi‐ plikativ - einfacher multiplikativer Ansatz; z.B. wird das (Nicht-)Vorhandensein einer Kita und einer Schule mit 0 (1) bewertet und im Anschluss beide Werte miteinander multipli‐ ziert. Das Nichtvorhandensein einer Kita bzw. einer Schule in einem Stadtteil führt dazu, dass der Indexwert den Wert „null“ annimmt. Tabelle 11: Index-Typen | Quelle: eigene Darstellung 34 5 Transformation von Antworttypen und Umsetzung mit Excel und R <?page no="35"?> 5.2.1 Einfacher Index (verteilungsunabhängig) In der Praxis kann es zweckmäßig erscheinen, verschieden Frage-Items miteinander zu verknüpfen, z. B. falls die Zustimmungswerte zu der Frage „Wie bewerten Sie die Armutslage in Ihrem Viertel“ mit denen zu der Frage „Wie bewerten Sie Ihre eigene Einkommenssituation“ gemeinsam betrachtet werden sollen. Wie in → Abschnitt 3.2. beschrieben wurde, ist bei der Likert-Skala Vorsicht geboten, da die die hier besprochenen Arten der Indexbildung eine Verhältnisskala voraussetzen. Die Antwort auf die Frage nach der Höhe des Einkommens stellt hingegen einen wenigen kritischeren Fall dar, da neben den Angaben zu den Einkommensklassen auch eine verhältnisskalierte Angabe, z. B. über eine manuelle Eingabe als auch durch Betätigung eines Regelschiebers möglich ist. Für diese oder ähnliche Beispiele können nun Werte zusammengefasst werden, um beispielsweise eine Armutsperzeption, welche auf den o. g. Ele‐ menten beruht, zu erfassen. Ein anderes Beispiel aus der Psychologie stellt die Bündelung von Werten zu einem Gesamtindex (Big Five) dar. Hierfür ist die Einhaltung der Richtung der Skalierung zwingend erforderlich. Der einfachste theoretische Fall für einen Index lautet, dass ein Index aus nur einem Indikator besteht (→ Tabelle 11). Da ein Index seinen Mehrwert gegenüber Indikatoren aus dem Zusammenspiel verschiedener Informationen bzw. Variablen bezieht, werden in der Praxis meist mehrere Variablen in einem Index - durch Aufsummieren oder Multiplikation - miteinander verknüpft. Dabei kann die Zusammenfassung der Werte bei der Anwendung des additiven Index entweder durch eine einfache Addition der Werte erfolgen oder indem für die einzelnen Variablen unterschiedliche Gewichte bestimmt werden, wobei die Summe der einzelnen Gewichte (g 1 , g 2 , .: ., g n ) stets eins ergeben muss: ∑ g i = g 1 + g 2 + ⋯g n = 1 Beispielsweise können - bei Interpretierbarkeit von Likert-Skalen als ver‐ hältnisskalierte Variablen - mehrere Likert-Skalen miteinander verknüpft und das Endresultat anhand der Summe bzw. dem Mittelwert ausgegeben werden. Die Bildung des Mittelwertes erfolgt durch Anwendung der Formel für das arithmetische Mittel 5.2 Indexbildung 35 <?page no="36"?> X = 1 n ∑ x i , wobei X für die verschiedenen einfachen, verteilungsunabhängigen Indizes (=Indikatoren) steht und impliziert, dass alle Beobachtungen das gleiche Gewicht g 1 = g 2 = ⋯g n = 1 n erhalten. Auf Basis dieser Überlegung könnten einzelne Indikatoren (Variablen) auch ein höheres Gewicht erhalten, sodass g neu = 1 n − y > g, wobei y > 0 gilt. Dies kann z. B. sinnvoll sein, wenn für besonders große oder kleine Kommunen der Einfluss angepasst werden soll. Für das Beispiel mit den vier Kommunen (vgl. Beispiel in → Abschnitt 5.1.2) könnte Kommune A ein höheres Gewicht beigemessen werden, um die Repräsentanz der Kommune zu erhöhen. In der Folge könnte man sich dazu entschließen, dass die Kommune A ein doppelt so hohes Gewicht bekommen sollte wie die anderen Kommunen. Es gilt sodann: 2 ⋅ g A + g B + g C + g D = 1 . Die Errechnung des gewichteten Mittelwertes ergibt unter Berücksichti‐ gung, dass das neue „n“ fünf beträgt, nun den Wert: X gew = 2 * 100 + 250 + 300 + 200 5 = 190 Durch die höhere Gewichtung des kleinsten Wertes hat dieser nun einen stärkeren Einfluss auf den Mittelwert und drückt diesen nach unten (vorher: 212.5). Eine Gewichtung sollte inhaltlich wohl überlegt und nicht durch den beabsichtigen Zweck der Schönung des Datenmaterials begründet sein. Mithilfe von RStudio kann die Berechnung in drei Schritten durchgeführt werden: 36 5 Transformation von Antworttypen und Umsetzung mit Excel und R <?page no="37"?> 2 Eine praktische Übersicht zu Indexbildung in der Sozialberichterstattung findet sich bei Stegmann 2020. • Werte<-c(100,250,300,200) • Gewichte<-c(2,1,1,1) • GewichteteWerte<-Werte*Gewichte • print(sum(GewichteteWerte)/ sum(Gewichte)) 5.2.2 Verteilungsabhängige Indizes Beispiel | Für den verteilungsabhängigen Fall eines einfachen Index dient die Schilderung in → Abschnitt 5.1.2. als Beispiel. Es ist jedoch in bestimmten Fällen zweckmäßig, über zwei Dimensionen zu standar‐ disieren, z. B. über das die Sozialen Indikatoren und über die Stadtteile, um so zu einer Aussage auf aggregierter Ebene zu kommen, welche die unterschiedlichen Varianzen - zwischen den Sozialen Indikatoren und zwischen den Kommunen - in den Blick nimmt. 2 In diesem Fall spricht man von einer zweifachen Standardisierung. Dies ist der Fall eines additiven verteilungsabhängigen Index. Als didaktische Herange‐ hensweise dient hier das Beispiel von Stegmann (2020, S.-7ff.). Stadtteil SGB2- Quote in % SGBXII- Quote in % Sozialgeld- Quote in % Durchschnittsein‐ kommen in € 1 11 5 23 1500 2 2 1 4 2600 3 5 6 2 1800 4 7 3 13 1750 X 6.25 3.75 10.5 1912.5 σ 3.27 1.92 8.32 412.88 Tabelle 12: Zweifache Standardisierung (Schritt1) | Quelle: Stegmann 2020, S.-8 5.2 Indexbildung 37 <?page no="38"?> Zunächst müssen die in → Tabelle 12 dargestellten Rohdaten, welche einerseits in Euro und andererseits in Prozent gemessen worden sind, gemäß der in → Abschnitt 5.1.2. beschriebenen Berechnungsschritte zentriert werden. Dieser Schritt hat zugleich den Vorteil, dass für Werte mit unterschiedlichen Einheiten eine gemeinsame Basis geschaffen wird. Die Ergebnisse dieses ersten Schrittes der Indexbildung finden sich in Spalte zwei bis Spalte fünf in der → Tabelle 13. Die Sozialhilfequoten wurden allesamt mit dem Faktor minus eins multipliziert, damit die Höhe der Indikatoren negativ auf den Sozialindex einwirkt. In den Spalten sechs und sieben wird der zweite und finale Schritt der zweifachen Standardisierung abgebildet: Es wird zunächst für jede einzelne Zeile die Zeilensumme aus den jeweiligen Z-Werten gebildet und für diese Werte der Mittelwert (gleich null) und die Standardabwei‐ chung berechnet. Aus diesen Werten ergeben sich die Einträge in der letzten Spalte, analog zu den Berechnungen in den Spalten zwei bis fünf. Diese Werte für die Z_Summe bilden die zweifach standardisierten Werte und können nun z. B. im Rahmen der Sozialberichterstattung für Vergleiche verschiedener Stadtteile in Bezug auf das Abschneiden bei sozialen Indikatoren genutzt werden. Stadtteil SGB2- Quote x (-1) SGBXII- Quote x (-1) Sozial‐ geld-Quote x (-1) Durch‐ schnittsein‐ kommen Summe Z_ Summe 1 -1.453 -0.651 -1.502 -0.99 -4.605 -1.325 2 1.3 1.432 0.781 1.665 5.178 1.49 3 0.382 -1.172 1.021 -0.273 -0.04 -0.016 4 -0.229 0.391 -0.304 -0.394 -0.533 -0.153 X 0 0 0 0 0 0 σ 1 1 1 1 3.475 1 Tabelle 13: Zweifache Standardisierung (Schritte 1 und 2) | Quelle: Stegmann 2020, S.-9 38 5 Transformation von Antworttypen und Umsetzung mit Excel und R <?page no="39"?> 5.2.3 Umsetzung mit Software 5.2.3.1 Umsetzung mit Excel Die Umsetzung eines einfachen, verteilungsunabhängigen, gewichteten oder ungewichteten, einfachen oder additiven Index ist in Excel und R leicht möglich. Hierfür muss man sich lediglich die in → Abschnitt 5.2.1. beschriebene Idee der Gewichtung vor Augen führen und diese in dem jeweiligen Programm umsetzen. Einfacher Index Für die Erstellung eines einfachen gewichteten Index bietet sich in Excel das Einfügen zwei neuer Spalte mit der Bezeichnung „Gewichtungsfaktor (g)“ und „gewichteter Wert“ an. Die Gewichtungsfaktoren werden spaltenweise mit den Ursprungsdaten multipliziert und ergeben so die neuen, gewichteten Werte. In der letzten Zelle der Spalte „Gewichtungsfaktor“ sollte das neue „n“ ausgewiesen werden, dass sich durch das Aufsummieren der Gewichte ergibt und den Divisor bei der Berechnung des gewichteten Mittelwerts darstellt: 950/ 5=190. Tab. 14: Berechnung gewichteter Werte mit Excel (Quelle: eigene Darstellung und Berechnung mit MS Excel) Tabelle 14: Berechnung gewichteter Werte mit Excel | Quelle: eigene Darstellung und Berechnung mit MS Excel Indexbildung anhand der zweifachen z-Standardisierung Für die Umsetzung in Excel knüpfen wir bei den bereits unter den in → Abschnitt 5.1.2. geschilderten Arbeitsschritte an, ergänzen die Excel-Datei aber geistig um vier weitere Excel-Sheets. In den ersten vier Excel-Sheets wird jeweils die Standardisierung der Sozialvariablen vorgenommen. In dem letzten Excel-Sheet wird die Bildung der Summe der z-Wert sowie deren z-Standardisierung ausgeführt. Nachfolgend wird zur Demonstration eines 5.2 Indexbildung 39 <?page no="40"?> weiteren Anwendungsbeispiels ein stark vereinfachter Gesundheitsindex gebildet, welcher aus zwei Teilindizes besteht: • Für die fünf kreisfreien Städten Erfurt, Jena, Weimar, Suhl wird anhand der ThOnsa-Variable „BMI bei Kindern zum Zeitpunkt der Einschulu ngsuntersuchung“ für 2019 der Anteilswert für „Kinder mit starkem Untergewicht“ (BMI) ausgewählt. • Für die fünf Städte wird der zugehörige z-Wert berechnet (→ Tabelle 15). Tab. 15: Beispiel für zweifache z-Standardisierung in Excel (Schritt 1) (Quelle: ei gene Darstellung und Berechnung mit MS Excel ) Tabelle 15: Beispiel für zweifache z-Standardisierung in Excel (Schritt 1) | Anmerkung: Der z-Wert für die Variable BMI in Erfurt entspricht 0.53 | Quelle: eigene Darstellung und Berechnung mit MS Excel Im darauffolgenden Schritt wird das Prozedere für die Variable „Anzahl der Personen mit Pflegestatus“ (PS) wiederholt. Das Ergebnis ist in → Tabelle 16 dargestellt. Tab. 16: Beispiel für zweifache z-Standardisierung in Excel (Schritt 2) (Quelle: eigene Darstellung und Berechnung mit MS Excel) Anmerkung: Der z-Wert für die Variable BMI in Erfurt entspricht 0.53. Tabelle 16: Beispiel für zweifache z-Standardisierung in Excel (Schritt2) | Anmerkung: Der z-Wert für die Variable PS in Erfurt entspricht 1.82 | Quelle: eigene Darstellung und Berechnung mit MS Excel 40 5 Transformation von Antworttypen und Umsetzung mit Excel und R <?page no="41"?> Abschließend kann aus den beiden Werten der finale Indexwert berechnet werden (→ Tabelle 17). Das Prozedere kann theoretisch für eine beliebig hohe Anzahl an Indizes, die in den Gesamtindex einfließen sollen, angewen‐ det werden. Vorausgesetzt wird lediglich, dass diese inhaltlich sinnvoll das zuvor definierte Ziel -hier die allgemeine Gesundheitslage - abbilden. Tab. 17: Beispiel für zweifache z-Standardisierung in Excel (Schritt3) (Quelle: eigene Darstellung und Berechnung mit MS Excel) Anmerkung: Der z-Wert für die zentrierte Summe in Erfurt entspricht 1.78. Tabelle 17: Beispiel für zweifache z-Standardisierung in Excel (Schritt 3) | Anmerkung: Der z-Wert für die zentrierte Summe in Erfurt entspricht 1.78 | Quelle: eigene Darstellung und Berechnung mit MS Excel Wissen | Mögliche Interpretation der z-Werte Da sowohl die einzelnen z-Werte, als auch die final berechnete zentrierte Summe sich an dem Mittelwert der in Ihr einfließenden Werte orientiert, kann zur Veranschaulichung bei der Interpretation auf die Absolutbe‐ träge abgestellt werden. Hierfür kann → Tabelle 18 als Entscheidungs‐ hilfe genutzt werden, um festzustellen, ob ein Landkreis einen relativ zum Mittelwert der anderen Landkreise hohen oder geringen Wert aufweist. Das Vorzeichen gibt dabei die Richtung der Abweichung an, wobei ein positiver Wert über zwei als „sehr hoch überdurchschnitt‐ lich“ und ein hoher negativer Wert als „stark unterdurchschnittlich“ interpretiert werden kann. Für das Beispiel aus → Tabelle 14 ergibt sich anhand des Gesundheitsindex, dass Erfurt im Vergleich mit den anderen vier Kommunen mit 1.8 einen hohen Wert aufweist, sodass die Gesundheitsinfrastruktur, exemplarisch aufgezeigt anhand der beiden Indikatoren, als vergleichsweise schlecht zu bewerten wäre. Für Weimar hingegen zeigt der Index einen Wert an der unterdurchschnittlich im Vergleich zu den anderen Kommunen ausfällt, jedoch noch relativ nah 5.2 Indexbildung 41 <?page no="42"?> am Durchschnitt dran ist. In allen anderen Kommunen bis auf Suhl zeigt sich ein negativer Indexwert, was bedeutet, dass sich die Gesund‐ heitslehre, gemessen an den beiden Indizes, überdurchschnittlich gut darstellt. Generell muss beachtet werden, dass bei der Konstruktion und Interpre‐ tation eines Index die Richtung der Teilindizes (hier: BMI und Anzahl der Personen mit Pflegestatus) entscheidend ist. Ein hoher, positiver Wert für den oben ermittelten Index zeigt einen hohen Handlungsbedarf im kommunalen Gesundheitswesen an. Soll die Interpretationsrichtung geändert werden, um mit positiven Werten eine hohe Qualität der Gesundheitsinfrastruktur anzuzeigen, so müssten die z-Werte für die Teilindizes (Z_BMI und Z_PS) mit dem Faktor minus eins multipliziert werden. Absolutbetrag des z-Wertes Interpretation 0-0.5 sehr gering 0.5-1.0 gering 1.0-1.5 mittel 1.5-2.0 hoch >2.0 sehr hoch Tabelle 18: Faustregeln zur Interpretation der z-Werte | Quelle: eigene Darstellung Die Aussagekraft dieses Beispiels ist jedoch begrenzt, da die Werte auf Landkreisebene stark aggregiert sind und nur bedingt dasselbe zugrun‐ deliegende Konstrukt erfassen. Das Beispiel soll nur dem Verständnis dienen, wie ein Index anhand zweifacher Standardisierung gebildet und interpretiert werden kann, um dies in der Praxis mit entsprechenden Daten für möglichst viele, relevante Bereiche des eigenen Forschungs‐ interesses ausgestalten zu können. Eine Möglichkeit zur grafischen Darstellung bietet das Netzdiagramm (→ Abschnitt 7.2.1.). 42 5 Transformation von Antworttypen und Umsetzung mit Excel und R <?page no="43"?> 3 Es kann bei kleinen Datensätzen zu Abweichungen zwischen der manuellen Berechnung und der R-Lösung kommen, da im scale()-Befehl standardmäßig mit der Stichprobenvarianz anstelle der empirischen Varianz gerechnet wird. Für große Stichproben nivelliert sich der Unterschied zwischen der Stichprobenvarianz und der empirischen Varianz. Anstelle des scale()-Befehls kann die Formel manuell eingegeben werden, wobei vorab die Standard‐ abweichung mit dem Korrekturfaktor n-1 hinterlegt werden muss: (1) n<-length(X1), (2) sdx<-sqrt((sum(X1^2)/ (n-1))-(mean(X1)^2)). 5.2.3.2 Umsetzung mit R - Beispiel Einfacher, gewichteter Index In R bietet sich für die Erstellung eines einfachen, gewichteten Index das Erstellen einer neuen Variable weights an, welche mit den Ursprungsdaten multipliziert wird. Bei der Berechnung des Mittelwerts sollte anstelle der integrierten Mittelwertfunktion, die Summe der gewichteten Daten gebildet und anschließend durch die Summe der Gewichte geteilt werden. Der zugehörige R-Code lässt sich anhand von vier Schritten zusammenfassen: • Werte<-c(100,250,300,200) • Weights<-c(2,1,1,1) • GewichteteWerte<-Werte*Weights • print(sum(GewichteteWerte)/ sum(Weights)) Mehrstufiger Index Bei mehrstufigen Indexbildungen kann die Analyse in R im Vergleich zu der Umsetzung mit Excel sichtbare Effizienzvorteile bieten. So ist zunächst der scale() 3 -Befehl auf jeden einzelnen Indikator anzuwenden, im Anschluss einen Datenframe zu erstellen, um darüber die Zeilensummen zu ermitteln. Letztlich muss davon die Summe (Z_Summe) gebildet werden, worauf der scale()-Befehl ein letztes Mal angewendet wird. Die folgenden Schritte führen zu dem gewünschten Ergebnis einer zweifachen Standardisierung in R: • X1<-c(4, 0.9, 1.9, 6.4, 1.4) • Z1<-round(scale(X1),2) • X2<-c(11452, 6413, 4957, 2489, 4617) 5.2 Indexbildung 43 <?page no="44"?> • Z2<-round(scale(X2),2) • Daten<-data.frame(Z1,Z2) • ZSumme<-rowSums(Daten) • ZZSumme<-scale(ZSumme) 44 5 Transformation von Antworttypen und Umsetzung mit Excel und R <?page no="45"?> 6 Auswertung mit Software Bevor es an die Auswertung geht, sollte zunächst immer das Codebook heruntergeladen und abgespeichert werden. Dieses gibt nicht nur Aus‐ kunft über die Variablen, sondern auch über die Codierung. Dies ist die Voraussetzung, um die codierten Werte am Ende korrekt darzustellen und zu interpretieren. Das Codebook stellt aus Sicht des Auswertenden einen permanenten Bezugspunkt für alle Handlungen dar, die im Laufe der Auswertung und Darstellung von Ergebnissen anfallen. In gängigen Fragebogenerstellungstools ist das Codebook integraler Bestandteil und kann als PDF-Datei heruntergeladen werden. 6.1 Herunterladen und Einlesen des Datensatzes Am Beispiel von Sosci-Survey wird das Herunterladen der Daten und der anschließende Einleseprozess der Daten veranschaulicht. Das hier vorgestellte Verfahren ist aber auch auf andere Fragebogenprogramme, wie Lime Survey oder Survey Monkey anwendbar. Der Schwerpunkt liegt im folgenden Part auf der Schnittstelle zu Sosci-Survey, sodass auf Lime Survey nur kurz eingegangen bzw. verlinkt werden kann. Auf Survey Monkey wird an dieser Stelle kein Bezug genommen. 6.1.1 Herunterladen und Einlesen der Daten in Excel Das Einlesen in Excel stellt die weitverbreitetste Form dar, wie die Rohdaten zur Auswertung bezogen werden. Hierfür kann bei Sosci-Survey unter der Rubrik Steuerung unter dem vierten Reiter von oben Erhobene Daten der zweite Punkt Daten herunterladen ausgewählt werden. Auf der Mitte der Seite kann unter dem Punkt Auswahlkriterien für gültige Fälle bestimmt werden, ab wann ein Rücklauf als gültig anzusehen ist, z. B. wenn alle Fragen bis zu einer bestimmten Seite oder Fragenummer beantwortet worden sind. Dies hat den Vorteil, dass ein Teil der Datensatzpflege schon in Sosci-Survey vorgenommen werden kann und nicht im Nachgang in Excel oder R erfolgen muss. Allerdings dient diese Option lediglich dazu, keinen unnötigen Datenballast zu erzeugen und nicht etwa dazu, sinnvolle von weniger sinnvollen Angaben zu unterscheiden. Wurden die Daten auf dem PC abgespeichert, können diese als gewöhnliche xls.bzw. csv.-Dateien geöffnet <?page no="46"?> und bearbeitet werden. In der ersten Arbeitsmappe findet sich eine Übersicht aller relevanten Fälle und die codierten Antworten zu den Fragen sowie generelle Angaben zum Zeitpunkt der Bearbeitung und ggf. der Dauer der Bearbeitung. Abb. 4: Sosci-Survey-Einlesen in Excel (Quelle: https: / / www.soscisurvey.de/ ) Abbildung 4: Sosci-Survey-Einlesen in Excel | Quelle: 🔗 https: / / www.soscisurvey.de/ 6.1.2 Herunterladen und Einlesen der Daten in R Insbesondere bei großen Datensätzen (n > 50) und detaillierten Auswertungs‐ ansprüchen (z. B. nach Persönlichkeitsmerkmalen, wie dem Geschlecht, dem Wohnort oder der Einkommenssituation) erhöht sich der zeitliche Aufwand erheblich, sodass in diesen Fällen der Einsatz von statistischer Software Effizienz‐ gewinne verspricht. Neben gängiger Statistiksoftware, wie SPSS oder Stata bietet sich hierfür auch R an. R hat den Vorteil eine freie Programmiersprache zu sein, welches über die Seite 🔗 https: / / www.r-project.org/ heruntergeladen werden kann. In Verbindung mit RStudio, welches eine integrierte Entwicklungsumge‐ 46 6 Auswertung mit Software <?page no="47"?> bung und grafische Benutzeroberfläche für die Statistik-Programmiersprache R darstellt, stellt das Programm eine wirkmächtige Arbeitsumgebung dar. RStudio kann ebenso wie R frei heruntergeladen werden: 🔗 -https: / / www.rstudio.com/ products/ rstudio/ download/ #download. Abbildung 5: Sosci-Survey-Einlesen in R Der Einleseprozess der Sosci-Survey-Daten läuft in einem zweistufigen Verfahren ab: Zunächst muss im oberen Menüband anstelle von Excel nun GNU-R ausgewählt werden. Im Anschluss werden zwei Dateien angezeigt, welche in einem gemeinsamen Ordner auf dem PC abgespeichert werden müssen. Wie der Name sagt, dient die zweite Datei dazu den Datensatz für den Import in R startklar zu machen. Wenn der Prozess abgeschlossen worden ist, erhalten Sie in der Datei einen Datensatz mit dem Namen des 6.1 Herunterladen und Einlesen des Datensatzes 47 <?page no="48"?> Umfrageprojektes, in der die Analysen nun durchgeführt werden können. Auch Lime Survey bietet den direkten Export in RStudio an. Interessierte Anwender: innen finden unter folgendem Link eine Kurzbeschreibung, wie der Prozess des Dateneinlesens für R vonstattengeht: 🔗 https: / / wgruber.g ithub.io/ R-Intro/ datenauswertung-lime-survey.html. 6.2 Bereinigung des Datensatzes Leider zeigt sich bei Umfragen, dass nicht alle Antworten auch für die Auswer‐ tung verwendet werden können. Daher muss die auswertende Person den Datensatz i.-d.-R. zunächst bereinigen, das heißt von dem kompletten Datensatz diejenigen Antworten eliminieren, die zu einem verzerrten Ergebnis und zu einer Schwächung bei der Interpretation der Ergebnisse führen würden. Auf zwei Ebenen können Bereinigungen des Datensatzes vorgenommen werden. Auf der ersten Ebene treten fehlende oder ungültige Antworten in einer oder mehrere Fragen(n) bzw. Frage-Item(s) auf. Die ungültigen oder fehlenden Werte können für sich genommen zwar aus der Variablen eliminiert und nur die gültigen Fälle betrachtet werden. Jedoch würde diese zu einer Aufhebung der in → Tabelle 19 dargestellten Umfragestruktur führen. - - - Frage - Bearbeitungsbeginn Bearbeitungsende 1 2 3 … 5 1 2021-08-13 14: 24: 48 2021-08-13 14: 45: 00 5 3 2 … 4 2 2021-08-14 07: 30: 47 2021-08-14 07: 37: 07 5 1 4 … 4 3 2021-08-14 07: 45: 20 2021-08-13 08: 01: 02 3 1 4 … 3 4 2021-08-15 07: 46: 57 2021-08-15 07: 56: 17 4 5 1 … 5 … - - - - - - - Tabelle 19: Datenstrukturtabelle einer Umfrage mit ausschl. vollständigen Antworten | Quelle: eigene Darstellung 48 6 Auswertung mit Software <?page no="49"?> Um den Gedanken besser nachvollziehen zu können wird in → Tabelle 20 nun der Fall gezeigt, dass in einer oder mehreren Variablen - hier durch die Hinzunahme von Frage 4 und Person 5 - fehlende Werte (gekennzeichnet durch NA) auftreten. - - - Frage AvA - Bearbeitungsbeginn Bearbeitungsende 1 2 3 4 5 in % 1 2021-08-13 14: 24: 48 2021-08-13 14: 45: 00 5 3 2 2 4 100 2 2021-08-14 07: 30: 47 2021-08-14 07: 37: 07 5 1 4 NA 4 80 3 2021-08-14 07: 45: 20 2021-08-13 08: 01: 02 3 1 4 4 3 100 4 2021-08-15 07: 46: 57 2021-08-15 07: 56: 17 4 5 1 5 5 100 5 2021-08-17 14: 51: 39 2021-08-17 15: 00: 30 NA 2 2 3 3 80 6 2021-08-20 07: 51: 39 2021-08-20 08: 51: 30 NA 2 3 1 1 80 - Anteil vollständige Angaben (AvA) in Prozent 66 100 100 83.3 100 - Tabelle 20: Datenstrukturtabelle einer Umfrage mit fehlenden Werten (NA’s) in den Ant‐ worten | Quelle: eigene Darstellung Drei der fünf Fragen haben eine hundertprozentige Quote an gültigen Angaben. Für Frage 1 und Frage 4 liegt dieser Wert bei 66-% 46 = 23 bzw. 83-% 56 = 0 . 833 Beim Umgang mit fehlenden Werten ist das Muster der fehlenden Werte zu beachten: Sofern die fehlenden Werte gleichmäßig und ohne erkennbares Muster über die Personen als auch über die Antwort-Items verteilt sind, ist eine Eliminierung nicht bzw. nur unter Inkaufnahme einer hohen Datenre‐ 6.2 Bereinigung des Datensatzes 49 <?page no="50"?> 4 Um die Struktur der fehlenden Daten aufzudecken kann ein statistischer Test, z. B. in R verwendet werden. Eins Beispiel hierfür stellt Little‘s MCAR-Test dar (Little 1988). duktionen möglich. 4 Andersherum ist eine Eliminierung umso leichter, je stärker sich das Fehlen eines Wertes einer einzelnen Person und/ oder Frage zuordnen lässt. Letzteres spräche für Fehler bei der Item-Formulierung, wo‐ hingegen das starke, dauerhafte Abweichen im Antwortverhalten einzelner Interviewter von dem durchschnittlichen Antwortverhalten der anderen Befragten für einen Persönlichkeitsfaktor spricht, dessen Ausprägung das fehlerhaften Antwortverhalten auslöst. Dies kann ein Hinweis darauf sein, dass die Person nicht der Zielgruppe des Fragebogens entspricht. In diesem Falle kann es sinnvoll sein, einzelne Personen und deren Antworten kom‐ plett aus dem Datensatz zu entfernen (→ Abschnitt 6.2.1.). Die Fehlerquelle ist somit im ersten Fall auf Seiten des Interviewenden und im zweiten Fall bei dem Interviewten zu finden. Technisch gesprochen kann die Eliminierung entlang der Zeilen (Ausschluss von Personen) oder entlang der Spalten (Ausschluss von Variablen) erfolgen. Das Eliminieren von Werten Entscheidet man sich nun Zeilen oder Spalten zu löschen, in denen mindes‐ tens ein Wert fehlt, hat dies Folgen: Lautet die Entscheidung beispielsweise alle Person, die ein NA generiert haben zu eliminieren, dies wären Person 2, 5 und 6 - würden ausgehend von → Tabelle 19 der Prozentsatz gültiger Antworten für Frage 4 zwar nur leicht um 8 Prozentpunkte auf 75 % sinken. Hingegen hätte sich der gesamte Datensatz auf die Hälfte reduziert. - - - Frage - Bearbeitungsbeginn Bearbeitungsende 1 2 3 4 5 1 2021-08-13 14: 24: 48 2021-08-13 14: 45: 00 5 3 2 2 4 2 2021-08-14 07: 30: 47 2021-08-14 07: 37: 07 5 1 4 NA 4 50 6 Auswertung mit Software <?page no="51"?> 3 2021-08-14 07: 45: 20 2021-08-13 08: 01: 02 3 1 4 4 3 4 2021-08-15 07: 46: 57 2021-08-15 07: 56: 17 4 5 1 5 5 5 2021-08-17 14: 51: 39 2021-08-17 15: 00: 30 NA 2 2 3 3 6 2021-08-20 07: 51: 39 2021-08-20 08: 51: 30 NA 2 3 1 1 Tabelle 21: Datenstrukturtabelle einer Umfrage mit fehlenden Werten (NA’s) (Zeilenweise Eliminierung) | Quelle: eigene Darstellung Bei der spaltenweisen Eliminierung würde jede Spalte, d. h. das zugehörige Frage-Item gelöscht werden, in der ein fehlender Wert auftritt. Dieser Fall ist in → Tabelle 22 dargestellt. - - - Frage - Bearbeitungsbeginn Bearbeitungsende 1 2 3 4 5 1 2021-08-13 14: 24: 48 2021-08-13 14: 45: 00 5 3 2 2 4 2 2021-08-14 07: 30: 47 2021-08-14 07: 37: 07 5 1 4 NA 4 3 2021-08-14 07: 45: 20 2021-08-13 08: 01: 02 3 1 4 4 3 4 2021-08-15 07: 46: 57 2021-08-15 07: 56: 17 4 5 1 5 5 5 2021-08-17 14: 51: 39 2021-08-17 15: 00: 30 NA 2 2 3 3 6 2021-08-20 07: 51: 39 2021-08-20 08: 51: 30 NA 2 3 1 1 Tabelle 22: Datenstrukturtabelle einer Umfrage mit fehlenden Werten (NA’s) (Spalten‐ weise Eliminierung) | Quelle: eigene Darstellung 6.2 Bereinigung des Datensatzes 51 <?page no="52"?> Frage - Bearbeitungsbeginn Bearbeitungsende 1 2 3 4 5 1 2021-08-13 14: 24: 48 2021-08-13 14: 45: 00 5 3 2 2 4 3 2021-08-14 07: 45: 20 2021-08-13 08: 01: 02 3 1 4 4 3 4 2021-08-15 07: 46: 57 2021-08-15 07: 56: 17 4 5 1 5 5 Tabelle 23: Datenstrukturtabelle ohne fehlende Werte (bereinigter Datensatz) | Quelle: eigene Darstellung Da sowohl das Streichen von Fragen (Spalten), als auch das Herausnehmen einzelner Personen (Zeilen) als rigorose Maßnahme angesehen werden kann, könnte sich die Frage gestellt werden, ob es nicht möglich wäre keine Streichungen vorzunehmen und bei der Berechnung von Korrelationen lediglich die NA’s zu ignorieren. Dieser Ansatz führt jedoch in die Irre. Hierfür dient folgendes Beispiel: Soll der Zusammenhang zwischen den Antworten von Frage 1 und Frage 2 beleuchtet werden, so wäre eindeutig, dass das Zusammenhangmaß ledig‐ lich für die ersten drei Personen erfolgen würde. Weniger eindeutig liegt der Fall für Frage 1 und Frage 4: Hier könnte fälschlicherweise angenommen werden, es könnte die minimale Anzahl an gültigen Fällen mit der Anzahl zur Berechnung der Korrelation genutzten Fälle gleichgesetzt werden. Dies ist jedoch falsch, da hierfür die Anzahl der NA-freien Zeilen maßgeblich ist. Für die Berechnung der Korrelation der Frage-Items 1 und 4 verblieben somit nur drei Werte, aus denen die Korrelationen zu berechnen wäre. Mit R lässt sich die Korrelationen berechnen, indem in der Befehlsumgebung cor(), der Zusatzbefehl use="complete.obs" angegeben wird, was impliziert, dass nur gültige Wertpaare in die Berechnung einbezogen werden. Hintergrund der Ausführung ist, dass der gern verwendete Befehl na.omit(), welcher in einer Variablen nur die gültigen Werte betrachtet, bei der Berechnung der Korrelationen für dir zwei Variablen bzw. Frage-Items ebenfalls benutzt werden könnte. Sofern die Anzahl der fehlenden Werte in beiden Variablen gleich hoch ist, würde keine Fehlermeldung produziert werden, das Ergebnis wäre aber dennoch falsch. Dies liegt daran, dass in diesem Fall, die in 52 6 Auswertung mit Software <?page no="53"?> der Tabelle dargestellte Struktur zwischen Interviewtem und zugehörigen Antwortwert aufgehoben würde. Die Aussagekraft der berechneten Korre‐ lation wäre somit hinfällig. Dieser Problematik kann z.T. vorgebeugt werden, indem beim Herunterladen des Datensatzes, z. B. aus Sosci-Survey darauf geachtet wird, dass nur Werte von Interviewten berücksichtigt werden, die alle Fragen beantwortet haben. Es lohnt aber auch hier ein tieferer Blick auf das Antwortverhalten, um nicht frühzeitig Datensätze zu entfernen, die nur punktuell über fehlende Werte verfügen. Insbesondere da ex ante die Qualität der Antworten noch nicht abschließende beurteilt werden kann, sollte auf der Ebene des Herunterladens nicht zu streng vorselektiert werden. 6.2.1 Fehler, die zu einem unvollständigen Datensatz führen Die Software zur Erstellung und Durchführung von Online-Fragebögen, z. B. Sosci-Survey bieten in der Datenübersicht neben den Variablen (Fragen und die dazugehörigen Antworten) dem Nutzer weitere Informationen an. Diese können z. B. dafür genutzt werden, das Antwortverhalten, unabhängig von den konkret abgegebenen Antworten, für jeden einzelnen Respondenten zu analysieren. Bearbeitungszeit Ein Beispiel stellt die Geschwindigkeit dar, mit der die Fragen und der Frage‐ bogen insgesamt bearbeitet worden ist. Ein sehr geringer Wert kann auf eine eher oberflächliche und wenig gewissenhafte Bearbeitung hinweisen. Ein sehr hoher Wert kann ein Indiz für Überforderung sein oder darauf hinwei‐ sen, dass der Respondent in der Bearbeitung, z. B. durch Unterbrechungen am Arbeitsplatz, gestört worden ist, wodurch die Wahrscheinlichkeit für weniger bewusst abgegebene Antworten steigt. Insbesondere steigt hierbei die Gefahr, Details in der Item-Formulierung und -skalierung zu übersehen. In Sosci-Survey werden zwei Zeitvariablen angegeben DEG_TIME und TIME_RSI, welche in → Tabelle 24 erläutert werden. 6.2 Bereinigung des Datensatzes 53 <?page no="54"?> Zeitvariable Definition Kritische Werte DEG_TIME: De‐ gradation Index Maluspunkte für extrem schnelles Ausfüllen. >50: „Sehr strenge Filterung“ >75: „Strenge Filterung“ >100: „Moderate Filterung“ >200: „Liberale Filterung“ TIME_RSI: Rela‐ tive Speed Index Der Median der Bearbei‐ tungs-zeiten aller Respon‐ denten pro Seite im Frage‐ bogen wird ins Verhältnis zu der individuell benötig‐ ten Bearbeitungszeit pro Seite gesetzt. >2: Indiz für schnelle Bearbei‐ tung >3: Der Test ist für die Per‐ son zu einfach oder die Beant‐ wortung weist ein verzerren‐ des Antwortmuster auf (z.-B. Straightlining oder Tendenz zur Mitte) Aber: Teilnehmer: innen mit ho‐ hem Wissensstand sind i.-d.-R. schneller. Tabelle 24: Zeitvariablen für die Dauer der Bearbeitung in Sosci-Survey Unvollständigkeit Ein weiterer Grund für eine zeilenweise Löschung von Antworten kann darin bestehen, dass Befragte nur einen Teil des Fragebogens bearbeitet haben. Hierunter fallen die Respondenten, die alle Fragen bis zu einer bestimmten Seitenzahl beantwortet haben, die Umfrage danach aber nicht weiterbearbeitet und somit die übrigen Fragen nicht beantwortet haben. Ferner zählen auch Respondenten dazu, die zwar formal den Fragebogen abgeschlossen, aber dabei einzelne Fragen ausgelassen haben. Dem ließe sich technisch vorbeugen, indem für jede Frage die Einstellung für die Kategorie Prüfung auf „Die Frage muss beantwortet werden“ gesetzt wird. Ein Auslassen der Frage wäre somit gleichbedeutend mit einem Abbruch des Fragebogens. Jedoch kann eine rigorose Nutzung von Pflichtfragen die Abbruchquote erhöhen. Als gängige Praxis hat sich bewährt, Pflichtfragen ausschließlich für Fragen zu benutzen deren Beantwortung, z. B. im Sinne einer geografischen oder soziodemografischen Zuordenbarkeit zentral ist. Dadurch kann auf das Ziel einer hohen Rücklaufquote einerseits und einer hohen Anzahl an gültigen Fragebögen anderseits aktiv hingewirkt werden. Im Sosci-Survey kann unter der Rubrik Steuerung im Reiter Erhobene Da‐ ten die Rücklaufstatistik eingesehen werden. Zudem kann unter dem Reiter Erhobene Daten der Punkt Auswahlkriterien für gültige Fälle ausgewählt 54 6 Auswertung mit Software <?page no="55"?> und angepasst werden. Relevante Faktoren stellen z. B. die Mindestanzahl an aufeinanderfolgenden, bearbeiteten Seiten im Fragebogen sowie der akzeptierte Anteil an nicht beantworteten Fragen dar. Zusätzlich können auch Teildatensätze zusammengestellt werden, die nur aus bestimmten Fragen bestehen oder einzelne Fragen ausschließen (→ Abschnitt 6.3.1.). Ausschluss von Personen, die nicht zur Zielgruppe gehören Bei Umfragen, insbesondere bei Online-Umfragen kann es schnell passieren, dass Personen an der Umfrage teilgenommen haben, die nicht adressiert wurden. Nicht nur korreliert hiermit das verzerrende Antwortverhalten, es kann auch zu Fehlern z. B. bei der Ableitung von Maßnahmen führen, wenn die Antworten bei der Auswertung mitberücksichtigt worden sind. Daher liegt es im Interesse des Auswertenden diejenigen Befragten herauszufinden und von der weiteren Auswertung auszuschließen, die nicht (originär) zur Zielgruppe gehören. Beispielweise träfe dies bei einer Jugendbefragung im Landkreis A auf Personen zu, die deutlich älter als die anvisierte Zielgruppe sind oder diejenigen, die nicht in dem Landkreis A wohnen. Die versehentli‐ che Mitberücksichtigung irrtümlich adressierter Personen und deren Daten kann entgegengewirkt werden, indem soziodemografische Informationen für die Befragten, z. B. in einer gesonderten Rubrik zu Beginn der Umfrage, erhoben werden und anschließend ein Teildatensatz gebildet wird, der nur die Antworten von den Personen umfasst, die den gewünschten Kriterien entsprechen, z. B. ein Alter zwischen 16 und 21 Jahren aufweisen und im Landkreis A wohnhaft sind. Wissen | Straightlining Wie die Tendenz zur Mitte gehört auch das Straightlining zu dem verzerrenden Antwortverhalten, die aus Sicht des Auswertenden von hohem Interesse sind. Diese Respondenten zu erkennen und aus dem Datensatz zu eliminieren, kann als ein zentraler Aspekt des Daten-Qua‐ litätsmanagements angesehen werden. Da verschiedene Intensitäten des Straightlinings auftreten können, reicht es i. d. R. nicht sich auf die Fälle zu beschränken, in denen ausschließlich eine Antwortoption gewählt wurde. Selbst dann nicht, wenn von unterschiedlichen Ausge‐ staltungen der Likert-Skalen abgesehen worden ist. Dennoch lässt sich 6.2 Bereinigung des Datensatzes 55 <?page no="56"?> das Straightlining recht einfach aufdecken. Hierzu kann in Excel in einer zusätzlichen Spalte die Standardabweichung der individuellen Antworten berechnet werden. Dadurch wird die Schwankung der indi‐ viduellen Antworten normiert und vergleichbar gemacht. Die Einheit der Standardabweichung wird in Punkten auf der Likert-Skala gemes‐ sen. Sehr geringe Standardabweichungen, nahe bei null, deuten auf ein Straightlining-Antwortverhalten hin. 6.2.2 Fehler, die zu einem untypischen Antwortmuster führen Neben den steuer- und nicht steuerbaren Faktoren, die als Ursachen einer reduzierten Fragebogenqualität infrage kommen, sollten auch noch As‐ pekte bedacht werden, die durch den Befragenden zwar selbst nur teilweise gesteuert werden können, aber dem Interviewten ebenfalls nur teilweise bewusst sind. Hierbei handelt es sich um psychologische Fallen, die nach Möglichkeit frühzeitig erkannt und vermieden werden sollten. Moosbrugger und Kelava (2020) nennen drei potenzielle Fehlerquellen, die zu einer systematischen Verzerrung der Antworten beitragen können und bei der Item-Formulierung berücksichtigt werden sollten. Neigt ein Respondent sehr stark zu einem der u.g. Antwortverhalten kann das ein Grund für zeilenweise Streichung im Datensatz sein. Zu den potenziellen Fehlerquellen zählen: • die soziale Erwünschtheit, • die Akquieszenz und • die Tendenz zur Mitte. Soziale Erwünschtheit umfasst die Dimensionen der Selbst- und Fremd‐ täuschung, die Orientierung an sozialen Normen sowie das Satisficing. Alle drei Fälle führen zu einem Qualitätsverlust des Datensatzes, sofern diese Antworten nicht entdeckt und eliminiert werden können. Unterschiede treten bzgl. der Motivation des fehlerhaften Antwortens auf; so sind die verzerrten Antworten aufgrund der ersten beiden Verhaltensweisen durch bewusste Handlungen motiviert, wohingegen Satisficing als Ausdruck von Lustlosigkeit und fehlender Motivation zu verstehen ist. In der Folge kann durch die Methodenwahl die Wahrscheinlichkeit, dass diese Verhaltenswei‐ 56 6 Auswertung mit Software <?page no="57"?> sen auftreten beeinflusst werden. Hierbei sollte beachtet werden, dass durch eine steigende Antwortkomplexität, die mit einer Variation des Fragetypus einhergeht, die Gefahr steigt, dass Antwortende mit einer geringen Motiva‐ tion die Befragung komplett abbrechen. So wird durch Moosbrugger und Kelava angeführt, dass die Anonymität die Tendenz zu sozial erwünschtem Antwortverhalten abschwächen kann. Dies ist für den Grad der Selbst- und Fremdtäuschung als auch für Orientierung an sozialen Normen plausibel, nicht jedoch für das Satisficing, welches durch die Interaktion im Rahmen eines Face-to-Face-Interview reduziert werden kann. Ein Ansatz, die Antworten auf Ihre Seriosität hin zu unterscheiden, besteht darin, zusätzliche Items in den Fragebogen einzustreuen, die Rück‐ schlüsse auf den Grad der Ehrlichkeit der Person ziehen lassen. Unter den Termini der Kontroll-/ Lügen- oder Offenheitsskalen, können Fragen gestellt werden, die, wenn Sie mit nein beantwortet werden, eine Tendenz zur eigenen Besserdarstellung vermuten lassen. Beispielaussagen, die auf eine Lüge hinweisen, wenn sie mit nein beantwortet werden, sind angelehnt an Bensberg (2015) (→-Kapitel 2): • „Es ist mir schon passiert, dass ich mich bei einem Termin verspätet habe.“ • „Ich leide manchmal an Aufschieberitis und schiebe Dinge auf, die unangenehm sind.“ • „In einem Restaurant sind meine Manieren meist besser, als wenn ich unbeobachtet bin.“ • „Ich habe schon einmal gelogen.“ • „Hin und wieder verliere ich, wenn ich unter großem Stress stehe die Geduld.“ Akquieszenz lässt sich als Ermüdungserscheinung übersetzen, die beson‐ ders bei langen Umfragen auftritt und dazu führt, dass sich ein stabiles und nicht inhaltsbezogenes Beantwortungsmuster z. B. immer die Mitte einer Likert-Skala zu wählen oder auf gegensätzliche Fragen gleich zu antworten, festsetzt und somit nicht als gültiges Antwortverhalten betrachtet werden sollte. Um der Tendenz zur Mitte entgegenzuwirken, kann eine gerade Anzahl an Kategorien für die Likert-Skala verwendet werden, welche den Antwor‐ ten zu einer Tendenz weg von der Mitte zwingt. Zudem hat dies den Vorteil, dass zwischen keine Angabe und der mittleren Antwort schärfer distinguiert werden kann (Porst 2014). Da die Tendenz zur Mitte die Varianz der Items 6.2 Bereinigung des Datensatzes 57 <?page no="58"?> reduziert, kann eine geringe Item-Varianz ein Indiz für ein entsprechendes ungewünschtes Antwortverhalten sein (vgl. Straightling im → Abschnitt 6.2.1.). 6.3 Teildatensätze Oftmals soll im Rahmen einer Umfrage oder Berichterstattung die Zustim‐ mung zu einer Frage nicht nur auf Basis aller Befragten ausgewertet werden, sondern der Blick auf bestimmte Teilgruppen gerichtet werden. Z. B. kann es bei der Frage nach dem Grad der materiellen Deprivation von Schulkindern sinnvoll erscheinen, die Antworten nach Wohngebieten oder dem Berufsstand der Eltern vorauszuwählen, um das Antwortverhalten der Teilgruppe im Detail zu betrachten und/ oder dieses dem Antworterhalten der anderen Befragten entgegen- und Unterschiede festzustellen. In beiden Fällen ist eine vorherige Filterung der Daten nach bestimmten Kriterien notwendig. 6.3.1 Vorauswahl im Programm Sosci-Survey Bereits vor dem Herunterladen der Daten kann im Menüfeld Erhobene Daten der Reiter Auswahlkriterien für gültige Fälle ausgewählt werden. Die Auswahl der Daten lässt sich auf drei Ebenen steuern: 1. Anteil fehlender Werte Die erste Auswahlmöglichkeit, den Datensatz zu bereinigen, besteht darin, eine Schwelle für den relativen Anteil an fehlenden Antworten oder eine Mindestbearbeitungsseite festzusetzen. Personen, die mit ihren fehlenden Angaben über dem festgesetztem Schwellenwert liegen oder die Umfrage vor der Seite, die als Schwelle festgelegt wurde, abge‐ brochen haben, werden nicht für den finalen Datensatz berücksichtigt. Letzteres ist vor allem dann effektiv, wenn die letzten Fragen allgemei‐ ner Natur sind und für die Auswertung keinen zentralen Stellenwert (mehr) besitzen. 2. Zeit der Bearbeitung aus Auswahlkriterium Da Datensätze laufend, während und nach Durchführung herunterge‐ laden werden können, kann es Sinn machen, den Teilnehmenden der Umfrage ein Zeitfenster für die Bearbeitung einzuräumen, welches von 58 6 Auswertung mit Software <?page no="59"?> dem technischen Wert abweicht. So können mit derselben Umfrage z. B. unterschiedliche Zielgruppen (Vergleichsgruppen) abgefragt werden. 3. Auswahl und Ausschluss einzelner Fälle Einzelne Fragen, die sich im Nachgang als irrelevant herausstellen oder die Beschränkung auf einzelnen Fragethemen können dazu führen, dass bestimmte Fragen ausgeschlossen bzw. nur einzelnen Fragen aus‐ gewählt werden sollen. Die Zusammenfassung zeigt, wie viele gültige Datensätze nach Anwendung der Auswahlkategorien für die Auswer‐ tung verbleiben. Abbildung 6: Sosci-Survey-Teildatensätze 6.3.2 Erzeugung von Teildatensätzen in R Für die hypothetische Frage nach der Zufriedenheit mit der eigenen Wohnsituation - auf einer Skala von 1 (sehr unzufrieden) bis 5 (sehr zufrieden) -, kann grafisch aufgezeigt werden, wie die Antworten nach den beiden Gruppen aussehen, z. B. unterdurchschnittliches Einkommen 6.3 Teildatensätze 59 <?page no="60"?> 5 Auf die Darstellung des R-Codes wird an der Stelle verzichtet, da er sich aus den anderen Codebeispielen im Buch erklären lässt und durch die Verwendung der IKPE-internen Variablenbezeichnungen und Skalierungscodes kein Mehrwert für den Lesenden gene‐ riert werden kann. vs. überdurchschnittliches Einkommen. Eine grafische Veranschaulichung der Antwortverteilung gibt einen intuitiven Eindruck, ob die Antworten sich systematisch unterscheiden oder in die gleiche Richtung tendieren. Die grafische Analyse findet sich in → Abbildung 7. 5 Eine andere bzw. weiterführende Möglichkeit den Zusammenhang zu beschrieben besteht darin, eine Korrelation zwischen beiden Variablen zu berechnen, welche für die beispielhafte Abbildung der Zufriedenheit nach Einkommensklassen gering ausfällt. gering mittel hoch k.A. n.b geringes Einkommen hohes Einkommen 0 1 2 3 4 Abbildung 7: Zufriedenheit nach Einkommen (fiktives Beispiel) | Quelle: eigene Darstel‐ lung und Berechnung mit Rstudio Mithilfe von R können Teildatensätze gebildet werden, um darauf aufbauend Abbildungen für zwei oder mehr Gruppen erzeugen zu können. Mit dem Filterbefehl kann der Hauptdatensatz nach Kriterien unterteilt werden. So kann für eine Umfrage der Befehl genutzt werden, um den Datensatz für die Programmzugehörigkeiten zu filtern. Im Rahmen einer fiktiven Sozialstudie könnten die Teilnehmenden nach ihrer Programmzugehörigkeit, d.h. nach der Finanzierung ihrer Projektstelle befragt werden. Durch die Filterfunk‐ tion können nun die Angaben zu allen Fragen für die jeweiligen Programme hin gefiltert werden, indem drei Teildatensätze gebildet werden. Der Filter‐ 60 6 Auswertung mit Software <?page no="61"?> befehl benötigt zwei Informationsangaben; zunächst der Grunddatensatz, aus welchem der Teildatensatz hervorgehen soll und die Bedingung nach der gefiltert wird. So erzeugt der Befehl SP_Daten %>% filter(SP_Daten$A015_01 ==TRUE) den Teildatensatz für alle Personen, die angeben, über das zu erst genannte Programm im Auswahlmenü angestellt worden zu sein. Der Hauptdatensatz lautet SP_Daten und das Frage-Item A015_01 beinhaltet die Antwort TRUE oder FALSE, je nachdem, ob die antwortende Person angab, über das erst genannte Programm beschäftigt zu sein oder nicht. Der resultierende Datensatz beinhaltet folglich nur die Antworten der Planer: innen aus dem, die in dem selben Beschäftigungsbereich angestellt sind. 6.4 Auswertung der Daten Die Auswertung der Daten stellt als Vorstufe der Interpretation der Er‐ gebnisse einen wichtigen Meilenstein des Umfrageprozesses dar (→ Abbil‐ dung 2). Hierin zeigt sich die inhalts- und umsetzungsbezogene Qualität des Fragebogens, welche sich direkt über die Auswahl der Fragen und die sich aus deren gemeinsamen Betrachtung ergebenen Erkenntniszuwächse sowie indirekt über die Rücklaufquoten und die Anzahl an gültigen Fällen bei den Antworten ableiten lässt. Grundsätzlich ist die Qualität einer überwiegend deskriptiven Auswertung nicht an eine spezifische Software, wie Excel oder R gebunden. Jedoch zeigt sich, dass bei geeigneter Aufbereitung des Datensatzes Transformationen von Variablen, die Bildung von Teilgruppen nach bestimmten Kriterien oder auch nach mehreren Kriterien, in R leichter umzusetzen ist, als dies in Excel der Fall ist. Im Folgenden werden einige nützliche Funktion für das Arbeiten mit Umfrageergebnissen in Excel und R vorgestellt, an die Sie in Ihrer eigenen Studie anknüpfen und auf die Sie aufbauen können. 6.4.1 Auswertung der Daten mit Excel Die Bereinigung der Daten erfolgt einerseits über die Auswahl der gülti‐ gen Fälle direkt in der Online-Umgebung von Sosci-Survey. Andererseits können weitere Bereinigungsverfahren nötig sein, welche manuell zur Anwendung gebracht werden müssen. Hierunter fallen die verbliebenen 6.4 Auswertung der Daten 61 <?page no="62"?> „leeren Angaben“, welche standardmäßig in Sosci-Survey als „-9“ codiert sind, als auch wenig plausibel wirkende Antwortmuster, z. B. durch eine sehr starke Tendenz zur Mitte. Die Darstellung deskriptiver Umfragedaten erfolgt i. d. R. anhand von Säulenbzw. Balkendiagrammen, wofür wahlweise die absoluten oder die relativen Häufigkeiten verwendet werden können. Grundvoraussetzung ist in beiden Fällen, dass zunächst die Anzahl an Antworten, die auf die einzelnen Antwortkategorien entfallen, z. B. „sehr gering“ bis „sehr hoch“, ausgezählt werden. Hierfür gibt es in Excel zwei Möglichkeiten, die nachfolgend kurz vorgestellt werden: • die ZÄHLENWENN()-Funktion und • die Pivot-Tabelle. ZÄHLENWENN()-Funktion Zum Auszählen der jeweiligen Codes, welche für die Ausprägungen der Likert-Skalen im Umfrageprogramm hinterlegt wurden - z. B. 1 für sehr gering, 2 für gering, 3 für mittel, 4 für hoch, 5 für sehr hoch, -1 für keine Angabe und -9 falls keine Auswahl getroffen wurde - kann die ZÄHLEN‐ WENN()-Funktion verwendet werden. Um im Anschluss zu verifizieren, dass tatsächlich alle Antworten den Kategorien zugeordnet wurden, bietet es sich an, mit der ANZAHL()-Funktion zu überprüfen, ob die Gesamtanzahl der ausgezählten Werte auch der Gesamtanzahl an Befragten entspricht. Hierzu ein kleines Musterbeispiel: Aus einer Umfrage, in der die 15 befragten Personen auf die Frage danach, wie stark sie der Aussage zustimmen, dass „die Anzahl an Kita-Plätzen in ihrem Wohnviertel ausreichend ist“ geantwortet haben, geht folgende Antwortverteilung hervor (→ Tabelle 25). Id. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Ant‐ wort 3 3 4 2 -1 3 3 2 2 2 1 3 -9 2 -9 Tabelle 25: Fiktive Antwortverteilung für eine 4 Punkte Likert-Skala (Originalwerte) | Quelle: eigene Darstellung Es ergeben sich nun zwei Möglichkeiten, wie mit den Zahlencodes zu verfah‐ ren werden kann. Einerseits können die Zahlencodes durch die entsprechen‐ 62 6 Auswertung mit Software <?page no="63"?> den Wortkürzel ersetzt werden. Hierfür bietet sich die Ersetzen-Funktion in Excel an. Es folgt eine Darstellung der Werte wie in → Tabelle 26. Eine weitere Option besteht darin, mit der ZÄHLENWENN()-Funktion die Häufigkeiten jeder einzelnen Kategorie auszuzählen und die Werte tabella‐ risch darzustellen. Ausgangspunkt stellt die in → Abbildung 8 dargestellte Arbeitstabelle in Excel dar. Id. 1 2 3 4 5 6 7 8 Ant‐ wort hoch hoch sehr hoch gering kA hoch hoch gering 9 10 11 12 13 14 15 - - gering gering sehr gering hoch nb gering nb - - Tabelle 26: Fiktive Antwortverteilung mit Kategorien anstelle von Zahlencodes | Quelle: eigene Darstellung Abb.8: Anwendung der ZÄHLENWENN()-Funktion in Excel (Quelle: eigene Darstellung mit MS Excel) Abbildung 8: Anwendung der ZÄHLENWENN()-Funktion in Excel | Quelle: eigene Darstel‐ lung mit MS Excel 6.4 Auswertung der Daten 63 <?page no="64"?> Die Zieltabelle nimmt somit grundsätzlich folgende dargestellte Struktur in → Tabelle 27 an. Die absoluten Häufigkeiten können durch die Anwendung der ZÄHLENWENN()-Funktion ermittelt werden, wobei die Daten in den Zellen A1 bis A26 eingetragen sind. Zudem ist es unter Kontrollgesicht‐ spunkten ratsam, zwei zusätzliche Zeilen anzulegen: In der ersten Zusatz‐ zeile „Gesamt“ wird die Summe von allen durch die WENNFUNKTION() ermittelten absoluten Häufigkeiten berechnet. In der finalen Zeile wird die Summe aus der Anzahl an nicht leeren Zellen und leeren Zellen ermittelt. Wenn beide Werte für Gesamt und Anzahl übereinstimmen, wurde jeder codierte Wert korrekt ausgezählt und umgewandelt. Code Interpreta‐ tion Ziel‐ zelle in Excel abso‐ lute Häu‐ figkeit Funktion in Excel Zielzelle in Excel 1 sehr gering A18 1 =ZÄHLEN‐ WENN($A$2: $A$16; 1) B18 2 gering A19 5 =ZÄHLEN‐ WENN($A$2: $A$16; 2) B19 3 hoch A20 5 =ZÄHLEN‐ WENN($A$2: $A$16; 3) B20 4 sehr hoch A21 1 =ZÄHLEN‐ WENN($A$2: $A$16; 4) B21 -9 keine An‐ gabe A22 2 =ZÄHLEN‐ WENN($A$2: $A$16; -9) B22 -1 nicht beant‐ wortet A23 1 = ZÄHLEN‐ WENN($A$2: $A$16; -1) B23 gesamt A24 15 =Summe(B18: B23) B24 Anzahl A25 15 =ANZAHL(A2: A16) B25 Tabelle 27: Finale Tabellenstruktur der 4 Punkte Likert-Skala | Quelle: eigene Darstellung Wissen | Pivot-Tabellen Komfortabler ist die Verwendung von Pivot-Tabellen, speziell bei großen Datensätzen. Hierfür wird in Excel zunächst die Zeile ausgewählt, in der sich die Likert-Codes befinden und im Anschluss unter dem Reiter 64 6 Auswertung mit Software <?page no="65"?> Pivot-Tabelle in dem Menüpunkt Einfügen in Excel ausgewählt. Im An‐ schluss erscheint eine Auswahlbestätigung, in der der Auswahlbereich sowie der Ausgabeort für die Pivot-Tabelle anzugeben sind. Damit die Pi‐ vot-Tabelle sinnvoll angewendet werden kann, sollten die numerischen Antwortcodes in die entsprechen Antwortkategorien („kA“, sehr gering, „gering“ etc.) überführt werden. Abb.9: Excel Pivot-Tabelle Einstellungen ( Quelle: eigene Darstellung mit MS Excel ) Abbildung 9: Excel-Pivot-Tabelle Einstellungen | Quelle: eigene Darstellung mit MS Excel Die Voreinstellung, die Pivot-Tabelle in einer neuen Excel-Arbeitsmappe auszugeben, sollte i. d. R. übernommen werden. In der neuen Arbeits‐ mappe befindet sich im rechten Bereich ein Menüfeld mit der Überschrift Pivot Table Felder, welches aus einem größeren Rechteck und vier gleich‐ großen Quadraten besteht. Die Quadrate sind mit FILTER, SPALTEN, ZEILE und WERTE tituliert. In dem großen, oberen Rechteck kann der Datensatz angeklickt werden, welcher den Namen der ursprünglichen Spaltenüberschrift trägt (hier: I203). Durch Anklicken wird dieser in das Quadrat ZEILEN verschoben, wodurch die Pivot-Tabelle zunächst analog 6.4 Auswertung der Daten 65 <?page no="66"?> zu → Abbildung 10 (linke Tabelle) dargestellt wird. Durch Rechtsklick auf den Datennamen „I203“ im oberen Rechteck und Auswählen von Werte hinzufügen wird nun zum jeweiligen Code zeilenweise die abso‐ lute Häufigkeit ergänzt. Abb.10: Pivot-Tabelle: Stufe1 (links) und Stufe 2(rechts) (Quelle: eigene Darstellung mit MS Excel) Abbildung 10: Pivot-Tabelle: Stufe1 (links) und Stufe 2(rechts) | Quelle: eigene Dar‐ stellung mit MS Excel Die finale Tabelle kann nun genutzt werden, um die absoluten Häufig‐ keiten grafisch, z. B. anhand eines Balkendiagramms darzustellen (→ Abschnitt 7.1.1.) oder um die relativen Häufigkeiten zu ermitteln, um diese beispielsweise in einem Kreisdiagramm abzubilden. 6.4.2 Auswertung der Daten mit R Insbesondere für große Datensätze oder für den Fall, dass der Datensatz nach spezifischen Kriterien und für unterschiedliche Teilgruppen ausgewertet werden soll, erweist sich die Auswertung mit einer Statistiksoftware, wie R als vorteilhaft. Analog zur Pivot-Tabellenfunktion kann beispielsweise die o. g. Frage nach der Zufriedenheit mit der Anzahl an Kita-Plätzen für unter‐ schiedliche Teilgruppen - alleinerziehende Eltern, Einkommenssituation, Wohnsituation etc. - ausgewertet und in einer separaten Variable abgespei‐ chert werden. Im Prinzip kann jede Frage für jede Teilgruppe ausgewertet werden, für die Daten im Rahmen der Umfrage erhoben worden sind. Für die Auswertung in R benötigt man hierzu vor allem den table()-Befehl sowie den Befehl zum Re-Labeling der Variablen. In → Tabelle 28 sind einige grundlegende Befehle dargestellt, die bei der ersten Kontaktaufnahme mit R sowie im Hinblick auf die Analyse von Umfragen besonders nützlich seien können. Die hellgrau hinterlegten Zellen 66 6 Auswertung mit Software <?page no="67"?> sind für Fragebogenauswertungen von sehr zentraler Bedeutung, da sie die Befehle … • zur Umcodierung von Variablen enthalten, welches z. B. wichtig ist, um aus einer 0-1 skalierten Variablen eine Umkategorisierung von „sehr gering“ bis „sehr hoch“ vornehmen zu können oder den durch das Fragebogenprogramm vorgegebenen Zahlencodes (z. B. 1 bis 5) für eine Likert-Skala die entsprechenden Bezeichnungen für den Grad der Zustimmung (geringe Zustimmung bis „sehr hohe Zustimmung“) zuzuordnen. • zur Erstellung von Teildatensätzen nach bestimmten Kriterien um‐ fassen. Die Kriterien können sich auf nominale Skalen beziehen, wie das Geschlecht oder den Migrationsstatus (in R werden diese Variablen als character bezeichnet), auf ordinale Variablen z. B. nach der Höhe des höchsten erreichten Bildungsabschlusses sowie auf metrische Größen Bezug nehmen, wenn z. B. der Datensatz nach Höhe der Einkommen aufgegliedert werden soll. • einen für Fragebögen sehr übersichtlichen Befehl für die zusammen‐ fassende Beschreibung der Fragen sowie deren deskriptive Statistiken umfassen und • eine Möglichkeit aufzeigen, wie ein bestehendes Labeling bei den Variablen durch den Programmierenden verändert werden kann. Von konkreter Nützlichkeit erweist es sich, alle Variablen, die mit der gleichen Codierung versehen sind, zu Beginn, um fehlende und ungültige Einträge zu bereinigen. Hierfür kann der Split-Befehl genutzt werden und über die UND-Bedingung festgelegt werden, dass nur die Einträge beibehal‐ ten werden, die in keiner der interessierenden Variablen fehlende Werte (NA) aufweisen. Berechnung Code Erstellen einer Variable x<-c(1,2,3,4,5) Anzahl Einträge (n) length(x) Rechenoperationen +, -, / , * Summe sum(x) Runden auf k NK Stellen round(x,k) 6.4 Auswertung der Daten 67 <?page no="68"?> Anzahl/ Häufigkeiten table(x), prop.table(table(x)) Abbildungen plot(x), plot(x,y), barplot(x), pie(x), barp‐ lot(table(x)) hist(x) Umcodierung der Variablen nach bestimmten Kriterien x[x<=25]<-„sehr gering“ x[x>25&x<=50]<-„gering“ x[x>50&x<=75]<-„hoch“ x[x>75]<-„sehr hoch“ Teilda‐ ten (-satz) aus‐ wählen Nach Kriterien split(Datensatz,Datensatz$xt>100) Datensatz [Datensatz$x >100] Ohne fehlende Werte na.omit(Datensatz$x) Häufigkeitstabelle (abs. Angaben) table(x) Häufigkeitstabelle (rel. Angaben) prop.table(table(x)) Kontingenztabelle (absolute Häu‐ figkeiten) table(x,y) arith. Mittel mean(x) arith. Mittel mean(x) Median median(x) Spannweite max(x)-min(x) Z-Transformation scale(x) Variablenübersicht library(sjmisc) frq(x) Grafische Darstellungen Kreisdiagramm pie(x) Punktdiagramm plot(x) Stabdiagramm plot(table(x)) Säulendiagramm barplot(x) Boxplot boxplot(x) Histogramm hist(x) Tabelle 28: R-Codes | Quelle: eigene Darstellung 68 6 Auswertung mit Software <?page no="69"?> 7 Dissemination der Ergebnisse Der Disseminationsprozess knüpft methodisch unmittelbar an die Ergeb‐ nisauswertung an, wird aber an dieser Stelle in einem eigenen Kapitel dargestellt. Dies soll einerseits darauf verweisen, dass zwischen der Pro‐ duktion der Ergebnisse sowie deren Interpretation ein kurzes Innehalten ratsam sein kann, um sich darüber klar zu werden, welche konkreten Ergebnisse, wem auf welche Weise zur Verfügung gestellt werden sollen oder müssen. Andererseits bilden die Ergebnisse zusammen mit de‐ ren Darstellungen das zentrale Anliegen des Umfrageverfahrens, wobei die (jeweiligen Ergebnisse) für die Adressat: innen möglichst leichtverständlich aufbereitet werden sollten. Für unterschiedliche Ziele bzw. Zielgruppen sind verschiedene Darstellungsformen relevant. Während in einem Sachbericht neben Häufigkeitstabellen (üblicherweise Säulen- und Kreisdiagramme, Scatterplots) auch vereinzelt Regressionsgeraden angezeigt werden, sind Er‐ gebnisse von Umfragen häufig in Form von gestapelten Säulendiagrammen wiedergegeben. Für diese Beispiele werden Möglichkeiten zur technischen Umsetzung im → Abschnitt 7.1 aufgezeigt. In Fällen mit mehreren katego‐ rialen Variablen können Mosaikplots, welche auch als Spineplots bezeichnet werden, die gewünschten Informationen effizient zusammenfassen. Diese und weitere selten verwendeten Abbildungen werden in → Abschnitt 8.2. kurz vorgestellt. Unterschiedliche Zielgruppen haben unterschiedliche Anforderungen an die Ergebnisse, so genügt es für Sachberichte i. d. R. ausgewählte Ergebnisse für die Gesamtanzahl der befragten Personen dar‐ zustellen und diese nach gängigen Kriterien, wie dem Migrationsstatus oder dem Geschlecht differenzierter abzubilden. Die interessierenden Kriterien ergeben sich zumeist aus der Fragestellung des Reports, z. B. dem Migrati‐ onsbericht Jena. An dieser Stelle muss das Erkenntnisinteresse der Forschungsarbeit aber noch nicht erschöpft sein: Sowohl für die differenzierte Einordnung der Er‐ gebnisse in einem Sachbericht als auch für die weitere Professionalisierung der Arbeit in Ihrer Organisation können die Umfrageergebnisse parallel genutzt werden. So können spezifische und unscheinbare Teilauswertun‐ gen mitunter für die Organisations(weiter)entwicklung genauso relevant sein, wie die Ergebnisse, welche dem Auftraggeber oder der Öffentlichkeit zur Verfügung gestellt werden (müssen). So kann zusätzlich zu der für den <?page no="70"?> Sachbericht gesetzten Schwerpunktlegung eine die Frage, z. B. nach der generellen Lebenszufriedenheit in einer Kommune, auch nach soziodemo‐ grafischen Aspekten, wie • dem Alter, • dem Beziehungsstatus, • des Geburtslandes, • der Anzahl an gesprochenen Fremdsprachen, • dem höchsten Bildungsabschluss, • der Anzahl an Kindern oder • weiteren Kriterien hin ausgewertet und verglichen werden. So ist es möglich einen tieferen Einblick in die Umfrageergebnisse zu erhalten, um mit der Umfrage einen möglichst hohen Wirkungsgrad nach innen und nach außen zu erzielen: So können die Ergebnisse, z. B., wenn Sie im Anschluss an eine Maßnahme erhoben worden sind und deren Erfolg evaluieren werden soll, nicht nur für die Ergebnisdarstellung nach außen (z. B. für den Fördermittelgeber) sondern auch für die Bestätigung oder Weiterentwicklung der eigenen Angebote genutzt werden. Um der interes‐ sierten Leserschaft Ihre Ergebnisse möglichst intuitiv zu vermitteln, ist es ratsam, leicht verständliche Abbildungen zu verwenden, womit im Rahmen von deskriptiven Analysen insbesondere Balken-, Säulen- und Kreisdiagr‐ amme gemeint sind. Soll eine zusätzliche kategoriale Ebene verwendet werden, sind gestapelte Säulendiagramme ein häufig genutztes Mittel. Bei Anteilen, welche sich zu eins addieren, haben sich Kreisdiagramme bewährt. Die Wahl der Abbildung sollte in jedem Fall nach methodischen Ge‐ sichtspunkten erfolgen und der Leserschaft einen schnellen, intuitiven Zugang zu den Ergebnissen ermöglichen. Stehen die Abbildungen und Er‐ gebnisse fest, gilt es diese möglichst wirksam einzusetzen. Hierzu finden sich bei Brooks und Bee (2018) sieben Aspekte, die durch das Befragungsteam zum Zwecke einer hohen Reichweite der Studienergebnisse beeinflusst werden können und die von der befragenden Organisation über den gesam‐ ten Untersuchungszeitraum beherzigt werden sollten: 1. Die Netzwerkarbeit und Beziehungen zu der Zielgruppe und den Trä‐ gern, welche mit der Zielgruppe der Studie zusammenarbeiten, sollten intensiviert werden, 70 7 Dissemination der Ergebnisse <?page no="71"?> 2. Berücksichtigt werden sollte die zentrale Rolle, welche Nutzer: innen und Unterstützer: innen im Prozess der Dissemination der Ergebnisse einnehmen, um von deren Wissen partizipieren zu können, 3. Das für die Untersuchung relevante Netzwerk sollte in allen Prozess‐ schritten einschl. der Dissemination laufend mit einbezogen werden, 4. Ein guter Mix aus dem Trade-off zwischen hoher Flexibilität und Kon‐ sistenz bei der Dissemination muss gefunden und möglichst frühzeitig verbindlich festgelegt werden, 5. Bei der Darstellung der Ergebnisse sollte auf das zugrundeliegende Verständnis für den Gesamtkontext, in dem sich die Studie bewegt referenziert werden, 6. Für die strategische Weiterentwicklung (der Arbeit) der Organisation sind zudem ein kooperativer Austausch auf der Managementebene mit anderen Organisationen, welche für die künftige Arbeit relevant sein könnten, sinnvoll als auch 7. ein laufendes (Projekt)-Controlling empfehlenswert. 7.1 Häufig verwendete Abbildungen 7.1.1 Säulen- und Balkendiagramm Das Säulendiagramm stellt absolute oder relative Häufigkeiten für eine Variable dar, sodass die Summe über alle Häufigkeiten gleich der Anzahl der Beobachtungen, bzw. dem Wert „eins“ entspricht. Die Leser: innen erhalten so einen schnellen Überblick über die Verteilung der Antworten. Sofern eine systematische Unterscheidung bei den Antworten, z. B. nach dem Geschlecht zu erwarten ist, bietet es sich an, diese getrennt in einer Abbildung, beispielsweise anhand verschiedenfarbiger Balken darzustellen. In → Abbildung 11 ist dies für die fiktiven Einkommen von 20 Personen, wovon die Hälfte weiblich und die andere Hälfte männlich ist (N w = N m = 10), erfolgt. 7.1 Häufig verwendete Abbildungen 71 <?page no="72"?> Klasse I Klasse II Klasse III Klasse IV mw 0 1 2 3 4 Abbildung 11: Einkommensklassen nach Geschlecht (fiktive Werte) - Säulendiagramm | Quelle: eigene Darstellung mit RStudio Das Balkendiagramm ähnelt dem Säulendiagramm bis auf den Umstand, dass die x-Achse und die y-Achse vertauscht sind. In R unterscheiden sich die beiden Darstellungen lediglich über den Parameter horiz() voneinander, wo‐ bei horiz=FALSE ein Säulen- und horiz=TRUE ein Balkendiagramm erzeugt. Die letztere Darstellung ist vor allem bei längerem Achsenbeschriftungstext, z.-B. bei Online-Umfragen beliebt. Klasse I Klasse II Klasse III Klasse IV wm 0 1 2 3 4 Abbildung 12: Einkommensklassen nach Geschlecht (fiktive Werte) - Balkendiagramm | Quelle: eigene Darstellung mit RStudio 72 7 Dissemination der Ergebnisse <?page no="73"?> • x<-c(runif(20,1000,5000) • Einkommen<-x • Sex<-c("w","m","m","m","w","w","m","w","w","m","w","m","m","m","w","w","m", "w","w","m") • table(Sex) • unteresQuantil<-quantile(x,0.25) • median<-median(x) • oberesQuantil<-quantile(x,.75) • Max<-max(x) • x[x<=unteresQuantil]<-"Klasse I" • x[x> unteresQuantil &x<= median]<-"Klasse II" • x[x> median & x<=oberesQuantil]<-"Klasse III" • x[x> oberesQuantil &x<= Max]<-"Klasse IV" • Datentabelle<-table(Sex, x) • par(mar=c(4.5, 4.5, 4.5, 2.5)) • barplot(Datentabelle,main = "Einkommensklassen nach Geschlecht \n (fiktive Werte)",.xlab = "", ylab = "",col = c( "darkblue", "red"), legend.text = rowna‐ mes(Datentabelle), beside = TRUE,las=1,horiz=TRUE) Tabelle 29: R-Code Säulen bzw. Balkendiagramm 7.1.2 Kreisdiagramm Zum Darstellen von Verhältnissen, z. B. für den Anteil von Frauen und Männern an den abgegebenen Fragebögen lässt sich das Kreisdiagramm verwenden, wobei der prozentuale Anteil der Fläche des Tortenstücks ent‐ spricht. Standardmäßig können in Excel und R vordefinierte Darstellungen verwendet werden, in R ist z. B. der Befehl pie(), ohne zusätzliches Laden von Paketen verfügbar. Die Darstellungsqualität in R kann merklich erhöht werden, wenn die Funktion PieChart() aus dem Paket lessR() verwendet wird. Am Beispiel einer fiktiven Umfrage von Akteurinnen und Akteure aus sechs verschiedenen Bereichen der sozialen Arbeit lassen sich die Zugehörigkeiten anhand eines Kreisdiagramms abbilden. Hierfür wurde die Anzahl der Personen nach ihrer Programmzugehörigkeit aufgeschlüsselt und in → Abbildung 13 dargestellt. Der zugehörige R-Code ist in → Tabelle 29 dargestellt. 7.1 Häufig verwendete Abbildungen 73 <?page no="74"?> 15% Altenhilfe 32% Bildungsplanung 21% Gesundheitshilfe 15% Jugendhilfe 9% Sozialplanung 9% Suchthilfe Abbildung 13: Kreisdiagramm | Quelle: eigene Darstellung mit RStudio • install.packages("lessR") • library(lessR) • TN_Zahl<-c(rep("ARM",7),rep("LSZ",11),rep("ThIlik",5),rep("Bil‐ dung",5),rep("Gesundheit",3) ,rep("Jugend",3)) • PieChart(TN_Zahl,main = "",hole_fill=getOption("panel_fill"), edges = 100,hole = 0.1 ,color = "black",cex =1.5 ) Tabelle 30: R-Code Kreisdiagramm 7.1.3 Boxplot Die Verteilung von Variablen, die verhältnisskaliert sind (z. B. das monatli‐ che Einkommen eines Haushalts), kann anhand eines Boxplots dargestellt werden. Ohne an dieser Stelle auf die Bedeutung von Quantilen einzugehen, kann über diese Darstellungsform schnell ein intuitiver Blick über die Verteilung der Variablen erfolgen, indem auf die markanten Punkte eines Boxplots Bezug genommen wird. In Excel findet sich die Darstellung in dem Reiter Abbildungen unter der Bezeichnung Kastengrafik. Anhand des Boxplots lassen sich zentrale Aussagen über die Verteilung einer Variablen treffen. Folgende vier Fragen dienen als Beispiele dafür, welche Informatio‐ nen mittels eines Boxplots beantwortet werden können: 74 7 Dissemination der Ergebnisse <?page no="75"?> • Wie hoch ist der mittlere Wert? • Wie hoch ist die Schwelle, die von den unteren 25 % nicht überschritten wird? • Wie hoch ist die Schwelle, die von den unteren 75 % nicht überschritten wird? • Gibt es Ausreißer? 0 20 40 60 80 100 120 Abbildung 14: Boxplot (Das Beispiel stammt aus der IKPE- Studie Zukunft der kommunalen Planung - Lernen aus Krise(n)) | Quelle: eigene Darstellung mit RStudio In → Abbildung 14 sind die Antworten aus der Online-Umfrage im Rahmen der IKPE-Studie „Zukunft der kommunalen Planung - Lernen aus Krise(n)“ auf die Frage nach der Gesamtdauer der Beschäftigung im Bereich der Integrierten Sozialplanung anhand eines Boxplots, welches mit R Studio erzeugt worden ist, abgebildet. Der linke (rechte) vertikale Balken stellt die Grenze dar, ab der Werte, die darüber (darunter) liegen als Ausreißer gelten. In der Tabelle gibt es demnach zwei Werte, die (obere) Ausreißer sind. Mit der dicken horizontalen Linie ist der Median, mit dem blauen Kreuz der Mittelwert dargestellt. Liegen beide Symbole übereinander, handelt es sich um eine symmetrische Verteilung. Die untere (obere) Begrenzung der Box stellt das untere (obere) Quartil dar, also der Wert, welcher von den unteren 25 % (75 %) der sortierten Werte nicht überschritten wird. Für die Abbildung lauten diese Werte 24 Monate und 60 Monate, der Median liegt bei 30 Monaten, das arithmetische Mittel bei 42.96 Monaten. Der R-Code zur Erstellung des dargestellten Boxplots findet sich in → Tabelle 31. 7.1 Häufig verwendete Abbildungen 75 <?page no="76"?> • boxplot(na.omit(SP_Daten$A021_01),col="white", main="",horizontal = FALSE) • points(mean( SP_Daten$A021_01,na.rm = TRUE),col=4,pch=4) Tabelle 31: R-Code Boxplot 7.1.4 Scatterplot 0 20 40 60 80 100 120 30 32 34 36 38 Gesamtdauer der Beschäftigung(en) im Bereich der Sozialplanung (in Monaten ) Durchschn. wöchentliche Arbeitszeit (in Stunden) Abbildung 15: Scatterplot zu der Gesamtdauer der Beschäftigung (in Monaten) und der durchschnittlichen wöchentlichen Arbeitszeit (in Stunden) | Quelle: eigene Darstellung mit RStudio Liegen zwei verhältnisskalierte Variablen vor, kann der Zusammenhang zwischen den Variablen grafisch mittels eines Streudiagramms bzw. Scat‐ terplots analysiert werden. Indem für jede Beobachtung der Befragten 1, …, n die entsprechende Wertkombination abgetragen wird, entsteht das in → Abbildung 15 dargestellte Schaubild. Ohne explizite Berücksichtigung der Labels kann nun nicht auf die einzelnen Personen geschlossen werden. Da‐ für kann der statistische Zusammenhang zwischen den beiden Merkmalen visuell nachvollzogen werden, welcher für dieses Beispiel einen positiven Verlauf hat. Folglich geht in diesem Fall eine höhere durchschnittliche Wochenarbeitszeit mit einer höheren Beschäftigungsdauer einher. 76 7 Dissemination der Ergebnisse <?page no="77"?> • plot(Y,X xlab="Durchschn. Wöchentliche Arbeitszeit in Std.",ylab="Ge‐ samtanzahl Monate der Beschäftigung(en)\n im Bereich Sozialpla‐ nung",bty="n",cex.axis=1.3,cex=2, pch=4, cex.lab=1.3,lwd=2 ,cex.main=.8) Tabelle 32: R-Code Scatterplot 7.2 Weitere Darstellungen 7.2.1 Netzdiagramm Für die Darstellung von Beziehungen bzw. deren Stärke oder für die Darstellung der einzelnen Indikatoren eines standardisierten Index kann das Netzdiagramm (eng: Spider Plot) verwendet werden. Für die nach‐ folgende Darstellung wird auf die Darstellung aus → Abschnitt 5.2.2. zurückgegriffen, welche einen verteilungsabhängigen Index aus den beiden Indikatoren „BMI“ und „Anzahl der Personen mit Pflegestatus (PS)“ für fünf Thüringer Landkreise bzw. kreisfreie Städte abgebildet hatte. Abb.16: Zentrierte Werte für zu geringen BMI nach ausgewählten LK/ Städten in Thüringen • • siehe Exceldatei (Quelle: Eigene Darstellung und Berechnung mit MS Excel) -1,00 0,00 1,00 2,00 Stadt Erfurt Stadt Gera Stadt Jena Stadt Suhl Weimar Abbildung 16: Zentrierte Werte für zu geringen BMI nach ausgewählten LK/ Städten in Thüringen | Quelle: eigene Darstellung mit MS Excel Anhand dieser Darstellung wird deutlich, dass Gera, Weimar und Jena negative zentrierte Werte für den Indikator „zu geringer BMI bei der Schul‐ eingangsuntersuchung“ aufweisen und damit in den beiden Städten ein geringerer Handlungsbedarf angezeigt wird als beispielsweise in Erfurt und insbesondere Suhl. Zur Erinnerung: Da es sich bei dem Indikator um einen 7.2 Weitere Darstellungen 77 <?page no="78"?> Mangel in der Kommune handelt, stellt ein Wert der oberhalb (unterhalb) des Durchschnitts der anderen Kommunen liegt einen überdurchschnittlich (unterdurchschnittlich) hohen Handlungsbedarf dar. Die Intensität ergibt sich über die Höhe des Wertes. Es sei an dieser Stelle noch einmal ausdrück‐ lich darauf hingewiesen, dass es sich um ein willkürlich zusammengesetztes Beispiel auf Grundlage realer Daten aus dem ThOnSa handelt, aus denen keine realen Bedarfe abgeleitet werden können. Die Auswahl und Darstellung erfolgte rein aus didaktischen Gründen zur Erläuterung der Indexbildung. Die in → Abbildung 16 aufgezeigte Darstellungsform lässt sich auch auf den Gesamtindex übertragen, welcher theoretisch aus unbe‐ grenzt vielen Einzelindikatoren bestehen kann. Als Beispiel für einen Index, welcher aus zwei Indikatoren besteht, können die Werte aus → Abbildung 16 genutzt und ebenfalls anhand eines Netzdiagramms abgebildet werden. Abb.17: Verteilungsabhängiger Gesamtindex aus zwei Indikatoren • • siehe Exceldatei (Quelle: Eigene Darstellung und Berechnung mit MS Excel) -1 -0,5 0 0,5 1 1,5 2 Erfurt Gera Jena Suhl Weimar Abbildung 17: Verteilungsabhängiger Gesamtindex aus zwei Indikatoren | Quelle: eigene Darstellung mit MS Excel Die Abbildung des Gesamtindex (→ Abbildung 17) lässt sich analog zu → Abbildung 16 interpretieren: Gemessen an den beiden Indikatoren “Perso‐ nen mit Pflegestatus“ und „Untergewicht bei Schuleingangsuntersuchung“ schneiden Gera (-0.64) Weimar (-0.91) und Jena (-0.64) relativ gut und Suhl (0.42) sowie Erfurt eher schlecht bzw. schlecht ab. Folglich wäre für dieses stark vereinfachte Beispiel in Erfurt der höchste Handlungsbedarf 78 7 Dissemination der Ergebnisse <?page no="79"?> im Gesundheitssystem zu erkennen. Für die Darstellung in Excel kann der Diagrammtyp Netz und für die Darstellung in RStudio der Befehl der Befehl spider() oder radar() aus dem Paket psych verwendet werden. 7.2.2 Mehrebenenplot/ Spineplot Des Weiteren lässt sich noch eine Abbildung erörtern, die zum Einsatz kommt, wenn zwei kategoriale Variablen grafisch dargestellt werden sollen. Ein Beispiel könnte lauten, die Befragten Personen aus einer Bürger: innen‐ befragung nach Geschlecht („männlich“, „weiblich“, „divers“) und nach Zugehörigkeit zu einer Klasse („gering“, „mittel“, „hoch“), z. B. für das Alter aufzuschlüsseln und grafisch abzubilden. Der Vorteil besteht darin, dass die Verteilung zweier Merkmale anhand einer einzigen Abbildung einen intuitiven und schnellen Zugang zum Datensatz erlaubt. Insbesondere sind die Abbildungen relevant, wenn es auf die demografische, politische oder anderweitig geartete Zusammensetzung der Antworten der Befragten bei der Auswertung ankommt. Einem Spineplot liegt eine bivariate Häufig‐ keitstabelle zugrunde, welche als Kreuztabelle dargestellt werden kann, wobei an den Achsen die Variablen und in den Spalten die absoluten bzw. relativen Häufigkeiten aufgeführt sind. Diese lässt sich in R - für den Fall der absoluten Häufigkeiten - über den Befehl table(x,y) ausgeben. Für den theoretischen Fall, dass neun Personen befragt wurden und dieses sich symmetrisch über die Kategorien des Geschlechts und des Alters aufteilen, würde die bivariate Häufigkeitstabelle, die in → Tabelle 33 dargestellte Struktur aufweisen. - M W D Summe gering 1 1 1 3 mittel 1 1 1 3 hoch 1 1 1 3 Summe 3 3 3 9 Tabelle 33: Bivariate Häufigkeitsverteilung (fiktives Beispiel) | Quelle: eigene Darstellung und Berechnung 7.2 Weitere Darstellungen 79 <?page no="80"?> Die grafische Entsprechung der in → Tabelle 32 dargestellten Werte, welche ebenso gut als relative Häufigkeiten darstellbar sind, findet sich in → Abbildung 18. Die in der Tabelle durch die Äquivalenz der Zellenwerte zum ausdruckgebrachte Gleichverteilung wird im Spineplot durch die Äquiva‐ lenz der Flächeninhalte der Kästchen dargestellt. Der zugehörige R-Code findet sich in → Tabelle 33, wobei der vorletzte Befehl print(Daten) die bivariate Häufigkeitsverteilung ausgibt. Altersklasse Geschlecht gering hoch mittel w m d 0.0 0.2 0.4 0.6 0.8 1.0 Abbildung 18: Spineplot für das Alter (klassiert) und das Geschlecht | Quelle: eigene Darstellung mit RStudio • Sex<-c(rep("w",3),rep("m",3),rep("d",3)) • Altersklasse<-c(rep(c("gering","mittel","hoch"),3)) • Daten<-table(Altersklasse,Sex) • print(Daten) • spineplot(Daten,col=c("red","green","lightblue"),xlab="Altersklasse",ylab="Ge‐ schlecht") Tabelle 34: R-Code für Spineplot 80 7 Dissemination der Ergebnisse <?page no="81"?> 7.2.3 Darstellung von Likert-Skalen Häufig werden in Umfragen Likert-Skalen eingesetzt. Diese können eine gerade oder eine ungerade Anzahl an Antwortoptionen umfassen und theoretisch beliebig viele Ausprägungen annehmen. Bei einer ungeraden Anzahl an Antwortoptionen wird dem Interviewten die Option gewährt, eine mittlere Zustimmung auszuwählen, während eine gerade Anzahl an Antwortoptionen den Interviewten zu einer klaren Entscheidung (pro oder contra) zwingt. Es finden sich in der Literatur sowohl für Likert-Skalen mit einer geraden als auch mit einer ungeraden Anzahl an Antwortoptionen Argumente, sodass die Entscheidung durch praktische Erwägungen zu tref‐ fen ist. Konsens besteht dahingehend, dass die Ausweichoptionen möglichst gering zu halten sind: Einige Autoren empfehlen daher keine simultane Verwendung der „Mittel“-Kategorie, z. B. die „3“ bei einer 5-Punkte-Skala zusammen mit der Option „keine Angabe“, da somit drei Optionen bestehen keine (eindeutige) Antwort zu geben: 1. „mittlere Kategorie“, 2. „keine Angabe“ und 3. „nicht beantwortet“, sofern kein Antwortzwang (technisch) eingebaut wurde. In der Folge wird die Aussagekraft der abgegebenen Antworten erhöht, wobei das Risiko zunimmt, dass der Anteil derjenigen steigt, die die Frage überspringen. Umgekehrt kann man auch für die simultane Verwendung beider Kategorien argumentieren, um die latente Unsicherheit bzgl. des befragten Gegenstands zu erfassen. 7.2.3.1 Darstellung von Likert-Skalen in R (ohne Faktorisierung) - Beispiel Latentes Konstrukt Varia‐ ble Aussage Verträglichkeit A1 Gefühle anderer sind mir egal. A2 Ich erkundige mich nach dem Befinden anderer. A3 Ich kann anderen Trost spenden. A4 Ich mag Kinder. 7.2 Weitere Darstellungen 81 <?page no="82"?> A5 Anderen ein Wohlgefühl geben liegt mir. Gewissenhaftigkeit C1 Mein Anspruch an die eigene Arbeit ist hoch. C2 Ich arbeite bis zur Perfektion. C3 Dinge werden von mir strikt nach Plan ausge‐ führt. C4 Dinge erledige ich auch einmal unvollständig. C5 Beim Arbeiten verschwende ich Zeit. Extrovertiertheit E1 Ich rede nicht viel. E2 Mich anderen zu näheren fällt mir schwer. E3 Ich weiß mir die Gunst anderer zu sichern. E4 Neue Freundschaften knüpfe ich leicht. E5 Verantwortung übernehme ich gerne. Neurotizismus N1 Ich werde schnell wütend. N2 Ich bin leicht zu verunsichern. N3 Meine Stimmung schwank stark. N4 Ich fühle mich oft traurig. N5 Ich gerate schnell in Panik. Offenheit O1 Ich habe viele Ideen. O2 Ich vermeide es komplexe Texte zu lesen. O3 Ich versuche das Gesprächsniveau anzuheben. O4 Ich nutze Zeit, um über Dinge nachzudenken. O5 Ich steige ungern tief in ein Thema ein. Tabelle 35: Big Five Datensatz in R und Erläuterung | Quelle: 🔗 https: / / www.personality -project.org/ r/ html/ bfi.html, eigene Darstellung 82 7 Dissemination der Ergebnisse <?page no="83"?> A1 A2 A3 A4 A5 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Legende Sehr Inakkurat Überwiegend Inakkurat Etwas Inakkurat Etwas Akkurat Überwiegend Akkurat Sehr Akkurat Abbildung 19: 5 Likert-Skalen dargestellt anhand eines gestapelten Balkendiagramms | Quelle: eigene Darstellung mit RStudio Um der Leserin bzw. dem Leser die Möglichkeit zu geben die Abbildung nachzubilden, wird in → Tabelle 35 auf die in R hinterlegte psychologischen Probandenbefragung zu den fünf Persönlichkeitstypen Bezug genommen. Die Beschreibung des Datensatzes kann hier ( 🔗 https: / / www.personalit y-project.org/ r/ html/ bfi.html) eingesehen werden. Für den Faktor „Verträg‐ lichkeit“ sind in der Abbildung die Antwortverteilungen der fünf Teilindizes für die 2.800 Befragten dargestellt. Anhand von → Abbildung 19 lässt sich erkennen, dass für den Charakterzug Verträglichkeit die Teilfrage A2 das höchste und die Teilfragen A3-A5 sehr hohe Zustimmungen bzgl. der Akkuratheit aufweisen. A1 hingegen weist bei 60 % der Befragten eine geringe Zustimmung auf. Der zur Abbildung gehörige R-Code findet sich in → Tabelle 36. 7.2 Weitere Darstellungen 83 <?page no="84"?> • install.packages("psych") • library(psych) • data(bfi) • A1<-table(bfi["A1"]) • A1<-prop.table(table(bfi["A1"])) • A2<-prop.table(table(bfi["A2"])) • A3<-prop.table(table(bfi["A3"])) • A4<-prop.table(table(bfi["A4"])) • A5<-prop.table(table(bfi["A5"])) • Colors<c("yellow","orange","lightgreen","green", "turquoise","darkgreen") #Grafische Darstellung • par(mar=c(2.5, 3, 3, 12.5),xpd=TRUE) • barplot(cbind(A1,A2,A3,A4,A5),las=1,horiz =TRUE, col= colors, ,xlim=c(0,1)) • axis(1, at = c(0, 0.2, .4,.6,.8,1)) • legend("topleft", inset=c(1.01, 0.1), legend=c("Sehr Inakkurat", "Überwie‐ gend Inakkurat, "Etwas Inakkurat" ,"Etwas Akkurat" , "Überwiegend Akku‐ rat" ,"Sehr Akkurat"), fill = colors,title="Legende", cex = 1) Tabelle 36: R-Code zur Darstellung kombinierter Frage-Items (Likert-Skalen) 7.2.3.2 Darstellung von Likert-Skalen in R (mit Faktorisierung) Bei eigenen Untersuchungen, z. B. anhand von Online-Befragungen, lie‐ gen die Ausprägungen einer Likert-Skala i. d. R. als Zahlencodes, z. B. als Werte von eins bis fünf vor. Um daraus eine Häufigkeitstabelle für die einzelnen Ausprägungen und im Anschluss eine grafische Abbildung erstellen zu können, ist es zunächst notwendig, den Zahlencodes die kor‐ respondierenden Legendenbezeichnungen („sehr gering“ bis „sehr hoch“) zuzuweisen. Diese Transformation ist sowohl in Excel, bei der Nutzung von Pivot-Tabellen, als auch in R, bei der Zählung der Ausprägungen mittels des table()-Befehls, notwendig. Es können verschiedene Pakte in R geladen werden, um Likert-Skalen grafisch darzustellen. Nachfolgend wird auf das Paket likertsj verwiesen, da es aus Sicht des Autors den günstigsten Mix aus voreingestellter, intuitiver Darstellung der Likert-Barplots und Anpassbarkeit aus Sicht des Verwenders bzw. der Verwenderin darbietet. Anhand eines fiktiven und eines realen Survey-Datensatzes wird gezeigt, wie Likert-Skalen in R dargestellt und individuell angepasst werden können. Die zugehörigen R-Codes sind im Anschluss an die grafischen Abbildungen beigefügt. 84 7 Dissemination der Ergebnisse <?page no="85"?> Likert-Barplots in R anhand fiktiver Daten (Paket: likertsj) 20% 10% 9% 33% 17% 12% 19% 12% 29% 13% 9% 18% 18% 25% 5% 14% 21% 18% 16% 7% 11% 46% 8% 12% 8% 35% 7% 25% 5% 19% Q1 (n=300) Q2 (n=300) Q3 (n=300) Q4 (n=300) Q5 (n=300) 0% 20% 40% 60% 80% 100% Ich stimme der Aussage gar nicht zu. nicht zu. eher nicht zu. eher zu. zu. voll und ganz zu. Abbildung 20: Likert-Plot (Paket: sj Plot) | Quelle: eigene Darstellung mit RStudio Zunächst wurden für fünf verschiedene fiktive Frage-Items Antwortver‐ teilungen mit selbst definierten relativen Häufigkeiten für jeweils 500 Ausprägungen erstellt. Auf die zusätzliche Kategorie „nicht beantwortet“ bzw. „keine Angabe“ wurde an dieser Stelle verzichtet. Der Befehl erzeugt die in → Abbildung 20 gezeigte Darstellung. Weitere Anpassungen, wie die Schriftfarbe können in dem Befehl leicht manuell angepasst werden. Über den vorgelagerten Befehl set_theme(geom.label.color ="black") können wei‐ tere Anzeigeeigenschaften angepasst werden. Im vorliegenden Fall wurde zur Verdeutlichung die Schriftfarbe schwarz explizit ausgewählt. 7.2 Weitere Darstellungen 85 <?page no="86"?> 6 🔗 https: / / bookdown.org/ Rmadillo/ likert/ (Stand: 05.01.2023) • install.packages("sjPlot") • library(sjPlot) • install.packages("ggrepel") • library(ggrepel) • Daten<data.frame(as.factor(sample(1: 6, 300, replace=T, prob=c(0.2,0.1,0.1,0.3,0.2,0.1))), • as.factor(sample(1: 6, 300, replace=T, prob=c(0.15,0.15,0.3,0.1,0.1,0.2))), • as.factor(sample(1: 6, 300, replace=T, prob=c(0.2,0.25,0.05,0.2,0.2,0.2))), • as.factor(sample(1: 6, 300, replace=T, prob=c(0.2,0.1,0.1,0.4,0.1,0.1))), • as.factor(sample(1: 6, 300, replace=T, prob=c(0.1,0.4,0.1,0.3,0.05,0.15)))) • items <c("Frage1", "Frage2", "Frage3", "Frage4", "Frage5")#Frageitems • colnames(Daten)<-items • levels_Daten <c("Sehr geringe Zustimmung", "Geringe Zustimmung", "Ge‐ ringe bis mittlere Zustimmung", "Mittlere bis hohe Zustimmung ", "Hohe Zustimmung", "Sehr hohe Zustimmung") • set_theme(geom.label.color ="black") • sjPlot: : plot_stackfrq(Daten,legend.labels = levels_Daten,axis.labels = items,ti‐ tle = "") Tabelle 37: R-Code für Likert-Plot anhand fiktiver Werte Liegen hingegen, z. B. aus einer Online-Umfrage Daten vor, müssen diese i. d. R. noch zu einer Datentabelle zusammengefasst werden. Die geschieht über den Befehl cbind(). Hierzu wird aus dem vorliegenden realen Datensatz ds, welcher aus Sosci-Survey importiert wurde, die Variable E103 mit samt ihrer 13 Unterfragen ausgewählt und zu einer Tabelle verbunden und unter dem Namen DatenR abgespeichert. Im Anschluss kann durch den Befehl sjPlot: : plot_stackfrq(DatenR) die → Abbildung 21 aufgerufen werden. Der zugehörige R-Code findet sich in → Tabelle 37. Auch wenn Mittelwerte bei Likert-Skalen des Öfteren entweder direkt („Die durchschnittliche Zustimmung lautet: …“) oder indirekt („Berechnung von Standardabweichungen“) angegeben oder verwendet werden, sollten diese - auf Basis des ordinalen Skalenniveaus - nicht inhaltlich interpretiert, sondern eher für die interne Beurteilung der Qualität des Datensatzes, z. B. für die Berechnung von Cronbachs Alpha genutzt werden. 6 Ausschließlich äquidistante Skalen erlauben es, Likert-Skalen als Verhältnisskala zu inter‐ pretieren (→ Abschnitt 3.2.). 86 7 Dissemination der Ergebnisse <?page no="87"?> 40.0% 40.0% 20.0% 40.0% 60.0% 20.0% 20.0% 20.0% 40.0% 40.0% 60.0% 40.0% 60.0% 40.0% 40.0% 20.0% 40.0% 60.0% 40.0% 60.0% 40.0% 60.0% 40.0% 40.0% 20.0% 40.0% 40.0% 20.0% 60.0% 20.0% 20.0% 80.0% 20.0% R und R−Studio (n=5) Stata (n=5) Python/ Anaconda (n=5) SAS (n=5) GeoDA (n=5) SciDavis (n=5) Statistiklabor (n=5) QGIS (n=5) Easymap (n=5) csv−data analyze (n=5) SPSS/ PSP (n=5) Sonstige1 (n=5) Sonstige2 (n=5) 0% 20% 40% 60% 80% 100% Kenntnisse keine geringe mittlere hohe sehr hohe Abbildung 21: Likert-Barplot zu den Angaben der Programmierkenntnisse der Teilnehmen‐ den einer fiktiven Schulung install.packages("sjPlot") library(sjPlot) -DatenR<-cbind(ds$E103_01,ds$E103_02,ds$E103_03,ds$E103_04,ds$E103_05, ds$E103_06,ds$E103_07,ds$E103_08,ds$E103_09,ds$E103_10,ds$E103_11, ds$E103_12,ds$E103_13) Itemname<-c("R und R-Studio","Stata","Python/ Anaconda","SAS","GeoDA","Sci‐ Davis","Statistiklabor","QGIS","Easymap","csv-data analyze","SPSS/ PSP","Sons‐ tige1","Sonstige2") -sjPlot: : plot_stackfrq(DatenR,legend.labels = c("keine","geringe","mitt‐ lere","hohe","sehr hohe"),axis.labels = Itemname,legend.title = "Kennt‐ nisse",vjust="center") Tabelle 38: R-Code für Likert-Plot zu den Programmierkenntnissen der Teilnehmenden einer fiktiven Schulung 7.2 Weitere Darstellungen 87 <?page no="88"?> 7.2.4 Wordclouds (qualitative Daten) 7.2.4.1 Grundlagen Für offene Frageantworten im Rahmen eines Fragebogens stellt sich die Auswertung mit gängigen Auswertungstools, wie SPSS, R oder Excel sehr komplex dar. Eine Ausnahme bilden Wortnennungen zu ausgewählten Themen, deren Häufigkeiten anhand von sog. Wordclouds dargestellt werden können. Anhand einer txt. oder csv. Datei können die Wörter in R eingelesen und als Wordclouds dargestellt werden. Zunächst wird anhand von → Abbildung 22 die generelle Idee einer Wordcloud veranschaulicht, welche darin besteht, den Wortnennungen gemäß der Häufigkeit ihrer Nennungen spezifische Werte zuzuweisen. Diese stellen die Grundlage für die Größe der abgebildeten Wortnennungen in der Wordcloud dar. Diese Logik kann anhand des nachfolgenden R-Codes sowie der sich hieraus ergebenden Abbildungen nachvollzogen werden. Die der Berechnung der Wortgrößen zugrundeliegende Formel wird ebenfalls kurz erläutert. Die in → Abbildung 22 dargestellten Wörter stellen Aspekte eines fiktiven Arbeitsbereiches aus dem Feld der Bioinformatik dar. Resistance Bioinformatics Correlations Publication Genotyping Graph Gallery Script Statistics Wheat RStudio Biologie Analysis Science Experimentation Writing Linux SBCMV Conference Virus GitHub Computing R Data Surfing Talk Python Fun Reproductible Cereal Data−Science WSSMV Programming Work Abbildung 22: Wordcloud (Bsp.) | Quelle: 🔗 https: / / r-graph-gallery.com/ 15-wordcloud.ht ml, modifiziert 88 7 Dissemination der Ergebnisse <?page no="89"?> 7 Weitere Beispiele, welche u. a. das Paket Wordcloud2 verwenden und eine größere Vielfalt an Darstellungen, z. B. in Sternform ermöglichen, finden Sie unter folgenden Links: 1) 🔗 http: / / www.sthda.com/ english/ wiki/ word-cloud-generator-in-r-one-kille r-function-to-do-everything-you-need, 2) 🔗 https: / / towardsdatascience.com/ create-a -word-cloud-with-r-bde3e7422e8a, 3) 🔗 http: / / www.sthda.com/ english/ wiki/ text-mi ning-and-word-cloud-fundamentals-in-r-5-simple-steps-you-should-know, 4) 🔗 http s: / / www.journaldev.com/ 43942/ word-cloud-r (Stand: 08.05.2022) 8 Ein Beispiel für ein leicht zu handhabendes Tool nennt sich Classic Wordclouds und kann unter der Domain 🔗 https: / / classic.wordclouds.com/ (Stand: 05.01.2023) ausprobiert werden. 7.2.4.2 Einlesen der Daten in R Stammen die Daten aus einer Primärerhebung, z. B. von einer Online-Um‐ frage liegen diese i. d. R. in einer Excel- oder csv.-Datei vor. Die einzelne relevante Spalte, in welcher sich die Wortnennungen befinden, kann in einer separaten Excel-Datei gespeichert werden. In diesem Fall lässt sich die Datei „Wortnennungen“, welchem im nachfolgenden Beispiel lediglich aus der Variable „x“ besteht, in R einlesen und anhand des oben gezeigten Befehls als Wordcloud darstellen. • install.packages(“wordcloud”) • library(wordcloud) • data1 <read.csv ("WorttrennungenMod.csv" , header=TRUE, stringsAsFac‐ tors=FALSE) • wordcloud(data1$x,col=topo.colors(length(Wortnennungen) , alpha=1) , rot.per=0.3) Tabelle 39: R-Code zur Erzeugung einer Wordcloud Alternativ kann auch der komplette Datensatz in R eingelesen und im Anschluss die relevante Variable ausgewählt werden. Sofern der komplette Datensatz bereits in R eingelesen worden ist, kann auf das Einlesen verzichtet und die Variable, welche die Wortnennungen enthält, via der $-Referenzierung ausgewählt werden. 7 Außerdem gibt es auch kostenfreie Online-Tools mit denen Wordclouds ohne viel Aufwand erstellt werden können. Jedoch sind diese in ihren Darstellungsmöglichkeiten begrenzt und spiegeln nicht immer die relative Häufigkeit der Nennungen korrekt wider. 8 7.2 Weitere Darstellungen 89 <?page no="90"?> 7.2.4.3 Hintergrund zur Ermittlung der Größe der Elemente in der Wordcloud Die anzuzeigende Schriftgröße in einer Wordcloud (Si) ermittelt sich einerseits über die durch die Benutzerin bzw. den Benutzer festzulegenden Mindest- und Höchstwerten bzgl. der Schriftgröße (f max , f min ) sowie der auf das Intervall von null bis eins normierten Werte für die Häufigkeiten der Schlagworte (→ Abschnitt 5.1.1.). → Tabelle 40 gibt einen Überblick über die in der Formel verwendeten Variablen. Die Berechnung der für das Wort i benutzten Schriftgröße lautet: S i = f max − f min ⋅ t i − t min t max − t min + f min Variable Bedeutung der Variable S i Anzuzeigende Schriftgröße f max maximale Schriftgröße f min minimale Schriftgröße t i für die Häufigkeit des betreffenden Schlagwortes t min Häufigkeit, ab der ein Schlagwort angezeigt werden soll t max Häufigkeit des häufigsten Schlagwortes Tabelle 40: Wordcloud-Formel-Variablen 90 7 Dissemination der Ergebnisse <?page no="91"?> 8 Abschließende Reflexionen Online-Umfragen finden in vielen wissenschaftlichen Disziplinen Anwen‐ dung, im Rahmen von explorativen Studien oder zur Hypothesenüberprü‐ fung. Ebenso bilden sie die Grundlage von politischen Stimmungsbarome‐ tern und sie somit essenzieller Gegenstand öffentlicher Diskurse. Obwohl die Durchführung in der Regel mit geringer technischer Komplexität, überschaubaren Zeitaufwand durchführbar ist, beschränken sich Ergebnis‐ darstellungen oftmals auf Kreis- und Säulendiagramme. Eben da die Ein‐ trittsschwellen gering sind, bieten sich für viele Anwender: innen Umfragen als regelmäßiges Arbeitswerkezeug an. Mit zunehmender Erfahrung zeigt sich, dass das Potential von Umfragen oftmals „verspielt“ wird, sodass versucht wird, die Fehler in der Folgebefragung nicht zu wiederholen. Durch eine systematische Vorüberlegung kann der Lerneffekt früher eintre‐ ten, wobei der Leitfaden Unterstützung bieten kann, sodass grobe Fehler, z. B. bei der Skalenniveaubestimmung vermieden und der nachträgliche Korrekturaufwand geringgehalten werden kann. Der vorliegende Leitfaden kann behilflich sein, sich vorab die wichtigsten Fragen zu stellen, helfen diese zu beantworten und so das eigene Vorgehen zu strukturieren. Dar‐ über kann im Idealfall viel kostbare Zeit gespart und ein organisationaler Lernprozess angestoßen werden. Gleichzeitig wurden einige methodische Grundlagen, Fallstricke und Lösungsansätze diskutiert, damit der Einstieg in das Themenfeld der Umfragen für Interessierte erleichtert wird. Anhand der vorgestellten Visualisierungsmöglichkeiten mit Excel und R konnte zudem gezeigt werden, welche unmittelbaren Analysemöglichkeiten aus Online-Umfragen auf Basis einfacher deskriptiver Methoden resultieren können. <?page no="93"?> Literaturverzeichnis Bensberg, Gabriele (Hg.) (2015): Dein Weg zum Prüfungserfolg. Berlin, Heidelberg: Springer Berlin Heidelberg. Brooks, Helen; Bee, Penny (2018): Research dissemination and impact. In: Penny Bee, Helen Brooks, Patrick Callaghan und Karina Lovell (Hg.): A research handbook for patient and public involvement researchers: Manchester University Press. Döring, Nicola; Bortz, Jürgen (2016): Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften. Berlin, Heidelberg: Springer Berlin Heidel‐ berg. Jensen, Uwe (2012): Leitlinien zum Management von Forschungsdaten: sozialwis‐ senschaftliche Umfragedaten (GESIS technical reports, 07/ 2012). Online verfüg‐ bar unter https: / / www.deutsche-digitale-bibliothek.de/ item/ 7VKO7L22JLTTPP MLAOBMX5Z3RCNGR3Y4. Kohn, Wolfgang; Öztürk, Riza (2016): Statistik für Ökonomen. Datenanalyse mit R und SPSS. 3. Aufl. 2017. Berlin, Heidelberg: Springer Berlin Heidelberg (Sprin‐ ger-Lehrbuch). Online verfügbar unter: http: / / nbn-resolving.org/ urn: nbn: de: bsz: 31-epflicht-1536054. Lienert, Gustav A. (1998): Testaufbau und Testanalyse. 6. Auflage. Weinheim: Beltz Psychologie Verlags Union. Little, Roderick J. A. (1988): A Test of Missing Completely at Random for Multivariate Data with Missing Values. In: Journal of the American Statistical Association 83 (404), S.-1198. DOI: 10.2307/ 2290157. Mittag, Hans-Joachim (2011): Statistik. Berlin, Heidelberg: Springer Berlin Heidel‐ berg. Moosbrugger, Helfried; Kelava, Augustin (Hg.) (2020): Testtheorie und Fragebogen‐ konstruktion. Springer-Verlag GmbH. 3., vollständig neu bearbeitete, erweiterte und aktualisierte Auflage. Berlin, Heidelberg: Springer (Lehrbuch). Online ver‐ fügbar unter: http: / / www.springer.com/ . Porst, Rolf (2014): Fragebogen. Ein Arbeitsbuch. 4., erw. Aufl. Wiesbaden: Springer VS (Studienskripten zur Soziologie). Soliman, Kariem; Fischer, Jörg; Hilse-Carstensen, Theresa; Huber, Stefan; Döbel, Inga (2022): Zukunft der kommunalen Planung - Lernen aus Krise(n). Hg. v. IKPE Institut für kommunale Planung und Entwicklung e.-V. An-Instiut der FH Erfurt (IKPE). Erfurt. Online verfügbar unter: https: / / www.ikpe-erfurt.de/ wp-content/ u ploads/ 2022/ 11/ IKPE-A4-Broschuere-Studie-Kommunale-Planung-web.pdf <?page no="94"?> Stegmann, Tim (2020): Arbeitspapier Armutsbekämpfung und Sozialplanung - Lebenslagen in Sozialräumen auf einen Blick: Indizes in der kommunalen Bericht‐ erstattung. Arbeitshilfe für Kommunen und Träger. Bottrop. Urban, Dieter; Mayerl, Jochen (2011): Regressionsanalyse: Theorie, Technik und Anwendung. Wiesbaden: VS Verlag für Sozialwissenschaften. Völkl, Kerstin; Korb, Christoph (2018): Deskriptive Statistik. Wiesbaden: Springer Fachmedien Wiesbaden. 94 Literaturverzeichnis <?page no="95"?> Register 5-Punkteskala-20, 23 Abbildungen-70f. Abstraktheit-13 Akquieszenz-57 Antwortformate-23 Antworttypen-23, 27 Auswertungsphase-16 Balkendiagramm-72 Bearbeitungszeit-53 Befragung, Prozessabfolge-15 Boxplot-74 Codebook-45 Daten, Auswertung-11, 61 Daten, Bereinigung-48 Daten, unvollständig-53 dialektische These-14 diskretes Merkmal-19 diskrete Variable-18 Dissemination-69 Einleseprozess der Daten-45 Eliminierung-48, 50 Ergebnisse-69 Erkenntnisgewinnung-11 Excel-30, 39 Excel, Daten einlesen-45 Fehler-24, 50 untypisches Antwortverhalten-56 unvollständiger Datensatz-53 Filterfragen-24 Fragebogenentwicklung-15 Fragebogenqualität-56 Genauigkeit-13 geschlossene, Antworten-23 halboffene Antworten-23 häufbare Merkmale-18 Heatmaps-27 Index, additiver-35 Index, einfacher-35, 37, 39, 43 Index, mehrstufiger-43 Inkommensurabilitätsthese-13 Interpretation-61 komplementärer Ansatz-14 Komplementaritätsthese-14 Kreisdiagramm-73 Labeling-67 Likert-Barplots-85 Likert-Skala-20 Likert-Skala, Darstellung-81 Lückentexte-23 Mehrebenenplot-79 Merkmale-19 metrische Variablen-19 Mittelwert-29 Mittelwert, gewichtet-36 Mixed-Methods-Ansatz-13 <?page no="96"?> Netzdiagramm-77 Nominalskala-19 Normierung-27 Normierung, Excel-30 Normierung, R-31 offene Antworten-23 Ordinalskala-19 Pfadabhängigkeiten-11 Pivot-Tabelle-62 Pivot-Tabelle“-64 Pretestphase-16 Qualität-61 qualitative Fragen-23 quantitative Fragen-23 quantitative Sicht-14 R-31 R, Daten einlesen-46 Reflexionen-91 Reichweite der Ergebnisse-70 RStudio-46 Rückreferenzierung-24 Satisficing-56 Säulendiagramm-71 Scatterplot-76 Schieberegler-20, 23 Skalenniveau-17f., 21, 33 Software-30, 39, 45 Sosci-Survey-45, 58 soziale Erwünschtheit-56 Spider Plot-77 Spineplot-79 Standardabweichung-29 stetige Variable-18 Straightlining-55 Teilauswertung-69 Teildatensätze-58f., 67 Teilgruppen-58 Tendenz zur Mitte-57 Textfelder-23 Transformation-29 Umcodierung von Variablen-67 Umsetzungsphase-15 Unvollständigkeit-54 Variablen-18 verzerrtes Ergebnis-48 Vorauswahl-58 Vorbereitungsphase-15 Wordcloud-88, 90 Zentrierung, Excel-30 Zielgruppe-55 z-Standardisierung, R-32 z-Standardisierung, zweifache-39 z-Werte, Interpretation-41 96 Register <?page no="97"?> Abbildungsverzeichnis Abbildung 1: Beispiel eines Mixed-Methods-Befragungsdesigns einschließlich eines partizipativen Beteiligungsprozesses | Quelle: Soliman et al. (2022) 15 Abbildung 2: Haushaltseinkommen vs. Normierte Werte . . . . . . . . 32 Abbildung 3: Z-Werte | Quelle: eigene Darstellung und Berechnung mit RStudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Abbildung 4: Sosci-Survey-Einlesen in Excel | Quelle: 🔗 https: / / w ww.soscisurvey.de/ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Abbildung 5: Sosci-Survey-Einlesen in R . . . . . . . . . . . . . . . . . . . . . 47 Abbildung 6: Sosci-Survey-Teildatensätze . . . . . . . . . . . . . . . . . . . . . 59 Abbildung 7: Zufriedenheit nach Einkommen (fiktives Beispiel) | Quelle: eigene Darstellung und Berechnung mit Rstudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 Abbildung 8: Anwendung der ZÄHLENWENN()-Funktion in Excel | Quelle: eigene Darstellung mit MS Excel . . . . . . . . . 63 Abbildung 9: Excel-Pivot-Tabelle Einstellungen | Quelle: eigene Darstellung mit MS Excel . . . . . . . . . . . . . . . . . . . . . . . 65 Abbildung 10: Pivot-Tabelle: Stufe1 (links) und Stufe 2(rechts) | Quelle: eigene Darstellung mit MS Excel . . . . . . . . . . 66 Abbildung 11: Einkommensklassen nach Geschlecht (fiktive Werte) - Säulendiagramm | Quelle: eigene Darstellung mit RStudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Abbildung 12: Einkommensklassen nach Geschlecht (fiktive Werte) - Balkendiagramm | Quelle: eigene Darstellung mit RStudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Abbildung 13: Kreisdiagramm | Quelle: eigene Darstellung mit RStudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Abbildung 14: Boxplot (Das Beispiel stammt aus der IKPE- Studie Zukunft der kommunalen Planung - Lernen aus Krise(n)) | Quelle: eigene Darstellung mit RStudio . . 75 Abbildung 15: Scatterplot zu der Gesamtdauer der Beschäftigung (in Monaten) und der durchschnittlichen wöchentlichen Arbeitszeit (in Stunden) | Quelle: eigene Darstellung mit RStudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 <?page no="98"?> Abbildung 16: Zentrierte Werte für zu geringen BMI nach ausgewählten LK/ Städten in Thüringen | Quelle: eigene Darstellung mit MS Excel . . . . . . . . . . . . . . . . . 77 Abbildung 17: Verteilungsabhängiger Gesamtindex aus zwei Indikatoren | Quelle: eigene Darstellung mit MS Excel 78 Abbildung 18: Spineplot für das Alter (klassiert) und das Geschlecht | Quelle: eigene Darstellung mit RStudio . . . . . . . . . . 80 Abbildung 19: 5 Likert-Skalen dargestellt anhand eines gestapelten Balkendiagramms | Quelle: eigene Darstellung mit RStudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 Abbildung 20: Likert-Plot (Paket: sj Plot) | Quelle: eigene Darstellung mit RStudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 Abbildung 21: Likert-Barplot zu den Angaben der Programmierkenntnisse der Teilnehmenden einer fiktiven Schulung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 Abbildung 22: Wordcloud (Bsp.) | Quelle: 🔗 https: / / r-graph-gallery. com/ 15-wordcloud.html, modifiziert . . . . . . . . . . . . . . . 88 98 Abbildungsverzeichnis <?page no="99"?> Tabellenverzeichnis Tabelle 1: Prozessschritte einer Umfrage | Quelle: eigene Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Tabelle 2: Von der Grundgesamtheit zur Merkmalsausprägung | Quelle: Kohn und Öztürk 2016, S.-14, modifiziert . . . . . 18 Tabelle 3: Skalenniveaus und mögliche Operationen | Quelle: Mittag (2011, S.-16), modifiziert . . . . . . . . . . . . . . . . . . . . . 20 Tabelle 4: Lage- und Streuungsmaße nach Skalenniveau | Quelle: eigene Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Tabelle 5: Antworttypen für Umfragen | Quelle: eigene Darstellung 23 Tabelle 6: Durchschnittliches Einkommen Musterstadt (in Euro) | Quelle: eigene Darstellung . . . . . . . . . . . . . . . . . . . . . . . . 28 Tabelle 7: Normierte Werte | Quelle: eigene Darstellung und Berechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Tabelle 8: Bildung Standardisierter Werte |-Quelle: eigene Darstellung und Berechnung |- . . . . . . . . . . . . . . . . . . . . . 29 Tabelle 9: R-Code für die Zusammenfassung zu Klassenwerten | Quelle: eigene Darstellung mit RStudio . . . . . . . . . . . . . . 31 Tabelle 10: Umkodierung in R | Quelle: eigene Darstellung . . . . . . . 32 Tabelle 11: Index-Typen | Quelle: eigene Darstellung . . . . . . . . . . . . 34 Tabelle 12: Zweifache Standardisierung (Schritt1) | Quelle: Stegmann 2020, S.-8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Tabelle 13: Zweifache Standardisierung (Schritte 1 und 2) | Quelle: Stegmann 2020, S.-9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Tabelle 14: Berechnung gewichteter Werte mit Excel | Quelle: eigene Darstellung und Berechnung mit MS Excel . . . . . . . . . . . 39 Tabelle 15: Beispiel für zweifache z-Standardisierung in Excel (Schritt 1) | . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Tabelle 16: Beispiel für zweifache z-Standardisierung in Excel (Schritt2) | . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Tabelle 17: Beispiel für zweifache z-Standardisierung in Excel (Schritt 3) | . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Tabelle 18: Faustregeln zur Interpretation der z-Werte | Quelle: eigene Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 <?page no="100"?> Tabelle 19: Datenstrukturtabelle einer Umfrage mit ausschl. vollständigen Antworten | Quelle: eigene Darstellung . 48 Tabelle 20: Datenstrukturtabelle einer Umfrage mit fehlenden Werten (NA’s) in den Antworten | Quelle: eigene Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Tabelle 21: Datenstrukturtabelle einer Umfrage mit fehlenden Werten (NA’s) (Zeilenweise Eliminierung) | Quelle: eigene Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Tabelle 22: Datenstrukturtabelle einer Umfrage mit fehlenden Werten (NA’s) (Spaltenweise Eliminierung) | Quelle: eigene Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Tabelle 23: Datenstrukturtabelle ohne fehlende Werte (bereinigter Datensatz) | Quelle: eigene Darstellung . . . . . . . . . . . . . . 52 Tabelle 24: Zeitvariablen für die Dauer der Bearbeitung in Sosci-Survey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 Tabelle 25: Fiktive Antwortverteilung für eine 4 Punkte Likert-Skala (Originalwerte) | Quelle: eigene Darstellung . . . . . . . . . . 62 Tabelle 26: Fiktive Antwortverteilung mit Kategorien anstelle von Zahlencodes | Quelle: eigene Darstellung . . . . . . . . . . . . 63 Tabelle 27: Finale Tabellenstruktur der 4 Punkte Likert-Skala | Quelle: eigene Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . 64 Tabelle 28: R-Codes | Quelle: eigene Darstellung . . . . . . . . . . . . . . . 67 Tabelle 29: R-Code Säulen bzw. Balkendiagramm . . . . . . . . . . . . . . . 73 Tabelle 30: R-Code Kreisdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Tabelle 31: R-Code Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 Tabelle 32: R-Code Scatterplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Tabelle 33: Bivariate Häufigkeitsverteilung (fiktives Beispiel) | Quelle: eigene Darstellung und Berechnung . . . . . . . . . . 79 Tabelle 34: R-Code für Spineplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 Tabelle 35: Big Five Datensatz in R und Erläuterung | Quelle: 🔗 ht tps: / / www.personality-project.org/ r/ html/ bfi.html, eigene Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Tabelle 36: R-Code zur Darstellung kombinierter Frage-Items (Likert-Skalen) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 Tabelle 37: R-Code für Likert-Plot anhand fiktiver Werte . . . . . . . . . 86 Tabelle 38: R-Code für Likert-Plot zu den Programmierkenntnissen der Teilnehmenden einer fiktiven Schulung . . . . . . . . . . 87 Tabelle 39: R-Code zur Erzeugung einer Wordcloud . . . . . . . . . . . . . 89 100 Tabellenverzeichnis <?page no="101"?> Tabelle 40: Wordcloud-Formel-Variablen . . . . . . . . . . . . . . . . . . . . . . . 90 Tabellenverzeichnis 101 <?page no="102"?> Bisher sind erschienen: Ulrich Sailer Digitalisierung im Controlling Transformation der Unternehmenssteuerung durch die Digitalisierung 2023, 104 Seiten €[D] 17,90 ISBN 978-3-381-10301-0 Michael von Hauff Wald und Klima Aus der Perspektive nachhaltiger Entwicklung 2023, 85 Seiten €[D] 17,90 ISBN 978-3-381-10311-9 Ralf Hafner Unternehmensbewertung 2024, 133 Seiten €[D] 19,90 ISBN 978-3-381-11351-4 Irene E. Rath / Wilhelm Schmeisser Internationale Unternehmenstätigkeit Grundlagen, Führung, Organisation 2024, 175 Seiten €[D] 19,90 ISBN 978-3-381-11231-9 Reinhard Hünerberg / Matthias Hartmann Technologische Innovationen Steuerung und Vermarktung 2024, 152 Seiten €[D] 19,90 ISBN 978-3-381-11291-3 Ulrich Sailer Klimaneutrale Unternehmen Management, Steuerung, Technologien 2024, 130 Seiten €[D] 19,90 ISBN 978-3-381-11341-5 Oˇ guz Alaku¸ s Basiswissen Kryptowährungen 2024, 79 Seiten €[D] 17,90 ISBN 978-3-381-11381-1 Uta Kirschten Personalmanagement: Gezielte Maßnahmen zur langfristigen Personalbindung 2024, 159 Seiten €[D] 19,90 ISBN 978-3-381-12151-9 nuggets Die Reihe nuggets behandelt anspruchsvolle Themen und Trends, die nicht nur Studierende beschäftigen. Expert: innen erklären und vertiefen kompakt und gleichzeitig tiefgehend Zusammenhänge und Wissenswertes zu brandneuen und speziellen Themen. Dabei spielt die richtige Balance zwischen gezielter Information und fundierter Analyse die wichtigste Rolle. Das Besondere an dieser Reihe ist, dass sie fachgebiets- und verlagsübergreifend konzipiert ist. Sowohl der Narr-Verlag als auch expert- und UVK-Autor: innen bereichern nuggets. <?page no="103"?> Kariem Soliman Leitfaden Onlineumfragen Zielsetzung, Fragenauswahl, Auswertung und Dissemination der Ergebnisse 2024, 102 Seiten €[D] 19,90 ISBN 978-3-381-11961-5 Oˇ guz Alaku¸ s Das Prinzip von Kryptowährungen und Blockchain 2024, 133 Seiten €[D] 19,90 ISBN 978-3-381-12211-0 Eckart Koch Interkulturelles Management Managementkompetenzen für multikulturelle Herausforderungen 2024, 118 Seiten €[D] 19,90 ISBN 978-3-381-11801-4 Margareta Kulessa Die Konzeption der Sozialen Marktwirtschaft Ziele, Prinzipien und Herausforderungen 2024, 113 Seiten €[D] 19,90 ISBN 978-3-381-11411-5 <?page no="104"?> ISBN 978-3-381-11961-5 M. Sc. Kariem Soliman ist Referent im Bereich Öffentliche Finanzen beim Thüringer Landesamt für Statistik. Nach dem Studium an der Universität Potsdam war er dort und an der Hochschule Ruhr West (VWL, Wirtschaftsstatistik mit R) Wissenschaftlicher Mitarbeiter. Onlineumfragen richtig gestalten, anwenden und auswerten Im Studium und in der Forschung aber auch in Unternehmen und nicht zuletzt in der Verwaltung helfen Onlineumfragen dabei, wichtige Erkenntnisse zu gewinnen. Kariem Soliman berücksichtigt in diesem Leitfaden die wichtigsten Aspekte einer Onlineumfrage. Er verrät, was bei der Zielsetzung zu beachten ist, und er hilft bei der Fragenauswahl. Auch auf die Auswertung und die Veröffentlichung der Ergebnisse geht er ein. Zahlreiche Abbildungen, Tabellen und Beispiele helfen beim Verständnis. Das Hauptaugenmerk des Leitfadens liegt auf der Verbindung zwischen Fragebogenitems und der Auswertung mit Excel und der Statistiksoftware R. Kurzum: Der kompakte Leitfaden ist ideal für Studierende, Wissenschaftler: innen und Praktiker: innen, die im Rahmen ihrer Arbeit auf Onlineumfragen setzen.