Marktforschung
Methoden – Anwendungen – Praxisbeispiele
0619
2023
978-3-8385-8816-2
978-3-8252-8816-7
UTB
Claudia Fantapie Altobelli
10.36198/9783838588162
Das relevante Know-how verständlich erklärt
Trends und Risiken früh erkennen, das ist ein wichtiges Ziel der Marktforschung. Das Buch stellt hierfür Methoden und Anwendungsgebiete vor, angefangen mit der Planung bis hin zur Durchführung der Erhebung. Es berücksichtigt dabei quantitative wie auch qualitative Forschungsmethoden und setzt sich zudem mit digitalen Medien, Big Data und ethischen Fragen auseinander.
Die Produkt-, Werbe- und Preisforschung werden überdies ausführlich thematisiert. Neu in der 4. Auflage ist ein Kapitel zur Shopper Research.
Das Buch richtet sich gleichermaßen an Studierende und Wissenschaftler:innen der Wirtschafts- und Sozialwissenschaften sowie an Praktiker:innen. Verständlichkeit und Nachvollziehbarkeit der Inhalte stehen deswegen im Vordergrund.
<?page no="0"?> Marktforschung 4. A. Fantapié Altobelli Dies ist ein utb-Band aus dem UVK Verlag. utb ist eine Kooperation von Verlagen mit einem gemeinsamen Ziel: Lehr- und Lernmedien für das erfolgreiche Studium zu veröffentlichen. Das relevante Know-how verständlich erklärt Trends und Risiken früh erkennen, das ist ein wichtiges Ziel der Marktforschung. Das Buch stellt hierfür Methoden und Anwendungsgebiete vor, angefangen mit der Planung bis hin zur Durchführung der Erhebung. Es berücksichtigt dabei quantitative wie auch qualitative Forschungsmethoden und setzt sich zudem mit digitalen Medien, Big Data und ethischen Fragen auseinander. Die Produkt-, Werbe- und Preisforschung werden überdies ausführlich thematisiert. Neu in der 4. Auflage ist ein Kapitel zur Shopper Research. Das Buch richtet sich gleichermaßen an Studierende und Wissenschaftler: innen der Wirtschafts- und Sozialwissenschaften sowie an Praktiker: innen. Verständlichkeit und Nachvollziehbarkeit der Inhalte stehen deswegen im Vordergrund. Wirtschafts- und Sozialwissenschaften utb.de QR-Code für mehr Infos und Bewertungen zu diesem Titel ISBN 978-3-8252-8816-7 für Studium und Praxis Claudia Fantapié Altobelli Marktforschung Methoden - Anwendungen - Praxisbeispiele 4. Auflage 8816-7_Altobelli_L-GEB_8342_15mm_Einschlag_3mm_BeschnittPRINT.indd Alle Seiten 8816-7_Altobelli_L-GEB_8342_15mm_Einschlag_3mm_BeschnittPRINT.indd Alle Seiten 10.05.23 11: 03 10.05.23 11: 03 <?page no="1"?> utb 8342 Eine Arbeitsgemeinschaft der Verlage Brill | Schöningh - Fink · Paderborn Brill | Vandenhoeck & Ruprecht · Göttingen - Böhlau · Wien · Köln Verlag Barbara Budrich · Opladen · Toronto facultas · Wien Haupt Verlag · Bern Verlag Julius Klinkhardt · Bad Heilbrunn Mohr Siebeck · Tübingen Narr Francke Attempto Verlag - expert verlag · Tübingen Psychiatrie Verlag · Köln Ernst Reinhardt Verlag · München transcript Verlag · Bielefeld Verlag Eugen Ulmer · Stuttgart UVK Verlag · München Waxmann · Münster · New York wbv Publikation · Bielefeld Wochenschau Verlag · Frankfurt am Main <?page no="2"?> Prof. Dr. Claudia Fantapié Altobelli lehrt an der Helmut-Schmidt-Universität - Universität der Bundeswehr Hamburg. <?page no="3"?> Claudia Fantapié Altobelli Marktforschung Methoden, Anwendungen, Praxisbeispiele 4., überarbeitete und erweiterte Auflage UVK Verlag · München <?page no="4"?> 4., überarbeitete und erweiterte Auflage 2023 3., vollständig überarbeitete Auflage 2017 2., überarbeitete und erweiterte Auflage 2011 1. Auflage 2007 DOI: https: / / doi.org/ 10.36198/ 9783838588162 © UVK Verlag 2023 ‒ ein Unternehmen der Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 · D-72070 Tübingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikro‐ verfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Alle Informationen in diesem Buch wurden mit großer Sorgfalt erstellt. Fehler können dennoch nicht völlig ausgeschlossen werden. Weder Verlag noch Autor: innen oder Herausgeber: innen übernehmen deshalb eine Gewährleistung für die Korrektheit des Inhaltes und haften nicht für fehlerhafte Angaben und deren Folgen. Diese Publikation enthält gegebenenfalls Links zu externen Inhalten Dritter, auf die weder Verlag noch Autor: innen oder Herausgeber: innen Einfluss haben. Für die Inhalte der verlinkten Seiten sind stets die jeweiligen Anbieter oder Betreibenden der Seiten verantwortlich. Internet: www.narr.de eMail: info@narr.de Einbandgestaltung: siegel konzeption | gestaltung CPI books GmbH, Leck utb-Nr. 8342 ISBN 978-3-8252-8816-7 (Print) ISBN 978-3-8385-8816-2 (ePDF) Umschlagabbildung: © Jirapong Manustrong ∙ iStock Autorinnenbild: © Ulrike Schröder ∙ Helmut-Schmidt-Universität Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http: / / dnb.dnb.de abrufbar. www.fsc.org MIX Papier aus verantwortungsvollen Quellen FSC ® C083411 ® <?page no="5"?> VVoorrwwoorrtt zzuurr 44.. AAuuffllaaggee Das erstmals 2007 in der ersten Auflage erschienene Buch entstand aus dem Wunsch heraus, Studierende und Praktiker mit den wichtigsten Methoden und Anwendungsfeldern der Marktforschung vertraut zu machen. Studierende erhalten einen Überblick über die gängigen Methoden der Marktforschung und können anhand des Buches entsprechende Lehrveranstaltungen vor- und nachbereiten. Zudem werden sie dabei unterstützt, eigene Erhebungen durchzuführen, z.B. im Rahmen von Abschlussarbeiten. Marketingpraktiker erhalten Anregungen und methodische Unterstützung für die Durchführung, Beauftragung, aber auch für die kritische Bewertung von Marktforschungsstudien. Im Vergleich zur vierten Auflage wurde das Buch aktualisiert und u.a. um ein Kapitel „Shopper Research“ ergänzt. Darüber hinaus wurden Themen wie Vignettenanalyse und Metaanalyse aufgenommen. Die Struktur des Buches wurde überarbeitet und etwas entzerrt, um die Übersichtlichkeit zu erhöhen, sie wurde jedoch im Wesentlichen im Vergleich zur 3. Auflage beibehalten. Wie bereits in den früheren Auflagen wird versucht, die Darstellung für die Leserinnen und Leser verständlich und nachvollziehbar zu halten. Aus diesem Grunde werden sämtliche Verfahren anhand konkreter Beispiele erläutert. Gerade bei den Verfahren der Datenanalyse werden die Methoden Schritt für Schritt erklärt, um die Leserinnen und Leser nicht zu überfrachten. Nichtsdestotrotz können im Rahmen dieses Buches nur die grundlegenden Verfahren dargestellt werden - für eine tiefergehende Auseinandersetzung wird auf die umfangreiche Spezialliteratur verwiesen. Auch in dieser Auflage werden die wichtigsten Methoden und Anwendungsgebiete im Marketing durch ausgewählte Beispiele aus der Marktforschungspraxis illustriert, anhand derer die Leserinnen und Leser spannende Einblicke in die praktische Arbeit von Marktforschungsinstituten gewinnen können. Mein Dank gilt hier allen Marktforschungsinstituten, die mir bereitwillig Informationsmaterialien zur Verfügung gestellt haben. Bedanken möchte ich mich ganz herzlich auch bei meinen Mitarbeiterinnen und Mitarbeitern für die zahlreichen kritischen Anmerkungen, die wesentlich zur Verbesserung des Manuskripts beigetragen haben. Auch mehrere Kolleginnen und Kollegen haben wertvolle Anregungen beigesteuert. Mein besonderer Dank gilt Herrn Dipl. oec. Rainer Berger (UVK Verlag) für die wie immer tolle Zusammenarbeit. Hamburg, im März 2023 Claudia Fantapié Altobelli VVoorrwwoorrtt zzuurr 11.. AAuuffllaaggee Marketingentscheidungen ohne verlässliche Informationsgrundlagen sind notgedrungen fehlerhaft; eine methodisch fundierte Marktforschung ist daher für jedes Unternehmen unverzichtbar - unabhängig davon, ob das Unternehmen Marktforschungsaktivitäten selbst durchführt oder einem Marktforschungsinstitut im Auftrag gibt. <?page no="6"?> 6 Vorwort zur 1. Auflage Das vorliegende Buch entstand aus dem Wunsch heraus, sowohl Studierende als auch Praktiker mit den wesentlichen Methoden und Anwendungsgebieten der Marktforschung vertraut zu machen. Im ersten Teil des Buches wird zunächst auf Gegenstand und Bedeutung der Marktforschung eingegangen. Der zweite Teil widmet sich der Planung einer Erhebung. Dazu gehören insb. die Bereiche Wahl des Forschungsansatzes, Festlegung des Auswahlplans, Wahl des Datenerhebungsverfahrens. Gegenstand des dritten Teils ist die Durchführung der Erhebung mit den Teilbereichen Datensammlung, Datenauswertung und Interpretation der Ergebnisse. Im vierten Teil werden anschließend die gebräuchlichsten Prognoseverfahren im Marketing dargelegt. Schließlich widmet sich der fünfte Teil ausgewählten Anwendungsgebieten der Marktforschung: Produktforschung, Werbeforschung und Preisforschung. Bei der gesamten Darstellung wurde auf Verständlichkeit und Nachvollziehbarkeit der Ausführungen Wert gelegt. Aus diesem Grunde werden sämtliche dargestellten Verfahren durch geeignete Beispiele erläutert. Darüber hinaus werden die wichtigsten Methoden und Anwendungsgebiete durch konkrete Beispiele aus der Marktforschungspraxis illustriert, anhand derer der Leser Einblicke in die praktische Arbeit von Marktforschungsinstituten gewinnen kann. Anders als in den meisten Lehrbüchern zu dieser Thematik wurde die qualitative Marktforschung explizit und umfassend behandelt. Dies folgt der Erkenntnis insb. aus der Marktforschungspraxis, dass viele Fragestellungen im Marketing - vor allem im Zusammenhang mit psychologischen Konstrukten - durch quantitative Forschungsansätze nicht adäquat abgebildet werden können. Ein derart umfassendes Werk kann nicht ohne kräftige Unterstützung entstehen. Mein Dank gilt den vielen Marktforschungsinstituten, welche nicht nur bereitwillig Informationsmaterial zugeschickt haben, sondern auch zu persönlichen Gesprächen bereit waren. Stellvertretend seien hier A.C. Nielsen, GfK, Naether Marktforschung, Schaefer Marktforschung, TNS Infratest, Wegener Marktforschung genannt. Danken möchte ich natürlich auch meinen Mitarbeitern für zahlreiche kritische Anmerkungen und konstruktive Gespräche: Dr. Thorsten Granzow, Dipl.-Kfm. Sebastian Binger, Dipl.-Kfm. Sascha Hoffmann. Meine studentischen Hilfskräfte, Dipl.-Kfm. Constantin Hoya, Dipl.- Kfm. Robert Kramer, Dipl-Kffr. Nicole Hegner, Dipl. Soz. Tzvetomira Daskalova, cand. rer. pol. Silja Spijkers und cand. rer. pol. Christoph Zlobinski, haben in mühsamer Kleinarbeit viele Abbildungen erstellt und die formale Überprüfung des Manuskripts übernommen. Herr Dipl.-Kfm. Daniel Nolte hat dankenswerterweise zahlreiche Praxisbeispiele im Bereich der qualitativen Marktforschung zusammengetragen. Frau Barbara Naziri hat mit gewohntem Engagement nicht nur das Manuskript erstellt, sondern auch zahlreiche Abbildungen gestaltet. Herrn Dr. Wulf von Lucius (v. Lucius u. v. Lucius Verlagsgesellschaft) gilt mein herzlicher Dank für die wie immer reibungslose Zusammenarbeit. Nicht zuletzt möchte ich dem gesamten Team der Kita „Piratenschiff“ danken, insb. Frau Sieglinde Freuer, Frau Leane Bettin, Frau Ramona Eckert, Frau Antje Schäfers. Ohne sie hätte ich nicht die geringste Chance gehabt, das Buch fertig zu stellen. Mein allergrößter Dank gilt meinen Kindern Philip und Dominik sowie meinem Ehemann Matthias, die während der gesamten Entstehungszeit des Buches erfolgreich verhindern konnten, dass ich mich auch an Wochenenden damit beschäftigte; dadurch konnten sie einen erheblichen Beitrag zur Normalität des Alltags leisten. Ihnen sei dieses Buch gewidmet. Hamburg, im Oktober 2006 Claudia Fantapié Altobelli <?page no="7"?> IInnhhaallttssvveerrzzeeiicchhnniiss TTeeiill 11: : GGrruunnddllaaggeenn ................................................................................................................ 13 1 Marktforschung als Managementaufgabe.................................................. 13 1.1 Informationsbedarf für Marketingentscheidungen.......................................... 13 1.2 Charakterisierung und Arten der Marktforschung........................................... 16 1.3 Ziele und Rahmenbedingungen der Marktforschung ..................................... 18 1.4 Prozess der Marktforschung................................................................................ 19 2 Träger der Marktforschung ............................................................................. 23 2.1 Betriebliche Marktforschung ............................................................................... 23 2.2 Institutsmarktforschung ....................................................................................... 28 2.3 Sonstige Träger der Marktforschung.................................................................. 30 3 Forschungsansätze in der Marktforschung................................................ 33 3.1 Explorative Studien ............................................................................................... 33 3.2 Deskriptive Studien ............................................................................................... 35 3.3 Kausale Studien...................................................................................................... 37 4 Ethik in der Marktforschung .......................................................................... 39 4.1 Datenschutz............................................................................................................ 39 4.2 Berufsethische Prinzipien..................................................................................... 40 TTeeiill 22: : SSeekkuunnddäärr" LLiitteerraattuurr-uunndd MMeettaaaannaallyysseenn ....................................................... 45 1 Sekundärforschung ............................................................................................ 45 1.1 Charakterisierung der Sekundärforschung ........................................................ 45 1.2 Quellen der Sekundärforschung ......................................................................... 46 1.3 Digitalisierung, Social Media und Big Data....................................................... 50 1.4 Beurteilung der Sekundärforschung ................................................................... 52 2 Literatur- und Metaanalyse ............................................................................. 55 TTeeiill 33: : QQuuaannttiittaattiivvee BBeeffrraagguunngg ......................................................................................... 59 1 Klassifikation und Charakterisierung quantitativer Befragungen ...... 59 <?page no="8"?> 8 Inhaltsverzeichnis 2 Methoden quantitativer Befragung............................................................... 63 2.1 Schriftliche Befragung........................................................................................... 63 2.2 Persönliche Befragung .......................................................................................... 64 2.3 Telefonische Befragung ........................................................................................ 66 2.4 Online-Befragung .................................................................................................. 68 2.5 Mobile Befragung .................................................................................................. 69 3 Gestaltung des Fragebogens........................................................................... 73 3.1 Spezifikation des Informationsbedarfs .............................................................. 73 3.2 Festlegung der Befragungsmethode ................................................................... 74 3.3 Festlegung des Frageninhalts ............................................................................... 74 3.4 Festlegung der Befragungstaktik ......................................................................... 75 3.5 Festlegung der Fragenformulierung und der Antwortmöglichkeiten ........... 82 3.6 Festlegung der Reihenfolge der Fragen und der Länge des Fragebogens ... 92 3.7 Formale Gestaltung des Fragebogens ................................................................ 95 3.8 Fragebogen-Pretest ............................................................................................... 98 4 Messung, Operationalisierung und Skalierung von Variablen ............ 99 4.1 Messung und Messverfahren ............................................................................... 99 4.2 Qualität von Messverfahren............................................................................... 100 4.3 Operationalisierung und Skalierung komplexer Konstrukte........................ 106 TTeeiill 44: : BBeeoobbaacchhttuunngg ........................................................................................................... 123 1 Klassifikation und Charakterisierung von Beobachtungen ................ 123 2 Aufzeichnungsverfahren der Beobachtung .............................................. 129 2.1 Aufzeichnung durch den Beobachter .............................................................. 129 2.2 Apparative Beobachtungsverfahren ................................................................. 130 TTeeiill 55: : PPaanneelleerrhheebbuunnggeenn uunndd KKoohhoorrtteennaannaallyysseenn................................................... 141 1 Klassifikation und Charakterisierung von Panelerhebungen ............. 141 1.1 Abgrenzung und Systematik von Panelerhebungen ...................................... 141 1.2 Handelspanels ...................................................................................................... 142 1.3 Verbraucherpanels............................................................................................... 145 <?page no="9"?> Inhaltsverzeichnis 9 1.4 Spezialpanels......................................................................................................... 146 2 Erhebung und Auswertung von Paneldaten ............................................ 151 2.1 Handelspanels ...................................................................................................... 151 2.2 Verbraucherpanels............................................................................................... 154 3 Methodische Probleme von Panelerhebungen ....................................... 163 3.1 Repräsentativität von Panelergebnissen........................................................... 163 3.2 Validität von Panelergebnissen ......................................................................... 164 4 Kohortenanalysen ............................................................................................. 165 TTeeiill 66: : EExxppeerriimmeennttee ............................................................................................................ 167 1 Klassifikation und Charakterisierung von Experimenten ................... 167 1.1 Merkmale von Experimenten ............................................................................ 167 1.2 Systematik von Experimenten........................................................................... 169 2 Validität von Experimenten .......................................................................... 173 2.1 Interne vs. externe Validität............................................................................... 173 2.2 Die Behandlung von Störgrößen bei experimentellen Designs................... 173 3 Experimentelle Designs ................................................................................. 179 3.1 Notation ................................................................................................................ 179 3.2 Vorexperimentelle Designs................................................................................ 180 3.3 Echte Experimente ............................................................................................. 182 3.4 Quasi-Experimente ............................................................................................. 190 TTeeiill 77: : AAuusswwaahhll ddeerr EErrhheebbuunnggsseeiinnhheeiitteenn ................................................................... 195 1 Vollerhebung vs. Teilerhebung .................................................................... 195 2 Festlegung des Auswahlplans ...................................................................... 197 2.1 Elemente eines Auswahlplans ........................................................................... 197 2.2 Verfahren der nichtzufälligen Auswahl ........................................................... 200 2.3 Verfahren der Zufallsauswahl............................................................................ 204 2.4 Sonstige Verfahren der Stichprobenauswahl .................................................. 217 2.5 Bestimmung des Stichprobenumfangs ............................................................ 219 <?page no="10"?> 10 Inhaltsverzeichnis TTeeiill 88: : DDaatteennssaammmmlluunngg uunndd DDaatteennaauusswweerrttuunngg ...................................................... 223 1 Durchführung und Kontrolle der Feldarbeit............................................ 223 2 Aufbereitung der Daten .................................................................................. 227 3 Datenanalyse ...................................................................................................... 233 3.1 Überblick............................................................................................................... 233 3.2 Verfahren der Datenreduktion.......................................................................... 235 3.2.1 Univariate Verfahren der Datenreduktion ...................................................... 235 3.2.2 Faktorenanalyse ................................................................................................... 252 3.3 Verfahren der Klassifikation.............................................................................. 264 3.3.1 Clusteranalyse ....................................................................................................... 264 3.3.2 Diskriminanzanalyse ........................................................................................... 275 3.3.3 Multidimensionale Skalierung............................................................................ 287 3.4 Verfahren zur Messung von Beziehungen ...................................................... 296 3.4.1 Regressionsanalyse .............................................................................................. 297 3.4.2 Kausalanalyse ....................................................................................................... 309 3.4.3 Varianzanalyse ...................................................................................................... 324 3.4.4 Kontingenzanalyse .............................................................................................. 338 3.4.5 Korrelationsanalyse ............................................................................................. 342 3.5 Verfahren zur Messung von Präferenzen........................................................ 349 3.5.1 Conjointanalyse.................................................................................................... 349 3.5.2 Multidimensionale Skalierung............................................................................ 359 4 Interpretation und Präsentation der Ergebnisse .................................... 361 TTeeiill 99: : QQuuaalliittaattiivvee MMaarrkkttffoorrsscchhuunngg............................................................................... 363 1 Charakterisierung qualitativer Studien ...................................................... 363 2 Qualitative Befragung ..................................................................................... 365 2.1 Methoden qualitativer Befragung...................................................................... 365 2.2 Gestaltung qualitativer Befragungen ................................................................ 382 3 Qualitative Beobachtung ............................................................................... 391 4 Anforderungen an qualitative Messverfahren.......................................... 395 <?page no="11"?> Inhaltsverzeichnis 11 5 Stichprobenbildung bei qualitativen Erhebungen................................. 399 6 Aufbereitung und Auswertung qualitativer Daten................................. 401 6.1 Überblick............................................................................................................... 401 6.2 Qualitative Inhaltsanalyse................................................................................... 401 6.2.1 Grundgedanke der qualitativen Inhaltsanalyse ............................................... 401 6.2.2 Techniken der qualitativen Inhaltsanalyse....................................................... 405 6.2.3 Beurteilung der qualitativen Inhaltsanalyse ..................................................... 407 6.3 Analyse nonverbaler Daten................................................................................ 407 TTeeiill 1100: : AAuussggeewwäähhllttee AAnnwweenndduunnggeenn ddeerr MMaarrkkttffoorrsscchhuunngg .................................. 411 1 Produktforschung............................................................................................. 411 1.1 Gegenstand der Produktforschung .................................................................. 411 1.2 Produktentwicklung ............................................................................................ 412 1.3 Produkttests.......................................................................................................... 414 1.3.1 Arten von Produkttests ...................................................................................... 414 1.3.2 Ausgewählte Testanordnungen der Produktforschung ................................ 418 2 Testmarktuntersuchungen ............................................................................ 427 2.1 Gegenstand von Testmarktuntersuchungen ................................................... 427 2.2 Regionaler Markttest ........................................................................................... 427 2.3 Testmarktsimulation ........................................................................................... 428 2.4 Kontrollierter Markttest ..................................................................................... 430 3 Werbeforschung ................................................................................................ 433 3.1 Gegenstand der Werbeforschung ..................................................................... 433 3.2 Werbeträgerforschung ........................................................................................ 434 3.2.1 Gegenstand der Werbeträgerforschung........................................................... 434 3.2.2 Kennziffern der Werbeträgerforschung .......................................................... 436 3.3 Werbemittelforschung ........................................................................................ 438 3.3.1 Überblick............................................................................................................... 438 3.3.2 Werbemittelpretests ............................................................................................ 440 3.3.3 Werbemittelposttests........................................................................................... 445 4 Preisforschung ................................................................................................... 447 <?page no="12"?> 12 Inhaltsverzeichnis 4.1 Gegenstand der Preisforschung ........................................................................ 447 4.2 Ermittlung der Akzeptanz von Preisen ........................................................... 447 4.3 Ermittlung von Reaktionen auf Preisänderungen.......................................... 451 4.3.1 Ermittlung auf der Grundlage von Kaufdaten ............................................... 451 4.3.2 Ermittlung auf der Grundlage von Befragungen ........................................... 454 4.3.3 Ermittlung auf der Grundlage von Kaufangeboten ...................................... 456 4.4 Ermittlung der Zahlungsbereitschaft bei unterschiedlicher Produktausstattung.............................................................................................. 459 5 Shopper Research ............................................................................................. 463 5.1 Gegenstand des Shopper Research .................................................................. 463 5.2 Shopper Research in der Vorkaufphase .......................................................... 467 5.3 Shopper Research in der Kaufphase ................................................................ 469 5.4 Shopper Research in der Nachkaufphase........................................................ 473 SSttaattiissttiisscchhee TTaabbeelllleenn ......................................................................................................... 477 LLiitteerraattuurrvveerrzzeeiicchhnniiss ........................................................................................................... 483 SSaacchhvveerrzzeeiicchhnniiss................................................................................................................... 503 <?page no="13"?> TTeeiill 11: : GGrruunnddllaaggeenn 11 M Maarrkkttffoorrsscchhuunngg aallss MMaannaaggeemmeennttaauuffggaabbee 11..11 IInnffoorrmmaattiioonnssbbeeddaarrff ffüürr MMaarrkkeettiinnggeennttsscchheeiidduunnggeenn Rationales betriebswirtschaftliches Handeln setzt das Treffen von Entscheidungen voraus; diese wiederum erfordern die Berücksichtigung entscheidungsrelevanter Informationen. Damit wird deutlich, dass der betrieblichen Informationswirtschaft innerhalb der Unternehmensführung eine entscheidende Rolle zukommt. So muss eine rationale und zielgerichtete Unternehmensplanung systematisch von Informationsprozessen begleitet werden. Dabei werden Informationen zum einen zur Ermittlung einer Problemlücke benötigt, d.h. zur Erkennung und Formulierung von Problemen, zum anderen zur Bewertung und Auswahl der Handlungsalternativen i.S. einer Problemlösung. Im Rahmen des Marketings sind zahlreiche Entscheidungen sowohl auf strategischer als auch auf taktisch-operativer Ebene zu treffen. Abbildung 1.1 zeigt den allgemeinen Planungs- und Entscheidungsprozess im Marketing. Eine Informationsgewinnung über Umwelt, Märkte und Unternehmen findet zunächst im Rahmen der Situationsanalyse statt; allerdings werden Informationen auch auf jeder weiteren Stufe des Planungs- und Entscheidungsprozesses benötigt. Insofern wird der Marketing-Planungsprozess von einem Informationsbeschaffungsprozess überlagert, da auf jeder Stufe des Planungsprozesses Teilentscheidungen zu treffen sind. Grundsätzlich lassen sich die Informationsbereiche des Marketings in Umweltinformationen und Unternehmensinformationen gliedern. Während Umweltinformationen das Umfeld beschreiben, in welchem das Unternehmen bzw. dessen Geschäftsfelder auf den einzelnen Märkten agieren, beinhalten Unternehmensinformationen Aussagen über die Stärken und Schwächen des Unternehmens allgemein sowie in Bezug auf konkrete Problemstellungen. Umweltinformationen beinhalten zum einen die Rahmenbedingungen unternehmerischen Handelns (Dateninformationen), zum anderen Instrumentalinformationen, d.h. Informationen über Reaktionen der Umwelt auf Marketingmaßnahmen des Unternehmens (vgl. Tab. 1.1). Informationen über die globale Umwelt betreffen die verschiedenen ökonomischen, gesellschaftlichen, technologischen, politisch-rechtlichen sowie geographisch-infrastrukturellen Rahmenbedingungen und beschreiben damit die allgemeine Situation einer Volkswirtschaft. Globale Umweltdaten betreffen daher alle Unternehmen unabhängig von ihrer Branchenzugehörigkeit. Informationen über Branche und Wettbewerb umfassen Informationen über die allgemeine Branchenstruktur sowie über die Unternehmensmärkte (Beschaffungs- und Absatzmärkte). Solche Informationen sind nur für Unternehmen bzw. Geschäftsfelder relevant, die in einer bestimmten Branche tätig sind, und können daher branchenabhängig grundverschieden sein. <?page no="14"?> 14 Marktforschung als Managementaufgabe AAbbbb.. 11..11: : Aufgabenbereiche des Marketingmanagements (Quelle: Sander 2019, S. 286) Von besonderer Bedeutung für das Marketing sind Informationen über die Abnehmer. Hierzu gehören zum einen Beschaffenheit und Größe der Marktsegmente, Bedarfsintensität, Bedürfnisstruktur, Kaufkraft. Darüber hinaus sind Reaktionen der Abnehmer auf Marketingaktivitäten zu erfassen, u.a. Aussagen über Preiselastizitäten, Präferenzen, Werbeelastizitäten. MMaarrkkeettiinnggoorrggaanniissaattiioonn uunndd HHuummaann RReessoouurrcceess MMaannaaggeemmeenntt Situationsanalyse und -prognose Umweltanalyse und -prognose Globale Umwelt Branche und Wettbewerb Prognose zukünftiger Entwicklungen Unternehmensanalyse Marktorientierte Unternehmensplanung Strategische Unternehmensziele und -mission Bildung strategischer Geschäftsfelder Strategische Stoßrichtunge n und Ressourcenall okation Einsatz strategischer Analyseinstrumente Timing- Aspekte des Marktein- und -austritts Marktorientierte Geschäftsfeldplanung Strategische Geschäftsfeldziele Alternative Marketingstrategien Strategiebewertung und -auswahl Strategische Budgetierung Umsetzung von Marketingstrategie und Marketingpolitik Kontrolle von Marketingstrategie und Marketingpolitik Marketing-Audits Strategische Marketingplanung Planung des Marketing- Instrumenteeinsatzes (Marketingpolitik) Marketingimplementierung Marketing- Controlling Strategisches Geschäftsfeld Z Produktpolitik Kontrahierungspolitik Distributionspolitik Kommunikationspolitik Marketingmix Strategisches Geschäftsfeld A Produktpolitik Kontrahierungspolitik Distributionspolitik Kommunikationspolitik Marketingmix <?page no="15"?> Informationsbedarf für Marketingentscheidungen 15 TTaabb.. 11..11: : Umweltinformationen Bereiche Beispielhafte Indikatoren Globale Umwelt Wirtschaft Bruttonationaleinkommen Wechselkursentwicklung Inflationsrate Rohstoff- und Energiepreise Gesellschaft Gesellschaftliche Struktur Gesellschaftliche Trends Demographische Entwicklung Politik Gesetzgebung Steuern und Subventionen Politische Stabilität Zwischenstaatliche Abkommen Regulierung/ Deregulierung Technologie Ausgaben für F&E Patentanmeldungen Produkt- und Prozessinnovationen Technologische Dynamik Natürliche Umwelt Klima Ressourcen Infrastruktur Branche und Wettbewerb Branchenstruktur Marktform Eintrittsbarrieren Kapitalintensität Absatzmärkte Wettbewerber Distributionspartner Endnachfrager Beschaffungsmärkte Kapitalgeber Arbeitskräfte Lieferanten Umweltreaktionen auf Marketingaktivitäten Endabnehmer Preiselastizität Werbeelastizität Markenpräferenz Handel Änderungen des Bestellverhaltens Aktionsangebote Wettbewerber Imitation von Innovationen Reaktionen auf eigene Preisänderungen Staatliche Akteure Sanktionen Staatliche Eingriffe (z.B. Höchst- oder Mindestpreise) Unternehmensinformationen beinhalten Aussagen über die Leistungs- und Führungspotenziale eines Unternehmens (vgl. Bea/ Haas 2019, S. 121 ff.). Leistungspotenziale ergeben sich aus den Bereichen Beschaffung, Produktion, Absatz, Personal, Kapital, Technologie; Führungspotenziale resultieren aus den Bereichen Planung und Kontrolle, Information, Organisation, Unternehmenskultur. Unternehmensinformationen dienen somit der Beurteilung der Stärken und Schwächen eines Unternehmens, wohingegen die Erhebung von Umweltinformationen die Einschätzung von Chancen und Risiken ermöglicht. <?page no="16"?> 16 Marktforschung als Managementaufgabe 11..22 CChhaarraakktteerriissiieerruunngg uunndd AArrtteenn ddeerr MMaarrkkttffoorrsscchhuunngg Definition Marktforschung ist die systematische und zielgerichtete Sammlung, Aufbereitung, Auswertung und Interpretation von Informationen über Märkte und Marktbeeinflussungsmöglichkeiten als Grundlage für Marketingentscheidungen. Kernaufgabe der Marktforschung ist somit die Bereitstellung relevanter Informationen für marketingpolitische Entscheidungen. Gegenstand der Marktforschung sind Sachverhalte, welche Absatz- und Beschaffungsmärkte betreffen (Daten- und Instrumentalinformationen). Die Ermittlung der entscheidungsrelevanten Informationen erfolgt dabei planvoll unter Heranziehung wissenschaftlicher Methoden. Abzugrenzen ist der Begriff der Marktforschung von der Marketingforschung: Während die Marktforschung auf die Analyse von Absatz- und Beschaffungsmärkten abzielt, befasst sich die Marketingforschung auch mit Informationen aus nichtmarktlichen Bereichen (z.B. aus der politisch-rechtlichen, technischen, soziokulturellen und natürlichen Umwelt) wie auch mit unternehmensinternen Informationen, sofern sie für Marketingentscheidungen relevant sind. Allerdings beschränkt sich die Analyse auf die Absatzmärkte, d.h. Beschaffungsmärkte werden ausgeklammert. Der Zusammenhang zwischen Marktforschung und Marketingforschung ist in Abb. 1.2 dargestellt. Die Ausführungen in diesem Buch beschränken sich auf Methoden und Fragestellungen der Absatzmarktforschung, d.h. Beschaffungsmarktforschung und die übrigen Bereiche der Informationswirtschaft werden hier nicht näher betrachtet. Im Fokus stehen hier dabei insb. die aktuellen und potenziellen Abnehmer. AAbbbb.. 11..22: : Abgrenzung von Marktforschung und Marketingforschung (Quelle: in Anlehnung an Pepels 2014, S. 20) Marktforschung kann nach verschiedenen Kriterien klassifiziert werden; einen Überblick bietet Tab. 1.2. Die Unterscheidungskriterien sind nicht immer überschneidungsfrei. Aus diesem Grunde sollen nachfolgend nur die wichtigsten Unterscheidungsmerkmale kurz skizziert werden. Nach dem Bezugszeitraum wird zwischen einmaligen und mehrmaligen Erhebungen unterschieden. Während einmalige Erhebungen den Status quo zu einem bestimmten Zeitpunkt untersuchen (Querschnittsstudien, z.B. (einmalige) Befragung, Beobachtung, Experiment), beschreiben mehrmalige Erhebungen (Längsschnittstudien) wie z.B. Panelerhebungen und Kohortenanalysen Entwicklungen im Zeitablauf. MMaarrkkttffoorrsscchhuunngg Marktinformationen Beschaffungsmarktforschung Absatzmarktforschung Umweltinformationen Unternehmensinformationen MMaarrkkeettiinnggffoorrsscchhuunngg <?page no="17"?> Charakterisierung und Arten der Marktforschung 17 TTaabb.. 11..22: : Formen der Marktforschung Kriterien Ausprägungen Bezugszeitraum Einmalige Erhebung (Ad-hoc-Forschung, Querschnittanalyse) Mehrmalige Erhebung (Tracking-Forschung, Längsschnittanalyse) Untersuchte Märkte Beschaffungsmarktforschung Absatzmarktforschung Finanzmarktforschung Arbeitsmarktforschung Form der Informationsgewinnung Primärforschung Sekundärforschung Erhebungsmethode Befragung Beobachtung Untersuchte Marketinginstrumente Produktforschung Preisforschung Kommunikationsforschung Vertriebsforschung Untersuchte Marktteilnehmer Konsumentenforschung Konkurrenzforschung Absatzmittlerforschung Methodischer Ansatz Quantitative Marktforschung Qualitative Marktforschung Träger der Marktforschung Betriebliche Marktforschung Institutsmarktforschung Ort der Messung Laborforschung Feldforschung Räumlicher Geltungsbereich Nationale Marktforschung Internationale Marktforschung Nach den untersuchten Märkten wird zwischen Beschaffungsmarktforschung, Absatzmarktforschung, Finanzmarktforschung und Arbeitsmarktforschung differenziert. Nach der Form der Informationsgewinnung wird zwischen Primär- und Sekundärforschung unterschieden. Während im Rahmen einer Primärerhebung originäre Daten zum spezifischen Untersuchungszweck erhoben werden, greift man bei Sekundärerhebungen auf bereits vorhandenes Datenmaterial. Marketinginstrumente als Klassifikationsmerkmal führen zur Unterscheidung in Produktforschung, Werbeforschung, Preisforschung und Vertriebsforschung (vgl. Teil 10). <?page no="18"?> 18 Marktforschung als Managementaufgabe Nach der Art der Messung unterscheidet man in qualitative und quantitative Marktforschung. Während qualitative Untersuchungen explorativen Charakter haben und nur Tendenzaussagen erlauben, zielen quantitative Studien auf die Gewinnung verallgemeinerbarer (i.S. repräsentativer) Aussagen über die Grundgesamtheit ab. Nach der räumlichen Dimension wird zwischen nationaler und internationaler Marktforschung unterschieden (zu den Besonderheiten internationaler Marktforschung vgl. z.B. Berndt et al. 2020, S. 61-117). 11..33 ZZiieellee uunndd RRaahhmmeennbbeeddiinngguunnggeenn ddeerr MMaarrkkttffoorrsscchhuunngg Definition Ziel der Marktforschung ist die zeitgerechte Bereitstellung entscheidungsrelevanter Informationen für die Entscheidungsträger unter Berücksichtigung finanzieller, personeller, zeitlicher und rechtlicher Restriktionen. Aus dem Oberziel der Marktforschung - der Bereitstellung entscheidungsrelevanter Informationen für das Marketing - lassen sich folgende Teilaufgaben ableiten (vgl. Pepels 2014, S. 21): Innovationsfunktion: Es sollen Chancen und Trends erkannt werden, welche die Märkte und die Umwelt bieten. Frühwarnfunktion: Risiken müssen frühzeitig erkannt werden, um notwendige Entscheidungs- und Anpassungsprozesse zu ermöglichen. Intelligenzverstärkungsfunktion: Durch Förderung der Methodenkenntnisse und des Wissens über marktrelevante Zusammenhänge soll die Willensbildung in der Unternehmensführung unterstützt werden. Unsicherheitsreduktionsfunktion: Zuverlässige Informationen reduzieren das Risiko von Fehlentscheidungen. Strukturierungsfunktion: Eine planvolle, systematische Vorgehensweise unterstützt das Verständnis und erhöht damit die Qualität und Effizienz der Marketingplanung. Selektionsfunktion: Aus der Fülle verfügbarer Informationen sollen die relevanten Sachverhalte herausgefiltert und aufbereitet werden. Prognosefunktion: Veränderungen des marketingrelevanten Umfelds können aufgezeigt und deren Auswirkungen auf das eigene Geschäft abgeschätzt werden. Die aufgeführten Ziele und Aufgaben der Marktforschung können jedoch nur unter Berücksichtigung wesentlicher Restriktionen verfolgt werden. Zum einen sind finanzielle Restriktionen zu beachten, welche regelmäßig aus einem begrenzten Marktforschungsbudget resultieren. Zum anderen schränken personelle Rahmenbedingungen - etwa das Fehlen von ausreichend für die Marktforschung qualifiziertem Personal - den Handlungsspielraum der Marktforschung ein. Weiterhin sind auch zeitliche Restriktionen im Sinne eines begrenzten Zeitbudgets zu nennen. Von besonderer Bedeutung sind für die Marktforschung rechtliche Restriktionen, insb. im Zusammenhang mit Fragen des Persönlichkeits- und Datenschutzes. Regelungen finden sich u.a. im Bundesdatenschutzgesetz (BDSG) sowie auf internationaler Ebene in der <?page no="19"?> Prozess der Marktforschung 19 2016 in Kraft getretenen EU-Datenschutz-Grundverordnung. Weiterhin unterliegen Marktforschungsaktivitäten einer Vielzahl von Standesregeln; zu nennen sind hier auf nationaler Ebene die verschiedenen Richtlinien des ADM Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V., auf internationaler Ebene der ICC/ ESOMAR Kodex. Die Richtlinien und Empfehlungen betreffen sensible Themen wie z.B. Mystery Forschung, telefonische Befragungen, Befragungen von Minderjährigen. Einzelheiten finden sich auf der Homepage des ADM, http: / www.adm-ev.de. Regelwerke zum Umgang mit neurowissenschaftlichen Methoden sind derzeit im Aufbau (vgl. Hensel et al. 2017). Zu den Einzelheiten vgl. die Ausführungen in Kapitel 4 in diesem Teil. 11..44 PPrroozzeessss ddeerr MMaarrkkttffoorrsscchhuunngg Eine fundierte Marktforschung setzt ein systematisches und planvolles Vorgehen voraus; in diesem Sinne kann die Marktforschungstätigkeit als ein Ablauf aufeinander folgender Phasen aufgefasst werden (vgl. Abb. 1.3). Die erste Stufe des Marktforschungsprozesses bildet die Formulierung des Forschungsproblems und - darauf aufbauend - die Ableitung des konkreten Forschungsziels. Anstoß ist i.d.R. ein bestimmtes Marketingproblem, etwa Verlust von Marktanteilen an den Hauptkonkurrenten für ein bestimmtes Produkt, das vom Marketingmanagement aufgedeckt und an die Marktforscher herangetragen wird. Daher sollten insbesondere in dieser Stufe Marketingmanager und Marktforscher zusammenarbeiten, um das vorliegende Problem abzugrenzen, zu definieren und den konkreten Informationsbedarf festzustellen. Eine exakte Formulierung und schriftliche Fixierung des Forschungsproblems sind zu empfehlen. Auf dieser Grundlage wird das konkrete Forschungsziel i.S. einer Definition und Konkretisierung der Aufgabenstellung abgeleitet. So könnte im Falle eines Marktanteilsrückgangs zugunsten des Hauptkonkurrenten (Marketingproblem) das Forschungsproblem beispielsweise lauten „Ermittlung der Ursachen für den Marktanteilsverlust“. Daraus lässt sich z.B. folgendes Forschungsziel ableiten: „Erstellung eines Stärken-Schwächen-Profils des eigenen Produkts im Vergleich zum Konkurrenzprodukt unter Einbezug des Produkts als solches sowie der Produktvermarktung“. In der nächsten Stufe ist ein Zeit-, Organisations- und Finanzplan zu erstellen. In dieser Phase wird der Zeitrahmen für die Untersuchung abgesteckt; des Weiteren ist zu bestimmen, ob die Untersuchung unternehmensintern durch die betriebliche Marktforschung oder unternehmensextern durch ein Marktforschungsinstitut durchzuführen ist. Auch wird das zur Verfügung stehende Budget festgelegt. Im Rahmen der Planung des Untersuchungsdesigns erfolgt die inhaltliche Planung und Konkretisierung der Erhebung. Unter einem Untersuchungsdesign versteht man dabei die Konzeption des Forschungsvorhabens, d.h. den Rahmen, welcher der Sammlung und Analyse der benötigten Informationen zugrunde gelegt wird. Elemente eines Untersuchungsdesigns sind der grundlegende Forschungsansatz, die Herkunft der Daten (Informationsquellen und Erhebungsmethoden), die Auswahl, Operationalisierung, Messung und Skalierung der heranzuziehenden Variablen sowie die Auswahl der Erhebungseinheiten. <?page no="20"?> 20 Marktforschung als Managementaufgabe AAbbbb.. 11..33: : Ablauf des Marktforschungsprozesses Der grundlegende Forschungsansatz leitet sich zunächst aus den Forschungszielen ab; dementsprechend wird unterschieden zwischen explorativen, deskriptiven und kausalen Studien. Während explorative Studien die Aufgabe haben, ein aktuelles Forschungsproblem zu erkunden und zu definieren, haben deskriptive Studien die Beschreibung von Sachverhalten - z.B. Marktphänomene - zum Gegenstand. Kausale Studien zielen schließlich auf die Ermittlung von Ursache-Wirkungszusammenhängen ab (vgl. ausführlich Kapitel 3 in diesem Teil); dies erlaubt auch die Erstellung von Prognosen. Nach der Herkunft der Daten werden Forschungsdesigns danach unterschieden, ob die benötigten Informationen auf der Grundlage von Sekundärerhebungen oder Primärerhebungen beschafft werden sollen. Im Rahmen der Sekundärforschung werden Daten gesammelt, die bereits zu einem früheren Zeitpunkt für ähnliche oder auch andere Zwecke erhoben wurden (vgl. Teil 2), wohingegen durch Primärforschung originäre Daten zum spezifischen Forschungsziel erhoben werden. Als Erhebungsmethoden der Primärforschung unterscheidet man die Befragung sowie die Beobachtung. Darüber hinaus können als Sonderformen Panelerhebungen und Experimente genannt werden, welche Elemente einer Befragung und/ oder einer Beobachtung beinhalten können. Grundsätzlich wird eine Sekundäranalyse im Vorfeld eines Marktforschungsprojekts durchgeführt; im Rahmen einer Primäranalyse werden anschließend diejenigen Informationen erhoben, Formulierung von Forschungsproblem und Forschungsziel Zeit-, Organisations- und Finanzplanung Planung des Untersuchungsdesigns Wahl des Forschungsansatzes Festlegung von Informationsquellen und Erhebungsmethoden Messung, Operationalisierung und Skalierung der Variablen Auswahl der Erhebungseinheiten Datensammlung und Datenauswertung Datenerhebung Datenaufbereitung Datenanalyse Interpretation und Präsentation der Ergebnisse Kontrolle der Erhebungsplanung Kontrolle der Erhebungsdurchführung PPllaannuunngg RReeaalliissaattiioonn KKoonnttrroollllee <?page no="21"?> Prozess der Marktforschung 21 welche die Sekundärforschung nicht oder nicht in der gewünschten Qualität zu liefern vermochte. Bei der Entscheidung zwischen Primär- und Sekundärforschung spielen Zeit-, Kosten- und Nutzenaspekte eine Rolle. Eine Sekundärforschung ist in der Regel weniger zeit- und kostenintensiv als eine Primärforschung, ihr Nutzen ist aber auch häufig geringer - etwa weil die verfügbaren Daten nicht aktuell oder unvollständig sind. Wird eine Sekundärforschung gewählt, so sind Anforderungen an Menge und Qualität der Informationen zu formulieren sowie relevante Datenquellen zu identifizieren (vgl. Teil 2). Im Falle einer Primärforschung ist hingegen die Erhebungsmethode festzulegen. Grundsätzlich ist die Eignung unterschiedlicher Erhebungsmethoden vom Konkretisierungsgrad des Marketingproblems und des daraus abgeleiteten Forschungsproblems abhängig (vgl. Böhler et al. 2021, S. 32 f.). Bei schlecht strukturierten, komplexen und neuartigen Problemen eignen sich explorative Verfahren unter Anwendung einer qualitativen Marktforschung (vgl. Teil 9); bei klar definierten Problemen können je nach Forschungsziel deskriptive Forschungsdesigns auf der Grundlage quantitativer Erhebungsmethoden (wie Befragung und Beobachtung) oder aber experimentelle Designs herangezogen werden. Im Rahmen des Untersuchungsdesigns ist weiterhin festzulegen, welche Merkmale bzw. Variablen in die Untersuchung einzubeziehen sind. Des Weiteren ist festzulegen, wie die Variablen zu messen und zu skalieren sind (vgl. i.E. die Teile 3-6). Grundsätzlich lassen sich die Ausprägungen der einzelnen Dimensionen von Forschungsdesigns beliebig miteinander kombinieren, einige Kombinationen sind jedoch nicht zweckmäßig oder unmöglich: So kann eine explorative Analyse nicht in Form eines Experiments stattfinden, da ein Experiment das Vorhandensein klar definierter Forschungshypothesen voraussetzt; andererseits sind Experimente die geeignetste Erhebungsmethode, um kausale Studien durchzuführen. Der Zusammenhang zwischen Forschungsansatz, Erhebungsverfahren und methodischem Ansatz ist in Abb. 1.4 dargestellt. Unabhängig davon ist im Rahmen einer Primärerhebung festzulegen, welche Erhebungseinheiten in die Untersuchung gelangen sollen (vgl. Kapitel 2 in Teil 7). Hierfür ist zunächst die Grundgesamtheit abzugrenzen; des Weiteren ist die Grundsatzentscheidung zwischen Vollerhebung und Teilerhebung zu treffen. Vollerhebungen bieten sich lediglich bei einer vergleichsweise kleinen Grundgesamtheit an, wie dies gelegentlich im Industriegütermarketing vorkommen kann; im Normalfall erfolgen Primäruntersuchungen auf der Grundlage von Teilerhebungen. In diesem Falle ist darüber zu befinden, welches Verfahren der Stichprobenauswahl heranzuziehen ist. Liegt das Untersuchungsdesign fest, so sind in einer weiteren Stufe die Daten zu sammeln und auszuwerten, d.h. es findet die eigentliche Durchführung der Erhebung statt. In einem ersten Teilschritt erfolgt die konkrete Datenerhebung (vgl. Kapitel 1 in Teil 8). Im Rahmen einer Sekundäranalyse werden die Daten aus den identifizierten Quellen zusammengestellt und systematisiert. Bei einer Primärerhebung wird ggf. zunächst eine Pilotstudie durchgeführt (z.B. Test des Fragebogens im Hinblick auf Eindeutigkeit, Verständlichkeit usw.); anschließend erfolgt die eigentliche Feldarbeit, d.h. die konkrete (Haupt-) Erhebung der Daten. <?page no="22"?> 22 Marktforschung als Managementaufgabe Erhebungsverfahren Forschungsansatz Sekundärerhebung Primärerhebung Befragung Beobachtung Panel Experiment Qualitativ Quantitativ Qualitativ Quantitativ Explorative Studien Deskriptive Studien Kausale Studien uneingeschränkt geeignet eingeschränkt geeignet nicht geeignet AAbbbb.. 11..44: : Zusammenhang zwischen Forschungsansatz, Erhebungsverfahren und methodischem Ansatz Die erhobenen Daten werden anschließend aufbereitet. Hier werden z.B. nicht auswertbare Fragebögen aussortiert, die Daten werden anschließend editiert, codiert und in den Computer eingegeben (vgl. Kapitel 2 in Teil 8 sowie Kapitel 6 in Teil 9). Daran schließt sich die (statistische oder qualitative) Datenanalyse an. Hierzu steht eine Vielzahl an Verfahren zur Verfügung (vgl. Kapitel 3 in Teil 8), deren Eignung und Anwendbarkeit vom Forschungsziel sowie von der Art des zugrunde liegenden Datenmaterials abhängt. Die Ergebnisse der Datenanalyse werden anschließend interpretiert und dokumentiert (z.B. in Form eines zusammenfassenden schriftlichen Berichts, vgl. Kapitel 4 in Teil 8). Üblicherweise erfolgt auch eine Ergebnispräsentation durch den (die) beauftragten Marktforscher gegenüber dem Auftraggeber. Im Rahmen einer Diskussion können Verständigungsprobleme beseitigt und Interpretationsspielräume der Ergebnisse ausgelotet werden. In einem abschließenden Schritt erfolgt eine Kontrolle der Erhebung, um festzustellen, ob die Forschungsziele erfüllt wurden. Es ist an dieser Stelle darauf hinzuweisen, dass zwischen den einzelnen Prozessstufen Rückkopplungen bestehen können, z.B. wenn im Rahmen der Datensammlung festgestellt wird, dass die Erhebungsmethode ungeeignet oder die Stichprobe nicht adäquat ist. Auch können bestimmte Teilphasen übersprungen werden, z.B. bei zeitlich wiederkehrenden Erhebungen zum gleichen Sachverhalt. <?page no="23"?> 22 T Trrääggeerr ddeerr MMaarrkkttffoorrsscchhuunngg Träger der Marktforschung sind zum einen Stellen bzw. Abteilungen im Unternehmen (betriebliche Marktforschung), zum anderen externe Institute (Institutsmarktforschung) und sonstige Organe wie Marktforschungsberater und Informationsbroker, die mit Marktforschungsaufgaben betraut sind. Im Folgenden sollen die einzelnen Träger der Marktforschung kurz charakterisiert werden. 22..11 BBeettrriieebblliicchhee MMaarrkkttffoorrsscchhuunngg Definition Als betriebliche Marktforschung werden Marktforschungsaktivitäten bezeichnet, welche im Unternehmen selbst realisiert werden; typischerweise handelt es sich um eine eigene Marktforschungsabteilung oder um hauptamtlich mit Marktforschungsaufgaben betrauten Mitarbeitende. Zentrale Aspekte im Zusammenhang mit der betrieblichen Marktforschung sind: der Umfang der im Unternehmen selbst durchgeführten Marktforschungsaktivitäten, die organisatorische Stellung der Marktforschung im Betrieb sowie die Gestaltung des betrieblichen Informationsmanagements. Der Umfang der betrieblichen Marktforschung hängt von Art und Ausmaß der Aufgabenteilung zwischen Unternehmen und Institut ab. Die meisten Unternehmen erledigen die anfallenden Marktforschungsaufgaben nicht (ausschließlich) unternehmensintern, vielmehr erfolgt eine Aufgabenteilung zwischen betrieblicher Marktforschung und Institutsmarktforschung. Insbesondere umfassende Primärerhebungen erfordern i.d.R. die Zusammenarbeit mit einem Marktforschungsinstitut. Typischerweise übernimmt die betriebliche Marktforschung konzeptionelle Aufgaben, also die Vorbereitung und Planung von Marktforschungsaktivitäten, wohingegen sich die Institutsmarktforschung insb. mit der Datengewinnung und Datenauswertung befasst (vgl. Grundei 2000, S. 3). Die einzelnen Aktivitäten sind dabei unbedingt zu verzahnen, etwa indem Mitarbeiter des Marktforschungsinstituts von Anfang an in die Konzeption der Erhebung einbezogen werden. Eine gute Zusammenarbeit zwischen betrieblicher und Institutsmarktforschung ist für die Qualität der Ergebnisse entscheidend. Welche Aktivitäten konkret selbst durchgeführt oder an Institute fremdvergeben werden, ist eine klassische Make-or-buy- Entscheidung. Die Vorteile der Eigenforschung und der Fremdforschung sind in Tab. 1.3 skizziert; die jeweiligen Nachteile gelten spiegelbildlich. Die organisatorische Eingliederung der Marktforschung im Unternehmen umfasst die folgenden Gestaltungsfelder (vgl. Grundei 2000, S. 8 ff.): Etablierung, Platzierung, <?page no="24"?> 24 Träger der Marktforschung Differenzierung und Kooperation. T Taabb.. 11..33: : Vorteile von Eigenvs. Fremdforschung Vorteile der Eigenforschung Vorteile der Fremdforschung Größere Erfahrung mit den Gegebenheiten des Unternehmens Ggf. Vertrautheit mit dem Problem Bessere Kenntnisse über Produkte und Branche Bessere Kontrolle und Koordination der Marktforschungsaktivitäten Vertraulichkeit der Ergebnisse gewährleistet Größere Methodenkenntnisse durch Einsatz von Spezialisten Größere Erfahrung Größere Objektivität Höhere Akzeptanz im Unternehmen Häufig günstiger als Eigenforschung Die Etablierung betrifft die Frage, ob für Marktforschungsaufgaben spezielle organisatorische Einheiten wie z.B. eine Abteilung oder eine Stabsstelle eingerichtet werden sollen (Spezialistenlösung), oder aber ob die Verantwortung für Marktforschungsaufgaben Mitarbeitern übertragen wird, welche primär mit anderen Aufgaben betraut sind, z.B. Produktmanager (Integrationslösung). Nicht alle Unternehmen verfügen über eine institutionalisierte betriebliche Marktforschung; dies ist jedoch größenabhängig. Zudem werden die Informationen aus der Marktforschung nicht immer systematisch genutzt: So werden in Deutschland nur rund 44 Prozent der Vorstandsentscheidungen im B2B-Bereich durch Marktinformationen abgesichert; im Vertrieb sind es nur 40,6 Prozent, in der Produktion sogar nur ein Drittel aller Entscheidungen (EuPD Research 2009). AAbbbb.. 11..55: : Marktforschung als Stabstelle Die Platzierung beinhaltet die Frage, wie eine institutionalisierte Marktforschungseinheit in die Organisationsstruktur des Unternehmens einzugliedern ist. Die häufigste Variante ist die Errichtung einer Stabstelle, welche je nach Bedeutung und Aufgabenschwerpunkt der Marktforschung im Betrieb entweder der Unternehmensleitung oder der Marketingleitung zugeordnet wird (vgl. Abb. 1.5). UUnntteerrnneehhmmeennsslleeiittuunngg Beschaffung Produktion Marketing MMaarrkktt-ffoorrsscchhuunngg Sparte I MMaarrkktt-ffoorrsscchhuunngg Sparte II Sparte III UUnntteerrnneehhmmeennsslleeiittuunngg <?page no="25"?> Betriebliche Marktforschung 25 Alternativ kann die Marktforschung auch als Linieninstanz angesiedelt werden. In einer funktionalen Organisation wird sie üblicherweise der Marketingabteilung zugeordnet, in einer divisionalen Organisation findet sich eine Marktforschungsinstanz u.U. in jeder Produktsparte. In diesem Falle findet eine vollständige Dezentralisierung von Marktforschungsaktivitäten statt (vgl. Abb. 1.6). Gegenüber der Stablösung verfügt die Marktforschung als Linieninstanz damit über eine höhere Autonomie und größere Entscheidungsfreiheit. AAbbbb.. 11..66: : Marktforschung als Linieninstanz Im Rahmen einer Spartenorganisation ist eine völlige Dezentralisierung gemäß Abb. 1.6 jedoch eher selten. Typischerweise erfolgt eine Konzentration der Marktforschung in einem Zentralbereich. Die Marktforschungsaktivitäten werden aus den Geschäftsbereichen ausgegliedert und in einer zentralen Marktforschungsabteilung zusammengefasst (vgl. Frese/ Werder 1993, S. 39). AAbbbb.. 11..77: : Marktforschung als Service-Cost-Center in einer Spartenorganisation Eine Variante dieses Modells ist das sog. Cost-Center (vgl. Abb. 1.7), im Rahmen dessen Marktforschungsaufgaben in einem Cost-Center mit Budgetverantwortung ausgegliedert werden; seltener wird die Marktforschung als Profit-Center mit Gewinn- und Verlustverantwortung geführt (vgl. Ottawa/ Rietz 2015, S. 60). Die Abteilung kann von allen Unternehmenseinheiten in Anspruch genommen werden; diese müssen die angeforderten Leistungen jedoch bezahlen. Dabei werden interne Verrechnungspreise zugrunde gelegt. Vorteilhaft ist an dieser Variante die Tatsache, dass die Sparten nur dann Aufträge an die Marktforschungsabteilung vergeben, wenn die Informationen tatsächlich benötigt werden und der Nutzen der Information höher beurteilt wird als die der Sparte entste- Beschaffung Sparte I UUnntteerrnneehhmmeennsslleeiittuunngg UUnntteerrnneehhmmeennsslleeiittuunngg Sparte II Sparte III Produktion Marketing Marktforschung Werbung Vertrieb Marktforschung Produktion … … Sparte I UUnntteerrnneehhmmeennsslleeiittuunngg Sparte II Marktforschung Marketing Marketing … … … … <?page no="26"?> 26 Träger der Marktforschung henden Kosten. Zu erwähnen ist, dass in der Praxis - insb. in Großunternehmen - häufig Mischformen realisiert werden, d.h. neben einer zentralen Abteilung bestehen auch dezentrale Marktforschungsstellen in den einzelnen Geschäftsbereichen. Unter einer Differenzierung wird die interne Organisation des Marktforschungsbereichs verstanden. Typische Segmentierungsformen sind (vgl. Grundei 2000, S. 11 f.): nach methodischen Aspekten (z.B. quantitative vs. qualitative Marktforschung, Prognosen, Datenanalyse), nach Anwendungsschwerpunkten (z.B. Werbeforschung, Produktforschung, Preisforschung), nach Phasen des Marktforschungsprozesses (z.B. Vorbereitung, Durchführung, Auswertung von Erhebungen). Schließlich beinhaltet die Kooperation die Regelung von Kompetenz- und Kommunikationsbeziehungen zwischen denjenigen organisatorischen Einheiten, welche an der Durchführung von Marktforschungsaufgaben beteiligt sind. Hierbei ist zu unterscheiden zwischen Kooperation zwischen mehreren Marktforschungseinheiten (Marktforschungskooperation) und Kooperation zwischen Marktforschung und Verwendern von Marktforschungsleistungen (Prozesskooperation). TTaabb.. 11..44: : Varianten der Marktforschungskooperation (Quelle: in Anlehnung an Grundei 2000, S. 12 ff.) Bezeichnung Kurzcharakterisierung Richtlinienmodell Ein Zentralbereich für Marktforschung ist für Marktforschungsentscheidungen allein entscheidungsbefugt. Die dezentralen Marktforschungseinheiten der Geschäftsbereiche treffen ihre Entscheidungen im Rahmen der vorgegebenen Richtlinien. Matrixmodell Zentrale und dezentrale Marktforschungseinheiten (sog. Matrix- Einheiten) sind nur gemeinsam entscheidungsbefugt; die Entscheidungen werden von einem Matrixausschuss getroffen, welchem Mitarbeiter der zentralen und der dezentralen (operativen) Einheiten angehören. Servicemodell Die operativen Einheiten entscheiden darüber, ob und welche Marktforschungsmaßnahmen durchzuführen sind; der Zentralbereich entscheidet über die Art und Weise der konkreten Auftragsdurchführung. Autarkiemodell Die einzelnen Marktforschungseinheiten entscheiden und operieren völlig unabhängig voneinander. In vielen Fällen findet jedoch zumindest ein Informationsaustausch zwischen den einzelnen Einheiten statt. Marktforschungskooperation beinhaltet die Frage, in welcher Form die Beziehungen zwischen den unternehmerischen Einheiten, welche Marktforschungsaufgaben wahrnehmen, zu gestalten sind. Tabelle 1.4 zeigt einige typische Organisationsmodelle der Marktforschungskooperation. Prozesskooperation beinhaltet hingegen die Zusammenarbeit zwischen der Marktforschung und den Abnehmern ihrer Leistungen (z.B. Produktmana- <?page no="27"?> Betriebliche Marktforschung 27 ger). Tabelle 1.5 zeigt einige typische Gestaltungsalternativen der Prozesskooperation in der Praxis. T Taabb.. 11..55: : Gestaltungsalternativen der Prozesskooperation (Quelle: in Anlehnung an Grundei 2000, S. 16 ff.) Bezeichnung Kurzcharakterisierung Kernbereichsmodell Marktforschungsaufgaben werden vollständig von den Produktbereichen als Zentraleinheit ausgegliedert. Der Kernbereich entscheidet selbstständig über die Durchführung von Erhebungen und führt sie ggf. auch autonom durch. Matrixmodell Marktforschung und Produktmanagement entscheiden gemeinsam über Marktforschungsaktivitäten. Servicemodell Das Produktmanagement entscheidet darüber, ob und welche Untersuchungen erforderlich sind. Die methodische Umsetzung obliegt der Marktforschung. Stabsmodell Der Marktforschung obliegt lediglich die Entscheidungsvorbereitung bzgl. der Durchführung von Erhebungen. Die Entscheidungsfindung ist Aufgabe des Produktmanagements. Angesichts der zentralen Rolle von Informationen für betriebliche Entscheidungen kommt der Gestaltung des betrieblichen Informationsmanagements eine große Bedeutung zu. Insofern ist Marktforschung lediglich ein Bestandteil des betrieblichen Informationsmanagements. Durch neue Medien - hier insb. das Internet - ist die potenziell nutzbare Informationsmenge dramatisch angestiegen („Big Data“, vgl. Abschnitt 1.2 im 2. Teil). Dies führt nicht unbedingt zur Verbesserung der Informationsqualität, da die vorhandene Datenmenge zum einen nicht mehr handhabbar ist, zum anderen nicht immer methodischen Ansprüchen genügt. Um die dadurch entstehenden Probleme zu bewältigen, kann im Unternehmen ein Führungsinformationssystem (FIS) implementiert werden (vgl. hierzu z.B. Mertens/ Griese 2002). Definition Ein Führungsinformationssystem (FIS) ist ein interaktives, IT-basiertes Informationssystem zur Gestaltung des Informationsflusses im Unternehmen, um Entscheidungs- und Kontrollaufgaben zu unterstützen. Übergeordnetes Ziel eines Führungsinformationssystems ist allgemein, die benötigten Informationen den richtigen Stellen zur richtigen Zeit zur Verfügung zu stellen. Aufgaben eines Führungsinformationssystems sind im Einzelnen die Erfassung, Aufbereitung, Speicherung, Verdichtung, Analyse und Übermittlung von Daten. Moderne FIS wie z.B. SAP verfolgen dabei die Idee des integrierten Gesamtsystems, d.h. die Vermeidung von Insellösungen. Viele Unternehmen verfügen allerdings über eine Vielzahl heterogener Informationssysteme für verschiedene Bereiche und Ebenen, welche teilweise historisch gewachsen sind. Damit entsteht das Problem der Integration der einzelnen Teilsysteme - Schnittstellendesign, Vereinheitlichung von Daten, Schaffung flexibler Auswertungs- <?page no="28"?> 28 Träger der Marktforschung möglichkeiten usw. Ein Lösungsansatz ist das sog. Data Warehousing (vgl. Bea/ Haas 2019, S. 377 ff.). Definition Ein Data Warehouse ist ein abgestimmter Datenpool aus verschiedenen Datenquellen im Unternehmen, welcher von den einzelnen Informationssystemen und Mitarbeitenden des Unternehmens abgerufen und ausgewertet werden kann. Als logisch zentraler Speicher bietet ein Data Warehouse eine einheitliche und konsistente Datenbasis zur Entscheidungsunterstützung und arbeitet losgelöst von operativen Datenbanken. Es soll unternehmensweit ausgerichtet sein und die Informationsbedürfnisse verschiedener Anwendergruppen abdecken können. Im Rahmen eines sog. Data Mining können Zusammenhänge zwischen einzelnen Datensätzen und Variablen ermittelt werden. Häufig finden sich in Unternehmen für den Marketingbereich eigene Informationssysteme, sog. Marketinginformationssysteme (MAIS). Wesentliche Elemente eines MAIS sind (vgl. Sander 2019, S. 226): eine Datenbank, welche der Sammlung inner- und außerbetrieblicher Informationen dient, eine Methodenbank, welche die Anwendungssoftware für die mathematisch-statistische Datenverarbeitung enthält, und eine Modellbank, welche Modelle enthält, mittels derer Markt- und Unternehmenszusammenhänge in mathematisch-quantitativer Form abgebildet werden (z.B. Prognosemodelle, Preisabsatzfunktionen, Werbewirkungsfunktionen). Verknüpft werden die Daten-, Methoden- und Modellbank mit entsprechenden Managementsystemen, um die Wartung und Pflege des MAIS für den Systemadministrator zu erleichtern und für den Anwender eine benutzerfreundliche Oberfläche zu schaffen. 22..22 IInnssttiittuuttssmmaarrkkttffoorrsscchhuunngg Definition Ein Marktforschungsinstitut ist ein selbstständiges kommerzielles Unternehmen, dessen Wertschöpfungsschwerpunkt in der Durchführung von Marktforschungsaktivitäten besteht und das Erhebungen selbstständig und ohne wesentliche Fremdhilfe durchführt (Full-Service-Institut). In dieser Definition nicht enthalten sind (vgl. zu den unterschiedlichen Abgrenzungen Hüttner/ Schwarting 2002, S. 455 f.): nicht erwerbsorientierte Institute, z.B. Forschungsinstitute an Universitäten oder Wirtschaftsforschungsinstitute, Marktforschungsabteilungen von Unternehmen, z.B. von Werbeagenturen, Unternehmen, welche nur Teilleistungen anbieten (z.B. Feldorganisationen). <?page no="29"?> Institutsmarktforschung 29 Nach ihrem Tätigkeitsspektrum können Marktforschungsinstitute unterteilt werden in allgemeine Institute, welche ein vollständiges Spektrum von Erhebungstypen und Dienstleistungen anbieten, und Spezialinstitute, welche sich auf bestimmte methodische Konzepte oder Branchen konzentrieren, etwa psychologische Marktforschung, Werbeforschung, Pharmaforschung etc. Hierbei handelt es sich häufig um kleinere, stark spezialisierte Institute, welche bestimmte Nischen bearbeiten und mit einer eigenständigen USP den Markt bearbeiten. Kleinere Institute haben eine überschaubare Anzahl von Kunden, die entsprechend persönlich betreut werden. Die Anzahl der Marktforschungsinstitute kann nur schwer beziffert werden, da sie von der definitorischen Abgrenzung abhängt. Allgemein geht man davon aus, dass in Deutschland derzeit über 200 Marktforschungsinstitute vorhanden sind. Führend sind in Deutschland einige wenige Institute wie GfK (Nürnberg), Kantar oder Nielsen, flankiert von einigen wenigen weiteren Unternehmen mittlerer Größe wie INRA, IPSOS oder das Institut für Demoskopie Allensbach. Der größte Anteil besteht jedoch aus kleinen bis sehr kleinen Instituten, welche teilweise sehr spezialisiert sind und oftmals nur sehr wenige Mitarbeiter beschäftigen. Die Branche ist dabei durch starke Konzentrationstendenzen charakterisiert, sei es durch Fusionen, sei es durch Kooperationen. Insbesondere im internationalen Bereich besteht die Tendenz zur Bildung von internationalen Netzwerken. Dabei ist festzustellen, dass der Wettbewerb ständig zunimmt. Verbände der Marktforschung sind auf nationaler Ebene insb. der Berufsverband Deutscher Markt- und Sozialforscher e.V. (BVM) sowie der Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V. (ADM). Mitglieder im BVM sind Privatpersonen, Institute, Vereine, Stiftungen und Verbände, die sich mit Fragen der Markt- und Sozialforschung befassen. 2023 zählten zum BVM rd. 1200 Mitglieder. Hingegen sind Mitglieder des ADM ausschließlich Institute; die Mitgliedsinstitute erzielen dabei rd. 80 % des gesamten Branchenumsatzes (www.bvm.org; www.adm-ev.de). Während der BVM die berufsständischen Interessen seiner Mitglieder vertritt, hat der ADM die Förderung der gemeinsamen Belange seiner Mitglieder wie auch eine gewisse Selbstkontrolle zum Ziel. Beide Verbände befassen sich auch mit berufsethischen Fragen, etwa Fragen der Vertraulichkeit und des Datenschutzes; zudem geben sie regelmäßig Stellungnahmen zu methodischen Fragen wie z.B. Online-Befragungen heraus. Auf internationaler Ebene spielt insb. ESOMAR eine Rolle (European Society for Opinion and Market Research). Daneben ist auch die WAPOR (World Association for Public Opinion Research) zu erwähnen. Typische Felder der Institutsmarktforschung sind nicht nur die Auftragsforschung, sondern auch die Durchführung „ungefragter“ Erhebungen, welche anschließend an Interessenten vermarktet werden. Darüber hinaus werden immer wieder neue Untersuchungskonzepte entwickelt, um sich von der Konkurrenz abzuheben. In den letzten Jahren konnte dabei festgestellt werden, dass in zunehmendem Maße hochkomplexe Analyseverfahren eingesetzt werden, welche Spezialwissen erfordern und hohe Anforderungen an die Mitarbeiter stellen. Als Konsequenz können die methodischen Details von den Auftraggebern häufig kaum mehr nachvollzogen werden, sodass die Institute zunehmend Beratungsfunktionen wahrnehmen und auch Unterstützung bei der Implementierung bieten müssen (vgl. Berekoven et al. 2009, S. 35 f.). <?page no="30"?> 30 Träger der Marktforschung Hat sich ein Unternehmen für die Inanspruchnahme eines Instituts entschieden, ist eine Anbieterauswahl zu treffen. Folgende Kriterien können sich für die Auswahl als hilfreich erweisen (vgl. Pepels 2014, S. 28 f.): Erfahrung bzw. Spezialisierung in relevanten Märkten oder in besonderen Erhebungsverfahren (z.B. Panelforschung), leistungsfähige personelle und sachliche Ausstattung, Größe und Zusammensetzung des Kundenkreises, ausgewiesen beispielsweise durch Referenzen anderer Auftraggeber, Mitgliedschaft in einschlägigen Fachverbänden wie BVM oder ADM, da die Mitgliedschaft an bestimmten Mindest(qualitäts-)anforderungen gebunden ist, institutseigene Bemühungen und Grundsätze für Qualitätssicherung und Datenschutz, Möglichkeit des Konkurrenzausschlusses während der Projektdauer, Empfehlungen anderer Unternehmen (z.B. Lieferanten, Abnehmer) oder eigene Erfahrungen aus der Vergangenheit, laufende Kontrollmöglichkeiten seitens des Auftraggebers (Budget, Termine), „weiche“ Kriterien wie räumliche Nähe, Sympathie etc. Hat sich das Unternehmen für ein Institut entschieden, so muss es ein möglichst genaues Briefing erarbeiten, welches für das Institut Grundlage der Angebotsstellung ist. Dieses enthält u.a. Angaben über die konkrete Problemstellung, Zielgruppen, methodische Wünsche, Terminvorstellungen. Bei erstmaliger Zusammenarbeit werden i.A. Angebote verschiedener Institute eingeholt. Nach einer eventuellen Verhandlung über strittige Punkte erfolgt die Auftragsvergabe, bei der folgende Sachverhalte verbindlich zu regeln sind (vgl. Pepels 2014, S. 29): ausführliche und präzise Problembeschreibung, Untersuchungsdesign (Stichprobe, Auswahlverfahren, Erhebungsverfahren etc.), Art der Ergebnisse, Kontaktpersonen im Institut und beim Auftraggeber, Leistungen, die der Auftraggeber beisteuert, detaillierte Kostenkalkulation mit Aufgliederung der Positionen in Vorarbeiten, Pretest, Feldarbeit, Auswertung, Präsentation usw., Terminplanung (Zwischentermine, Berichtsabgabe, Präsentation), Form der Berichterstattung. 22..33 SSoonnssttiiggee TTrrääggeerr ddeerr MMaarrkkttffoorrsscchhuunngg Externe Marktforschungsleistungen werden nicht nur von Instituten, sondern auch von einer ganzen Reihe weiterer Träger geliefert. Solche Träger bieten nicht das gesamte Leistungsspektrum eines Full-Service-Instituts an, sondern sind auf bestimmte Leistungen spezialisiert. Beispielsweise kann ein Unternehmen im Falle der Eigenforschung eine Feldorganisation beauftragen, welche einen Interviewerstab für die Durchführung einer Face-to-Face-Befragung zur Verfügung stellt. Tabelle 1.6 zeigt die wichtigsten sonstigen Marktforschungsdienstleister im Überblick. <?page no="31"?> Sonstige Träger der Marktforschung 31 TTaabb.. 11..66: : Sonstige Träger der Marktforschung Träger Kennzeichnung Marktforschungsberater Freiberufliche Spezialisten, die im Auftrag ihrer Kunden bei der Konzeption, Auswertung und Analyse von Erhebungen mitwirken Oftmals Bindeglied zwischen Unternehmen und Institut Informationsbroker Spezialisten, die gegen Honorar bestimmte Informationen nachweisen, beschaffen und auswerten Beispiel: Kundendatenverwerter, die das z.B. über Kundenkarten erhobene Material (Kaufverhalten, persönliche Daten) auswerten und ggf. an Dritte weitergeben Marktforschungsabteilungen von Werbeagenturen Betreuung bestimmter Kundenaufträge Zusammenarbeit mit Instituten auf dem Gebiet der Werbeforschung Feldorganisationen Bereitstellung von Interviewerstäben für den Auftraggeber (Unternehmen oder Institut) Mittlerweile häufig auch Dateneingabe und -analyse Teststudios Anbieter, welche Räumlichkeiten zur Durchführung von Interviews, Beobachtungen, Experimente zur Verfügung stellen Sie bieten häufig auch personelle Kompetenzen an Unternehmensverbände Unterhalten häufig eigene Marktforschungsstellen bzw. -abteilungen Führen eigene Studien für Verbandsmitglieder durch oder beauftragen ein Marktforschungsinstitut <?page no="33"?> 33 F Foorrsscchhuunnggssaannssäättzzee iinn ddeerr MMaarrkkttffoorrsscchhuunngg Bei der Planung einer Erhebung ist zunächst der grundlegende Forschungsansatz festzulegen. Abhängig vom verfolgten Untersuchungsziel lassen sich Forschungsansätze in explorative, deskriptive und kausale Studien unterscheiden. Damit zusammenhängend stellt sich auch die Frage, ob der heranzuziehende methodische Ansatz eher qualitativ oder eher quantitativ sein soll. Quantitative Methoden der Marktforschung richten sich insb. auf objektiv und zahlenmäßig messbare Größen. Die Datenerhebung erfolgt im Normalfall auf der Grundlage repräsentativer Stichproben mit dem Ziel, verallgemeinerbare Aussagen zu gewinnen (vgl. Teil 3). Typischerweise erfolgt die Datenauswertung unter Einsatz statistischer Verfahren. Qualitative Methoden stützen sich hingegen auf vergleichsweise kleine Fallzahlen und produzieren relativ „weiche“ Daten. Auf Repräsentativität wird bewusst zugunsten einer tiefergehenden Analyse des interessierenden Sachverhalts verzichtet. Typische Methoden sind Tiefeninterviews und Gruppendiskussionen (vgl. ausführlich Teil 9). Nicht gleichzusetzen sind qualitative und quantitative Forschung mit subjektiver und objektiver Forschung: Zum einen sind beide Ansätze bemüht, objektive - i.S. von wertfreie - Daten zu erheben; zum anderen enthalten auch quantitative Methoden subjektive Elemente, z.B. bei der Auswahl der in die Untersuchung eingehenden Variablen, der Operationalisierung der Konstrukte, der Interpretation der Ergebnisse u.a. Im Folgenden soll auf die einzelnen Forschungsansätze näher eingegangen werden. 33..11 EExxpplloorraattiivvee SSttuuddiieenn Definition Explorative Studien dienen der Gewinnung erster Einsichten zum aktuellen Forschungsproblem. Typischerweise finden explorative Analysen bei neuartigen, komplexen und schlecht strukturierten Forschungsproblemen Anwendung. Erhebungsmethoden im Rahmen explorativer Studien sind Sekundärforschung, qualitative Befragungen und Beobachtungen sowie Fallstudienanalysen. Explorative Studien sind geeignet, komplexe Forschungsprobleme in wohldefinierte Teilprobleme herunterzubrechen und zu präzisieren und dienen somit der Hypothesenfindung. Darüber hinaus ist bei einem konkreten Marketingproblem häufig eine Fülle theoretisch möglicher Erklärungen gegeben - bei einem Umsatzrückgang etwa Missmanagement des Produktmanagers, eine schwache Werbekampagne, Wandel der Kundenbedürfnisse usw. Explorative Studien können hier dazu beitragen, konkurrierende Erklärungen zu erkunden und die vielversprechendsten zu selektieren. Weiterhin können explorative Analysen einen Beitrag zur Operationalisierung von Konstrukten leisten. Beispielsweise kann im Rahmen von Tiefeninterviews festgestellt werden, welche Facetten <?page no="34"?> 34 Forschungsansätze in der Marktforschung das Konstrukt „Kundenzufriedenheit“ beinhaltet; diese Facetten können dann in der Hauptuntersuchung als Items in eine quantitative Repräsentativbefragung eingehen. Der methodische Ansatz ist im Rahmen explorativer Analysen qualitativ; es wird hier also nicht versucht, repräsentative Ergebnisse für die Grundgesamtheit zu gewinnen, sondern es wird eine kleine Gruppe von Untersuchungseinheiten möglichst umfassend und tiefgehend analysiert. In den meisten Fällen werden dabei psychologische oder soziologische Konstrukte untersucht. Aufgrund des zu Beginn einer Untersuchung geringen Kenntnisstands erfordern explorative Studien ein hohes Maß an Flexibilität und Kreativität seitens der Marktforscher; im Zuge des Forschungsvorhabens ist u.U. ein Wechsel der Forschungsmethode erforderlich, um sich dem veränderten Informationsstand anzupassen. Typische Erhebungsverfahren im Rahmen explorativer Analysen sind Sekundärerhebungen sowie (qualitative) Befragungen (z.B. Expertenbefragungen) und Beobachtungen. Auch im Rahmen explorativer Analysen sollten zunächst Sekundärquellen herangezogen werden, da daraus erste Einblicke in mögliche Ursachen des aktuellen Problems gewonnen werden können. Besteht der aktuelle Marktforschungsanlass etwa in einem Umsatzrückgang, so ist das Forschungsproblem grundlegend verschieden, wenn der Marktanteil des Unternehmens (ggf. im Vergleich zum Hauptkonkurrenten) stabil, steigend oder aber ebenfalls gesunken ist. Darüber hinaus ist im Rahmen explorativer Untersuchungen die Fallstudienanalyse gebräuchlich (vgl. Bonoma 1985; Borchard/ Göttlich 2009; Ridder 2020). Hier werden ausgewählte Fälle des zu untersuchenden Sachverhalts intensiv analysiert. Durch das Herausfinden von Gemeinsamkeiten und Unterschieden können erste potenzielle Gesetzmäßigkeiten als Grundlage für die Formulierung von Forschungshypothesen festgestellt werden. Geeignete Fälle sind dabei solche, die Veränderungen aufzeigen (z.B. im Zusammenhang mit der Einführung einer neuen Technologie oder dem Wechsel zentraler Rahmenbedingungen), die Extrembeispiele darstellen (z.B. Fälle besonders erfolgreicher Produkteinführungen vs. Berichte spektakulärer Flops) und welche die Abfolge von Ereignissen im Zeitablauf widerspiegeln. Zu der Analyse ausgewählter Fälle zählt auch das häufig praktizierte Benchmarking. Benchmarking beinhaltet die Identifikation sog. Best Practice-Unternehmen; es handelt sich hierbei um Unternehmen, die bestimmte Aktivitäten im Vergleich zu anderen besonders erfolgreich durchführen (vgl. Horvàth/ Herter 1992). Dabei kann es sich um Konkurrenten aus derselben Branche handeln; besonders innovative Ansatzpunkte lassen sich jedoch auch aus der Analyse branchenfremder Unternehmen gewinnen. Im eigenen Unternehmen können Hinweise durch Vergleiche von erfolgreichen und weniger erfolgreichen Marketingmaßnahmen in der Vergangenheit ermittelt werden (vgl. Böhler et al. 2021, S. 39 f.); Voraussetzung hierfür ist die regelmäßige Erfassung und Aufbereitung unternehmensinterner Daten. Im Rahmen von Primärerhebungen spielen bei explorativen Analysen qualitative Befragungs- und Beobachtungstechniken eine große Rolle. Gebräuchlich sind z.B. Tiefeninterviews und Gruppendiskussionen. Dadurch wird versucht, tiefere Einblicke in die Psychologie der Untersuchungseinheiten - z.B. Konsumenten - zu gewinnen. Gegebenenfalls lassen sich daraus Forschungshypothesen für deskriptive und kausale Studien ablei- <?page no="35"?> Deskriptive Studien 35 ten. Da die verschiedenen Verfahren qualitativer Marktforschung ausführlich in Teil 9 behandelt werden, wird an dieser Stelle nicht näher darauf eingegangen. 33..22 DDeesskkrriippttiivvee SSttuuddiieenn Definition Deskriptive Studien beschreiben marketingrelevante Phänomene und überprüfen konkrete Forschungshypothesen, welche z.B. durch explorative Analysen generiert wurden. Je nachdem, ob die Daten zu einem bestimmten Zeitpunkt oder wiederholt erhoben werden, unterscheidet man zwischen Querschnittsanalysen und Längsschnittanalysen. Viele Marktforschungsvorhaben der betrieblichen Praxis sind als deskriptive Analysen ausgelegt. Typische Ziele deskriptiver Analysen sind: Beschreibung von Sachverhalten und Ermittlung der Häufigkeit ihres Auftretens (z.B.: „Wie viele Konsumentinnen und Konsumentenen gehören zu den Intensivverwendern eines Produkts, wie viele gehören zu den Normalverwendern und wie viele zu den Nichtverwendern? “ „Durch welche Merkmale lassen sich Intensivverwender, Normalverwender bzw. Nichtverwender eines Produkts charakterisieren? “ Ermittlung des Zusammenhangs zwischen Variablen (z.B.: „Führt eine Preissenkung zu einer Erhöhung des Anteils der Verwender eines Produkts? “) Vorhersage von Entwicklungen zur Identifikation eines ggf. vorhandenen Handlungsbedarfs (z.B.: „Wie wird sich nach jetzigem Kenntnisstand der Umsatz in den nächsten fünf Jahren entwickeln? “) Deskriptive Studien gehen von einem genau festgelegten Forschungsziel und einem konkret definierten Informationsbedarf aus; auf dieser Grundlage wird ein detaillierter Marktforschungsplan erstellt, in welchem Inhalte, Methoden, Termine, Zuständigkeiten usw. festgelegt werden. Im Gegensatz zu explorativen Studien werden weniger Flexibilität und Kreativität, sondern vielmehr Objektivität, Validität und Reliabilität der Messungen gefordert (vgl. hierzu Abschnitt 4.2. im 3. Teil). Deskriptive Analysen erfolgen zumeist in Form repräsentativer Teilerhebungen. Der methodische Ansatz bei deskriptiven Studien ist überwiegend quantitativ. Erhoben werden die Daten bei einer großen Anzahl von repräsentativ ausgewählten Untersuchungseinheiten; die Daten werden anschließend umfassend statistisch ausgewertet. Typische Erhebungsmethoden sind dabei die Befragung und die Beobachtung (vgl. die Teile 3 und 4), wobei der (standardisierten) Befragung die größte Bedeutung zukommt. Definition Im Rahmen von Querschnittsanalysen werden Daten erhoben, die sich auf einen bestimmten Zeitpunkt beziehen (z.B. Image des Unternehmens bei den relevanten Zielgruppen). Somit beschreiben sie den Status quo der untersuchten Größen. Typischerweise werden sie auf der Grundlage standardisierter Befragungen oder Beobachtungen durchgeführt. <?page no="36"?> 36 Forschungsansätze in der Marktforschung Querschnittsanalysen stellen die in der Praxis häufigste Form deskriptiver Studien dar. Im Rahmen von Querschnittsstudien werden i.d.R. mehrere Variablen gleichzeitig erhoben; neben der isolierten Betrachtung der Häufigkeitsverteilungen der einzelnen Variablen (z.B. Kaufmenge eines Produkts) werden zumeist auch Häufigkeiten des Auftretens der Ausprägungen mehrerer Variablen gleichzeitig untersucht (z.B. Kaufmenge bei Konsumentinnen und Konsumenten unterschiedlicher Altersgruppen); dies bildet die Grundlage für eine Identifikation und statistische Überprüfung von Zusammenhangshypothesen. Vorteilhaft an Querschnittsanalysen ist die Möglichkeit, relevante Sachverhalte umfassend zu erfassen, mit Hilfe statistischer Methoden zu analysieren und verallgemeinerbare Ergebnisse für die Grundgesamtheit zu gewinnen (entsprechende Qualität der Messverfahren vorausgesetzt). Nachteilig ist zum einen die vergleichsweise oberflächliche Beschreibung der Untersuchungsobjekte; zum anderen darf die Möglichkeit umfassender statistischer Auswertungen nicht darüber hinwegtäuschen, dass häufig nur eine Scheingenauigkeit erreicht wird. Darüber hinaus sind solche Studien vergleichsweise zeit- und kostenintensiv. Definition Im Rahmen von Längsschnittanalysen werden die benötigten Daten wiederholt zu verschiedenen Zeitpunkten erhoben. Somit eignen sich Längsschnittanalysen zur Erfassung von Entwicklungen. Hierbei wird unterschieden zwischen Panelerhebungen, Wellenerhebungen und Kohortenanalysen. Im Rahmen von Panelerhebungen wird derselbe Personenkreis wiederholt zum selben Forschungsgegenstand befragt bzw. beobachtet (vgl. hierzu ausführlich Teil 5); bei Wellenerhebungen ist die Stichprobe bei erneuter Erhebung zwar strukturgleich, sie besteht jedoch aus einem unterschiedlichen Personenkreis. Unter Kohortenanalysen werden Untersuchungen verstanden, bei denen eine nach bestimmten Kriterien (z.B. Geburtsjahr) gebildete Personengesamtheit im Zeitablauf untersucht wird, beispielsweise Millennials. Längsschnittanalysen erlauben zum einen die Anwendung von Verfahren der Zeitreihenanalyse auf die einbezogenen Variablen und bilden damit die Grundlage für Prognosen. Zum anderen ermöglicht die Analyse von Längsschnittdaten auch die Untersuchung des Wechselverhaltens von Untersuchungseinheiten, z.B. Markenwechsel. Darüber hinaus können die aufgezeigten Entwicklungen zu anderen Variablen in Beziehung gesetzt werden, z.B. das Markenwahlverhalten in Abhängigkeit von bestimmten Ausprägungen von Marketingvariablen im Zeitablauf (etwa Werbekampagnen oder Preissenkungen; vgl. Malhotra 2019, S. 99 f.). Zu beachten ist, dass deskriptive Studien zwar - neben der reinen Beschreibung von Sachverhalten - auch den Zusammenhang zwischen Variablen aufdecken können und somit auch zur Erklärung und (Wirkungs-)Prognose beitragen, z.B. Wirkungszusammenhang zwischen Preishöhe und Marktanteil; allerdings werden bei deskriptiven Studien sog. Störgrößen nicht explizit berücksichtigt (z.B. Marketingmaßnahmen der Kon- <?page no="37"?> Kausale Studien 37 kurrenz, konjunkturelle Lage u.a.), sodass die ermittelten Zusammenhänge nicht als kausal i.e.S. zu verstehen sind. 33..33 KKaauussaallee SSttuuddiieenn Definition Mit Hilfe kausaler Studien werden sog. Kausalhypothesen überprüft. Kausalität bedeutet, dass zwischen den untersuchten Variablen Ursache-Wirkungs-Beziehungen bestehen, d.h. eine interessierende Variable wird von einer oder mehreren anderen Variablen beeinflusst. Der methodische Ansatz bei kausalen Studien ist typischerweise quantitativ. Zwar wird auch im Rahmen explorativer Studien nach Ursachen für bestimmte Phänomene gesucht, die Methodik ist dort jedoch qualitativ orientiert, Hypothesen liegen nicht vor. Im Rahmen kausaler Studien liegen hingegen konkrete Forschungshypothesen vor, welche im Detail zu überprüfen und statistisch abzusichern sind. Von deskriptiven Analysen, welche ebenfalls in der Lage sind, Ursache-Wirkungs-Beziehungen aufzudecken, unterscheiden sich kausale Studien durch den Versuch, Störgrößen explizit zu kontrollieren (vgl. Böhler et al. 2021, S. 39). Darüber hinaus handelt es sich bei explorativen und deskriptiven Analysen um sog. „Ex post facto“-Forschung, d.h. bei Untersuchung der Kriteriumsvariable Y wird nachträglich und rückblickend nach möglichen Ursachen gesucht; bei kausalen Studien wird der Zusammenhang hingegen ex ante durch systematische Variation der unabhängigen Variable(n) analysiert. Im Gegensatz zum naturwissenschaftlichen Verständnis von Kausalität - Ursache X führt unter bestimmten Bedingungen immer und zwangsläufig zu Wirkung Y aufgrund natürlicher Gesetzmäßigkeiten - ist Kausalität im sozialwissenschaftlichen Sinne an folgende Aspekte gebunden (vgl. Iacobucci/ Churchill 2010, S. 100): Bei der Untersuchung des Einflusses einer Variablen X auf eine Variable Y wird davon ausgegangen, dass die betrachtete erklärende Variable X eine der möglichen Ursachen für Variable Y ist, jedoch nicht die einzige. Wird ein Einfluss von Variable X auf Variable Y festgestellt, so impliziert dies, dass eine bestimmte Ausprägung von Variable X unter bestimmten Bedingungen eine spezifische Ausprägung der Variable Y wahrscheinlich zur Folge hat; ein strenger deterministischer Zusammenhang zwischen den betrachteten Variablen kann im Allgemeinen nicht angenommen werden. Dass Variable X die Ursache von Variable Y ist, kann im positiven Sinn nie bewiesen werden. Allenfalls kann ein vermuteter Zusammenhang widerlegt werden, dies allerdings auch nur mit einer bestimmten Wahrscheinlichkeit. Kausale Studien erfolgen typischerweise mittels Experimente. Die einzelnen Versuchsanordnungen unterscheiden sich u.a. dadurch, in welcher Form und in welchem Ausmaß Störgrößen explizit berücksichtigt werden. Gemeinsam ist allen Experimenten, dass eine oder mehrere unabhängige Variable(n) durch den Experimentator variiert werden, wobei - im Idealfall - alle anderen Einflussfaktoren kontrolliert werden. Dies erlaubt die <?page no="38"?> 38 Forschungsansätze in der Marktforschung Isolierung der Wirkung der unabhängigen auf die abhängige(n) Variable(n). Als experimentelle Stimuli werden Marketingvariablen herangezogen; als abhängige Variablen werden üblicherweise ökonomische (z.B. Absatzmenge) oder psychologische (z.B. Markenbekanntheit) Variablen untersucht. Zu erwähnen ist, dass Experimente - genauso wie Panelerhebungen und qualitative Verfahren - keine eigenständigen Erhebungsmethoden darstellen, da die Datenerhebung in Form von Befragungen und/ oder Beobachtungen erfolgt. Experimente werden ausführlich in Kapitel 3 in Teil 6 dargestellt. Neben Experimenten können auch Panelerhebungen kausale Zusammenhänge aufdecken, sofern deren Aufbau die Anforderungen an quasi-experimentelle Anordnungen erfüllt (vgl. die Ausführungen in Abschnitt 3.4 in Teil 6). <?page no="39"?> 44 E Etthhiikk iinn ddeerr MMaarrkkttffoorrsscchhuunngg Die Diskussion um ethische Fragestellungen in der Marktforschung ist nicht neu; schon lange befassen sich die einschlägigen Verbände (in Deutschland z.B. ADM und BVM, international ICC/ ESOMAR) mit der Frage, was ethisch „gute“ Marktforschung ist und was nicht. Auch die wissenschaftliche Diskussion befasst sich zunehmend mit ethischen Fragen, insb. im Zusammenhang mit dem Einsatz experimenteller neurowissenschaftlicher Methoden. Für die Marktforschung relevante ethische Aspekte sind dabei der Datenschutz sowie die verschiedenen berufsethischen Prinzipien. 44..11 DDaatteennsscchhuuttzz Datenschutzrechtliche Aspekte werden in Deutschland ausführlich im Bundesdatenschutzgesetz geregelt (BDSG), zuletzt geändert 2015, sowie durch die EU-Datenschutz- Grundverordnung. Ergänzt bzw. spezifiziert wird das BDSG durch entprechende Richtlinien, hier insb. die vom ADM herausgegebene Richtlinie zum Umgang mit Adressen in der Markt- und Sozialforschung (vgl. ADM 2011). Weitere relevante Regelungen finden sich u.a. im Telekommunikationsgesetz (TKG) bzw. im Telemediengesetz (TMG) sowie im Sozialgesetzbuch (SGB). Ziel sämtlicher Regelungen ist der Schutz der Privatsphäre vor unberechtigten Zugriffen von außen. Gegenstand des Datenschutzes sind ausschließlich sog. personenbezogene Daten, also solche, die Rückschlüsse auf Merkmale einzelner Personen zulassen. Dazu gehören nicht nur Namen und Adressen, sondern z.B. auch Aufzeichnungen in videoüberwachten öffentlichen oder privaten Bereichen. Gemäß BDSG ist die Erhebung, Verarbeitung und Nutzung personenbezogener Daten grundsätzlich verboten, jedoch unter bestimmten Bedingungen erlaubt. Zum einen ist die Verwendung personenbezogener Daten gemäß §4 BDSG immer dann zulässig, wenn der Betroffene explizit eingewilligt hat. Voraussetzung hierfür ist allerdings eine angemessene Aufklärung. Weiterhin wird in § 28 geregelt, unter welchen Bedingungen die Verwendung personenbezogener Daten erlaubt ist. Die Verwendung personenbezogener Daten ist allgemein u.a. in folgenden Fällen zulässig: zum Abschluss von Verträgen, bei „berechtigtem Interesse“, wenn keine schutzwürdigen Belange des Betroffenen berührt werden, oder wenn die Daten aus allgemein zugänglichen Quellen stammen (z.B. Telefonbüchern). Die Erhebung und Nutzung personenbezogener Daten für die Markt und Meinungsforschung wird ausdrücklich in § 30a BDSG geregelt. Hiernach ist die Verwendung personenbezogener Daten aus öffentlich zugänglichen Quellen grundsätzlich zulässig; diese Regelung bildet die Grundlage für die Gewinnung von Stichproben in der Marktforschung. Weiterhin wird in den genannten Gesetzen geregelt, unter welchen Bedingungen Adressdaten weitergegeben werden dürfen. Das TKG und das TMG sind in dieser Hinsicht deutlich restriktiver als das BDSG, da sie in jedem Falle eine explizite Einwilligung der Betroffenen verlangen. <?page no="40"?> 40 Ethik in der Marktforschung § 30a BDSG: Geschäftsmäßige Datenerhebung und -speicherung für Zwecke der Markt- oder Meinungsforschung (1) Das geschäftsmäßige Erheben, Verarbeiten oder Nutzen personenbezogener Daten für Zwecke der Markt oder Meinungsforschung ist zulässig, wenn 1. kein Grund zu der Annahme besteht, dass der Betroffene ein schutzwürdiges Interesse an dem Ausschluss der Erhebung, Verarbeitung oder Nutzung hat, oder 2. die Daten aus allgemein zugänglichen Quellen entnommen werden können oder die verantwortliche Stelle sie veröffentlichen dürfte und das schutzwürdige Interesse des Betroffenen an dem Ausschluss der Erhebung, Verarbeitung oder Nutzung gegenüber dem Interesse der verantwortlichen Stelle nicht offensichtlich überwiegt. […] (2) Für Zwecke der Markt- oder Meinungsforschung erhobene oder gespeicherte personenbezogene Daten dürfen nur für diese Zwecke verarbeitet oder genutzt werden. […] Für einen anderen Zweck dürfen sie nur verarbeitet oder genutzt werden, wenn sie zuvor so anonymisiert werden, dass ein Personenbezug nicht mehr hergestellt werden kann. (3) Die personenbezogenen Daten sind zu anonymisieren, sobald dies nach dem Zweck des Forschungsvorhabens, für das die Daten erhoben worden sind, möglich ist. Bis dahin sind die Merkmale gesondert zu speichern, mit denen Einzelangaben über persönliche oder sachliche Verhältnisse einer bestimmten oder bestimmbaren Person zugeordnet werden können. […] 44..22 BBeerruuffsseetthhiisscchhee PPrriinnzziippiieenn Berufsethische Prinzipien und berufsständische Verhaltensregeln sind Regelwerke, denen sich Mitglieder der Marktforschungsverbände verpflichten, ggf. auch über die geltenden gesetzlichen Regelungen hinaus. Von besonderer Relevanz ist der ICC/ ESO- MAR Internationaler Kodex für die Markt- und Sozialforschung. Für Deutschland gilt dabei zusätzlich die „Erklärung für das Gebiet der Bundesrepublik Deutschland zum ICC/ ESOMAR Internationalen Kodex für die Markt- und Sozialforschung“, welche von den vier Verbänden herausgegeben wurde (vgl. i.E. Scheffler et al. 2008): ADM Arbeitskreis Deutscher Markt und Sozialforschungsinstitute e.V., Arbeitsgemeinschaft Sozialwissenschaftlicher Institute e.V. (ASI), BVM Berufsverband Deutscher Markt und Sozialforscher e.V. und Deutsche Gesellschaft für Online-Forschung e.V. (DGOF). Eine erste Forderung ist die Wissenschaftlichkeit der Vorgehensweise. Marktforscher, die sich dem ICC/ ESOMAR-Kodex verpflichten, müssen gewährleisten, dass Forschungsaktivitäten dem Ziel der Gewinnung generalisierbarer Erkenntnisse dienen und dass dieses Erkenntnisinteresse mit geeigneten, wissenschaftlich anerkannten Methoden verfolgt wird. Damit soll auch gewährleistet werden, dass die eingesetzten Messverfahren den Qualitätskriterien Objektivität, Reliabilität und Validität entsprechen (vgl. Abschnitt 4.2 im 3. Teil). Dies bedeutet u.a., dass eine verzerrte oder gar verfälschte Darstellung der <?page no="41"?> Berufsethische Prinzipien 41 Untersuchungsergebnisse unzulässig ist - selbst dann, wenn der Auftraggeber dem zustimmt oder dies sogar ausdrücklich wünscht. Darüber hinaus ist im Untersuchungsbericht das Untersuchungsdesign angemessen zu erläutern, Grenzen der Erhebung (z.B. mangelnde Repräsentativität durch hohe Ausfälle) sind explizit offenzulegen. Anders als bei der Erhebung von Daten mit dem Ziel der kommerziellen Nutzung (z.B. Direktmarketing) ist eine zentrale Forderung für die Markt- und Sozialforschung die uneingeschränkte Anonymisierung der Daten, d.h. die erhobenen Daten dürfen an den Auftraggeber und andere Dritte nur in einer Form übermittelt werden, die eine Identifikation der Teilnehmer ausschließt oder nur mit einem unverhältnismäßig großen Aufwand möglich macht (ADM 2011, o.S.). Selbst wenn die Probanden der Weitergabe ihrer Daten explizit einwilligen würden, darf eine solche Einwilligung in der Markt- und Sozialforschung nicht eingeholt werden (Scheffler et al. 2008). Darüber hinaus ist Markt- und Sozialforschung gegenüber anderen Tätigkeiten abzugrenzen. Gemeint sind hier insb. kommerzielle Aktivitäten im Zusammenhang mit Werbung, Verkaufsförderung und Direktmarketing, die keine wissenschaftliche Forschung sind. So ist beispielsweise die Verbindung einer telefonischen Befragung im Rahmen einer Erhebung zur Kundenzufriedenheit mit Maßnahmen der Telefonwerbung, etwa zur Information über ein neues Leistungsangebot, unzulässig. Neben diesen allgemeinen Grundsätzen hat der ADM eine Vielzahl von Richtlinien herausgegeben, welche den Umgang mit besonderen Methoden oder Personengruppen betreffen (Details siehe www.adm-ev.de): Richtlinie für die Aufzeichnung und Beobachtung von Gruppendiskussionen und qualitativen Einzelinterviews Richtlinie für den Einsatz von Mystery Research in der Markt-und Sozialforschung Richtlinie für Studien im Gesundheitswesen zu Zwecken der Markt- und Sozialforschung Richtlinie für telefonische Befragungen Ergänzung der Richtlinie für telefonische Befragungen zum Anzeigen der Rufnummer Ergänzung der Richtlinie fur telefonische Befragungen zur berufsethischen Selbstbeschränkung und zum Einsatz automatischer Wähleinrichtungen bei telefonischen Interviews Richtlinie für die Befragung von Minderjährigen Richtlinie für die Veröffentlichung von Ergebnissen der Wahlforschung Richtlinie zum Umgang mit Adressen in der Markt- und Sozialforschung Richtlinie zum Umgang mit Datenbanken in der Markt- und Sozialforschung Richtlinie für Online-Befragungen Richtlinie für den Einsatz von Datentreuhändern in der Markt- und Sozialforschung Richtlinie für Untersuchungen in den und mittels der Sozialen Medien (Soziale Medien Richtlinie) <?page no="42"?> 42 Ethik in der Marktforschung Wichtige Grundsätze, welche in den genannten Richtlinien enthalten sind, betreffen insb. den Schutz der Probanden. So ist die Teilnahme von Versuchspersonen freiwillig; aus der Nichtteilnahme darf niemandem ein persönlicher Nachteil entstehen. Zu jedem Zeitpunkt des Projekts - auch im Falle einer vorangegangenen Zustimmung - können die Teilnehmenden ihre Mitarbeit verweigern. Darüber hinaus sind bei Forschungsvorhaben, die auf einer zulässigen verdeckten Beobachtung beruhen, die Teilnehmenden anschließend über die erfolgte Beobachtung aufzuklären („debriefing“), und es ist nachträglich deren schriftliches Einverständnis zur Verwendung der Daten einzuholen. Die von den Testpersonen zu bearbeitenden Aufgaben dürfen zudem zu keinerlei körperlicher oder geistiger Beeinträchtigung führen. Forschungsvorhaben mit Kindern und Jugendlichen bedürfen über die hier genannten Grundsätze hinaus der schriftlichen Zustimmung mindestens eines Erziehungsberechtigten. Große Unsicherheit herrscht derzeit noch bei ethischen Fragen im Zusammenhang mit apparativen neurowissenschaftlichen Methoden (vgl. Abschnitt 2.2 in Teil 4). Erste Ansätze zur Entwicklung von Ethik-Kodices, z.B. der NMSBA Code of Ethics oder der Neuromarketing Code of Ethics von Murphy et al. (2008), sind derzeit im Aufbau (vgl. die ausführliche kritische Darstellung bei Hensel et al. 2017). In jedem Fall sind die vorhandenen Richtlinien, z.B. von ADM und ICC/ ESOMAR, kontinuierlich zu überarbeiten, um den neuen Entwicklungen gerecht zu werden. Für den Umgang mit den neuen Verfahren schlägt Scheffler (2010, S. 46) eine eindeutige Zuordnung der (apparativen) Methoden zu den folgenden fünf Gruppen vor: Verfahren, für die keine Information und Genehmigung der Testpersonen erforderlich ist, etwa Videoaufnahme im öffentlichen Raum; Verfahren, bei denen eine allgemeine Information der Testpersonen ausreichend ist, z.B. Videoerfassung am Point of Sale; Verfahren, bei denen eine Opt-out-Möglichkeit ausreichend ist, z.B. Möglichkeit zur Ablehnung von Cookies; Verfahren, die eine ausführliche Aufklärung der Testpersonen und deren ausdrückliche Zustimmung (Opt-in) erfordern, z.B. Eye Tracking, Facial Coding, Hautwiderstandsmessung, fMRT; Verfahren, deren Einsatz in der Marktforschung ausdrücklich verboten ist, da sie die körperliche oder geistige Gesundheit des Probanden beeinträchtigen können. Dazu gehören invasive Verfahren wie die PET (Positronen-Emissions-Tomographie), bei welcher radioaktive Isotope injiziert werden, oder die Erzeugung unzumutbarer psychischer Stresssituationen. Weiterführende Literatur Bonoma, T.V. (1985): Case Research in Marketing: Opportunities, Problems, and a Process, in: Journal of Marketing Research, 22(2), 199-208. Borchard, A., Göttlich, S.E. (2009): Erkenntnisgewinnung durch Fallstudien, in: Albers, S., Klapper, D., Konradt, U., Walter, A., Wolf, J. (Hrsg.): Methodik der empirischen Forschung, 3. Aufl., Wiesbaden, 33-48. Grundei, J. (2000): Die Organisation der Marktforschung. Gestaltungsmöglichkeiten und Effizienzbewertung, Diskussionspapier 2000/ 2, Wirtschaftswissenschaftliche Dokumentation, Fachbereich 14, TU Berlin, Berlin. <?page no="43"?> Berufsethische Prinzipien 43 Ridder, H.-G. (2020): Case Study Research. Approaches, Methods, Contribution to Theory, Reihe: Sozialwissenschaftliche Forschungsmethoden, Band 12, 2. Aufl., München, Mering. Scheffler, H., Meulemann, H., Dittrich, W., Wenzel, O. (2008): Erklärung für das Gebiet der Bundesrepublik Deutschland zum ICC/ ESOMAR Internationalen Kodex für die Markt- und Sozialforschung, o.O. Hensel, D., Wolter, L., Znanewitz, J. (2017): A Guideline for Ethical Aspects in Conducting Neuromarketing Studies, in: Thomas, A.R., Pop, N.A., Iorga, A.M., Ducu, C. (eds.): Ethics and Neuromarketing - Implications for Market Research and Business Practice, Berlin u.a., 65-87. <?page no="45"?> TTeeiill 22: : SSeekkuunnddäärr" LLiitteerraattuurr-uunndd MMeettaaaannaallyysseenn Diese Gruppe von Verfahren beruht darauf, dass keine originären Daten vom Forscher erhoben werden, sondern auf bereits vorhandenes Datenmaterial zurückgegriffen wird. Zwischen den drei Ansätzen bestehen zahlreiche Gemeinsamkeiten, jedoch auch einige Unterschiede, auf welche im Folgenden eingegangen wird. 11 S Seekkuunnddäärrffoorrsscchhuunngg 11..11 CChhaarraakktteerriissiieerruunngg ddeerr SSeekkuunnddäärrffoorrsscchhuunngg Definition Unter Sekundärforschung versteht man die Suche, Sammlung, Sichtung und Auswertung von Daten, die zu einem früheren Zeitpunkt, ggf. auch zu einem anderen Zweck bereits erhoben wurden. Sekundäranalysen nehmen somit eine erneute Analyse und Auswertung von Daten aus früheren Studien unabhängig von deren ursprünglichen Bezugsrahmen oder Erhebungszweck vor (vgl. Friedrichs 1990, S. 353). Damit beinhaltet die Sekundärforschung („desk research“) die Ausschöpfung von bereits vorhandenem Datenmaterial unter dem speziellen Blickwinkel der aktuellen Fragestellung. Charakteristisch ist dabei, dass die Prozesse der Datensammlung und der Datenauswertung und -interpretation entkoppelt sind (vgl. Lueginger/ Renger 2013, S. 4). Eine theoriegeleitete Sekundäranalyse geht über eine reine Sammlung und Beschreibung von Daten aus Sekundärquellen hinaus und vollzieht sich in den folgenden Schritten (vgl. Lueginger/ Renger 2013, S. 5; Friedrichs 1990, S. 357 ff.): Formulierung der Forschungsfrage und des theoretischen Bezugsrahmens, Konzeptualisierung und Bildung erster Hypothesen als Grundlage für die Sichtung und Strukturierung des Materials, Entwicklung von Einschlussksriterien im Hinblick auf Art der Daten, Stichproben und relevanten Variablen, Materialsuche, Materialanalyse (u.a. Prüfung von dessen Angemessenheit für den gewählten Bezugsrahmen, Prüfung auf die Notwendigkeit einer Rekodierung der Daten, z.B. aufgrund fehlender Kategorien), Überarbeitung der Konzeptualisierung und Modifikation der gebildeten Hypothesen, Datenauswertung, Interpretation und Präsentation der Ergebnisse. Sekundäranalytische Verfahren tragen zur Theoriebildung bei, indem theoretische Ansätze formuliert und überarbeitet, Phänomene mittels dieser Verfahren beschrieben oder <?page no="46"?> 46 Sekundärforschung erklärt und bereits vorhandene Studien kritisch evaluiert werden. Zudem liefern sie die Datenbasis zur Durchführung von Metaanalysen (vgl. Lueginger/ Renger 2013, S. 6). 11..22 QQuueelllleenn ddeerr SSeekkuunnddäärrffoorrsscchhuunngg Quellen der Sekundärforschung für das Marketing können unternehmensintern und unternehmensextern sein. Interne Quellen der Sekundärforschung sind insb. bei der Erhebung unternehmensspezifischer Informationen heranzuziehen. Rechnungswesen und Controlling liefern beispielsweise kontinuierliche Informationen über betriebswirtschaftliche Eckdaten (Kostenstruktur, Kostenentwicklung, Bilanzkennzahlen, Deckungsbeiträge usw.). Die Absatz- und Umsatzstatistik ermöglicht Einblicke in die Leistungstiefe eines Unternehmens, seiner Geschäftsbereiche, Märkte und Produkte. Eine weitere wichtige Quelle sind frühere Erhebungen des Unternehmens. Tabelle 2.1 gibt einen Überblick über wichtige unternehmensinterne Quellen der Sekundärforschung. T Taabb.. 22..11: : Ausgewählte unternehmensinterne Quellen der Sekundärforschung Quellen Beispiele Rechnungswesen und Controlling Kostenstruktur und -entwicklung Deckungsbeiträge Bilanzkennzahlen Rentabilität/ Gewinn Absatz- und Vertriebsstatistik Auftragseingänge und -bestände Außendienstberichte Kundendienstberichte (Garantiefälle, Reklamationen, Mahnungen etc.) Vertriebswegeerfolgskennziffern Produktions- und Lagerstatistik Produktionskapazität Kapazitätsauslastung Lagerbestände Frühere Primärerhebungen Produktanalysen Kundenanalysen Wettbewerbsanalysen Imageanalysen Damit diese Daten für Marketingentscheidungen herangezogen werden können, sollten sie in entscheidungsrelevanten Untergliederungen vorliegen, z.B. nach: Produkten bzw. Produktgruppen, Verkaufsgebieten, Absatzwegen, Kunden bzw. Kundengruppen, Auftragsgrößenklassen usw. (vgl. Böhler et al. 2021, S. 64). <?page no="47"?> Quellen der Sekundärforschung 47 Durch die regelmäßige Erfassung und Speicherung o.g. Daten kann das Unternehmen eine interne Datenbank aufbauen, von welcher relevante Informationen jederzeit abrufbar sind. Zu beachten ist, dass die technischen Möglichkeiten moderner IT-Systeme solche Datenbanken sehr schnell zu einer kaum mehr handhabbaren Datenfülle führen. Zur Auswertung umfangreicher Datenbestände hat sich das sog. Data Mining etabliert (vgl. Petersohn 2005). Mit Hilfe des Data Mining wird das Verbraucherverhalten modelliert; als Analysemethoden werden klassische multivariate Verfahren der Datenanalyse wie Regressionsanalyse, Clusteranalyse und Diskriminanzanalyse, aber auch neuere Ansätze wie z.B. Neuronale Netze eingesetzt. Externe Quellen sind insb. zur Erhebung von Informationen über die globale Umwelt sowie von Brancheninformationen von Bedeutung. Sie können als Printprodukte oder auch in elektronischer Form vorliegen. Tabelle 2.2 gibt einen Überblick über wichtige unternehmensexterne Quellen der Sekundärforschung. Globale Umweltdaten (gesamtwirtschaftliche, politische, technologische Rahmendaten etc.) werden von diversen Institutionen regelmäßig erhoben und veröffentlicht. Die Publikationen der amtlichen Statistik (z.B. Statistisches Jahrbuch für die Bundesrepublik Deutschland oder die Zeitschrift „Wirtschaft und Statistik“) liefern Informationen auf gesamtdeutscher Ebene, wohingegen Informationsmaterialien der statistischen Ämter von Ländern und Gemeinden differenziertere Daten zu einzelnen Regionen bzw. Gemeinden bereitstellen. Ministerien und staatliche Institutionen veröffentlichen ebenfalls allgemeine Wirtschaftsdaten, aber auch spezifische Informationen zu bestimmten Branchen. Detailliertere Brancheninformationen erhält man darüber hinaus von Wirtschaftsverbänden. Neben Branchenstatistiken, Branchenberichten und Betriebsvergleichen bereiten viele Verbände Daten amtlicher und nichtamtlicher Quellen für ihre Verbandsmitglieder auf. Wertvolle Informationen sind von wirtschaftswissenschaftlichen Instituten erhältlich. Gerade wissenschaftliche Einrichtungen wie Universitäten, Forschungsinstitute u.ä. ermöglichen den - häufig kostenlosen - Zugriff auf aktuelle Forschungsberichte und Wirtschaftsdaten. So befasst sich z.B. das Ifo-Institut München insb. mit Konjunkturforschung sowie mit der Erforschung von Struktur und Entwicklung einzelner Wirtschaftszweige. Mit Fragestellungen im Zusammenhang mit dem Handel befassen sich das Institut für Handelsforschung (Köln) sowie die Forschungsstelle für den Handel (Berlin). Auch Marktforschungsinstitute liefern zahlreiche Sekundärmaterialien insb. in Form von Studien und Forschungsberichten zu speziellen Fragestellungen wie auch Paneldaten. Eine wichtige Quelle für Wettbewerbsinformationen liefern auch Unternehmensveröffentlichungen, z.B. Imagebroschüren, Kataloge, Geschäftsberichte. Unternehmensdaten können mittlerweile häufig über deren Website abgerufen werden. Viele Medienunternehmen unterhalten darüber hinaus Archive mit den verschiedensten Informationen, u.a. auch aktuelle Marketingstudien, wie z.B. werben&verkaufen (www.wuv.de). Eine immense Bedeutung für die Beschaffung sekundärstatistischer Daten kommt Datenbanken zu. Die Fortschritte in der Kommunikations- und Informationstechnologie haben gerade in den letzten Jahren dazu geführt, dass eine Vielzahl externer Datenbanken einem wachsenden Kreis von Nutzern zu akzeptablen Kosten zur Verfügung steht. Dadurch werden Recherchen zum einen erheblich beschleunigt, zum anderen bieten solche Datenbanken enorme Vorteile im Hinblick auf Aktualität, Quantität und Qualität der verfügbaren Informationen. <?page no="48"?> 48 Sekundärforschung TTaabb.. 22..22: : Ausgewählte unternehmensexterne Quellen der Sekundärforschung Quellen Beispiele Amtliche Statistik Statistisches Bundesamt Statistische Landesämter Statistische Ämter der Gemeinden Statistisches Amt der Europäischen Gemeinschaften Ministerien und staatliche Institutionen Bundes- und Landesministerien (z.B. für Wirtschaft, Finanzen, Landwirtschaft) Öffentliche Anstalten, Ämter und Verwaltungen (z.B. Kraftfahrtbundesamt, Bundesagentur für Arbeit, Industrie- und Handelskammern) Internationale Behörden (z.B. EU, OECD, UNCTAD) Internationale Organisationen (z.B. IWF, Weltbank, FAO) Wirtschaftsverbände Bundesverband der Deutschen Industrie (BDI) Zentralverband Elektrotechnik und Elektronikindustrie (ZVEI) Verband der Automobilindustrie e.V. (VDA) Spezialverbände wie z.B. ZAW (Zentralausschuss der deutschen Werbewirtschaft), Kommunikationsverband etc. Wirtschaftswissenschaftliche Institute IFO-Institut, München Institut für Handelsforschung an der Universität zu Köln Hamburger Weltwirtschaftsinstitut (HWWI) Institut für Weltwirtschaft, Kiel Forschungsstelle für den Handel, Berlin Markforschungsinstitute GfK-Gruppe Kantar Institut für Demoskopie Allensbach Nielsen Allgemeine Fachpublikationen Zeitungen und Zeitschriften Fachbücher, Fachzeitschriften Firmenveröffentlichungen Bibliographien Datenbanken Online-Datenbanken Offline-Datenbanken Internetbasierte Informationsquellen Online-Publikationen Suchmaschinen (z.B. Google) Webkataloge (z.B. Yahoo! ) Link-Listen Soziale Netzwerke (Facebook, Twitter usw.) <?page no="49"?> Quellen der Sekundärforschung 49 Datenbanken sind mittlerweile nahezu flächendeckend online verfügbar; die Anbieter stellen aber oftmals ihre Daten auch offline als DVD oder als Download zur Verfügung. Grundsätzlich betreiben die meisten der in Tab. 2.2 genannten Institutionen eigene Datenbanken. Daneben gibt es spezielle Datenbankanbieter. Zu den Betreibern von Online- Datenbanken zählen: Professionelle Informationsdienste: Als ein wichtiger kommerzieller Anbieter in Deutschland ist GBI-GENIOS (www.genios.de) zu nennen. GENIOS beinhaltet rd. 1500 verschiedene Datenbanken mit mehreren hundert Millionen Dokumenten und bietet den Gateway-Zugriff auf Informationsdienste, wobei datenbankübergreifende Recherchen möglich sind. Weiterhin greift der Anbieter auf über 400 Tageszeitungen und 1000 Fachzeitschriften im gesamten deutschsprachigen Raum zu. GENIOS bietet zudem auch Media Monitoring an, z.B. in Social Media. Amtliche bzw. halbamtliche Institutionen: Dazu gehören z.B. Datenbanken des Statistischen Bundesamtes (www.destatis.de) oder der Industrie- und Handelskammern (www.ihk.de), welche eine Vielzahl - teilweise gebührenpflichtiger - Informationen bereithalten. Das Statistische Bundesamt bietet beispielsweise seit März 2016 mit GE- NESIS-Online eine zweisprachige Datenbank mit einem umfangreichen Datenangebot aus allen Statistikbereichen an. Internationale Organisationen: Datenbanken internationaler Organisationen stellen eine Vielzahl an Daten zu verschiedenen Ländern bzw. Ländergruppen zur Verfügung. Beispiele sind die Weltbank (www.worldbank.org), die OECD (www.oecd.org) oder die Welthandelsorganisation (www.wto.org.) Über den Web-Auftritt der Weltbank (www.worldbank.org) besteht beispielsweise ein (gebührenpflichtiger) Zugang zu den Datenbanken WDI (World Development Indicators) und GDF (Global Development Finance). Marktforschungsinstitute: Den Unternehmen stehen auch (kostenpflichtig) Datenbanken von Marktforschungsinstituten, wie z.B. Nielsen (https: / / global.nielsen.com/ de/ ), GfK (www.gfk.com) sowie Kantar (www. https: / / www.kantar.com/ de), zur Verfügung. Dabei ist der Trend festzustellen, dass Unternehmen ihre Desk Research zunehmend an Marktforschungsinstitute delegieren, welche einen professionellen Umgang mit Sekundärdaten garantieren (insb. im Hinblick auf die Datenqualität). Weitere internetbasierte Quellen der Sekundärforschung sind: Suchmaschinen. Nach Eingabe eines Suchbegriffs erhält der Nutzer eine Liste von Webseiten, die diesen Suchbegriff enthalten. Bekannteste Suchmaschine ist Google. Webkataloge. Diese sind darauf spezialisiert, Quellen redaktionell zu überprüfen, aufzubereiten und die dazugehörigen WWW-Adressen in Themenbereichen zu katalogisieren. Bekanntester Webkatalog ist Yahoo! Link-Listen. Diese beinhalten eine Sammlung von Informationen zu bestimmten Themen in Form von Hinweisen auf themenverwandte Websites. Informationen aus Sozialen Netzwerken wie Facebook oder Twitter. Aus den Posts, Likes/ Dislikes usw. der Nutzerinnen und Nutzer können wesentliche Hinweise für ihre Einstellungen, Motive usw. gewonnen werden (vgl. Abschnitt 1.3 in diesem Teil). <?page no="50"?> 50 Sekundärforschung 11..33 DDiiggiittaalliissiieerruunngg" SSoocciiaall MMeeddiiaa uunndd BBiigg DDaattaa Die „Digitale Revolution“ hat dazu geführt, dass die meisten sekundärstatistischen Informationen digital verfügbar sind, viele davon sogar kostenlos. So führt die Eingabe in Google des Suchbegriffs „Internetnutzung in Deutschland“ zu über 4 Mio. Treffern (Stand: Juli 2022). Durch die Digitalisierung von Informationen und deren Verbreitung über das Internet können somit weite Teile des Informationsbedarfs von Unternehmen gedeckt werden, insb. wenn es um statistisches Datenmaterial geht. Neue Impulse für die Marktforschung sind durch Social Media wie Facebook, Twitter, YouTube und Google+ entstanden. Bereits durch die in Social Media generierten Nutzerprofile können Unternehmen wertvolle Hinweise über ihre Zielgruppen gewinnen (Soziodemografie, Interessen und Hobbys etc.). Darüber hinaus eignen sich Social Media hervorragend zur Gewinnung sog. Consumer Insights. Hierunter versteht man Einblicke in psychologische Variablen der Konsumenten wir Motive, Einstellungen, Präferenzen. Schließlich können Soziale Netzwerke wie Facebook auch unmittelbar als Plattform zur Rekrutierung von Teilnehmern für Primärerhebungen genutzt werden. Durch laufende Beobachtung der Kommunikationsprozesse in Social Media, z.B. Posts, Uploads von Bildern und Videos u.a., können Unternehmen das Verhalten ihrer Zielgruppen beobachten und für die zielgerichtete Gestaltung des eigenen Leistungsangebots nutzen. Aus diesem Grunde ist eine kontinuierliche und systematische Überwachung der markenbezogenen Kommunikationsprozesse in den verschiedenen Social Media Plattformen erforderlich (Social Media Monitoring). Dies gilt nicht nur für die Kommunikationskanäle, in denen sich das Unternehmen selbst aktiv engagiert (z.B. Corporate Blogs, Facebook- und Twitter-Auftritte oder YouTube-Kanäle), sondern auch in solchen, in denen sich die Zielpersonen unabhängig von der Unternehmenspräsenz austauschen (vgl. Fantapié Altobelli/ Schwarzenberger 2013). Wichtige Einsatzfelder des Social Media Monitoring sind (vgl. Steffen 2008, S. 22 f.): Kundenfeedback zum eigenen Leistungsangebot, Tracking von Markteinführungen, Erkennen von Trends, Frühwarnung bei Bedrohungen der eigenen Reputation und Wettbewerbsbeobachtung. Der Weiteren können die Reaktionen sämtlicher relevanten Akteure auf die eigenen Marketingmaßnahmen (z.B. Werbekampagnen, Produktinnovationen) beobachtet und analysiert werden, um ggf. Kurskorrekturen vorzunehmen. Angesichts der Vielzahl an Social Media Posts - mittlerweile nutzt fast jeder Deutsche mindestens ein soziales Netzwerk - empfiehlt sich der Einsatz spezialisierter Social Media Monitoring Tools; zudem betreiben professionelle Anbieter wie Echobot (www.echobot.de) oder ComScore (www.comscore.com) Social Media Monitoring im Auftrag von Kunden. Diese Anbieter haben sich auf Medienbeobachtung spezialisiert (Digital Media Analytics) und ermöglichen durch spezielle Analysetools eine systematische Auswertung der Flut an Beiträgen in digitalen Medien. Hierdurch kann das Verhalten von Publikum, Marken und Konsumenten im Netz gezielt und strukturiert erfasst werden. <?page no="51"?> Digitalisierung, Social Media und Big Data 51 AAbbbb.. 22..11: : Entwicklung der Anzahl der Internetnutzer weltweit in Milliarden (Quelle: Statista 2023) Nicht nur Social Media, sondern sämtliche Plattformen im Internet stellen potenziell Quellen von Sekundärdaten dar. Mehr als die Hälfte der Weltbevölkerung ist mittlerweile im Internet aktiv (vgl. Abb. 2.1) und erzeugt ein immenses Datenvolumen. Dies wird unter dem Begriff Big Data subsumiert. Als Big Data werden i.a. solche Daten bezeichnet, die die herkömmliche Speicherkapazität von Datenbanken übersteigen. Wesentliche Dimensionen sind hierbei die sog. „4 Vs“ (vgl. IBM 2016; Binder/ Weber 2015, S. 31 ff.): Datenvolumen (Volume): Bis 2025 wird weltweit ein Datenvolumen von 181 Zettabyte und damit eine fast 30fache Steigerung seit 2012 erwartet (vgl. Statista 2022). Geschwindigkeit (Velocity): Sie betrifft die Herausforderung, gespeicherte Daten schnell genug abrufen zu können, um sie für betriebliche Entscheidungen zu nutzen. Vielfalt an Datenformaten (Variety): Daten aus verschiedenen Quellen und in verschiedenen Formaten müssen sinnvoll integriert und aggregiert werden, um qualifizierte Analysen zu ermöglichen; gleichzeitig ist es erforderlich, die traditionellen Forschungsmethoden der qualitativen und quantitativen Marktforschung in diesen Kontext zu integrieren. Wahrheitsgehalt (Veracity) der Daten als Indikator von Zuverlässigkeit und Qualität. Gerade dieser Aspekt ist für betriebliche Entscheidungen von zentraler Bedeutung, da Mängel in der Datenqualität zu Fehlentscheidungen führen. Die Entwicklung hin zu Big Data hatte zur Folge, dass entsprechende Analyse- und Visualisierungstechniken entwickelt werden mussten, um die Datenfülle zu beherrschen. Dazu gehören beispielsweise Flash-basierte Massenspeicher, die einen schnelleren Zugriff auf große Datenbestände ermöglichen, und nichtrelationale Datenbank-Technolo- 1,021,151,371,551,731,982,172,392,562,752,953,223,443,73 4,12 4,594,90 5,30 0,0 1,0 2,0 3,0 4,0 5,0 6,0 AAnnzzaahhll ddeerr IInntteerrnneettnnuuttzzeerr iinn MMiilllliiaarrddeenn Personen, die das Internet mindestens einmal im Monat nutzen (Stand: Januar 2023) <?page no="52"?> 52 Sekundärforschung gien, welche die Speicherung und den Zugang zu unstrukturiertem Datenmaterial ermöglichen (vgl. Nunan/ Di Domenico 2013, S. 509). Unternehmen sehen in den Big Data eine Chance, das Konsumentenverhalten - Motive und Bedürfnisse, Einstellungen, Präferenzen bis hin zum Kauferlebnis selbst - besser zu verstehen. Dadurch gewinnt die Sekundärforschung in Unternehmen an Bedeutung und führt tendenziell zu einer Dezentralisierung der Marktforschungsaktivitäten, da sämtliche Unternehmensbereiche prinzipiell Zugang zu den digitalen Daten haben und ihren eigenen Informationsbedarf selbst befriedigen können (vgl. ausführlich Binder/ Weber 2015). Aber auch Marktforschungsinstitute müssen den Umgang mit Big Data in ihrem Portfolio explizit berücksichtigen. Dies hat zur Folge, dass Marktforschungsinstitute der Sekundärforschung mittlerweile ein größeres Gewicht beimessen und ihre Kompetenzen entsprechend erweitern müssen. Dies betrifft u.a. die digitale Auswertung von Inhalten, die automatische Erkennung von Textbausteinen, die anwendergerechte Visualisierung von Inhalten u.a. Der „grenzenlose Zugang“ zu Big Data darf allerdings nicht darüber hinwegtäuschen, dass ein nachhaltiger Wettbewerbsvorteil nur dann generiert werden kann, wenn die Sammlung, Analyse, Interpretation und Distribution der Informationen im Unternehmen - also der gesamte Prozess der Sekundärforschung mit Big Data - sytematisch, strukturiert und zielorientiert erfolgt. Von besonderer Bedeutung ist der Schritt zwischen der Generierung von Consumer Insights aus Big Data und deren tatsächlicher Nutzung für Management- und Marketingentscheidungen, da gerade an dieser Stelle in der Praxis häufig eine Lücke besteht. Ein Bezugsrahmen für die Implementierung von Big Data in Unternehmen auf der Grundlage eines ressourcenorientierten Ansatzes wird von Erevelles/ Fukawa/ Swayne (2016) vorgeschlagen. Ungeachtet des großen Potenzials für Marketing und Marktforschung wirft diese Entwicklung allerdings eine ganze Reihe ethischer Fragestellungen auf. Dazu gehören beispielsweise der Schutz der Privatsphäre oder die Möglichkeit, die Löschung von in Sozialen Medien hinterlegten Daten zu erwirken (vgl. Nunan/ Di Domenico 2013 sowie die Ausführungen in Kapitel 4 in diesem Teil 1). Rechtliche Probleme insb. im Zusammenhang mit Social Media Marktforschung resultieren u.a. aus (vgl. ausführlich ADM 2016) der technisch kaum möglichen Anonymisierung von Posts, des Urheberrechts für hochgeladene Inhalte, der Verlinkung auf fremde Inhalte und der Messung und Analyse des Nutzerverhaltens im Internet. 11..44 BBeeuurrtteeiilluunngg ddeerr SSeekkuunnddäärrffoorrsscchhuunngg Wesentliche Vorteile der sekundärstatistischen Datengewinnung liegen in der Schnelligkeit und Kostengünstigkeit der Informationsbeschaffung. Selbst kommerzielle Daten von Marktforschungsinstituten verursachen nur einen Bruchteil der Kosten, welche dem Unternehmen entstehen würden, würde es eine entsprechende Studie selbst durchführen oder in Auftrag geben. Auch sind Sekundärquellen für bestimmte Bereiche (z.B. Bevölkerungsstatistik, volkswirtschaftliche Gesamtrechnungen) häufig die einzige verfügbare Quelle. <?page no="53"?> Beurteilung der Sekundärforschung 53 In jedem Fall hat die Sekundärforschung auch die Funktion, die Primärforschung zu unterstützen - zum einen dadurch, dass sie Forschungslücken aufzeigt, die durch Primäranalysen geschlossen werden müssen, zum anderen dadurch, dass sie die Auswertung und Interpretation von Primärdaten erleichtern kann. Insofern können ergänzende Sekundärstudien auch im Anschluss an eine Primärforschung durchgeführt werden, um die Befunde aus der Primärforschung näher zu beleuchten oder zu ergänzen. Des Weiteren ist Sekundärforschung hilfreich, um einen ersten Einblick in die relevante Fragestellung zu liefern. Damit ist sie für explorative Studie geeignet. Nichtsdestotrotz ist Sekundärforschung mit einer Reihe von Nachteilen behaftet. So sind entscheidungsrelevante Daten zu bestimmten Fragestellungen häufig gar nicht verfügbar, oder aber - da sie nicht problemspezifisch erhoben wurden - entsprechen sie nicht exakt der eigentlichen Fragestellung. Ein weiterer Nachteil liegt in der häufig mangelhaften Aktualität der Daten; dieses Problem ist umso gravierender, je dynamischer die Entwicklung der relevanten Variablen ist. Gerade bei internationalen Forschungsprojekten ist die mangelnde Aktualität von Sekundärdaten ein zentrales Problem. Häufig ist die Gliederungssystematik der Sekundärdaten nicht geeignet - etwa, weil das Aggregationsniveau der Informationen zu grob ist. Bei bestimmten Quellen sind zudem die Objektivität, Validität und Reliabilität der Daten zu hinterfragen, insbesondere dann, wenn die Daten zu bestimmten - z.B. politischen - Zwecken erhoben wurden, oder keine Möglichkeit besteht, Einblicke in das methodische Vorgehen bei der Erstellung des Datenmaterials zu gewinnen. Gerade die Informationsflut im Internet erfordert eine sehr genaue Evaluation der Qualität der dort verfügbaren Datenquellen. Darüber hinaus sind Daten aus verschiedenen Quellen oft nicht vergleichbar; so sind definitorische Abgrenzungen häufig unterschiedlich (z.B. „Mittelständische Unternehmen“, „Intensivverwender“), unterschiedliche Forschungsdesigns führen zu abweichenden Ergebnissen usw. Schließlich ist bei Sekundärinformationen keine Exklusivität gewährleistet, da grundsätzlich jeder Interessent Zugang zu den Informationen hat. Dies gilt auch und gerade für die durch Big Data generierten Consumer Insights, die prinzipiell in gleicher Form auch den Wettbewerbern zur Verfügung stehen. Tabelle 2.3 zeigt zusammenfassend die Vor- und Nachteile der Sekundärforschung. T Taabb.. 22..33: Vor- und Nachteile der Sekundärforschung Vorteile Nachteile Schnelligkeit Kostengünstigkeit Mitunter einzige verfügbare Datenquelle Unterstützung der Primärforschung Liefert erste Einblicke in die relevante Fragestellung Mangelnde Verfügbarkeit relevanter Informationen Mangelnde Entsprechung mit dem zu untersuchenden Sachverhalt Mangelhafte Aktualität Ungeeignete Gliederungssystematik Mangelnde Objektivität, Reliabilität und Validität der Daten Mangelnde Vergleichbarkeit Exklusivität nicht gewährleistet <?page no="54"?> 54 Sekundärforschung Trotz der erwähnten Nachteile sollten bei einem konkreten betrieblichen Informationsbedarf zunächst die verfügbaren Quellen der Sekundärforschung ausgeschöpft werden; erst wenn der Informationsbedarf nicht befriedigt werden kann ist eine (oftmals teure) primärstatistische Erhebung in Erwägung zu ziehen. Die Entscheidung zwischen Sekundär- und Primärforschung hängt zudem auch von der Relevanz der benötigten Informationen für die aktuelle Forschungsfrage ab. <?page no="55"?> 22 L Liitteerraattuurr-uunndd MMeettaaaannaallyyssee Nicht zur „klassischen“ Sekundärforschung gehörend, jedoch eng damit verwandt, sind Literatur- und Metaanalysen. Literatur- und Metaanalysen können bis zu einem gewissen Grade den sekundäranalytischen Verfahren zugeordnet werden, da sie wie Sekundäranalysen auf der Verarbeitung von bereits vorhandenen Studien bzw. Primäruntersuchungen basieren (vgl. Lueginger/ Renger 2013, S. 8). Während Literaturanalysen (reviews) dabei auf einem qualitativen Forschungsansatz beruhen, beinhalten Metaanalysen eine quantitative Ergebniszusammenfassung der vorhandenen Studien durch (Neu-)Auswertung des Datenmaterials und der Ergebnisse. Beide Verfahren werden dabei insb. im wissenschaftlichen Kontext eingesetzt und weniger in der praktischen Marktforschung. Die Literaturanalyse bildet die Grundlage für jeglichen wissenschaftlichen Forschungsprozess und beinhaltet eine systematische Suche nach allen für das Forschungsthema relevanten Publikationen (vgl. Lueginger/ Renger 2013, S. 8). Insofern kann die Literaturanalyse als Vorstufe der Metaanalyse gelten, da sie eine Auseinandersetzung mit der bereits bestehenden wissenschaftlichen Literatur beinhaltet. Folgende Ansatzpunkte der Literaturanalyse lassen sich unterscheiden (vgl. Cooper 1989; Hsia 1988): Erarbeitung des aktuellen Forschungsstands zu einer bestimmten Forschungsfrage, vergleichende Darstellung bisheriger Theorien zur Erklärung eines Phänomens, Evaluation der in vorhandenen Studien verwendeten Methoden(n) im Hinblick auf ihre Tauglichkeit und Verwendbarkeit für den aktuellen Forschungsgegenstand. Typischerweise vollzieht sich eine Literaturanalyse in den folgenden Schritten (vgl. Cooper 1989, S. 14; Fink 2014, S. 3): Formulierung von Forschungsproblem und Forschungsziel, Auswahl der Datengrundlage (z.B. wissenschaftliche Datenbanken wie Ebsco, Google Scholar) und der Suchbegriffe für die Recherche, Definition der Einschluss- und Ausschlusskriterien (z.B. Beschränkung auf internationale peer-reviewed Journals, Publikationsdatum, Sprache, bestimmte Populationen u.a.), Materialsammlung (Identifikation der relevanten Publikationen), Beurteilung der Qualität und Relevanz der Publikationen für das aktuelle Forschungsproblem und Auswahl der in der Analyse zu berücksichtigenden Publikationen, Analyse der einbezogenen Quellen nach vordefinierten Kriterien (Untersuchungsmethode, Population und Sample, theoretische Fundierung, zentrale Ergebnisse), Synthese, Interpretation und Präsentation der Ergebnisse. Eine ausführliche Darstellung der Literaturanalyse findet sich z.B. bei Fink 2014. Metaanalysen sind eine quantitative Technik zur Analyse der statistischen Ergebnisse verschiedener Studien mit dem Ziel, ein integratives Gesamtergebnis zu generieren und Unterschiede in den Ergebnissen der einbezogenen Studien zu erklären (vgl. Eisend 2020, S. 1). Neben der Generalisierung eines Phänomens erlaubt eine Metaanalyse die Überprüfung und Evaluation der in den Studien verwendeten methodischen Verfahren auf ihre Konzeption, Operationalisierung, Validität und Reliabilität hin (vgl. Luegin- <?page no="56"?> 56 Literatur- und Metaanalyse ger/ Renger 2013, S. 22). Sie beruht auf einem standardisierten und strukturierten Vorgehen und vollzieht sich typischerweise in den folgenden Schritten (vgl. Eisend 2020, S. 4; Lueginger Renger 2013, S. 19 f.): Abgrenzung des Forschungsproblems, Spezifikation der zu untersuchenden unabhängigen und abhängigen Variablen, Definition von Kriterien für die Auswahl der Primärstudien, Identifikation und Sammlung der einzubeziehenden Studien (Literaturrecherche), Berechnung der sog. Effektstärken, Kodierung der einbezogenen Studien, Datenanalyse sowie Interpretation und Präsentation der Ergebnisse. Im Zusammenhang mit dem Forschungsproblem ist zunächst zu prüfen, ob eine Metaanalyse überhaupt geeignet ist. So ist die Anwendung der Metaanalyse auf empirische quantitative Untersuchungen beschränkt; konzeptionelle Beiträge oder qualitative Studien lassen sich demnach nicht metaanalytisch auswerten, sondern im Wege einer Literaturanalyse. Sind Originaldaten der relevanten Studien zugänglich, empfiehlt sich anstelle einer Metaanalyse eine Sekundäranalyse (Eisend 2020, S. 2 f.). In einem nächsten Schritt sind die zu untersuchenden unabhängigen und abhängigen Variablen zu spezifizieren; dieser Schritt legt somit die Grundgesamtheit der einzubeziehenden Studien fest, da nur solche Studien in Frage kommen, welche statistisch verwertbare Informationen über die interessierenden Beziehungen zwischen unabhängigen und abhängigen Variablen liefern (vgl. Eisend 2020, S. 7). Beispielsweise kann eine Metaanalyse alle Studien berücksichtigen, in welchen die Wirkung der Platzierung eines Produktes im Regal (unabhängige Variable) auf Wahrnehmung und Kaufmenge am Point of Sales (unabhängige Variablen) untersucht wurde. Welche Studien dann konkret in die Metaanalyse einfließen, erfordert - wie auch schon die Literaturanalyse - die Festlegung von Einschlussbzw. Ausschlusskriterien. Dazu gehören die Art der Publikation (z.B. Journal-Artikel oder Konferenzbeitrag, Arbeitspapier etc.), die Sprache (z.B. nur englisch), der Publikationszeitraum (von-bis), Population und Stichproben der Studien, Erhebungsmethode u.a. (Eisend 2020, S. 11 ff.; Lipsey und Wilson 2001, S. 16 ff.). In einem nächsten Schritt ist eine umfassende Literaturrecherche durchzuführen, um die einzubeziehenden Studien zu identifizieren und auszuwählen. Zu beachten ist dabei, dass bei der Auswahl die (methodische) Qualität der Studien in geeigneter Weise zu berücksichtigen ist (vgl. Eisend 2020, S. 11 f.). Liegen die zu berücksichtigenden Studien fest, werden für alle einzubeziehenden Ergebnisse der einzelnen Primärstudien die sog. Effektstärken berechnet. Hierbei handelt es sich um Maßzahlen, welche entweder die Stärke des Zusammenhangs zwischen zwei Variablen beschreiben (bzw. die durch eine zweite Variable erklärte Varianz einer ersten Variablen), oder aber die Größe des Effekts darstellen. Zudem wird die Varianz der Effektstärken berechnet, da je kleiner die Varianz ist, umso genauer sagt die empirische Effektstärke den tatsächlichen Wert in der Grundgesamtheit voraus (vgl. Eisend 2020, S. 16 ff.). Eine ausführliche methodische Darstellung der Verfahren zur Bestimmung der Effektstärke findet sich bei Lipsey und Wilson 2001, S. 34-72). <?page no="57"?> 57 Im Anschluss daran erfolgt die Kodierung der einbezogenen Studien. Hierzu werden Kodierschemata entwickelt, die zum einen die Variablen der einbezogenen Untersuchungen kodieren (im obigen Beispiel etwa die Stichprobengröße, die alternativen Platzierungen im Regal und die Kaufmenge); zum anderen auch die Merkmale, die für die Berechnung der Effektstärken relevant sind (z.B. statistische Maßzahlen wie Mittelwerte, Standardabweichungen, Korrelationen etc.; vgl. im Einzelnen Eisend 2020, S. 4 ff.; Lipsey und Wilson 2001, S. 73 ff.). Im Rahmen der anschließenden Datenanalyse wird eine integrierte Effektstärke über alle Studien ermittelt; darüber hinaus können u.a. Vorzeichentests durchgeführt und die Signifikanzniveaus der Studien integriert werden. Eine ausführliche Darstellung der anspruchsvollen Methodik der metaanalytischen Datenanalyse findet sich bei Lipsey und Wilson 2001. Im anschließenden letzen Schritt erfolgen schließlich die Interpretation und Präsentation der Ergebnisse. Weiterführende Literatur Cooper, H. (1989): Integrating Research. A Guide for Literature Reviews, 2 nd ed., Newbury Park, London, New Delhi. Eisend, M. (2020): Metaanalyse. Reihe: Sozialwissenschaftliche Forschungsmethoden, Band 8, 2. Aufl., Augsburg, München 2020. Erevelles, S., Fukawa, N., Swayne, L. (2016): Big Data Consumer Analytics and the Transformation of Marketing, in: Journal of Business Research, 69(2), 897-904. Fink, A. (2014): Conducting Research Literature Reviews. From the Internet to Paper, 4 th ed., Los Angeles. Lipsey, M.W., Wilson, D.B. (2001): Practical Meta-analysis, Thousand Oaks. Patzer, G. (1995): Using Secondary Data in Marketing Research, Westport. Stewart, D.W., Kamins, M.A. (1993): Secondary Research - Information Sources and Methods, 2 nd ed., Newbury Park. Tirunillai, S., Tellis, G.J. (2014): Mining Marketing Meaning from Online Chatter: Strategic Brand Analysis of Big Data Using Latent Dirichlet Allocation, in: Journal of Marketing Research, 51(4), 463-479. <?page no="59"?> TTeeiill 33: : QQuuaannttiittaattiivvee BBeeffrraagguunngg 11 KKllaassssiiffiikkaattiioonn uunndd CChhaarraakktteerriissiieerruunngg qquuaannttiittaattiivveerr BBeeffrraagguunnggeenn Definition Die Befragung beruht darauf, dass die Testpersonen selbst Auskunft über den Befragungsgegenstand geben. Eine quantitative Befragung (Survey) hat das Ziel, statistisch auswertbare Daten zu generieren und erfolgt als standardisierte Repräsentativerhebung. Dadurch wird es möglich, die Ergebnisse aus der Stichprobe auf die interessierende Grundgesamtheit zu übertragen (Induktionsschluss). Die Befragung ist die am weitesten verbreitete Form der Primärforschung. Eine quantitative Befragung wird immer unter Zugrundelegung eines standardisierten Fragebogens durchgeführt. Die Befragten sollen dabei einen repräsentativen Querschnitt der interessierenden Grundgesamtheit darstellen (vgl. Teil 7). Die Fragen werden vorab festgelegt und sämtlichen Auskunftspersonen mit dem gleichen Wortlaut und grundsätzlich in derselben Reihenfolge gestellt. Im Rahmen einer nichtstandardisierten Befragung erhält der Interviewer hingegen lediglich einen Leitfaden; Ablauf und Fragenwortlaut werden nach freiem Ermessen des Interviewers in Abhängigkeit von der konkreten Befragungssituation fallweise bestimmt. Während standardisierte Befragungen Vorteile im Hinblick auf Vergleichbarkeit und Auswertbarkeit der Antworten haben, bieten freie Befragungen bessere Anpassungsmöglichkeiten an individuelle Situationen und sind somit für explorative, qualitative Studien besonders geeignet; allerdings erfordern sie einen gut geschulten Interviewerstab und bergen darüber hinaus die Gefahr von Verzerrungen aufgrund des hohen Interviewereinflusses. Die qualitative Befragung wird ausführlich in Teil 9 behandelt. Nach der Anzahl der Untersuchungseinheiten kann zwischen Einzel- und Gruppenbefragung unterschieden werden. Den Standardfall bei quantitativen Befragungen bildet die Einzelbefragung (Einzelinterview), bei welcher jeweils nur eine Untersuchungseinheit (z.B. Einzelperson, Haushalt) befragt wird. Hingegen werden bei Gruppenbefragungen mehrere Untersuchungseinheiten gleichzeitig interviewt. Gruppeninterviews werden typischerweise im Rahmen explorativer Studien eingesetzt. Durch Effekte der Gruppendynamik erhofft man sich u.a. den Abbau von Antworthemmungen sowie die Auslösung spontaner Reaktionen und Assoziationen. Quantitative Befragungen können ein- oder mehrmalig erfolgen. Einmalige Befragungen (Ad-hoc-Studien) erfolgen zu einem bestimmten Zeitpunkt; damit erzeugen sie Querschnittsdaten. Mehrmalige Befragungen (Tracking-Studien) beinhalten hingegen wiederholte Befragungen zum gleichen Untersuchungsgegenstand und erzeugen damit Längsschnittdaten. Dadurch sind sie in der Lage, Entwicklungen aufzuzeigen. Die wichtigsten Varianten von Längsschnittstudien werden ausführlich in Teil 5 behandelt. Grundsätzlich können quantitative Befragungen schriftlich, persönlich, telefonisch (Festnetz), online oder mobil (Smartphone, Tablet) administriert werden. Im Rahmen <?page no="60"?> 60 Klassifikation und Charakterisierung quantitativer Befragungen einer schriftlichen Befragung werden die Fragen den Auskunftspersonen schriftlich vorgelegt und von diesen schriftlich beantwortet. Bei einer persönlichen (Face-to-face)-Befragung wird hingegen ein Interviewer eingesetzt, d.h. die Äußerungen der Probanden werden im Wege persönlicher Kommunikation erfasst. Die Fragen werden mündlich gestellt und mündlich beantwortet. In zunehmendem Maße werden persönliche Interviews computergestützt durchgeführt (CAPI). Im Rahmen einer telefonischen Befragung werden entweder Interviewer eingesetzt oder aber Tonbandstimmen. Auch telefonische Interviews werden häufig computergestützt durchgeführt (CATI). Bei einer Online-Befragung handelt es sich um eine Form der unpersönlichen Kommunikation, bei welcher die Auskunftsperson den Fragebogen direkt am Computer im Online-Betrieb beantwortet. Insofern handelt es sich um eine computergestützte Weiterentwicklung der schriftlichen Befragung (CAWI). Mobile Apps erlauben die Durchführung von Befragungen über Smartphones oder Tablets und sind faktisch eine spezielle Form einer Online-Befragung. Tabelle 3.1 zeigt die gängigen Befragungsmethoden wie auch deren wichtigsten Ausprägungen im Überblick. TTaabb.. 33..11: Befragungmethoden bei quantitativen Erhebungen Methode Wichtigste Ausprägungen Schriftliche Befragung Konventionell mit Papierfragebogen Elektronisches Formular Persönliche Befragung Konventionell (PAPI; Paper And Pencil Interview) CAPI (Computer Assisted Personal Interview) Telefonische Befragung CATI (Computer Assisted Telephone Interview) Telefonische Computerbefragung Online-Befragung CAWI (Computer Assisted Web Interview) Interaktives Fernsehen Online-Kiosksystem Mobile Befragung Mobile CATI Mobile Internetbefragung Mobile App Im Zeitablauf hat eine Verschiebung zwischen den einzelnen Befragungsarten stattgefunden (vgl. Abb. 3.1): Waren 1990 noch konventionelle schriftliche Befragungen (paper & pencil) mit rd. 2/ 3 der Interviews dominierend, wurden sie nach und nach durch Telefoninterviews und später durch Online-Befragungen (browsergestützt) ersetzt und machten 2020 nur noch 7 % der Interviews aus. Auch Telefoninterviews wurden mittlerweile von Onlinebefragungen verdrängt; letztere sind von 3 % der Interviews im Jahre 2000 auf 49 % im Jahre 2020 angewachsen. Mobile Apps spielen mit 6 % der Interviews eine noch kleine aber wachsende Rolle. Da die meisten Umfragen mittlerweile computergestützt durchgeführt werden, ist eine Konvergenz der Softwarelösungen und Geräte festzustellen. So ist es prinzipiell unerheblich, ob der Interviewer im Rahmen einer Face-to-face-Befragung das Interview mit <?page no="61"?> 61 Hilfe seines Tablets oder Smartphones durchführt, oder ob die Probanden den Fragebogen im Rahmen einer selbstadministrierten Online- oder mobilen Befragung beantworten. Mittlerweile werden Online-Fragebögen in Deutschland zunehmend auf einem mobilen Device beantwortet. AAbbbb.. 33..11: Anteil der Interviews nach Befragungsarten in Prozent (Quelle: https: / / www.adm-ev.de/ die-branche/ mafo-zahlen/ #interviews_adm22, Abruf vom 22.6.2022) Nach dem Befragungsgegenstand lassen sich quantitative Befragungen in Einthemen- und Mehrthemenbefragungen unterscheiden. Eine Einthemenbefragung erfolgt zu einem einzigen Befragungsgegenstand; hingegen werden die Auskunftspersonen bei einer Mehrthemenbefragung (Omnibusbefragung) zu unterschiedlichen Erhebungsgegenständen befragt. Eine Omnibusbefragung wird im Auftrag mehrerer Auftraggeber durchgeführt, weswegen die auf das einzelne Unternehmen anfallenden Kosten relativ gering sind. Durch die verschiedenen Themen ist der Fragebogen abwechslungsreich, Unternehmen können flexibel „einsteigen“, da typischerweise mehrere regelmäßige Starttermine möglich sind, und die Ergebnisse liegen vergleichsweise zeitnah vor. Allerdings ist die Zahl der Fragen pro Thema eingeschränkt; des Weiteren muss auf Zielgruppenkongruenz wie auch auf Überschneidungsfreiheit der einzelnen Befragungsthemen geachtet werden. Viele Marktforschungsinstitute bieten Omnibusse an, z.B. GfK, Kantar und Ipsos. Aufgrund der langen Rücklaufzeiten bei schriftlichen Erhebungen erfolgt die Administration des Fragebogens dabei typischerweise nur mündlich, telefonisch oder online. 1177 66 2222 1133 2222 3355 4411 2222 77 2211 3344 6655 4499 3388 33 66 2020 2010 2000 1990 Persönliche Interviews Telefonische Interviews Schriftliche Interviews Online-Interviews Interviews per Mobile App <?page no="63"?> 22 M Meetthhooddeenn qquuaannttiittaattiivveerr BBeeffrraagguunngg 22..11 SScchhrriiffttlliicchhee BBeeffrraagguunngg Im Rahmen einer schriftlichen Befragung erfolgt die Datenerhebung ausschließlich unpersönlich über einen (Paper&Pencil-) Fragebogen. Der Fragebogen kann postalisch zugestellt, am Point of Sale oder bei Events ausgelegt oder aber Printerzeugnissen (z.B. Zeitungen, Zeitschriften, Katalogen) beigelegt werden. Nach dem Ausfüllen werden die Fragebögen von den Befragten selbst an die befragende Instanz zurückgeschickt bzw. von einem Institutsmitarbeiter eingesammelt. Zunehmend werden Fragebögen in elektronisch lesbarer Form versendet, z.B. als elektronisches Formular, das einer E-Mail angehängt wird. Dies erleichtert die Dateneingabe in den Computer bzw. letztere erfolgt - ebenso wie die Datenübermittlung an das Marktforschungsinstitut - automatisch. Insgesamt gesehen spielen schriftliche Befragungen mittlerweile jedoch eine nur untergeordnete Rolle (7 % der Interviews im Jahr 2020, vgl. ADM 2022), da sie gerade in den letzten Jahren weitgehend durch Online-Befragungen sowie telefonische Befragungen verdrängt wurden. Vorteilhaft an einer schriftlichen Befragung sind die vergleichsweise geringen Kosten pro Erhebungsfall, da keine Interviewer erforderlich sind. Darüber hinaus sind räumliche Entfernungen unerheblich. Ein weiterer Vorteil liegt darin, dass Verzerrungen aufgrund der Interviewsituation weitgehend entfallen, da aufgrund der unpersönlichen Kommunikationsform keine Beeinflussungsmöglichkeit seitens des Interviewers gegeben ist. Allerdings steht diesen Vorteilen eine ganze Reihe von Nachteilen gegenüber. Ein erstes typisches Problem schriftlicher Umfragen ist die Repräsentativität. Zwar werden standardisierte schriftliche Befragungen i.d.R. bei einer repräsentativ ausgewählten Stichprobe durchgeführt; da die Fragebögen jedoch im Allgemeinen versendet werden, müssen die Adressen der Auskunftspersonen bekannt sein. Postalische Adressen lassen sich relativ einfach ermitteln (z.B. Kundendatenbanken, Telefonverzeichnisse, Adresslisten von Adressenverlagen); allerdings sind solche Adresslisten häufig nicht auf dem neuesten Stand, oder aber sie erfassen die Grundgesamtheit nicht vollständig. E-Mail-Adressen sind deutlich schwieriger zu erfassen und im Rahmen von Befragungen im Konsumgüterbereich nur über Panels von Marktforschungsinstituten nutzbar. Die Repräsentativität schriftlicher Umfragen wird zusätzlich durch eine häufig geringe Rücklaufquote beeinträchtigt, welche vielfach nicht mehr als 5 - 10 % beträgt. Tritt ein systematischer Ausfall von Probanden auf, z.B. aufgrund einer hohen Verweigerungsquote bei bestimmten Bevölkerungsgruppen, ist die Zusammensetzung der Stichprobe nicht mehr repräsentativ. Bei der Gestaltung des Fragebogens ist daher äußerste Sorgfalt anzuwenden, um die Befragten zur gewissenhaften Beantwortung und Rücksendung des Fragebogens zu motivieren (vgl. hierzu Abschnitt 1.3 in diesem Teil). Auch empfehlen sich Nachfassaktionen, um die Rücklaufquote zu steigern. Der Zeitbedarf pro Erhebungsfall ist bei einer schriftlichen Befragung höher als bei einer telefonischen oder einer Online-Befragung, jedoch niedriger als bei einer persönlichen Befragung. Zeitverzögerungen ergeben sich insb. bei notwendig werdenden Nachfassaktionen. <?page no="64"?> 64 Methoden quantitativer Befragung Aufgrund der unpersönlichen Befragungssituation unterliegen schriftliche Befragungen Grenzen im Hinblick auf Fragebogenumfang, Art und Thematik der Fragen. So sollte der Fragebogen möglichst kurz sein, die Bearbeitungszeit sollte 20 Minuten nicht überschreiten. Auch sollten „heikle“ Fragen vermieden werden, da sie Antwortverweigerung herbeiführen. Problematisch ist auch die Tatsache, dass aufgrund der fehlenden Interaktion Verständnisprobleme auftreten können. Eine standardisierte schriftliche Befragung weist aufgrund ihrer Zielsetzung und grundlegenden Konzeption zudem eine nur geringe Flexibilität aus. Ein weiterer Nachteil schriftlicher Befragungen liegt in der Unkontrollierbarkeit der Befragungssituation. Es ist nicht gewährleistet, dass die anvisierte Auskunftsperson den Fragebogen auch selbst ausfüllt; darüber hinaus kann die Reihenfolge der Fragenbeantwortung nicht gesteuert werden. Zudem ist nicht zu verhindern, dass die Auskunftsperson den Fragebogen zunächst vollständig durchliest und durch Vor- und Zurückblättern die Antworten aufeinander abstimmt (vgl. Berekoven et al. 2009, S. 110). 22..22 PPeerrssöönnlliicchhee BBeeffrraagguunngg Die persönliche Befragung (Face-to-face-Interview) stellte früher die am häufigsten eingesetzte Befragungsart dar, sie wurde jedoch - insbesondere aufgrund ihrer vergleichsweise hohen Kosten - von Telefon- und Online-Befragungen verdrängt. Im Rahmen einer persönlichen Befragung stehen sich Befragte und Befragende physisch gegenüber, Fragestellung und Fragenbeantwortung erfolgen somit zur gleichen Zeit und am selben Ort. Persönliche Befragungen können bei der Auskunftsperson zu Hause, auf der Straße, in Einkaufszentren oder in einem Marktforschungsstudio stattfinden. Der Interviewer liest die Fragen aus dem Fragebogen vor - ggf. ergänzt durch Vorlage von Anschauungsmaterialien -, notiert die Antworten der Befragten an den entsprechenden Stellen im Fragebogen und sendet den Fragebogen an das Marktforschungsinstitut zur Auswertung. Mittlerweile sehr verbreitet sind computergestützte persönliche Interviews (Computer Assisted Personal Interviewing, CAPI). Eingesetzt werden entweder Laptops oder zunehmend Tablets und Smartphones. Der Fragebogen wird programmiert und entweder am Endgerät (für Offline-Befragungen) oder in einer Cloud gespeichert (für den Online-Zugriff); der Interviewer liest die Fragen vom Bildschirm seines Laptops oder Tablets ab und gibt die Antworten entweder über die Tastatur oder mit Hilfe eines elektronischen Stiftes über den Touchscreen seines Endgeräts. Die Antworten werden zur Auswertung online auf den Rechner des Marktforschungsinstituts überspielt. Computergestützte Befragungen haben erhebliche Vorteile: Sie sind flexibel einsetzbar, sowohl für Inhome- oder Studiotests wie auch Outdoor auf Events oder am Point of Sales. Die eingesetzte Software erlaubt komplexe Filterführungen und eine dynamische Fragebogenprogrammierung. Ergebnisse können in Echtzeit abgerufen werden. Multimediale Darstellungen wie Bilder oder Videos können problemlos eingebunden werden. <?page no="65"?> Persönliche Befragung 65 Kommerzielle Softwarelösungen erlauben oftmals auch die Erfassung offener Nennungen, da über einen elektronischen Stift handschriftliche Texte eingegeben und erfasst werden können. Einige Softwarelösungen wie z.B. IDSurvey verfügen über Spracherkennung und sind kompatibel mit dem Apple-System Siri. Für CAPI existieren verschiedene kommerzielle Softwarelösungen, z.B. von IdSurvey, SurveyToGo oder mQuest der Firma cluetec (vgl. Abb. 3.2), welche einen sehr komfortablen und flexiblen Einsatz erlauben. Daneben existieren verschiedene kostenlose Apps, die jedoch einen deutlich geringeren Leistungsumfang aufweisen. AAbbbb.. 33..22: : CAPI-Befragung mit mQuest (cluetec GmbH) (Quelle: https: / / www.cluetec.de/ solutions/ mquest/ , Abruf vom 13.10.2016) Die Repräsentativität persönlicher Befragungen ist im Allgemeinen als hoch einzustufen, sofern die Stichprobenbildung auf der Grundlage eines angemessenen Auswahlverfahrens erfolgt. Üblicherweise werden eine Quotenauswahl oder eine mehrstufige Klumpenauswahl vorgenommen (vgl. Teil 7). Die Rücklaufquote ist bei persönlichen Befragungen vergleichsweise hoch, jedoch mittlerweile rückläufig. Problematisch ist auch die mangelnde Erreichbarkeit vieler Auskunftspersonen, insb. tagsüber. Der Zeitbedarf für Face-to-face-Umfragen ist im Vergleich zu den anderen Formen von Befragungen am höchsten - bis zu 45 Minuten pro Interview; dasselbe gilt für die anfallenden Kosten, da der Einsatz von Interviewern sehr kostenintensiv ist. Die Kosten pro Interview sind abhängig vom Umfang des Fragebogens, der anvisierten Zielgruppe (die Rekrutierung von z.B. Ärzten aus einem Panel ist deutlich teurer als eine herkömmliche Haushaltsstichprobe) und von der Art der zu stellenden Fragen. Bei einer ca. 15-minütigen Befragung ist bereits mit Kosten zwischen 15 und 20 Euro pro Interview zu rechnen, bei längeren Befragungen entsprechend mehr. Große Vorteile weist die Face-to-face-Befragung im Hinblick auf die Flexibilität auf. Aufgrund der persönlichen Interaktion können auch komplexere Fragestellungen zugrunde gelegt werden, da Verständnisprobleme sofort ausgeräumt werden können. Der Umfang <?page no="66"?> 66 Methoden quantitativer Befragung des Fragebogens kann größer sein, Art und Thematik der Fragen umfassender als bei schriftlichen Befragungen. Darüber hinaus können auch visuelle Stimuli eingesetzt werden, bei CAPI auch audiovisuelle Materialien. Vorteilhaft ist die Face-to-face-Befragung auch im Hinblick auf die Kontrollierbarkeit der Erhebungssituation, da der Interviewer den Ablauf des Interviews steuern kann. Vollständigkeit der Antworten, Einhaltung der Fragenreihenfolge etc. sind daher eher gewährleistet als bei schriftlichen Umfragen. Große Nachteile weisen Face-to-face-Interviews allerdings in Bezug auf mögliche Verzerrungen durch die Interviewsituation auf. Die Interviewsituation ist zum einen durch die soziale Interaktion von Interviewer und Befragten, zum anderen durch das Befragungsumfeld charakterisiert (vgl. Berekoven et al. 2009, S. 98 f.). Verzerrungen im Rahmen sozialer Interaktion entstehen, wenn die Dialogpartner im Hinblick auf Merkmale wie Alter, Geschlecht, soziale Klassenzugehörigkeit, Bildungsstand, Sprechweise etc. sehr verschieden sind. Sowohl Befragte als auch Interviewer entwickeln ein Bild über den jeweiligen Partner sowie Vorstellungen über die eigene Rolle und die Rolle des Interviewpartners. Bei den Befragten wirkt sich das Bild des Interviewers auf ihr Antwortverhalten aus; beim Interviewer besteht die Gefahr, dass sein Bild der Auskunftsperson seine Art der Fragestellung und die von ihm registrierten Antworten beeinflusst. Um diesen sozialen Interaktionsprozess möglichst ergebnisneutral zu halten, ist eine große Sorgfalt bei der Auswahl und Schulung der Interviewer erforderlich. Zudem sollten Interviewanweisungen möglichst detailliert sein. Auch das Befragungsumfeld kann zu Ergebnisverzerrungen führen, etwa bei der Wahl eines ungünstigen Befragungsorts oder Befragungszeitpunkts, oder aber wenn ein Dritter bei der Befragung anwesend ist. 22..33 TTeelleeffoonniisscchhee BBeeffrraagguunngg Im Rahmen einer telefonischen Befragung kommunizieren Interviewer und Befragte mündlich miteinander, es fehlt jedoch das persönliche Gegenüber. Die Durchführung der Befragung kann von einem Call-Center oder von der Wohnung des Interviewers aus erfolgen. Mittlerweile werden Telefonumfragen nahezu flächendeckend computergestützt durchgeführt (CATI, Computer Assisted Telephone Interviewing). Die Fragen erscheinen für den Interviewer am Bildschirm; der Interviewer liest die Fragen vor und gibt die Antworten direkt in den Computer ein. Die telefonische Befragung wird durch eine spezielle Software gesteuert, wodurch viele Funktionen automatisiert werden. Dazu gehören beispielsweise eine automatische Terminplanung sowie die Quotensteuerung und überwachung. Automatische Wahlprogramme - sog. Auto-Dialer - führen die Telefonschaltung mit Nummernauswahl durch, übernehmen die komplette Filterführung und erlauben eine zufallsgesteuerte Rotation von Statements und Antwortvorgaben. Darüber hinaus zeigen sie Fehler sofort an, transferieren die Daten unmittelbar in die Auswertung und zeigen Zwischenergebnisse an (vgl. Malhotra 2019, S. 194 f.). Die Softwarelösungen sind typischerweise webbasiert und können somit auch für Face-to-face (CAPI) und Online-Umfragen (CAWI) eingesetzt werden. Insofern entsprechen die Vorteile von CATI den im vorangegangenen Abschnitt genannten Vorteilen von CAPI. Ganz ohne Interviewer kommen telefonische Computerbefragungen aus. Im Rahmen von TDE (Touchtone Data Entry) wird der Interviewer durch eine Tonbandstimme ersetzt, <?page no="67"?> Telefonische Befragung 67 die Auskunftsperson antwortet per Tastendruck (z.B.: „Lautet Ihre Antwort ‚ja’, drücken Sie bitte auf die Eins. Lautet Ihre Antwort ‚nein’, drücken sie bitte auf die Zwei.“). Bei IVR (Interactive Voice Response) kann die Auskunftsperson verbal antworten, da der Computer über ein Stimmerkennungsprogramm verfügt. Die Repräsentativität telefonischer Umfragen ist allgemein als hoch einzustufen. Aufgrund der in Deutschland sehr hohen Telefondichte ist die Grundgesamtheit nur unwesentlich eingeschränkt. Allerdings ist zu beachten, dass eine zunehmende Zahl an Nummern im Festnetz nicht eingetragen ist; auch sind Telefonbücher häufig nicht mehr ganz aktuell. Aus diesem Grunde werden Telefonnummern zunehmend nach dem Zufallsprinzip ausgewählt (Random-digit dialing). Zudem ist eine bestimmte Zielgruppe, die sogenannten Mobile Onlys, bei telefonischen Befragungen nicht mehr per Festnetz erreichbar. Um bei CATI-Befragungen die Repräsentativität der Erhebung zu gewährleisten, unterhalten Marktforschungsinstitute mittlerweile auch Panels von Personen mit ausschließlichem mobilem Anschluss. In sog. Dual Frame-Stichproben werden damit Festnetznummern um Mobilfunknummern ergänzt (Kantar 2016, o.S.). Bei Zustandekommen eines Kontakts ist zu gewährleisten, dass die Zielperson am Apparat ist, sofern diese vorbestimmt ist (z.B. aufgrund der Einhaltung von Quotenvorgaben). Soll die Zielperson hingegen zufallgesteuert ausgewählt werden, werden besondere Methoden eingesetzt, z.B. die Geburtsdatum-Auswahl (vgl. Abschnitt 2.3 in Teil 7). Die Antwortquote ist i.d.R. höher als bei schriftlichen Befragungen, sie ist aber sehr themenempfindlich. Bei besonders sensiblen Fragen liegt sie oft bei nur 10%, bei für die Befragten interessanten Themen kann sie aber auch über 80% betragen (vgl. Berekoven et al. 2009, S. 103). Wie bei Face-to-face-Umfragen liegt ein Problem in der schlechten Erreichbarkeit der Auskunftspersonen, wobei das Problem bei Telefonumfragen jedoch nicht so gravierend ist. Hinzu kommt, dass die Erreichbarkeit über das Mobiltelefon zunimmt, sodass mobile Telefonumfragen in der praktischen Marktforschung eine steigende Bedeutung haben. Insbesondere bei computergestütztem Vorgehen wird der Interviewer erheblich entlastet, da das System die Auswahl der Telefonnummern, die Anwahl der Zielpersonen sowie die Auswahl von Ersatznummern bei Fehlversuchen übernimmt. Der Zeitbedarf ist bei telefonischen Befragungen im Vergleich zu den übrigen Befragungsformen am geringsten. Auch die Kosten halten sich in Grenzen. Allerdings ist der Umfang der Befragung eingeschränkt. Die Flexibilität telefonischer Befragungen ist als gering einzustufen: Der Umfang des Fragebogens muss gering sein - die Dauer eines Telefoninterviews sollte 10-15 Minuten nicht überschreiten. Umfangreiche Fragenkomplexe müssen stark aufgegliedert werden, offene Fragen sowie breit gefächerte Antwortkategorien sollten vermieden werden. Hinzu kommt, dass visuelle Hilfen nur eingeschränkt eingesetzt werden können. Pro Interview (CATI) fallen üblicherweise Kosten ab ca. 10 Euro an, diese sind jedoch abhängig vom Umfang des Fragebogens, der Zielgruppe und der Art der Fragen. Im Hinblick auf die Kontrollierbarkeit der Erhebungssituation weisen Telefonbefragungen ähnliche Vorteile wie Face-to-face-Umfragen auf. Das Problem von Verzerrungen aufgrund der Interviewsituation ist zwar gegeben, jedoch nicht so gravierend wie bei Faceto-face-Umfragen. Insbesondere bei zentraler Durchführung von einem Call-Center aus kann die Aktivität der Interviewer besser kontrolliert werden. <?page no="68"?> 68 Methoden quantitativer Befragung 22..44 OOnnlliinnee--BBeeffrraagguunngg Im Rahmen von Online-Befragungen spielen Internet-Befragungen im WorldWideWeb die größte Rolle. Daneben zählen zu den Formen der Online-Befragung die Befragung an Online-Kioskterminals am Point of Sale sowie Befragungen im interaktiven Fernsehen, welche jedoch aufgrund ihrer untergeordneten Bedeutung hier nicht weiter erläutert werden sollen. Derzeit wird rd. die Hälfte der Interviews im Rahmen der Institutsmarktforschung online durchgeführt. Internetbasierte Umfragen haben Gemeinsamkeiten mit einer schriftlichen Befragung; der Unterschied liegt in den informationstechnischen und medialen Charakteristika des Internet. Internet-Befragungen werden mittlerweile fast ausschließlich mit Hilfe sog. CAWI-Systeme realisiert (Computer Assisted Web Interviewing). Die eingesetzten Befragungsserver wurden auf der Grundlage der CATI-Technologie entwickelt. Die Befragung selbst erfolgt mittels eines interaktiv gestalteten Fragebogens, den die Auskunftsperson online am Bildschirm ausfüllt und durch Klicken auf einen „Senden“-Button an die befragende Instanz zurückschickt. Insofern handelt es sich hier um eine Form des CSAQ (Computer Self-Administered Questionnaire). Die ausgereiften technischen Möglichkeiten erlauben u.a.: automatische Filterführung, Einsatz multimedialer Elemente wie Bewegtbild und Ton, Rotation von Items, Fragen und Fragenblöcken, automatisierte Quotensteuerung, Randomisierung von Stimuli in Online-Experimenten, z.B. Conjointanalysen, Ergebnisauswertung in Echtzeit. Probleme weisen viele Online-Befragungen im Hinblick auf die Repräsentativität auf. Die Grundgesamtheit ist auf Untersuchungseinheiten mit Internetzugang beschränkt, die einen speziellen Ausschnitt der deutschen Bevölkerung darstellen. Repräsentative Bevölkerungsumfragen sind also nicht möglich. Aber selbst wenn für bestimmte Themenstellungen die Grundgesamtheit der Internetnutzer interessiert, so ist deren Zusammensetzung erstens nicht bekannt, zweitens ist es nicht möglich, repräsentative Zufallsstichproben zu ziehen (vgl. im Einzelnen Hauptmanns/ Lander 2003). Gebräuchliche Verfahren zur Rekrutierung von Auskunftspersonen wie Online Banner, Links oder Newsletter bewirken, dass die Stichprobe selbstselektierend ist, d.h. sie basiert auf einer freiwilligen Teilnahme der Testpersonen und nicht auf einer aktiven Rekrutierung seitens des Instituts. Das Problem der Selbstselektion kann durch sog. Pop-up-Rekrutierung gemildert werden, da nur jeder n-te Besucher einer Internetseite zur Teilnahme aufgefordert wird; zudem ist die Ausfallquote messbar, da Personen, die nicht an der Umfrage teilnehmen wollen, das Pop-up wegklicken müssen (vgl. Starsetzki 2003, S. 47). Repräsentativ ist die Stichprobe allerdings ebenso wenig wie die aus einem Online-Access-Panel, da die Teilnahme am Panel ebenfalls selbstselektierend ist. Die Antwortquote bei Internet-Befragungen gilt im Allgemeinen als gering, genaue Angaben lassen sich aber nur bei Pop-up-Rekrutierung machen. Neuere Ansätze zur Rekrutierung bestehen über Soziale Netzwerke wie z.B. Facebook, da hierüber sehr große Stichproben generiert werden können. Allerdings handelt es sich hier ebenfalls um eine selbstselektierende Stichprobe, bei welcher die Teilnehmenden i.d.R. über ein vergleichsweise hohes Themeninvolvement verfügen (vgl. Lütters 2009, S. 52). <?page no="69"?> Mobile Befragung 69 Im Hinblick auf den Zeitbedarf weist eine Online-Befragung Vorteile im Vergleich zur schriftlichen und Face-to-face-Befragung auf, wenn sie auch der telefonischen Befragung in dieser Hinsicht unterlegen ist. Deutliche Vorteile weist die Internet-Befragung in Bezug auf die Kosten auf, da ein Interviewerstab nicht erforderlich ist und Druckkosten für Fragebögen sowie die manuelle Eingabe der Antworten entfallen. Pro Testperson werden ab 5 Euro berechnet, je nach Zielgruppe und Umfang des Fragebogens können die Kosten aber auch deutlich höher sein. Nach der ESOMAR Global Prices Study 2014 (vgl. ESOMAR 2014) verursachen Online-Umfragen weltweit durchschnittlich rd. 70% der Kosten einer CATI-Umfrage, CATI kostet wiederum ca. 80% einer Face-to-face- Umfrage (wenn alle drei Optionen angeboten werden). Ein weiterer Vorteil von Internet-Befragungen liegt in ihrer Flexibilität, da ein Internet- Fragebogen nicht auf Text beschränkt ist, sondern multimedial unter Einbindung von Bildern, Ton, Anwendungsprogrammen usw. gestaltet werden kann (vgl. Batinic 2002, S. 81). Allerdings ist auf die technische Infrastruktur der Nutzer Rücksicht zu nehmen (z.B. veraltete Browserversionen, geringe Bildschirmauflösung, langsamer Internetzugang etc.). Untersuchungen haben darüber hinaus gezeigt, dass die wahrgenommene Anonymität bei WWW-Befragungen besonders hoch ist, sodass hier auch sensible Themen untersucht werden können. Wie bei schriftlichen Befragungen können allerdings Verständnisprobleme auftreten, da keine zwischenmenschliche Interaktion stattfindet. Die Kontrollierbarkeit der Erhebungssituation ist einerseits ähnlich zu beurteilen wie bei der schriftlichen Befragung, da nicht gewährleistet ist, dass die anvisierte Auskunftsperson - sofern die Stichprobe nicht selbstselektierend ist - den Fragebogen selbst ausfüllt. Zudem haben häufig mehrere Personen Zugang zu einem Internetanschluss. Andererseits erlauben die automatisierte Filterführung und der Zwang zur Einhaltung der Fragenreihenfolge eine bessere Steuerung des Antwortverhaltens der Befragten. Aufgrund fehlender direkter Interaktion mit der befragenden Instanz gelten Internet- Umfragen als objektiv, d.h. der Interviewereinfluss ist weitgehend ausgeschaltet. Eine Beeinflussung findet allenfalls durch die Gestaltung des Fragebogens statt, wobei durch zufallsgesteuerte Rotation der Fragen Reihenfolgeeffekte vermieden werden. In den letzten Jahren hat die Digitalisierung zu einer Zunahme der sog. Do-it-Yourself- Marktforschung (DiY) geführt. Immer mehr Unternehmen setzen für klassische Standardumfragen Online-Befragungstools wie SurveyMonkey oder Google Customer Survey ein. Dies kann für Marktforschungsinstitute potenziell eine Bedrohung darstellen, zumal die eingesetzten Softwarelösungen immer professioneller werden (vgl. Dreßen 2014). Dies wird in Zukunft u.U. zu einer stärkeren Spezialisierung der Institute auf spezielle Methoden, Zielgruppen oder Branchen führen. 22..55 MMoobbiillee BBeeffrraagguunngg Im Rahmen mobiler Erhebungen wird zwischen mobilen, interviewergestützten CATI- Umfragen und selbst administrierten Befragungen unterschieden. Während erstere lediglich einen Unterfall telefonischer Befragungen darstellen und von Marktforschungsinstituten praktiziert werden, um Undercoverage-Effekte durch sinkende Festnetzanschlüsse zu kompensieren (s.o.), arbeiten selbstadministrierte Verfahren ohne Interviewer, d.h. die Steuerung des Interviews erfolgt über eine Software, welche Fragenreihen- <?page no="70"?> 70 Methoden quantitativer Befragung folge, Filterführung usw. steuert. Zu unterscheiden ist hierbei zwischen mobilen Internet-Umfragen und eigenständigen mobilen Befragungen mit Hilfe einer Mobile App. Bei webbasierten mobilen Umfragen handelt es sich um klassische Internet-Umfragen, die von einem mobilen Endgerät aus wie Smartphone oder Tablet beantwortet werden. Die Einladung zur Teilnahme an der mobilen Umfrage erfolgt per SMS, E-Mail oder passiv, indem ein QR-Code von den Umfrageteilnehmern eingelesen wird, der zur Befragung führt. Zudem können links bzw. Banner zu mobilen Umfragen in Apps integriert werden (vgl. Context Research 2016, o.S.). Zu beachten ist, dass 2016 bereits 90% der unter 35-Jährigen ein mobiles Endgerät nutzten (vgl. Freese 2016, S. 44). Gerade jüngere Zielgruppen, für die die mobile Nutzung des Internets selbstverständlich ist, nehmen an klassischen Online-Befragungen über Smartphone oder Tablet teil; allerdings ist die Abbruchquote deutlich höher als bei Nutzung stationärer Endgeräte. Der Grund liegt meist in einer geringen Nutzerfreundlichkeit, da viele Umfragen für die Beantwortung an einem stationären Rechner konzipiert wurden, zu lang oder zu komplex sind und mobil schlichtweg nicht korrekt wiedergegeben werden (vgl. Freese 2016, S. 44 f.). Aus diesem Grunde ist beim Design einer Online-Befragung deren potenzielle Nutzung an einem mobilen Endgerät unbedingt mit zu berücksichtigen. Eine eigenständige Form mobiler Befragung ist die Befragung über Mobile Apps. Teilnehmer an einem Mobile Panel laden sich eine spezielle Befragungs-App auf ihren Smartphone oder Tablet herunter und können so an Umfragen teilnehmen, die spezifisch für mobile Endgeräte konzipiert wurden. Mehrere Anbieter bieten Mobile Apps an, z.B. appinio oder SurveyMonkey. Diese Form steckt allerdings noch in den Kinderschuhen; 2020 wurden in Deutschland nur 6 % der Interviews mittels Mobile Apps durchgeführt (vgl. ADM 2020, S. 14 und Abb. 3.1). Die Repräsentativität mobiler Marktforschung ist nach dem derzeitigen Stand noch eingeschränkt. Zwar verfügt ein Großteil der deutschen Bevölkerung ab 14 Jahren über ein Mobiltelefon, die mobile Internetnutzung ist jedoch noch nicht flächendeckend verbreitet. Mobile Stichproben verfügen über einen höheren Bildungsstand und sind jünger als der Bevölkerungsquerschnitt, sodass mobile Befragungen für flächendeckende Repräsentativerhebungen derzeit (noch) ungeeignet sind. Für jüngere Zielgruppen sind mobile Befragungen hingegen sehr geeignet, da gerade die Jüngeren im Rahmen von telefonischen oder Face-to-face-Befragungen kaum zu erreichen sind. Da keine Verzeichnisse von Mobilfunknummern existieren, ist das Sampling allerdings nur über Mobile Access Panels (Rekrutierungspools für Mobiltelefonnutzer) möglich (vgl. Maxl/ Döring 2010, S. 27). Dies wirft - wie bereits bei Online-Access-Panels - die Frage nach der Repräsentativität auf, da die Teilnahme am Panel selbstselektierend ist. Der Zeitbedarf pro Erhebungsfall ist bei mobilen webbasierten Umfragen analog zu beurteilen wie bei Internetumfragen. Bei Mobile Apps ist aufgrund der typischen Nutzungssituation von Mobiltelefonen der Fragebogen i.A. 50 % kürzer als bei „klassischen“ Internetumfragen, sodass der Zeitbedarf sogar geringer ist. Hinzu kommt, dass gegenüber Online-Umfragen die Responsezeiten schneller sind (50 % Rücklauf innerhalb der ersten Stunde, vgl. Wallisch/ Maxl 2009). Allerdings können die Datenübertragungsraten derzeit noch nicht mit jenen von DSL-Internetzugängen mithalten. Die Kosten der Befragung sind ebenfalls deutlich geringer als bei konventioneller schriftlicher oder mündlicher Befragung. Eine Befragung mittels Mobile App ist bereits ab 1 Euro pro Testperson möglich. Aus Sicht der teilnehmenden Personen können jedoch bei Teilnahme an einer <?page no="71"?> Mobile Befragung 71 mobilen Befragung erhebliche, nicht kontrollierbare Kosten aus dem Verbindungsentgelten entstehen, was die Akzeptanz einschränken kann. Deutliche Vorteile weisen mobile Befragungen im Hinblick auf die Flexibilität auf, da die Auskunftsperson Ort und Zeit zur Beantwortung von Fragen mit dem Mobiltelefon in vielen Fällen flexibler wählen kann. Besonders interessant sind mobile Befragungen dann, wenn es um Datenerhebung im „moment-of-truth“, also sehr nah an einer Entscheidungssituation geht (zum Beispiel am Point of Sale), oder wenn der Forschungsgegenstand und die Zielgruppe sehr mobile-affin sind (Kantar 2016, o.S.). Allerdings sind die Darstellungsmöglichkeiten deutlich beschränkter als bei anderen Befragungsmedien, zudem ist der Umfang des Fragebogens eingeschränkt. Eine Kontrollierbarkeit der Erhebungssituation ist im hohen Maße gegeben, da ein Mobiltelefon ein Medium der persönlichen Nutzung ist, d.h. beim Anwählen einer bestimmten Mobilfunknummer ist davon auszugehen, dass tatsächlich die anvisierte Auskunftsperson am Apparat ist. Verzerrungen durch die Interviewsituation können nur bei mobilen CATI- Erhebungen eintreten; bei selbst administrierten Methoden, welche hier im Fokus stehen, sind solche Effekte nicht vorhanden. Tabelle 3.2 gibt einen zusammenfassenden Überblick über die Vor- und Nachteile der einzelnen Befragungsformen. Welche Methode im Einzelfall zu wählen ist, hängt vom Forschungsziel, von der angestrebten Informationsqualität sowie vom zeitlichen und finanziellen Budget ab. Die nachfolgenden Angaben dienen daher nur der Orientierung. T Taabb.. 33..22: : Vor- und Nachteile quantitativer Befragungsmethoden Kriterien Schriftliche Befragung Face-toface- Befragung Telefonische Befragung Online- Befragung Mobile Befragung Repräsentativität mittel hoch hoch mittel gering Zeitbedarf pro Erhebungsfall mittel hoch bis mittel niedrig bis sehr niedrig niedrig sehr niedrig Kosten pro Erhebungsfall gering hoch bis mittel gering sehr gering sehr gering Flexibilität gering sehr hoch gering hoch hoch bis sehr hoch Kontrollierbarkeit der Erhebungssituation gering hoch hoch mittel hoch Verzerrungen durch Interviewsituation gering potenziell hoch mittel bis hoch gering gering <?page no="73"?> 33 GGeessttaallttuunngg ddeess FFrraaggeebbooggeennss Im Rahmen der Gestaltung eines Fragebogens erfolgt die Operationalisierung und Umsetzung der Forschungsfrage, d.h. der zu untersuchende Sachverhalt wird in einzelne Variablen zerlegt und in konkrete Fragen umgesetzt. Im Rahmen einer quantitativen Befragung ist der Fragebogen dabei typischerweise standardisiert, d.h. allen Befragten werden dieselben Fragen im selben Wortlaut und in derselben Reihenfolge gestellt. Die Gestaltung des Fragebogens vollzieht sich in mehreren Schritten (vgl. Abb. 3.3). AAbbbb.. 33..33: Prozess der Fragebogengestaltung 33..11 SSppeezziiffiikkaattiioonn ddeess IInnffoorrmmaattiioonnssbbeeddaarrffss Quantitative Studien erfordern ein gewisses Maß an Vorkenntnissen, um geeignete Hypothesen als Grundlage für die Erhebung zu formulieren. Je sorgfältiger der Forscher im Vorfeld einer Untersuchung Forschungsprobleme und Forschungsziele definiert hat, umso einfacher ist in diesem Stadium die Bestimmung des konkreten Informationsbedarfs. Darüber hinaus sollte auf dieser Stufe genau definiert werden, an welche Adressaten sich der Fragebogen richtet, da die Merkmale der Befragten einen großen Einfluss auf die inhaltliche und sprachliche Gestaltung des Fragebogens haben (vgl. Malhotra 2019, S. 320). Fragebogen-Pretest Formale Gestaltung des Fragebogens Festlegung der Reihenfolge der Fragen sowie der Länge des Fragebogens Festlegung der Fragenformulierung und der Antwortmöglichkeiten Festlegung der Befragungstaktik Festlegung des Frageninhalts Festlegung der Befragungsart Spezifikation des konkreten Informationsbedarfs <?page no="74"?> 74 Gestaltung des Fragebogens 33..22 FFeessttlleegguunngg ddeerr BBeeffrraagguunnggssmmeetthhooddee Nach der Spezifikation des konkreten Informationsbedarfs muss die erhebende Instanz bestimmen, in welcher Form die benötigten Daten abgefragt werden sollen. Fragenformulierung, Antwortmöglichkeiten, Länge des Fragebogens usw. hängen sehr stark davon ab, ob die Befragung schriftlich, face-to-face, telefonisch oder elektronisch erfolgt (vgl. Iacobucci/ Churchill 2010, S. 205 und die Ausführungen im vorangegangenen Kapitel 2 in diesem Teil). Beispielsweise müssen Fragebögen für mündliche Befragungen - sei es telefonisch oder face-to-face - eher im Konversationston gehalten werden, da Befragte und Interviewer mündlich interagieren. Fragebögen für schriftliche Befragungen sollten detaillierte Anweisungen zur Beantwortung beinhalten, da kein Interviewer anwesend ist, der bei der Beantwortung Hilfestellung leisten kann. Auch die Festlegung der Antwortmöglichkeiten wird von der Art der Befragung beeinflusst: So ist es beispielsweise nicht sinnvoll, im Rahmen einer telefonischen Befragung eine längere Liste von Marken zu nennen und die Befragten zu bitten, diese in eine Reihenfolge gemäß ihrer Markenpräferenz zu bringen, da die Auskunftspersonen keinerlei Gedächtnisstütze haben, um die Frage zu beantworten. In diesem Fall empfiehlt es sich beispielsweise, die Marken einzeln zu nennen und die Befragten zu bitten, das Ausmaß ihrer Wertschätzung für jede einzelne Marke anhand einer Ratingskala anzugeben. Erfordert die Befragung visuelle Stimuli, ist eine telefonische Befragung ausgeschlossen und auch eine schriftliche wenig empfehlenswert. Die zu wählende Befragungsmethode hängt auch vom ermittelten Informationsbedarf und von der Art den konkret zu erhebenden Daten ab. Beispiel 3.1: Ein US-amerikanisches Unternehmen wollte im Rahmen einer Studie erheben, welche Anteile der Internetnutzer welche Multimedia-Plug-Ins nutzten. Aus Erfahrung wusste das beauftragte Marktforschungsinstitut, dass mindestens ein Drittel der Internetnutzer nicht genau weiß, welche Plug-Ins verwendet werden, insbesondere auch nicht in welcher Version. Aus diesem Grunde wären sowohl eine schriftliche als auch eine mündliche Befragung wenig sinnvoll gewesen, da ein hoher Anteil an Antwortausfällen resultiert wäre. Stattdessen entschied sich das Marktforschungsinstitut für eine Online-Befragung. Den Probanden wurden per Internet Bilder geschickt, welche in verschiedenen Plug-In-Formaten erstellt wurden. Bei jedem Bild mussten die Befragten angeben, ob sie es auf ihren Bildschirmen sehen konnten. Wurde die Frage bejaht, konnte auf das Vorhandensein des zugehörigen Plug-Ins auf dem PC des Nutzers geschlossen werden. Auf diese Weise konnten die Befragten Daten erzeugen, ohne jegliche technische Kenntnisse zu besitzen. Quelle: Grecco/ King 1999 33..33 FFeessttlleegguunngg ddeess FFrraaggeenniinnhhaallttss Auf dieser Stufe ist festzulegen, welchen Inhalt die einzelnen Fragen aufweisen sollen. Zunächst ist darüber zu befinden, ob jede Frage auch wirklich notwendig ist. Jede Frage in einem Fragebogen sollte zusätzliche Informationen erzeugen oder einem anderen, fest definierten Zweck dienen. Sämtliche Fragen sollten daher dahingehend überprüft werden, ob sie für den Untersuchungszweck zwingend erforderlich sind, da überflüssige Fragen den Fragebogen verlängern ohne einen echten Nutzen herbeizuführen (vgl. Mal- <?page no="75"?> Festlegung der Befragungstaktik 75 hotra 2019, S. 322 f.). Allerdings ist es häufig notwendig, auch Fragen zu stellen, die nicht direkt mit dem Forschungsproblem zusammenhängen, etwa, um den Untersuchungszweck zu verschleiern. Insbesondere bei sensiblen Befragungsgegenständen kann es sinnvoll sein, zu Beginn der Befragung einige neutrale „Eisbrecherfragen“ zu stellen, um eine positive Gesprächsatmosphäre zu erzeugen. Um Validität und Reliabilität zu gewährleisten, sind darüber hinaus häufig Kontrollfragen einzubeziehen. Weiterhin ist zu überprüfen, ob einzelne Fragen in mehrere Teilfragen aufzuspalten sind, um z.B. mehrdeutige Antworten zu vermeiden oder aber, weil unterschiedliche Bezugsebenen angesprochen werden. Beispiel 3.2: [1] Mehrdeutige Antworten: „Empfinden Sie die kalorienreduzierten Tiefkühl-Lasagne von X als wohlschmeckend und gesund? “ (ja/ nein) Die Antwort „ja“ ist eindeutig, nicht aber die Antwort „nein“, da unklar ist, ob die Auskunftsperson den Geschmack, die Gesundheit oder beides verneint. Korrekt wäre es, zwei Fragen zu stellen: „Empfinden Sie die kalorienreduzierten Tiefkühl-Lasagne von X als wohlschmeckend? “ (ja/ nein) „Halten Sie die kalorienreduzierten Tiefkühl-Lasagne von X für gesund? “ (ja/ nein) [2] Unterschiedliche Bezugsebenen: „Warum kaufen Sie Babynahrung der Marke X? “ Die möglichen Antworten könnten lauten: „weil sie qualitativ hochwertiger ist als andere Marken“ oder „weil sie mir vom Kinderarzt empfohlen wurde“. Dadurch werden zwei unterschiedliche Bezugsebenen angesprochen: zum einen der Grund für die Bevorzugung der Marke im Vergleich zu Konkurrenzprodukten, zum anderen der Anlass für das Kennenlernen bzw. für die erstmalige Nutzung der Marke. Korrekt wären daher folgende Fragen: „Wie kamen Sie erstmalig dazu, Babynahrung der Marke X zu kaufen? “ „Was gefällt Ihnen besonders an Babynahrung der Marke X? “ 33..44 FFeessttlleegguunngg ddeerr BBeeffrraagguunnggssttaakkttiikk Im Rahmen der Befragungstaktik geht es darum, Auskunftsfähigkeit und Auskunftsbereitschaft der Befragten zu fördern. Häufig sind die Befragten nicht in der Lage, bestimmte Fragen korrekt zu beantworten; eine zu erwartende mangelhafte Auskunftsfähigkeit sollte vom Forscher antizipiert werden, um Antwortausfälle oder falsche Antworten zu vermeiden. Typische Gründe für die Unfähigkeit, bestimmte Fragen zu beantworten, können sein: unzureichende Information, fehlendes Erinnerungsvermögen oder Unfähigkeit, bestimmte Antworten zu artikulieren. <?page no="76"?> 76 Gestaltung des Fragebogens Häufig werden Untersuchungseinheiten zu Themen befragt, worüber sie nur unzureichende oder gar keine Informationen besitzen. Dies kann zum einen einen Antwortausfall zur Folge haben, zum anderen aber auch eine Falschantwort. Beispiel 3.3: Im Rahmen einer US-amerikanischen Studie wurden die Befragten gebeten, das Ausmaß ihrer Zustimmung zu folgendem Statement anzugeben: „Das National Bureau of Consumer Complaints ist ein wirksames Mittel für Konsumenten, um zu ihrem Recht zu kommen, wenn sie ein fehlerhaftes Produkt erworben haben.“ 96,1% der Rechtsanwälte und 95,0% des allgemeinen Publikums äußerten hierzu eine Meinung. Auch unter Vorgabe einer Antwortkategorie „weiß nicht“ äußerten noch 51,9% der Rechtsanwälte und 75,0% des allgemeinen Publikums eine eindeutige Meinung. Das National Bureau of Consumer Complaints war allerdings frei erfunden. Quelle: Malhotra 2019, S. 323 In einem solchen Fall empfiehlt es sich, Filterfragen in den Fragebogen einzubauen, um das Ausmaß der Vertrautheit mit dem Untersuchungsgegenstand zu erfassen (vgl. Schuman/ Presser 1979). Sinnvoll ist auch, „weiß nicht“ als Antwortkategorie vorzusehen, um den Anteil an Falschantworten zu reduzieren. Ein weiterer Grund für fehlende oder falsche Antworten ist die Unfähigkeit der Befragten, sich an bestimmte Sachverhalte genau zu erinnern. Grundsätzlich ist die Erinnerungsfähigkeit eines Ereignisses von folgenden Faktoren abhängig (vgl. Iacobucci/ Churchill 2010, S. 209 f.): subjektive Wichtigkeit, Länge des seither verstrichenen Zeitraums sowie Vorhandensein von Gedächtnisstützen. Allgemein werden subjektiv unwichtige Ereignisse schlechter erinnert als wichtige. Für die meisten Befragten sind Kauf bzw. Nutzung bestimmter Marken, Kaufzeitpunkt etc. von geringer Bedeutung, da sie gegenüber den betreffenden Produkten nur ein geringes Involvement besitzen. Solche Ereignisse werden daher i.d.R. nur dann erinnert, wenn sie zeitlich nicht zu weit zurückliegen. Beispiel 3.4: Die Frage „Wie viele Liter Bier haben Sie in den letzten vier Wochen getrunken? “ ist aus zwei Gründen unglücklich: Erstens wird Bier von den Befragten nicht litersondern flaschenweise konsumiert; an die Anzahl der Liter wird sich also sicherlich spontan niemand erinnern können. Zweitens ist ein Zeitraum von vier Wochen zu lang. Besser wäre die folgende Formulierung: „Wie häufig trinken Sie Bier im Laufe einer typischen Woche? “ weniger als einmal die Woche 1 - 3 Mal die Woche 4 - 6 Mal die Woche täglich <?page no="77"?> Festlegung der Befragungstaktik 77 Typische Fehlerquellen im Zusammenhang mit dem Erinnerungsvermögen sind (vgl. Malhotra 2019, S. 324): Vergessen: Eine Auskunftsperson kann sich an ein Ereignis gar nicht erinnern, obwohl sie davon Kenntnis gehabt hat. Telescoping-Effekt: Die meisten Menschen erinnern Ereignisse als zeitnäher, als es tatsächlich der Fall ist. Erfindung: Die Befragten „erinnern“ Ereignisse, die nie stattgefunden haben. Das Erinnerungsvermögen kann erhöht werden, wenn visuelle oder verbale Gedächtnishilfen angeboten werden (z.B. Produktlisten). Zur Überprüfung des Wahrheitsgehalts der Antworten werden häufig auch fiktive Markennamen einbezogen. Beispiel 3.5: Die Frage „Welche Zahnpastamarken haben Sie in den letzten 6 Monaten verwendet? “ wird wahrscheinlich dazu führen, dass die Auskunftspersonen sich - wenn überhaupt - an nur sehr wenige Marken erinnern. Sinnvoller ist es, den Befragten eine Liste von Marken vorzugeben, auf der sie die genutzten Marken ankreuzen können. Werden fiktive Marken einbezogen, kann zudem auf die (Un-)zuverlässigkeit des Antwortverhaltens geschlossen werden. Mitunter sind die Befragten nicht in der Lage, ihre Antwort zu artikulieren. Dies kann dann vorkommen, wenn die Antwortmöglichkeiten komplexe Sachverhalte betreffen, die sich nicht in Kurzform angeben lassen. In solchen Fällen kann es hilfreich sein, die Antwortmöglichkeiten zu visualisieren. Gerade die modernen, computergestützten Befragungsverfahren erlauben die Einbindung von vielfältigem Anschauungsmaterial. Beispiel 3.6: Die Antworten auf die Frage „Welchen Stil bevorzugen Sie bei Ihrer Wohnungseinrichtung? “ werden - wenn überhaupt - „antik“, „modern“, „keine bevorzugte Stilrichtung“, „pflegeleicht“ u.Ä. umfassen; für einen Möbelhersteller dürften die Antworten jedoch wenig hilfreich sein. Sinnvoller ist es, den Befragten Bilder von Möbeln und sonstigen Einrichtungsgegenständen zu zeigen und nach ihren Präferenzen zu fragen. Auch wenn die Befragten grundsätzlich in der Lage sind, eine bestimmte Frage zu beantworten, sind sie häufig nicht dazu bereit. Folgende Gründe können dafür ursächlich sein: Die Beantwortung erfordert zuviel Zeit und Mühe, die Frage erscheint im gegebenen Kontext als unpassend bzw. ein gerechtfertigter Grund für die geforderte Information wird nicht ersichtlich, oder die Frage berührt einen sensiblen Sachverhalt. Viele Befragte sind nicht willens, zuviel Zeit und Mühe in die Beantwortung von Fragen zu investieren. Aus befragungstaktischen Gründen sollten die Fragen daher so gestellt werden, dass der Beantwortungsaufwand minimiert wird. Ansonsten besteht die Gefahr, dass nicht nur die betreffende Frage nicht oder nur ungenau beantwortet wird, sondern dass die Bearbeitung des Fragebogens als Ganzes abgebrochen wird. <?page no="78"?> 78 Gestaltung des Fragebogens Beispiel 3.7: Bei der Frage „Würden Sie mir bitte sagen, welchen Betrag Sie jährlich für Versicherungen ausgeben? “ ist jede Auskunftsperson i.d.R. prinzipiell in der Lage, die entsprechenden Unterlagen zusammenzusuchen und die Einzelbeträge zusammenzurechnen. Ob die Auskunftsperson hierzu Zeit und Lust hat, ist allerdings fraglich. Einfacher zu beantworten wäre die folgende Fragestellung: „Geben Sie bitte an, welche ungefähren Beträge Sie jährlich für die nachfolgend angeführten Versicherungen bezahlen (in Euro): Unter 200 200 bis unter 300 300 bis unter 400 400 und mehr Weiß nicht Habe ich nicht Wohngebäudeversicherung Hausratversicherung Haftpflichtversicherung … Ausbildungsversicherung Der Forscher kann die entsprechenden Beträge anschließend selbst addieren. Gelegentlich wird die Antwort verweigert, weil die Frage im gegebenen Kontext als unpassend bzw. der Grund für die Frage der Auskunftsperson nicht unmittelbar ersichtlich erscheint. Beispiel 3.8: Die Frage: „Welche der nachfolgend angeführten Länder gehören zu Ihren bevorzugten Urlaubszielen? “ ist unproblematisch, wenn sie in einem Fragebogen zum Thema Freizeit, Urlaub o.Ä. gestellt wird oder das befragende Unternehmen der Tourismusbranche angehört. Wird dieselbe Frage in einem anderen Zusammenhang oder von einem anderen Auftraggeber gestellt - z.B. einem Hersteller von Spirituosen, der nach geeigneten Motiven für eine Werbekampagne sucht - wird die Frage möglicherweise als unpassend empfunden. In diesem Falle empfiehlt es sich, den Kontext zu verändern bzw. ergänzende Statements zu formulieren. Das Unternehmen könnte die Frage z.B. folgendermaßen stellen: „Als namhafter Hersteller qualitativ hochwertiger alkoholischer Getränke ist es unser Anliegen, dass Sie unsere Produkte möglichst überall erhalten. Würden Sie uns daher bitte verraten, in welchen Ländern Sie bevorzugt Ihren Urlaub verbringen? “ Ein besonderes Problem stellt die Behandlung sensibler Befragungsgegenstände dar (vgl. hierzu ausführlich z.B. Lee 1993; Hill 1995; Tourangeau/ Smith 1996). Solche Sachverhalte werden von den Befragten als potenziell bedrohlich oder peinlich angesehen (z.B. politische und religiöse Überzeugungen, Sexualverhalten), sodass mit einer hohen Antwortverweigerungsquote zu rechnen ist. Aber auch bei Befragungsgegenständen, die das Prestige der Befragten berühren (z.B. Einkommen), ist seitens des Forschers große Sorgfalt anzuwenden, weil sonst eine hohe Anzahl von Antwortverweigerungen bzw. Falsch- <?page no="79"?> Festlegung der Befragungstaktik 79 antworten zu erwarten ist. Es gibt jedoch eine Reihe von Techniken, die die Zuverlässigkeit der Antworten deutlich erhöhen können. Sensible Fragen sollten möglichst am Ende des Fragebogens platziert werden. Bis dahin wurde das anfängliche Misstrauen überwunden, und es wurde eine Beziehung zu den Befragten hergestellt, sodass die Neigung, die Frage zu beantworten, höher ist. Eine weitere Möglichkeit besteht darin, sensible Fragen in eine Gruppe neutraler, harmloser Fragen unterzubringen. Dadurch wirkt die betreffende Frage weniger auffällig. Schließlich können auch verschiedene Varianten einer sog. psychotaktischen Befragung herangezogen werden, also eine taktisch geschickte Wahl des Wording (vgl. Hüttner/ Schwarting 2002, S. 92 f.). Die persönliche Betroffenheit der Auskunftsperson kann z.B. dadurch reduziert werden, dass der eigentlichen Frage ein Statement vorangestellt wird, das bestimmte Eigenschaften bzw. ein bestimmtes Verhalten als keinesfalls außergewöhnlich hinstellt. Dadurch erhofft man sich, dass sich die Auskunftsperson als Teil einer Gemeinschaft fühlt und weniger Antworthemmnisse empfindet. Beispiel 3.9: Auf die Frage: „Haben Sie Schulden? Wenn ja: Auf welche Höhe belaufen sie sich? “ wird der Forscher kaum eine ehrliche Antwort erhalten. Besser ist folgende Formulierung: „Die schwache Konjunkturlage und die ständigen Preiserhöhungen führen dazu, dass mittlerweile ein Großteil der Deutschen verschuldet ist. Sind Sie auch davon betroffen? Wenn ja: in welchem Umfang? “ Für bestimmte Fragen - z.B. nach dem Einkommen oder dem Alter - empfiehlt es sich, keine genauen Angaben zu fordern, sondern die Zugehörigkeit zu bestimmten Kategorien abzufragen. Beispiel 3.10: Statt „Wie hoch ist Ihr monatliches Haushaltsnettoeinkommen? “empfiehlt sich folgende Formulierung: „Wenn Sie einmal zusammenrechnen, was nach Abzug von Steuern und Sozialversicherungsbeiträgen in Ihrem Haushalt im Monat übrigbleibt: Wie hoch ist der verbleibende Betrag? “ unter € 1000 € 1000 - unter 2000 € 2000 - unter 3000 € 3000 - unter 4000 € 4000 und mehr Bestimmte Fragen, die die Privatsphäre betreffen, können sehr schnell als zu intim und aufdringlich empfunden werden, sodass ein höherer Anteil an Ausfällen oder Falschantworten entsteht. Problematisch sind auch Sachverhalte, bei denen die Gefahr sozial erwünschter Antworten besteht. Es empfiehlt sich in solchen Fällen, in die Fragestellung eine Rechtfertigung für das - ggf. sozial abweichende - Verhalten der Befragten einzubauen. <?page no="80"?> 80 Gestaltung des Fragebogens Beispiel 3.11: Die Frage „Wie häufig duschen Sie durchschnittlich pro Woche? “ - eine aus der Sicht eines Herstellers von Körperpflegemitteln durchaus wichtige Frage - kann in dieser Form nicht gestellt werden, da viele Befragte aus Gründen sozialer Erwünschtheit häufigeres Duschen angeben werden, als dies in Wirklichkeit der Fall ist. Geeigneter ist folgende Formulierung: „Viele Menschen sind der Ansicht, dass zu häufiges Duschen der Haut schadet. Könnten Sie mir sagen, wie häufig Sie pro Woche durchschnittlich duschen? “ Anstelle des tatsächlich interessierenden Sachverhalts können auch Indikatoren herangezogen werden, von denen auf die interessierende Variable geschlossen werden kann. Beispiel 3.12: Auf die Frage: „Leben Sie gesundheitsbewusst? “ werden viele Befragte aus Prestigegründen mit „ja“ antworten. Besser ist es, Indikatoren wie Konsum von z.B. Alkohol und Tabak, sportliche Aktivitäten, Kauf von Reformhausprodukten etc. abzufragen, da daraus eher auf das tatsächliche Gesundheitsbewusstsein geschlossen werden kann. Das Problem sozial erwünschten Antwortverhaltens (vgl. Grohs et al. 2009) kann auch mit Hilfe sog. Kontrollskalen reduziert werden. Solche Skalen werden im Fragebogen eingebaut und messen die allgemeine Neigung eines Probanden, sozial erwünschte Antworten zu geben. Bekannt ist z.B. die Soziale Erwünschtheitsskala von Crowne und Marlowe (1960). Eine neuere Skala wurde von Winkler/ Kroh/ Spieß (2006) für den deutschsprachigen Raum enwickelt, welche die soziale Erwünschtheit anhand von 6 Items misst, die auf einer 7-stufigen Likert-Skala zu beantworten sind (Beispiel: „Ich habe schon mal zuviel Wechselgeld zurückbekommen und nichts gesagt“, „Ich bin immer ehrlich zu anderen“ u.ä.). Da davon ausgegangen werden kann, dass niemand auf solche Fragen uneingeschränkt mit Ja antworten kann, wenn er ehrlich ist, kann vermutet werden, dass Probanden mit einem hohen Gesamtscore bei den Kontrollfragen in der Tendenz auch bei den anderen Fragen sozial erwünschte Antworten geben. Zur Erfassung problematischer Sachverhalte sind grundsätzlich auch qualitative Befragungstechniken geeignet, insb. projektive Verfahren (vgl. hierzu die Ausführungen in Teil 9). Gebräuchlich ist z.B. die sog. Drittpersonentechnik, d.h. die Frage wird so gestellt, dass die Auskunftsperson angeben soll, wie sich ihrer Ansicht nach Drittpersonen in bestimmten Situationen verhalten würden. Dem liegt die Annahme zugrunde, dass die Auskunftsperson sich von der Frage zwar distanzieren kann, aber implizit ihre eigenen Ansichten bzw. Verhaltensweisen in ihre Antwort hineinprojiziert. Beispiel 3.13: Die Frage „Was ist Ihre Haltung zur Aufnahme von Flüchtlingen in Deutschland? “ wird einen hohen Anteil sozial erwünschter Antworten erzeugen, da nur wenige Befragte ehrlich zugeben würden, dass sie eine ablehnende Haltung zu dieser Frage haben. Besser ist folgende Formulierung: „Glauben Sie, dass viele Deutsche die Aufnahme von Flüchtlingen in Deutschland ablehnen? Wenn ja, warum glauben Sie das? “ <?page no="81"?> Festlegung der Befragungstaktik 81 Ein Ansatz zur Erfassung sensibler Sachverhalte stellt die sog. Randomized Response- Technik dar (vgl. z.B. Warner 1965, Greenberg et al. 1969). Die Grundidee basiert darauf, dass die Auskunftsperson die Fragen paarweise erhält. Eine Frage ist neutral, die andere Frage ist sensiblen Inhalts. Die neutrale Frage weist dabei eine bekannte Wahrscheinlichkeit einer „ja“-Antwort auf. Welche der beiden Fragen die Auskunftsperson beantworten muss, wird per Zufallsprinzip bestimmt. Der Interviewer weiß hier nicht, welche der beiden Fragen die Auskunftsperson beantwortet hat. Unter diesen Bedingungen ist anzunehmen, dass die Auskunftsperson eher eine zutreffende Antwort gibt. Die sensible Frage A: „Haben Sie schon einmal einen Sex-Shop aufgesucht? “ kann beispielsweise mit der Frage B gekoppelt werden: „Haben Sie im Dezember Geburtstag? “. Welche der beiden Fragen die Auskunftsperson zu beantworten hat, kann z.B. durch Ziehung einer Kugel aus einer Urne bestimmt werden, etwa Frage A bei Ziehung einer roten Kugel, Frage B bei Ziehung einer schwarzen Kugel. Der Anteil an Befragten, die schon einmal einen Sex-Shop aufgesucht haben, kann mit Hilfe eines geeigneten statistischen Modells ermittelt werden, da der Anteil der Befragten, die Frage A oder B beantworten müssen, von den Anteilen an roten und schwarzen Kugeln in der Urne gesteuert wird. Im einfachsten Fall einer Gleichverteilung roter und schwarzer Kugeln beträgt die Wahrscheinlichkeit, dass die sensible Frage beantwortet werden muss, genau 0,5. Die Wahrscheinlichkeit, dass eine Auskunftsperson im Dezember Geburtstag hat, ist z.B. aus den Daten einer Volkszählung zu ermitteln. In diesem Beispiel wird sie als 0,07 angenommen. Die Befragung ergibt beispielsweise, dass 15% der Befragten auf Frage A oder B mit „ja“ geantwortet haben. Der Anteil der Befragten, der schon einmal einen Sex- Shop aufgesucht hat, kann dann wie folgt errechnet werden (vgl. Reinmuth/ Geurts 1975). Seien 𝑝𝑝 = Anteil der Befragten, die eine der Fragen mit „ja“ beantwortet haben, 𝑞𝑞 = Wahrscheinlichkeit, dass die Auskunftsperson die sensible Frage A beantworten musste, 𝜋𝜋 � = Anteil der „ja“-Antworten auf die sensible Frage, 𝜋𝜋 � = Anteil der „ja“-Antworten auf die neutrale Frage; dann gilt: 𝑝𝑝 � 𝑞𝑞 ⋅ 𝜋𝜋 � � �1 � 𝑝𝑝� ⋅ 𝜋𝜋 � . Einsetzen der Zahlenwerte ergibt: 0,15 � 0,5 ⋅ 𝜋𝜋 � � 0,5 ⋅ 0,07 ⇒ 𝜋𝜋 � � 0,23 d.h. 23% der Befragten haben schon einmal einen Sex-Shop aufgesucht. Zum Randomized-Response-Modell sind mittlerweile zahlreiche methodische Beiträge erschienen; dessen Anwendung in der Praxis ist jedoch noch nicht weit verbreitet. <?page no="82"?> 82 Gestaltung des Fragebogens 33..55 F Feessttlleegguunngg ddeerr FFrraaggeennffoorrmmuulliieerruunngg uunndd ddeerr AAnnttwwoorrttmmöögglliicchhkkeeiitteenn Im Rahmen der Fragenformulierung ist der Wortlaut der einzelnen Fragen zu bestimmen. Sprachliche Aspekte sind insofern von großer Relevanz, als unglücklich formulierte Fragen zu einer falschen Beantwortung oder gar zur Antwortverweigerung führen können (vgl. Schuman/ Presser 1996, S. 275 ff.). Eine nicht korrekte Beantwortung führt zu Verzerrungen der Ergebnisse, eine Antwortverweigerung zu sog. Missing Values, welche Probleme bei der Datenanalyse verursachen können. Für die sprachliche Gestaltung eines Fragebogens ist daher eine ganze Reihe von Grundsätzen zu beachten (vgl. Malhotra 2019, S. 330 ff.): genaue Definition des Fragengegenstands, verständliche Wortwahl, Vermeidung vager Formulierungen, Vermeidung mehrdeutiger Formulierungen Vermeidung von Suggestivfragen, Vermeidung impliziter Alternativen, Vermeidung verwirrender Anweisungen sowie Vermeidung von Verallgemeinerungen. Der Wortlaut einer Frage muss den Inhalt der Frage so wiedergeben, dass er konkret und exakt definiert wird. Die Frageformulierung sollte daher dahingehend überprüft werden, ob der Fragengegenstand präzise definiert ist, also das Wer? Was? Wann? Wo? Warum? und Wie? aus der Frage eindeutig hervorgehen. Beispiel 3.14: Die Frage „Welche Zahnpastamarke benutzen Sie? “ definiert den Sachverhalt nur unzureichend: Wer: Nur die Auskunftsperson selbst oder der Haushalt? Was: Was ist, wenn im Haushalt verschiedene Marken verwendet werden? Wann: Immer? Zuletzt verwendet? Am häufigsten verwendet? Wo: Zu Hause? Eine bessere Formulierung wäre: „Welche der nachfolgend aufgelisteten Zahnpastamarken wurden im vergangenen Monat in Ihrem Haushalt verwendet? “ Um Missverständnisse zu vermeiden, sollte die Wortwahl verständlich sein und dem sprachlichen Niveau der Befragten angepasst werden. Fremdwörter oder Fachausdrücke, die für den Forscher zum normalen Sprachgebrauch gehören, sind u.U. für die Befragten unverständlich und sollten daher vermieden werden. Beispiel 3.15: Die Frage: „Halten Sie den Distributionsgrad von Marke X für adäquat? “ dürfte bei vielen Befragten auf Verständnislosigkeit stoßen. Besser ist folgende Formulierung: „Wenn Sie Marke X kaufen wollen, was meinen Sie: Ist sie im Handel im Vergleich zu anderen Marken leichter oder schwieriger zu bekommen? “ <?page no="83"?> Festlegung der Fragenformulierung und der Antwortmöglichkeiten 83 leichter genauso leicht schwieriger weiß nicht Um eine korrekte Beantwortung zu erzeugen, sollten vage Formulierungen vermieden werden, d.h. die verwendeten Begriffe dürfen keinen Spielraum für unterschiedliche Auffassungen beinhalten (vgl. ausführlich Schaeffer 1991). Beispiel 3.16: Bei der Frage „Wie häufig nutzen Sie das Internet über Ihr Smartphone oder Tablet? “ mit den Antwortkategorien sehr häufig häufig manchmal nie ist nur die Antwortkategorie „nie“ eindeutig; den übrigen Kategorien dürften unterschiedliche Befragte auch unterschiedliche Bedeutungen zuweisen. Besser sind z.B. folgende Antwortkategorien: täglich mehrmals die Woche mehrmals im Monat seltener nie Vermeidung mehrdeutiger Formulierungen bedeutet, dass aus der Frage deutlich werden muss, was genau zu beantworten ist. Beispiel 3.17: Bei der Frage „Sind Sie mit der Farbe und dem Geschmack des Getränks X zufrieden? “ ist die Antwort „ja“ ist nicht eindeutig, da unklar ist, ob sie sich auf die Farbe, den Geschmack oder beides bezieht. Suggestivfragen sind solche, welche den Befragten eine bestimmte Antwort nahelegen. Dadurch manipuliert der Forscher bewusst oder unbewusst die Ergebnisse; die Antworttendenz wird in eine bestimmte Richtung gesteuert. Beispiel 3.18: „Wissenschaftler aus aller Welt warnen vor den möglichen Folgen genetisch manipulierter Nahrungsmittel. Würden Sie trotzdem genetisch manipulierte Nahrungsmittel kaufen? “ Bei dieser Formulierung ist wahrscheinlich, dass ein hoher Anteil der Befragten unzutreffenderweise mit „nein“ antwortet. Folgende Formulierung ist neutraler: „Die Wissenschaft macht es möglich, Nahrungsmittel genetisch zu verändern. Würden Sie entsprechende Produkte kaufen? “ Fragen sollten so formuliert werden, dass deren Beantwortung nicht von impliziten Annahmen über die Konsequenzen des interessierenden Sachverhalts abhängt. Unter einer <?page no="84"?> 84 Gestaltung des Fragebogens impliziten Annahme versteht man dabei eine Annahme, die der Forscher zugrunde legt, die aber den Befragten nicht bekannt ist. Beispiel 3.19: Im Rahmen einer US-amerikanischen Untersuchung wurde die Einstellung zur Einführung einer gesetzlichen Gurtpflicht in PKWs mit zwei alternativen Fragestellungen erhoben. Die erste Variante lautete: „Es ist eine gute Idee, ein Gesetz zu verabschieden, welches Personen in PKWs verpflichtet, Sicherheitsgurte anzulegen“. Dass bei gesetzlicher Regelung die Nichteinhaltung der Gurtpflicht sanktioniert werden würde, wurde nicht explizit erwähnt. Auf die so formulierte Frage mit impliziter Annahme antworteten 73% mit „stimme zu“. Die zweite Variante lautete: „Es sollte ein Gesetz geben, dass Personen in PKWs sich entweder anschnallen oder eine Strafe zahlen“. Die Konsequenz wurde hier explizit angegeben; das Ausmaß an Zustimmung betrug bei dieser Formulierung nur noch 50%. Quelle: Ungar 1986, S. 90 Ebenso wie implizite Annahmen sollten auch implizite Alternativen vermieden werden. Eine Frage mit impliziter Alternative bedeutet, dass ein bestimmter Sachverhalt erfragt wird - i.d.R. eine Präferenz für ein bestimmtes Objekt -, ohne dass alternative Möglichkeiten explizit erwähnt werden. Dies kann zu einer erheblichen Verzerrung der Antworten führen. Beispiel 3.20: Im Rahmen einer Untersuchung über die Einstellung von Hausfrauen zum Nachgehen einer Arbeit außer Haus wurden bei zwei repräsentativen Teilstichproben folgende Fragen gestellt: Variante A: „Würden Sie gerne arbeiten gehen, wenn es möglich wäre? “ Variante B: „Würden Sie lieber arbeiten gehen, oder machen Sie lieber Ihre Hausarbeit? “ Bei Variante A gaben 19% der Befragten an, sie würden lieber nicht arbeiten gehen. Bei der zweiten Teilstichprobe, welche mit Variante B konfrontiert wurde, gaben 68% an, sie würden lieber nicht arbeiten gehen, sondern ihre Hausarbeit machen. Quelle: Noelle-Neumann 1970, S. 200 Die Auskunftsfähigkeit der Befragten kann stark beeinträchtigt werden, wenn die Anweisungen für die Beantwortung der Fragen unklar, also z.B. zu umfangreich oder zu knapp sind. Wird den Befragten nicht klar, worin ihre Aufgabe besteht, führt dies im günstigsten Fall zu einem überhöhten Anteil von „weiß nicht“-Antworten, im schlimmsten Fall zum Antwortausfall bei vielen Auskunftspersonen. Beispiel 3.21: „Welche Waschmittelmarken werden in Ihrem Haushalt genutzt? Nennen Sie alle die von Ihnen genutzten Marken, ordnen Sie sie nach der Nutzungshäufigkeit und unterstreichen Sie die von Ihnen bevorzugte Marke! “ Bei dieser Fragestellung wird die Testperson mit zu vielen Aufgaben gleichzeitig konfrontiert. Zudem bleibt unklar, welchen Zeitraum die Auskunftsperson bei der Beantwortung zugrunde legen muss. <?page no="85"?> Festlegung der Fragenformulierung und der Antwortmöglichkeiten 85 Grundsätzlich sollten Fragen so spezifisch wie möglich gestellt werden, d.h. die Auskunftsperson soll nicht dazu angehalten werden, Verallgemeinerungen vorzunehmen oder gar Berechnungen anstellen zu müssen. Dadurch wäre sie zwar möglicherweise nicht überfordert, jedoch würde sie den Aufwand für die Beantwortung der Fragen als zu hoch empfinden. Beispiel 3.22: Die Fragestellung „Wie hoch ist der durchschnittliche jährliche Pro-Kopf-Verbrauch an Erfrischungsgetränken in Ihrem Haushalt? “ ist aus den folgenden Gründen ungeeignet: Eine durchschnittliche Auskunftsperson wird den Verbrauch pro Woche oder allenfalls pro Monat angeben können; der Zeitraum von einem ganzen Jahr ist zu lang. Eine derart allgemeine Aussage kann die Auskunftsperson nicht treffen. Selbst wenn die Auskunftsperson den jährlichen Gesamtverbrauch angeben könnte, müsste sie ihn durch die Zahl der Haushaltsmitglieder teilen. Vorzuziehen sind daher folgende Formulierungen: „Wie hoch ist der wöchentliche Verbrauch von Erfrischungsgetränken in Ihrem Haushalt? “, und „Wie viele Personen leben in Ihrem Haushalt? “. Die erforderlichen Berechnungen für den jährlichen Pro- Kopf-Verbrauch kann der Forscher selbst vornehmen. Nicht nur die Fragenformulierung, sondern auch die vorgegebenen Antwortmöglichkeiten haben einen großen Einfluss auf die Qualität der Ergebnisse (vgl. hierzu ausführlich Hüttner/ Schwarting 2002, S. 100 ff.). Abbildung 3.4 zeigt die Einteilung von Fragen nach der Antwortmöglichkeit. AAbbbb.. 33..44: : Einteilung von Fragen nach der Antwortmöglichkeit (Quelle: nach Hüttner/ Schwarting 2002, S. 100) Grundsätzlich können offene und geschlossene Fragen unterschieden werden. Offene Fragen sind dadurch charakterisiert, dass die Auskunftsperson in ihrer Wortwahl völlig Fragearten Offene Fragen Geschlossene Fragen Alternativfragen Mehrfachauswahlfragen (Selektivfragen) Normalform Spezialform: Dialogfrage Normalform Spezialform: Skalafrage Ja-Nein Frage Neutrale Fassung Unbegrenzte Anzahl von Nennungen Begrenzte Anzahl von Nennungen <?page no="86"?> 86 Gestaltung des Fragebogens frei ist; es existieren keine festen Antwortkategorien, die Antwort der Befragten muss möglichst im genauen Wortlaut notiert werden, um Verzerrungen zu vermeiden. Erst im Anschluss an die Befragung werden dann die Antworten codiert und Antwortkategorien gebildet. Offene Fragen können in Normalform oder in Spezialform gestellt sein. Die Normalform beinhaltet, dass die Frage aus einem vollständigen Satz besteht. Beispiel 3.23: [1] Warum haben Sie einen Fernseher der Marke X gekauft? [2] Was verbinden Sie mit der Marke Y? [3] Wie alt sind Sie? [4] Welchen Bildungsabschluss besitzen Sie? Offene Fragen finden sich typischerweise im Rahmen qualitativer Untersuchungen; sie werden aber auch für bestimmte Sachverhalte im Rahmen quantitativer Erhebungen verwendet, insb. als Antwortmöglichkeit im Rahmen einer Kategorie „Sonstiges, und zwar: …“. Im Rahmen qualitativer Untersuchungen werden offene Fragen häufig in Spezialform gestellt, z.B. als Satzergänzungstest, Picture Frustration Test bzw. Balloon-Test. Da qualitative Erhebungen ausführlich in Teil 9 behandelt werden, wird hier nicht näher darauf eingegangen. Generell weisen offene Fragen die folgenden Vorteile auf: Offene Fragen erlauben es den Befragten, ihre Meinung unverzerrt kundzutun und eignen sich daher insb. zur Erforschung psychologischer Sachverhalte oder z.B. als Eisbrecherfragen am Anfang eines Fragebogens. Im Rahmen quantitativer, standardardisierter Erhebungen erlauben es offene Fragen, zusätzliche Aspekte zu erfassen und damit weitergehende Erkenntnisse und Einblicke über die Probanden zu gewinnen. Die Probanden fühlen sich ihrerseits durch offene Fragen ernst genommen und erhalten das Gefühl, dass der Forscher individuell auf deren Belange eingeht. Allerdings weisen offene Fragen auch eine ganze Reihe von Nachteilen auf: Im Rahmen von Face-to-face-Interviews ist das Potenzial für Verzerrungen durch die Interviewer im Rahmen der Antwortaufzeichnung hoch, es sei denn, die Antworten werden auf Tonband registriert. Die Kodierung der Antworten ist sehr aufwändig, es sei denn, es handelt sich um quantitative Daten wie z.B. Alter (siehe Frage [3] in Beispiel 3.23) oder die Zahl möglicher Antworten ist begrenzt wie z.B. beim Bildungsabschluss (Frage [4]). Werden hingegen psychologische Sachverhalte wie Motive oder Assoziationen erhoben (Fragen [1] und [2]), muss die Vielzahl an unterschiedlichen Antworten in geeigneter Weise kategorisiert werden, um die Daten anschließend interpretieren zu können (vgl. hierzu Popping 2000; Luyens 1995). Bei quantitativen Erhebungen sollte mit offenen Fragen daher sparsam umgegangen werden. Implizit geben offene Fragestellungen denjenigen Befragten mehr Gewicht, welche sich freier und ausführlicher artikulieren können. Zudem werden in der Tendenz kritische Punkte eher geäußert als positive. <?page no="87"?> Festlegung der Fragenformulierung und der Antwortmöglichkeiten 87 Werden psychologische Sachverhalte erhoben, können offene Fragen im Prinzip nur bei mündlichen Befragungen gestellt werden, da Befragte dazu neigen, sich bei schriftlicher Beantwortung kurz zu fassen. Zudem erfordert die schriftliche Beantwortung offener Fragen Zeit und Mühe, welche nicht alle Probanden aufzuwenden bereit sind. Bei geschlossenen Fragen werden die relevanten Antwortkategorien von vornherein vorgegeben. Die Auskunftsperson muss sich für eine der angegebenen Antwortkategorien entscheiden, unabhängig davon, ob sie den Fragebogen selbst ausfüllt oder ein Interviewer ihre Antworten notiert. Bei geschlossenen Fragen lassen sich Alternativfragen und Mehrfachauswahlfragen (Multiple-Choice-Fragen) unterscheiden. Alternativfragen verfügen grundsätzlich nur über zwei Antwortkategorien, etwa „ja/ nein“, „stimme zu/ stimme nicht zu“ usw. Häufig findet sich neben den beiden eigentlich interessierenden Antwortalternativen auch eine sog. „neutrale“ Alternative, z.B. „weiß nicht“, „weder - noch“, „sowohl - als auch“ u.Ä. (vgl. Schuman/ Presser 1996, S. 161 ff.). Die Einbeziehung einer neutralen Kategorie ist insofern sinnvoll, als ein zutreffendes Bild der Situation häufig nur dann möglich ist, wenn auch die „Unentschlossenen“ explizit erfasst werden. Dies ist z.B. bei Wahlprognosen der Fall, aber auch bei Prognosen für Markt- oder Absatzpotenzial im Rahmen von Neuprodukteinführungen. Nachteilig ist, dass eine „weiß nicht“-Kategorie verhindern kann, dass die Auskunftspersonen Position beziehen. Alternativfragen können in Normalform oder in Spezialform auftreten. In der sog. Normalform unterscheidet man die Ja-Nein-Frage, bei welcher lediglich die Antwortmöglichkeiten „ja“ und „nein“ vorgegeben sind, und die neutrale Fassung, bei der die Alternative in der Frage mit genannt wird. Dies soll - im Sinne der Vermeidung impliziter Alternativen - verhindern, dass durch Nennung nur der eigentlich interessierenden Alternative diese bevorzugt wird. Beispiel 3.24: [1] Ja-Nein-Frage: „Beabsichtigen Sie, in diesem Sommer in den Urlaub zu fahren? “ ja nein weiß nicht [2] Neutrale Frage: „Beabsichtigen Sie, in diesem Sommer in den Urlaub zu fahren, oder bleiben Sie lieber zu Hause? “ Ich fahre in den Urlaub. Ich bleibe zu Hause. Ich weiß es noch nicht. Die Spezialform der Dialogfrage besteht darin, dass den Auskunftspersonen die beiden Alternativen in Form einer kleinen Geschichte (nur textlich oder auch bildlich, z.B. als Cartoon) präsentiert werden, in der sich zwei Personen miteinander unterhalten. Die Auskunftsperson wird dann aufgefordert, einer der beiden Personen zuzustimmen. Ein Beispiel findet sich in Abb. 3.5. <?page no="88"?> 88 Gestaltung des Fragebogens AAbbbb.. 33..55: : Beispiel für eine Dialogfrage Mehrfachauswahlfragen (Multiple-Choice-Fragen) sind dadurch charakterisiert, dass sie mehrere alternative Antwortkategorien zulassen. Die Auskunftsperson soll diejenige(n) Kategorie(n) auswählen, die am ehesten ihre Position wiedergibt bzw. wiedergeben. Die Anzahl der möglichen Nennungen kann dabei begrenzt oder unbegrenzt sein (vgl. Hüttner/ Schwarting 2002, S. 106 f.). Beispiel 3.25: „Wenn Sie ein Smartphone kaufen wollen: Was ist für Sie dabei wichtig? Preis im Vergleich zu ähnlichen Modellen Größe des Displays Auflösung des Displays Erfahrung mit der Marke Beratung vor Ort Garantieleistungen Sonstiges, und zwar………………………………………… Die Zahl an gültigen Antworten kann durch die folgenden Ausfüllanweisungen gesteuert werden: [1] Unbegrenzte Zahl von Nennungen „Bitte kreuzen Sie alle Kriterien an, die für Sie zutreffen! “ [2] Nach unten begrenzte Zahl von Nennungen „Bitte kreuzen Sie mindestens zwei Kriterien an, die für Sie zutreffen! “ [3] Nach oben begrenzte Zahl von Nennungen „Bitte kreuzen Sie bis zu drei für Sie zutreffende Kriterien an! “ Also dieses Jahr bleibe ich im Sommer sicher zu Hause. Der Stress mit dem Urlaub ist mir zu viel, und teuer ist es auch noch. Ich spare lieber für sinnvolle Anschaffungen. Ich finde, einmal im Jahr sollte es schon drin sein - Die Erholung brauche ich einfach. Ich werde diesen Sommer ganz sicher Wem würden Sie eher zustimmen: A oder B? AA BB <?page no="89"?> Festlegung der Fragenformulierung und der Antwortmöglichkeiten 89 [4] Nach oben und unten begrenzt „Bitte kreuzen Sie die drei für Sie wichtigsten Kriterien an! “ Des Weiteren kann man Mehrfachauswahlfragen auch danach unterscheiden, ob sich die Antwortkategorien gegenseitig ausschließen (wie z.B. Altersklassen) oder Mehrfachnennungen wie in obigem Beispiel möglich sind. Eine Sonderform von Mehrfachauswahlfragen stellt die sog. Skalafrage dar. Mit einer Skalafrage wird nicht nur das Vorhandensein eines Sachverhalts erhoben, sondern auch dessen Intensität, z.B. von „1: Stimme voll und ganz zu“ bis „5: Stimme überhaupt nicht zu“. Abbildung 3.6 zeigt Beispiele für in der Marktforschung verwendete Skalen zur Messung der Kundenzufriedenheit. Da die verschiedenen Skalen ausführlich in Kapitel 4 behandelt werden, soll an dieser Stelle nicht näher darauf eingegangen werden. AAbbbb.. 33..66: Beispiele für grafische Skalen zur Messung der Kundenzufriedenheit Der Vorteil geschlossener Fragen im Vergleich zu offenen Fragen liegt in deren besserer Auswertbarkeit und in der hohen Vergleichbarkeit der Antworten. Aus diesem Grunde liegt ihr Einsatzbereich in der quantitativen Marktforschung. Dem gegenüber stehen jedoch auch verschiedene Nachteile. +1 +2 +3 -1 -2 -3 0 WWiiee zzuuffrriieeddeenn ssiinndd SSiiee mmiitt ddeerr BBeettrreeuuuunngg dduurrcchh uunnsseerree SSeerrvviicceemmiittaarrbbeeiitteerr? ? Sehr unzufrieden Sehr zufrieden Sehr unzufrieden Sehr zufrieden Sehr unzufrieden Sehr zufrieden Sehr unzufrieden Sehr zufrieden 5 6 7 3 2 1 4 <?page no="90"?> 90 Gestaltung des Fragebogens AAbbbb.. 33..77: : Ergebnisse bei der Messung der Kaufabsicht mit und ohne Verwendung einer neutralen Antwortkategorie (Quelle: nach Churchill/ Iacobucci 2002, S. 332). Es ist möglich, dass keine der vorgesehenen Antwortkategorien die wirkliche Position einer Auskunftsperson widerspiegelt. Um dennoch ein möglichst umfassendes Spektrum an Antwortkategorien zu erhalten, kann zum einen eine explorative Befragung mit offener Fragestellung vorgeschaltet werden, zum anderen kann eine Kategorie „Sonstiges“ (mit beliebiger Antwortmöglichkeit) vorgesehen werden (vgl. Hüttner/ Schwarting 2002, S. 103 f.). Zu beachten ist allerdings, dass ein hoher Anteil an Befragten, welche die Kategorie „Sonstiges“ ankreuzen, die Ergebnisse der Studie gefährden können. In jedem Falle sollte der Fragebogen daher sorgfältig getestet werden. Kauf eines Flugtickets in den nächsten 12 Monaten Kauf von Batterien in den nächsten 30 Tagen Kauf von Kinokarten in den nächsten 7 Tagen Werde ich ganz sicher kaufen 14 % 14 % Werde ich vielleicht kaufen 15 % Werde ich wahrscheinlich kaufen 11 % 18 % Werde ich wahrscheinlich nicht kaufen 19 % 23 % Werde ich ganz sicher nicht kaufen 41 % 45 % Werde ich ganz sicher kaufen 21 % 23 % Werde ich wahrscheinlich kaufen 28 % 35 % Werde ich vielleicht kaufen 25 % Werde ich wahrscheinlich nicht kaufen 15 % 28 % Werde ich ganz sicher nicht kaufen 11 % 14 % Werde ich vielleicht kaufen 25 % Werde ich ganz sicher kaufen 13 % 14 % Werde ich wahrscheinlich kaufen 15 % 20 % Werde ich wahrscheinlich nicht kaufen 21 % 39 % Werde ich ganz sicher nicht kaufen 27 % 25 % 5-Punkte-Skala 4-Punkte-Skala <?page no="91"?> Festlegung der Fragenformulierung und der Antwortmöglichkeiten 91 Wie bereits erwähnt, kann die Angabe einer neutralen Antwortkategorie („weiß nicht“, „weder - noch“ usw.) dazu beitragen, Antwortausfälle zu reduzieren. Allerdings wird dadurch verhindert, dass Unentschlossene zum betreffenden Sachverhalt Stellung beziehen. Abbildung 3.7 zeigt Beispiele für die unterschiedliche Verteilung der Antworten auf die einzelnen Antwortkategorien einmal ohne und einmal mit Vorgabe einer neutralen Position. Offensichtlich ist, dass ohne Vorhandensein einer neutralen Kategorie die Befragten insb. die Position „wahrscheinlich nicht“ ankreuzen. Dieser Effekt ist umso ausgeprägter, je näher in der Zukunft die Kaufhandlung stattfinden soll. Außer in dem Fall, dass Mehrfachnennungen zugelassen sind, müssen die Antwortkategorien so formuliert werden, dass sie sich gegenseitig ausschließen. Zudem unterliegen Mehrfachauswahlfragen prinzipiell einem Reihenfolge-Bias (vgl. z.B. Schuman/ Presser 1996, S. 56 ff.; Krosnick/ Alwin 1987; Wanke et al. 1995). Bei Auflistungen besteht eine Tendenz, insb. die erste Kategorie anzukreuzen (Primäreffekt), häufig aber auch die letzte (Rezenzeffekt). Bei nummerischen Listen (z.B. Preise, Mengen) werden tendenziell mittlere Positionen angekreuzt. Um diesen Bias zu umgehen, ist es sinnvoll, die sog. Split- Ballot-Technik anzuwenden: Die beiden Versionen der Frage werden zwei jeweils unabhängigen, repräsentativen Teilstichproben vorgelegt. Die Ergebnisse werden entweder miteinander verglichen, oder es wird der Durchschnitt der Mittelwerte in beiden Stichproben ermittelt. Computergestützte Befragungsmethoden wie sie heutzutage üblich sind erlauben eine Randomisierung der Fragen (d.h. zufällige Zuordnung zu den Probanden) wie auch eine Rotation der Reihenfolge der Antwortkategorien bzw. Items, sodass der Reihenfolgeneffekt minimiert werden kann. Abbildung 3.8 zeigt ein Beispiel für den Einfluss der Reihenfolge der Antwortkategorien auf die Antwortverteilung. AAbbbb.. 33..88: : Einfluss der Reihenfolge der Antwortkategorien auf die Antwortverteilung (Quelle: nach Churchill/ Iacobucci 2002, S. 335) Wenn es sich bei den Antwortkategorien um Klassen einer metrisch skalierten Variablen handelt, so ist die Antwortverteilung häufig von der Definition der Skalengrenzen abhängig. Geht es bei der untersuchten Variable zudem um die Angabe von Häufigkeiten für ein bestimmtes Verhalten, neigen die Befragten zur Vermeidung der ersten und der Die Fernsehnutzung meines Haushaltes ist (im Vergleich zum Vorjahr): Stark angestiegen AAnnttwwoorrtt Leicht angestiegen Gleich Leicht gesunken Stark gesunken 5 % 2 % 1 5 9 % 10 % 2 5 48 % 46 % 3 3 26 % 23 % 4 2 12 % 19 % 5 1 RReeiihheennffoollggee <?page no="92"?> 92 Gestaltung des Fragebogens letzten Kategorie, da sie bewusst oder unbewusst mittlere Positionen als „normales“, „übliches“ Verhalten interpretieren (vgl. Schwarz et al. 1985). Beispiel 3.26: Die Frage: „Wie viele Zigaretten rauchen Sie pro Tag? “ wird mit großer Wahrscheinlichkeit unterschiedliche Antworten erzeugen, wenn folgende alternative Antwortkategorien vorgegeben werden: Variante 1: unter 5 5 - 10 über 10 Variante 2: unter 10 10 - 20 über 20 Aufgrund der Tendenz, mittlere Positionen anzukreuzen, werden die Befragten bei Variante 1 tendenziell „weniger rauchen“ als bei Variante 2. 33..66 FFeessttlleegguunngg ddeerr RReeiihheennffoollggee ddeerr FFrraaggeenn uunndd ddeerr LLäännggee ddeess FFrraa-ggeebbooggeennss Nachdem die Fragenformulierung abgeschlossen ist, müssen die Fragen in eine sinnvolle Reihenfolge gebracht werden. Die Position der einzelnen Fragen im Fragebogen wird u.a. von deren Aufgabe im Rahmen der Erhebung beeinflusst. In Abhängigkeit von der zur erfüllenden Aufgabe werden Fragen dabei unterschieden in (vgl. Abb. 3.9): Ergebnisfragen und Instrumentalfragen (vgl. im Folgenden Pepels 2014, S. 108 ff.). Ergebnisfragen (Sachfragen) sind Fragen zum eigentlichen Untersuchungsgegenstand und erlauben funktionelle Verknüpfungen. Sie machen i.d.R. den größten Teil eines Fragebogens aus. Dazu gehören sog. Präzisionsfragen, welche die Tatbestände selbst direkt oder indirekt erfassen (z.B. Frage nach der Markenpräferenz für Produktkategorie X), und Maßstabsfragen, welche die Aussagen relativieren und vergleichbar machen sollen (z.B. Bedarfshäufigkeit der Produktkategorie X). Dadurch kann im Beispiel die Markenpräferenz anhand der Nutzungshäufigkeit der Kategorie relativiert werden. Flankiert werden Ergebnisfragen durch sog. Instrumentalfragen. Diese dienen nicht der unmittelbaren Informationsgewinnung, sondern haben primär die Steuerung des Befragungsablaufs zur Aufgabe. Dazu gehören analytische Fragen, Ablaufordnungsfragen und psychologisch-funktionelle Fragen. Analytische Fragen betreffen den Befragungsgegenstand selbst und werden unterstützend zu den Ergebnisfragen gestellt. Sie umfassen <?page no="93"?> Festlegung der Reihenfolge der Fragen und der Länge des Fragebogens 93 Korrelationsfragen, die als Grundlage für die Bildung von Untergruppen und Kreuztabulierungen dienen wie z.B. Fragen zur Soziodemographie; Erhebungskontrollfragen, welche gewährleisten sollen, dass die Interviewdurchführung sorgfältig erfolgt ist; Auskunftskontrollfragen, welche Inkonsistenzen in den Antworten der Befragten aufdecken sollen, z.B. Kontrollskalen bei vermutetem sozial erwünschtem Antwortverhalten. AAbbbb.. 33..99: : Unterteilung der Fragearten nach deren Aufgabe (Quelle: in Anlehnung an Pepels 2014, S. 108) Ablaufordnungsfragen dienen der Steuerung des Befragungsablaufs. Dazu gehören: Filterfragen, die einzelne Befragte von der Bearbeitung von Teilen des Fragebogens ausschließen, da bestimmte Fragenkomplexe auf sie nicht zutreffen bzw. für sie nicht relevant sind (z.B. Nichtraucher bei einer Raucherbefragung), und Gabelungsfragen, welche Befragte in verschiedene Fragebogenkomplexe parallel aufgliedern (z.B. berufstätige und nicht berufstätige Mütter). Psychologisch-funktionelle Fragen sind der Befragungstaktik zuzuordnen und haben vorwiegend methodische Bedeutung. Dazu gehören: Kontaktfragen (auch: Eisbrecherfragen), die zu Beginn der Befragung gestellt werden, um eine positive Befragungsatmosphäre zu schaffen; Unterweisungsfragen, welche die Auskunftspersonen für den Befragungsgegenstand sensibilisieren sollen und sie dabei unterstützen, die nachfolgenden Fragen zu verstehen; Pufferfragen, welche Ausstrahlungseffekte zwischen aufeinander folgenden Aspekten eines Themas vermeiden sollen oder auch zu einem anderen Thema überleiten; Ablenkungsfragen, die den eigentlichen Erhebungsgegenstand verdecken sollen, um Lerneffekte bei den Befragten zu vermeiden; Ausgleichsfragen, welche jenem Teil der Befragten gestellt werden, die nach einer Filterfrage von der Bearbeitung eines Fragenkomplexes befreit sind. Dadurch soll vermieden werden, dass die Befragten mit Absicht bestimmte Antworten geben, um Teile des Fragebogens nicht beantworten zu müssen und damit die Bearbeitungszeit verkürzen. Fragearten Ergebnisfragen Instrumentalfragen Korrelationsfragen Erhebungskontrollfragen Auskunftskontrollfragen Kontaktfragen Unterweisungsfragen Pufferfragen Ablenkungsfragen Ausgleichsfragen Filterfragen Gabelungsfragen Präzisionsfragen Maßstabsfragen Analytische Fragen Ablaufordnungsfragen Psychologischfunktionelle Fragen <?page no="94"?> 94 Gestaltung des Fragebogens Grundsätzlich sollte ein Fragebogen wie folgt aufgebaut werden: Kontaktfragen, Sachfragen, Kontrollfragen, Korrelationsfragen (z.B. Angaben zur Person). In der Praxis haben sich hinsichtlich der Reihenfolge der Fragen eine Reihe von Prinzipien bewährt (vgl. Böhler et al. 2021, S. 97 f.; Iacobucci/ Churchill 2010, S. 220 ff.). Der Fragebogen sollte mit Kontaktfragen beginnen, um Misstrauen abzubauen und die Auskunftspersonen zur Mitarbeit zu motivieren. Solche Kontaktfragen sollen möglichst einfach zu beantworten sein und Interesse wecken, da die Bereitschaft zur weiteren Bearbeitung des Fragebogens sehr stark vom ersten Eindruck abhängt. Fragen, die als zu schwierig, uninteressant oder gar bedrohlich empfunden werden, gefährden die gesamte Befragung. Bewährt haben sich z.B. Fragen nach der Meinung der Befragten zu einem bestimmten Objekt, da viele Befragte gerne den Eindruck gewinnen, dass ihre Meinung wichtig ist. Spezifische Fragen sollten erst nach allgemeineren Fragen gestellt werden (Trichter-Prinzip). Ansonsten besteht die Gefahr einer zu frühen Sensibilisierung der Befragten für ein bestimmtes Thema - im Beispiel 3.27 der Service. Beispiel 3.27: „Welche Eigenschaften spielen beim Kauf eines Fernsehers für Sie eine Rolle? “ „Wenn Sie einen Fernseher kaufen: Wie wichtig ist Ihnen der Service? “ Die Fragen sollten in einer logischen Reihenfolge gestellt werden. Alle Fragen zu einem bestimmten Themenkomplex sollten gestellt werden, bevor ein neuer Themenkomplex beginnt. Der Fragebogen sollte möglichst abwechslungsreich gestaltet werden, um Monotonie zu vermeiden. Dies kann durch thematische Abwechslung oder Veränderung von Fragetechnik und Antwortmöglichkeiten geschehen. Ausstrahlungseffekte sollten vermieden werden. Solche Ausstrahlungseffekte entstehen, wenn vorausgehende Fragen die Auskunftsperson sensibilisieren und ihre Gedanken in eine bestimmte Richtung lenken, sodass die Beantwortung nachfolgender Fragen nicht mehr unbeeinflusst ist (Halo-Effekt). Solche Ausstrahlungseffekte können u.a. durch einen gezielten Einbau von Puffer- und Ablenkungsfragen reduziert werden. Filter- und Gabelungsfragen sollten sorgfältig konzipiert werden. Bei allen Formen computergestützter Befragungen ist die Verwaltung von Ablaufordnungsfragen relativ unproblematisch; bei schriftlichen Befragungen ist die Verwendung dieser Art von Fragen hingegen an Grenzen gebunden, da die Befragten durch zu viele Gabelungsfragen verwirrt werden können. Bei der Konzeption von Gabelungsfragen empfiehlt es sich, zuerst ein Flussdiagramm mit den gewünschten und möglichen Verzweigungen zu erstellen, um das Spektrum und die Abfolge der erforderlichen Fragen zu identifizieren. Die Folgefragen, zu denen die Befragten nach der Gabelung dirigiert werden, sollten dabei möglichst in der Nähe der Gabelungsfrage platziert werden, um das erforderliche Umblättern im Fragebogen zu minimieren. Darüber hinaus sollten Gabelungsfragen so platziert wer- <?page no="95"?> Formale Gestaltung des Fragebogens 95 den, dass die Auskunftsperson nicht antizipieren kann, welche weiteren Informationen von ihr gefordert werden. Schwierige oder sensible Fragen sollten am Ende des Fragebogens platziert werden. Die Beantwortung solcher Fragen ist davon abhängig, ob es dem Forscher gelungen ist, beim Befragten Interesse und insb. Vertrauen zu wecken, ansonsten droht Antwortausfall. Korrelationsfragen sollten erst am Ende der Befragung gestellt werden. Da es sich bei Korrelationsfragen i.W. um persönliche Angaben wie Alter, Schulbildung, Einkommen etc. handelt, hätten die Befragten sonst das Gefühl, einem Verhör unterzogen zu werden, wenn solche Fragen gleich zu Beginn gestellt würden, und evtl. die Antwort verweigern. Hinsichtlich der Länge des Fragebogens gibt es keine verbindlichen Vorgaben, da die einer Testperson „zumutbare“ Länge von Faktoren wie der Art der Befragung (z.B. schriftlich, face-to-face, telefonisch), dem Typ der Untersuchungseinheit (Konsumentin, Einkäufer bzw. Einkäuferin im Betrieb etc.), dem Thema der Befragung usw. abhängt. Bei Endverbraucherbefragungen sollte die Bearbeitungsdauer eines schriftlichen Fragebogens i.d.R. 30 - 45 Minuten nicht überschreiten. Face-to-face-Befragungen erlauben eine längere Durchführungszeit, telefonische Befragungen nur eine kürzere (ca. 15 - 20 Minuten). Für Online-Befragungen können 20 Minuten angesetzt werden, selbstadministrierte mobile Befragungen sollten hingegen 10 Minuten nicht überschreiten. Hierbei handelt es sich jedoch nur um grobe Richtwerte. 33..77 FFoorrmmaallee GGeessttaallttuunngg ddeess FFrraaggeebbooggeennss Die bis zu diesem Punkt entwickelten Inhalte des Fragebogens sollen in diesem Schritt in eine ansprechende äußere Form umgesetzt werden. Bestandteile eines Fragebogens sind dabei Einführung (Vorstellung der Studie), Fragen(-blöcke), Antwortvorgaben bzw. Platz für Antworten bei offenen Fragen sowie Anweisungen für Interviewer bzw. für Befragte. Diese verschiedenen Bestandteile sollen sinnvoll angeordnet und in ein ansprechendes Layout gebracht werden. Dies gilt insbesondere für alle Formen selbstadministrierter Befragungen, also solcher Befragungen, bei denen der Proband den Fragebogen selbst ausfüllt (schriftlich, online, mobil). Im Rahmen der formalen Anordnung wird die äußere Struktur des Fragebogens festgelegt. Zu Beginn des Fragebogens sollte stets eine Einführung erscheinen, um Vertrauen und Interesse zu wecken. Aufgabe der Einführung ist es, die Befragten von der Wichtigkeit der Untersuchung und der Wichtigkeit ihrer Teilnahme zu überzeugen. Aus der Einführung sollte zudem ersichtlich werden, welchen Nutzen die Befragten aus der Teilnahme ziehen können (z.B. „Dadurch helfen Sie uns, Produkte nach Ihrem Geschmack zu entwickeln“). Ferner sollten die Vertraulichkeit bzw. Anonymität der Antworten zugesichert werden. Weiterhin enthält die Einführung ggf. Hinweise auf das Vorhandensein eines frankierten Rückumschlags, Incentives zur Teilnahme, grundsätzliche Anweisungen zum Ausfüllen des Fragebogens etc. Bei schriftlichen Umfragen erfolgt die Einführung häufig separat in Form eines Begleitschreibens. <?page no="96"?> 96 Gestaltung des Fragebogens Die einzelnen Fragen sollten in geeigneter Weise aufgegliedert werden; es empfiehlt sich dabei die Bildung thematisch zusammenhängender Blöcke. Die Blöcke selbst wie auch die Fragen innerhalb der Blöcke sollten nummeriert werden, da dadurch die Editierung, Kodierung und Tabulierung der Antworten leichter fallen (vgl. Iacobucci/ Churchill 2010, S. 252). Darüber hinaus ist eine Nummerierung unerlässlich, wenn Gabelungs- und Filterfragen verwendet werden, da nur auf diese Weise die Befragten zu den für sie relevanten Teilen des Fragebogens weitergeleitet werden können. Gabelungs- und Filterfragen können zudem durch optische Hilfsmittel unterstützt werden, z.B. Pfeile oder farbige Unterlegungen. Bei Online- und mobilen Befragungen erfolgt die Filterführung hingegen softwaregesteuert und für die Befragten unauffällig. Hinsichtlich der Anordnung der einzelnen Bestandteile des Fragebogens ist darauf zu achten, dass sie optisch voneinander getrennt werden, z.B. durch Umrahmungen, schattierte oder farbige Unterlegungen oder unterschiedliche Schriftarten bzw. Schriftgrößen. Hinsichtlich der räumlichen Anordnung der Fragen ist zu beachten, dass Fragen am Seitenanfang stärkere Aufmerksamkeit erregen als am Seitenende (vgl. Malhotra 2019, S. 336). Aus diesem Grunde sollten wichtige Fragen nach Möglichkeit am Seitenanfang platziert werden. Bei Online- und mobilen Umfragen ist zudem zu berücksichtigen, dass Fragen, für die der Proband scrollen muss, u.U. nicht beachtet werden. Dasselbe gilt für Antwortkategorien im unteren Bereich einer (Web-)Seite. Aus diesem Grunde empfiehlt es sich, einen Übergang zur nächsten Frage erst dann zu ermöglichen, wenn die vorangegangene Frage vollständig beantwortet ist. Anweisungen für die Auskunftspersonen zur Beantwortung einzelner Fragen bzw. Anweisungen für die Interviewer, z.B. im Hinblick auf Verwendung von Befragungshilfen oder betreffend die Registrierung der Antworten, sollten an geeigneter Stelle in unmittelbarer Nähe der entsprechenden Fragen platziert werden (vgl. Malhotra 2019, S. 336). Üblicherweise werden Anweisungen zur besseren Übersichtlichkeit in einer anderen Schrift gesetzt, z.B. kursiv. Im Hinblick auf den Seitenumbruch ist darauf zu achten, dass Fragen - inkl. Antwortvorgaben - nicht umgebrochen werden. Ansonsten besteht die Gefahr, dass die Auskunftsperson glaubt, die Frage- oder die Antwortmöglichkeiten seien am Ende der Seite zu Ende, was zu einer Verfälschung der Antworten führt. Den Zeilenumbruch betreffend sollte vermieden werden, Antwortkategorien nebeneinander anzuordnen, um Platz zu sparen, da die Lesefreundlichkeit dadurch beeinträchtigt wird. Besser ist es, die Antwortmöglichkeiten untereinander anzuordnen. Beispiel 3.28: „Wie lange sehen Sie an einem durchschnittlichen Wochentag fern? “ unter 15 Minuten 61 - 120 Minuten 15 - 30 Minuten länger als 120 Minuten 31 - 60 Minuten Bei dieser Anordnung besteht die Gefahr, dass die Befragten die Antwortmöglichkeiten zeilenweise und nicht spaltenweise lesen. Zwischen den einzelnen Fragen sollte ein ausreichender Abstand sein, um den Eindruck der Überfüllung zu vermeiden. Zwar sollten Fragebögen so kurz wie möglich sein, um <?page no="97"?> Formale Gestaltung des Fragebogens 97 die Auskunftsbereitschaft nicht zu beeinträchtigen; überfüllte Fragebögen sehen jedoch nicht gut aus, erscheinen als verwirrend und führen zu Fehlern im Antwortverhalten. Die Aufbereitung der Fragebögen wird durch Vorkodierung der Antworten wesentlich erleichtert (vgl. Malhotra 2019, S. 336 f.). Im Rahmen einer Vorkodierung werden die Codes zur Eingabe der Antworten in den Computer mit abgedruckt; bei computergestützten Varianten wie CAPI und CATI ist die Vorkodierung bereits in der Software integriert. Beispiel 3.29: „Würden Sie Ihren nächsten Urlaub wieder bei Veranstalter X buchen? “ ja, ganz sicher [1] wahrscheinlich [2] vielleicht [3] sicher nicht [4] Ein weiterer Aspekt bei der formalen Gestaltung eines Fragebogens ist der Einsatz bestimmter Gestaltungselemente. Bei schriftlichen Umfragen sollte auf eine gute Papier- und Druckqualität geachtet werden. Eine schlechte Qualität beeinträchtigt das Image des Instituts bzw. des Auftraggebers, wohingegen eine gute Qualität die Wichtigkeit der Untersuchung unterstreicht. Auch bei elektronisch administrierten Fragebögen ist auf eine ansprechende, professionelle Optik zu achten. Nur ein professionell aussehender Fragebogen gewährleistet, dass die Studie von den Befragten auch ernst genommen wird. Erfolgt die Befragung mit Hilfe eines elektronischen Fragebogens (z.B. im Rahmen einer Online-Befragung), sind die Formate durch die Befragungssoftware teilweise bereits vorgegeben. Das Seitenformat ist u.a. von der Darreichungsform abhängig. Für die meisten Fälle schriftlicher Befragungen eignen sich DIN A4 und DIN A5; in Ausnahmefällen - z.B. Beihefter in Zeitschriften - sind auch kleinere Formate wie z.B. DIN A6 möglich. Umfasst der Fragebogen mehrere Seiten, sollte er in Heftform gebunden und nicht etwa mit Heftklammern zusammengehalten werden, um ein professionelles Aussehen zu gewährleisten. Die technische Umsetzung des Fragebogens für Online- oder mobile Befragungen muss die Lesbarkeit und die problemlose Navigation auf den verschiedenen Endgeräten inkl. Tablets und Smartphones gewährleisten. Für die Übersichtlichkeit des Fragebogens kann der Einsatz unterschiedlicher Farben und Schriftarten hilfreich sein, etwa zur optischen Trennung verschiedener Bestandteile des Fragebogens. Eine unterschiedliche Farbgebung kann beispielsweise auch für verschiedene Adressatengruppen verwendet werden, etwa private und gewerbliche Abnehmer, Befragte aus unterschiedlichen Bundesländern etc. Die Fragebögen selbst sollten durchnummeriert sein, da dadurch eine Kontrolle der Feldarbeit wie auch die Kodierung und Analyse erleichtert werden. Bei online administrierten Fragebögen geschieht dies automatisch nach Zeitpunkt des Rücklaufs. Vorsicht ist jedoch bei schriftlichen Umfragen geboten, da die Befragten darin möglicherweise eine Bedrohung der Anonymität sehen. Die Befragungsergebnisse lassen sich darüber hinaus durch den Einsatz von Befragungshilfen positiv beeinflussen. Dazu gehören - je nach Art der Befragung - Auflistungen <?page no="98"?> 98 Gestaltung des Fragebogens (etwa von Produktmarken), grafische Darstellungen sowie Fotos, Karten, Skalen bis hin zu Computeranimationen und Videos im Rahmen von Online- und mobilen Befragungen. 33..88 FFrraaggeebbooggeenn--PPrreetteesstt Die Gestaltung eines Fragebogens birgt eine Vielzahl von Fehlerquellen, welche die Qualität der Ergebnisse erheblich beeinträchtigen können. Aus diesem Grunde ist es i.d.R. angebracht, vor der Hauptuntersuchung den Fragebogen einem Pretest zu unterziehen. Der Umfang eines Pretests umfasst i.A. 15 - 30 Befragungen; dies variiert jedoch in Abhängigkeit von der Heterogenität des Adressatenkreises. Bei mehreren Pretest-Stufen kann der erforderliche Stichprobenumfang durchaus größer sein. Der Pretest sollte bei solchen Befragten erfolgen, die dem Adressatenkreis der Hauptstudie entsprechen, um Verzerrungen zu vermeiden (vgl. hierzu z.B. Diamantopoulos et al. 1994). Dabei sollten sämtliche Aspekte des Fragebogens getestet werden, also nicht nur Inhalt, Wortlaut und Reihenfolge der Fragen, sondern auch Länge, Anweisungen für Interviewer und Befragte, Layout etc. Bei der Durchführung eines Pretests empfiehlt es sich, zweistufig vorzugehen. In einer ersten Stufe sollten persönliche Interviews durchgeführt werden, unabhängig von der Form, in der die Befragung im Rahmen der Hauptstudie letztlich stattfinden wird (schriftlich, face-to-face, telefonisch etc.). Der Grund liegt darin, dass Interviewer besser in der Lage sind, Reaktionen der Befragten zu erfassen, Widerstände aufzuspüren und Unbzw. Missverständnisse aufzudecken. Dabei sind folgende Methoden geläufig (vgl. Malhotra 2019, S. 338): Protokollanalyse und Debriefing. Im Rahmen einer Protokollanalyse werden die Befragten gebeten, bei der Beantwortung der Fragen „laut zu denken“. Die Anmerkungen der Befragten werden auf Tonband registriert und anschließend analysiert. Dadurch können spontane Eindrücke im Zusammenhang mit dem Fragebogen unmittelbar erfasst werden. Debriefing beinhaltet, dass den Teilnehmern im Anschluss an die Befragung der Pretestcharakter der Untersuchung mitgeteilt wird. Ihnen werden die Ziele des Pretests beschrieben, anschließend werden sie gebeten, die Bedeutung der einzelnen Fragen zu erklären, ihre Antworten zu erläutern und etwaige Probleme zu nennen, welche ihnen bei der Beantwortung der Fragen aufgefallen sind. Die dadurch aufgedeckten Defizite des Fragebogens werden in eine neue Version eingearbeitet, welche erneut zu testen ist - diesmal mit derselben Methode, die für die Hauptuntersuchung vorgesehen ist. Dadurch werden Mängel deutlich, welche bei spezifischer Anwendung einer bestimmten Befragungsmethode auftreten. Ergebnis des Pretests sollte sein, ob das Forschungsproblem in adäquater Weise umgesetzt wurde, also insb. ob alle Fragen verständlich und frei von Missverständnissen sind, ob bestimmte Fragen überflüssig sind oder aber ob Fragen zu wichtigen Aspekten des Forschungsproblems fehlen. <?page no="99"?> 44 M Meessssuunngg" OOppeerraattiioonnaalliissiieerruunngg uunndd SSkkaalliieerruunngg vvoonn VVaarriiaabblleenn 44..11 MMeessssuunngg uunndd MMeessssvveerrffaahhrreenn Definition Unter einer Messung wird die Zuordnung von Werten zu Eigenschaftsausprägungen von Objekten nach vordefinierten Regeln verstanden. Die Zuordnung soll dabei eine isomorphe Abbildung gewährleisten, d.h. Objekte mit identischen Eigenschaftsausprägungen (z.B. Personen mit gleicher Einstellung zu einer Marke) sollen im Rahmen einer Messung auch identische Werte erhalten. Im Rahmen einer Erhebung werden - unabhängig vom Erhebungsverfahren - Informationen über Merkmale von Untersuchungsobjekten erhoben. Diese können Eigenschaften von Personen betreffen, z.B. soziodemographische Merkmale, Markenpräferenzen oder Einstellungen von Konsumenten, oder aber Merkmale von Produkten bzw. Marken, z.B. Markenimage, Erhältlichkeit, Marktanteile. Die relevanten Eigenschaften sind in geeigneter Weise zu messen. Als Werte kommen üblicherweise Zahlen in Frage, grundsätzlich sind jedoch auch andere Zuordnungen möglich. Während dies bei direkt beobachtbaren Variablen wie Preis, Einkommen oder Alter relativ unproblematisch ist, bedarf die Erhebung komplexer psychologischer Konstrukte (z.B. Einstellungen) weitergehender Überlegungen, da solche Konstrukte nicht direkt beobachtbar sind. Zudem lassen sie sich häufig auch nicht anhand einer einzigen Skala messen, da sie sich aus mehreren zusammenwirkenden Variablen zusammensetzen. Die Messung i.S. einer Zuordnung von Werten zu Eigenschaftsausprägungen bedarf daher zum einen einer Operationalisierung, zum anderen einer Skalierung der interessierenden Eigenschaften bzw. Konstrukte. Ergebnisse einer Messung sind Messwerte bzw. Daten. Abbildung 3.10 zeigt die Zusammenhänge im Überblick. Zur Durchführung von Messungen ist der Einsatz bestimmter Messverfahren erforderlich; diese bezeichnen die Art und Weise, in welcher konkrete Messwerte erhoben werden sollen. Eine erste Unterscheidung besteht zwischen verbalen und nonverbalen Messverfahren. Verbale Messverfahren beinhalten, dass ein Messwert aus einer mündlichen oder schriftlichen Äußerung der Untersuchungseinheiten resultiert, wie dies z.B. im Rahmen einer Befragung geschieht. Nonverbale Messverfahren basieren hingegen auf Beobachtungen (vgl. hierzu die Ausführungen in Teil 4). In den Sozialwissenschaften - und speziell auch in der Marktforschung - dominieren verbale Messverfahren, da vielfach subjektive Merkmale (bzw. Merkmalsausprägungen) der Untersuchungseinheit gemessen werden müssen, die eine Auskunft der Testperson voraussetzen (z.B. Präferenzen, Einstellungen, Kaufabsichten). Hingegen kommen nonverbale Messverfahren dann zum Tragen, wenn objektive, beobachtbare Sachverhalte erhoben werden müssen (z.B. Markenwahl). Aufgrund der Dominanz verbaler - und damit subjektiver - Verfahren in der Marktforschung ist die Güte der Methoden - im Vergleich zu den objektiveren, nonverbalen Verfahren in den Naturwissenschaften - <?page no="100"?> 100 Messung, Operationalisierung und Skalierung von Variablen geringer (vgl. Abschnitt 4.2). Hinzu kommt, dass in den Sozialwissenschaften eine Vielzahl von Störfaktoren nicht oder nur begrenzt kontrollierbar ist. AAbbbb.. 33..1100: : Operationalisierung, Skalierung und Messung von Variablen Eine weitere Unterteilung entsteht, wenn nach dem Aufzeichnungsverfahren zwischen persönlichen und apparativen Verfahren differenziert wird. Im Rahmen persönlicher Messverfahren erfolgt die Messung durch einen Interviewer bzw. Beobachter in manueller Form (z.B. durch Aufschreiben oder unter Benutzung von Stoppuhren, Handzählern usw.). Apparative Verfahren sind technische Hilfsmittel, welche insb. im Rahmen experimenteller Laborsituationen eingesetzt werden (vgl. hierzu ausführlich Abschnitt 2.2 in Teil 4). Der höheren Genauigkeit der Messung steht der Nachteil gegenüber, dass der Einsatz in Feldsituationen i.d.R. nicht möglich ist. Im Folgenden werden ausschließlich verbale Messverfahren dargestellt, die im Rahmen quantitativer Befragungen zum Einsatz kommen. Messverfahren für andere Erhebungsformen werden in den jeweiligen Teiln behandelt. 44..22 QQuuaalliittäätt vvoonn MMeessssvveerrffaahhrreenn FFeehhlleerrqquueelllleenn bbeeii EErrhheebbuunnggeenn Die als Ergebnis einer Messung gewonnenen Messwerte stellen die Grundlage für die Auswertung und Interpretation der Daten (vgl. Teil 8). Die Güte der auf diese Weise erhaltenen Informationen steht und fällt dabei mit der Qualität des erhobenen Datenmaterials und damit mit der Güte der eingesetzten Messverfahren. Die sorgfältige Messung der interessierenden Merkmalsausprägungen spielt somit in der Marktforschung eine zentrale Rolle. Generell wird gefordert, dass die im Rahmen einer Messung erhalte- Kaufabsicht bzgl. Marke x DDeeffiinniittiioonn ddeess KKoonnssttrruukkttss Zahl der Personen, die in den nächsten 3 Monaten Marke X zu kaufen beabsichtigen Werden Sie in den nächsten 3 Monaten Marke X kaufen? Befragter Y Ganz sicher nicht Ganz sicher Ganz sicher nicht Ganz sicher x OOppeerraattiioonnaalliissiieerruunngg SSkkaalliieerruunngg MMeessssuunngg <?page no="101"?> Qualität von Messverfahren 101 nen Werte möglichst fehlerfrei sind. Dies bedeutet, dass Unterschiede in den Messwerten vollständig auf Unterschiede in den Ausprägungen des zu messenden Sachverhalts zurückzuführen sind. Resultieren bei zwei Probanden auf einer Skala von 0 - 100 Einstellungswerte von 25 und 60, so wird angenommen, dass die unterschiedlichen Messwerte auch unterschiedliche Einstellungswerte repräsentieren. In der Praxis ist allerdings zumeist davon auszugehen, dass die Messung - zumindest teilweise - mit Fehlern behaftet ist. Ziel einer jeden Messung ist daher, diesen Fehler in Grenzen zu halten. Ein Messwert 𝑋𝑋 � enthält dabei grundsätzlich die folgenden Komponenten: 𝑋𝑋 � � 𝑋𝑋 � � 𝑋𝑋 � �𝑋𝑋 � mit 𝑋𝑋 � = wahrer Wert der zu messenden Ausprägung, 𝑋𝑋 � = systematischer Fehler, 𝑋𝑋 � = Zufallsfehler. Der Zufallsfehler beruht darauf, dass die Messwerte bei wiederholter Messung um einen konstanten Mittelwert schwanken. Dabei wird angenommen, dass der Mittelwert der Messungen bei ausreichender Fallzahl den unbekannten wahren Wert wiedergibt. Damit gilt, dass sich Zufallsfehler im Mittel ausgleichen. In der Praxis wird als Zufallsfehler der statistisch berechenbare Fehler verstanden, d.h. der Stichprobenfehler bei sog. Random-Verfahren. Der Stichprobenfehler hängt dabei in hohem Maße von der Stichprobengröße ab (vgl. die Ausführungen in Teil 7), d.h. der Stichprobenfehler fällt - wenn auch unterproportional - mit zunehmendem Stichprobenumfang (bei einer Vollerhebung wäre der Stichprobenfehler demnach Null). AAbbbb.. 33..1111: : Quellen systematischer Fehler Bei Vorliegen eines systematischen Fehlers variieren die Messwerte nicht um einen wahren Wert, sondern die Messergebnisse werden in eine bestimmte Richtung verzerrt - etwa bei einer Uhr, welche „systematisch“ nachgeht. Das Gesetz der großen Zahlen findet hier keine Anwendung, d.h. der systematische Fehler kann durch Erhöhung des Stichprobenumfangs nicht reduziert werden. Darüber hinaus lässt er sich statistisch nicht quantifizieren, sondern allenfalls aus Erfahrungswerten abschätzen. Andererseits ist er aber durch sorgfältige Gestaltung des Messinstruments vermeidbar (vgl. hierzu Sellitz et al. 1981, S. 159 f.). Abbildung 3.11 zeigt die Quellen systematischer Fehler. QQuueelllleenn ssyysstteemmaattiisscchheerr FFeehhlleerr Untersuchungseinheit Untersuchungsträger Interviewer ■ Erhebungsplanung ■ Erhebungsdurchführung ■ Auswertung ■ Interpretation ■ Auswahlplan ■ Antwortbias ■ Antwortregistrierung ■ Non-Response ■ Falschbeantwortung <?page no="102"?> 102 Messung, Operationalisierung und Skalierung von Variablen Eine erste Ursache systematischer Fehler liegt beim Untersuchungsträger. So können im Rahmen der Erhebungsplanung die Grundgesamtheit falsch definiert, die Forschungsfrage nicht korrekt formuliert, der Fragebogen fehlerhaft oder das Auswahlverfahren ungeeignet sein. Auch im Rahmen der Durchführung können Fehler auftreten, etwa durch eine mangelhafte Organisation der Feldarbeit. Darüber hinaus können die Datenauswertung fehlerhaft - z.B. wegen der Anwendung ungeeigneter Verfahren oder fehlerhafter Codierung und Dateneingabe - sowie die Interpretation der Daten aufgrund subjektiver Wertungen verzerrt sein. Eine weitere Quelle systematischer Fehler liegt im sog. Interviewer-Bias. So kann der Auswahlplan dadurch verzerrt sein, dass Interviewer ihre Quoten nicht einhalten oder gar verfälschen. Hierzu gehört auch der mitunter vorkommende Fall, dass ein Interviewer einen Teil der Fragebögen selbst ausfüllt. Darüber hinaus kann eine Antwortbeeinflussung seitens des Interviewers stattfinden, sei es unbewusst durch Gestik, Mimik und Auftreten, sei es bewusst durch Suggestion. Schließlich können auch im Rahmen der Antwortregistrierung Fehler auftreten, z.B. durch versehentliches Ankreuzen der falschen Antwortkategorie, Platzmangel zur Erfassung der vollständigen Antwort u.Ä. Schwerwiegende Fehler bei der Untersuchungseinheit betreffen die Antwortverweigerung (Non-Response) und die Falschbeantwortung. Gerade die Antwortverweigerung stellt ein großes Problem in der Sozialforschung dar, da die Repräsentativität der Untersuchungsergebnisse dadurch gefährdet ist. Dies ist dann der Fall, wenn sich die Antwortverweigerer systematisch von den Antwortenden unterscheiden; der Effekt ist umso größer, je höher die Ausfallrate im Vergleich zum Anteil der Antwortenden, d.h. je geringer die Ausschöpfungsquote ist. Neben der Nichtbeantwortung spielt auch die Falschbeantwortung eine wichtige Rolle. Eine eher unbeabsichtigte Falschbeantwortung kann die Folge interner oder externer situativer Gegebenheiten bei der Auskunftsperson sein, etwa Ermüdung, Krankheit, Präsenz von Familienmitgliedern u.Ä. Bewusste Falschbeantwortung kann aus Prestigegründen oder bei sensiblen bzw. tabuisierten Erhebungsgegenständen eintreten (vgl. hierzu ausführlich Abschnitt 3.4). AAnnffoorrddeerruunnggeenn aann MMeessssvveerrffaahhrreenn Das Ziel, möglichst fehlerfreie Messwerte zu erhalten, wird dann erfüllt, wenn die herangezogenen Messverfahren bestimmten Qualitätsanforderungen (Gütekriterien) genügen (vgl. Abb. 3.12): Objektivität, Validität und Reliabilität. Definition Die Objektivität eines Messinstruments ist gewährleistet, wenn die gewonnenen Messwerte personenunabhängig zustande kommen, unterschiedliche Forscher also unter Anwendung derselben Messinstrumente das gleiche Ergebnis erhalten. Entsprechend den Ablaufschritten eines Messvorgangs lassen sich folgende Arten der Objektivität unterscheiden (vgl. Döring/ Bortz 2016, S. 443): <?page no="103"?> Qualität von Messverfahren 103 Durchführungsobjektivität, Auswertungsobjektivität und Interpretationsobjektivität. AAbbbb.. 33..1122: Qualitätsanforderungen an Messverfahren Durchführungsobjektivität ist dann gegeben, wenn die Untersuchungsleitung die Untersuchungseinheiten weder durch ihr äußeres Erscheinungsbild noch durch ihre Motiv- und Wertstruktur in ihrem Verhalten beeinflusst, d.h. wenn eine möglichst geringe soziale Interaktion zwischen Forscher und Auskunftsperson stattfindet. Die Auswertungsobjektivität ist umso höher, je weniger Spielraum der Forscher bei der Auswertung der Messergebnisse hat. Sie ist bei standardisierten quantitativen Erhebungen am höchsten, bei qualitativen, nichtstandardisierten Erhebungen am geringsten. Schließlich besagt die Interpretationsobjektivität, dass verschiedene Untersuchungsleiter die Messergebnisse in gleicher Weise interpretieren. Bei quantitativen, standardisierten Erhebungen ist Objektivität i.d.R. gegeben, wohingegen bei qualitativen Erhebungen ggf. eine Prüfung der Objektivität erfolgen muss (vgl. i.E. die Ausführungen in Kapitel 3 in Teil 9). Die Messung der Objektivität erfolgt dabei mit dem sog. Objektivitätskoeffizienten; hierbei werden die Ergebnisse zweier Messvorgänge, welche von unterschiedlichen Forschern durchgeführt wurden, miteinander korreliert. Definition Ein Messinstrument ist reliabel (zuverlässig), wenn es bei wiederholten Messungen unter völlig gleichen Bedingungen dasselbe Messergebnis erzeugt. Damit ist Reliabilität ein Maß für die Präzision eines Messinstruments. Uneingeschränkte Reliabilität bedeutet, dass das Messinstrument in der Lage ist, bei jedem Messvorgang den wahren Wert 𝑋𝑋 � ohne jeden zufälligen Messfehler 𝑋𝑋 � zu erfassen. Der Grad der Reliabilität einer Messung lässt sich anhand des Standardfehlers ausdrücken, welcher ein Maß dafür ist, um wieviel die Messwerte bei wiederholter Messung um einen Mittelwert streuen. Die Reliabilität bezieht sich demnach auf den Zufallsfehler. AAnnffoorrddeerruunnggeenn aann MMeessssvveerrffaahhrreenn Validität Objektivität Reliabilität ■ Durchführungsobjektivität ■ Auswertungsobjektivität ■ Interpretationsobjektivität ■ Test-Retest-Reliabilität ■ Parallel-Test-Reliabilität ■ Interne-Konsistenz- Reliabilität ■ Inhaltsvalidität Face-Validität Expertenvalidität ■ Konstruktvalidität Diskriminanzvalidität Konvergenzvalidität ■ Kriteriumsvalidität Konkurrentvalidität Prognosevalidität <?page no="104"?> 104 Messung, Operationalisierung und Skalierung von Variablen Tritt bei wiederholten Messungen ein Messfehler auf, so kann dies die folgenden Ursachen haben (vgl. Berekoven et al. 2009, S. 81): fehlende Konstanz der Messbedingungen, fehlende Konstanz der Merkmale (unterschiedliche Merkmalswerte trotz konstanter Messbedingungen und fehlerfreiem Messinstrument), fehlende instrumentale Konstanz, d.h. mangelnde Präzision des Messinstruments. Die Reliabilität lässt sich überprüfen durch (vgl. z.B. Döring/ Bortz 2016, S. 464 ff.) die Test-Retest-Reliabilität, die Parallel-Test-Reliabilität sowie die Interne-Konsistenz-Reliabilität Zur Bestimmung der Test-Retest-Reliabilität erfolgt eine Wiederholungsmessung zu einem späteren Zeitpunkt. Die Test-Retest-Reliabilität resultiert dann aus der Korrelation der beiden Messreihen und ist ein Maß für die Stabilität des Messverfahrens. Bei der Parallel- Test-Reliabilität wird eine Vergleichsmessung zum selben Zeitpunkt vorgenommen. Hierbei werden zwei Testversionen entwickelt, welche auf ihre Äquivalenz hin überprüft werden. Bei der Internen-Konsistenz-Reliabilität erfolgt eine Aufteilung des Messinstruments (z.B. der Itembatterie bei einer Multi-Item-Skala) in zwei Teile gleicher Länge (Split-Half- Reliabilität); anschließend werden die Ergebnisse auf ihre Einheitlichkeit hin überprüft. Bestimmt wird die Reliabilität jeweils über die Korrelation der Messergebnisse, welche möglichst hoch sein sollte. Die genannten Verfahren zur Messung der Reliabilität sind jedoch selbst mit Fehlerquellen behaftet. So kann sich z.B. bei der Test-Retest-Reliabilität der wahre Wert im Zeitablauf verändern, oder es tritt bei den Probanden ein Pretest-Effekt auf, etwa Sensibilisierung durch wiederholte Messungen. Bei der Split-Half-Reliabilität ist die Aufteilung des Messinstruments in zwei gleichwertige Hälften - etwa zwei gleichwertige Itembatterien - äußerst problematisch. Zur Messung der Internen-Konsistenz-Reliabilität ist daher insb. die Berechnung von Cronbachs Alpha gebräuchlich (vgl. Döring/ Bortz 2016, S. 468): � � 𝐼𝐼 𝐼𝐼 � 1 �𝑠𝑠 �� � ∑ 𝑠𝑠 � � � ���� 𝑠𝑠 �� � mit 𝑠𝑠 �� = Varianz des Gesamtscores, 𝑠𝑠 � � � = Varianz in Item 𝑖𝑖 ( 𝑖𝑖 = 1, …, I), 𝑋𝑋 � ∑ 𝑋𝑋 � ���� = Gesamtscore. Cronbachs Alpha liegt im Wertebereich zwischen 0 und 1; gefordert wird üblicherweise α > 0,7. Alpha wird dabei umso größer, je höher die Zahl der Items ist. Definition Die Validität (Gültigkeit) eines Messinstruments gibt an, ob das Messinstrument tatsächlich das misst, was es zu messen vorgibt, und wie genau es den zu messenden Sachverhalt abbildet. <?page no="105"?> Qualität von Messverfahren 105 Im Gegensatz zur Reliabilität bezieht sich die Validität auf systematische (konstante) Fehler (zur Validität im Zusammenhang mit Experimenten vgl. auch die Ausführungen in Kapitel 2 in Teil 6). Beispiel 3.30: Zur Messung der Schulreife von Kindern wird ein Testverfahren verwendet, das in Wirklichkeit bereits vorhandenes Wissen abfragt. Damit ist das Messinstrument nicht valide, da es nicht wie beabsichtigt die Schulreife misst, sondern ein anderes Konstrukt. Dennoch kann das Instrument durchaus reliabel sein, d.h. bei Wiederholung des Tests an demselben Kind resultieren dieselben - allerdings nicht validen - Messwerte. Im Hinblick auf die Marktforschung ist ein Messinstrument, mit dessen Hilfe beispielsweise die Einstellung von Probanden bezüglich eines Objektes (z.B. einer bestimmten Produktmarke) gemessen werden soll, nicht valide, wenn im Rahmen einer Befragung „falsche“ Fragen gestellt werden, mit denen sich die Einstellung gegenüber einem Einstellungsobjekt nicht adäquat abbilden lässt. Die Validität des Messinstruments ist auch dann gestört, wenn die „falschen“ Probanden befragt werden (z.B. Personen, welche nicht zur Zielgruppe der Produktmarke gehören). Mangelnde Reliabilität kann sich in diesem Beispiel durch unsorgfältige Interviewer oder verzerrtes Antwortverhalten der Auskunftspersonen ergeben. Zur Überprüfung der Validität wird unterschieden in (vgl. Döring/ Bortz 2016, S. 469 ff.): Inhaltsvalidität, Konstruktvalidität sowie Kriteriumsvalidität. Gegenstand der Inhaltsvalidität ist die Frage, ob ein Messinstrument inhaltlich (sachlich und logisch) geeignet ist, einen bestimmten Sachverhalt zu messen. Die Überprüfung erfolgt im Regelfall durch Plausibilitätsüberlegungen (Face-Validität) oder mittels Beurteilung durch Experten (Expertenvalidität). Die Konstruktvalidität misst, in welchem Ausmaß Beziehungen zwischen einem theoretischen Konstrukt (z.B. „Einstellung“) und der empirischen Messung vorliegen. Ein Test ist dann konstruktvalide, wenn aus dem zu messenden Konstrukt Hypothesen ableitbar sind, die anhand der Testwerte gemessen werden können. Diese Beziehung kann in Form der Diskriminanzvalidität (Unterschiedlichkeit der Messung verschiedener Konstrukte mit einem Messinstrument) oder der Konvergenzvalidität (Übereinstimmung der Messungen eines Konstrukts mit verschiedenen Messinstrumenten) abgebildet werden (vgl. Campbell/ Fiske 1959). Gegenstand der Kriteriumsvalidität ist hingegen die Übereinstimmung der Messung eines latenten Konstrukts (z.B. Einstellung zur Marke) mit den Messungen eines korrespondierenden manifesten Kriteriums dieses Konstruktes (z.B. Empfehlungsverhalten). Je nachdem, ob die Messungen zeitgleich oder später erfolgen, unterscheidet man dabei zwischen Konkurrentvalidität (zeitgleiche Messung) und Prognosevalidität (zeitlich aufeinanderfolgende Messung). Die Kriteriumsvalidität errechnet sich als Korrelation zwischen den Testwerten und den Kriteriumswerten einer Stichprobe. Ziel empirischer Erhebungen ist grundsätzlich die Gewinnung von Informationen über eine Gesamtheit von Erhebungseinheiten. Insofern kommt neben den genannten Gütekriterien zusätzlich der Repräsentativität eine zentrale Rolle zu. <?page no="106"?> 106 Messung, Operationalisierung und Skalierung von Variablen Definition Statistische Repräsentativität beinhaltet, dass von den Ergebnissen in einer Stichprobe ein Rückschluss auf die Grundgesamtheit möglich ist, wobei der Fehler quantifizierbar ist. Bei quantitativen Erhebungen wird Repräsentativität durch entsprechende Auswahlverfahren gewährleistet (vgl. Teil 7). Die Zusammensetzung der Stichprobe soll dabei der Zusammensetzung der Grundgesamtheit entsprechen. 44..33 OOppeerraattiioonnaalliissiieerruunngg uunndd SSkkaalliieerruunngg kkoommpplleexxeerr KKoonnssttrruukkttee Definition Operationalisierung ist eine Vorschrift zur Zuordnung von Messungen zu einer interessierenden Variablen. Unter Skalierung wird die Generierung eines Maßstabs verstanden, um Eigenschaftsausprägungen von Objekten zu messen. Die Operationalisierung von Merkmalen bzw. Variablen ist insbesondere bei komplexen, nicht direkt messbaren Konstrukten von Bedeutung. Sie erfordert eine präzise konzeptionelle und begriffliche Erfassung der zu erhebenden Merkmale sowie die Bestimmung der zugehörigen empirisch wahrnehmbaren Eigenschaften (Indikatoren, Items), welche das konzeptionell formulierte Konstrukt repräsentieren und zur Bildung einer geeigneten Messskala heranzuziehen sind. Im Zusammenhang mit der Skalierung sind die folgenden Aspekte von Bedeutung: das Messniveau der Daten, die Art, Anzahl und Richtung der möglichen Antwortkategorien auf der Skala sowie die eingesetzten Skalierungsverfahren. MMeessssnniivveeaauu ddeerr DDaatteenn Das Skalenniveau bzw. Messniveau von Variablen hat im Rahmen der Marktforschung eine erhebliche Bedeutung, da es einerseits die anzuwendenden bzw. anwendbaren Datenanalyseverfahren determiniert, andererseits die Aussagekraft von Marktforschungsergebnissen beeinflusst. Generell wird die Messung auf einem möglichst hohen Skalenniveau angestrebt, da das Spektrum anwendbarer Datenanalysemethoden größer ist. Zudem können höhere Skalenniveaus bei Bedarf auf ein niedrigeres Niveau reduziert werden, nicht aber umgekehrt. Tabelle 3.3 zeigt die vier möglichen Skalenniveaus im Überblick. Während eine Nominalskala lediglich die Feststellung von Identitäten ermöglicht, kann anhand einer Ordinalskala eine Rangfolge zwischen verschiedenen Objekten festgestellt werden. Die Abstände zwischen den Objekten sind dabei unbekannt. Sind die Abstände zwischen den Objekten messbar, liegt eine Intervallskala vor, im Falle des Vorhandenseins eines absoluten Nullpunkts ist eine Verhältnisskala gegeben. Nominal- und Ordinalskalen werden als nichtmetrische Skalen, Intervall- und Verhältnisskalen hingegen als metrische Skalen bezeichnet. <?page no="107"?> Operationalisierung und Skalierung komplexer Konstrukte 107 TTaabb.. 33..33: : Skalenniveaus in der Marktforschung Skalentyp Beispiel Empirische Aussage Zulässige Rechenoperationen Zulässige Maßzahlen und Verfahren Nominalskala Markenwahl eines Probanden: Marke 1 oder Marke 2 oder Marke 3 Gleichheit oder Ungleichheit von Objekten (z.B. gleiche Markenwahl durch die Probanden A und B) Jede eineindeutige Operation (Zuordnung von genau einem nummerischen Wert zu genau einer Ausprägung). Die Werte selbst haben keine empirische Aussage. Häufigkeit, Modus, Kontingenzmaße Ordinalskala Markenpräferenz eines Probanden: Rang 1: Marke 2 Rang 2: Marke 3 Rang 3: Marke 1 Größer-Kleiner- Relationen (Proband A zieht Marke 2 Marke 3 vor) Jede monotone rangerhaltende Operation. Den Merkmalsausprägungen können beliebige Werte zugeordnet werden, sofern die Rangfolge erhalten bleibt. Median, Centile, Rangkorrelation Intervallskala Ratingskala zur Messung der Kaufabsicht bzgl. Marke 2: „1: ganz sicher nicht“ bis „7: ganz sicher“ Gleichheit von Intervallen bzw. Differenzen 1 Lineare Transformation, z.B. Multiplikation eines jeden Werts mit dem gleichen Faktor Arithmetisches Mittel, Varianz, Produkt-Moment- Korrelationskoeffizient, t-Test, F- Test Verhältnisskala Gekaufte Menge von Marke 2 Verhältnis von zwei Werten Ähnlichkeitstransformation, z.B. Umrechnung von Litern in Gallions Geometrisches Mittel, harmonisches Mittel 1 Die Antwortskala hat zunächst ordinales Niveau. Sie gilt dann als Intervallskala, wenn angenommen werden kann, dass die Abstände zwischen den Skalenwerten von den Probanden als gleich wahrgenommen werden. AArrtt" AAnnzzaahhll uunndd RRiicchhttuunngg ddeerr AAnnttwwoorrttmmöögglliicchhkkeeiitteenn Je nach untersuchtem Gegenstand sind Skalafragen zu entwickeln, welche eine Messung des interessierenden Sachverhalts möglichst unverzerrt ermöglichen. Dabei kann man folgende Skalenarten unterscheiden: monopolare vs. bipolare Skalen sowie kontinuierliche vs. diskontinuierliche Skalen. Bei einer monopolaren (bzw. unipolaren) Skala verlaufen die Antwortkategorien nur in eine Richtung, z.B. von einer geringen bis zu einer hohen Ausprägung. Eine bipolare Skala bildet hingegen zwei gegensätzliche Dimensionen ab, z.B. lehne ab - stimme zu, und <?page no="108"?> 108 Messung, Operationalisierung und Skalierung von Variablen kann auch eine neutrale Mitte beinhalten, muss aber nicht. Bei einer kontinuierlichen Rating-Skala erfolgt die Bewertung an beliebiger Stelle eines Kontinuums (z.B. einer Geraden mit zwei Extrempunkten); die Einteilung in Kategorien wird nachträglich durch den Forscher vorgenommen. Ihre Anwendung in der Marktforschung ist allerdings begrenzt, da nicht gewährleistet ist, dass zwei Auskunftspersonen, welche das Kontinuum an derselben Stelle ankreuzen, auch genau denselben Messwert meinen. Gebräuchlicher sind daher diskontinuierliche (diskrete) Skalen, welche eine endliche Zahl an Antwortkategorien beinhalten. Abbildung 3.13 zeigt Beispiele für die verschiedenen Skalentypen. AAbbbb.. 33..1133: : Beispiele für gebräuchliche Ratingskalen Bei der Konstruktion einer Skala ist darüber hinaus über die Anzahl der Skalenpunkte, d.h. der möglichen Antwortkategorien zu entscheiden (vgl. Cox 1980). Einerseits erlaubt eine zu kleine Anzahl an Skalenpunkten keine ausreichende Differenzierung der Antworten und führt u.U. dazu, dass die Variable nicht als metrisch skaliert angesehen werden kann, was das Spektrum der möglichen Datenanalyseinstrumente einschränkt. Zuviele Skalenpunkte können andererseits die Befragten überfordern, da diese u.U. kein ausreichendes Differenzierungsvermögen besitzen. In der Marktforschung am gebräuchlichsten ist eine 7-Punkte-Skala. Neben der Anzahl der Skalenpunkte wird häufig diskutiert, ob die Skala eine gerade oder ungerade Zahl an Antwortmöglichkeiten aufweisen sollte (vgl. Coelho/ Esteves 2007). Wird bei einer Rating-Skala eine gerade Anzahl an Antwortmöglichkeiten vorgegeben, ist das Ankreuzen einer mittleren Position nicht möglich. Die Auskunftsperson muss sich also für eine eher positive bzw. negative Haltung entscheiden. Hierdurch wird das tendenziell „mittige“ Antwortverhalten von unentschlossenen Auskunftspersonen vermieden. Allerdings kann in diesem Fall eine tatsächlich mittlere bzw. indifferente Position nicht zum Ausdruck gebracht werden und führt u.U. zu Antwortverweigerung. Bei einer ungeraden Zahl von Antwortmöglichkeiten besteht jedoch die Schwierigkeit, dass Überhaupt nicht gut Sehr gut 1 7 2 3 4 5 6 Überhaupt nicht gut Sehr gut -3 3 -2 -1 0 1 2 Wie gefällt Ihnen die Verpackung von Produkt X? Überhaupt nicht gut Sehr gut 1 7 Unipolare kontinuierliche Skala Unipolare diskontinuierliche Skala Bipolare diskontinuierliche Skala <?page no="109"?> Operationalisierung und Skalierung komplexer Konstrukte 109 das Ankreuzen einer mittleren Position unterschiedlich interpretiert werden kann (z.B. „weder-noch“, „teils-teils“, „weiß nicht“, „ist mir egal“…). Aus diesem Grunde wird in der praktischen Marktforschung häufig eine neutrale Kategorie (z.B. „weiß nicht“) berücksichtigt. Unterstützt werden kann das Antwortverhalten durch die Flächigkeit der Antwortmöglichkeiten. Eine größere Fläche drückt dabei eine höhere Intensität aus. Ein weiteres Beispiel ist die Aufgabe an eine Auskunftsperson, eine Karte mit der Aufschrift „Würde ich kaufen“ aus einem Stapel von Karten, auf denen dieser Schriftzug in unterschiedlicher Größe gestaltet ist, auszuwählen. Von der Größe des Schriftzuges der ausgewählten Karte wird dann auf die Kaufwahrscheinlichkeit des betreffenden Produkts geschlossen. Einige Beispiele für grafisch unterstützte Skalafragen finden sich in Abb. 3.6 im vorangegangenen Kapitel 3. Bei der Konstruktion monopolarer Skalen werden i.A. auch sog. invertierte Items einbezogen (Reversed Items), d.h. solche mit umgedrehter Polung. Dadurch sollen gleichförmiges Antwortverhalten und „Ja-Sage-Tendenzen“ bei den Auskunftspersonen vermieden werden. Allerdings erzeugen invertierte Items häufig Falschantworten (vgl. Swain et al. 2008). Falschantworten können als Indikator für mangelnde Sorgfalt bem Ausfüllen des Fragebogens interpretiert werden und damit zum Ausschluss des Fragebogens führen; der Einsatz invertierter Items sollte dennoch sparsam erfolgen, da sie die Befragten u.U. verwirren. In jedem Falle muss darauf geachtet werden, dass invertierte Items bei der Datenaufbereitung umcodiert werden. Beispiel 3.31: Es soll die Innovativität der Testpersonen anhand einer Skala von 1 = Stimme überhaupt nicht zu bis 7 = Stimme voll und ganz zu gemessen werden. Folgende drei Items werden formuliert: Item 1: Ich bin immer einer der Ersten, der neue Produkte ausprobiert. Item 2: Wenn ich von einem neuen Produkt höre, möchte ich es unbedingt ausprobieren. Item 3: Ich kaufe ein neues Produkt erst dann, wenn Freunde oder Bekannte es schon ausprobiert haben. Item 3 ist invertiert, d.h. anders als bei den Items 1 und 2 repräsentiert der Wert 1 eine hohe Innovativität, der Wert 7 eine geringe. KKoommppaarraattiivvee vvss.. nniicchhttkkoommppaarraattiivvee SSkkaalliieerruunnggssvveerrffaahhrreenn Definition Skalierungsverfahren beinhalten die Art und Weise, wie mit Hilfe von Skalen Daten gemessen werden sollen. Hierbei wird unterschieden zwischen komparativer und nichtkomparativer Skalierung. Abbildung 3.14 liefert einen Überblick über in der Marktforschung gebräuchliche Skalierungsverfahren. <?page no="110"?> 110 Messung, Operationalisierung und Skalierung von Variablen AAbbbb.. 33..1144: : Gebräuchliche Skalierungsverfahren in der Marktforschung Techniken komparativer bzw. vergleichender Skalierung beinhalten einen direkten Vergleich von Stimuli (z.B. Rangordnung alternativer Fruchtsaftgetränke nach dem Geschmack). Da eine solche Skalierung nur ordinale Aussagen erlaubt, wird sie auch als nichtmetrische Skalierung bezeichnet. Eine nichtkomparative bzw. nichtvergleichende (auch: monadische oder metrische) Skalierung bedeutet hingegen, dass jedes Objekt unabhängig von anderen Objekten im Set skaliert wird; die Ergebnisse werden üblicherweise als metrisch skaliert angenommen (z.B. Beurteilung des Geschmacks alternativer Fruchtsaftgetränke auf einer Skala von 1: „schmeckt überhaupt nicht“ bis 5: „schmeckt sehr gut“ und Vergleich der Scores der einzelnen Getränke). Die nichtvergleichende Skalierung mit den resultierenden metrischen Daten wird in der Marktforschung am häufigsten eingesetzt, da sie u.a. Vorteile im Hinblick auf das Spektrum anwendbarer Datenanalyseverfahren aufweist. Im Folgenden sollen die wichtigsten Verfahren kurz dargestellt werden. Im Rahmen komparativer (vergleichender) Skalierung werden Objekte dadurch in eine Rangfolge gebracht, dass sie direkt miteinander verglichen werden. Das häufigste Verfahren im Rahmen vergleichender Skalierung sind Paarvergleiche. Im Rahmen von Paarvergleichen werden aus der Gesamtmenge von Objekten Objektpaare gebildet; die Auskunftsperson hat die Aufgabe, das jeweils von ihm präferierte Objekt nach einem vorgegebenen Kriterium (z.B. Geschmack) anzugeben. Bei 𝑛𝑛 Objekten sind pro Testperson dabei 𝑛𝑛�𝑛𝑛 � 1�/ 2 Paarvergleiche vorzunehmen. Aus den Ergebnissen der Paarvergleiche kann - Transitivität der Urteile vorausgesetzt - eine Rangordnung der Objekte gebildet werden; so erhält das Objekt, das am häufigsten im Paarvergleich präferiert wurde, Rang 1, wohingegen das Objekt, das am seltensten präferiert wurde, Rang 𝑛𝑛 erhält. Unter bestimmten Bedingungen kann aus den Daten auch eine Intervallskala gewonnen werden (vgl. zu den Einzelheiten z.B. Likert et al. 1993). SSkkaalliieerruunnggssvveerrffaahhrreenn Nichtkomparative (metrische) Skalierung Komparative (nichtmetrische) Skalierung Paarvergleich Rangreihung Konstantsummenskala Q-Sort Best-Worse-Skala Mathematische Skalierungsverfahren (Multidimensionale Skalierung; Conjointanalyse) Kontinuierliche Skala Diskontinuierliche Skala Likert-Skala Guttmann-Skala Thurstone-Skala Semantisches Differenzial Multiattributmodelle <?page no="111"?> Operationalisierung und Skalierung komplexer Konstrukte 111 Beispiel 3.32: Ich stelle Ihnen jetzt 10 Paare von Zahnpastamarken vor. Bitte geben Sie bei jedem Paar an, welche der beiden Marken Sie für den persönlichen Gebrauch vorziehen würden. 1 Blendix Freshdent 2 Blendix Dentawhite 3 Freshdent Dentawhite 4 Dentawhite Atemfrisch 5 Dentawhite Dentisan 6 Dentisan Blendix 7 Dentisan Atemfrisch 8 Freshdent Dentisan 9 Atemfrisch Blendix 10 Freshdent Atemfrisch Paarvergleiche sind sinnvoll, wenn die Zahl der zu beurteilenden Objekte begrenzt ist; ansonsten wird das Verfahren unübersichtlich. Weitere mögliche Nachteile des Verfahrens sind (vgl. Malhotra 2019, S. 275 f.): Es kann eine Verletzung der Transitivitätsprämisse auftreten, d.h. die resultierende Rangfolge der Objekte ist inkonsistent; das Ergebnis kann von der Reihenfolge der Präsentation der Objektpaare beeinflusst werden; Paarvergleiche haben kaum Ähnlichkeit zu realen Kaufsituationen, im Rahmen derer eine Auswahl zwischen mehreren Alternativen vorzunehmen ist; das Verfahren erlaubt keine Aussagen darüber, ob das - relativ gesehen - präferierte Objekt im absoluten Sinne den Probanden gefällt. Im Rahmen einer Rangreihung müssen die Testpersonen eine Menge von Objekten gleichzeitig beurteilen und gemäß ihren Präferenzen bzgl. eines vordefinierten Merkmals in eine Rangfolge bringen. Auch hier resultieren ordinalskalierte Präferenzdaten. Es wurden jedoch auch Verfahren entwickelt, um daraus intervallskalierte Daten zu generieren (vgl. z.B. Bottomley 2000). Beispiel 3.33: Ich zeige Ihnen fünf verschiedene Zahnpastamarken. Bitte ordnen Sie die Marken danach, welche Sie für Ihren persönlichen Gebrauch vorziehen würden. Geben Sie dabei der Marke, die Ihnen am meisten zusagt, den Wert 1, der Marke, die Ihnen am wenigsten zusagt, den Wert 5. Marke Rang Blendix ____ Freshdent ____ Dentawhite ____ Atemfrisch ____ Dentisan ____ <?page no="112"?> 112 Messung, Operationalisierung und Skalierung von Variablen Rangreihungsverfahren werden sehr häufig zur Erhebung von Präferenzen herangezogen, z.B. im Rahmen von Conjointanalysen (vgl. Abschnitt 3.5.1 in Teil 10). Im Vergleich zu Paarvergleichen ähnelt die Untersuchungssituation eher der realen Wahlentscheidung beim Kauf; darüber hinaus sind Verfahren aus dieser Gruppe schneller, sie verhindern intransitive Aussagen und sind für die Befragten unmittelbar nachzuvollziehen (vgl. Malhotra 2019, S. 277). Bei einer zu großen Zahl an Stimuli wird die Auskunftsperson jedoch u.U. überfordert. Beim Konstantsummenverfahren werden die Auskunftspersonen gebeten, eine vorgegebene Anzahl an Einheiten (z.B. Punkte, Münzen, Spielmarken) auf die einzelnen Untersuchungsobjekte bzw. auf Ausprägungen von Untersuchungsobjekten restlos zu verteilen; dabei soll die Verteilung die relative Bedeutung der Untersuchungsobjekte widerspiegeln. Beispiel 3.34: Hier sehen Sie fünf Eigenschaften von PKWs. Wie wichtig sind die einzelnen Eigenschaften für Sie, wenn Sie ein PKW kaufen? Bitte verteilen Sie insgesamt 100 Punkte auf die fünf Eigenschaften je nachdem, wie wichtig sie Ihnen sind! Platzverhältnisse im Innenraum Geschwindigkeit Design Sicherheit Preis Summe Q-Sort ist eine Variante von Rangordnungsskalen, bei welcher die Befragten vorgelegte Objekte in mehrere Stapel nach einem bestimmten Kriterium sortieren müssen. Beispielsweise kann den Befragten eine Reihe von Statements bzgl. eines Objekts vorgelegt werden, die sie nach dem Ausmaß der Zustimmung sortieren sollen (z.B. Stapel 1: „Stimme voll und ganz zu“, Stapel 2: „Stimme zu“ usw.). Best-Worse-Skalen sind ein vergleichsweise neuer Ansatz (vgl. Lee et al. 2007 und Auger et al. 2007). Zunächst werden Items (z.B. Produktmerkmale, Werte, Nutzenkomponenten) aufgelistet. Die Probanden müssen dann in jeder Gruppe den jeweils wichtigsten und den unwichtigsten Aspekt angeben. Gerade in der interkulturellen Markforschung, bei der Rating-Skalen aufgrund kultureller Unterschiede im Antwortmuster verzerrte Ergebnisse liefern können (z.B. aufgrund eines Höflichkeitsbias in bestimmten Ländern), können Best-Worse-Skalen bessere Messwerte produzieren. Weitere komparative Skalierungsverfahren sind mathematisch-statistischen Ursprungs (z.B. Conjointanalyse, Multidimensionale Skalierung) und werden in Abschnitt 3.5 in Teil 8 dieses Buches beschrieben. Komparative Skalierungsverfahren sind geeignet, wenn Präferenzen bzw. Wichtigkeitsbewertungen erhoben werden sollen, da dadurch verhindert wird, dass alle Eigenschaften als „sehr wichtig“ eingestuft werden und damit eine Nivellierung der Antworten 100 <?page no="113"?> Operationalisierung und Skalierung komplexer Konstrukte 113 herbeigeführt wird, wie dies bei der Anwendung von Techniken nichtkomparativer Skalierung eintreten kann. Im Rahmen nichtkomparativer Skalierung erfolgt die Bewertung von Objekten isoliert, d.h. unabhängig von anderen Untersuchungsobjekten. Verfahren nichtkomparativer Skalierung werden typischerweise im Rahmen der Einstellungsmessung eingesetzt und basieren auf sog. Rating-Skalen. Rating-Skalen beruhen darauf, dass die Befragten Punktwerte vergeben, z.B. von 1=sehr gut bis 5=sehr schlecht. Diese Skala erlaubt damit eine abgestufte Beurteilung zwischen zwei Extrempunkten und kann kontinuierlich oder diskret sein (vgl. hierzu Abb. 3.13). Grundsätzlich liefern Rating-Skalen ordinale Daten, unter der Annahme gleicher Abstände zwischen den Skalenpunkten werden sie jedoch häufig als metrisch behandelt. Auf Fragen wie Anzahl der Skalenpunkte, gerade vs. ungerade Anzahl von Antwortkategorien und invertierte Items wurde bereits eingegangen. Weit verbreitet ist die sog. Likert-Skala. Die Likert-Skala beruht darauf, dass den Probanden eine Reihe von Statements vorgelegt wird. Ihre Aufgabe ist es, das Ausmaß ihrer Zustimmung auf einer Skala anzugeben, typischerweise mit den Extrempunkten „stimme voll und ganz zu“ und „stimme überhaupt nicht zu“. Beispiel 3.35: Weiter unten finden Sie eine Liste von Aussagen zur Marke X. Bitte tragen Sie auf den untenstehenden Skalen ein, inwieweit Sie den einzelnen Aussagen zustimmen. Marke X… Stimme voll und ganz zu Stimme überhaupt nicht zu … hebt sich positiv von Konkurrenzmarken ab … ist qualitativ hochwertig … ist preislich günstig … ist überall erhältlich … macht gute Werbung Das Semantische Differenzial besteht aus einer Reihe 5 bis 7-stufiger, bipolarer Rating-Skalen mit metaphorischen - also vom Objekt losgelösten - Gegensatzpaaren (zum Semantischen Differenzial vgl. z.B. Snider/ Osgood 1977). Damit drücken die Adjektivpaare nicht das Vorhandensein von realen Objekteigenschaften (z.B. einer Marke) aus, sondern vielmehr die Assoziationen, die mit dem Objekt verbunden werden. Die Gegensatzpaare repräsentieren dabei die folgenden Dimensionen: evaluative Dimension, welche die affektive Komponente der Einstellung widerspiegelt und Adjektivpaare wie gut-schlecht, attraktiv-unattraktiv beinhaltet; Stärke-Dimension, welche durch Wortgegensatzpaare wie hart-weich, stark-schwach u.Ä. wiedergegeben wird und Aktivitätsdimension, welche durch Adjektivpaare wie schnell-langsam, aktiv-passiv etc. zum Ausdruck gebracht wird. <?page no="114"?> 114 Messung, Operationalisierung und Skalierung von Variablen Beispiel 3.36: Stellen Sie sich bitte die Marke X als Person vor. Wie würden Sie die Eigenschaften dieser Person beurteilen? Ausgewertet werden Semantische Differenziale insb. durch Bildung eines Polaritätsprofils. Darüber hinaus werden häufig Mittelwerte bzgl. der einzelnen Items errechnet. Problematisch ist vor allem der fehlende Objektbezug, was die Interpretation der Ergebnisse erschwert, da nicht auf die Wahrnehmung konkreter Objekteigenschaften geschlossen werden kann. Aus diesem Grunde wurden zahlreiche Modifikationen des Verfahrens entwickelt (vgl. Mindak 1961). Im Marketing werden zumeist objektbezogene Gegensatzpaare herangezogen, welche die einzelnen - realen - Eigenschaften eines Objekts (z.B. eines Produkts) repräsentieren. Beispiel 3.37: Bitte beurteilen Sie, inwieweit die unten angegebenen Aussagen auf die Marke X zutreffen. Ein positives Vorzeichen bedeutet, dass die Aussage auf Marke X zutrifft. Je höher die Zahl ist, umso eher trifft die Aussage auf Marke X zu. Ein negatives Vorzeichen bedeutet, dass die Aussage auf Marke X nicht zutrifft. Je höher die Zahl ist, umso weniger trifft die Aussage auf Marke X zu. + 5 +5 +5 + 4 +4 +4 + 3 +3 +3 + 2 +2 +2 + 1 +1 +1 hohe Qualität preisgünstig überall erhältlich 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 Eine solche Modifikation des Semantischen Differenzials stellt die sog. Stapel-Skalierung dar (vgl. Beispiel 3.37). Für das zu bewertende Objekt werden Items mit 10 Messpunkten -3 -2 -1 0 1 2 3 schlecht gut sauer süß verträumt nüchtern weich hart leise laut langsam schnell <?page no="115"?> Operationalisierung und Skalierung komplexer Konstrukte 115 auf einer bipolaren Skala vorgegeben. Der Proband muss angeben, in welchem Ausmaß bestimmte Eigenschaften, welche in der Mitte der Skalen aufgeführt werden, auf das Untersuchungsobjekt zutreffen. Üblicherweise wird die Skala vertikal präsentiert. Die Daten werden analog zum Semantischen Differenzial ausgewertet. Multiattributmodelle stellen eine spezielle Skalierungstechnik dar, im Rahmen welcher sich die Gesamtbewertung eines Objekts aus Teilbewertungen bzgl. einzelner Merkmale (Attribute) zusammensetzt. Ein wichtiges Anwendungsgebiet ist die Einstellungsmessung, sie können jedoch auch zur Messung anderer psychologischer Konstrukte herangezogen werden, z.B. Messung des wahrgenommenen Risikos. T Taabb.. 33..44: : Vergleichende Kurzdarstellung ausgewählter Multiattributmodelle Fishbein-Modell Rosenberg-Modell Trommsdorff-Modell Kognitive Komponente (Wissen) 𝑊𝑊 ��� = Subjektive Wahrscheinlichkeit für das Auftreten von Merkmal 𝑘𝑘 bei Objekt 𝑗𝑗 aus Sicht von Person 𝑖𝑖 Dass Tablets der Marke X langlebig sind, halte ich für sehr sehr unwahrwahrscheinlich scheinlich 𝑊𝑊 ��� = Zieleignung von Merkmal 𝑘𝑘 bei Objekt 𝑗𝑗 aus Sicht von Person 𝑖𝑖 (Eignung zur Befriedigung des 𝑘𝑘 -ten Bedürfnisses von Person 𝑖𝑖 ) Wenn ich ein langlebiges Tablet erwerben möchte, dann halte ich Marke X für sehr sehr ungeeignet geeignet 𝑊𝑊 ��� = Subjektive Einschätzung des Vorhandenseins von Merkmal 𝑘𝑘 bei Objekt 𝑗𝑗 durch Person 𝑖𝑖 Wie langlebig ist ein Tablet der Marke X? überhaupt sehr nicht langlebig langlebig Affektive Komponente (Bewertung) 𝑎𝑎 ��� = Bewertung des Merkmals 𝑘𝑘 bei Objekt 𝑗𝑗 durch Person 𝑖𝑖 Wenn Tablets der Marke X langlebig sind, so ist das für mich sehr sehr schlecht gut 𝑎𝑎 �� = Subjektive Wichtigkeit des Merkmals 𝑘𝑘 für Person 𝑖𝑖 Dass Tablets der Marke X langlebig sind, ist für mich sehr sehr unwichtig wichtig 𝐼𝐼 � = Von Person 𝑖𝑖 als ideal empfundene Ausprägung des Merkmals 𝑘𝑘 Wie langlebig ist das ideale Tablet? überhaupt sehr nicht langlebig langlebig Verknüpfung 𝐴𝐴 �� = Einstellung (Attitude) von Person 𝑖𝑖 zu Objekt 𝑗𝑗 𝐴𝐴 �� � �𝑊𝑊 ��� ⋅ 𝑎𝑎 ��� � 𝐴𝐴 �� � �𝑊𝑊 ��� ⋅ 𝑎𝑎 �� � 𝐴𝐴 �� � ��𝑊𝑊 ��� � 𝐼𝐼 � � � Aussage Die Einstellung von Person 𝑖𝑖 zum Objekt 𝑗𝑗 ist umso besser, je größer 𝐴𝐴 �� ist Die Einstellung von Person 𝑖𝑖 zum Objekt 𝑗𝑗 ist umso besser, je größer 𝐴𝐴 �� ist Die Einstellung von Person 𝑖𝑖 zum Objekt 𝑗𝑗 ist umso besser, je kleiner 𝐴𝐴 �� ist <?page no="116"?> 116 Messung, Operationalisierung und Skalierung von Variablen Grundlage von Multiattributmodellen ist die Annahme, dass Einstellungen aus verschiedenen einstellungsrelevanten Merkmalen resultieren. In einem ersten Schritt werden für das Untersuchungsobjekt die relevanten Eigenschaften identifiziert. Für jedes relevante Merkmal werden anschließend die affektive und die kognitive Komponente gemessen. Die verschiedenen Ansätze unterscheiden sich i.W. darin, wie die Komponenten gemessen werden und wie sie miteinander verknüpft werden, um einen aggregierten Einstellungswert zu erhalten. Tabelle 3.4 zeigt den Aufbau der Modelle von Fishbein, Rosenberg und Trommsdorff (vgl. i.E. Kroeber-Riel/ Gröppel-Klein 2019, S. 231 ff.). Bei den dargestellten Ansätzen handelt es sich um kompensatorische Modelle, d.h. schlechte Bewertungen eines Items können durch gute Bewertungen bei anderen Items ausgeglichen werden. Zudem wird Unabhängigkeit der Items unterstellt (vgl. Kroeber- Riel/ Gröppel-Klein 2019, S. 336). Da im Regelfall nicht die Einstellungswerte einzelner Personen relevant sind ( 𝐴𝐴 �� ), sondern von Personenmehrheiten, muss zudem noch eine Aggregation erfolgen. Hierzu können arithmetische Mittelwerte der einzelnen 𝐴𝐴 �� über alle befragten Personen bestimmt werden. Alternativ kann eine Clusteranalyse durchgeführt werden, um Personengruppen mit vergleichbaren Einstellungen identifizieren zu können (zur Clusteranalyse vgl. Abschnitt 3.3.1 im 8. Teil). S Siinnggllee-vvss.. MMuullttii--IItteemm--SSkkaalleenn Im Marketing werden zahlreiche Variablen erhoben, welche teils direkt beobachtbar (z.B. Absatzmenge), teils nicht unmittelbar beobachtbar sind (z.B. Einstellung). Die theoretisch-begriffliche Fassung des interessierenden Merkmals sagt zunächst aus, „was“ eigentlich zu messen ist; des Weiteren muss die Definition Aussagen darüber erlauben, wann und wo - ggf. durch wen und wie - die Messung vorzunehmen ist. Die inhaltliche Komponente der Operationalisierung - also die Frage nach dem „Was“ - ist bei direkt beobachtbaren Sachverhalten vergleichsweise einfach. So ist z.B. die Variable „Preis“ inhaltlich eindeutig bestimmt, zur konkreten Erhebung der Variable ist das Merkmal jedoch näher zu spezifizieren, z.B. „Preis zu einem bestimmten Stichtag“, „Durchschnittspreis in der Periode“ o.Ä. Neben dieser zeitlichen Dimension ist auch der räumliche Aspekt zu klären, z.B. „in sämtlichen Einzelhandelsgeschäften der Region“, „in Einzelhandelsgeschäften mit einem Umsatzanteil von mindestens X %“ usw. Besondere Schwierigkeiten bei der Operationalisierung treten dann auf, wenn es sich bei den zu erhebenden Merkmalen um hypothetische Konstrukte handelt, welche empirisch nicht direkt beobachtbar sind. Hierbei handelt es sich um komplexe, teilweise multidimensionale Sachverhalte psychologischer oder soziologischer Natur wie z.B. Einstellungen oder Sozialverhalten. Grundsätzlich besteht die Möglichkeit, hypothetische Konstrukte anhand einer einzigen Skala zu messen, beispielsweise: „Wie hoch ist Ihr Umweltbewusstsein? “ mit 1 = sehr niedrig bis 5 = sehr hoch. Solche Single-Item-Skalen sind einfach zu handhaben, senken den zeitlichen und finanziellen Erhebungsaufwand und reduzieren die Verweigerungsrate bei den Probanden. Sind die zu messenden Konstrukte für die Untersuchung nicht von zentraler Bedeutung, so reicht zumeist eine Single-Item-Skala. Auch aus theoretischer Sicht lassen sich Argumente für Single-Item-Skalen finden. So konnten Bergkvist und Rossiter zeigen, dass bei konkreten Konzepten und Attributen, also solchen, die von den Probanden eindeutig und einheitlich verstanden werden (z.B. Einstellung zur Marke), Single-Item-Skalen ausreichend sind. In diesem Falle ist die Vor- <?page no="117"?> Operationalisierung und Skalierung komplexer Konstrukte 117 hersagevalidität gleichwertig zu einer Multi-Item-Skala. Voraussetzung ist allerdings die sorgfältige Wahl des Items; dieses muss u.a. eine hohe Inhaltsvalidität aufweisen (vgl. Bergkvist/ Rossiter 2007 sowie Rossiter/ Bergkvist 2009). Des Weiteren bietet sich der Einsatz von Single-Item-Skalen dort an, wo die Grundgesamtheit sehr groß oder sehr heterogen ist, da die Entwicklung einer Itembatterie, welche die Besonderheiten sämtlicher Untergruppen berücksichtigt, kaum möglich ist. Nachteilig ist die Tatsache, dass die subjektive Einschätzung eines Merkmals, z.B. die Auffassung, was mit einem hohen Umweltbewusstsein verbunden wird, von Proband zu Proband sehr unterschiedlich ausfallen kann. Zudem kann die Selbsteinschätzung verzerrt sein. Alternativ kann das Konstrukt daher anhand einer Multi-Item-Skala erhoben werden, d.h. durch eine Reihe von Indikatoren, welche verschiedene Facetten des Konstrukts widerspiegeln sollen. Dies ist in der wissenschaftlichen Markt- und Sozialforschung mittlerweile der Standard. Vorteile sind dabei (vgl. Kuß et al. 2014, S. 97): Durch mehrere Items kann eher sichergestellt werden, dass die verschiedenen Aspekte des zu messenden Konstrukts erfasst werden. Die Messwerte auf Multi-Item-Skalen sind feiner differenziert. Multi-Item-Skalen sind häufig reliabler als Single-Item-Skalen, da sie nicht von einer einzelnen Messung abhängig sind. Hierzu ist das Konstrukt zunächst auf der Grundlage theoretischer Überlegungen oder explorativer Studien in seine einzelnen Elemente zu zerlegen. Für die einzelnen Dimensionen des Konstrukts sind anschließend Items zu generieren, welche sich auf empirisch beobachtbare - und somit messbare - Sachverhalte beziehen. Darüber hinaus ist eine Vorschrift anzugeben, wie diese Indikatoren zu messen sind und auf welche Weise die Einzelmessungen zu einem Messwert für das interessierende Konstrukt zu aggregieren sind. Die Aggregation zu einem Gesamtwert über alle Items kann z.B. durch additivmultiplikative Verknüpfung oder durch andere Vorschriften erfolgen. Beispiel 3.38 zeigt eine mögliche Operationalisierung des Konstrukts „Umweltbewusstsein“. Die Items des Beispiels können dann beispielsweise anhand einer Fünf-Punkte- Rating-Skala mit den Ausprägungen 1 („trifft überhaupt nicht zu“) bis 5 („trifft voll und ganz zu“) gemessen werden. Beim letzten Item des Beispiels ist dabei zu beachten, dass die Scores invertiert werden müssen (d.h. 1 = trifft voll und ganz zu, 5 = trifft überhaupt nicht zu), damit höhere Werte auch ein höheres Umweltbewusstsein widerspiegeln. Beispiel 3.38: Beispielhafte Items zur operationalen Definition des Konstrukts „Umweltbewusstsein“ [1] „Im Alltag versuche ich immer, Energie zu sparen.“ [2] „Wann immer möglich verzichte ich auf das Auto.“ [3] „Im Supermarkt kaufe ich nach Möglichkeit keine abgepackte Ware.“ [4] „Auf Glasflaschen sollte Pfand erhoben werden.“ [5] „Umweltfreundliches Verhalten sollte honoriert werden.“ [6] „Ich fühle mich durch auf der Straße herumliegenden Müll gestört.“ [7] „Mülltrennung bringt sehr viel Aufwand und Mühe, aber keinen echten Nutzen.“ (R) <?page no="118"?> 118 Messung, Operationalisierung und Skalierung von Variablen EEnnttwwiicckklluunngg uunndd VVaalliiddiieerruunngg vvoonn MMuullttii--IItteemm--SSkkaalleenn Wie bereits skizziert wurde, ist die Entwicklung und Validierung geeigneter Multi-Item- Skalen eines der zentralen Probleme bei der Erforschung komplexer Konstrukte. Die gängige Vorgehensweise orientiert sich dabei an der von Churchill (1979) vorgeschlagenen Methodik. Werden im Forschungsvorhaben Strukturgleichungsmodelle eingesetzt, können anspruchsvollere Validierungsverfahren („Verfahren der 2. Generation“) eingesetzt werden; diese werden in Abschnitt 3.4.2 im 8. Teil skizziert. Zur Konstruktion von Skalen sind grundsätzlich die folgenden Schritte erforderlich (vgl. Churchill 1979, S. 66): präzise Definition des zu untersuchenden Konzepts, Itemsammlung, Itemformulierung und -revision, Reliabilitätsprüfung und Validitätsprüfung. Der erste Schritt besteht in der Konzeptionalisierung des Konstrukts. Zu diesem Zweck ist es empfehlenswert, zunächst bisherige Veröffentlichungen zu analysieren. Ein Konstrukt muss präzise definiert und exakt von verwandten Konstrukten abgegrenzt werden (vgl. Jacoby/ Chestnut 1978). Darüber hinaus muss es konsistent verwendet werden und seine Definition muss das Ableiten und Testen von Hypothesen ermöglichen. Die möglichst präzise Definition des Konzepts bildet die Grundlage für die Validitätsprüfung und bestimmt den Inhalt der zu verwendenden Items. Eine eigene, neue Konzeptdefinition sollte dabei - um einen Vergleich mit früheren Studien zu ermöglichen - nur dann erfolgen, wenn das Forschungsproblem dies unbedingt erforderlich macht (vgl. Churchill 1979, S. 67). Ist das Konstrukt exakt definiert, erfolgt im nachfolgenden Schritt die Itemsammlung, d.h. die Suche nach geeigneten Indikatoren zur Messung des Konstrukts. Zur Gewinnung von Items können dabei verschiedene Verfahren der explorativen Analyse genutzt werden, beispielsweise (vgl. Kuß et al. 2014, S. 107; Churchill 1979, S. 67 f.): Ableitung aus der Konzeptdefinition nach logischen Überlegungen, Sichtung der Literatur im Hinblick auf dort verwendete Items, Expertenbefragungen, Alltagsbeobachtung, qualitative Vorstudien wie Kreativtechniken oder Gruppendiskussionen. Die gewählten Indikatoren sind dabei genau dann eine valide Operationalisierung des theoretischen Konstrukts, wenn eine kausale Beziehung zwischen ihnen und dem zugehörigen theoretischen Konstrukt angenommen und empirisch bestätigt werden kann. Im Hinblick auf die Spezifikation des Messmodells ist zwischen formativen und reflektiven Indikatoren zu unterscheiden (vgl. hierzu Albers/ Hildebrand 2006; Diamantopoulos/ Winklhofer 2001). <?page no="119"?> Operationalisierung und Skalierung komplexer Konstrukte 119 Formative Indikatoren „bilden“ das Konstrukt, d.h. das latente Konstrukt ist das Ergebnis der einzelnen gemessenen Indikatoren. Das bedeutet, dass sämtliche Indikatoren erfasst sein müssen, damit das Konstrukt vollständig operationalisiert ist. Ändert sich der Wert eines Indikators, so ändert sich der Wert des Konstrukts. Die kausale Wirkung verläuft dabei vom Indikator auf das Konstrukt, z.B. wirkt sich der Beruf (Indikator) auf den sozialen Status (Konstrukt) aus. Die einzelnen Indikatoren können miteinander korrelieren, müssen aber nicht. Hingegen sind reflektive Indikatoren solche, die das Konzept widerspiegeln, d.h. das latente Konstrukt wirkt sich auf eine Vielzahl beobachtbarer Indikatoren aus. Das Konstrukt „Sozialer Status“ etwa wirkt sich auf den Indikator „Anerkennung“ aus. Die Wahl reflektiver Indikatoren beruht auf der Domain Sampling Theory, wonach die bei der Messung verwendeten Items eine Stichprobe aller möglichen Indikatoren darstellen. Insofern sind reflektive Indikatoren nur eine - möglichst geeignete - Teilmenge aller möglichen Indikatoren und werden nach Kriterien der Reliabilität und Validität ausgewählt. Die kausale Wirkung verläuft vom Konstrukt auf die Indikatoren. Die einzelnen Indikatoren müssen dabei miteinander korrelieren, da sie alle im Grunde denselben Sachverhalt messen. Die in 1.4.2 angeführten Überlegungen zu Reliabilität und Validität implizieren somit ein reflektives Messmodell. AAbbbb.. 33..1155: : Formative und reflektive Indikatoren zur Messung der Kundenzufriedenheit (Quelle: Albers/ Hildebrand 2006, S. 12) Am gebräuchlichsten sind im Marketing reflektive Indikatoren, da sie einfacher zu handhaben sind. Abbildung 3.15 zeigt den Unterschied zwischen formativen und reflektiven Indikatoren am Beispiel des Konstrukts „Zufriedenheit mit dem Hotel“. Im Beispiel wird deutlich, dass das Weglassen eines formativen Indikators, z.B. „Der Wellnessbereich ist gut“, zu einer Verringerung der Qualität der Messung führt, da ein relevanter Aspekt der Zufriedenheit vernachlässigt wird. Hingegen wirkt sich die Unterdrückung RReefflleekkttiivvee IInnddiikkaattoorreenn FFoorrmmaattiivvee IInnddiikkaattoorreenn ZZuuffrriieeddeennhheeiitt mmiitt ddeemm HHootteell Die Zimmerausstattung ist gut Hier finde ich Ruhe Der Wellnessbereich ist gut Das Personal ist freundlich Der Service ist gut Ich freue mich, in diesem Hotel übernachten zu können Dieses Hotel empfehle ich gerne i Dieses Hotel schätze ich sehr In diesem Hotel fühle ich mich wohl <?page no="120"?> 120 Messung, Operationalisierung und Skalierung von Variablen eines reflektiven Indikators nicht notwendigerweise aus: Die einzelnen Aussagen, z.B. „In diesem Hotel fühle ich mich wohl“, sind per se - auch alleine - schon geeignet, Kundenzufriedenheit auszudrücken. In einem weiteren Schritt - Itemformulierung und Itemrevision - wird der Wortlaut der Items festgelegt (vgl. Churchill 1979, S. 68). Dazu gehören Entscheidungen wie die Formulierung als Frage oder als Statement, die direkte oder indirekte Abfrage, die Itempolung (z.B. invertierte Items) sowie die Festlegung der Antwortmöglichkeiten. Gegebenenfalls erfolgen eine Verfeinerung und Revision, etwa eine Umformulierung zur Vermeidung sozialer Erwünschtheit oder zur Verbesserung der Verständlichkeit. TTaabb.. 33..55: : Beispielhafte Item-Skala-Statistiken in SPSS Item Skalenmittelwert, wenn Item weggelassen Skalenvarianz, wenn Item weggelassen Korrigierte Item-Skala- Korrelation Cronbachs Alpha, wenn Item weggelassen Fußball ist wichtig für mich 24,13 43,295 0,768 0,772 Meine Fußballbegeisterung sagt viel über mich aus 23,36 51,815 0,599 0,810 Wenn ich ein schlechtes Fußballspiel sehe, ärgert mich das sehr 23,56 51,239 0,588 0,812 Ich kann einschätzen, wer ein Fußballfan ist und wer nicht 24,48 57,097 0,435 0,839 Fußball ist mir niemals gleichgültig 23,52 49,008 0,694 0,790 Im Rahmen einer Reliabilitäts- und Validitätsprüfung wird schließlich die Güte der entwickelten Skalen überprüft (vgl. auch Abschnitt 4.2 in diesem Kapitel). Die Berechnung von Cronbachs Alpha erlaubt eine Bewertung der Internen-Konsistenz-Reliabilität; zudem liefern die Item-Total-Korrelationen, d.h. die jeweiligen Korrelationen der Indikatoren mit dem Konstrukt, Hinweise auf Items, die eliminiert werden müssen. Tabelle 3.5 zeigt die Item-Skala-Statistiken in SPSS am Beispiel einer Skala zur Messung des Fußballinvolvements. Hiernach wäre Item 4 zu eliminieren, da seine Korrelation zum Konstrukt gering ist und durch dessen Unterdrückung Alpha auf 0,839 steigt. Mittels einer exploratorischen Faktorenanalyse kann schließlich die Faktorstruktur der Skala untersucht werden, etwa im Hinblick auf deren Dimensionalität (ob also die Items der Skala eine oder mehrere Dimensionen beschreiben). Ergänzend sei hier noch auf die Validierung mittels Strukturgleichungsmodellen hingewiesen (zur Methodik vgl. die Ausführungen in Abschnitt 3.4.2 im 8. Teil und die dort angeführten Gütekriterien sowie Homburg/ Giering 1996). <?page no="121"?> Operationalisierung und Skalierung komplexer Konstrukte 121 Weiterführende Literatur Amoo, T., Friedman, H.H. (2000): Overall Evaluation Rating Scales: An Assessment, in: International Journal of Market Research, 42(3), 301-311. Borg, J., Staufenbiehl, T. (2007): Theorien und Methoden der Skalierung, 4. Aufl., Bern. Campbell, D.T., Russo, M.J. (2001): Social Measurement, Thousand Oaks. Churchill, G.A. (1979): A Paradigm for Developing Better Measures of Marketing Constructs, in: Journal of Marketing Research, 16(1), 64-73. Freese, W. (2016): Mobile Marktforschung, in: planung&analyse, 2016(1), 44-45. Guenzel, P.J., Berkmans, T.R., Cannell, C.F. (1983): General Interviewing Techniques, Ann Arbour. Maxl, E., Döring, N. (2010): Selbst-administrierte mobile Non-Voice-Marktforschung: Methoden- und Forschungsüberblick, in: transfer - Werbeforschung & Praxis, 56(1), 22-32. Noelle-Neumann, E., Petersen, T. (2005): Alle, nicht jeder. Einführung in die Methoden der Demoskopie, 4. Aufl., Berlin. Schuman, H., Presser, S. (1996): Questions and Answers in Attitude Surveys, Orlando. <?page no="123"?> TTeeiill 44: : BBeeoobbaacchhttuunngg 11 K Kllaassssiiffiikkaattiioonn uunndd CChhaarraakktteerriissiieerruunngg vvoonn BBeeoobbaacchhttuunnggeenn Definition Unter einer Beobachtung versteht man die planmäßige und systematische Erfassung sinnlich wahrnehmbarer Tatbestände im Augenblick ihres Auftretens. Im Gegensatz zur sog. naiven Beobachtung ist die für die Marktforschung relevante wissenschaftliche Beobachtung charakterisiert durch einen exakt abgegrenzten Untersuchungsbereich, ein planmäßiges Vorgehen, eine systematische Aufzeichnung des aktuellen Geschehens sowie eine Überprüfung auf Objektivität, Reliabilität und Validität der Messung. Da der Gegenstand einer Beobachtung sinnlich oder apparativ erfassbare Sachverhalte sind, ist die Beobachtung grundsätzlich unabhängig von der Auskunftsbereitschaft der Teilnehmer. Gewisse Verfahren der Beobachtung erfordern jedoch aufgrund ihrer Anordnung die Zustimmung der beobachteten Person. Im Gegensatz zur Befragung kann das Verhalten der beobachteten Person objektiv erfasst werden, anstatt sich auf möglicherweise fehlerhafte Aussagen der Testperson stützen zu müssen. Allerdings können im Rahmen einer Beobachtung keine Ursachen für ein bestimmtes Verhalten erhoben werden. Beobachtungen können als eigenes Erhebungsverfahren oder aber im Rahmen von Panelerhebungen bzw. Experimenten durchgeführt werden. Sie lassen sich dabei nach den folgenden Merkmalen klassifizieren (vgl. z.B. Mangold/ Kunert 2011, S. 309): Strukturierungsgrad der Untersuchung, Beobachtungsumfeld, Partizipationsgrad des Beobachters, Durchschaubarkeit der Erhebungssituation sowie Form der Datensammlung. Strukturierungsgrad der Untersuchung Der Strukturierungsgrad der Untersuchung bezeichnet das Ausmaß, in welchem Anlage und Inhalt der Beobachtung, die Beobachtungssituation sowie die Art der Aufzeichnung standardisiert bzw. vorstrukturiert sind. Im Rahmen einer standardisierten Beobachtung wird der zu beobachtende Sachverhalt durch ein präzises Beobachtungsschema strukturiert. Das Beobachtungsschema ist eine Art Leitfaden, der eine Reihe definierter Beobachtungskategorien enthält; nur solche Sachverhalte werden erfasst, welche in die vorgegebenen Beobachtungskategorien fallen. Ein standardisiertes Vorgehen erleichtert die Quantifizierung und Auswertung der Daten; auch wird der (subjektive) Einfluss des Beobachters bei der Erfassung und Kodierung der beobachteten Tatbestände reduziert <?page no="124"?> 124 Klassifikation und Charakterisierung von Beobachtungen (vgl. Böhler et al. 2021, S. 99). Allerdings eignet sich die standardisierte Beobachtung nur für vergleichsweise einheitliche und leicht überschaubare Vorgänge. Bei einer nichtstandardisierten Beobachtung fehlt die Vorstrukturierung des zu beobachtenden Sachverhalts; dadurch ist das Verfahren offener und flexibler und kann zur Hypothesengewinnung im Rahmen explorativer Studien eingesetzt werden; eine Kodierung, Quantifizierung und Auswertung der beobachteten Sachverhalte ist allerdings sehr viel anspruchsvoller. Beobachtungsumfeld Nach dem Beobachtungsumfeld wird zwischen Feldbeobachtung und Laborbeobachtung unterschieden. Im Rahmen einer Feldbeobachtung werden die interessierenden Vorgänge in der gewohnten, natürlichen Umgebung des Probanden erfasst; dies hat den Vorteil, dass der Beobachtete nicht unbedingt von der Beobachtung erfahren muss. Hingegen erfolgt eine Laborbeobachtung in einem Studio unter künstlich geschaffenen Bedingungen, wodurch die Zustimmung der Teilnehmer erforderlich ist. Dem Vorteil der Isolierbarkeit und Kontrollierbarkeit der interessierenden Faktoren steht der Nachteil einer möglichen Verhaltensverzerrung aufgrund der künstlichen Situation gegenüber. Wenn Laborbeobachtungen auf der Grundlage konkreter Versuchsanordnungen erfolgen, handelt es sich um experimentelle Studien; die Grenzen sind hier fließend. Partizipationsgrad des Beobachters Beim Partizipationsgrad des Beobachters geht es um die Frage, welche Rolle der Beobachter im Rahmen der Beobachtungssituation einnimmt und ob seine Rolle dem Beobachteten bekannt ist. Bei der teilnehmenden Beobachtung wirkt der Beobachter am Beobachtungsgeschehen mit, d.h. er spielt bei der Untersuchung eine aktive Rolle und nimmt auf die Abläufe Einfluss. In der Marktforschung wird die teilnehmende Beobachtung eher selten eingesetzt, da sie zeit- und kostenintensiv ist. Die teilnehmende Beobachtung bietet sich dort an, wo aus der Interaktion zusätzliche Erkenntnisse gewonnen werden sollen. Aufgrund des starken Einflusses des Beobachters auf das Beobachtungsgeschehen eignet sich die teilnehmende Beobachtung insb. für explorative Analysen, wenn das zu untersuchende Phänomen noch vergleichsweise unbekannt ist. Soll die Rolle des Beobachters hingegen unbekannt bleiben, muss er bei der Untersuchung eine Funktion übernehmen, die seine Anwesenheit rechtfertigt und kein Misstrauen erregt. Dem Vorteil, dass der Beobachter aus nächster Nähe am Geschehen teilhat, steht jedoch der Nachteil gegenüber, dass die Aufzeichnung der relevanten Sachverhalte im Augenblick ihres Auftretens, ohne dass der Beobachter seine Rolle aufgibt, mit Schwierigkeiten verbunden ist (vgl. Berekoven et al. 2009, S. 142). Typische Marktforschungsprobleme, für die eine teilnehmende Beobachtung in Frage kommt, sind die folgenden (vgl. Böhler et al. 2021, S. 100; Pepels 2014, S. 142): Der Marktforscher kann in einem Geschäft als Kunde auftreten (sog. Mystery Shopper), um das Beratungsverhalten des Handels zu untersuchen. Im Investitionsgüterbereich kann der Marktforscher die Rolle eines Außendienstmitarbeiters einnehmen, um mögliche Probleme, Kaufkriterien etc. des Kunden festzustellen. Analog kann der Marktforscher im Konsumgüterbereich die Rolle eines Verkäufers einnehmen, um das Auswahlverhalten von Kunden beim Kauf von Produkten zu gewinnen. <?page no="125"?> 125 Den Regelfall in der Marktforschung bildet die nichtteilnehmende Beobachtung, bei der der Beobachter lediglich die Aufgabe hat, das Geschehen wahrzunehmen und zu registrieren. Das Verfahren ist objektiver, da der Beobachter nicht aktiv auf das Geschehen einwirkt und daher in seiner Wahrnehmung unabhängig ist. Durchschaubarkeit der Erhebungssituation Die Durchschaubarkeit der Beobachtungssituation bezeichnet das Ausmaß, in welchem der Testperson die Untersuchungssituation bewusst ist. Dabei werden folgende Beobachtungssituationen unterschieden (vgl. Abb. 4.1): offene Situation, nicht durchschaubare Situation, quasi-biotische Situation und biotische Situation. BBeeoobbaacchhttuunnggssssiittuuaattiioonneenn Offene Situation Nicht durchschaubare Situation Quasi-biotische Situation Biotische Situation Der Testperson ist die Beobachtung bewusst Sie kennt deren Zweck wie auch die konkrete Aufgabe Beispiel: Beobachtung der Handhabung von Produkten in einer häuslichen Situation Der Testperson ist die Beobachtung bewusst Sie kennt deren Zweck, nicht aber die konkrete Aufgabe Beispiel: Beobachtung des Markenwahlverhaltens im Rahmen eines Labortests, wenn die Testperson nicht weiß, um welche Produktkategorie es sich handelt Der Testperson ist die Beobachtung bewusst Sie kennt weder deren Zweck, noch die konkrete Aufgabe Beispiel: Registrierung des Einkaufsverhaltens von Panelteilnehmern im Rahmen einer Neuprodukteinführung Der Testperson ist die Beobachtung nicht bewusst Sie kennt weder deren Zweck, noch die konkrete Aufgabe Beispiel: Wartezimmertest im Rahmen der Werbemittelforschung AAbbbb.. 44..11: : Beobachtungssituationen Je weniger der Testperson die Beobachtungssituation bewusst ist, umso natürlicher wird ihr Verhalten sein und umso besser daher die Ergebnisse der Untersuchung. Bei offener Beobachtung tritt hingegen häufig ein sog. Beobachtungseffekt ein, d.h. aufgrund des Wissens um die Beobachtung verhält sich die Testperson anders als unter normalen Bedingungen. Aus diesem Grunde werden verdeckte Formen der Beobachtung vorgezogen. Liegt der Beobachtung eine experimentelle Anordnung zugrunde, ist eine Verschleierung allerdings schwierig; bei einer Feldsituation sind verdeckte Versuchsanordnungen eher möglich. Auf damit verbundene ethische und rechtliche Probleme, die dadurch entstehen, dass die Untersuchung ohne Einwilligung und Wissen der Testperson durchgeführt wird, ist hier noch hinzuweisen. Ein sog. Debriefing ist in diesem Falle zwingend erforderlich, d.h. die nachträgliche Information der Testperson über die erfolgte Beobachtung und die Möglichkeit, auch nachträglich die Teilnahme zu verweigern. Form der Datensammlung Nach diesem Kriterium wird unterschieden, ob die Aufzeichnung des Beobachtungsgeschehens durch den Beobachter selbst oder durch technische Hilfsmittel erfolgt (vgl. <?page no="126"?> 126 Klassifikation und Charakterisierung von Beobachtungen Kapitel 2). Quantitative Tatbestände wie z.B. die Aufzeichnung von Kundenwegen oder Zählungen von Kundinnen und Kunden können durch den Beobachter selbst vorgenommen werden; komplexere Untersuchungsgegenstände wie z.B. die Erfassung von Verhaltensreaktionen oder psychischer Zustände erfordern hingegen i.d.R. den Einsatz technischer Hilfsmittel. Die Anwendung von Beobachtungen in der Marktforschung umfasst folgende Bereiche: Zählungen, Erfassung psychischer Zustände, Erfassung physischer Aktivitäten sowie Bestandsaufnahmen und Spurenanalysen. Im Rahmen von Zählungen finden sich folgende exemplarische Anwendungen: Erfassung von Passantenströmen für die Standortanalyse im Handel, Messung von Besucherfrequenzen in einem Geschäft oder Dienstleistungsbetrieb. Von großer Bedeutung in der Marktforschung ist die Erfassung psychischer Zustände, sofern sie sich in physischen Reaktionen niederschlagen. Typische Anwendungsgebiete sind die Wahrnehmungsforschung oder die Messung von Erregungszuständen, z.B. die Aktivierung beim Betrachten von Werbemitteln und Produkten. Anwendungen, die die Erfassung physischer Aktivitäten zum Gegenstand haben, sind beispielsweise: Kundenlaufstudien zur Erfassung der Kundenwege in Geschäften, Handhabungs- und Nutzungsbeobachtungen im Rahmen der Produktforschung, Markenwahlverhalten im Geschäft, Blickverlauf beim Betrachten von Werbemitteln, Zuwendung zum Regal im Geschäft. Abbildung 4.2 zeigt ein Beispiel für eine Kundenlaufstudie (auch: Laufweganalyse). Ziel einer Kundenlaufstudie ist die Erfassung der Laufwege von Kunden, der Zuwendung zum Regal und der Verweildauer von Kunden am Regal, was im Handel als Grundlage für eine Regalplatzoptimierung dienen kann. Ausgewertet werden Kundenlaufstudien u.a. durch sog. Heatmaps. Eine Heatmap zeigt besonders frequentierte Bereiche in Rot (im Bild dunkel), weniger frequentierte Bereiche werden gelb oder grün ausgewiesen (im Bild heller; vgl. auch Kapitel 5 in Teil 10). Bestandsaufnahmen können sowohl im Handel als auch bei Verbrauchern erfolgen. Im Rahmen eines sog. Pantry-Checks werden z.B. Vorratsschränke in Haushalten untersucht, um daraus auf die Verwendung bestimmter Produkte zu schließen. Bei Spurenanalysen werden nachträglich Indikatoren für den Gebzw. Verbrauch bestimmter Produkte erhoben, etwa weggeworfene Zigarettenpackungen nach einer Großveranstaltung wie z.B. ein Fußballspiel oder Popkonzert, um so die Marktanteile verschiedener Marken zu ermitteln. Bei der Beurteilung von Beobachtungen sind zunächst folgende Vorteile zu nennen: Eine Beobachtung kann unabhängig von der Auskunftsbereitschaft und der Verbalisierungsfähigkeit der Testpersonen erfolgen. <?page no="127"?> 127 Mit Ausnahme der teilnehmenden Beobachtung entfällt das Problem der Beeinflussung durch den Beobachter. Es können durch Beobachtung nonverbale Verhaltensweisen erfasst werden, z.B. Gestik oder Mimik als Reaktion auf bestimmte Stimuli. Sie ermöglicht die Erfassung von Sachverhalten, die den Auskunftspersonen selbst nicht bewusst sind, etwa bei gewohnheitsmäßigen, nicht reflektierten Handlungen wie der Auswahl zwischen mehreren Marken im Verkaufsregal. Auch komplexe Zusammenhänge, die nur schwer in Einzelindikatoren zerlegt werden können, lassen sich erforschen, z.B. Verwendungsverhalten bei bestimmten Produkten, Leseverhalten bei Printmedien, Blickverlauf bei der Betrachtung von Werbemitteln. Bestimmte psychische Konstrukte wie Aktivierung, Wahrnehmung, Antwortsicherheit lassen sich unter Anwendung technischer Hilfsmittel deutlich zuverlässiger erfassen als durch eine Befragung. Es können Verhaltenssequenzen erfasst werden, die sonst nur durch wiederholte Interviews zu erheben wären (z.B. Konsumverhalten zu verschiedenen Jahreszeiten). Vorgänge können unmittelbar im Augenblick ihres Geschehens erfasst werden, sodass auch deutlich wird, in welchem Kontext bestimmte Geschehnisse erfolgen. Beobachtungen können andere Erhebungsmethoden ergänzen oder verifizieren, wodurch eine Kontrolle der Ergebnisse möglich wird. Beobachtungen sind geeignet, gruppendynamische Prozesse zu erfassen. AAbbbb.. 44..22: : Beispiel für eine Kundenlaufstudie im Supermarkt Kasse Kasse Kasse <?page no="128"?> 128 Klassifikation und Charakterisierung von Beobachtungen Dem gegenüber stehen folgende Nachteile einer Beobachtung: Viele interessierende Sachverhalte entziehen sich einer Beobachtung. Dazu gehören die meisten psychologischen Konstrukte wie z.B. Einstellungen, Verhaltensabsichten, Präferenzen, Motive, aber auch viele sozioökonomische und demographische Variablen. Bei nichtexperimentellen Beobachtungen kann die Ursache für ein bestimmtes Verhalten nur ermittelt werden, wenn zusätzlich eine Befragung vorgenommen wird. Die Beobachtung weist z.T. erhebliche Repräsentativitätsprobleme auf. Laborbeobachtungen erfolgen mit zumeist kleinen Stichproben; bei Feldbeobachtungen ist die Auswahl der Testpersonen willkürlich oder bestenfalls systematisch, abhängig von Ort, Tageszeit etc. der Beobachtung. Man denke z.B. an die Beobachtung des Einkaufsverhaltens in einem Supermarkt. Vorgänge, die sich über einen längeren Zeitraum erstrecken oder nur in großen Zeitabständen auftreten, würden eine sehr lange Erhebungsdauer erfordern, sodass eine Beobachtung rein aus Kostengründen nicht in Frage kommt. Analog zum Interviewereinfluss bei der Befragung ist bei der Beobachtung ein Beobachtereinfluss festzustellen. Bei der teilnehmenden Beobachtung greift der Beobachter ohnehin ins Geschehen ein, aber auch bei der nichtteilnehmenden Beobachtung unterliegt der Beobachter einer selektiven Wahrnehmung. Bei komplexen Fragestellungen und Anwendung einer standardisierten Beobachtung ist ein umfassendes Beobachtungsschema mit einer Vielzahl sich gegenseitig ausschließender Beobachtungskategorien erforderlich, wodurch die Datenaufnahmekapazität des Beobachters schnell an Grenzen stößt. Bei nicht verdeckten Beobachtungssituationen tritt auf Seiten der Untersuchungsperson ein Beobachtungseffekt ein, d.h. eine Verhaltensänderung aufgrund des Wissens um die Beobachtung. Die beobachteten Merkmale sind u.U. unterschiedlich interpretierbar, d.h. ein und dasselbe Verhalten kann unterschiedlich gedeutet werden. Beobachtungssituationen sind nur unter Laborbedingungen wiederholbar. Damit sind die Ergebnisse von Feldbeobachtungen nicht ohne weiteres vergleichbar. Die zeitliche Abfolge der beobachteten Ereignisse ist vom Forscher nicht direkt steuerbar. <?page no="129"?> 22 A Auuffzzeeiicchhnnuunnggssvveerrffaahhrreenn ddeerr BBeeoobbaacchhttuunngg 22..11 AAuuffzzeeiicchhnnuunngg dduurrcchh ddeenn BBeeoobbaacchhtteerr Viele Vorgänge lassen sich durch den Beobachter selbst erfassen, also ohne Nutzung technischer Hilfsmittel. Die Aufzeichnung erfolgt manuell, etwa mit Hilfe von Handzählern, Stoppuhren, Stift und Block, Strichlisten etc. Bei nichtteilnehmender Beobachtung ist die Aufzeichnung vergleichsweise unproblematisch, da der Beobachter nicht am Geschehen teilnimmt. Im Rahmen einer teilnehmenden Beobachtung nimmt der Beobachter am Ablauf des Geschehens teil, d.h. er übernimmt eine aktive Rolle. Beispiel hierfür ist das sog. Silent Shopping oder Mystery Shopping, im Rahmen dessen der Beobachter als Kunde auftritt und eine reale Kaufsituation simuliert. Dadurch kann er bestimmte Qualitätsmerkmale überprüfen, z.B. Erhältlichkeit des Produkts im Geschäft, Verhalten der Verkäufer, Platzierung etc. Der Beobachter berichtet an den Anbieter des Produkts, was erhebliche ethische Bedenken aufwirft. Gebräuchlich ist Mystery Shopping insb. zur Beurteilung der Servicequalität bei Dienstleistungsunternehmen, z.B. Handel, Banken, Werkstätten. Typischerweise wird beim Mystery Shopping ein Beobachtungsformular eingesetzt, in welchem der Beobachter in strukturierter Form die Ergebnisse und Eindrücke der Beobachtung festhält. Beispiel 4.1: Mystery Repair Werkstatttest (Dr. Grieger & Cie.) Für einen Werkstatttest wird ein Fahrzeug (Auto oder Motorrad) manipuliert (z.B. Sicherungen, Blinker-Relays, Luftdruck, Wasserstand). Bei Abholung des Fahrzeuges wird überprüft, ob die eingebauten Fehler erkannt und behoben wurden. Die Inhalte bei einem Werkstatttest sind entlang typischer Dienstleistungsepisoden aufgebaut, um den gesamten Prozess eines Werkstattbesuchs abbilden zu können. Kontaktaufnahme z.B. telefonische Kontaktaufnahme, Qualität des Gesprächs, Wahrnehmung der Terminvereinbarung etc. Fahrzeugannahme z.B. Qualität der Direktannahme, Begrüßung, Gesprächs-und Beratungsqualität, Bearbeitungsqualität des Auftrages etc. Wartungsprozess/ Reparaturprozess z.B. Verlauf des Checks, Wartezeiten, Qualität, Sorgfalt, Kommunikation Fahrzeugübergabe z.B. Termintreue, Einhaltung vereinbarter Kosten, Leistungserfüllung gemäß Vereinbarung, Qualität der Erläuterung von Leistungen, Qualität der Fehlererkennung etc. Quelle: Dr. Grieger & Cie 2016, o.S. Die persönliche Beobachtung kann nur bei vergleichsweise einfachen Aufgaben eingesetzt werden (vgl. Hüttner/ Schwarting 2002, S. 160 f.). Dazu gehören z.B. Zählungen. Grenzen findet die persönliche Beobachtung bei komplexen Fragestellungen, bei welchen mehrere Merkmale gleichzeitig erhoben werden müssen. <?page no="130"?> 130 Aufzeichnungsverfahren der Beobachtung 22..22 AAppppaarraattiivvee BBeeoobbaacchhttuunnggssvveerrffaahhrreenn Apparative (bzw. experimentelle) Beobachtungsmethoden werden bei experimentell angelegten Beobachtungen in Laborsituationen eingesetzt. Die Beobachtung erfolgt dabei unter Zuhilfenahme technischer Geräte. Häufige Anwendungsgebiete sind die Werbemittelforschung und die Produktforschung. Sie lassen sich unterteilen in (vgl. Abb. 4.3): aktualgenetische Verfahren, psychophysiologische Verfahren und mechanische Verfahren. Eine ausführliche und kritische Darstellung der wichtigsten apparativen Verfahren findet sich bei Sauermann 2008 und Keitz 2016. Die Anwendung ausgewählter apparativer Beobachtungsverfahren im Rahmen von Produkt-, Preis- und Werbemitteltests wird eingehend in Teil 10 beschrieben, sodass an dieser Stelle lediglich auf die grundlegende Methodik eingegangen wird. AAbbbb.. 44..33: : Überblick der gebräuchlichsten apparativen Verfahren AAkkttuuaallggeenneettiisscchhee VVeerrffaahhrreenn Definition Unter Aktualgenese versteht man den Prozess der Entstehung der Wahrnehmung komplexer Stimuli. Aktualgenetische Verfahren der Beobachtung versuchen, den Wahrnehmungsprozess von Probanden experimentell zu erfassen. Die ganzheitliche Wahrnehmung eines komplexen Reizes erfolgt nicht plötzlich, sondern stufenweise. Der Prozess beginnt dabei mit einer relativ diffusen positiven oder negativen Stimmung gegenüber dem Reiz (Anmutung), die dann mit zunehmend bewusst AAppppaarraattiivvee BBeeoobbaacchhttuunnggssvveerrffaahhrreenn Aktualgenetische Verfahren Psychophysiologische Verfahren Mechanische Verfahren Tachistoskop Schnellgreifbühne Unschärfeverfahren Anglemeter Nyktoskop Perimeter Sichtspaltdeformation Psychogalvanometer Hirnstrommessung (EEG) Facial Coding Funktionelle Magnetresonanztomografie (fMRT) Pupillometer Lidschlagfrequenz Thermografie Stimmfrequenzanalyse Eye Tracking Reaktionsbasierte Verfahren Nonverbale Resonanzmessungen Scanning RFID Online-Beobachtung Lichtschranken Daktyloskop Einwegspiegel Audio-, Foto- und Videoaufnahmen Telemeter <?page no="131"?> Apparative Beobachtungsverfahren 131 werdender Wahrnehmung durch kognitive Vorgänge überlagert und korrigiert wird (vgl. Graumann 1959). Verfahren der Aktualgenese arbeiten mit technischen Mitteln der Wahrnehmungserschwerung für Objekte (z.B. Verkürzung, Verkleinerung, Verdunkelung, Verunschärfung). Beispielsweise wird analysiert, welche Elemente eines Produkts in welcher Reihenfolge vom Probanden erkannt werden, wenn das Produkt zunächst verschwommen und anschließend zunehmend schärfer gezeigt wird. Im Folgenden sollen die wichtigsten Verfahren der Aktualgenese skizziert werden. Tachistoskop Mit Hilfe eines Tachistoskops wird die visuelle Wahrnehmung nach kurzzeitiger Darbietung eines Reizes untersucht. Dadurch wird erfasst, welche Elemente eines Objekts (z.B. Werbemittel oder Verpackung) bei der in der Praxis häufig anzutreffenden sehr kurzen Betrachtungsdauer wahrgenommen werden. Zusätzlich sollen erste, spontane Anmutungen von Objekten erfasst werden (vgl. Keitz 2016, S. 233). Gebräuchlich ist zum einen das sog. Projektionstachistoskop, bei welchem Bilder in hoher Auflösung auf eine Leinwand projiziert werden; zum anderen werden auch Computermonitore eingesetzt. Die Dauer der Darbietung ist zunächst sehr kurz (unterhalb der bewussten Wahrnehmung) und wird sukzessive erhöht, um den Prozess der Wahrnehmungsentstehung zu erfassen. Anwendung findet das Tachistoskop in der Werbemittel- und der Produktforschung. Schnellgreifbühne Bei einer Schnellgreifbühne handelt es sich um einen Kasten mit Schließmechanik. In diesem Kasten befinden sich mehrere Objekte (i.d.R. Produkte), die den Testpersonen nur für eine kurze Zeit dargeboten werden. Diese müssen sich spontan für ein Objekt entscheiden. Damit wird die Durchsetzungsfähigkeit von Produkten oder Verpackungen im Handel bei schnellem Durchlauf durch die Regale simuliert (vgl. Salcher 1995, S. 118 f.). Unschärfeverfahren Unschärfeverfahren zielen darauf ab, jene Reize zu identifizieren, die bei einem Objekt wahrgenommen werden. Dadurch wird überprüft, ob die Gestaltung eines Produkts oder eines Werbemittels hinreichend prägnant ist. Das Objekt wird zunächst so verschwommen dargeboten, dass eine sofortige Identifikation unmöglich ist. Anschließend wird die Schärfe des Stimulus sukzessive erhöht. Auf dieser Grundlage können dominante (Erkennungs-)Merkmale eines Produks identifiziert werden. Ein Beispiel ist das Verfahren digiFuzz© des Spiegel-Instituts (vgl. Spiegel Institut 2016, o.S.). Anglemeter Bei einem Anglemeter handelt es sich um eine steuerbare Drehscheibe, mit der ein Objekt - z.B. ein Produkt - zur Seite oder nach oben/ unten gewendet werden kann. Der Testperson wird zunächst die Ansicht von der Seite bzw. von oben oder von unten gezeigt; anschließend wird die relevante Seite (meist die Frontseite) langsam der Testperson zugewandt. Einsatz findet das Anglemeter zur Untersuchung der Produktidentifizierung bei Selbstbedienung im Handel. <?page no="132"?> 132 Aufzeichnungsverfahren der Beobachtung Nyktoskop Mit Hilfe eines Nyktoskops wird das Untersuchungsobjekt (ausgehend von völliger Verdunkelung) sukzessive aufgehellt. Das in der Medizin für die Ermittlung der Sehschärfe bei Dunkelheit eingesetzte Gerät kann in der Marktforschung verwendet werden, um die Wahrnehmungsentstehung von Objekten bei Dunkelheit oder Dämmerung zu erfassen. Relevant ist das Verfahren u.a. für den Test von Werbemitteln der Außenwerbung wie z.B. von Plakaten. Perimeter In der Augenmedizin wird ein Perimeter eingesetzt, um das Gesichtsfeld zu messen. Mit dessen Hilfe wird ein Objekt von der Randzone des Blickfelds des Probanden sukzessive in dessen Mitte gerückt. Im Marketing kann es eingesetzt werden, um die Identifizierung eines Produkts bzw. einzelner Elemente zu analysieren. Sichtspaltdeformation Die Sichtspaltdeformation, auch Zöllner-Verfahren genannt, beruht darauf, dass das zu testende Objekt, z.B. ein Produkt, hinter einem Sichtspalt vorbeigeführt wird. Die Größe des Sichtspalts kann dabei variiert werden. Durch anschließende Befragung wird erfasst, was die Testpersonen jeweils erkannt haben. PPssyycchhoopphhyyssiioollooggiisscchhee VVeerrffaahhrreenn Definition Psychophysiologische (auch: psychomotorische oder psychobiologische) Verfahren werden eingesetzt, um bei den Testpersonen unwillkürliche physische Reaktionen auf einen Stimulus zu messen. Daraus wird auf die interessierende, die physische Reaktion hervorrufende psychische Variable geschlossen (Erregung, Aktivierung, Aufmerksamkeit, Emotion). Einsatz finden diese Verfahren insb. in der Produkt- und Werbemittelforschung. Neuere Ansätze für die psychologische Marktforschung gehen vom sog. Consumer Neuroscience aus (vgl. im Folgenden Fantapié Altobelli/ Hensel 2018). Das Problem der traditionellen Marktforschung liegt darin, dass sie nur den bewussten Teil der Willensbildung von Konsumenten erfassen kann. Dieser macht jedoch nur einen Bruchteil der tatsächlichen Entscheidungsfindung aus; bereits seit längerem ist bekannt, dass selbst vermeintlich rationale Entscheidungen in einem hohen Maße von unbewusst ablaufenden Gefühlen beeinflusst werden. Mit Hilfe neurowissenschaftlicher Methoden wird versucht, auch diesen unbewusst ablaufenden Teil des Entscheidungsfindungsprozesses zu beleuchten. Ziel ist es, dadurch ein tieferes Verständnis für das menschliche Konsumverhalten zu erlangen (vgl. Hubert/ Kenning 2008). Neuromarketing ist ein Bestandteil des interdisziplinären Forschungsgebietes Neurowissenschaften, in dem versucht wird, die Abläufe im menschlichen Gehirn im Detail zu verstehen (vgl. Morin 2011). Zur Analyse werden insb. medizinische Untersuchungsmethoden wie die Elektroenzephalografie (EEG) oder die funktionelle Magnetresonanztomographie (fMRT) eingesetzt. Mit ihrer Hilfe ist es möglich, neuronale Gehirnaktivitäten zu messen und bildlich darzustellen. Daraus wird abgeleitet, welche Hirnregionen welche Aufgaben und Funktionen besitzen. Was Mediziner bislang zur Krankheitsaufklärung nutzten, hilft <?page no="133"?> Apparative Beobachtungsverfahren 133 Wirtschaftswissenschaftlern und Psychologen zunehmend, besser zu verstehen, wie Menschen ihre Entscheidungen treffen. So beobachten sie mit Hilfe der bildgebenden Verfahren, welche Bereiche des Gehirns aktiv sind, wenn ein Proband beispielsweise eine Kaufentscheidung trifft. Von besonderem Interesse ist es, nachvollziehen zu können, warum Menschen in bestimmten Situationen nicht rational entscheiden, anders reagieren als erwartet und oft sogar entgegen ihren eigenen, in Befragungen erhobenen Absichten handeln. In der Vergangenheit konnten Marktforscher zwar bestimmte Stimuli variieren (z.B. den Preis für ein Produkt) und die daraus folgenden Reaktionen von Testpersonen beobachten (z.B. deren Kaufentscheidungen); die zuvor abgelaufenen kognitiven und affektiven Entscheidungsprozesse konnten jedoch lediglich (re-)konstruiert werden. Mit Hilfe neurowissenschaftlicher Methoden versuchen die Forscher inzwischen, diese ursprünglich rein hypothetischen Konstrukte aus der „Black Box“ des Gehirns empirisch nachzuweisen, um auf diese Weise neue Einsichten in das Konsumentenverhalten zu erlangen. Die Mehrzahl der empirischen Studien zum Neuromarketing fokussiert dabei auf Aspekte der Marken-, Kommunikations- und Kaufverhaltensforschung (vgl. Camerer et al. 2004; Kenning et al. 2007, S. 57 f.). Anzumerken ist, dass die Anwendung neurowissenschaftlicher Mehoden erhebliche ethische Implikationen hat (vgl. Hensel et al. 2017, Fantapié Altobelli/ Hensel 2018 sowie Kapitel 4 im 1. Teil). Beispiel 4.2: Pepsi vs. Coca Cola: Der Einfluss einer Marke auf den Geschmack 1975 führte das Unternehmen Pepsi zu Marketingzwecken seinen inzwischen als Standardbeispiel für die Wirkung von Marken bekannten „Pepsi-Test“ durch. Darin verglichen weltweit Hunderte von Konsumentinnen und Konsumenten den Geschmack von Pepsi Cola und Coca Cola. Hierzu mussten sie beide Getränke aus zwei identisch aussehenden, neutralen Bechern trinken und angeben, welche Cola ihnen besser schmeckte. Das Ergebnis des Blindtests war, dass die überwiegende Mehrzahl der Testpersonen Pepsi Cola gegenüber Coca Cola vorzog. Interessanterweise verkauft sich Coca Cola aber bis heute deutlich besser als Pepsi Cola. Um diesen Widerspruch aufzuklären, wurde der Pepsi-Test im Jahr 2003 noch einmal wiederholt, wobei zusätzlich die Gehirnaktivitäten der Testpersonen mit Hilfe der funktionalen Magnetresonanztomographie gemessen wurden. Auch dieses Mal schmeckte den Testpersonen mehrheitlich die Pepsi Cola besser, und auch die Gehirnmessungen ergaben beim Trinken von Pepsi deutlich höhere Aktivitäten in den sog. ventralen Putamen, eine Gehirnregion, die stimuliert wird, wenn Menschen etwas schmeckt. Als das Experiment jedoch abgewandelt wurde und die Teilnehmenden von Anfang an wussten, welche Cola-Marke sie tranken, ergab sich, dass rund Dreiviertel Coca Cola geschmacklich präferierten. In der Magnetresonanztomographie zeigte sich, dass nun nicht mehr nur das ventrale Putamen, sondern zusätzlich auch der Bereich des medialen präfronteralen Kortex, ein Bereich im Gehirn, der u.a. für das emotionale Entscheidungsverhalten zuständig ist, aktiv war. Anschaulich ausgedrückt „stritten“ damit ein rationaler und ein emotionaler Gehirnbereich darüber, welche Cola die bessere sei, wobei die rationale Bevorzugung des Pepsi-Geschmacks den emotionalen Assoziationen mit der Marke Coca Cola unterlegen war. Quelle: Montague et al. 2004 <?page no="134"?> 134 Aufzeichnungsverfahren der Beobachtung Die gebräuchlichsten psychobiologischen Verfahren werden im Folgenden kurz dargestellt (vgl. hierzu Fantapié Altobelli/ Hensel 2018). Einschränkend ist darauf hinzuweisen, dass die Anwendung einzelner Verfahren wissenschaftlich nicht unumstritten ist. Psychogalvanometer (Hautwiderstandsmessung) Mit Hilfe eines Psychogalvanometers wird die elektrodermale Reaktion (Hautwiderstand) auf einen Stimulus gemessen. Die elektrische Leitfähigkeit der Hautoberfläche wird dabei als Indikator für die Aktivierung (z.B. bei Präsentation eines Produkts oder eines Werbemittels) herangezogen (vgl. Keitz 2016, S. 236 ff.). Ein Niedrigvoltstrom wird dazu über einen Sensor an der Hand- oder Fußfläche zu einem zweiten Sensor geleitet. Bei Aktivierung reagiert der Organismus mit Schweißabsonderung, wodurch sich die Leitfähigkeit der Haut erhöht (d.h. der Hautwiderstand sinkt) und der Stromfluss, der den zweiten Sensor erreicht, steigt. Die Aktivierung der Testperson zeigt dabei, wie stark die Aktivierung und damit Aufmerksamkeitswirkung des Stimulus ist, nicht jedoch die Richtung. Hirnstrommessung (Elektroenzephalogramm, EEG) Mittels Elektroden, die auf der Kopfhaut der Testperson angebracht sind, werden die elektrischen Aktivitäten des Gehirns erfasst, überwiegend die Aktivität der Cortex (Großhirnrinde) (Morin 2011, S. 133). Aktivitäten im okzipitalen Cortex des Gehirns (Hinterhauptslappen) können auf erhöhte Aufmerksamkeit zurückgeführt werden (welche mit Erinnerung, visueller Verarbeitung und Lernen korreliert), oder aber auf verminderte Aufmerksamkeit (Langeweile). Asynchrone Aktivitäten im frontalen Cortex können hingegen entweder auf Annäherungsverhalten (Mögen, Wollen, Motivation zum Handeln) oder auf Rückzugsverhalten (Abneigung, Vermeidung) hindeuten. Damit lassen sich auch emotionale Vorgänge messen (vgl. hierzu Davidson et al. 1990). Höhe und Verlauf der aufgezeichneten Gehirnströme erlauben Rückschlüsse auf die Aufnahme und Verarbeitung von Reizen, z.B. von Werbemitteln. EEG kann auch in Verbindung mit anderen Verfahren eingesetzt werden, z.B. Eye Tracking. Eine integrierte Lösung wird beispielsweise von SMI angeboten. Facial Coding Registriert werden hier Reaktionsmuster einzelner Muskelgruppen im Gesicht, die die Identifikation diskreter Emotionen erlauben. Hierzu wird mit Hilfe einer hochauflösenden Kamera das Gesicht der Testperson gefilmt und über eine spezielle Software (z.B. FaceReader von Noldus) ausgewertet. Das Gesicht wird in zahlreiche „Key Points“ aufgeteilt (bei FaceReader knapp 500) und Vergleichsdaten von über 10.000 Bildern gegenübergestellt. Die Auswertung des FaceReaders erfolgt automatisch und liefert eine grafische Darstellung des Emotionsmusters der Testperson. Dieses umfasst Emotionsregungen wie z.B. glücklich, traurig, überrascht, neutral, verängstigt, abweisend oder verärgert. Anwendung findet Facial Coding zur Erfassung der Emotionen der Testperson bei der Betrachtung bestimmter Stimuli. Hierfür bietet sich in erster Linie Audio- und Videomaterial an, da hier die Emotionen der Testperson zeitlich mit den Stimuli-Reizen in Verbindung gesetzt werden können. Analysiert werden können aber nicht nur visuelle Stimuli, z.B. Werbemittel, sondern auch sonstige sinnlich wahrnehmbare Reize wie Geräusche, Gerüche, Haptik etc. Abbildung 4.4 zeigt ein Beispiel für Facial Coding mit FaceReader. <?page no="135"?> Apparative Beobachtungsverfahren 135 AAbbbb.. 44..44: : Beispiel für Facial Coding (Quelle: www.noldus.com/ facereader) Funktionelle Magnetresonanztomographie (fMRT) Die funktionelle Magnetresonanztomographie (fMRT) gehört zu den sog. bildgebenden Verfahren. Sie zeigt, welche Zentren im Gehirn durch einen Stimulus aktiviert werden (Keitz 2016, S. 241). Das Grundprinzip von fMRT basiert darauf, dass Veränderungen im Sauerstoffgehalt des Blutes gemessen werden. Diese werden durch den Energiebedarf aktiver Nervenzellen hervorgerufen. In einem Zeitfenster von wenigen Sekunden kann fMRT neuronale Aktivitäten millimetergenau lokalisieren. Auf dem Bildschirm erscheint eine detaillierte Abbildung des Gehirns der Testperson, in welcher die Hirnbereiche, die aktiviert wurden, rot-gelb markiert sind. Für das Marketing relevant ist zum einen das Zentrum, das für Belohnungen zuständig ist; es wird angenommen, dass dieses Zentrum durch solche Stimuli aktiviert wird, welche für die Testperson attraktiv sind. Interessant sind auch Bereiche, die eine umfassende kognitive Verarbeitung signalisieren und Indikator für extensive Bewertungsprozesse sein können, oder aber Bereiche, die eine kognitive Vereinfachung signalisieren (und damit Indikator habitualisierter Prozesse sein können). Einzelheiten und Anwendungsbeispiele im Marketing finden sich z.B. bei Hubert/ Kenning 2011 oder Esch et al. 2012. Die Anwendung von fMRT in der Marktforschung ist derzeit auf Grundlagenforschung beschränkt, da die Methodik sehr zeit- und kostenintensiv ist (Keitz 2016, S. 242). Zudem stößt das Verfahren auch methodisch auf Kritik. <?page no="136"?> 136 Aufzeichnungsverfahren der Beobachtung Weitere psychophysiologische Verfahren Beim Pupillometer handelt es sich um eine Augenkamera, welche die Veränderung des Pupillendurchmessers bei Präsentation eines Stimulus erfasst. Die gemessene Änderung wird als Indikator für den Grad der Aktivierung des Probanden herangezogen. Im Rahmen der Messung der Lidschlagfrequenz wird mittels einer Kamera die Veränderung der Lidschlagfrequenz gegenüber dem Normalwert von ca. 30 Lidschlägen/ Minute als Reaktion auf einen bestimmten Stimulus (z.B. Werbemittel) gemessen. Eine Erhöhung der Lidschlagfrequenz wird als Indikator für die Aktivierung aufgefasst. Bei der Thermografie werden Hauttemperaturschwankungen als Reaktion auf die Darbietung eines Stimulus gemessen. Ein sog. Infrarot-Quarz-Thermometer erfasst die Infrarotlichtabstrahlung des Körpers; diese wird als Indikator für den Aktivierungsgrad herangezogen. Schließlich werden im Rahmen der Stimmfrequenzanalyse dem menschlichen Ohr nicht zugängliche, psychisch bedingte Veränderungen der Stimmfrequenz im Bereich von 8-14 Hz (sog. Mikrotremor) erfasst. MMeecchhaanniisscchhee VVeerrffaahhrreenn Definition Mechanische Verfahren werden im Rahmen nichtteilnehmender Beobachtungen eingesetzt, um eine planvolle Registrierung und Dokumentation des Beobachtungsgeschehens zu ermöglichen (Sauermann 2008, S. 236). Nachfolgend werden die wichtigsten Techniken skizziert. Eye Tracking (Blickregistrierung, Blickaufzeichnung) Die Grundidee des Eye Tracking besteht darin, dass der Blickverlauf einer Testperson beim Betrachten eines visuellen Stimulus (z.B. Werbeanzeige, Verpackung, TV-Spot) erfasst wird. Dem Eye Tracking kommt insb. im Rahmen der Werbemittelforschung eine große Bedeutung zu (vgl. ausführlich Keitz 2016, S. 224 ff. sowie Kapitel 3 im 10. Teil), die Methodik ist im Marketing jedoch vielseitig anwendbar, u.a. in der Produktforschung, der Handelsforschung, im Rahmen von Usability-Tests von Webseiten u.v.a.m. Anbieter von Eye Tracking-Systemen sind u.a. Tobii und SMI. Die Systeme lassen sich dabei mit anderen Aufzeichnungsverfahren kombinieren, z.B. EEG oder Elektrodermale Reaktion. Im Rahmen der Blickregistrierung kommen vor allem folgende Verfahren zur Anwendung: Mobiles Eye Tracking: Hierbei handelt es sich um eine Spezialbrille, welche die Blickbewegungen direkt erfasst. Dadurch können Blickbewegungen auch am Point of Sales aufgezeichnet werden. Remote Eye Tracking: Hier werden die Augenbewegungen der Testperson mit einer Kamera erfasst, die für den Probanden unauffällig angebracht ist, z.B. am Bildschirm. Das System ist für den stationären Einsatz vorgesehen, die Aufzeichnung erfolgt berührungsfrei, z.B. durch Infrarotlicht und Videoaufzeichnung der Augen. Die am häufigsten verwendeten Darstellungen der Blickaufzeichnung sind Scanpaths und Heatmaps. Die Reihenfolge der Blickbewegungen eines Probanden wird durch <?page no="137"?> Apparative Beobachtungsverfahren 137 Scanpaths verdeutlicht, es wird also der Rezeptionsprozess im engeren Sinne dargestellt. Heatmaps zeigen, wie lange die Gesamtheit der Probanden (kumuliert) auf bestimmten Bereichen - z.B. das Logo einer Anzeige oder eines Produktes im Werbefilm - verweilen. Eine ausführliche Darstellung im Zusammenhang mit Werbemittelforschung findet sich in Abschnitt 3.3.2 im 10. Teil. Reaktionszeitbasierte Verfahren Zu diesen Verfahren zählen neben der Antwortzeitmessung auch die verschiedenen Methoden impliziter Imagemessung. Die Antwortzeitmessung wird häufig ergänzend zu computergestützten Befragungsmethoden eingesetzt. Erfasst wird die Zeit, die z.B. zwischen dem Erscheinen der Frage auf dem Bildschirm und der Eingabe der Antwort verstreicht. Die Antwortzeit dient als Indikator für das Ausmaß an Überzeugung der Testpersonen. Die implizite Imagemessung beruht auf dem Reaktionszeitparadigma: Je schneller eine Antwort gegeben wird, umso instinktiver ist das Antwortverhalten und desto besser können tieferliegende Überzeugungen (implizit) abgebildet werden (vgl. im Folgenden Znanewitz et al. 2018). Das Reaktionszeitparadigma ist ein wissenschaftlich validiertes Verfahren, um implizite Assoziationen zu messen. Es basiert darauf, dass die Probanden am Computer einen Stimulus (z.B. Produkt oder Markenlogo) beurteilen (z.B. die Passung zu einer bestimmten Eigenschaft) und dabei die Antwortzeit (Reaktionszeit) gemessen wird. Es werden dabei nur solche Reaktionen in die Ergebnisanalysen einbezogen, die innerhalb sehr kurzer Zeit abgegeben werden (Ø 1,5 Sek). Diese Beschränkung auf sehr schnelle Reaktionen gewährleistet, dass alle Antworten vom implizit intuitiven System im Gehirn der Probanden produziert wurden und nicht länger durchdacht oder rationalisiert sind. So kann das tatsächlich empfundene (implizite) Image eines Objekts gemessen werden, z.B. einer Marke. Wenn ein Proband beispielsweise die Marke BMW mit Sportlichkeit verbindet, so wird er der Paarung „BMW-sportlich“ schnell zustimmen, da die Eigenschaft in seinem Unterbewusstsein verwurzelt ist. Zu den impliziten Messverfahren gehören u.a. der von Greenwald et al. (1998) entwickelte Implizite Assoziationstest (IAT), der Go-No-go-Assoziationstest (GNAT) oder die Affective Misattribution Procedure (AMP), welche in Laborsituationen eingesetzt werden. Darüber hinaus wurden auch Tools entwickelt, welche im Rahmen von Online- Befragungen eingesetzt werden können. Anwendungsgebiet im Marketing ist die Erhebung des impliziten Images von z.B. Marken und Unternehmen. Eine umfassende kritische Darstellung der einzelnen impliziten Messverfahren findet sich bei Znanewitz et al. 2018. Nonverbale Resonanzmessungen (Programmanalysator) Nonverbale Resonanzmessungen erlauben es den Testpersonen, die emotionale Bewertung von Stimuli (Likes/ Dislikes) nonverbal zum Ausdruck zu bringen und erfassen typischerweise das Ausmaß an Gefallen bzw. Ablehnung eines Stimulus (vgl. Kroeber- Riel/ Gröppel-Klein 2019, S. 105). Mit Hilfe von Joysticks oder Knöpfen (z.B. rechts für Gefallen, links für Missfallen) bringen die Testpersonen zum einen die Richtung der mit dem Stimulus verbundenen Empfindung zum Ausdruck, zum anderen - z.B. durch die Zeitdauer des Drückens des Knopfes - auch deren Intensität an. Anders als die weiter oben dargestellten reaktionszeitbasierten Verfahren werden hier bewusste Reaktionsmuster deutlich; dadurch können die Ergebnisse von denen reaktionszeitbasierter Verfahren <?page no="138"?> 138 Aufzeichnungsverfahren der Beobachtung abweichen (vgl. Keitz 2016, S. 243). Typisches Anwendungsbeispiel ist die Werbeforschung. Scanning Scanning ermöglicht es, den Kassiervorgang im Handel und damit auch die Verkaufsdatenerfassung weitgehend zu automatisieren. Große Bedeutung hat das Scanning im Rahmen von Panelerhebungen erlangt (vgl. ausführlich Teil 5). Ermöglicht wurde die artikelspezifische Datenerfassung durch die Einführung einer einheitlichen Europäischen Artikelnummerierung (EAN) im Jahre 1977. Der EAN-Code (vgl. Abb. 4.5) wird von den Herstellern auf den Produkten angebracht und wird an der Kasse mit Hilfe eines elektronischen Lesegeräts (Scanner) registriert. Länderkennzeichen Bundeseinheitliche Betriebsnummer „bbn“ Individuelle Artikelnummer des Herstellers Prüfziffer 4 0 0 4 7 4 4 0 2 0 9 2 8 AAbbbb.. 44..55: : Beispiel für eine EAN-Nummer Beim Einlesen wird die EAN-Nummer an einen Computer weitergeleitet, der den Verkauf des Artikels erfasst und dessen Lagerbestand fortschreibt. Gleichzeitig wird der Preis des Artikels an die Kasse gesendet. Die Scannertechnologie erlaubt es, schnellere, genauere und detaillierte Verkaufsdaten zu liefern (Art, Anzahl, Verkaufsart und -datum, Verkaufspreis etc.), was erhebliche Vorteile für Warenbewirtschaftung und Marketing mit sich führt. RFID (Radio Frequency Identification) Dieses technische System ermöglicht es, Daten an Objekten zu lesen und zu speichern, ohne diese zu berühren oder Sichtkontakt zu ihnen zu haben (vgl. ausführlich Kern 2006). Ein RFID-System besteht im Wesentlichen aus einem Sender, dem sog. Transponder, und einem Lesegerät. Im Transponder sind auf einem Chip die relevanten Daten gespeichert (z.B. Artikeldaten). Diese werden auf Abruf ausgesendet und durch das Lesegerät erfasst (vgl. Abb. 4.6). Ähnlich wie Strichcodes dient RFID dazu, Waren schnell identifizieren und damit den Warenfluss beobachten zu können. Allerdings können auf dem Chip deutlich umfangreichere und detailliertere Daten gespeichert werden - also nicht nur Artikelnummer, Menge, Preis etc., sondern auch z.B., um welche konkrete Packung es sich handelt, aktueller Standort u.a. Auch sind die Chips im Gegensatz zu Strichcodes beschreibbar, was die Kennzeichnung etwa bei Sonderpreisaktionen erleichtert. Dies ermöglicht es Logistikunternehmen, sämtliche Sendungen zweifelsfrei zu identifizieren und deren aktuellen Status zu überprüfen. Zudem arbeitet das System über eine Funkverbindung und damit über eine größere räumliche Distanz. Eine besondere Bedeutung hat das System für den Handel sowie für die Logistikbranche, da eine flächendeckende Einführung des Systems erhebliche Kosteneinsparungen sowie eine höhere Prozesseffizienz erwarten lässt. Auch Ladendiebstahl ist mit dieser Technologie praktisch nicht mehr möglich. Bedenken herrschen allerdings im Hinblick auf Daten- und Persönlichkeitsschutz, da Daten über das Kaufverhalten eines Konsumenten auch ohne dessen Einwilligung gespeichert und verarbeitet werden können. <?page no="139"?> Apparative Beobachtungsverfahren 139 Auch ein unbefugtes Ausspähen und eine missbräuchliche Nutzung von Daten seitens Dritten sind nicht gänzlich ausgeschlossen. AAbbbb.. 44..66: : Funktionsweise von RFID (Quelle: Finkenzeller 2015, S. 11) Online-Beobachtung Die Online-Beobachtung eignet sich insb. zur Gewinnung von Nutzerprofilen, z.B. Such- und Bestellverhalten, bevorzugte Informationen und Produkte usw. Als Möglichkeiten der Online-Beobachtung sind insb. Logfile-Analysen sowie der Einsatz von sog. Cookies zu nennen. Daneben besteht die Möglichkeit, das Nutzungsverhalten auf der Grundlage einer freiwilligen Nutzerkennung zu erfassen (vgl. i.E. Fantapié Altobelli/ Sander 2001, S. 73 f.). Auf jedem Computer, der mit dem Internet verbunden ist, fallen durch den Zugriff seitens der Nutzer Daten über die Herkunft der Nutzer an, nämlich Host-/ Domain-Name des anfragenden Rechners, Datum und Uhrzeit der Anfrage, Name der abgerufenen Dateien. Diese Daten werden in einem Protokoll, dem sog. Logfile festgehalten. Da dieses Verfahren automatisch ohne Mitwirkung des Users stattfindet, spricht man von einem passiven Messverfahren. Solche Daten bilden die Grundlage zur Ermittlung von Reichweitenkennziffern wie Page Views, Visits u.Ä. Aus diesem Protokoll kann der Content-Provider, der auf dem jeweiligen Server Dienste bzw. WWW-Seiten zur Verfügung stellt, den Nutzer bzw. die Nutzerin im Normalfall nicht eindeutig identifizieren. Eine eindeutige Identifikation ist nur unter Zuhilfenahme der Daten des Service-Providers möglich, was immer noch sehr aufwändig und in Deutschland bislang verboten ist. Durch Cookies ist es möglich, die einzelnen Nutzerinnen und Nutzer zu identifizieren. Cookies werden bei Abruf einer Webseite bzw. zugehöriger Grafiken vom Server an den eigenen Rechner mitgeschickt. Bei der Erzeugung des jeweiligen Cookies werden anfangs nur Daten aus den Logfiles übernommen, um eine spätere Identifizierung des Nutzers jederzeit wieder zu ermöglichen. Somit ist es dem Content-Provider möglich, spezifisches Online-Verhalten des Nutzers auf seinem Server festzustellen. Ein besonders gutes Nutzerprofil lässt sich generieren, wenn sich mehrere Anbieter zu einem Verbund zusammenschließen. Beispielsweise sind beim DoubleClick-Network die jeweiligen Seiten der Internetanbieter alle auf einem zentralen Server gespeichert, sodass gemeinsame Cookies für den gesamten Werbeverbund angelegt und ausgewertet werden können. Insbesondere in Deutschland bestehen gegen Cookies datenschutzrechtliche Bedenken; deren Einsatz ist an der Zustimmung der User gebunden. Lesegerät Transponder Daten Takt Energie Applikation Koppelelement (Spule/ Antenne) <?page no="140"?> 140 Aufzeichnungsverfahren der Beobachtung Weitere Möglichkeiten der Online-Beobachtung bestehen in der Analyse von Blogs, Brand Communities und sozialen Netzwerken im Internet. Diese unter dem Stichwort „User Generated Content“ agierenden Plattformen enthalten eine Fülle unverzerrter Informationen über aktuelle und potenzielle Kunden, welche durch systematisches Monitoring für das Unternehmen nutzbar gemacht werden können. Weitere mechanische Verfahren Lichtschranken werden zur Zählung von Besuchern, Passanten etc. eingesetzt; darüber hinaus werden Verweildauer und Betrachtungsabstand erfasst. Dieselbe Funktion erfüllen Bewegungsmelder und die Infrarotmessung. Ein Daktyloskop wird zur Identifizierung von Fingerabdrücken eingesetzt. Sein Einsatz in der Marktforschung ermöglicht die Feststellung, ob eine Testperson das Testobjekt (z.B. Anzeigenseite, Produkt) berührt hat oder nicht. Ein Einwegspiegel ist eine nur einseitig durchsichtige Glasscheibe, welche das verdeckte Beobachten des Verhaltens von Testpersonen erlaubt. Einwegspiegel werden beispielsweise zur Beobachtung von Gruppendiskussionen eingesetzt, wobei insb. Mimik, Gestik etc. analysiert werden. Das Verfahren ist allerdings - wie alle Verfahren der verdeckten Beobachtung - ethisch und juristisch bedenklich. Audio-, Foto- und Videoaufnahme dienen der Erfassung verbaler und nonverbaler Verhaltensweisen. Durch die Aufzeichnung und Speicherung des Beobachtungsgeschehens steht das Material auch zu einem späteren Zeitpunkt zur Verfügung, z.B. zu Kontrollzwecken. Beim Telemeter handelt es sich um ein Zusatzgerät, das an Fernsehgeräten angebracht wird (TC score, TC UMX). Mit dessen Hilfe werden Programmwahl und Einschaltdauer von Testpersonen oder -haushalten erfasst (vgl. die Ausführungen im Zusammenhang mit Fernsehzuschauerpanels in Abschnitt 1.4 im 5. Teil). Die dadurch gewonnen Informationen sind allerdings mit Ungenauigkeiten behaftet. Weiterführende Literatur Becker, W. (1973): Beobachtungsverfahren in der demoskopischen Marktforschung, Stuttgart. Fantapié Altobelli, C., Hensel, D. (2018): Ethik als Qualitätsmerkmal in der neurowissen-schaftlichen Marktforschung, in: Keller, B., Klein, K.-W., Wirth, T. (Hrsg.): Qualität und Data Science in der Marktforschung, Wiesbaden, 61-80. Hubert, M., Kenning, P. (2008): A Current Overview of Consumer Neuroscience, in: Journal of Consumer Behaviour, 7(4/ 5), 272-292. Keitz, B. v. (2016): Diagnostisches Werbetesting mittels apparativer Verfahren: Erfahrungen aus der Werbeforschung, in: Esch, F.-R., Langner, T., Bruhn, M. (Hrsg.): Handbuch Controlling der Kommunikation, 2. Aufl., Wiesbaden, 221-250. Kern, Christian (2006): Anwendung von RFID-Systemen, 2. Aufl., Berlin u.a. Sauermann, P. (2008): Die Laborbeobachtung in der Marktforschung - Vorteile und Kritikpunkte, in: Pepels, W. (Hrsg.): Marktforschung. Verfahren, Datenauswertung, Ergebnisdarstellung, 2. Aufl., Berlin, 225-248. <?page no="141"?> TTeeiill 55: : PPaanneelleerrhheebbuunnggeenn uunndd KKoohhoorrtteennaannaallyysseenn 11 K Kllaassssiiffiikkaattiioonn uunndd CChhaarraakktteerriissiieerruunngg vvoonn PPaanneelleerrhheebbuunnggeenn 11..11 AAbbggrreennzzuunngg uunndd SSyysstteemmaattiikk vvoonn PPaanneelleerrhheebbuunnggeenn Definition Im Rahmen einer Panelerhebung wird ein stets gleicher Sachverhalt zu regelmäßig wiederkehrenden Zeitpunkten bei derselben Stichprobe mit identischer Untersuchungsmethode erhoben. Panelerhebungen dienen somit der Gewinnung von Längsschnittdaten. Ziel von Panelerhebungen ist nicht nur die Erfassung des Marktgeschehens, sondern insbesondere die Ermittlung von Marktveränderungen, etwa als Folge von Marketingmaßnahmen. Besondere Bedeutung haben Panels in der Markenartikelindustrie. Einschränkend sei angemerkt, dass in der Realität die Stichprobe Veränderungen unterliegt - etwa durch Wegfall von Panelmitgliedern und Hinzunahme neuer; auch der erhobene Sachverhalt verändert sich insofern, als die im Rahmen eines Panels erhobenen Warengruppen aufgrund der Fluktuation der Kunden des Marktforschungsinstituts variieren. Die Erhebung von Paneldaten kann sowohl auf der Grundlage von Befragungen als auch von Beobachtungen erfolgen; darüber hinaus kann es - bei entsprechender Anordnung - auch als (quasi-)experimentelles Design angesehen werden (vgl. Hüttner/ Schwarting 2002, S. 183). Im Grunde genommen handelt es sich bei Panelerhebungen aus der Sicht der Unternehmen um Sekundärerhebungen, da Paneldaten i.d.R. von den Marktforschungsinstituten erhoben und gegen Entgelt den Kundenunternehmen zur Verfügung gestellt werden; andererseits werden Panels auch zur Ad-hoc-Forschung im Auftrag einzelner Kunden herangezogen, was sie wieder in die Nähe von Primärerhebungen rückt. Abzugrenzen sind Panelerhebungen von sog. Befragungspanels (vgl. Günther et al. 2019, S. 7). Wie Panels sind Befragungspanels (auch: Access Panels) feststehende Stichproben, welche von Marktforschungsinstituten unterhalten werden; diese werden jedoch in unregelmäßigen Abständen zu unterschiedlichen Untersuchungsgegenständen befragt. Ein solches Befragungspanel hat den Vorteil der konstanten Stichprobe, wodurch z.B. Fehlkontakte bei der Erhebung in kleinen Zielgruppen vermieden werden. Des Weiteren können aus der Gesamtstichprobe Teilstichproben für spezifische Fragestellungen gezogen werden. Panelerhebungen sind darüber hinaus von Wellenerhebungen abzugrenzen, im Rahmen derer unterschiedliche Stichproben im Zeitablauf zum selben Erhebungsgegenstand untersucht werden; die Stichproben sind bei Wellenerhebungen zwar gleichartig, sie bestehen jedoch bei jeder Befragungswelle aus unterschiedlichen Personen. Ein Beispiel hierfür ist AGOF Internet Facts, im Rahmen dessen Reichweiten von Online-Medien und Nutzungsverhalten der Internetnutzer monatlich erhoben werden. <?page no="142"?> 142 Klassifikation und Charakterisierung von Panelerhebungen Grundsätzlich können Panels nach verschiedenen Kriterien klassifiziert werden: nach dem Untersuchungsgegenstand, nach dem Befragtenkreis sowie nach der Art der Erfassung der Paneldaten. Nach dem Untersuchungsgegenstand können handelsbasierte Panels und Spezialpanels unterschieden werden. Handelsbasierte Panels erfassen den Abverkauf des Handels bzw. den Einkauf von Verbrauchern sämtlicher bzw. ausgewählter Warengruppen, wohingegen Spezialpanels solche Panels bezeichnen, die spezifischen Zwecken dienen. Dazu gehören beispielsweise Fernsehzuschauerpanels, Produkttestpanels, Industriepanels oder Verpackungspanels (vgl. hierzu den Überblick bei Günther et al. 2019, S. 95 ff.). Eine Mischform stellen sog. Single Source-Panels dar, bei welchen neben den Einkäufen der Verbraucher auch deren Mediennutzung erfasst wird. Nach dem Befragtenkreis wird zwischen Handels- und Verbraucherpanels unterschieden. Handelspanels werden in Deutschland u.a. von Nielsen und der GfK unterhalten; die Paneldaten werden mittels Beobachtung auf der Grundlage der Warenbestände sowie der An- und Abverkäufe der interessierenden Artikel im Berichtszeitraum erhoben. Im Rahmen von Verbraucherpanels werden hingegen die Einkäufe der Verbraucher erfasst (Einzelpersonen oder Haushalte). Nach der Art der Erfassung der Paneldaten differenziert man zwischen schriftlicher und elektronischer Erfassung. Im Rahmen der schriftlichen Erfassung tragen die Panelmitglieder ihre Einkäufe in spezielle Formulare ein und senden diese in regelmäßigen Abständen an das Marktforschungsinstitut. Diese Form wurde mittlerweile weitestgehend durch die elektronische Erfassung ersetzt, welche scanningbasiert erfolgt. Je nach dem Ort der Erfassung wird dabei zwischen PoS-Scanning und Inhome-Scanning unterschieden. Eine weitere Form der elektronischen Erfassung erfolgt im Rahmen von Online-Panels. Durch Online-Panels wird versucht, Repräsentativitätprobleme von Online-Untersuchungen dadurch zu beseitigen, dass ein für die spezifische Fragestellung repräsentativer Teilnehmerkreis ausgewählt und wiederholt befragt wird. Typisches Anwendungsgebiet von Online-Panels sind die Online-Werbeforschung (z.B. Test von Werbebannern) sowie die Online-Nutzungsforschung (z.B. welche Webseiten wie lange wie häufig besucht werden). 11..22 HHaannddeellssppaanneellss Definition Handelspanels erfassen Abverkäufe in Handelsgeschäften, d.h. die Entwicklung von Warenbewegungen, Preisen und Lagerbeständen der einbezogenen Handelsunternehmen. Handelspanels werden vorwiegend von der GfK (Nürnberg) und von Nielsen (Frankfurt) durchgeführt. Abbildung 5.1 zeigt die verschiedenen Formen von (Einzel-)Handelspanels im Überblick. Die Datenerfassung kann sowohl scanningbasiert erfolgen als auch durch Mitarbeiter des Instituts, die in regelmäßigen Abständen (i.d.R. monatlich) für die betreffenden Warengruppen eine Inventur durchführen. Bei scanningbasierter <?page no="143"?> Handelspanels 143 Erhebung gelangen die Daten hingegen direkt von den Scannerkassen des Geschäfts in die Datenbank des Instituts. AAbbbb.. 55..11: : Arten von Handelspanels Standardinformationen aus Handelspanels umfassen insb. Absatzmengen, Umsätze und Marktanteile von Produkten, Distributionsgrad der Produkte (Anteil der Geschäfte, die das Produkt führen, ungewichtet sowie nach Umsatzgrößen gewichtet), Durchschnittspreise, Regalplatz und Promotion-Maßnahmen. Die Informationen können dabei nach Geschäftstypen, Umsatzgrößenklassen oder Standorten weiter untergliedert werden. Einzelhandelspanels haben bereits eine lange Tradition; das erste wurde 1933 von Nielsen etabliert. Unterteilt werden können Einzelhandelspanels in Food-Panels und Non Food- Panels; daneben existieren noch Sonderformen. Food-Panels umfassen sämtliche FMCG- Warengruppen (Fast Moving Consumer Goods), d.h. neben Lebensmitteln auch solche Warengruppen, die üblicherweise im Lebensmitteleinzelhandel verfügbar sind, wie z.B. Körperpflege, Babynahrung, Waschmittel. Aufgrund der Vielfalt an Vertriebswegen für bestimmte Artikel werden dabei nicht nur Geschäfte des Lebensmitteleinzelhandels, sondern auch Drogerien, Getränkeabholmärkte usw. in solche Panels einbezogen (vgl. Günther et al. 2019, S. 88). Nicht alle Handelsbereiche werden jedoch abgedeckt, so fehlen z.B. einige Discounter, der nichtstationäre Einzelhandel und der Versandhandel. Beispiel 5.1: Das Nielsen Handelspanel Im Rahmen des Nielsen Handelspanels wird die Entwicklung von Warengruppen, Marken und Einzelartikeln erhoben. Erfasst werden dabei neben klassischen Lebensmittelgeschäften auch Discounter (außer Aldi, Lidl, Norma), Drogeriemärkte sowie Tankstellenshops. Im Rahmen des Panels sind folgende Erhebungen möglich: kontinuierliche Marktbeobachtung (Retail Measurement), Betrachtung einzelner Handelsketten im Hinblick auf eine spezifische Fragestellung (Key Account Tracking) sowie Erhebung weiterer erklärender Faktoren wie z.B. Platzierungsqualität und Lagerbestände (Store Observation). Retail Measurement Analysen stellen das Kernstück des Panels dar. Das scanningbasierte Handelspanel dient der kontinuierlichen Beobachtung aller im Lebensmittelhandel, in Drogeriemärkten sowie in Tankstellen und Rasthäusern verkauften Produktgruppen. Die Paneldaten liefern Informationen über Marktgrößen, Marktanteile und erklärende Faktoren wie z.B. Preis, Distribution, Promotion. Die Datenbasis liefern Food-Panel Non Food-Panel Sonderformen EEiinnzzeellhhaannddeellssppaanneell <?page no="144"?> 144 Klassifikation und Charakterisierung von Panelerhebungen wöchentliche Scanning-Informationen sowie 4-wöchentlich manuell erhobene Informationen für die nicht verscannten Geschäfte. Der Datenabruf kann zweimonatlich, monatlich oder wöchentlich erfolgen. Die Wochendaten bilden die Grundlage für die Bewertung der Handelswerbung wie kurzfristige Preissenkungen, Displays, Anzeigen in Handzetteln und Tageszeitungen. Key Account Tracking liefert Scanning-Informationen über die Entwicklung von Produkten in einzelnen Vertriebsschienen der großen Handelskonzerne. Dadurch können Markenartikler den Erfolg ihrer Produkte bzw. begleitender Marketingmaßnahmen bei den wichtigsten Handelsketten beobachten; die Daten werden auf Wunsch wöchentlich geliefert, je nach Warengruppe sind Detailinformationen bis zu zwei Jahren rückwirkend verfügbar. Das Modul Store Observation bietet als Ergänzung Informationen über die Präsenz, Platzierung und Frische der in den Geschäften angebotenen Produkte. Die Untersuchung erfolgt auf Basis einer repräsentativen Stichprobe, der Erhebungsbzw. Lieferrhythmus beträgt bis zu 13 Mal pro Jahr. Es können u.a. folgende Informationen erhoben werden: Preis- und Promotiontracking, Platzierungsqualität (Regalplatzierung in Rück-, Greif- oder Streckzone; Sonderplatzierungen), Regalanteile der eigenen Produkte im Verhältnis zur Konkurrenz, Lagerbestände, Ablaufdaten sowie Ausverkäufe. Quelle: Nielsen 2010 Non Food-Panels umfassten ursprünglich insb. die Warengruppen Foto und Do-it-yourself, etwas zeitverzögert die Warengruppen der Braunen (Unterhaltungselektronik) und Weißen Ware (Küchengeräte, Großgeräte wie Kühlschränke u.ä.). Die Erfassungshäufigkeit variiert dabei je nach Warengruppe. Während bei Weißer Ware die Daten im zweimonatlichen Rhythmus erhoben werden, erfolgt die Berichterstattung bei saisonalen Warengruppen seltener, z.B. bei Skisportgeräten dreimonatlich in den Winter- und halbjährlich in den Sommermonaten. Durch die stetige Veränderung der Einzelhandelslandschaft - u.a. das Entstehen neuer und veränderter Absatzkanäle für die Hersteller, etwa der Vertrieb von Notebooks und Handys inklusive Verträge mit Mobilfunkanbietern bei Discountern wie Aldi und Lidl - haben sich zahlreiche zusätzliche Warengruppen und Vertriebskanäle ergeben, die durch ein Panel abgedeckt werden müssen. Hinzu kommen neue Distributionskanäle, etwa Mobile und Social Media (M- und F-Commerce), und eine wachsende Tendenz des Handels zu Multi Channel Vertrieb. Aus diesem Grunde müssen für jede Warengruppe die verschiedensten Einzelhandelsbranchen bzw. -betriebsformen im Panel berücksichtigt werden. Neben den Grundformen des Food- und des Non Food-Panels, welche für eine Vielzahl von Warengruppen unterhalten werden, existieren noch gesonderte Panels für ausgewählte Warengruppen bzw. Vertriebskanäle. Ein Beispiel ist das ursprünglich von Nielsen angebotene ScanTrack Pharma, ein Apothekenpanel, im Rahmen dessen der Absatz von Gesundheits- und Körperpflegemitteln in Apotheken erhoben wird; das Panel wurde 2013 von IMS Health übernommen und seither weitergeführt. <?page no="145"?> Verbraucherpanels 145 11..33 VVeerrbbrraauucchheerrppaanneellss Definition Im Rahmen von Verbraucherpanels wird das Einkaufsverhalten von Endverbrauchern erfasst (Einzelpersonen oder Haushalte) mit dem Ziel, Entwicklungen und Trends im Verbraucherverhalten zu ermitteln. Nicht erfasst werden dabei Großverbraucher wie Kantinen, Krankenhäuser etc. Abbildung 5.2 zeigt die verschiedenen Arten von Verbraucherpanels im Überblick. Neben den hier dargestellten Endverbraucherpanels existieren noch sog. Vorverbraucherpanels, etwa mit Autoreparaturbetrieben, Heizungsinstallateuren etc., die hier jedoch nicht näher betrachtet werden sollen. AAbbbb.. 55..22: : Arten von Verbraucherpanels Standardinformationen aus Verbraucherpanels sind (vgl. Günther et al. 2019 S. 94 ff.): Einkaufsmenge und Einkaufswert (insgesamt und pro Käufer), Anzahl der Käufer (Erstkäufer und Wiederholungskäufer), Durchschnittspreise, Marktanteile (mengen- und wertmäßig), Aktionspreise, Aktionseinkäufe (mengen- und wertmäßig). Verbraucherpanels werden in Deutschland schwerpunktmäßig von Nielsen und der GfK durchgeführt. Die größte Bedeutung haben dabei Haushaltspanels. Im Rahmen eines Haushaltspanels werden Warengruppen erfasst, die grundsätzlich gemeinsam vom Haushalt (und nicht von einzelnen Haushaltsmitgliedern) gebzw. verbraucht werden; erfasst wird allerdings nicht der eigentliche Ge- oder Verbrauch, sondern der Einkauf der einzelnen Produkte und Marken (vgl. Hüttner/ Schwarting 2002, S. 185 f.). In Haushaltspanels werden dabei sowohl Waren des Foodals auch des Non Food-Bereichs erfasst. Ähnlich wie bei Handelspanels umfassen Food-Panels neben Lebensmitteln auch solche Warengruppen, die üblicherweise im Lebensmitteleinzelhandel bezogen werden (FMCG, Fast Moving Consumer Goods). Ein Beispiel für ein Verbraucherpanel ist das GfK Consumer Panel. VVeerrbbrraauucchheerrppaanneell Haushaltspanel Individualpanel Non Food-Panel Food-Panel Non Food-Panel Food-Panel <?page no="146"?> 146 Klassifikation und Charakterisierung von Panelerhebungen Beispiel 5.2: Das GfK Consumer Panel Die Stichprobe des GfK Consumer Panel umfasst insgesamt 30.000 private deutsche und ausländische Haushalte (vgl. Günther et al. 2019, S. 24). Die beteiligten Haushalte erfassen fortlaufend ihre täglichen Einkäufe im Bereich FMCG, überwiegend scanbasiert. Die Auswertung der Paneldaten gibt Auskunft über Käufercharakteristika, Kaufverhalten, Käuferreichweiten, Bedarfsdeckung, Markennamen, Nebeneinanderverwendung u.a. (vgl. GfK 2019). Die Daten aus dem Consumer Panel werden zudem mit anderen Daten und Erhebungen kombiniert und integriert, um ein umfassendes Bild über das Verbraucherverhalten zu generieren. Unter anderem sind folgende Möglichkeiten gegeben (vgl. GfK 2022): Shopper Insights entstehen durch Kombination der Paneldaten mit Daten aus Tracking Tools, POS-Panels und weiteren Analysen. Dies ermöglicht u.a. Zielgruppenmanagement, Erfassung der Shopper experience und Regaloptimierung. Durch ad-hoc-Einfragen in das Consumer Panel werden u.a. Kaufmotive, Produktverwendung, Kundenzufriedenheit erfasst (why2buy). Non Food-Panels umfassen Gebrauchsgüter und Dienstleistungen. Ein Beispiel hierfür ist das GfK Consumer Panel Nonfood, welches 20.000 repräsentative Haushalte umfasst und im Rahmen dessen rd. 250 Produktgruppen in den Kategorien Entertainment, Handel und Dienstleistungen, Living und Unterhaltungselektronik erfasst werden. Während Haushaltspanels haushaltsbezogene Einkäufe erfassen, werden im Rahmen von Individualpanels Produkte erfasst, welche unmittelbar das einzelne Individuum betreffen, etwa den persönlichen Bedarf an Kosmetika oder Tabakwaren. Solche Panels können zum einen allgemeiner Natur sein, d.h. es werden die Einkäufe von Panelteilnehmern bzgl. einer ganzen Reihe von üblicherweise nicht im Gesamtverband des Haushalts verbrauchten Waren erfasst (allgemeine Panels). Sonderformen ergeben sich zum anderen dadurch, dass von vornherein Verbraucher bestimmter Güter ausgewählt werden, wie Raucher, junge Mütter für die Warengruppe Babynahrung etc. (vgl. Hüttner/ Schwarting 2002, S. 186). Beispiele hierfür sind das GfK Individualpanel, welches zahlreiche Warengruppen im Non Food-Bereich abdeckt, z.B. Musik und Unterhaltungselektronik, Körperpflege u.a., oder das Nielsen Raucherpanel. 11..44 SSppeezziiaallppaanneellss Spezialpanels werden zu bestimmten Zwecken bzw. für bestimmte Branchen erhoben; wichtige Spezialpanels sind Fernsehzuschauerpanels, Internetnutzungspanels und Mini- Testmarktpanels. FFeerrnnsseehhzzuusscchhaauueerrppaanneellss Fernsehforschung wird in Deutschland seit dem Start des Sendebetriebs des ZDF im Jahre 1963 betrieben, zunächst vom Institut Infratam in Wetzlar, danach von der Firma teleskopie in Bonn. Seit 1985 ist die GfK-Fernsehforschung in Nürnberg zuständig. Auftraggeber ist die Arbeitsgemeinschaft Fernsehforschung (AGF), welche 1988 als Zusammenschluss der Öffentlich-rechtlichen mit den Privatsendern entstand. Im Gegensatz zu Verbraucher- und Handelspanels, welche von den Marktforschungsinstituten aufgebaut und betrieben werden und deren Ergebnisse Eigentum des betreibenden In- <?page no="147"?> Spezialpanels 147 stituts sind und an interessierte Hersteller verkauft werden, wird die Zuschauerforschung im Auftrag der Sender durchgeführt. Die Daten, die die GfK erhebt, stehen der AGF als Auftraggeber exklusiv zur Verfügung, d.h. die Datenverwertungsrechte liegen bei der AGF (vgl. Günther et al. 2019, S. 71 ff.). Fernsehzuschauerpanels liefern Daten über die Sehbeteiligungen von Sendern bzw. Sendungen insgesamt und bei einzelnen Zielgruppen, welche als Grundlage für die Planung der Fernsehprogramme dienen können. Darüber hinaus liefern die Daten der Fernsehforschung auch Anhaltspunkte für die Qualität der von den Sendern angebotenen Werbezeiten, d.h. für die Fähigkeit, bestimmte Zielgruppen qualitativ und quantitativ zu erreichen. Diese Daten beeinflussen in hohem Maße die Preisforderungen für die einzelnen Werbezeiten und dienen den Werbetreibenden als Grundlage für ihre Mediaplanung. Beispiel 5.3: AGF/ GFK Fernsehpanel Das AGF-Fernsehpanel aus besteht aus derzeit rd. 5.300 täglich berichtenden Haushalten (Fernsehpanel deutschsprachig), in denen rd. 11.000 Personen leben (vgl. Abb. 5.3). Seit 2001 sind neben den deutschen Fernsehhaushalten auch Haushalte einbezogen, deren Mitglieder in Deutschland leben und aus einem anderen Land der Europäischen Union stammen. Damit wird die Fernsehnutzung von 76,6 Mio. Personen ab 3 Jahren bzw. 38,8 Mio. Fernsehhaushalten abgebildet (Stand 01.01.2023). AAbbbb.. 55..33: : Die Zusammensetzung des AGF Fernsehpanels (Quelle: Arbeitsgemeinschaft Fernsehforschung 2023) Die Erhebung der Fernsehnutzung erfolgt über spezielle Messverfahren, die von der GfK Fernsehforschung in den Panelhaushalten installiert werden: TC UMX Messgeräte und das Audiomatching-Verfahren (das früher eingesetzte TC score wird seit 2020 nicht mehr verwendet). Dabei greifen die Messgeräte Tonsignale am Fernseher als Audiomuster ab und vergleichen sie mit Audiomustern der Sender. Die übereinstimmenden Signale können dann eindeutig einem bestimmten Sender zugeordnet werden. 38.777 private TV-Haushalte* in Deutschland mit 76,577 Mio. Personen ab 3 Jahren 5.299 täglich berichtende private TV-Haushalte mit ca. 11.000 Personen BBeevvööllkkeerruunngg iinn DDeeuuttsscchhllaanndd FFeerrnnsseehhppaanneell * Wohnbevölkerung in der Bundesrepublik Deutschland in Privathaushalten mit mindestens einem Fernsehgerät in Gebrauch und einem deutschsprachigem Haupteinkommensbezieher; alle Werte gerundet; Stand: 1.1.2023 <?page no="148"?> 148 Klassifikation und Charakterisierung von Panelerhebungen Seit Juli 2009 erhebt die AGF Videoforschung auch die zeitversetzte Nutzung aufgezeichneter Fernsehprogramme. In die zeitversetzte Nutzung gehen Aufzeichnungen ein, die innerhalb von drei Tagen nach dem Ausstrahlungstag anfallen; hierzu zählen beispielsweise lineare Fernsehprogramme, die auf digitalen Endgeräten (DVD-Recordern, Festplattenrecordern und HD-Recordern) aufgezeichnet wurden. Darüber hinaus wird - ebenfalls seit 2009 - die Außerhausnutzung erfasst. Aus der Fernsehforschung lassen sich u.a. die folgenden Kennziffern gewinnen: Anteil digitaler Nutzung des Fernsehens, beliebteste Sendungen, Marktanteile der Sender, Sehbeteiligung der Zuschauer im Tagesverlauf, durchschschnittliche tägliche Sehdauer. Die Haushaltsmitglieder melden sich per Knopfdruck mittels der speziell entwickelten Fernbedienung an. Das Messgerät misst und speichert sekundengenau u.a. das An- und Abschalten des Fernsehgerätes, jeden Umschaltvorgang, sämtliche sonstigen Verwendungsmöglichkeiten des Fernsehgeräts (z.B. Videospiele), zeitversetztes Sehen usw. Die Daten werden automatisch an die GfK-Fernsehforschung weitergeleitet. Die Fernsehnutzungsdaten des Panels werden dann auf alle Fernsehhaushalte hochgerechnet. Ergänzt wird die Panelforschung durch spezielle Ad-hoc-Mediastudien. Darüber hinaus können individuelle Auswertungsservices genutzt werden (z.B. Sehertypologien, individuelle Zielgruppenermittlungen u.a.). Quellen: Arbeitsgemeinschaft Fernsehforschung 2017, 2023; Arbeitsgemeinschaft Media-Analyse 2023; GfK 2005 IInntteerrnneettnnuuttzzuunnggssppaanneellss Zur Erfassung der Internetnutzung bieten sowohl GfK als auch Nielsen Panels an. Erfasst werden u.a. die Seitenaufrufe, die „Wege“ des Nutzers im Internet, die Verweildauer auf bestimmten Seiten usw. Die Daten bilden auch eine wichtige Grundlage für die zielgruppengerechte Platzierung von Werbung auf Internetseiten. Beispiel 5.4: Das Nielsen Computer & Mobile Panel Das Panel (früher: Nielsen Internet Panel) umfasst etwa 25.000 Teilnehmer (ab 2 Jahren) aus ca. 12.500 Haushalten (Grundgesamtheit). Eine auf den Computern bzw. den mobilen Endgeräten der Panelteilnehmer installierte Software erfasst die geöffneten Internetseiten des aktiven Browsers und speichert alle einzelnen Nutzungsvorgänge sowie die Verweildauer auf den einzelnen Seiten ab. Dies erlaubt die Ermittlung der folgenden Kennziffern: Unique Audience: Netto-Besucher pro Monat, Active Reach: Reichweite in Prozent der Internetnutzer, Universe Reach: Reichweite in Prozent der Grundgesamtheit, Anzahl Seitenaufrufe/ Visits pro Person, Nutzungsdauer pro Person. <?page no="149"?> Spezialpanels 149 Daraus lassen sich detaillierte Einblicke in das Online-Verhalten der Nutzer sowie in die Nutzung bestimmter Angebote im Internet gewinnen, etwa Online-Spiele. Die Ergebnisse werden von Nielsen in den monatlich erscheinenden NetView-Statistiken bereitgestellt, diese werden wiederum von der Bayerischen Landeszentrale für neue Medien (BLM) für die Medienanstalten ausgewertet und graphisch aufbereitet. Quelle: Die Medienanstalten 2016, o.S. MMiinnii--TTeessttmmaarrkkttppaanneellss Mini-Testmarktpanels dienen nicht der laufenden Marktbeobachtung, sondern ermöglichen den Ad-hoc-Test verschiedener Marketingmix-Instrumente; insofern handelt es sich um unechte Panels, obwohl sie auf der Grundlage von Haushaltspanels durchgeführt werden. Auch handelt es sich um quasi-experimentelle Untersuchungsdesigns, sodass sie eher den experimentellen Verfahren zuzuordnen sind (vgl. Böhler et al. 2021, S. 55). Im Rahmen von Mini-Testmarktpanels wird das Einkaufsverhalten der teilnehmenden Haushalte in Einzelhandelsgeschäften, welche mit Scannerkassen ausgestattet sind, registriert. Die Panelmitglieder weisen sich beim Einkauf mit einer ID-Karte aus. Die Haushalte können dabei gezielt mit präparierten Medien aus dem Print- und TV-Bereich konfrontiert werden, sodass verschiedene Elemente des Marketingmix wie Einführung neuer oder veränderter Produkte, Fernsehspots, Printanzeigen oder Instore-Aktivitäten getestet werden können. Auf diese Weise können die Wirkungen unterschiedlicher Ausprägungen des Marketinginstrumentariums auf ökonomische Zielgrößen wie Absatz, Umsatz oder Gewinn unter realen Bedingungen getestet werden. In Deutschland wurde ein Mini-Testmarktpanel von der GfK angeboten (GfK-BehaviorScan mit dem Testmarkt Haßloch in der Pfalz). Im Jahr 2022 wurde BehaviorScan jedoch eingestellt, sodass im Folgenden nicht näher darauf eingegangen wird. <?page no="151"?> 22 E Errhheebbuunngg uunndd AAuusswweerrttuunngg vvoonn PPaanneellddaatteenn Eine Panelerhebung vollzieht sich in folgenden Stufen: Definition der Grundgesamtheit, Festlegung der Stichprobe, Erhebung der Daten sowie Auswertung und Berichterstattung. 22..11 HHaannddeellssppaanneellss DDeeffiinniittiioonn ddeerr GGrruunnddggeessaammtthheeiitt Die Grundgesamtheit eines Handelspanels (im Folgenden wird auf Einzelhandelspanels als wichtigste Variante eingegangen) umfasst i.d.R. mehrere Geschäftstypen, z.B. Supermärkte, Verbrauchermärkte, Discounter, Drogerien usw. Die Zuordnung zu einem Geschäftstyp erfolgt i.d.R. nach den folgenden Kriterien (vgl. Günther et al. 2019, S. 9 f.): Verkaufsfläche (Mindestbzw. Höchstverkaufsfläche), Sortiment (bestimmte Warengruppen nach Art bzw. Umsatzanteilen), Zugehörigkeit zu einem bestimmten Handelsunternehmen (z.B. Aldi), Umsatz, besondere Ausschlüsse (z.B. Dutyfree-Geschäfte). Zur Definition der Grundgesamtheit können insb. bei filialisierten Handelsunternehmen Basisinformationen aus einer Vielzahl von Datenquellen gewonnen werden. Für die übrigen Handelsunternehmen müssen die panelführenden Institute aufgrund mangelnder Aktualität oder Detailliertheit der Datenquellen jedoch eigene Basisuntersuchungen durchführen. Zu beachten ist ferner, dass bestimmte Geschäfte - z.B. Wochenmärkte, Heimdienste und Versandhandel - von Handelspanels nicht erfasst werden, obwohl sie in der Grundgesamtheit enthalten sind. Damit weicht die Erhebungsgesamtheit von der Grundgesamtheit ab. FFeessttlleegguunngg ddeerr SSttiicchhpprroobbee Grundsätzlich muss eine Panelstichprobe wie bei jeder Teilerhebung für die Grundgesamtheit repräsentativ sein, d.h. die Ergebnisse aus der Stichprobe müssen Rückschlüsse auf die Grundgesamtheit erlauben; des Weiteren muss man aus ihr die Werte der Grundgesamtheit mit hinreichender Genauigkeit (gemessen an der Standardabweichung) schätzen können. Bei Handelspanels erfolgt die Erhebung typischerweise auf der Grundlage einer disproportional geschichteten Stichprobe. Das bedeutet, dass große Geschäfte in der Stichprobe stärker vertreten sind als in der Grundgesamtheit. Der Grund liegt darin, dass große Geschäfte ein deutlich breiteres und tieferes Sortiment als kleinere aufweisen und damit das Spektrum der Waren vollständiger abbilden, insb. bei selten gekauften Gütern. Die Disproportionalität wird bei der Hochrechnung dann ausgeglichen. <?page no="152"?> 152 Erhebung und Auswertung von Paneldaten Zur Schichtung werden i.d.R. die verschiedenen Geschäftstypen verwendet. Darüber hinaus ist die relative Bedeutung der Genauigkeit der Totalschätzung ( 𝑔𝑔 � ) im Vergleich zur relativen Bedeutung der Schätzung innerhalb der Schichten ( 𝑔𝑔 � ) zu berücksichtigen, da bei Panels auch die Streuung innerhalb der einzelnen Schichten wichtige Informationen liefert. Die erforderliche Stichprobe einer jeden Schicht 𝑖𝑖 , 𝑛𝑛 � , berechnet sich wie folgt: 𝑛𝑛 � � � 𝑔𝑔 � ⋅ 𝑤𝑤 �� ⋅ 𝑠𝑠 �� � 𝑔𝑔 � ⋅ 𝑠𝑠 �� ∑ 𝑔𝑔 � 𝑤𝑤 �� ⋅ 𝑠𝑠 �� � 𝑔𝑔 � ⋅ 𝑠𝑠 �� � mit 𝑤𝑤 � = Anteil der Schicht 𝑖𝑖 in der Grundgesamtheit, 𝑠𝑠 � = Standardabweichung der Schicht 𝑖𝑖 in der Grundgesamtheit, die aus der Stichprobe geschätzt wird. Der Anteil einer Schicht ergibt sich in der Praxis näherungsweise als Mittelwert aus dem nummerischen und dem wertmäßigen Umsatzanteil, um zahlenmäßig kleine, aber umsatzmäßig bedeutende Geschäfte in der Stichprobe angemessen zu berücksichtigen (vgl. hierzu Günther et al. 2019, S. 18 ff.) Innerhalb der einzelnen Schichten erfolgt dann eine Quotenauswahl, z.B. anhand der Merkmale Geschäftstyp, Geschäftsgröße, Gebiet und Zugehörigkeit zu Handelsunternehmen/ Vertriebsschienen. Die hier erwähnten Verfahren der Stichprobenauswahl werden ausführlich in Teil 7 dargestellt, sodass hier nicht näher darauf eingegangen wird. E Errhheebbuunngg Im Handelspanel sind grundsätzlich verschiedene Erhebungsverfahren möglich (vgl. Berekoven et al. 2009, S. 137 ff.; Günther et al. 2019, S. 27 ff.): körperliche Inventur oder elektronische Erfassung. Die körperliche Inventur wird inzwischen nur noch in Ausnahmefällen eingesetzt, die Institute sind mittlerweile flächendeckend zur elektronischen Erfassung übergegangen. Die Verkäufe werden direkt von den Warenwirtschaftssystemen oder indirekt über die Scannerkassen erfasst, welche aber selbst an das Warenwirtschaftssystem gekoppelt sind. Auf diese Weise kann eine artikelgenaue Erfassung der Abverkäufe erfolgen; damit werden den jeweiligen Preisen auch die tatsächlichen Mengen zugeordnet. Idealerweise erfolgt die Erhebung der Einkäufe des Handels mittels Datenträgeraustausch, was die Erhebungsarbeit für die Institute erheblich vereinfacht. Neben Vorteilen wie höhere Genauigkeit und Vereinfachung der Erhebung erlaubt diese Methode eine häufigere und damit aktuellere Berichterstattung wie auch die schnellere Erfassung der Wirkungen von Marketingmaßnahmen. <?page no="153"?> Handelspanels 153 AAuusswweerrttuunngg Da im Rahmen von Handelspanels eine disproportionale Stichprobe zugrunde gelegt wird - d.h., große Geschäfte sind in der Stichprobe überpräsentiert - muss zunächst zu Zwecken der Hochrechnung diese „Schiefe“ ausgeglichen werden (vgl. hierzu ausführlich Günther et al. 2019, S. 36 ff.). Die Standardauswertungen umfassen beim Handelspanel die folgenden Kennziffern (vgl. Günther et al. 2019, S. 43 ff.): Verkauf Die Abverkäufe des Handels für die einzelnen Marken werden sowohl mengenals auch wertmäßig ausgewiesen; des Weiteren erhält man durch Relativierung anhand der Verkaufsmengen bzw. Umsätze der Warengruppe die mengenbzw. wertmäßigen Marktanteile der einzelnen Marken. Zukauf Unter Zukauf versteht man die Einkäufe der verschiedenen Handelsunternehmen bzw. Absatzmittler während der Berichtsperiode. Auch dieser Wert wird mengen- und wertmäßig ausgewiesen sowie für die einzelnen Marken auf die entsprechenden Werte der Warengruppe insgesamt bezogen. Bestand Der Bestand bezeichnet alle Bestände eines Artikels am Erhebungsstichtag. Erhoben werden dabei z.B. die Kennziffern Bestand Menge Gesamt, Bestand Menge Lager, Bestand Menge Regal sowie Bestand Menge Display. Analog werden die wertmäßigen Bestände durch Multiplikation mit dem Preis am Erhebungsstichtag gewonnen. Die verschiedenen Bestandsmengen bzw. -werte können darüber hinaus auf die Gesamtmengen bzw. -werte der Warengruppe bezogen werden. Distribution Handelspanels weisen eine ganze Reihe von Distributionskennziffern aus, z.B. Distribution Gesamt (Anteil der Geschäfte, die einen Artikel bzw. eine Produktgruppe führen), Distribution Verkauf (Anteil der Geschäfte, in denen ein Artikel in der Berichtsperiode tatsächlich verkauft wurde), etc. Die Werte werden sowohl als Prozentsatz der Geschäfte ausgewiesen, in denen ein Artikel geführt (verkauft, eingekauft oder im Bestand war), als auch bezogen auf den Warengruppenumsatz. Die Distributionsdaten gehören dabei zu den wichtigsten Informationen von Handelspanels, zumal diese - im Gegensatz zu Absatzmengen, Umsätzen oder Marktanteilen - aus Verbraucherpanels nicht zu ermitteln sind (vgl. Böhler et al. 2021, S. 78). Weitere Kennziffern, die aus Handelspanels errechnet werden können, sind durchschnittliche Absatzmengen, Einkaufsmengen, Bestände pro Geschäft und Periode sowie Durchschnittspreise. Weiterhin werden Kennziffern wie Umschlagsgeschwindigkeit, Bevorratungsdauer, Lagerkapitalbindung etc. errechnet. Die o.g. Kennziffern werden dabei nach bestimmten Kriterien segmentiert (vgl. Böhler et al. 2021, S. 79 f.), z.B. Nielsen-Gebiete (regionale Aufteilung des gesamtdeutschen Marktes); Einzelhandelsformen: SB-Warenhäuser, große Verbrauchermärkte, Supermärkte, Discounter, Sonstige; Organisationsformen: Filialgeschäfte, Edeka-, Rewe-, Spar-Geschäfte, Sonstige. <?page no="154"?> 154 Erhebung und Auswertung von Paneldaten Darüber hinaus erlauben Handelspanels eine ganze Reihe von Sonderauswertungen (vgl. Günther et al. 2019, S. 189 ff.). Vertriebsstrukturanalyse: Im Rahmen einer Vertriebsstrukturanalyse wird überprüft, inwieweit die Vertriebsstruktur eines Artikels mit der Vertriebsstruktur der Warengruppe übereinstimmt. Diese Analyse kann aufzeigen, ob der Hersteller den Absatz seines Artikels in bestimmten Geschäften forcieren sollte. Distributionsanalysen: Typische Kennziffern von Distributionsanalysen sind: Distributionsüberschneidungsanalyse: Hier wird ermittelt, wie die Absatzmengen, Marktanteile etc. eines Produkts ausfallen, wenn es im Handel zusammen mit einem Konkurrenzprodukt geführt wird oder nicht. Distributionswanderungsanalyse: Untersucht wird, inwieweit Veränderungen der Distribution (z.B. Erhöhung der absoluten Distributionszahlen) darauf zurückzuführen sind, dass die bereits gewonnenen Geschäfte das Produkt verstärkt führen oder aber dass neue Geschäfte gewonnen werden konnten. Distributionsdichteanalyse: Sie erlaubt sowohl für den Produzenten als auch für den Handel Aussagen darüber, inwieweit sich der Absatz steigern lässt, wenn mehrere Varianten eines Produkts in einem Geschäft vertrieben werden oder aber wenn stattdessen Konkurrenzprodukte in das Sortiment aufgenommen werden. Distributionspotenzialanalyse: Sie wird durchgeführt, um zu ermitteln, welcher zusätzliche Umsatz durch eine Verbesserung der Distribution erzielbar ist. Portfolio-Analyse: Portfolio-Analysen können z.B. zur Sortimentsanalyse für einen Key-Accounter erstellt werden; die einzelnen Warengruppen werden in eine Portfolio-Matrix mit den Dimensionen „Warengruppenwachstum“ und „Warengruppenmarktanteil“ positioniert. Die Position der Warengruppen zeigt dem Händler, welche Warengruppen weiterhin im Sortiment gehalten werden müssen und auf welche der Händler ggf. verzichten kann. 22..22 VVeerrbbrraauucchheerrppaanneellss DDeeffiinniittiioonn ddeerr GGrruunnddggeessaammtthheeiitt Die Grundgesamtheit eines Haushaltspanels wird aus Privathaushalten mit ständigem Wohnsitz in Deutschland gebildet (seit 2003 inkl. Ausländerhaushalte). Sogenannte „abgeleitete Haushalte“ wie Altersheime, Haftanstalten, Bundeswehr etc. werden hingegen nicht einbezogen, da sich die dort ansässigen Haushaltsmitglieder nur eingeschränkt selbst versorgen. Bei Individualpanels werden i.d.R. in Privathaushalten lebende Personen ab 10 Jahren berücksichtigt, es sei denn, es interessiert nur eine ganz bestimmte Zielgruppe (z.B. Autobesitzer). F Feessttlleegguunngg ddeerr SSttiicchhpprroobbee Bei Verbraucherpanels (im Folgenden exemplarisch Haushaltspanels) erfolgt i.d.R. eine mehrstufige, geschichtete Quotenauswahl (vgl. Günther et al. 2019, S. 24 ff.). <?page no="155"?> Verbraucherpanels 155 Zunächst werden die Privathaushalte in regionale Einheiten (sog. Sample Points) nach Bundesland und Ortsgröße geschichtet. Anschließend wird eine proportional geschichtete Stichprobe von Sample Points gezogen. In den gewählten Sample Points werden nach dem Quotenverfahren die einzelnen Haushalte ausgewählt. Quotierungsmerkmale sind dabei Haushaltsgröße, Haushaltsnettoeinkommen, Alter der haushaltsführenden Person und Zahl der Kinder unter 15 Jahren. Die Quotenauswahl ist deswegen erforderlich, weil die Verweigerungsquote bei der Anwerbung von Panelhaushalten bis über 90% betragen kann, sodass eine Zufallsstichprobe nur wenig Erfolg verspricht. E Errhheebbuunngg Erfasst werden bei den Panelhaushalten insb. die folgenden Angaben: Datum des Einkaufs, Einkaufsstätte, Marke bzw. Hersteller, Inhalt pro Packung, gekaufte Stückzahl, Preis pro Stück bzw. insgesamt, ggf. Sonderangaben wie kalorienreduziert, mit/ ohne Zusätze u.ä. je nach Warengruppe. Grundsätzlich sind bei Verbraucherpanels folgende Erhebungsmethoden gebräuchlich (vgl. Günther et al. 2019, S. 28 ff.): PoS-Scanning, Inhome-Scanning bzw. Electronic Diary sowie Interneterfassung. Beim PoS-Scanning weisen sich die Panelteilnehmer an der Kasse mit einer Identifikationskarte aus, auf welcher die Haushaltsnummer als Barcode aufgedruckt ist. Beim Einkauf werden die gekauften Artikel und die Haushaltsnummer per Scanner erfasst, die Datensätze werden anschließend zur Auswertung an das Marktforschungsinstitut übertragen. Für die Haushalte bedeutet die Methodik eine erhebliche Zeitersparnis, was die Rekrutierung von Panelteilnehmern erleichtert; auch sind der Paneleffekt und die Panelsterblichkeit (vgl. Kapitel 3) geringer als bei anderen Erfassungsmethoden. Allerdings können nur EAN-codierte Artikel erfasst werden, zudem müssen die kooperierenden Geschäfte mit Scannerkassen ausgestattet sein. Eingesetzt worde PoS-Scanning bis 2022 im Mini-Testmarkt Haßloch an der Pfalz, welcher aber mittlerweile aufgegeben wurde. Das Inhome-Scanning stellt im Prinzip die elektronische Variante der früheren Kalendermethode dar. Die Haushalte werden mit mobilen Lesegeräten ausgestattet, mit deren Hilfe der EAN-Code der gekauften Artikel eingelesen werden kann; über eine Tastatur müssen darüber hinaus Einkaufsdatum, Einkaufsstätte, Einkaufsmenge und Preis eingegeben werden. Für nicht EAN-codierte Artikel erhält der Teilnehmer ein Codebuch, welches für jeden dieser Artikel einen Barcode enthält. Mit der Leseeinrichtung wird der <?page no="156"?> 156 Erhebung und Auswertung von Paneldaten Code eingelesen; per Modem erfolgt dann die Datenübertragung an das Institut. Das Verfahren ist für die Haushalte - insb. für die nicht EAN-codierten Artikel - immer noch recht aufwändig. Eine Weiterentwicklung des Inhome Scanning stellt das sog. Electronic Diary dar, welches mit einer Vielzahl zusätzlicher Features ausgestattet ist und das Codebuch durch interaktive Funktionen ersetzt. Das Gerät verfügt neben einer Leseeinrichtung für EAN Codes über ein Display, einen Speicher und eine alphanummerische Tastatur mit Funktionstasten. An die Stelle eines Codebuchs tritt eine menügesteuerte Abfrage, welche die Eingabe uncodierter Artikel erheblich erleichtert. Zudem kann der im Gerät gespeicherte Artikelstamm kurzfristig und bequem per Modem und Telefonleitung überarbeitet werden. Das Drucken und Versenden von Codebüchern entfällt, die Daten werden wie beim Inhome-Scanning per Modem an das Marktforschungsinstitut übertragen. Die GfK hat seit 1997 auf Electronic Diary umgestellt; 2010 wurde von der GfK mit ScanPlus das Nachfolgemodell eingeführt. Seit Januar 2004 besteht bei der GfK auch die Möglichkeit der Interneterfassung („ScanIt“, vgl. GfK 2007, S. 29). Die Einkaufsdaten werden dabei in zwei Schritten erfasst: Zuerst werden mittels eines Lesestifts die Barcodes der gekauften Artikel gescannt. Der Stift wird in die USB-Schnittstelle eines mit dem Internet verbundenen PCs gesteckt und die Daten werden an die GfK übertragen. Der Server der GfK übermittelt die Artikeltexte an die Panelteilnehmer zurück, diese müssen in eine Eingabemaske noch die Einkaufsstätte sowie für jeden Artikel Preis, Menge etc. eingeben und die Daten an das Institut zurücksenden. Ein erster Vorteil der Interneterfassung resultiert aus der Einfachheit der Dateneingabe - insb. bei nicht EAN-codierten Waren. Die Dialogfähigkeit des Systems erlaubt zudem von beiden Seiten Nachfragen wie auch eine sofortige Plausibilitätskontrolle seitens des Instituts. Auch die Akzeptanz bei ansonsten „panelscheuen“ jüngeren Zielgruppen ist eher gegeben. Mittlerweile ist die internetbasierte Erfassung bei der GfK der Standard, ScanPlus wird nur noch in Panelhaushalten ohne Internetzugang eingesetzt. A Auusswweerrttuunngg In der Praxis wird bei Verbraucherpanels zwischen Standardauswertungen, die jeder Auftraggeber automatisch erhält, und Sonderanalysen, die nur auf Bestellung durchgeführt werden und gesondert zu bezahlen sind, unterschieden (vgl. Abb. 5.4). Bei den Standardauswertungen werden z.T. ähnliche Informationen wie beim Handelspanel erhoben (Mengen, Preise, Marktanteile etc.). Sonderanalysen spielen bei Verbraucherpanels die größere Rolle, da sie bessere Einsichten in das Käuferverhalten ermöglichen. Im Folgenden soll auf die wichtigsten Auswertungsmöglichkeiten eingegangen werden. Eine sehr ausführliche Beschreibung der Auswertungsmöglichkeiten von Haushaltspanels findet sich bei Günther et al. 2019, S. 203 ff. Gesamtmarktgrößen Grundaufgabe von Verbraucherpanels ist das Aufzeigen der zeitlichen Entwicklung der Endverbrauchernachfrage. Aus diesem Grunde gehören zu den Standardergebnissen von Verbraucherpanels folgende Angaben: mengen- und wertmäßiger Absatz einer Produktgattung, <?page no="157"?> Verbraucherpanels 157 mengen- und wertmäßiger Absatz der einzelnen Marken, darauf aufbauend die mengen- und wertmäßigen Marktanteile der einbezogenen Marken. Auf dieser Grundlage kann ein Anbieter: seine Marktposition überprüfen, Entwicklungen beobachten und die Wirkungen von Marketingmaßnahmen analysieren. AAbbbb.. 55..44: : Leistungsspektrum des Verbraucherpanels (Quelle: Berekoven et al. 2009, S. 130) Segmentierung Die Aussagekraft der Paneldaten kann durch eine geeignete Segmentierung wesentlich erhöht werden. Gebräuchlich sind dabei folgende Segmentierungskriterien (vgl. Böhler et al. 2021, S. 74): regionale Segmentierung, z.B. nach Ortsgrößen oder Nielsen-Gebieten; Geschäftstypen, z.B. Supermärkte, Discounter, Drogerien; soziodemographische Merkmale wie Alter, Haushaltsgröße, Haushaltsnettoeinkommen; Kaufverhaltensmerkmale wie Markentreue, Verbrauchsintensität, Reaktionen auf Marketingmaßnahmen; psychologische Merkmale, z.B. Einstellungen, Markenpräferenzen usw. Käuferkumulation. Die Käuferkumulation zeigt die Entwicklung der Käuferzahl im Zeitablauf (vgl. Abb. 5.5). Sie liefert wichtige Hinweise über die Durchsetzungsfähigkeit am Markt eines neu eingeführten Produkts bzw. eines Relaunch. Bezieht man die Käuferkumulation auf die Zahl der Panelteilnehmer, erhält man den sog. Käuferkreis. AAuusswweerrttuunnggssmmöögglliicchhkkeeiitteenn Standardberichte Sonderanalysen Gesamtmarktgrößen Marktanteile Teilmärkte Gebiete Einkaufsstätten Sorten etc. Käuferstrukturen Packungsgrößen/ -arten Geschmacksrichtungen Durchschnittspreise Einkaufsintensität Markentreue Kumulierte Käufer/ Wiederkäufer Bedarfsdeckung Käuferwanderung Gain&Loss-Analysen Einführungsanalysen Aktionsanalysen Kombinationsanalysen Preisanalysen (-elastizitäten/ -abstände) Prognosen (Parfitt/ Collins) <?page no="158"?> 158 Erhebung und Auswertung von Paneldaten Käuferpenetration Die Käuferpenetration gibt an, welcher Anteil der Käufer einer Produktklasse im Zeitablauf erreicht wird. Sie wird folgendermaßen errechnet: Penetration Marke X Käuferkumulation Marke X Käuferkumulation in der Produktklasse . AAbbbb.. 55..55: : Käuferkumulation für eine Marke Wiederkäuferrate Während Käuferkumulation und -penetration die Fähigkeit einer Marke zum Ausdruck bringen, neue Kunden zu gewinnen, gibt die Wiederkäuferrate an, inwieweit es der Marke gelingt, die Käufer zu halten; sie ist also als Indikator für die Zufriedenheit der Käufer zu interpretieren. Die Wiederkäuferrate wird wie folgt errechnet: Wiederkäuferrate Marke X kumulierte Wiederkäufer Marke X Käuferkumulation Marke X . Wiederkaufrate und Bedarfdeckungsrate Die Wiederkaufrate bezeichnet das mengenmäßige Ausmaß, in welchem die Käufer einer Marke diese auch wiederkaufen. Sie berechnet sich folgendermaßen: Wiederkaufrate Marke X Wiederkäufermenge Marke X Kaufmenge in der Produktklasse, die von Käufern der Marke A nach ihrem ersten Kauf getätigt wird . Die Wiederkaufrate kann somit als Marktanteil der Marke in der zugehörigen Produktklasse interpretiert werden. Die Bedarfdeckungsrate kann allgemein als Marktanteil einer Marke Y bei der Käuferschaft der Marke X bezeichnet werden; insofern ist die Wiederkaufrate ein Spezialfall der Be- 60 45 30 25 18 12 Zeit Zahl der Käufer Neukäufer 60 105 135 160 178 190 <?page no="159"?> Verbraucherpanels 159 darfdeckungsrate, nämlich der Marktanteil einer Marke bei ihrer eigenen Käuferschaft. Das folgende Beispiel soll die Zusammenhänge verdeutlichen. Beispiel 5.5: Es soll festgestellt werden, wie die Käufer von vier Marken A, B, C und D in der betrachteten Periode ihren Bedarf decken. Die nachfolgende Tabelle zeigt die prozentuale Verteilung der Kaufmengen der einzelnen Marken (Bedarfsdeckungsraten) bei den Käufern der betrachteten Marken. Marktanteile der Marken i Käufer der Marke A B C D AB C D Sonstige 50 15 5 25 5 25 45 10 5 15 5 10 65 15 5 20 15 20 35 10 Summe 100 100 100 100 Die Elemente auf der Diagonale entsprechen den Wiederkaufraten der einzelnen Marken. Beispielsweise wird ersichtlich, dass 65% der Käufer von Marke C in der betrachteten Periode die Marke wiederkaufen. Der restliche Bedarf wird zu 5% bei Marke A, 10% bei Marke B, 15% bei Marke D und 5% bei sonstigen Marken gedeckt. Auch wird deutlich, dass für Marke C eine hohe Wiederkaufrate als Indikator für die Markentreue vorhanden ist, wohingegen bei Marke D die Markentreue mit nur 10 % Wiederkaufrate nur schwach ausgeprägt ist. Kauffrequenz und Kaufintensität Die Kauffrequenz (Einkaufshäufigkeit) gibt an, wie oft im betrachteten Zeitraum eine bestimmte Marke gekauft wurde. Ergebnis der Analyse sind die Anteile der Käufer, die in der betrachteten Periode die Marke einmal, zweimal, dreimal etc. gekauft haben. Bei der Kaufintensität handelt es sich hingegen um die mengenmäßige Verteilung der Marke auf die Käufer; es handelt sich hierbei um eine spezielle Form einer Konzentrationsanalyse, bei welcher die Käufer eines Produkts nach zunehmender Kaufmenge sortiert werden (vgl. Günther et al. 2019, S. 176 f.). Abbildung 5.6 zeigt die Zusammenhänge grafisch. Aus der Grafik lässt sich ablesen, dass die Intensivkäufer - auf der x-Achse im Intervall von [0,67 - 1] - ca. 66% der Gesamtmenge des betrachteten Produkts kaufen, wohingegen die Extensivkäufer, die im Intervall [0 - 0,33] auf der x-Achse abgetragen sind, lediglich ca. 10% der Gesamtmenge einkaufen. Käuferwanderung Im Rahmen von Panelerhebungen kann das Markenwahlverhalten von Käufern im Zeitablauf erfasst werden; die Analyse der Käuferwanderung erfasst die Wanderungsbewegungen zwischen konkurrierenden Marken, d.h. sie beantwortet die Frage, welche Marken von Zuwanderung profitieren und welche Marken hingegen Abwanderungen in Kauf nehmen mussten. Besonders interessant ist die Erfassung der Käuferwanderung bei Neueinführungen oder beim Relaunch von Marken. Eine genaue Erfassung der Wanderungsbewegungen zwischen den Marken ist durch eine sog. Gain&Loss-Analyse möglich. Betrachtet werden die mengen- und wertmäßi- <?page no="160"?> 160 Erhebung und Auswertung von Paneldaten gen Einkäufe der Panelhaushalte in zwei gleichen Zeiträumen; dabei werden folgende Segmente unterschieden (vgl. ausführlich Günther et al. 2019, S. 214 ff.): das aufrechenbare Segment, dessen Einkaufsmenge in beiden Zeiträumen gleich groß ist; das sog. nicht aufrechenbare Segment, das dadurch entsteht, dass der Haushalt in den beiden betrachteten Zeiträumen unterschiedliche Mengen einkauft. AAbbbb.. 55..66: : Analyse der Kaufintensität (Quelle: In Ahnlehnung an Günther et al. 2006, S. 310) Untersucht wird insb. das aufrechenbare Segment. Hierzu wird die sog. Gain&Loss- Innenmatrix aufgestellt, welche Aufschluss darüber gibt, wie viele Einheiten im Betrachtungszeitraum von einer Marke ab- oder zuwanderten. Mithilfe einer Gain&Loss-Analyse werden die Gewinne bzw. Verluste einer Marke nach Mehrbzw. Minderkauf, neuen Käufern bzw. Käuferverlusten und direkten Markenbewegungen ausgewiesen (vgl. Günther et al. 2019, S. 222). Abbildung 5.7 zeigt ein fiktives Beispiel für eine Gain&Loss-Matrix. Die Matrix lässt sich am Beispiel der Marke A folgendermaßen interpretieren: Marke A hat insgesamt 80 Einheiten gewonnen, und zwar 50 von Marke B und 30 von Marke C. Marke A hat allerdings gleichzeitig 50 Einheiten verloren, nämlich 10 an Marke B und 40 an Marke C. 60 Einheiten der Marke A wurden im Zeitraum wiedergekauft. Weitergehende Analysen werden möglich, indem die Konkurrenzbeziehungen zwischen den einzelnen Marken analysiert werden. Darüber hinaus bildet die Gain&Loss-Matrix 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,2 0,4 0,6 0,8 1,0 Kumulierter Käuferanteil Kumulierter Mengenanteil 1100%% 3344%% 3333%% 6666%% <?page no="161"?> Verbraucherpanels 161 unter Heranziehung der Theorie der Markov-Prozesse die Grundlage für die Prognose von Marktanteilen. ZZuuwwaannddeerruunngg vvoomm 11.. zzuumm 22.. ZZeeiittrraauumm AAbbwwaannddeerruunngg vvoomm 11.. zzuumm 22.. ZZeeiittrraauumm Marke A B C Verlust Wiederkauf ARBS* A 10 40 50 60 110 B 50 10 60 80 140 C 30 10 40 50 90 Gewinne 80 20 50 150 Wiederkauf 60 80 50 190 ARBS* 140 100 100 340 *ARBS = aufrechenbares Segment AAbbbb.. 55..77: : Beispiel für eine Gain&Loss-Matrix <?page no="163"?> 33 MMeetthhooddiisscchhee PPrroobblleemmee vvoonn PPaanneelleerrhheebbuunnggeenn Methodische Probleme von Panelerhebungen betreffen zum einen die Repräsentativität, d.h. die Übertragbarkeit der Panelergebnisse auf die Grundgesamtheit; zum anderen ist die Validität von Panelergebnissen angesprochen. Trotz der nachfolgend angeführten methodischen Probleme stellen sie für Markenartikelhersteller die einzige Möglichkeit darn, laufende Informationen über Absatzmengen, Umsätze und Marktanteile zu erhalten, sodass Hersteller einen großen Teil ihres Marktforschungsbudgets für Panelerhebungen aufwenden. 33..11 RReepprräässeennttaattiivviittäätt vvoonn PPaanneelleerrggeebbnniisssseenn Die Repräsentativität von Panelergebnissen wird durch eine ganze Reihe von Faktoren eingeschränkt: Marktabdeckung (Coverage), Auswahlverfahren, Verweigerungsrate sowie Panelsterblichkeit. AAbbbb.. 55..88: : Coverage von Verbraucher- und Handelspanels Die Marktabdeckung bezeichnet, inwieweit die Grundgesamtheit des Panels in der Lage ist, die tatsächlichen Verkäufe bzw. Einkäufe einer Warengruppe zu erfassen. Aufgrund der engen Definition der Grundgesamtheiten sowohl im Handelsals auch im Verbraucherpanel sind bestimmte Marktteilnehmer nicht enthalten, etwa Versandhandel in Handelspanels oder Großhaushalte in Verbraucherpanels. Weitere Probleme ergeben sich bei Handelspanels durch die Zunahme alternativer Vertriebswege wie Factory Outlets, Handelsgeschäfte Verbraucher Handelspanelsegment (z. B. Edeka, real) Verbraucherpanelsegment (Privathaushalte mit ständigem Wohnsitz in Deutschland) Sonstige (z.B. Großhaushalte) Sonstige (z.B. Versandhandel) <?page no="164"?> 164 Methodische Probleme von Panelerhebungen Internet u.a., welche die Marktabdeckung weiter verringern. Damit ergibt sich die Coverage von Haushalts- und Verbraucherpanels gemäß Abb. 5.8. Das Auswahlverfahren bei Panelerhebungen erfolgt nicht im Rahmen einer Zufallsauswahl, sondern auf der Grundlage einer bewussten Auswahl, i.d.R. in Form einer Quotenauswahl in Verbindung mit einer mehrstufigen Klumpenauswahl. Dadurch wird die Repräsentativität der Panelergebnisse zusätzlich eingeschränkt. Die Verweigerungsrate spielt insb. beim Haushaltspanel eine Rolle - sie kann dort bis zu 90% betragen. Der Grund liegt in dem für Verbraucher erforderlichen Zeitaufwand. Das Problem ist deswegen besonders gravierend, weil die Verweigerungsrate bei bestimmten Bevölkerungsgruppen besonders hoch ist - z.B. bei höheren Einkommensschichten, jüngeren Zielgruppen und in größeren Gemeinden. Bei Handelspanels ist die Bereitschaft zur Teilnahme größer, jedoch sind Verweigerungen auch hier nicht unbekannt (z.B. Aldi). Die Panelsterblichkeit bezeichnet den Ausfall von Panelteilnehmern aus einem laufenden Panel. Abgesehen von einer „natürlichen“ Sterblichkeit aufgrund von Tod oder Umzug sind hier insb. Ausfälle von Panelteilnehmern aufgrund von Zeitmangel, mangelnder Motivation, Ermüdung etc. von Bedeutung. So wird die Panelsterblichkeit im GfK- Haushaltspanel mit durchschnittlich 20% - 30% pro Jahr beziffert; deutlich höher fällt sie bei bestimmten Gruppen - z.B. jungen Einpersonenhaushalten - aus (vgl. Günther et al. 2019, S. 25). Aus diesem Grunde unterhalten Marktforschungsinstitute eine Ersatzstichprobe, in der sich Haushaltsschichten befinden, die von der Panelsterblichkeit besonders betroffen sind. Die im Panel entstehenden Lücken werden nach einem Quotenmodell in regelmäßigen Abständen durch ähnliche Haushalte aus der Ersatzstichprobe aufgefüllt. 33..22 VVaalliiddiittäätt vvoonn PPaanneelleerrggeebbnniisssseenn Die (interne) Validität von Panelergebnissen wird durch sog. Paneleffekte eingeschränkt. Als Paneleffekt wird die Tatsache bezeichnet, dass sich Panelmitglieder durch die Teilnahme am Panel anders verhalten als sie es im Normalfall täten, wodurch sie für die Grundgesamtheit atypisch werden. Dies kann auch bei Handelspanels eintreten, ist aber insb. bei Verbraucherpanels von Bedeutung. Typische Paneleffekte sind: Die Teilnehmer kaufen bewusster ein (z.B. preis- oder kalorienbewusster), wodurch eine Verhaltensänderung eintritt. Aus Prestigegründen werden mehr (oder höherpreisige) Einkäufe angegeben, als dies tatsächlich der Fall ist („Overreporting“). Bei längerer Panelzugehörigkeit treten Ermüdungserscheinungen auf, wodurch die Teilnehmer nachlässiger werden. Diese Effekte konnten teilweise gemildert werden, seit die Einkaufserfassung auf elektronischem Wege erfolgt. Zudem zeigt die Erfahrung, dass die ersten beiden Paneleffekte nach kurzer Eingewöhnungszeit wieder abgebaut werden. Aus diesem Grunde gelangen neu angeworbene Panelteilnehmer erst nach einer gewissen Anlaufzeit in die Auswertung. Um Paneleffekten sowie Panelsterblichkeit zu begegnen, führen die Institute zudem eine regelmäßige Panelrotation durch, d.h. ein Teil des Panels wird durch eine neue Stichprobe ersetzt (vgl. Hüttner/ Schwarting 2002, S. 192). <?page no="165"?> 44 K Koohhoorrtteennaannaallyysseenn Definition Unter Kohortenanalysen werden Untersuchungen verstanden, bei denen eine nach bestimmten Kriterien gebildete Personengesamtheit im Zeitablauf untersucht wird. Als Kriterium dient dabei ein gleiches Ereignis im gleichen Zeitintervall, wie z.B. Geburt, Berufseinstieg, Erstkauf, externer Schock wie z.B. Krieg. Unterschiede im Verhalten von Menschen verschiedener Altersgruppen, wie z.B. Einstellungen oder Präferenzen, lassen sich häufig nicht nur durch altersspezifische Veränderungen, sondern auch durch Generationenunterschiede oder durch Effekte unterschiedlicher Zeitperioden, wie z.B. Wirtschaftskrise oder Krieg, aber auch soziale und kulturelle Veränderungen wie z.B. Erziehungsstile oder Wertewandel in einer Gesellschaft erklären (vgl. Glenn 2005, S. 4). Im Folgenden beschränken sich die Ausführungen auf Geburtskohorten, also Personengesamtheiten, die durch das Ereignis „Geburt“ im betrachteten Zeitraum verbunden sind. Als Beispiel sei hier die Kohorte der sog. „Millennials“ angeführt. Die Kohortenanalyse ist von der Querschnittsanalyse (Untersuchung verschiedener Personen zum gleichen Zeitpunkt) und von der Längsschnittanalyse (Untersuchung gleicher Personen zu unterschiedlichen Zeitpunkten) abzugrenzen. Bei Kohorten ist ferner zwischen echten und unechten Kohorten zu unterscheiden (vgl. Pepels 2014, S. 404): Eine echte Kohorte liegt vor, wenn im Zeitablauf identische Personen beobachtet werden. Insofern kann ein Panel als Sonderform einer echten Kohorte angesehen werden. Um eine unechte Kohorte handelt es sich, wenn im Zeitablauf nicht identische, aber zumindest gleichartige Personengesamtheiten beobachtet werden. In diesem Sinne kann eine Wellenerhebung als Unterfall einer unechten Kohorte angesehen werden. Ziel einer Kohortenanalyse ist das Verfolgen eines bestimmten Segments über einen längeren Zeitraum; dabei wird nicht auf die individuellen Veränderungen abgestellt, sondern auf die der Gesamtheit. Im Rahmen einer Kohortenanalyse sind dabei folgende Effekte möglich (vgl. Rentz/ Reynolds 1981, S. 597 f.): Alterseffekt. Dieser Effekt beruht auf der Tatsache, dass Personen mit zunehmendem Alter einen Reifungsprozess erfahren, der mit psychosozialen Verhaltensänderungen einhergeht. So verschieben sich im Alter teilweise die Bedürfnisse und Gewohnheiten - die Vorliebe für „Fast Food“ sinkt z.B. i.d.R. mit zunehmendem Alter -, aber auch soziale Veränderungen, wie etwa die Phase im Familienlebenszyklus, beeinflussen die Verhaltensweisen der betrachteten Personen. Geschichts- oder Periodeneffekt. Dieser Effekt ist darauf zurückzuführen, dass bestimmte Ereignisse eintreten, die eine Population als Ganzes betreffen, unabhängig von deren Alter. Hierzu zählen z.B. neue Produkte oder Dienstleistungen, die das Verhalten der gesamten Population prägen. Prominentes Beispiel ist hier die Einführung von Smartphones. <?page no="166"?> 166 Kohortenanalysen Generationen- oder Kohorteneffekt. Dieser Effekt beruht auf generationsspezifischen Konsumstilen und entsteht dadurch, dass eine bestimmte Generation Besonderheiten aufweist. Diese Eigenart einer Kohorte bewirkt u.U., dass Verhaltensmuster in der Jugend auch spätere Verhaltensmuster prägen. Der Kohorteneffekt kann zu prognostischen Zwecken herangezogen werden, da Anbieter bestimmter Produkte oder Dienstleistungen in der Lage sind, abzuschätzen, was sie von den einzelnen Altersklassen in Zukunft erwarten können. Beispielsweise stehen derzeit die sog. Millennials im Fokus, welche spezifische Verhaltensweisen aufweist, die sowohl ihr Konsumverhalten als auch ihr Berufswahlverhalten prägen. Im Rahmen einer Panelerhebung kann das Zusammenwirken der drei genannten Effekte erfasst werden, sofern eine Aufgliederung nach Altersgruppen erfolgt (vgl. Hüttner/ Schwarting 2002, S. 229). Im Rahmen einer Kohortenanalyse interessieren jedoch die einzelnen Effekte. Die Schwierigkeit liegt dabei darin, dass Periodeneffekte, Alterseffekte und Kohorteneffekte wechselseitig abhängig sind. So beruht der hauptsächlich interessierende Kohorteneffekt auf Konstrukten wie Lebensphilosophie, Einstellungen etc., die jedoch mit zunehmendem Alter Veränderungen unterliegen (Alterseffekt). Überlagert werden beide Effekte von Umweltveränderungen, die eine gesamte Population prägen können (Periodeneffekte). Diese Interdependenz bewirkt, dass eine exakte isolierte Ermittlung der drei genannten Effekte zumeist nicht möglich ist, sondern nur näherungsweise mit Hilfe bestimmter Verfahren geschätzt werden kann (zur statistischen Analyse von Kohorten vgl. z.B. Glenn 2005). Weiterführende Literatur GfK (2007): 50 Jahre GfK Panelforschung. Stationen einer Erfolgsgeschichte, Nürnberg. Glenn, N.D. (2005): Cohort Analysis. Quantitative Applications in the Social Sciences 5, 2 nd ed., Beverly Hills u.a. Günther, M., Vossebein, V., Wildner, R. (2019): Marktforschung mit Panels: Arten, Erhebung, Analyse, Anwendung, 3. Aufl., Wiesbaden. Litzenroth, H.A. (1986): Neue Perspektiven für die Panelforschung durch hoch entwickelte Technologien, in: Jahrbuch der Absatz- und Verbrauchsforschung, 32(3), 212-240. Parfitt, J.H., Collins, B.J.K. (1968): Use of Consumer Panels for Brand Share Prediction, in: Journal of Marketing Research, 5(2), 131-148. Rentz, J.O., Reynolds, F.D. (1981), Separating Age, Cohort and Period Effects in Consumer Behavior, in: Monroe, K.B., Abor, A. (eds.): Advances in Consumer Research, 08, 596-601. <?page no="167"?> TTeeiill 66: : EExxppeerriimmeennttee 11 K Kllaassssiiffiikkaattiioonn uunndd CChhaarraakktteerriissiieerruunngg vvoonn EExxppeerriimmeenntteenn Definition Ein Experiment beinhaltet die systematische Variation einer oder mehrer unabhängiger Variablen durch den Forscher unter kontrollierten Bedingungen zur Überprüfung von Kausalhypothesen, d.h. Hypothesen zur Wirkung der unabhängigen Variablen auf die abhängige Variable(n). Die Datenerhebung im Rahmen experimenteller Designs kann sowohl auf der Grundlage von Befragungen als auch auf der Grundlage von Beobachtungen erfolgen; häufig werden dabei beide Methoden kombiniert. Beispielsweise wird im Rahmen eines Werbemitteltests eine experimentelle Erhebung etwa durch Eye Tracking um eine Befragung zur Wahrnehmung des Werbemittels ergänzt (Likes/ Dislikes, Assoziationen, Erinnerung usw.). Insofern finden die Ausführungen im Zusammenhang mir der Gestaltung von Befragungen und Beobachtungen - hier insb. der apparativen Beobachtung - genauso Anwendung, sodass hier nicht weiter darauf eingegangen wird (vgl. die ausführliche Darstellung in den Teilen 3 und 4). 11..11 MMeerrkkmmaallee vvoonn EExxppeerriimmeenntteenn Für experimentelle Designs sind folgende Merkmale konstituierend: Der Forscher variiert eine oder mehrere unabhängige Variablen, um deren Wirkung auf eine oder mehrere abhängige Variablen zu ermitteln. Der Versuch erfolgt unter kontrollierten Bedingungen, d.h. es wird versucht, den Einfluss von Störfaktoren zu kontrollieren, um die Wirkung der unabhängige(n) Variable(n) auf die abhängige(n) Variable(n) zu isolieren. Es handelt sich um Kausalhypothesen, d.h. um postulierte Ursache-Wirkungsbeziehungen zwischen den betrachteten Variablen. Eine Kausalbeziehung ist ein gerichteter empirischer Zusammenhang; für Kausalität sind dabei folgende Bedingungen ausschlaggebend (vgl. Iacobucci/ Churchill 2010, S. 123 ff.): Gemeinsame Variation der unabhängigen und der abhängigen Variablen. Darunter versteht man das Ausmaß, in welchem eine Ursache X und eine Wirkung Y gemeinsam auftreten bzw. sich gemeinsam verändern, und zwar in der Art und Weise, wie dies die betrachtete Hypothese voraussagt. Lautet die Hypothese beispielsweise „Je erfahrener die Außendienstmitarbeiter sind, umso höher sind die Umsätze in den jeweiligen Verkaufsbezirken“, so liegt eine gemeinsame Variation dann vor, wenn in den Verkaufsbezirken, in welchen erfahrene Außendienstmitarbeiter tätig sind, tatsächlich tendenziell höhere Umsätze zu verzeichnen sind. Im umgekehrten Fall ist die Kausalhypothese nicht haltbar. <?page no="168"?> 168 Klassifikation und Charakterisierung von Experimenten Zeitliche Reihenfolge des Auftritts der Variablen. Ex definitione kann eine Wirkung nicht durch ein Ereignis verursacht werden, das nach Eintritt der Wirkung stattgefunden hat. Dies bedeutet, dass die Veränderung der unabhängigen Variablen (Ursache) zeitlich vorgelagert oder zumindest zeitgleich zur Veränderung der abhängigen Variablen eintritt (Wirkung). Eliminierung anderer möglicher Ursachen. Idealerweise sollen die untersuchten unabhängigen Variablen die einzige Ursache für die Variation der abhängigen Variablen sein. Dies ist dann gewährleistet, wenn die übrigen möglichen Faktoren (sog. Störgrößen) vom Experimentator kontrolliert werden. Bei Vorliegen dieser Bedingungen lässt sich eine Änderung der abhängigen Variablen eindeutig auf eine Änderung der unabhängigen Variablen zurückführen. Gerade die dritte Bedingung ist jedoch in der Realität nicht immer uneingeschränkt gegeben; so unterscheiden sich auch die einzelnen Versuchsanordnungen danach, inwieweit sie in der Lage sind, Störfaktoren zu kontrollieren. Gerade bei ökonomischen Fragestellungen - anders als bei naturwissenschaftlichen - sind Gesetzmäßigkeiten nur unter definierten Bedingungen und mit einer bestimmten Wahrscheinlichkeit zu ermitteln. AAbbbb.. 66..11: : Elemente eines Experiments Im Marketing sind typische Fragestellungen, die im Rahmen von Experimenten untersucht werden, die Wirkungen von Marketingmaßnahmen zum einen auf ökonomische Zielgrößen wie Kauf/ Nichtkauf, Absatzmenge u.a., zum anderen auf psychologische Zielgrößen wie Aktivierung, Interesse, Erinnerung. Als experimentelle Stimuli werden also bestimmte Ausprägungen von Marketing-Instrumentalvariablen herangezogen. Im Einzelnen beinhaltet ein Experiment folgende Elemente (vgl. Abb. 6.1): Unabhängige Variablen: Hierbei handelt es sich um den experimentellen Input, d.h. um diejenigen Größen, welche vom Forscher manipuliert werden, um deren Einfluss auf die abhängige Variable festzustellen. Kontrollierte Variablen: Dies sind Variablen, die der Forscher kontrolliert, um deren Einfluss auf die abhängige Variable auszuschalten (z.B. Konstanthaltung des Preises bei Untersuchung der Wirkung alternativer Werbespots auf die Absatzmenge). Störvariablen: Störvariablen sind solche, die die abhängige Variable beeinflussen, aber vom Experimentator nicht kontrolliert werden (können) und damit die Validität der Testergebnisse beeinträchtigen (z.B. Konkurrenzmaßnahmen). Input Output (Wirkung) TTeesstteeiinnhheeiitteenn Unabhängige Variablen Kontrollierte Variablen Störvariablen Abhängige Variable <?page no="169"?> Systematik von Experimenten 169 Testeinheiten: Testeinheiten bzw. Testelemente können Individuen, Organisationen oder sonstige Institutionen sein, an denen die Wirkung der unabhängigen Variablen gemessen werden soll. Beispiele sind Personen, Unternehmen, Geschäfte, Gebiete. Abhängige Variable: Die experimentelle Wirkung beinhaltet die Veränderung der abhängigen Variablen bei den Testeinheiten als Konsequenz des experimentellen Inputs (und der nicht kontrollierten Störgrößen). 11..22 SSyysstteemmaattiikk vvoonn EExxppeerriimmeenntteenn Zur Systematisierung von Experimenten können verschiedene Kriterien herangezogen werden: experimentelles Umfeld, zeitlicher Einsatz der Messung, Versuchsanordnung. Nach dem experimentellen Umfeld wird zwischen Feldexperiment und Laborexperiment unterschieden. Im Rahmen eines Laborexperiments wird eine künstliche Situation erzeugt. Das Experiment findet in einem eigens dafür ausgestatteten Teststudio eines Marktforschungsinstituts statt. Dies ermöglicht eine umfassende Kontrolle potenzieller Störeinflüsse. Beispiele für Laborexperimente sind Produkttests, Werbemitteltests sowie einige Preistests (vgl. hierzu die Ausführungen in Teil 10). Beim Feldexperiment erfolgt die Erhebung hingegen in einem natürlichen Umfeld, d.h. die Testeinheiten werden in ihrer gewohnten Umgebung untersucht. Aufgrund der realen Versuchssituation ist die Kontrolle von Störvariablen deutlich schwieriger. Varianten des Feldexperiments sind der Store-Test und der Markttest (vgl. die Ausführungen in Kapitel 2 des 10. Teils). Laborexperimente weisen folgende Vorteile auf: Störeinflüsse können weitgehend ausgeschaltet werden; es können problemlos technische Hilfsmittel eingesetzt werden; ihre Anwendung ist flexibel und erlaubt eine Geheimhaltung des experimentellen Inhalts, was z.B. beim Test neuer Produkte bedeutsam ist; im Vergleich zu Feldexperimenten sind Laborexperimente i.d.R. kostengünstiger. Als nachteilig erweisen sich die häufig geringe Realitätsnähe wie auch der i.d.R. eintretende Beobachtungseffekt (vgl. Abschnitt 2.1 in Teil 4). Vorteilhaft an Feldexperimenten sind insb. die folgenden Aspekte: Aufgrund der realen Testsituation ist die externe Validität hoch; die Testeinheiten brauchen nicht zu erfahren, dass sie an einem Experiment teilnehmen, sodass sich der Beobachtungseffekt ausschalten lässt. Nachteilig sind i.d.R. die hohen Kosten, der hohe Zeitaufwand sowie die nur eingeschränkte Kontrollierbarkeit von Störeinflüssen. Viele marketingrelevante Reaktionshypothesen lassen sich mittlerweile im Rahmen von Online-Experimenten untersuchen (vgl. Fantapié Altobelli/ Sander 2001, S. 74 f.). Beispiels- <?page no="170"?> 170 Klassifikation und Charakterisierung von Experimenten weise lassen sich Werbemitteltests durchführen, indem die zu testenden Werbemittel (Anzeigen, Spots) auf den Bildschirm der Testperson transferiert werden. Weiterhin können im Rahmen virtueller Produkttests Produktinnovationen in verschiedenen Varianten vor der eigentlichen Produktentwicklung getestet werden, sodass die Akzeptanz neuer Produkte bereits in einem frühen Stadium des Produktentwicklungsprozesses untersucht werden und u.U. auch die zeit- und kostenaufwändige Konstruktion von Prototypen entfallen kann. Darüber hinaus können Testmarktuntersuchungen als virtuelle Labor-Store- Tests durchgeführt werden, indem Testpersonen in einem virtuellen Supermarkt unter kontrollierten Bedingungen „einkaufen“. Vorteilhaft an Online-Experimenten sind die hohe geographische Reichweite, die raum-zeit-unabhängige Durchführbarkeit und die geringen Kosten; nachteilig ist wie bei der Online-Befragung die geringe Repräsentativität der Stichprobe. Im Hinblick auf den zeitlichen Einsatz der Messung wird zwischen projektiven Experimenten und Ex-post-facto-Experimenten unterschieden (zu dieser Unterscheidung vgl. z.B. Berekoven et al. 2009, S. 148). Projektive Experimente beruhen darauf, dass der Forscher bewusst und gezielt ex ante die Experimentierbedingungen erzeugt und die Testeinheiten mit den geschaffenen Bedingungen konfrontiert. Der zu untersuchende Sachverhalt wird also vom Zeitpunkt der Veränderung der unabhängigen Variablen bis zur eingetretenen Wirkung auf die abhängige Variable verfolgt. Hingegen wird im Rahmen eines Ex-post-facto-Experiments die Veränderung einer abhängigen Variablen in der Gegenwart auf das Vorliegen bestimmter Bedingungen in der Vergangenheit zurückgeführt. Beispiel 6.1: Per Befragung wird festgestellt, welche Untersuchungseinheiten mit einem bestimmten Werbespot Kontakt hatten und welche nicht. Gegebenenfalls auftretende Unterschiede in den Kaufmengen der beiden Personengruppen werden auf den Kontakt mit dem Spot zurückgeführt. AAbbbb.. 66..22: : Klassifikation experimenteller Designs Offensichtlich ist bei Ex-post-facto-Experimenten die Ermittlung von Ursache und Wirkung problematisch, zumal Störeinflüsse unbekannt sind. Außerdem stimmen sie EExxppeerriimmeenntteellllee DDeessiiggnnss VVoorreexxppeerriimmeenntteellllee DDeessiiggnnss EEcchhttee EExxppeerriimmeennttee QQuuaassii--EExxppeerriimmeennttee One-Shot-Case Study (EA-Typ) Eingruppen-Vorher- Nachher-Messung (EBA-Typ) Nachher-Messung mit Kontrollgruppe (EA-CA-Typ) BBaassiissffoorrmmeenn Vorher-Nachher- Messung mit Kontrollgruppe (randomisiert) Randomisierte Nachher-Messung mit Kontrollgruppe Solomon-Vier- Gruppen-Design EErrwweeiitteerrttee EExxppeerriimmeennttee Vollständiger Zufallsplan Zufälliger Blockplan Lateinisches Quadrat Faktorielle Pläne Vorher-Nachher- Messung mit unterschiedlichen Samples (EB-CA- Typ) Zeitreihendesigns Kontrollgruppenanordnung ohne Randomisierung (EBA-CBA-Typ) <?page no="171"?> Systematik von Experimenten 171 mit der hier verwendeten Definition von Experimenten - systematische Variation unabhängiger Variablen - nicht überein, sodass dieser Unterscheidung nicht weiter gefolgt wird. Ein wichtiges Unterscheidungskriterium von Experimenten ist die Versuchsanordnung, d.h. der Aufbau der Versuchsanlage. Die einzelnen Versuchsanlagen unterscheiden sich dabei insb. im Hinblick auf folgende Kriterien: Art und Weise, in welcher die Berücksichtigung von Störgrößen erfolgt und Anzahl der berücksichtigten experimentellen Variablen (Faktoren) und Ausprägungen (Treatments). Die Heranziehung dieser Kriterien führt zu der in Abb. 6.2 enthaltenen Unterteilung experimenteller Anordnungen (vgl. ausführlich Kapitel 3): Vorexperimentelle Designs: Diese Versuchsanlagen verzichten auf eine explizite Berücksichtigung von Störfaktoren und implizieren damit, dass die Störvariablen alle Testeinheiten in identischer Weise beeinflussen. Im Grunde handelt es sich hier nicht um Experimente nach der hier verwendeten Definition; sie werden daher nur der Vollständigkeit halber angeführt. Echte Experimente: Bei echten („vollständigen“, „formalen“) Experimenten werden Störvariablen bewusst kontrolliert. Der Forscher variiert die Experimentierfaktoren unter Einsatz von Kontrollgruppen und bildet die Gruppen nach dem Zufallsprinzip (Randomisierung). Unterschieden wird hier zwischen Basisformen und sog. erweiterten Experimenten. Erweiterte Experimente entstehen dabei durch Kombination verschiedener Basisformen von (echten) Experimenten. Dadurch wird es möglich, mehr als einen Testfaktor in mehreren Ausprägungen zu berücksichtigen. Quasi-Experimente: Versuchsanordnungen, bei denen nicht alle der o.g. Bedingungen für echte Experimente gegeben sind, werden als Quasi-Experimente bezeichnet (vgl. Campbell/ Stanley 1963, S. 204). <?page no="173"?> 22 V Vaalliiddiittäätt vvoonn EExxppeerriimmeenntteenn 22..11 IInntteerrnnee vvss.. eexxtteerrnnee VVaalliiddiittäätt Die Validität (Gültigkeit) von Messungen bezeichnet das Ausmaß, in welchem die Messergebnisse allgemeingültige Aussagen über den zu messenden Sachverhalt erlauben. Hierbei wird zwischen interner und externer Validität unterschieden. Die interne Validität ist dann gegeben, wenn die beobachtete Wirkung auf die abhängige Variable einzig und allein auf die Veränderung der unabhängigen Variablen zurückzuführen ist. Demzufolge bezieht sich die interne Validität darauf, inwieweit es dem Forscher gelungen ist, den Einfluss von Störvariablen auszuschalten. Hingegen bezieht sich die externe Validität auf die Generalisierbarkeit der Experimentierergebnisse auf andere Personen, Situationen oder Zeitpunkte; sie betrifft also die Repräsentativität der gewonnenen Erkenntnisse über die besonderen Bedingungen der Untersuchungssituation und die untersuchten Testeinheiten hinaus. Interne Validität ist dabei eine unabdingbare Voraussetzung für externe Validität: Sind die Messergebnisse nicht eindeutig auf das Experiment zurückzuführen, so ist deren Generalisierung auf die Grundgesamtheit fehlerbehaftet, da diese verzerrt sind (systematischer Fehler). Versuchsanordnungen mit höherer interner Validität wird daher von den meisten Forschern gegenüber solchen mit hoher Repräsentativität (z.B. aufgrund realer Bedingungen), jedoch geringer Kontrolle von Störfaktoren, der Vorzug gegeben (für eine ausführliche Diskussion des Spannungsfelds zwischen interner und externer Validität vgl. Schram 2005). 22..22 DDiiee BBeehhaannddlluunngg vvoonn SSttöörrggrröößßeenn bbeeii eexxppeerriimmeenntteelllleenn DDeessiiggnnss Sowohl die interne als auch die externe Validität werden durch eine ganze Reihe von Störfaktoren beeinträchtigt; Tabelle 6.1 zeigt die einzelnen Variablen im Überblick. Infolgedessen müssen Versuchsanordnungen darauf abzielen, Störgrößen zu minimieren. GGeeffaahhrreennqquueelllleenn ddeerr iinntteerrnneenn VVaalliiddiittäätt Die interne Validität wird insb. durch die nachfolgend genannten Faktoren beeinträchtigt (vgl. Campbell/ Stanley 1963, S. 175 ff.; Studman/ Blair 1998, S. 211 ff.; Malhotra 2019, S. 242 ff.): Reifungseffekt: Von Reifung spricht man dann, wenn sich die Testeinheiten während der Testdauer unabhängig vom Testfaktor verändern, die Veränderung also auf Störeinflüsse zurückzuführen ist. Beispiel 6.2: Die Probanden ändern ihr Verhalten aufgrund von Ermüdung oder Langeweile, oder aber aufgrund struktureller Veränderungen, z.B. Leitungswechsel in den Testgeschäften. Dieser Effekt tritt naturgemäß bei Versuchsanordnungen auf, die einen längeren Zeitraum umfassen. <?page no="174"?> 174 Validität von Experimenten TTaabb.. 66..11: : Störvariablen der internen und externen Validität Gefahrenquellen für die... Interne Validität Externe Validität Zeiteffekt (History) Reifungseffekt (Maturation) Testeffekt Instrumentalisierungseffekt Statistischer Regressionseffekt (Konvergenzeffekt) Auswahleffekt Ausfalleffekt (Mortalität) Interaktion mit Auswahleffekt Interaktion zwischen Treatments Pretesteffekt Interaktion von Auswahleffekt und Treatments Experimentelles Umfeld Testeffekt: Testeffekte treten dann auf, wenn das Untersuchungsinstrument (z.B. Fragebogen, physiologische Aufzeichnungsverfahren usw.) auf dieselben Untersuchungseinheiten wiederholt angewendet wird. Beispiel 6.3: Bei der Nachher-Messung erinnern die Testpersonen die Antworten der Vorher-Messung und bemühen sich um konsistente Beantwortung des zweiten Fragebogens, obwohl sich die Einstellung aufgrund des zwischenzeitlich eingetretenen Treatments geändert hat. Oder aber sie verändern ihre Einstellung allein durch das Ausfüllen eines Einstellungsfragebogens, da sie aus dem Fragebogen neue Informationen über das Einstellungsobjekt gewinnen. Instrumentalisierungseffekt: Dieser Effekt tritt ein, wenn das Messinstrument den zu messenden Sachverhalt ungenau oder fehlerhaft erfasst, oder aber wenn im Laufe des Experiments das Messinstrument selbst oder dessen Anwender Veränderungen unterliegen. Beispiel 6.4: Während der Durchführung des Experiments wechselt die Versuchsleitung. Diese beeinflusst durch Gestik und Mimik unbewusst das Versuchsgeschehen, sodass die Ergebnisse unter der neuen Versuchsleitung unter sonst gleichen Bedingungen anders ausfallen als bei der alten Versuchsleitung. Statistischer Regressionseffekt (Konvergenzeffekt): Solche Effekte treten ein, wenn sich Testeinheiten mit extremen Ausprägungen von Variablen bei wiederholter Messung dem Durchschnittswert nähern. Dies kann vorkommen, wenn die Gruppenzuordnung beim Pretest nicht zufällig ist und die Pretest-Werte zur Gruppenzuordnung im Posttest herangezogen werden. Auswahleffekt: Dieser Effekt tritt ein, wenn die Testgruppen vor der Durchführung des Experiments nicht vergleichbar sind, d.h. keine strukturgleiche (Teil-)Samples darstellen. Damit können unterschiedliche Messwerte der abhängigen Variablen in den einzelnen Gruppen nicht eindeutig auf unterschiedliche Treatments zurückgeführt werden, da sich die Ausgangssituation der Testeinheiten unterscheidet. <?page no="175"?> Die Behandlung von Störgrößen bei experimentellen Designs 175 Beispiel 6.5: Es wird eine neue Produktvariante in einem Testmarkt untersucht, in einem anderen Testmarkt wird die alte Produktvariante beibehalten. Gemessen wird die Absatzmenge in beiden Testgebieten. Allerdings wird übersehen, dass in Testgebiet 1 überproportional viele kleine Einzelhandelsgeschäfte enthalten sind, wohingegen Testgebiet 2 von großen Supermärkten dominiert wird. Ausfalleffekt (Mortalität): Ausfalleffekte beinhalten diejenigen Verzerrungen, welche dadurch entstehen, dass ein Teil der Untersuchungseinheiten im Verlauf des Experiments ausscheidet. Ähnlich wie bei der Panelsterblichkeit ist die Wirkung der Mortalität umso schwerwiegender, je unterschiedlicher verschiedene Testeinheiten bzw. bestimmte Gruppen davon betroffen werden. Beispiel 6.6: Beim Test unterschiedlich gestalteter Gebrauchsanweisungen („einfache“ Variante mit vielen Grafiken und wenig Text vs. „schwierige“ Variante mit detaillierten verbalen Erklärungen) werden bei der schwierigen Variante tendenziell mehr Testeinheiten die Mitarbeit verweigern. Besonders betroffen werden wahrscheinlich Testeinheiten mit geringem Bildungsniveau sein. Interaktion mit Auswahleffekten: Viele der bisher genannten Störeinflüsse können mit Auswahleffekten interagieren und so zu Verdeckungen von Treatmenteffekten führen. Die Interaktion von Reifungsprozessen und Auswahleffekten führt z.B. dazu, dass - wenn die Gruppen unterschiedlich zusammengesetzt sind - diese auch unterschiedlichen Reifungsprozessen unterliegen. Oder aber unterschiedlich zusammengesetzte Gruppen reagieren auf externe zeitliche Einflüsse in unterschiedlicher Art und Weise. GGeeffaahhrreennqquueelllleenn ddeerr eexxtteerrnneenn VVaalliiddiittäätt Die externe Validität eines Experiments wird insb. durch folgende Faktoren eingeschränkt (vgl. Campbell/ Stanley 1963, S. 175 f.): Interaktion mit Treatments. Das Problem entsteht, wenn Testeinheiten bei wiederholten Messungen unterschiedlichen Treatments ausgesetzt werden („repeated measures“). Die Testergebnisse erlauben hier keine Generalisierbarkeit auf Situationen, in welchen nur ein Treatment verabreicht wird. Beispiel 6.7: Einer Testgruppe wird zunächst ein Werbespot gezeigt, anschließend wird die Absatzmenge erhoben. Eine Woche später wird das Experiment mit einem anderen Werbespot wiederholt. Das Problem kann allerdings dadurch gelöst werden, dass die zeitliche Reihenfolge der Treatments variiert wird. Beispielsweise kann die Stichprobe in vergleichbare Untergruppen gesplittet werden, welche die Werbespots in unterschiedlicher Reihenfolge erhalten. Pretesteffekt: Hierbei handelt es sich um die Interaktion von Testsituation und Treatment. Es geht um die Frage, ob das Ergebnis eines Experiments mit vorherigem Pretest auf Untersuchungssituationen ohne Pretest verallgemeinert werden kann. Pretests können z.B. die Generalisierbarkeit der Untersuchungsergebnisse beeinträchtigen, wenn die Testeinheiten durch den Pretest sensibilisiert wurden. <?page no="176"?> 176 Validität von Experimenten Beispiel 6.8: Im Rahmen eines Pretests wird die Einstellung zum Thema „gesunde Ernährung“ erhoben. Die Ergebnisse des Pretests werden herangezogen, um eine Stichprobe nach den Ausprägungen dieses Merkmals zu bilden. Die Testgruppen werden anschließend mit Produkten aus biologischem Anbau und herkömmlichen Lebensmitteln konfrontiert. Gemessen wird die Präferenz. Bei dieser Versuchsanordnung ist zu erwarten, dass Testeinheiten, die am Pretest teilgenommen haben, für die Thematik sensibilisiert sind und anders reagieren als solche, die dem Pretest zuvor nicht unterzogen wurden. Interaktion von Auswahleffekt und Treatments. Dieser Effekt tritt ein, wenn bei der Auswahl der Teilnehmer ein systematischer Fehler entsteht. Beispiel 6.9: An Gymnasien eines bestimmten Bundeslands wird eine neue Unterrichtsmethode getestet. Etwaige Erfolge ermöglichen aber keine Aussage darüber, ob die Methode an Haupt- und Realschulen ebenfalls erfolgreich wäre. Ähnliche Probleme treten im Hinblick auf die Generalisierbarkeit der Ergebnbisse des Experiments bei Vorhandensein bestimmter Settings oder zeitlicher Gegebenheiten auf, etwa Erhebung der Zahlungsbereitschaft von Käuferinnen und Käufern in der Weihnachtszeit. Experimentelles Umfeld: Spezifische Wirkungen des experimentellen Umfelds treten insb. dann auf, wenn Untersuchungseinheiten ihr Verhalten deshalb ändern, weil sie an einem Experiment teilnehmen (Beobachtungseffekt). Dies geschieht typischerweise bei Laborexperimenten. Die dargestellten Störvariablen können die Validität von Experimenten erheblich einschränken. Aus diesem Grunde ist es erforderlich, diese Faktoren soweit wie möglich zu kontrollieren, um die o.g. Effekte nach Möglichkeit auszuschalten. Folgende Ansatzpunkte sind dabei gebräuchlich (vgl. Studman/ Blair 1998, S. 227 ff.): Randomisierung, Matching, rechnerische Bereinigung, Blockbildung, Konstanthaltung, Parallelisierung. Im Rahmen der Randomisierung werden zum einen die Testelemente zufällig den Experimentiergruppen zugeordnet; zum anderen erfolgt die Zuordnung der Treatmentstufen zu den einzelnen Experimentiergruppen ebenfalls zufällig. Auf diese Weise wird eine Äquivalenz der Testgruppen (und der Kontrollgruppe) vor Durchführung des Experiments erreicht; damit kann davon ausgegangen werden, dass sich Störfaktoren bei den einzelnen Gruppen in gleicher Weise auswirken. Randomisierung ist die geeignetste Art, den Einfluss von Störvariablen zu umgehen; sie muss jedoch bei kleinen Stichproben durch weitere Verfahren ergänzt werden, da Randomisierung nur im Durchschnitt gleiche Gruppen erzeugt. <?page no="177"?> Die Behandlung von Störgrößen bei experimentellen Designs 177 Beispiel 6.10: Es sollen drei alternative Versionen eines Werbespots getestet werden. Die Testeinheiten werden zunächst zufällig den drei Testgruppen sowie einer Kontrollgruppe zugeordnet. Die verschiedenen Werbespots werden anschließend zufällig den Testgruppen zugewiesen. Unter Matching versteht man die bewusste Zuordnung der Testeinheiten zu den Treatmentstufen dergestalt, dass nach bestimmten, vorab festgelegten Kriterien - nämlich den zu kontrollierenden Merkmalen - je einer Experimentiergruppe gleichartige Testeinheiten zugeordnet werden. Ähnlich wie bei einer Quotenstichprobe wird dadurch Strukturgleichheit der einzelnen Testgruppen angestrebt; diese ist jedoch nur für die einbezogenen Merkmale gegeben. Die Ergebnisse von Experimenten können bei Vorliegen von Störgrößen ggf. noch nachträglich rechnerisch bereinigt werden. Beispielsweise kann im Rahmen einer Kovarianzanalyse (ANCOVA) die Wirkung von Störvariablen auf die abhängige Variable dadurch ausgeschaltet werden, dass der Mittelwert der abhängigen Variablen innerhalb jeder Treatmentstufe angepasst wird. Eine Kontrolle von Störgrößen kann schließlich durch Anwendung spezieller Testdesigns erfolgen. Zur Erhöhung der internen Validität kann beispielsweise eine Blockbildung vorgenommen werden (vgl. die Ausführungen zum zufälligen Blockplan in Abschnitt 3.3). Eine Blockbildung findet z.B. dann statt, wenn eine oder mehrere bedeutsame Störgrößen bekannt sind; die Testeinheiten werden dann Blöcken zugeordnet, welche nach den Ausprägungen der Störvariable(n) gebildet werden. Beispiel 6.11: Es soll die Auswirkung alternativer Platzierungen im Geschäft auf die Absatzmenge getestet werden. Um den Einfluss der Ladengröße zu kontrollieren, werden die Testgeschäfte in Blöcke aufgeteilt, z.B. kleinere, mittlere und große Geschäfte. Durch Konstanthaltung personengebundener Störvariablen kann erreicht werden, dass die Unterschiedlichkeit von Vergleichsgruppen nicht auf diese, sondern nur auf die Experimentiervariable zurückzuführen ist. Dadurch wird zwar die interne Validität erhöht, die externe jedoch verringert. Beispiel 6.12: Es soll die Einstellung zu einem neuen Fertiggericht bei Hausfrauen und bei berufstätigen Frauen erhoben werden. Da vermutet wird, dass die Dauer des Berufslebens auch mit einer größeren Erfahrung mit Fertiggerichten einhergeht, werden in beiden Gruppen ausschließlich Frauen in der Altersgruppe der 20-25-Jährigen untersucht, die also - wenn überhaupt - erst seit kurzer Zeit im Berufsleben stehen. Die dadurch gewonnenen Erkenntnisse lassen sich allerdings nicht auf andere Altersgruppen übertragen. Unter Parallelisierung versteht man die Zusammenstellung möglichst vergleichbarer Subgruppen, d.h. die Testgruppen werden in Bezug auf die Störvariable vergleichbar gemacht („parallelisiert“). Die Gruppen gelten dann als parallel, wenn sie hinsichtlich der Störvariablen annähernd gleiche Mittelwerte und Streuungen aufweisen und damit als vergleichbar gelten können. <?page no="178"?> 178 Validität von Experimenten Beispiel 6.13: Im obigen Fertiggericht-Beispiel sollte dafür Sorge getragen werden, dass beide Gruppen - Hausfrauen und berufstätigen Frauen - im Durchschnitt ähnliche Erfahrungen mit Fertiggerichten haben und die Erfahrung in beiden Gruppen annähernd gleich streut. Zur Erhöhung der externen Validität kommen Testdesigns mit verdeckter Versuchsanordnung zur Anwendung. Auftretende Verzerrungen durch Beobachtungseffekte können darüber hinaus - ähnlich wie bei Panelerhebungen - dadurch ausgeschaltet werden, dass die Testergebnisse erst nach einer gewissen Anlaufzeit in die Auswertung gelangen. Im nachfolgenden Kapitel werden die wichtigsten Versuchsanordnungen dargestellt und diskutiert, insb. im Hinblick darauf, inwieweit sie geeignet sind, Störgrößen auszuschalten. <?page no="179"?> 33 E Exxppeerriimmeenntteellllee DDeessiiggnnss 33..11 NNoottaattiioonn Zur besseren Übersicht soll hier zunächst die Notation für die nachfolgend dargestellten experimentellen Designs skizziert werden. Die Notation lehnt sich an Campbell/ Stanley (1963) an, da sich diese Notation im internationalen Schrifttum durchgesetzt hat. Die Symbolik sei nachfolgend erläutert: X = Eine Experimentiergruppe wird einer experimentellen Situation (Treatment) ausgesetzt, deren Wirkung auf die abhängige Variable gemessen werden soll; O = Beobachtungs- oder Messvorgang („Observation“) an den Testeinheiten/ Testgruppen (bzw. Kontrollgruppe); R = Randomisierung, d.h. zufällige Zuordnung von Testeinheiten bzw. Testgruppen zu Treatments (bzw. Treatmentstufen). Des Weiteren gilt folgende Vereinbarung: Die Richtung von links nach rechts zeigt die zeitliche Reihenfolge an. Die horizontale Anordnung von Symbolen bedeutet, dass sie sich auf dieselbe Gruppe von Testeinheiten beziehen. Die vertikale Ausrichtung der Symbole impliziert, dass die Ereignisse (Treatments oder Messungen) simultan erfolgen. Die Messwerte O beinhalten i.d.R. den Mittelwert oder den Anteilswert der jeweiligen Gruppe. Im Folgenden werden dabei mit EG die Experimentiergruppe (Experimental Group) und mit CG die Kontrollgruppe (Control Group) bezeichnet. Dann wäre z.B. bei der angegebenen Notation die Versuchsanordnung EG: �R� 𝑋𝑋 � 𝑂𝑂 � CG: �R� 𝑋𝑋 � 𝑂𝑂 � folgendermaßen zu beschreiben: Eine Experimentiergruppe und eine Kontrollgruppe werden zufällig und simultan zwei verschiedenen Treatments zugewiesen; die abhängige Variable wird bei beiden Gruppen gleichzeitig gemessen. Vielfach findet sich in der deutschsprachigen Literatur folgende Notation (vgl. z.B. Berekoven et al. 2009, S. 149 ff.; Pepels 2014, S. 149 ff.): E: Experimentiergruppe (Experimental Group), C: Kontrollgruppe (Control Group), B: Messung vor Einsatz des Testfaktors (Before), A: Messung nach Einsatz des Testfaktors (After). Danach werden folgende Grundtypen von sog. informalen Experimenten unterschieden: <?page no="180"?> 180 Experimentelle Designs EBA-Typ: Messung an nur einer Gruppe vor und nach Einsatz des Experimentierfaktors; CB-EA-Typ: Messung bei einer Gruppe vor, bei einer anderen Gruppe nach Einsatz des Testfaktors; EA-CA-Typ: Messung bei einer Test- und einer Kontrollgruppe nach Einsatz des Testfaktors; EBA-CBA-Typ: Messung vor und nach Einsatz des Experimentierfaktors bei einer Test- und einer Kontrollgruppe. Es wird ein einziger Testfaktor eingesetzt. Die Auswertung dieser sog. „klassischen“ oder „informalen“ Experimente erfolgt durch Differenzbildung; aufgrund fehlender Randomisierung ist eine statistische Ergebnisprüfung nicht möglich. 33..22 VVoorreexxppeerriimmeenntteellllee DDeessiiggnnss Definition Bei vorexperimentellen Designs erfolgt keine bzw. eine nur unvollständige Kontrolle von Störfaktoren. Insbesondere wird auf eine Randomisierung verzichtet. Implizit wird hier unterstellt, dass Störfaktoren sämtliche Testeinheiten in identischer Weise betreffen. Es handelt sich somit nicht um Experimente im eigentlichen Sinn gemäß der hier verwendeten Definition; sie werden aber der Vollständigkeit halber angeführt. OOnnee--SShhoott--CCaassee SSttuuddyy ((EEAA--TTyypp)) Diese einfachste Versuchsanordnung, auch als After-Only-Design oder EA-Typ bekannt, betrachtet eine einzige Testgruppe, die einem Treatment X ausgesetzt wird; anschließend erfolgt eine Messung der abhängigen Variablen ( 𝑂𝑂 � ): EG: X 𝑂𝑂 � . Neben der fehlenden Randomisierung besteht die Schwäche des Designs darin, dass die Faktorwirkung kaum zu ermitteln ist - allenfalls durch Vergleich mit einem hypothetischen Wert der abhängigen Variablen ohne Treatment (z.B. auf der Grundlage subjektiver Erfahrungen oder ähnlich gelagerter Fragestellungen). Aus diesem Grunde eignet sich dieses Design allenfalls für explorative Analysen. E Eiinnggrruuppppeenn--VVoorrhheerr--NNaacchhhheerr--MMeessssuunngg ((EEBBAA--TTyypp)) Die Eingruppen-Vorher-Nachher-Messung (in der Literatur auch als EBA-Typ oder One-Group Pretest-Posttest-Design bezeichnet) kann wie folgt symbolisiert werden: EG: 𝑂𝑂 � X 𝑂𝑂 � . Bei diesem Design wird an einer Experimentiergruppe eine Messung vor Testdurchführung vorgenommen ( 𝑂𝑂 � ) sowie eine danach ( 𝑂𝑂 � ). Damit resultiert die Faktorwirkung als <?page no="181"?> Vorexperimentelle Designs 181 𝑂𝑂 � � 𝑂𝑂 � ; die Validität des Ergebnisses ist allerdings zweifelhaft, da eine Kontrolle von Störvariablen unterbleibt und eine Kontrollgruppe fehlt. TTaabb.. 66..22: : Charakterisierung vorexperimenteller Designs Typ Beschreibung Beispiel Faktorwirkung Beurteilung One-Shot-Case Study Messung der Werte der abhängigen Variablen nach Einsatz des Testfaktors in einer Testgruppe EG: X 𝑂𝑂 � Messung der Bekanntheit einer Produktmarke nach Zeigen eines Werbespots �𝑂𝑂 � � "𝑂𝑂 � "� mit 𝑂𝑂 � = hypothetischer Erfahrungswert für den Ausgangsmesswert ohne Treatment, 𝑂𝑂 � Messwert in der Experimentiergruppe nach dem Treatment Vernachlässigung von Störvariablen Kontrollgruppe fehlt zeitliche Entwicklungseffekte nicht messbar Faktorwirkung nicht exakt ermittelbar Eingruppen-Vorher- Nachher-Messung Messung der Werte der abhängigen Variablen zeitlich vor und nach Einsatz der unabhängigen Variablen in einer Testgruppe EG: 𝑂𝑂 � X 𝑂𝑂 � Messung und Vergleich der Umsätze für ein bestimmtes Produkt in ausgewählten Einzelhandelsgeschäften vor und nach einer Preissenkung für das betreffende Produkt; Paneluntersuchungen; Store-Tests �𝑂𝑂 � � 𝑂𝑂 � � Differenz in der Experimentiergruppe zwischen zwei Zeitpunkten Vernachlässigung von Störvariablen Kontrollgruppe fehlt Zeitliche Entwicklungseffekte nicht messbar Nachher-Messung mit Kontrollgruppe Messung der Werte der abhängigen Variablen in Test- und Kontrollgruppe nur nach Einsatz der unabhängigen Variablen EG: X 𝑂𝑂 � CG: 𝑂𝑂 � Probeaktion in ausgewählten Testgeschäften und Vergleich der Umsatzzahlen mit Geschäften, die nicht in die Aktion einbezogen waren �𝑂𝑂 � � 𝑂𝑂 � � Differenz zwischen der Experimentier- und der Kontrollgruppe nach Einsatz des Testfaktors Vernachlässigung von Störvariablen Unterstellung gleicher Ausgangslage NNaacchhhheerr--MMeessssuunngg mmiitt KKoonnttrroollllggrruuppppee ((EEAA--CCAA--TTyypp oohhnnee RRaannddoommiissiieerruunngg)) Diese Versuchsanordnung wird auch als Posttest-Only-Design with Nonequivalent Groups bezeichnet, da auf eine Randomisierung verzichtet wird. Schematisch handelt es sich um folgende Versuchsanordnung: EG: X 𝑂𝑂 � CG: 𝑂𝑂 � . Die Experimentiergruppe wird dem Testfaktor ausgesetzt, die Kontrollgruppe nicht. Die Messung der abhängigen Variablen erfolgt bei beiden Gruppen erst nach Durchführung des Experiments. Die Faktorwirkung resultiert als 𝑂𝑂 � � 𝑂𝑂 � . Aufgrund der fehlenden Randomisierung enthält die Faktorwirkung jedoch auch Störfaktoren, insb. <?page no="182"?> 182 Experimentelle Designs Gruppeneffekte und Mortalität (vgl. Campbell/ Stanley 1963, S. 182 f.). Tabelle 6.2 zeigt abschließend die wesentlichen Merkmale vorexperimenteller Versuchsanordnungen im Überblick. 33..33 EEcchhttee EExxppeerriimmeennttee Definition Echte Experimente (auch „formale“ oder „vollständige“ Experimente) erfüllen sämtliche Anforderungen an Experimente: Es erfolgt eine Veränderung der Experimentierfaktoren durch den Forscher, es werden Kontrollgruppen eingesetzt und die Gruppen werden nach dem Zufallsprinzip gebildet (Randomisierung). Zunächst sollen die Basisformen echter Experimente charakterisiert werden: Vorher-Nachher-Messung mit Kontrollgruppe, Nachher-Messung mit Kontrollgruppe (randomisiert), Solomon-Vier-Gruppen-Design. VVoorrhheerr--NNaacchhhheerr--MMeessssuunngg mmiitt KKoonnttrroollllggrruuppppee ((rraannddoommiissiieerrtteess EEBBAA--CCBBAA--DDeessiiggnn)) Beim EBA-CBA Experiment (Pretest-Posttest Control Group Design; Before-After with Control Group Design) handelt es sich um ein echtes Experiment, sofern eine Randomisierung vorgenommen wird. Die Experimentiergruppe wird dem experimentellen Stimulus ausgesetzt - z.B. dem zu testenden Werbespot -, die Kontrollgruppe nicht. Damit gilt: EG: �R� 𝑂𝑂 � X 𝑂𝑂 � CG: �R� 𝑂𝑂 � 𝑂𝑂 � . Die Faktorwirkung wird gemessen als ( 𝑂𝑂 � � 𝑂𝑂 � ) - ( 𝑂𝑂 � � 𝑂𝑂 � ). Dieses Design ist in der Lage, die meisten Störvariablen zu kontrollieren (vgl. Campbell/ Stanley 1963, S. 183 ff.). Der Auswahleffekt wird durch Randomisierung ausgeschaltet; für die übrigen Störvariablen gilt, dass sie sich gleichermaßen auf die Experimentier- und Kontrollgruppe niederschlagen. In der Experimentiergruppe werden die Faktorwirkung und die Störeinflüsse wirksam, in der Kontrollgruppe lediglich die Störeinflüsse: EG: 𝑂𝑂 � � 𝑂𝑂 � � X � Σ Störgrößen CG: 𝑂𝑂 � � 𝑂𝑂 � � Σ Störgrößen. Damit kann die Differenz ( 𝑂𝑂 � � 𝑂𝑂 � )-( 𝑂𝑂 � � 𝑂𝑂 � ) die Faktorwirkung isolieren. Einzige Störvariable, die in diesem Design nicht kontrolliert wird, ist der Pretesteffekt. Da die Randomisierung zur Kontrolle der Störgrößen in vielen Fällen ausreichend ist, kann jedoch zur Vermeidung des Pretesteffekts auf eine Vorher-Messung bei beiden Gruppen im Prinzip verzichtet werden. <?page no="183"?> Echte Experimente 183 NNaacchhhheerr--MMeessssuunngg mmiitt KKoonnttrroollllggrruuppppee ((rraannddoommiissiieerrtteess EEAA--CCAA--DDeessiiggnn)) Diese auch als Posttest-Only Control Group Design bekannte Versuchsanordnung beruht darauf, dass durch die vorgenommene Randomisierung die Ausgangslage bei Test- und Kontrollgruppe bei ausreichend großer Stichprobe als gleich angesehen werden kann. Dadurch kann die Vorher-Messung entfallen (vgl. Hüttner/ Schwarting 2002, S. 174). Das Versuchsdesign sieht dabei wie folgt aus: EG: �R� X 𝑂𝑂 � CG: �R� 𝑂𝑂 � . Die Faktorwirkung resultiert als ( 𝑂𝑂 � � 𝑂𝑂 � ). Bei gleicher Ausgangslage der beiden Gruppen ist die Faktorwirkung identisch mit der beim EBA-CBA-Typ; ein Pretesteffekt entsteht nicht. Bei geringer Stichprobe ist jedoch mit Auswahl- und Ausfalleffekten zu rechnen (vgl. Iacobucci/ Churchill 2010, S. 141). Aufgrund der Randomisierung wird zwar eine gleiche Ausgangslage unterstellt, wegen fehlender Vorher-Messung kann dies jedoch nicht überprüft werden. Darüber hinaus ist es nicht möglich, festzustellen, ob Verweigerer in der Testgruppe den Verweigerern in der Kontrollgruppe ähnlich sind. SSoolloommoonn--VViieerr--GGrruuppppeenn--DDeessiiggnn Das Solomon-Vier-Gruppen-Design entsteht dadurch, dass man die beiden oben dargestellten Versuchsanordnungen kombiniert. Der Versuchsaufbau sieht wie folgt aus (vgl. Campbell/ Stanley 1963, S. 194): EG I : �R� 𝑂𝑂 � X 𝑂𝑂 � CG I : �R� 𝑂𝑂 � 𝑂𝑂 � EG II : �R� X 𝑂𝑂 � CG II : �R� 𝑂𝑂 � . Es werden also zwei Testgruppen und zwei Kontrollgruppen gebildet; bei je einer Testgruppe und einer Kontrollgruppe erfolgt eine Vorher-Nachher-Messung, bei der jeweils anderen Test- und Kontrollgruppe lediglich eine Nachher-Messung. Im Vergleich zum randomisierten EBA-CBA-Design erlaubt diese Versuchsanordnung, auch den Pretesteffekt auszuschalten. Zur Bestimmung der Faktorwirkung werden folgende Überlegungen angestellt (vgl. Iacobucci/ Churchill 2010, S. 140): Aufgrund der Randomisierung kann davon ausgegangen werden, dass die Ausgangssituation aller vier Gruppen - bis auf zufällige Abweichungen - gleich ist. Sowohl für die zweite Testgruppe wie auch für die zweite Kontrollgruppe wird daher ein fiktiver Vorher-Messwert als Durchschnitt der Vorher-Messwerte in der ersten Test- und Kontrollgruppe unterstellt, d.h. 12 �𝑂𝑂 � � 𝑂𝑂 � � . Die „Faktorwirkungen“ bei den einzelnen Gruppen berechnen sich damit wie folgt: EG � : 𝑂𝑂 � � 𝑂𝑂 � CG � : 𝑂𝑂 � � 𝑂𝑂 � EG �� : 𝑂𝑂 � � �12 �𝑂𝑂 � � 𝑂𝑂 � �� <?page no="184"?> 184 Experimentelle Designs CG �� : 𝑂𝑂 � � �12 �𝑂𝑂 � � 𝑂𝑂 � ��. Die bereinigte Faktorwirkung ergibt sich demnach als Differenz aus den Faktorwirkungen in der zweiten Testgruppe EG �� und in der zweiten Kontrollgruppe CG �� : 𝑂𝑂 � � �12 �𝑂𝑂 � � 𝑂𝑂 � �� � �𝑂𝑂 � � 12 �𝑂𝑂 � � 𝑂𝑂 � �� � �𝑂𝑂 � � � 𝑂𝑂 � � und entspricht damit der Faktorwirkung im randomisierten EA-CA-Design, was aufgrund der oben getroffenen Annahme der A-priori-Gruppengleichheit auch zwangsläufig der Fall sein muss. Zusätzlich erlaubt dieses Testdesign jedoch auch die Ermittlung des Pretesteffekts als Differenz der partiellen Faktorwirkungen bei den beiden Experimentiergruppen: �𝑂𝑂 � � � 𝑂𝑂 � � � �𝑂𝑂 � � 12 �𝑂𝑂 � � 𝑂𝑂 � ��. Dieses Testdesign erlaubt die Ausschaltung praktisch sämtlicher Störeinflüsse sowie die Isolierung der einzelnen Effekte und kommt daher einer idealen Versuchsanordnung sehr nahe; seine Anwendung scheitert in der praktischen Marktforschung jedoch meist an dem sehr hohen zeitlichen und finanziellen Aufwand wie auch an dem großen erforderlichen Stichprobenumfang, da vier repräsentative Untersuchungsgruppen gebildet werden müssen. Tabelle 6.3 zeigt zusammenfassend die wesentlichen Merkmale der Basisvarianten echter Experimente. Da echte Experimente auf einer Randomisierung beruhen, d.h. einer Zufallsauswahl der Testeinheiten und der zufälligen Zuordnung der Untersuchungseinheiten zu den einzelnen Treatments, können die genannten experimentellen Designs statistisch abgesichert werden. Im Allgemeinen werden bei den einfacheren Designs statistische Tests zum Vergleich des Mittelwerts (bzw. des Anteilwerts) unabhängiger Stichproben verwendet; bei komplexeren Designs - z.B. dem Solomon-Vier-Gruppen-Design - können varianzanalytische Verfahren zur Anwendung kommen (zu den Einzelheiten vgl. Campbell/ Stanley 1963, Bailey 2008 sowie Abschnitt 3.4.3 in Teil 8). Die bisher erörterten experimentellen Anordnungen enthielten jeweils nur einen Testfaktor (Experimentiervariable) in einer einzigen Ausprägung. In vielen praktischen Fragestellungen ist es jedoch erforderlich, mehrere unterschiedliche Treatmentausprägungen (sog. Treatmentstufen) gegeneinander zu testen (z.B. die Wirkung unterschiedlicher Werbespots). Zudem ist es häufig erforderlich, unterschiedliche Experimentiervariablen - also Treatments - gleichzeitig zu testen, etwa unterschiedliche Preishöhen und unterschiedliche Platzierungen im Geschäft, sowie ggf. deren Interaktionseffekte, d.h. die Wechselwirkungen zwischen den untersuchten Treatments. Solche Designs gehen über die „klassischen“ Versuchsanordnungen hinaus, da sie mehrere Testfaktoren in verschiedenen Ausprägungen berücksichtigen; Standardformen solcher sog. erweiterter statistischer Experimente („Statistical Designs“) sind (vgl. Fantapié Altobelli 1998, S. 325): vollständiger Zufallsplan, zufälliger Blockplan, lateinisches Quadrat und faktorielle Pläne. <?page no="185"?> Echte Experimente 185 TTaabb.. 66..33: Charakterisierung der Basisvarianten echter Experimente Typ Beschreibung Beispiel Faktorwirkung Beurteilung Vorher-Nachher-Messung mit Kontrollgruppe Messung der Werte der abhängigen Variablen vor und nach Einsatz des Testfaktors in einer Testgruppe und in einer Kontrollgruppe, die nicht dem Einfluss des Testfaktors ausgesetzt ist. EG: �R� 𝑂𝑂 � X 𝑂𝑂 � CG: �R� 𝑂𝑂 � 𝑂𝑂 � Messung der Umsätze für ein bestimmtes Produkt in ausgewählten Einzelhandelsgeschäften vor und nach einer Preissenkung für das betreffende Produkt. Das Ergebnis wird verglichen mit dem Umsatz in Geschäften, in denen keine Preisaktion erfolgte. ( 𝑂𝑂 � � 𝑂𝑂 � )-( 𝑂𝑂 � � 𝑂𝑂 � ) Differenz zwischen den gemeinsamen Unterschieden in der Test- und der Kontrollgruppe Bis auf den Pretest-Effekt werden alle Störvariablen kontrolliert. Nachher-Messung mit Kontrollgruppe Messung der Werte der abhängigen Variablen in Test- und Kontrollgruppe nach Einsatz der unabhängigen Variablen EG: �R� X 𝑂𝑂 � CG: �R� 𝑂𝑂 � . Ziehung zweier Zufallsstichproben von Testgeschäften. In einer Gruppe wird eine Probeaktion durchgeführt, in der anderen nicht; anschließend werden die Umsatzzahlen verglichen. ( 𝑂𝑂 � � 𝑂𝑂 � ) Differenz zwischen den Messwerten in der Testgruppe und in der Kontrollgruppe Durch Randomisierung kann bei ausreichender Stichprobengröße gleiche Ausgangslage unterstellt werden, sodass eine Kontrolle der Störgrößen erfolgt. Der Pretesteffekt wird kontrolliert. Solomon-Vier-Gruppen-Design Messung der Werte der abhängigen Variablen vor und nach Einsatz des Testfaktors in je einer ersten Test- und Kontrollgruppe. Messung nur nach Einsatz des Testfaktors in je einer zweiten Test- und Kontrollgruppe. EG I : �R� 𝑂𝑂 � X 𝑂𝑂 � CG I : �R� 𝑂𝑂 � 𝑂𝑂 � EG II : �R� X 𝑂𝑂 � CG II : �R� 𝑂𝑂 � Siehe Beispiel zur Vorher-Nacher- Messung mit Kontrollgruppe. Bei zwei weiteren Stichproben von Geschäften erfolgt nur eine Messung danach, wobei eine Gruppe an der Preisaktion teilnimmt, die andere nicht. Faktorwirkung: ( 𝑂𝑂 � � 𝑂𝑂 � ) Pretest-Wirkung: �𝑂𝑂 � � 𝑂𝑂 � � � �𝑂𝑂 � � 12 �𝑂𝑂 � � 𝑂𝑂 � �� Ausschaltung sämtlicher Störeinflüsse Sehr aufwändiges Design, daher in der Praxis kaum angewendet <?page no="186"?> 186 Experimentelle Designs Charakteristisch für statistische Experimente ist die Tatsache, dass die Auswertung mittels Varianzanalyse erfolgt (vgl. die Ausführungen in Abschnitt 3.4.3 im 8. Teil). Hierbei ist zu unterscheiden, ob es sich um vollständige Designs handelt, bei denen sämtliche Merkmalskombinationen getestet werden (z.B. beim vollständigen Zufallsplan oder zufälligen Blockplan), oder aber um sog. reduzierte Designs, bei welchem nur diejenigen Kombinationen untersucht werden, die das vollständige Design möglichst gut repräsentieren (z.B. Lateinisches Quadrat). Letztere kommen mit einer deutlich geringeren Zahl an Testgruppen aus und sind damit weniger zeit- und kostenaufwändig, beinhalten aber einen gewissen Informationsverlust, da nicht alle Kombinationen untersucht werden und Interaktionseffekte damit nicht messbar sind. V Voollllssttäännddiiggeerr ZZuuffaallllssppllaann Beim vollständigen Zufallsplan wird ein Experimentierfaktor (Treatment) in verschiedenen Ausprägungen (Treatmentstufen) untersucht (vgl. Abb. 6.3). Der Störfaktor wird indirekt dadurch berücksichtigt, dass für die verschiedenen Treatments wiederholt Messungen (Replikationen) erfolgen, z.B. an unterschiedlichen Testeinheiten (Personen, Geschäfte, Zeitpunkte). Dadurch werden die Auswirkungen des Störfaktors ausgeglichen. Die Testeinheiten werden dabei zufällig den verschiedenen Treatmentstufen zugeordnet (Randomisierung). Beispiel 6.14: Es soll die Attraktivität von drei alternativen Verpackungen getestet werden (Treatmentstufen). Zu diesem Zweck werden im Rahmen eines Store-Tests sechs Tage lang (Replikationen) die alternativen Verpackungen in zufälliger zeitlicher Verteilung (Randomisierung) angeboten und die zugehörigen Absatzmengen erfasst. Das einfaktorielle Design hat bei 𝑠𝑠 Treatmentstufen und 𝑖𝑖 � 1, . . . , 𝑛𝑛 Replikationen folgendes Aussehen: EG � �𝑅𝑅� 𝑋𝑋 � 𝑂𝑂 � ⋮EG � �𝑅𝑅� 𝑋𝑋 � 𝑂𝑂 � ⋮EG � �𝑅𝑅� 𝑋𝑋 � 𝑂𝑂 � . Dabei bezeichnet 𝑦𝑦 �� den Messwert der 𝑘𝑘 -ten Ausprägung der Variablen bei Replikation 𝑖𝑖 , also z.B. den Messwert der Absatzmenge bei Verpackung 𝑘𝑘 am Tag 𝑖𝑖 . Replikationen Treatmentstufen 1 … k … s 1 y 11 … y 1k … y 1s i y i1 … y ik … y is n y n1 … y nk … y ns Spaltenmittel y ̄ 1 … y ̄ k … y ̄ s AAbbbb.. 66..33: Vollständiger Zufallsplan Messwerte der abhängigen Variablen <?page no="187"?> Echte Experimente 187 ZZuuffäälllliiggeerr BBlloocckkppllaann Beim vollständigen Zufallsplan wurden Störfaktoren wiederholt durch Replikationen nach dem Prinzip der Randomisierung berücksichtigt. Im Falle, dass eine bedeutsame Störgröße bekannt ist, kann jedoch dieser Störfaktor explizit in der Versuchsanordnung berücksichtigt werden, und zwar dadurch, dass nach den Ausprägungen der Störgröße Blöcke gebildet werden. Auf Replikationen kann somit verzichtet werden. Dabei werden in jedem Block sämtliche Treatments durchgeführt (vgl. Abb. 6.4). Varianzanalytisch können sowohl die Wirkung des Experimentierfaktors als auch der Einfluss der Blockzugehörigkeit erfasst werden (jedoch nicht deren Interaktion, vgl. Hüttner/ Schwarting 2002, S. 178). Blöcke Treatmentstufen Zeilenmittel 1 … k … s 1 y 11 … y 1k … y 1s y ̄ 1• l y l1 … y lk … y ls y ̄ l• m y m1 … y mk … y ms y ̄ m• Spaltenmittel y ̄ •1 … y ̄ •k … y ̄ •s y ̄ AAbbbb.. 66..44: : Zufälliger Blockplan Beispiel 6.15: Das Unternehmen vermutet, dass die Geschlechtszugehörigkeit den maßgeblichen Einfluss auf die wahrgenommene Attraktivität von Verpackungen hat. Aus diesem Grunde erfolgt im vorherigen Beispiel 5.14 eine Blockbildung nach dem Geschlecht der Untersuchungseinheiten. Die drei Verpackungen werden an einem bestimmten Tag je einer Teilstichprobe aus Männern und Frauen präsentiert. Replikationen sind nicht erforderlich, da andere Störgrößen als das Geschlecht annahmegemäß keine Rolle spielen. FFaakkttoorriieellllee PPlläännee Faktorielle Pläne erlauben die Untersuchung von mindestens zwei Testfaktoren (z.B. Verpackung und Produktplatzierung im Regal) sowie der Interaktionen zwischen ihnen. Voraussetzung sind verschiedene Messungen (Replikationen) für die einzelnen Treatment-Kombinationen. Abbildung 6.5 zeigt einen vollständigen bifaktoriellen Zufallsplan mit gleicher Anzahl an Replikationen �� � 1, … , �� . Beispiel 6.16: Neben der Attraktivität dreier alternativer Verpackungen soll auch die Wirksamkeit zweier alternativer Regalplatzierungen getestet werden. Diese 3 2 = 6 möglichen Faktorkombinationen werden im Rahmen eines Store-Tests in 6 aufeinander folgenden Tagen getestet (in zufälliger zeitlicher Verteilung). <?page no="188"?> 188 Experimentelle Designs Replikationen Treatmentstufen Faktor B 1 l m Treatmentstufen Faktor A 1 1 y 111 y 11l y 11m i y i11 y i1l y i1m n y n11 y n1l y n1m k 1 y 1k1 y 1kl y 1km i y ik1 y ikl y ikm n y nk1 y nkl y nkm s 1 y 1s1 y 1sl y 1sm i y is1 y isl y ism n y ns1 y nsl y nsm AAbbbb.. 66..55: : Vollständiger bifaktorieller Zufallsplan Der Vorteil mehrfaktorieller Designs liegt darin, dass nicht nur die Haupteffekte der Treatments gemessen werden können, sondern auch die Interaktionen zwischen ihnen. So kann in obigem Beispiel vermutet werden, dass die Wirkung einer Verpackung (auch) von der jeweiligen Platzierung abhängig ist und umgekehrt. Diese Versuchsanordnung erlaubt den Schluss, welche Kombination der beiden Faktoren vorzuziehen ist. Allerdings führt die Berücksichtigung mehrerer Testfaktoren in verschiedenen Ausprägungen sehr schnell zu einem sehr hohen Testaufwand. Aus diesem Grunde wurden sog. reduzierte Designs entwickelt, die den Testaufwand verringern. L Laatteeiinniisscchheess QQuuaaddrraatt Das Lateinische Quadrat ist ein spezielles, symmetrisches reduziertes Design, das für den Fall von genau drei Treatments konzipiert ist. Das Design ist anwendbar, wenn keine Interaktionseffekte zu erwarten, sondern nur Haupteffekte zu berücksichtigen sind. Beim Lateinischen Quadrat können bis zu zwei Störfaktoren gleichzeitig berücksichtigt werden (z.B. Art des Geschäfts und Tageszeit). In diesem Fall wird aber nur ein Treatment einbezogen. Die Treatments - mit lateinischen Großbuchstaben bezeichnet - werden dabei so zugeteilt, dass sie in jeder Zeile und in jeder Spalte nur einmal vorkommen; damit kann der erforderliche Stichprobenumfang in Grenzen gehalten werden (vgl. Abb. 6.6). Zu beachten ist, dass die Zahl der Ausprägungen bei den Treatments bzw. Störvariablen gleich sein muss. Störgröße T Störgröße N 1 2 3 1 A B C 2 B C A 3 C A B AAbbbb.. 66..66: : Lateinisches Quadrat Treatmentstufen des Testfaktors Messwerte der abhängigen Variablen <?page no="189"?> Echte Experimente 189 Beispiel 6.17: Es wird vermutet, dass die wahrgenommene Attraktivität von Verpackungen vom Geschäftstyp und vom Alter der Testpersonen maßgeblich beeinflusst wird (Störfaktoren). Die drei Verpackungen A, B und C sollen daher in drei Geschäftstypen (Discounter, Supermarkt, Spezialitätengeschäft) und in drei Altersklassen (16-35; 36-55; 56 und älter) getestet werden. Es gilt also: Treatment: Verpackung A, B, C Störgröße N: Geschäftstyp I, II, III Störgröße Z: Altersklasse 1, 2, 3 Bei einem vollständigen faktoriellen Design wären 3 3 3 = 27 Kombinationen zu testen. Dies bedeutet, dass 27 repräsentative Testgruppen zu bilden wären. Kann jedoch davon ausgegangen werden, dass Interaktionseffekte vernachlässigbar sind, kann ein reduziertes Design in Form eines Lateinischen Quadrats herangezogen werden. Das Design des Lateinischen Quadrats erlaubt die Beschränkung auf nur 9 Stimuli und damit 9 Testgruppen, was den erforderlichen Stichprobenumfang erheblich reduziert. Aus den 27 möglichen Stimuli wird folgendes Set ausgewählt: A I 1 B I 1 C I 1 A I 1 A II 1 B II 1 C II 1 B II 1 A III 1 B III 1 C III 1 C III 1 A I 2 B I 2 C I 2 C I 2 A II 2 B II 2 C II 2 A II 2 A III 2 B III 2 C III 2 B III 2 A I 3 B I 3 C I 3 B I 3 A II 3 B II 3 C II 3 C II 3 A III 3 B III 3 C III 3 A III 3 Dieses Set an Stimuli erfüllt die Bedingung, dass alle Testfaktoren je einmal mit den einzelnen Ausprägungen der Störgrößen kombiniert werden, sodass die Haupteffekte errechnet werden können. Neben den hier dargestellten Standardformen existiert eine ganze Reihe weiterer Versuchsanordnungen, z.B. das griechisch-lateinische Quadrat, mit dem 4 Faktoren berücksichtigt werden können (vgl. Döring/ Bortz 2016, S. 720 ff.). Für weitere reduzierte Designs soll an dieser Stelle auf die Spezialliteratur verwiesen werden. SSttiimmuullii bbeeiimm VVoollllssttäännddiiggeenn DDeessiiggnn SSttiimmuullii bbeeiimm LLaatteeiinniisscchheenn QQuuaaddrraatt <?page no="190"?> 190 Experimentelle Designs Eine besondere Form experimenteller Anordnungen sind sog. faktorielle Surveys, zu denen die Conjointanalyse und die Vignettenanalyse zählen. Die Conjointanalyse ist ein weit verbreitetes Verfahren zur Messung von Präferenzen (vgl. ausführlich Abschnitt 3.5.1 sowie Fiedler et al. 2017). Hierzu werden den Testpersonen Stimuli in Form alternativer Beschreibungen der zu bewertenden Objekte vorgestellt (z.B. alternative Produktvarianten). Eine exemplarische Fragestellung könnte lauten: „Welche Eigenschaften von Produkt X sind in welcher Form zu verändern, um es für eine jüngere Zielgruppe attraktiv zu machen? “ Die Beschreibungen entstehen dabei als Kombinationen von vorab festgelegten Ausprägungen der relevanten Produktmerkmale. Die Probanden bringen die vorgelegten Stimuli gemäß ihren Präferenzen in eine Rangfolge. Aus den Globalurteilen bzgl. der zu bewertenden Produktvarianten wird auf statistischem Wege auf die relative Bedeutung der einzelnen Produkteigenschaften und auf Präferenzen bzgl. einzelner Eigenschaftsausprägungen geschlossen. Dabei können auch Unterschiede zwischen (Ziel-)Gruppen aufgedeckt werden. Ein Anwendungsbeispiel aus der Marktforschungspraxis findet sich in Abschnitt 4.4 des 10. Teils. Im Rahmen der Vignettenanalyse werden typischerweise keine Präferenzen, sondern Einstellungen und Meinungen erhoben. Hierzu werden den Probanden Stimuli in Form sog. Vignetten vorgelegt, welche alternative Beschreibungen eines Objekts (z.B. einer Person oder einer bestimmten Situation) enthalten, oft in Form einer Kurzgeschichte. Die Stimuli entstehen - ähnlich wie bei der Conjointanalyse - durch systematische Variation von Ausprägungen der erhebungsrelevanten Merkmale. Im Gegensatz zur Conjointanalyse werden die Stimuli jedoch von den Probanden nicht in eine Rangfolge gebracht, sondern anhand einer Ratingskala bewertet. Auf statistischem Wege wird anschließend auf die Bedeutung der einzelnen Merkmale für die Bewertung geschlossen. Eine exemplarische Fragestellung könnte lauten: Welche Rolle spielen Merkmale wie Ethnie, Geschlecht und Rollenbesetzung der Schauspieler für die Bewertung einer Filmproduktion durch die Zuschauer? Auch bei der Vignettenanalyse lassen sich Unterschiede zwischen (Ziel-)Gruppen aufdecken. Die Vignettenanalyse wird ausführlich und mit zahlreichen Beispielen u.a. in Rost 2018 beschrieben. 33..44 QQuuaassii--EExxppeerriimmeennttee Definition Als Quasi-Experimente werden Versuchsanordnungen bezeichnet, für die eine oder mehrere der Bedingungen für echte Experimente fehlen, d.h. für die gilt: Der Experimentierfaktor wird nicht unter kontrollierten Bedingungen variiert, oder es erfolgt keine Randomisierung, oder es wird keine Kontrollgruppe herangezogen. <?page no="191"?> Quasi-Experimente 191 TTaabb.. 66..44: : Charakterisierung ausgewählter quasi-experimenteller Designs Typ Beschreibung Beispiel Faktorwirkung Beurteilung Vorher-Nachher-Messung mit unterschiedlichen Samples Messung der Werte der abhängigen Variablen zeitlich vor Einsatz der unabhängigen Variablen in einer Testgruppe und zeitlich nach dem Einsatz in einer anderen Testgruppe (bei zwei repräsentativen Querschnitten) EG I : R� 𝑂𝑂 � CG I : �R� X 𝑂𝑂 � . Tendenzumfrage, d.h. Befragung von zwei unterschiedlichen repräsentativen Querschnitten deutscher Bürger mit gleichem Fragenwortlaut, etwa Parteienpräferenz vor und nach einer Fernsehdiskussion führender Politiker aller Parteien. ( 𝑂𝑂 � � 𝑂𝑂 � ) Differenz zwischen der Kontrollgruppe im Zeitpunkt 1 und der Experimentiergruppe im Zeitpunkt 0 Zeitliche Entwicklungseffekte sind nicht messbar Keine echte Kontrollgruppe Pretesteffekt wird ausgeschaltet Kontrollgruppendesign ohne Randomisierung Messung der Werte der abhängigen Variablen vor und nach Einsatz des Testfaktors bei der Experimentiergruppe, Vorher- und Nachher-Messung in der Kontrollgruppe EG: 𝑂𝑂 � X 𝑂𝑂 � CG: 𝑂𝑂 � 𝑂𝑂 � Messung der Markenbekanntheit in einer Experimentiergruppe vor und nach einer Werbekampagne Das Ergebnis wird verglichen mit der Änderung der Markenbekanntheit in der Kontrollgruppe ( 𝑂𝑂 � � 𝑂𝑂 � )-( 𝑂𝑂 � � 𝑂𝑂 � ) Differenz zwischen den gemeinsamen Unterschieden in der Experimentier- und der Kontrollgruppe Wirkung des Testfaktors in der Experimentiergruppe wird bereinigt um Entwicklungseffekte in der Kontrollgruppe Gute Kontrolle der meisten Störvariablen Zeitreihendesign (Grundform) Mehrmalige Messung der Werte einer abhängigen Variablen in einer Testgruppe in zeitgleichen Abständen vor und nach Einsatz eines Testfaktors EG: 𝑂𝑂 � 𝑂𝑂 � X 𝑂𝑂 � 𝑂𝑂 � . Entwicklung des Marktanteils konkurrierender Marken im Rahmen einer Panelerhebung vor und nach einer Sonderpreisaktion im Handel Einsatz von Verfahren der Zeitreihenanalyse Viele Störgrößen können nicht kontrolliert werden, insb. externe zeitliche Einflüsse, Pretesteffekte Bei Heranziehung einer Kontrollgruppe kann mittels Matching die Ausgangslage der Testeinheiten angeglichen und damit die Validität erhöht werden <?page no="192"?> 192 Experimentelle Designs Echte Experimente gemäß Abschnitt 3.3 sind dadurch charakterisiert, dass der Forscher die Experimentierfaktoren verändert, Kontrollgruppen einsetzt und die Gruppen nach dem Zufallsprinzip bildet. In der Praxis ist es jedoch häufig so, dass keine vollständige Kontrolle über die Versuchsbedingungen gewonnen werden kann. Die Grenzen zwischen echten Experimenten und Quasi-Experimenten sind dabei häufig fließend; letztlich werden die echten Experimente durch Verzicht auf Randomisierung zu Quasi-Experimenten. Im Folgenden sollen einige Grundformen quasi-experimenteller Untersuchungen dargestellt werden (vgl. Campbell/ Stanley 1966, S. 210 ff.): Vorher-Nachher-Messung mit unterschiedlichen Samples, Kontrollgruppen-Anordnung ohne Randomisierung sowie Zeitreihendesigns. Weitere Designs finden sich bei Cook/ Campbell 1979 sowie Cook/ Campbell/ Peracchio 1990. Tabelle 6.4 zeigt die nachfolgend dargestellten Grundformen quasi-experimenteller Designs im Überblick. VVoorrhheerr--NNaacchhhheerr--MMeessssuunngg mmiitt uunntteerrsscchhiieeddlliicchheenn SSaammpplleess ((EEBB--CCAA--TTyypp)) Dieses Untersuchungsdesign wird den quasi-experimentellen Designs zugeordnet, obwohl eine Randomisierung vorgenommen wird. Der Grund ist darin zu sehen, dass die Messungen an zwei verschiedenen Gruppen erfolgen, ohne dass eine „echte“ Kontrollgruppe existiert, da eine Vorhermessung bei der „Kontrollgruppe“ nicht vorgenommen wird. Das Design ist wie folgt: EG I : �R� 𝑂𝑂 � CG I : �R� X 𝑂𝑂 � . Die Faktorwirkung wird gemessen als 𝑂𝑂 � � 𝑂𝑂 � . Beispiel 6.18: Vor Schaltung einer Werbekampagne wird eine repräsentative Stichprobe gezogen und bei den Testpersonen wird die Markenbekanntheit des betreffenden Produkts erfasst. Nach Ablauf der Kampagne wird bei einer zweiten repräsentativen Stichprobe wiederum die Markenbekanntheit erhoben. Die Veränderung der Markenbekanntheit wird auf den Einsatz der Werbekampagne zurückgeführt. Vorteilhaft ist an diesem Design die Vermeidung des Pretesteffekts; allerdings sind zeitliche Entwicklungseffekte, d.h. Störfaktoren, die sich zwischen den beiden Messzeitpunkten eingestellt haben, nicht erfassbar. Dieses Design ist typisch für sog. Wellenerhebungen, sofern im Rahmen solcher Studien Kausalhypothesen untersucht werden, da dieselben Erhebungsinhalte in regelmäßigen Abständen bei unterschiedlichen repräsentativen Querschnitten erhoben werden. K Koonnttrroollllggrruuppppeennaannddeessiiggnn oohhnnee RRaannddoommiissiieerruunngg ((EEBBAA--CCBBAA--TTyypp)) Der quasi-experimentelle Charakter dieser Versuchsanordnung entsteht dann, wenn beim Design „Vorher-Nachher-Messung mit Kontrollgruppe“ auf eine Randomisierung verzichtet wird; aus diesem Grunde findet sich dieses Design in der Literatur auch unter dem Begriff Nonequivalent Control Group Design. <?page no="193"?> Quasi-Experimente 193 Bei dieser Versuchsanordnung werden eine Testgruppe und eine Kontrollgruppe eingesetzt. Vor und nach Einsatz des Experimentierfaktors bei der Testgruppe werden bei beiden Gruppen Messungen vorgenommen; dadurch können zum einen Entwicklungseffekte ausgeschaltet, zum anderen kann eine evtl. vorhandene A-priori-Unterschiedlichkeit der Gruppen sichtbar gemacht werden. Z Zeeiittrreeiihheennddeessiiggnn Im Rahmen eines Zeitreihendesigns werden wie bei der Zeitreihenanalyse Beobachtungswerte der interessierenden abhängigen Variablen in gleichbleibenden Abständen erhoben, wie es beispielsweise im Rahmen von Panelerhebungen der Fall ist (vgl. die Ausführungen in Teil 5). Anders als bei herkömmlichen Zeitreihenanalysen wird jedoch ein Experimentierfaktor eingeführt, d.h. es wird die Entwicklung der abhängigen Variablen im Zeitablauf vor und nach Einsatz eines Testfaktors betrachtet. Das Design hat in der Grundform (z.B. bei Zugrundelegen von vier Perioden) folgendes Aussehen: EG: 𝑂𝑂 � 𝑂𝑂 � X 𝑂𝑂 � 𝑂𝑂 � . Der quasi-experimentelle Charakter der Versuchsanordnung resultiert daraus, dass auf eine Randomisierung und i.d.R. auch auf den Einsatz einer Kontrollgruppe verzichtet wird. Eine zumindest teilweise Kontrolle von Störfaktoren erfolgt jedoch dadurch, dass vor und nach Einsatz des Testfaktors regelmäßige Messungen vorgenommen werden, sodass davon ausgegangen werden kann, dass viele Störfaktoren sich auf alle Messwerte auswirken, ein Trendbruch also auf den Einsatz des Testfaktors zurückzuführen ist. Im Gegensatz zu den bisherigen Designs kann die Faktorwirkung nicht durch Differenzbildung ermittelt werden; vielmehr ist es erforderlich, mit Hilfe der verschiedenen Verfahren der Zeitreihenanalyse den Zeitreiheneffekt (z.B. Trend, Saison) von der Wirkung des Testfaktors zu isolieren. Zu dieser Klasse von Quasi-Experimenten können Panelerhebungen gerechnet werden, sofern die Forschungsanordnung des Panels durch möglichst umfassende Kontrolle der Untersuchungssituation experimentellen Charakter gewinnt (vgl. Böhler et al. 2021, S. 50 f.). Beispielsweise kann die Wirkung einer Sonderpreisaktion oder einer Verkaufsförderungsmaßnahme auf die Absatzmenge erfasst werden. Weiterführende Literatur Bailey, R.A. (2008): Design of Comparative Experiments, Series: Cambridge Series in Statistical and Probabilistic Mathematics (25), Oxford. Campbell, D.T., Stanley, J.C. (1966): Experimental and Quasi-Experimental Designs for Research, Boston. Cook, T.D., Campbell, D.T., Peracchio, L. (1990): Quasi Experimentation, in: Dunnette, M.D., Hough, L.M. (eds.): Handbook of Industrial and Organizational Psychology, 1, Palo Alto, 491-576. Ghosh, S., Rao, C.R. (eds.) (1996): Design and Analysis of Experiments, Handbook of Statistics, 13, North-Holland. Sarris, V. (1992): Methodologische Grundlagen der Experimentalpsychologie. Bd. 2: Versuchsplanung und Stadien des psychologischen Experiments, München. <?page no="195"?> TTeeiill 77: : AAuusswwaahhll ddeerr EErrhheebbuunnggsseeiinnhheeiitteenn Die Auswahl der Erhebungseinheiten umfasst zunächst die Entscheidung zwischen einer Voll- und einer Teilerhebung; im Falle einer Teilerhebung ist darüber hinaus der Auswahlplan festzulegen, d.h. die Art und Weise, wie aus einer Grundgesamtheit eine Stichprobe zu gewinnen ist. 11 V Voolllleerrhheebbuunngg vvss.. TTeeiilleerrhheebbuunngg Sollen Aussagen über eine größere Anzahl von Untersuchungseinheiten getroffen werden, so kommen prinzipiell zwei Vorgehensweisen in Frage: Vollerhebung und Teilerhebung. Definition Im Rahmen einer Vollerhebung (Zensus) werden sämtliche in Frage kommenden Untersuchungseinheiten in die Erhebung einbezogen (z.B. bei einer Volkszählung). Eine Teilerhebung beinhaltet die Einbeziehung lediglich eines Ausschnitts der Grundgesamtheit, der sog. Stichprobe (Sample), in die Untersuchung. Eine Vollerhebung kommt in der Marktforschung nur in Ausnahmefällen vor, etwa im Rahmen von Händler- oder Herstellerbefragungen, wenn also die Grundgesamtheit zahlenmäßig begrenzt ist. In den meisten Fällen ist die Grundgesamtheit zu umfangreich oder aber die Anzahl der zu erhebenden Merkmale ist zu groß, sodass eine Vollerhebung aus zeitlichen und finanziellen Gründen nicht möglich oder nicht sinnvoll ist. Den Normalfall in der Marktforschung bildet daher die Teilerhebung. Dabei sollen die Merkmalsträger so ausgewählt werden, dass sie hinsichtlich der Untersuchungsmerkmale repräsentativ für die Grundgesamtheit sind und somit ein sog. Inferenzbzw. Repräsentationsschluss von der Stichprobe auf die Grundgesamtheit möglich wird. Dies beinhaltet, dass die Ergebnisse aus der Stichprobe auf die Grundgesamtheit übertragen werden können. Voraussetzung hierfür ist eine Strukturgleichheit (Isomorphie) zwischen Stichprobe und Grundgesamtheit, d.h. die in der übergeordneten Grundgesamtheit bestehenden Relationen müssen sich in der Stichprobe wiederfinden. Im Vergleich zu einer Vollerhebung weist eine Teilerhebung folgende Vorteile auf (vgl. Böhler et al. 2021, S. 132 f.; Malhotra 2019, S. 256): Eine Teilerhebung ist weniger zeit- und kostenintensiv als eine Vollerhebung, da Feldarbeit und Auswertung eine geringere Fallzahl betreffen. Bei einer Teilerhebung ist ein geringerer systematischer Fehler zu erwarten (vgl. die Ausführungen in Kapitel 4 in Teil 3), da sie einen geringeren personellen Stab benötigt, der aber dafür besser geschult, gesteuert und kontrolliert werden kann. Dadurch erhält man genauere Ergebnisse als bei einer Vollerhebung. <?page no="196"?> 196 Vollerhebung vs. Teilerhebung Eine Teilerhebung ist häufig organisatorisch oder technisch nicht durchführbar (z.B. wenn nicht alle Elemente der Grundgesamtheit bekannt sind oder aber aufgrund personeller oder finanzieller Restriktionen). Eine Teilerhebung ist die einzige Möglichkeit, wenn die Untersuchungseinheiten im Rahmen der Erhebung zerstört werden müssen (z.B. im Rahmen von Qualitätskontrollen, Crash-Tests u.Ä.). Vorteilhaft ist an einer Vollerhebung das Fehlen eines Zufallsfehlers. Der einer Vollerhebung inhärente systematische Fehler führt allerdings u.U. dazu, dass zur Überprüfung der Genauigkeit einer Volkszählung flankierend Stichprobenerhebungen durchgeführt werden müssen. Schließlich ist eine Teilerhebung zwingend notwendig, wenn eine besondere Dringlichkeit herrscht oder aber wenn ein sog. Testeffekt zu befürchten ist, wenn also bei wiederholter Befragung unterschiedliche Personenkreise zu befragen sind, um Lerneffekte zu vermeiden. <?page no="197"?> 22 FFeessttlleegguunngg ddeess AAuusswwaahhllppllaannss 22..11 EElleemmeennttee eeiinneess AAuusswwaahhllppllaannss Wird eine Teilerhebung durchgeführt, so ist ein Auswahlplan zu erstellen, im Rahmen dessen festgelegt wird, in welcher Art und Weise die Erhebungseinheiten auszuwählen sind. Abbildung 7.1 zeigt die Arbeitsschritte zur Festlegung eines Auswahlplans im Überblick. AAbbbb.. 77..11: : Arbeitsschritte zur Festlegung eines Auswahlplans Die erste im Rahmen eines Auswahlplans interessierende Fragestellung ist der Kreis der Untersuchungseinheiten, bei welchen die interessierenden Merkmale erfasst werden sollen. Die hiermit angesprochene Frage der Abgrenzung der Grundgesamtheit setzt die Angabe der Erhebungseinheiten und der Auswahleinheiten wie auch ihre Abgrenzung nach regionalen und zeitlichen Gesichtspunkten voraus. Definition Eine Grundgesamtheit ist die Gesamtheit der Erhebungseinheiten (Untersuchungsobjekte bzw. Merkmalsträger), für welche im Rahmen der Erhebung Aussagen gewonnen werden sollen. Je nach Fragestellung handelt es sich um Personen, Haushalte, Unternehmen, Handelsgeschäfte usw. Lautet das Forschungsproblem etwa „Ermittlung der Einstellung der Zielgruppe(n) zu Produkten der Marke X“, so kommen z.B. folgende alternative Erhebungseinheiten in Frage: alle Personen über 14 Jahren, in Privathaushalten lebende Personen über 14 Jahren, in Privathaushalten lebende Personen über 14 Jahren, die Produkte aus der Produktkategorie mindestens einmal genutzt haben, in Privathaushalten lebende Personen über 14 Jahre, die Marke X mindestens einmal genutzt haben. Festlegung von Auswahlprinzip, Auswahlverfahren und Auswahltechnik Bestimmung des Stichprobenumfangs Bestimmung der Erhebungsgesamtheit Abgrenzung der Grundgesamtheit <?page no="198"?> 198 Festlegung des Auswahlplans Definition Eine Auswahleinheit ist eine Einheit, welche auf einer bestimmten Stufe des Auswahlprozesses selektiert werden kann. Bei einstufigen Auswahlverfahren sind Auswahleinheiten mit den Erhebungseinheiten identisch; bei mehrstufigen Auswahlverfahren entsprechen sie den Erhebungseinheiten erst auf der letzten Stufe. Beispiel 7.1: Im Rahmen einer Händlerbefragung sollen die Mitglieder der Einkaufsabteilung der sog. Key Accounts befragt werden, d.h. derjenigen Handelsunternehmen, die für den Hersteller einen bedeutenden vordefinierten Umsatzanteil erzielen (Erhebungseinheiten). In einer ersten Stufe entsprechen die Auswahleinheiten den Key Accounts als Ganzes. In einer zweiten Stufe werden innerhalb der Key Accounts die Mitglieder der Einkaufsabteilung als Auswahleinheiten bestimmt. Zur Abgrenzung der Grundgesamtheit sind darüber hinaus das Untersuchungsgebiet (z.B. Deutschland, Deutschland ohne Inseln u.Ä.) sowie der Untersuchungszeitraum (z.B. 1.1.-31.1.2023) festzulegen. Definition Unter einer Erhebungsgesamtheit (auch: Auswahlbasis oder Auswahlgrundlage) versteht man eine bestimmte Abbildung bzw. Zusammenstellung der Grundgesamtheit, aus der die Erhebungseinheiten auszuwählen sind. Beispiele für Erhebungsgesamtheiten sind Adressverzeichnisse, Telefonbücher, Karteien und ähnliche Auflistungen. Zu beachten ist, dass Grundgesamtheit und Erhebungsgesamtheit nicht unbedingt übereinstimmen müssen. So sind Verzeichnisse häufig veraltet, weil aktuelle Sterbefälle, Umzüge oder Abwanderungen (noch) nicht enthalten sind; Telefonverzeichnisse beschränken die Grundgesamtheit der Besitzer eines Telefonanschlusses auf solche, die erstens einen Festnetzanschluss haben (d.h. Telefonkunden, die ausschließlich mobil telefonieren, sind nicht erfasst) und zweitens über eine öffentlich zugängliche Telefonnummer (d.h. keine Geheimnummer) verfügen. Zudem sind manche Verzeichnisse (z.B. Adressverzeichnisse) oftmals gar nicht erst zugänglich. Die Beispiele machen deutlich, dass die Erhebungsgesamtheit möglichst stark mit der Grundgesamtheit übereinstimmen muss, damit die Repräsentativität der Erhebung nicht in Frage gestellt wird. Insbesondere darf nicht vorkommen, dass bestimmte Teile der Grundgesamtheit in der Erhebungsgesamtheit systematisch nicht enthalten sind, da die Ergebnisse der Untersuchung dadurch nicht auf die Grundgesamtheit übertragbar sind. Der Bestimmung des Stichprobenumfangs kommt insofern eine große Bedeutung zu, als von der Stichprobengröße die Genauigkeit der Ergebnisse, aber auch die Kosten der Erhebung wesentlich abhängen: So ist bei zunehmendem Stichprobenumfang - Zufallsauswahl vorausgesetzt - der Stichprobenfehler geringer, andererseits steigen aber auch die Erhebungskosten. Die Bestimmung des Stichprobenumfangs wird in Abschnitt 2.5 behandelt. <?page no="199"?> Elemente eines Auswahlplans 199 Im nächsten Schritt sind Auswahlprinzip, Auswahlverfahren und Auswahltechnik festzulegen. Genau genommen sind - wie in Abb. 7.1 dargestellt - diese Entscheidungen in Verbindung mit der Bestimmung des Stichprobenumfangs zu treffen, da z.B. das Auswahlverfahren Einfluss auf den Stichprobenfehler bzw. den erforderlichen Stichprobenumfang hat. Definition Das Auswahlprinzip beinhaltet die Entscheidung darüber, ob eine Teilerhebung nach dem Zufallsprinzip erfolgen soll oder nicht. Verfahren der nichtzufälligen Auswahl beinhalten die willkürliche Auswahl, bei welcher eine Repräsentativität gar nicht erst angestrebt wird, und Verfahren der bewussten Auswahl, bei denen versucht wird, Repräsentativität dadurch zu erzielen, dass bestimmte Elemente der Grundgesamtheit gezielt (nach subjektivem Ermessen des Forschers) in die Stichprobe gelangen. Varianten der bewussten Auswahl sind die Quotenauswahl und die Konzentrationsauswahl. AAbbbb.. 77..22: : Gebräuchliche Auswahlverfahren in der Marktforschung Im Rahmen der Zufallsauswahl erfolgt die Auswahl der Untersuchungseinheiten nach einem Zufallsprozess; sämtliche Elemente der Grundgesamtheit haben eine angebbare, von Null verschiedene Wahrscheinlichkeit, in die Stichprobe zu gelangen. Damit wird der (statistische) Fehler berechenbar. Entscheidet sich der Forscher für eine Zufallsauswahl, ist zusätzlich über die Auswahltechnik zu entscheiden, d.h. die Art und Weise, wie der Zufallsprozess generiert werden soll (z.B. mittels Zufallszahlengenerator). Abbildung 7.2 zeigt die Auswahlverfahren im Überblick; eine ausführliche Darstellung der Verfahren erfolgt in den Abschnitten 2.2 und 2.3. Uneingeschränkte Zufallsstichprobe Geschichtete Auswahl Klumpenauswahl Mehrstufige Auswahlverfahren Zufallsauswahl Willkürliche Auswahl Bewusste Auswahl AAuusswwaahhllvveerrffaahhrreenn Vollerhebung Nichtzufällige Auswahl Teilerhebung Quotenauswahl Auswahl nach dem Konzentrationsprinzip <?page no="200"?> 200 Festlegung des Auswahlplans Im letzten Schritt erfolgt schließlich die konkrete Stichprobenziehung, d.h. die Bestimmung der Erhebungseinheiten unter Anwendung eines vorgegebenen Verfahrens und ggf. unter Einsatz einer bestimmten Technik. Dazu gehört auch die Festlegung, wie mit fehlenden Erhebungseinheiten (z.B.: Person nicht mehr gemeldet/ nicht zu Hause angetroffen/ unbekannt usw.) umzugehen ist. In jedem Falle führen vermehrte Ausfälle, dass die Repräsentativität gefährdet ist, sodass genaue Regeln zu formulieren sind. Dies gilt insbesondere dann, wenn die Ausfälle systematisch sind, also bestimmte Subgruppen der Grundgesamtheit vermehrt betroffen sind. 22..22 VVeerrffaahhrreenn ddeerr nniicchhttzzuuffäälllliiggeenn AAuusswwaahhll Bei Verfahren der nichtzufälligen Auswahl wird auf einen Zufallsmechanismus bei der Stichprobenziehung verzichtet; dadurch ist der Zufallsfehler nicht berechenbar. Zur nichtzufälligen Auswahl gehören die willkürliche Auswahl sowie Verfahren der bewussten Auswahl. WWiillllkküürrlliicchhee AAuusswwaahhll Definition Der willkürlichen Auswahl (convenience sample) liegt kein expliziter und strukturierter Auswahlplan zugrunde. Die Merkmalsträger werden aufs Geratewohl ausgewählt. In der Regel werden Personen ausgewählt, welche besonders leicht erreichbar sind (z.B. Befragung auf dem städtischen Marktplatz, auf welchem je nach Tageszeit überwiegend z.B. Schüler, Berufstätige, Einkaufende oder Touristen anzutreffen sind; Befragung von Bekannten). Eine derartige Vorgehensweise führt im Regelfall zu verzerrten Ergebnissen, ein Repräsentationsschluss ist nicht möglich. Wegen des geringen zeitlichen und finanziellen Aufwands wird eine derartige Vorgehensweise in der Praxis trotzdem mitunter durchgeführt, etwa bei Blitzumfragen. Q Quuootteennaauusswwaahhll Definition Im Rahmen einer Quotenauswahl wird die Stichprobe so erzeugt, dass die Verteilungen (i.S. relativer Häufigkeiten) bestimmter erhebungsrelevanter Merkmale in der Stichprobe denjenigen in der Grundgesamtheit entsprechen. Als erhebungsrelevante Merkmale werden dabei soziodemographische Variablen wie Geschlecht, Alter, Familienstand, Beruf etc. herangezogen, die leicht erhebbar sind und deren Verteilungen in der Grundgesamtheit aus der amtlichen Statistik zu entnehmen sind. Ist z.B. für die Grundgesamtheit bekannt, dass der Anteil der über 60-jährigen 32% beträgt, so werden bei einer Stichprobe von 100 Einheiten 32 Personen über 60 Jahre einbezogen. Jeder Interviewer erhält dann auf der Basis des Quotenplans eine Quotenanweisung, die er zu erfüllen hat; auf der Grundlage dieser Quotenanweisung kann der Interviewer die zu befragenden Personen nach eigenem Ermessen aussuchen. Tabelle 7.1 zeigt ein Beispiel für eine Quotenstichprobe. <?page no="201"?> Verfahren der nichtzufälligen Auswahl 201 TTaabb.. 77..11: : Beispiel für eine Quotenstichprobe (Quelle: in Anlehnung an Sander 2019, S. 154) Quotierungsmerkmale Grundgesamtheit (N=100.000) Stichprobe (n=500) Quotenanweisung für einen Interviewer (n=20) Geschlecht weiblich 60.000 300 [12] 1 2 3 4 5 6 7 8 9 10 11 12 männlich 40.000 200 [ 8] 1 2 3 4 5 6 7 8 Alter 16 - 25 Jahre 10.000 50 [ 2] 1 2 26 - 35 Jahre 15.000 75 [ 3] 1 2 3 36 - 45 Jahre 30.000 150 [ 6] 1 2 3 4 5 6 46 - 55 Jahre 20.000 100 [ 4] 1 2 3 4 > 55 Jahre 25.000 125 [ 5] 1 2 3 4 5 Wohnort Stadtteil A 30.000 150 [ 6] 1 2 3 4 5 6 Stadtteil B 50.000 250 [10] 1 2 3 4 5 6 7 8 9 10 Stadtteil C 20.000 100 [ 4] 1 2 3 4 Die Quotenauswahl wird in der Marktforschung sehr häufig angewendet, da sie einfach umzusetzen ist und insgesamt gute Ergebnisse liefert. Zwar ist eine statistische Fehlerberechnung nicht möglich, da es sich um ein bewusstes Auswahlverfahren handelt. Dennoch kann die Güte der Stichprobe nachträglich auf der Grundlage der Verteilungen jener Merkmale beurteilt werden, die bei der Stichprobenziehung nicht quotiert wurden. Die Verteilungen dieser Merkmale in der Stichprobe werden mit den (aus der Bevölkerungsstatistik bekannten) Verteilungen in der Grundgesamtkeit verglichen. Wurden beispielsweise für eine Quotenstichprobe wie im Beispiel der Tab. 7.1 die Merkmale Geschlecht, Einkommen und Wohnortgröße verwendet, können weitere soziodemographischen Merkmale wie Alter, Schulbildung u.ä. herangezogen werden, um zu überprüfen, ob die Verteilungen dieser Merkmale in der Stichprobe den zugehörigen Verteilungen in der Grundgesamtheit entsprechen. Ist dies der Fall, so kann auf eine hinreichende Repräsentativität der Stichprobe geschlossen werden, wenn auch nicht im statistischen Sinn. Tabelle 7.2 stellt die wesentlichen Vor- und Nachteile der Quotenauswahl im Überblick dar (zu den Vor- und Nachteilen vgl. insb. Kellerer 1963, S. 196 ff.; Hüttner/ Schwarting 2002, S. 132 ff.). Zu beachten ist, dass die Quotenauswahl häufig mit anderen Verfahren kombiniert wird, z.B. im Rahmen mehrstufiger Stichprobenpläne (vgl. die Ausführungen in den Abschnitten 2.3 und 2.4. in diesem Kapitel). <?page no="202"?> 202 Festlegung des Auswahlplans TTaabb.. 77..22: : Vor- und Nachteile der Quotenauswahl Vorteile Nachteile Einfach durchführbar, da Merkmalsverteilungen aus der Bevölkerungsstatistik bekannt sind Kostengünstig Hohe Flexibilität durch einfachen Austausch von Ausfällen Führt in der Praxis zu befriedigenden Ergebnissen Hohe Ausschöpfungsquote Güte der Stichprobe nachträglich durch Hinzuziehen weiterer Merkmale feststellbar Gefahr von Verzerrungen der Erhebungsergebnisse Subjektive Verzerrung (z.B. Auswahl nach Sympathie) Bequemlichkeitseffekt (Auswahl leicht zu erreichender Personen wie Freunde und Bekannte) Klumpeneffekt (Beschränkung der Auswahl auf bestimmte Regionen oder soziale Schichten) Bewusste Nichteinhaltung oder Verfälschung von Quoten Es können nur wenige Merkmale quotiert werden, da sonst der Erhebungsaufwand zu groß wird Sog. Restquoten sind häufig kaum zu erfüllen (z.B. 16-20-Jährige mit Einkommen > 3000 €) Statistische Fehlerberechnung nicht möglich Ergebnisverzerrungen durch Ausfälle bzw. Auskunftsverweigerungen unbekannt Repräsentativität ist auf die quotierten Merkmale beschränkt Datenmaterial für die Quotenbildung kann veraltet sein KKoonnzzeennttrraattiioonnssaauusswwaahhll Definition Bei der Konzentrationsauswahl gelangen nur solche Untersuchungseinheiten in die Stichprobe, welche für den Untersuchungszweck als besonders aussagefähig bzw. relevant angesehen werden. Unterschieden werden hierbei typische Auswahl und Cut-off-Verfahren. Bei der typischen Auswahl wird eine Anzahl charakteristisch erscheinender Elemente als stellvertretend für die Grundgesamtheit herausgegriffen. Eine derartige Vorgehensweise erscheint insb. im Falle einer recht homogenen Grundgesamtheit vertretbar, sodass davon ausgegangen werden kann, dass einige „typische“ Merkmalsträger die gesamte Menge hinreichend gut repräsentieren. Gebräuchlich ist die typische Auswahl im Rahmen qualitativer, explorativer Untersuchungen, nicht jedoch bei quantitativen Erhebungen. <?page no="203"?> Verfahren der nichtzufälligen Auswahl 203 Beispiel 7.2: Im Rahmen einer qualitativen Erhebung zum Thema „Markenpräferenz bei Babynahrung“ wird eine Stichprobe aus 10 als typisch anzusehenden jungen Müttern gebildet, welche sich im Rahmen einer Gruppendiskussion zu diesem Thema äußern und Motive für ihre Produktbzw. Markenwahl diskutieren sollen. Vorteilhaft sind an der typischen Auswahl die Einfachheit und Kostengünstigkeit; problematisch an diesem Verfahren ist die Bestimmung, welche Merkmalsträger typisch sind bzw. was für einen typischen Merkmalsträger charakteristisch ist. Die Ergebnisse hängen stark vom subjektiven Urteil des Forschers ab, wodurch Objektivität, Validität und Repräsentativität der Ergebnisse im quantitativen Sinn nicht gegeben sind; dennoch können die genannten Gütekriterien bei sorgfältiger Planung durchaus im qualitativen Sinn erfüllt sein (vgl. Kapitel 4 in Teil 9). T Taabb.. 77..33: : Überblick über Verfahren der nichtzufälligen Auswahl Merkmale Beispiele Beurteilung Willkürliche Auswahl Wahl solcher Elemente aus der Grundgesamtheit, die besonders leicht zu erreichen sind Befragung von Passanten einer bestimmten Straße zu einer bestimmten Tageszeit Befragung von Freunden oder Bekannten sehr einfach und kostengünstig in der Regel nicht repräsentativ Quotenauswahl Verteilung bestimmter Merkmale in der Stichprobe (Quoten) soll mit der Merkmalsverteilung in der Grundgesamtheit übereinstimmen Innerhalb der Quotenanweisungen ist der Interviewer bei der Auswahl konkreter Erhebungseinheiten frei Erhebung einer Stichprobe von Studierenden, deren Verteilung im Hinblick auf Geschlecht, Staatsangehörigkeit, Studiengang und Alter der Verteilung der gesamten Studierendenschaft an einer bestimmten Universität entspricht relativ einfach und kostengünstig liefert in der Regel gute Ergebnisse Gefahr der Willkür bei der Auswahl der Erhebungseinheiten durch den Interviewer Es können nur wenige Merkmale quotiert werden Konzentrationsauswahl Cut-off-Verfahren: Beschränkung der Erhebung auf solche Elemente, die für den Untersuchungsgegenstand eine besondere Bedeutung haben Befragung von Kundenunternehmen, die zusammen einen Marktanteil von 80 % haben einfach und kostengünstig Ergebnisse sind stark vom subjektiven Urteil des Untersuchers geprägt Repräsentativität fraglich Typische Auswahl: Herausgreifen jener Elemente aus der Grundgesamtheit, die als besonders charakteristisch erscheinen Befragung typischer Hausfrauen über bevorzugte Reinigungsmittel <?page no="204"?> 204 Festlegung des Auswahlplans Beim Cut-off-Verfahren beschränkt sich die Auswahl auf jenen Teil der Grundgesamtheit, welcher für den Untersuchungsgegenstand als besonders bedeutsam angesehen wird. Gebräuchlich ist dieses Auswahlverfahren insb. in der Industriegütermarktforschung, etwa indem nur die Key Accounts oder allgemein diejenigen Kunden befragt werden, welche insgesamt eine hohe Umsatzbedeutung für den Anbieter haben. Dies könnten z.B. diejenigen Kundenunternehmen sein, welche für 80% seines Gesamtumsatzes verantwortlich sind. Die möglicherweise zahlreichen kleineren Kunden gelangen nicht in die Stichprobe, da sie für den Anbieter nur geringe Relevanz besitzen. Voraussetzung für die Anwendung des Cut-off-Verfahrens ist die Kenntnis, welche Merkmalsträger im Hinblick auf den Untersuchungsgegenstand als wesentlich anzusehen sind. Wie schon bei der typischen Auswahl liegt hier die Gefahr darin, dass die Ergebnisse stark vom subjektiven Urteil des Forschers abhängen, welche Elemente für die Erhebung von besonderer Relevanz sind. Tabelle 7.3 zeigt wesentliche Charakteristika nichtzufälliger Auswahlverfahren im Überblick. 22..33 VVeerrffaahhrreenn ddeerr ZZuuffaallllssaauusswwaahhll Definition Verfahren der Zufallsauswahl sind dadurch charakterisiert, dass die Auswahl der Merkmalsträger auf der Grundlage eines (statistischen) Zufallsprozesses erfolgt. Dadurch entfällt der subjektive Einfluss des Forschers bzw. des Interviewers. Jedes Element der Grundgesamtheit (bzw. - genau genommen - der Erhebungsgesamtheit) besitzt eine angebbare, von Null verschiedene Wahrscheinlichkeit, in die Stichprobe zu gelangen. Dadurch kann der Stichprobenfehler (Zufallsfehler) berechnet werden. Aus diesem Tatbestand ergibt sich, dass aus den Stichprobenergebnissen auf die „wahren“ Werte der Grundgesamtheit geschlossen werden kann (Repräsentationsschluss), wobei für den „wahren“ Wert ein bestimmter Bereich (sog. Konfidenzintervall) angegeben werden kann, innerhalb dessen er sich mit einer bestimmten Wahrscheinlichkeit befindet. Die Größe des Konfidenzintervalls hängt dabei c.p. von der Streuung des interessierenden Merkmals ab: Je homogener die Grundgesamtheit im Hinblick auf das interessierende Merkmal ist, umso geringer ist die Streuung, umso näher wird daher der Stichprobenwert beim wahren Wert liegen. Beispiel 7.3: Aus einer Stichprobe von 10 Frauen wird die Markenbekanntheit eines bestimmten Fertiggerichts erhoben. Bei großer Streuung in der Grundgesamtheit (z.B. im Hinblick auf Berufstätigkeit, Bildungsstand, Alter, Einkommen usw.) werden von Stichprobe zu Stichprobe voraussichtlich sehr unterschiedliche Ergebnisse resultieren. Die Zuverlässigkeit der Ergebnisse kann jedoch verbessert werden, wenn man den Stichprobenumfang erhöht. Nachteilig an Zufallsstichproben sind insb. der erhöhte Planungsaufwand sowie die fehlende Möglichkeit, ausgewählte Untersuchungseinheiten durch andere Merkmalsträger zu ersetzen, ohne die Repräsentativität zu gefährden. <?page no="205"?> Verfahren der Zufallsauswahl 205 Im Rahmen von Zufallsstichproben werden folgende Fälle unterschieden (vgl. Böhler et al. 2021, S. 139 f.): Heterograder Fall: Untersucht wird eine metrische Variable (z.B. Marktanteil); aus dem Stichprobenmittelwert 𝑥𝑥̄ ist auf den wahren Wert 𝜇𝜇 in der Grundgesamtheit zu schließen. Homograder Fall: Das Merkmal ist nominalskaliert (dichotom, wie z.B. Geschlecht, oder multichotom, wie z.B. Schulbildung). Aus dem Anteil 𝑝𝑝 der Besitzer einer bestimmten Merkmalsausprägung in der Stichprobe ist der „wahre“ Anteilswert in der Grundgesamtheit zu schätzen. Im Folgenden werden die wichtigsten Verfahren der Zufallsauswahl skizziert. Detaillierte Darstellungen finden sich z.B. bei Cochran 1977; Pokropp 1996; Schaich 1998. E Eiinnffaacchhee ZZuuffaallllssaauusswwaahhll Definition Die einfache bzw. uneingeschränkte Zufallsauswahl beruht auf dem sog. Urnenmodell. Jedes Element der Grundgesamtheit besitzt dieselbe Wahrscheinlichkeit, in die Stichprobe zu gelangen. Bei einem Umfang der Grundgesamtheit von 𝑁𝑁 beträgt diese Wahrscheinlichkeit demnach 1/ 𝑁𝑁 . Wird mit 𝑛𝑛 der festgelegte Stichprobenumfang bezeichnet, dann gilt: jedes 𝑛𝑛 - Tupel �𝑥𝑥 � , … , 𝑥𝑥 � � , d.h. jede mögliche Stichprobe des Umfangs 𝑛𝑛 , hat dieselbe Wahrscheinlichkeit, realisiert zu werden. Diese beträgt beim Modell ohne Zurücklegen (vgl. Schaich 1998, S. 150): 𝑃𝑃�𝑛𝑛� � �𝑁𝑁 � 𝑛𝑛�! 𝑁𝑁! Insgesamt sind dabei 𝐶𝐶�𝑛𝑛 ; 𝑁𝑁� � 𝑁𝑁! �𝑁𝑁 � 𝑛𝑛�! Stichproben des Umfangs 𝑛𝑛 realisierbar. Aus einer gut gemischten Urne bzw. Trommel, welche Kugeln, Namenskärtchen u.Ä. enthält, werden zufällig nacheinander (und in der Marktforschung immer ohne Zurücklegen) Elemente im Umfang der jeweiligen Stichprobengröße gezogen (Lottery Sampling). Aufgrund des Aufwands bei praktischen Fragestellungen werden i.d.R. anstelle von Urnen bestimmte Auswahltechniken herangezogen. Zur Schätzung der unbekannten Parameter in der Grundgesamtheit ist von der Überlegung auszugehen, dass jede Stichprobe - und damit deren Mittelwert bzw. Anteilswert - als Realisierung einer Zufallsvariablen anzusehen ist. Die Stichprobenmittelwerte 𝑥𝑥̄ bzw. Anteilswerte 𝑝𝑝 schwanken dabei um den wahren Wert 𝜇𝜇 bzw. 𝜋𝜋 der Grundgesamtheit. Würde man sämtliche möglichen Stichproben des Umfangs 𝑛𝑛 aus einer Grundgesamtheit 𝑁𝑁 ziehen ( 𝑐𝑐 = 1,…, 𝐶𝐶 ), so würde folgender Mittelwert aller Stichprobenmittelwerte resultieren: 𝜇𝜇 � 1 𝐶𝐶 � 𝑥𝑥̄ � , � ��� <?page no="206"?> 206 Festlegung des Auswahlplans d.h. der Mittelwert aller Stichprobenmittelwerte ist gleich dem gesuchten Parameter 𝜇𝜇 in der Grundgesamtheit. Es gilt also für den heterograden Fall: Der Erwartungswert des Stichprobenmittelwerts ist gleich dem Mittelwert in der Grundgesamtheit: 𝐸𝐸�𝑥𝑥̄ � � 𝜇𝜇 . Für das arithmetische Mittel der Grundgesamtheit 𝜇𝜇 gilt dabei: 𝜇𝜇 � 1 𝑁𝑁 � 𝑥𝑥 � � ��� �� � 1, … , 𝑁𝑁� und für den Stichprobenmittelwert 𝑥𝑥̄ : 𝑥𝑥̄ � � � ∑ 𝑥𝑥 � ���� �� � 1, … , 𝑛𝑛� . Die Varianz der Merkmalswerte in der Grundgesamtheit berechnet sich als: 𝜎𝜎 � � 1 𝑁𝑁 ��𝑥𝑥 � � 𝜇𝜇� � � ��� �� � 1, … , 𝑁𝑁� und in der Stichprobe als: 𝑠𝑠 � � 1 𝑛𝑛 � 1 ��𝑥𝑥 � � 𝑥𝑥̄ � � � ��� �� � 1, … 𝑛𝑛�. Die Varianz der Stichprobenmittelwerte ist ein Maß für die Streuung der Stichprobenmittelwerte 𝑥𝑥̄ um den wahren Wert 𝜇𝜇 in der Grundgesamtheit. Diese lässt sich aus der Varianz der Merkmalswerte in der Grundgesamtheit ableiten und beträgt: 𝜎𝜎 �̄ � � 𝜎𝜎 � 𝑛𝑛 ⋅ 𝑁𝑁 � 𝑛𝑛 𝑁𝑁 � 1 ; die zugehörige Standardabweichung (Standardfehler) errechnet sich als: 𝜎𝜎 � � 𝜎𝜎 √𝑛𝑛 ⋅ �𝑁𝑁 � 𝑛𝑛 𝑁𝑁 � 1. Der Korrekturfaktor 𝑁𝑁 � 𝑛𝑛/ 𝑁𝑁 � 1 kann dabei bei einem Auswahlsatz von 𝑛𝑛/ 𝑁𝑁 � 5 % vernachlässigt werden. Gemäß dem zentralen Grenzwertsatz gilt, dass der Stichprobenmittelwert 𝑥𝑥̄ bei wachsendem Stichprobenumfang 𝑛𝑛 (Faustregel: 𝑛𝑛 � 30 ) annähernd normalverteilt ist mit dem Erwartungswert 𝐸𝐸�𝑥𝑥̄ � � 𝜇𝜇 und der Varianz 𝜎𝜎 �̄ � � 𝜎𝜎 � / 𝑛𝑛. Auf der Grundlage dieser Überlegungen kann für den Mittelwert 𝜇𝜇 ein Konfidenzintervall (Vertrauensbereich) ermittelt werden, d.h. ein Intervall, in welchem der unbekannte Mittelwert der Grundgesamtheit mit einer bestimmten Wahrscheinlichkeit liegt. Zunächst gilt, dass die Wahrscheinlichkeit, dass ein bestimmter Stichprobenmittelwert realisiert wird, als Flächenanteil der Normalverteilung errechnet werden kann. So wird aus Abb. 7.3 deutlich, dass im Intervall 𝜇𝜇 � 𝜎𝜎 �̄ 68,3 %, 𝜇𝜇 � 2𝜎𝜎 �̄ 95,5% und 𝜇𝜇 � 3𝜎𝜎 �̄ 99,7% der möglichen Stichprobenmittelwerte liegen. Beispielsweise gilt, dass ein Stichprobenmittelwert 𝑥𝑥̄ mit einer Wahrscheinlichkeit P von 95,5 % im Intervall �𝜇𝜇 � 2𝜎𝜎� liegt. Es gilt also: 𝑃𝑃�𝜇𝜇 � 2𝜎𝜎 �̄ � 𝑥𝑥̄ � 𝜇𝜇 � 2𝜎𝜎 �̄ � � 0,955 bzw. allgemein: <?page no="207"?> Verfahren der Zufallsauswahl 207 𝑃𝑃�𝜇𝜇 � 𝑧𝑧 � 𝜎𝜎 �̄ � 𝑥𝑥̄ � 𝜇𝜇 � 𝑧𝑧 � 𝜎𝜎 �̄ � � �1 � ��, wobei 𝑧𝑧 einen beliebigen Multiplikator für die Standardabweichung bezeichnet (vgl. Böhler et al. 2021, S. 144 f.). Aus der letzten Gleichung erhält man nach Umformungen: 𝑃𝑃�𝑥𝑥̄ � 𝑧𝑧 � 𝜎𝜎 �̄ � 𝜇𝜇 � 𝑥𝑥̄ � 𝑧𝑧 � 𝜎𝜎 � � � 1 � � bzw. 𝜇𝜇 � 𝑥𝑥̄ � 𝑧𝑧 � 𝜎𝜎 �̄ , d.h. mit einer Wahrscheinlichkeit von 1 liegt der gesuchte Mittelwert der Grundgesamtheit im Intervall � 𝑥𝑥 ̄ � 𝑧𝑧 � 𝜎𝜎 𝑥𝑥 ̄ ; 𝑥𝑥 ̄ � 𝑧𝑧 � 𝜎𝜎 𝑥𝑥 ̄ � . Bei einem Wert 𝑧𝑧 in Höhe von 2 beträgt 1 demnach 95,5, d.h. in 95,5% der Fälle wird 𝜇𝜇 im angegebenen Intervall liegen. AAbbbb.. 77..33: : Normalverteilung des Mittelwerts 𝑥𝑥̄ im Bereich µ ± 3σ In der Praxis ist der für die Errechnung des Konfidenzintervalls erforderliche Wert von 𝜎𝜎 �̄ � i.d.R. nicht bekannt; für 𝜎𝜎 �̄ wird daher als Schätzer der Standardfehler aus der Stichprobe herangezogen: 𝑠𝑠 �̄ � 𝑠𝑠 √𝑛𝑛. In diesem Fall ist der Stichprobenmittelwert 𝑥𝑥̄ allerdings nicht mehr normalverteilt, sondern t-verteilt mit 𝑛𝑛 - 1 Freiheitsgraden. Das gesuchte Konfidenzintervall lautet dann (vgl. Schaich 1998, S. 175): 𝑥𝑥̄ � � � 𝑠𝑠 √𝑛𝑛 � 𝜇𝜇 � 𝑥𝑥̄ � � � 𝑠𝑠 √𝑛𝑛 . Da sich die t-Verteilung bei zunehmendem 𝑛𝑛 jedoch asymptotisch einer Normalverteilung annähert, kann ab 𝑛𝑛 � 30 auch mit den tabellierten 𝑧𝑧 -Werten der Normalverteilung gearbeitet werden. In analoger Weise lässt sich im homograden Fall ein Konfidenzintervall für den Anteilswert der Grundgesamtheit konstruieren (vgl. z.B. Schaich 1998, S. 176 ff.). Sei � � 1 𝑁𝑁 � 𝑥𝑥 � � ��� der Anteilswert der Grundgesamtheit mit 𝑥𝑥 � � 1 wenn die Merkmalsausprägung vorhanden ist, 0 sonst; dann ist der Anteilswert in der Stichprobe Stichprobenmittelwert 68.26% 95.44% 99.72% -2 -1 +3 +2 +1 -3 <?page no="208"?> 208 Festlegung des Auswahlplans 𝑝𝑝 � 1 𝑛𝑛 � 𝑥𝑥 � . � ��� Die zugehörige Varianz in der Grundgesamtheit lautet: 𝜎𝜎 � � 1 𝑁𝑁 ��𝑥𝑥 � � 𝜇𝜇� � � 𝜋𝜋 ⋅ �1 � 𝜋𝜋� � ��� und in der Stichprobe 𝑠𝑠 � � 1 𝑛𝑛 ��𝑥𝑥 � � 𝑥𝑥̄ � � ⋅ 𝑛𝑛 𝑛𝑛 � 1 � 𝑝𝑝 ⋅ �1 � 𝑝𝑝� ⋅ � ��� 𝑛𝑛 𝑛𝑛 � 1 . Beim hier betrachteten Modell ohne Zurücklegen erhält man für die Standardabweichung der Anteilswerte in der Grundgesamtheit ( 𝜎𝜎 � � und in der Stichprobe ( 𝑠𝑠 � � 𝜎𝜎 � � �𝜋𝜋 ⋅ �1 � 𝜋𝜋� 𝑛𝑛 ⋅ �𝑁𝑁 � 𝑛𝑛 𝑁𝑁 � 1 𝑠𝑠 � � �𝑝𝑝�1 � 𝑝𝑝� 𝑛𝑛 � 1 ⋅ �𝑁𝑁 � 𝑛𝑛 𝑁𝑁 � 1 . Auch hier gilt, dass bei zunehmendem Stichprobenumfang der Anteilswert 𝑝𝑝 annähernd normalverteilt ist (Faustregel: 𝑛𝑛 ⋅ 𝑝𝑝 ⋅ �1 � 𝑝𝑝� � 9 ). Bei einem Auswahlsatz 𝑛𝑛/ 𝑁𝑁 � 0,05 kann der Korrekturfaktor vernachlässigt werden. Ist 𝜎𝜎 � in der Grundgesamtheit bekannt, resultiert folgendes Konfidenzintervall für 𝜋𝜋 : 𝑝𝑝 � � ⋅ 𝜎𝜎 � � 𝜋𝜋 � 𝑝𝑝 � � ⋅ 𝜎𝜎 � . Dies ist allerdings nicht praktikabel, da 𝜎𝜎 � den zu schätzenden, unbekannten Wert 𝜋𝜋 enthält. Da �𝜋𝜋 ⋅ �1 � 𝜋𝜋� jedoch maximal den Wert ½ annimmt, kann das Konfidenzintervall näherungsweise folgendermaßen bestimmt werden (vgl. Schaich 1998, S. 178): 𝑝𝑝 � � ⋅ 1 2√𝑛𝑛 � 𝜋𝜋 � 𝑝𝑝 � � 1 2√𝑛𝑛. Bei unbekanntem 𝜎𝜎 � wird bei ausreichend großer Stichprobenbewertung als Schätzer für 𝜎𝜎 � der Standardfehler der Stichprobe 𝑠𝑠 � verwendet: 𝑝𝑝 � � ⋅ 𝑠𝑠 � � 𝜋𝜋 � 𝑝𝑝 � � ⋅ 𝑠𝑠 � . Beispiel 7.4: Zur Beurteilung eines neuen Tiefkühlprodukts interessiert sich das auftraggebende Unternehmen für das Durchschnittsalter ( 𝜇𝜇 ) und den Anteil berufstätiger Frauen ( 𝜋𝜋 ) an den Verwenderinnen des Produkts. Zu diesem Zweck wird eine Stichprobe von n = 400 Käuferinnen des Produkts gezogen. Aus der Erhebung resultieren ein Durchschnittsalter von 𝑥𝑥̄ � 32,5 Jahren und ein Anteil berufstätiger Verwenderinnen von 𝑝𝑝 � 68% . Die Varianz des Alters in der Stichprobe beträgt 𝑠𝑠 �� = 81. <?page no="209"?> Verfahren der Zufallsauswahl 209 Fall (1): Die Varianzen der Parameter in der Grundgesamtheit sind bekannt. Es gilt 𝜎𝜎 � (Alter) = 100, 𝜎𝜎 � (Berufstätigkeit) = 0,25. Die Vertrauenswahrscheinlichkeit ( 1 ) wird mit 0,95 vorgegeben. Aus der Tabelle der Standardnormalverteilung resultiert damit (bei zweiseitiger Fragestellung) ein z-Wert von 1,96. Die gesuchten Konfidenzintervalle lassen sich wie folgt ermitteln: 32,5 � 1,96 ⋅ √100 √400 � � � 32,5 � 1,96 ⋅ √100 √400, d.h. das Durchschnittsalter der Verwenderinnen liegt mit einer Wahrscheinlichkeit von 95 % im Intervall [31,52; 33,48]. Für den Anteilswert berufstätiger Verwenderinnen gilt: 0,68 � 1,96 ⋅ �0,25 √400 � � � 0,68 � 1,96 ⋅ �0,25 √400 , d.h. mit einer Wahrscheinlichkeit von 0,95 liegt der Anteil berufstätiger Verwenderinnen in der Grundgesamtheit zwischen 63,1 und 72,9 %. Fall (2): Die Varianzen der Parameter in der Grundgesamtheit sind nicht bekannt. Als Schätzwerte werden hier die Varianzen bzw. Standardabweichungen der Parameterwerte in der Stichprobe herangezogen. Da 𝑛𝑛 � 30 und 𝑛𝑛 𝑝𝑝 �1 � 𝑝𝑝� � 21 � 9 sind, kann auch hier die Tabelle der Standardnormalverteilung herangezogen werden. Für die Standardfehler aus der Stichprobe gilt: 𝑠𝑠 �̄ � 𝑠𝑠 √𝑛𝑛 � √81 √400 � 0,45 𝑠𝑠 � � �𝑝𝑝�1 � 𝑝𝑝� 𝑛𝑛 � 1 � �0,68�1 � 0,68� 400 � 1 . Der Korrekturfaktor kann dabei vernachlässigt werden, da der Auswahlsatz als < 0,05 angenommen werden kann. Somit resultieren die folgenden Konfidenzintervalle: 32,5 � 1,96 ⋅ 0,45 � � � 32,5 � 1,96 ⋅ 0,45 und 0,68 � 1,96 ⋅ 0,023 � � � 0,68 � 1,96 ⋅ 0,023 . Damit liegt bei unbekannten Varianzen in der Grundgesamtheit das Durchschnittsalter in der Grundgesamtheit mit einer Wahrscheinlichkeit von 95 % im Intervall [31,62; 33,38] und der Anteil berufstätiger Frauen im Intervall [63,49; 72,5]. Die einfache Zufallsauswahl findet ihre Anwendung insb. bei kleinen, vergleichsweise homogenen Grundgesamtheiten. Vorteilhaft ist neben der einfachen Durchführung die Tatsache, dass die Kenntnis der Merkmalsstruktur der Grundgesamtheit nicht erforderlich ist. Problematisch ist, dass die Elemente der Grundgesamtheit vollständig erfasst und zugänglich sein müssen, z.B. in Form von Adressenverzeichnissen. Zudem gilt, dass im Vergleich zu anderen Verfahren der Zufallsauswahl bei gleichem Zufallsfehler ein größerer Stichprobenumfang erforderlich ist, da viele Merkmale in der Grundgesamtheit eine sehr hohe Varianz aufweisen, was sich auch in der Stichprobenvarianz niederschlägt. <?page no="210"?> 210 Festlegung des Auswahlplans GGeesscchhiicchhtteettee ZZuuffaallllssaauusswwaahhll Definition Bei einer geschichteten Zufallsauswahl (Stratified Sampling) wird die Grundgesamtheit zunächst nach einem bestimmten Merkmal in Untergruppen (Schichten) zerlegt. Aus diesen Schichten werden anschließend separate Stichproben gezogen. Die Methode bietet sich an, wenn ein Merkmal in der Grundgesamtheit eine besonders hohe Varianz besitzt. Dieses Verfahren ermöglicht es, den Stichprobenfehler zu reduzieren, da die Streuung zwischen den Schichten entfällt. Damit ist die geschichtete Auswahl insb. dann geeignet, wenn die Grundgesamtheit insgesamt heterogen ist, aber aus vergleichsweise homogene Teilgruppen zusammengesetzt ist (z.B. Tante-Emma-Läden, Supermärkte und Discounter). Die Verteilung des Schichtungsmerkmals in der Grundgesamtheit muss allerdings bekannt sein. Eine geschichtete Stichprobe kann wie folgt ausgewertet werden (vgl. Böhler et al. 2021, S. 149 f.): In jeder Schicht 𝑘𝑘 �𝑘𝑘 � 1 … , �� werden 𝑥𝑥̄ � und 𝑠𝑠 �̄ � errechnet und zur Schätzung der tatsächlichen Werte 𝜇𝜇 � (inkl. der zugehörigen Konfidenzintervalle) herangezogen. Aus den Stichprobenwerten 𝑥𝑥̄ � und 𝑠𝑠 �̄ � werden zunächst der Gesamtmittelwert 𝑥𝑥̄ und die Standardabweichung 𝑠𝑠 �̄ errechnet. Diese werden anschließend - wie bei der einfachen Zufallsauswahl - zur Bestimmung des Konfidenzintervalls für 𝜇𝜇 herangezogen. Im Rahmen einer proportionalen Schichtung stehen die Schichten in der Stichprobe im gleichen Verhältnis wie in der Grundgesamtheit. Der Mittelwert resultiert als gewogener Durchschnitt aus den Schichtenmittelwerten. Beispiel 7.5: Bei der Tiefkühlkost-Erhebung des vorangegangenen Beispiels 7.4 wird eine Schichtung nach dem Wohnort vorgenommen (Stadtgebiet vs. Landgebiet). In der Grundgesamtheit wohnen die Verwenderinnen des Produkts zu 75 % in Städten und zu 25 % auf dem Land; entsprechend werden bei einem Stichprobenumfang von n = 400 300 Frauen aus städtischen und 100 Frauen aus ländlichen Gebieten rekrutiert. Die Mittelwerte in den Schichten betragen 𝑥𝑥̄ � � 33, 𝑥𝑥̄ � � 31 . Der Gesamtmittelwert resultiert dann als: 𝑥𝑥̄ � 0,75 ⋅ 𝑥𝑥̄ � � 0,25 ⋅ 𝑥𝑥̄ � � 0,75 ⋅ 33 � 0,25 ⋅ 31 � 32,5 . Eine proportionale Schichtung ist sinnvoll, wenn die Streuungen des interessierenden Merkmals innerhalb der Schichten annähernd gleich sind. Bei stark unterschiedlichen Streuungen oder aber für den Fall, dass relativ kleine Schichten eine besondere Bedeutung für das Untersuchungsergebnis haben, wird eine sog. disproportionale Schichtung vorgenommen. Hier sind die Auswahlsätze für die einzelnen Schichten in der Stichprobe nicht identisch mit den Relationen in der Grundgesamtheit. Beispielsweise kommen umsatzstarke Betriebe mit einem größeren Anteil in die Stichprobe, als ihnen gemäß ihrer <?page no="211"?> Verfahren der Zufallsauswahl 211 relativen Anzahl zustünde, da ihre Umsatzbedeutung mitberücksichtigt wird. Von diesen Grundgedanken lassen sich Marktforschungsinstitute wie z.B. Nielsen und GFK im Lebensmitteleinzelhandel leiten, etwa im Zusammenhang mit Haushaltspanels (vgl. Teil 5). Auf diese Weise erzielen die Marktforschungsinstitute trotz hoher Streuung in der Grundgesamtheit vergleichsweise geringe Standardfehler. Einen Unterfall der disproportionalen Schichtung stellt die optimale Schichtung dar, bei welcher die Schichten proportional zu den Streuungen innerhalb der Schichten in der Grundgesamtheit aufgeteilt werden. Dies erlaubt eine Minimierung des Stichprobenfehlers, scheitert in der Praxis jedoch häufig daran, dass entsprechende Informationen über die Verteilung der Schichten in der Grundgesamtheit fehlen. MMeehhrrssttuuffiiggee ZZuuffaallllssaauusswwaahhll Definition Eine mehrstufige Auswahl (Multistage Sampling) kann vorgenommen werden, wenn die Grundgesamtheit hierarchisch strukturiert ist. Aus den einzelnen Hierarchiestufen werden Auswahleinheiten gebildet, aus denen nacheinander Zufallsstichproben gezogen werden. Im einfachsten Fall einer zweistufigen Auswahl wird die Grundgesamtheit zunächst in disjunkte Teilmengen (Primäreinheiten) aufgeteilt, welche die Auswahlbasis für die erste Stufe bilden (z.B. Gemeinden). Aus den Primäreinheiten wird eine Zufallsstichprobe gezogen. Untersuchungseinheiten, welche in den gewählten Primäreinheiten enthalten sind (z.B. Haushalte), bilden die Auswahlbasis für die zweite Stufe. Aus jeder ausgewählten Primäreinheit erfolgt eine Zufallsauswahl von Untersuchungseinheiten (Sekundäreinheiten). Beispielsweise kann die Bevölkerung der Bundesrepublik Deutschland hierarchisch nach dem Schema „Bundesland - Gemeinde - Haushalt - Person“ strukturiert werden. In diesem Fall kann im Rahmen einer mehrstufigen Auswahl zunächst eine Stichprobe von Gemeinden auf Landesebene, dann eine Auswahl von Haushalten auf kommunaler Ebene und schließlich eine Auswahl von Individuen, welche letztendlich in die Stichprobe aufgenommen werden sollen, erfolgen. Vorteile ergeben sich hier in einer Kostenersparnis im Rahmen der Datenerhebung aufgrund der räumlichen Konzentration der Untersuchungseinheiten. Auch bietet sich die mehrstufige Auswahl an, wenn für eine uneingeschränkte Zufallsstichprobe keine Auswahlbasis verfügbar ist, etwa Adressverzeichnisse. KKlluummppeennaauusswwaahhll Definition Im Rahmen einer Klumpenauswahl (Cluster sampling) wird die Grundgesamtheit zunächst in sich gegenseitig ausschließende Gruppen (Klumpen) aufgeteilt (z.B. Landkreise innerhalb eines Bundeslandes). Diese stellen die Auswahlbasis dar. Aus der Gesamtheit der Klumpen wird eine Zufallsstichprobe gezogen. <?page no="212"?> 212 Festlegung des Auswahlplans Im einfachsten Fall der einstufigen Klumpenauswahl gelangen sämtliche Elemente, die in den gewählten Klumpen enthalten sind, in die Stichprobe; mehrstufige Verfahren sind jedoch ebenfalls möglich. Beispielsweise kann aus den gewählten Klumpen jeweils eine Zufallsstichprobe der darin enthaltenen Elemente gezogen werden. Im Vergleich zur einfachen Zufallsstichprobe hat die Klumpenauswahl eine ganze Reihe von Vorteilen, welche dazu führen, dass sie sich in der Marktforschungspraxis großer Beliebtheit erfreut (vgl. Böhler et al. 2021, S. 150 f.; Malhotra 2019, S. 373): Die Auswahlbasis für die Erhebungseinheiten ist häufig nicht vorhanden (z.B. Liste sämtlicher abhängig Beschäftigter in einer bestimmten Branche). Eine Liste von Betrieben, welche als Klumpen fungieren, ist hingegen vergleichsweise leicht zu beschaffen. Die Liste der Erhebungseinheiten ist oft nicht mehr aktuell. Anstelle eines veralteten Adressverzeichnisses kann beispielsweise ein Stadtgebiet in Häuserblöcke aufgeteilt werden, welche die Auswahlbasis für die Stichprobenziehung bilden. In den gewählten Häuserblöcken werden sämtliche Haushalte befragt (sog. Flächenstichprobe). Dies gewährleistet, dass nur solche Einwohner in die Stichprobe gelangen, welche tatsächlich aktuell in der betreffenden Gemeinde wohnhaft sind. Die Durchführung der Erhebung ist häufig weniger aufwändig, da die Datenerhebung räumlich konzentriert werden kann (z.B. Befragung sämtlicher Beschäftigter an ihrer gemeinsamen Arbeitsstätte). Nachteilig an der Klumpenauswahl ist der Klumpeneffekt, welcher dann auftritt, wenn die Untersuchungseinheiten innerhalb eines Klumpens im Hinblick auf die Untersuchungsmerkmale homogener sind als dies bei einer einfachen Zufallsauswahl zu erwarten wäre. Die Klumpen sind dann weniger repräsentativ für die Grundgesamtheit. Ein Beispiel wäre etwa ein bestimmtes Stadtgebiet bzw. Viertel, das überwiegend Haushalte mit überproportional hohem Einkommen enthält. Kommt dieser Klumpen in die Stichprobe, so sind einkommensstarke Haushalte entsprechend überräpresentiert, sodass die Ergebnisse in der Stichprobe für die Grundgesamtheit nicht repräsentativ sind. Die Repräsentativität ist dabei in hohem Maße von der Feinheit der Klumpenbildung abhängig. Ist die Grundgesamtheit in viele kleine Klumpen aufgeteilt, ist eine bessere Repräsentativität zu erzielen als bei nur grober Gliederung der Grundgesamtheit in wenige große Klumpen. Abgemildert werden kann der Klumpeneffekt durch eine Ausdehnung der Stichprobengröße, welche infolge der erleichterten Datenerhebung im Regelfall problemlos möglich ist und nur mit vergleichsweise geringen zusätzlichen Erhebungskosten behaftet ist. Dies bedeutet, dass im Vergleich zu einer einfachen Zufallsauswahl der Stichprobenumfang bei gleichen Kosten u.U. erheblich ausgeweitet werden kann, sodass trotz des Klumpeneffekts genauere Ergebnisse erzielt werden können. Tabelle 7.4 zeigt abschließend die dargestellten Verfahren der Zufallsauswahl im Überblick. <?page no="213"?> Verfahren der Zufallsauswahl 213 TTaabb.. 77..44: : Überblick über Verfahren der Zufallsauswahl Merkmale Beispiele Beurteilung Einfache Zufallsauswahl Unmittelbare zufällige Ziehung einer Stichprobe aus der Grundgesamtheit Grundlage: Urnenmodell Zufällige Ziehung von 100 Käufern aus der Gesamtheit der Käufer eines Produkts Einfache Durchführung Größerer Stichprobenumfang als bei den anderen Verfahren der Zufallsauswahl erforderlich (bei gleichem Stichprobenfehler) Sämtliche Elemente der Grundgesamtheit müssen erfasst und zugänglich sein. Geschichtete Zufallsauswahl Grundgesamtheit wird in mehrere Schichten aufgeteilt, aus denen jeweils eine einfache Zufallsstichprobe gezogen wird Proportionale Aufteilung: im Verhälnis zum Umfang der Schichten Optimale Aufteilung: im Verhältnis zu den Streuungen innerhalb der Schichten Aufteilung der Kunden in Gewerbe- und Privatkunden Ziehung von je einer Zufallsstichprobe aus den Gewerbe- und den Privatkunden Im Vergleich zur einfachen Zufallsstichprobe Reduzierung des Stichprobenfehlers (bei gleichem Stichprobenumfang) Verteilung der interessierenden Merkmalsdimensionen muss bekannt sein Klumpenauswahl Aufteilung der Grundgesamtheit in Klumpen (meist natürliche Gruppierungen von Untersuchungseinheiten) Aus der Gesamtheit der Klumpen wird zufällig eine Stichprobe gezogen Alle Elemente der gezogenen Klumpen gehen in die Stichprobe ein Ziehung einer Stichprobe von Einzelhandelsgeschäften aus der Gesamtheit der Läden, die das Produkt führen Erfassung des Markenwahlverhaltens aller Käufer der betrachteten Geschäfte während eines vorgegebenen Zeitraums Struktur der Grundgesamtheit braucht nicht im Einzelnen bekannt zu sein Durchführung der Erhebung i.d.R. weniger aufwändig Repräsentation der Grundgesamtheit durch die Klumpen nicht immer gegeben Mehrstufige Auswahl Aufteilung der Grundgesamtheit in Teilmengen (Primäreinheiten) Zufallsauswahl aus der Menge der Primäreinheiten Zufallsauswahl von Untersuchungseinheiten aus jeder ausgewählten Primäreinheit (Sekundäreinheiten) Aufteilung der Grundgesamtheit in Gemeinden Zufällige Auswahl einer Stichprobe von Gemeinden Aus den gewählten Gemeinden Zufallsauswahl von Personen Vereinfachung der Durchführung der Erhebung, wenn die Grundgesamtheit hierarchisch gegliedert ist Geeignet, wenn keine Auswahlbasis für eine einfache Zufallsauswahl verfügbar ist <?page no="214"?> 214 Festlegung des Auswahlplans AAuusswwaahhlltteecchhnniikkeenn ddeerr ZZuuffaallllssaauusswwaahhll Der einfachen Zufallsauswahl liegt das Urnenmodell ohne Zurücklegen zugrunde. Aufgrund des Aufwands, welchen diese Vorgehensweise bei realen Grundgesamtheiten implizieren würde (etwa Anfertigen von Namenskärtchen bzw. Kugeln, Beschaffung einer Urne in entsprechender Größe usw.) bedient man sich in der Praxis besonderer Auswahltechniken. Dazu gehören sog. Zufallszahlentafeln sowie sog. Ersatzverfahren. Zufallszahlentafeln enthalten Ziffern, welche durch Zufall gewonnen werden (z.B. mit Hilfe eines Zufallszahlengenerators). Konstitutiv für eine Zufallszahlentafel ist die Tatsache, dass jede der Ziffern 0 bis 9 an jeder beliebigen Stelle der Tafel vor der Herstellung die Wahrscheinlichkeit 0,1 hatte, realisiert zu werden (vgl. Schaich 1998, S. 151). Tabelle 7.5 zeigt einen Ausschnitt aus einer Zufallszahlentafel. Anstelle tabellierter Zufallszahlen wird mittlerweile in der Praxis ein Zufallszahlengenerator verwendet, der entsprechende Ziffernfolgen mit der gewünschten Stellenzahl automatisch generiert. T Taabb.. 77..55: : Auszug aus einer Zufallszahlentafel (Quelle: Schaich 1998, S. 151) 2671 4690 1550 2262 2597 8034 0785 2978 4409 0237 9111 0250 3275 7519 9740 4577 2064 0286 3398 1348 0391 6035 9230 4999 3332 0608 6113 0391 5789 9926 2475 2144 1886 2079 3004 9686 5669 4367 9306 2595 5336 5845 2095 6446 5694 3641 1085 8705 5416 9066 Voraussetzung für die Anwendung ist eine lückenlose Durchnummerierung der Grundgesamtheit. Die Vorgehensweise soll anhand eines Beispiels erläutert werden. Detaillierte Ausführungen finden sich bei Schaich 1998, S. 152 ff. Beispiel 7.6: Die Grundgesamtheit betrage 𝑁𝑁 � 100.000 ; die Elemente der Grundgesamtheit seien von 00000 bis 99999 durchnummeriert. Damit sind aus der Zufallszahlentafel fünfstellige Ziffernfolgen zu entnehmen; bei reihenweisem Vorgehen also: 26714 69015 50226 22597 80340 … Bei einer Stichprobe von beispielsweise 𝑛𝑛 � 100 werden die ersten 100 der auf diese Weise gewonnenen fünfstelligen Ziffernfolgen herangezogen. Durch Zuordnung der Zufallszahlen zu den Elementen der Grundgesamtheit mit den entsprechenden Nummern erhält man die Stichprobe im gewünschten Umfang. Zu den gebräuchlichsten Ersatzverfahren zur Gewinnung uneingeschränkter Zufallsstichproben zählen: Schlussziffernverfahren, Systematische Auswahl mit Zufallsstart, Geburtstagsverfahren, Buchstabenverfahren, Schwedenschlüssel und Random Route. <?page no="215"?> Verfahren der Zufallsauswahl 215 Das Schlussziffernverfahren setzt wie die Anwendung einer Zufallszahlentafel voraus, dass die Grundgesamtheit durchnummeriert ist, z.B. von 0 bis 𝑁𝑁 � 1 ; die Nummerierung darf mit der Untersuchungsvariable nicht korrelieren, was beispielsweise dann gewährleistet ist, wenn die Zuordnung nach rein äußerlichen Kriterien - etwa chronologisch - erfolgt. Anschließend wird der Auswahlsatz 𝑛𝑛/ 𝑁𝑁 bestimmt, der die Grundlage für die Auswahl bildet. Nachfolgendes Beispiel soll die Vorgehensweise erläutern. Beispiel 7.7: Die Grundgesamtheit betrage 𝑁𝑁 � 100.000 , die Stichprobe 𝑛𝑛 � 200 . Damit ist der Auswahlsatz 𝑛𝑛/ 𝑁𝑁 � 200/ 100.000 � 2 ‰ der Grundgesamtheit. Aus der Ziffernfolge 000 bis 999 werden zufällig zwei Zahlen gezogen; jede dieser dreistelligen Zahlen kann zur Auswahl von genau 1 ‰ der Grundgesamtheit herangezogen werden. Hat man etwa die Zahlen 498 und 782 gewonnen, so gelangen die Elemente der Grundgesamtheit mit folgenden Nummern in die Stichprobe: 0498; 1498; 2498; …; 99498 (100 Elemente) und 0872; 1782; 2782; …; 99782 (100 Elemente). Auch die Anwendung der systematischen Auswahl mit Zufallsstart setzt eine Nummerierung der Grundgesamtheit sowie Unkorreliertheit zwischen der Nummerierung und der Untersuchungsvariablen voraus. Zunächst wird der Kehrwert des Auswahlsatzes gebildet, 𝑛𝑛/ 𝑁𝑁 . Aus den 𝑛𝑛/ 𝑁𝑁 -Nummern 0 ; 1 ; … ; 𝑁𝑁 / �𝑛𝑛 � 1� wird zufällig eine Zahl 𝑟𝑟 gezogen; anschließend wird die Stichprobe folgendermaßen gebildet: 𝑟𝑟 ; � 𝑟𝑟 � 𝑁𝑁𝑛𝑛 ; � 𝑟𝑟 � 2 𝑁𝑁𝑛𝑛 ; … ; � 𝑟𝑟 � �𝑛𝑛 � 1� ⋅ 𝑁𝑁𝑛𝑛 . Beispiel 7.8: Soll aus einer Grundgesamtheit von 𝑁𝑁 � 50.000 eine Stichprobe von 𝑛𝑛 � 400 gezogen werden, so würde jedes 𝑘𝑘 -te Element mit 𝑘𝑘 � 𝑁𝑁𝑛𝑛 � 50.000 400 � 125 in die Stichprobe gelangen. Begonnen wird bei einem zufällig ausgewählten Element, welches sich an 𝑟𝑟 -ter Stelle befindet. Wird beispielsweise per Zufall 𝑟𝑟 � 25 gezogen, werden das 150. Element (25 + 125), das 275. Element (25 + 2125) usw. in die Stichprobe aufgenommen, bis die Stichprobengröße von 𝑛𝑛 � 400 erreicht ist. Das Grundprinzip des Geburtstagsverfahrens besteht darin, dass aus einer Grundgesamtheit von Personen, deren Geburtstag bekannt ist, alle diejenigen Untersuchungseinheiten in die Stichprobe übernommen werden, welche an einem bestimmten Tag im Jahr Geburtstag haben. Je nach erwünschtem Stichprobenumfang können auch mehrere Tage zugrunde gelegt werden. Erreichbar sind Auswahlsätze von (ungefähr) 1/ 365, 2/ 365 usw., je nach Anzahl der einbezogenen Tage; ein exakter, vorgegebener Stichprobenumfang kann somit nur in Ausnahmefällen erzielt werden. Varianten des Geburtstagsverfahrens werden bei mehrstufigen Auswahlverfahren herangezogen, etwa um aus einem gewählten Haushalt die zu befragenden Personen auszuwählen (vgl. Hüttner/ Schwarting 2002, S. 137): Es ist z.B. die Person zu befragen, welche <?page no="216"?> 216 Festlegung des Auswahlplans als erste im Jahr Geburtstag hat oder an dem Tag mit der niedrigsten der Zahlen zwischen 1 und 31 Geburtstag hat oder vom Befragungstag gerechnet als letzte Geburtstag hatte oder als nächste haben wird, o.ä. Diese Vorgehensweise hat den Vorteil, dass keine Auflistung und Nummerierung der Erhebungseinheiten notwendig ist. Beim Buchstabenverfahren gelangen alle jene Personen in die Stichprobe, deren Familienname mit einem bestimmten Buchstaben oder einer bestimmten Buchstabenfolge beginnt. Damit alle Elemente der Grundgesamtheit die gleiche Wahrscheinlichkeit haben, in die Stichprobe zu gelangen, darf zwischen den Anfangsbuchstaben der Familiennamen und den Untersuchungsmerkmalen kein Zusammenhang bestehen. Auch bei diesem Verfahren kann ein vorgegebener Stichprobenumfang nur ungefähr eingehalten werden. Der Schwedenschlüssel findet oft Verwendung, wenn Personen innerhalb von Mehrpersonenhaushalten zu befragen sind. Dabei wird für jedes Interview und für jede Haushaltsgröße vorgegeben, welche (die wievielte) Person jeweils zu befragen ist. Die Zahl resultiert durch Permutationen der Ziffern 1 bis 4 (häufig: 1 bis 3 oder 1 bis 4, wobei 4 die Haushaltsgröße ist). Beispiel 7.9: Die Erhebungsgesamtheit soll in Deutschland in Privathaushalten lebende Personen über 14 Jahre umfassen. Auszugehen ist von Haushalten mit bis zu vier Personen, die zur Erhebungsgesamtheit gehören. Die Personen in einem Haushalt werden dabei meist nach dem Alter nummeriert. Die Permutationen sind in diesem Fall wie folgt: Interviewnummer A B C D E F G H I J K L … Haushaltsgröße* 2 1 2 1 2 1 2 1 2 1 2 1 2 … 3 1 2 3 1 2 3 1 2 3 1 2 3 … 4 1 2 3 4 1 2 3 4 1 2 3 4 … * Netto, d.h. Zahl der zur Erhebungsgesamtheit zählenden Personen Beim vierten durchzuführenden Interview kann der Interviewer folgendermaßen vorgehen: Bei zwei erhebungsrelevanten Personen im Haushalt ist die zweite zu befragen, bei drei erhebungsrelevanten Personen ist die erste zu befragen, bei vier erhebungsrelevanten Personen ist die vierte zu befragen. Das Random-Route-Verfahren (auch: Random-Walk-Verfahren) wird meist auf der letzten Stufe eines mehrstufigen Auswahlverfahrens eingesetzt. Nach dem Zufallsprinzip werden zunächst ausgewählte Ausgangspunkte für den Start einer Befragung bestimmt (z.B. Straße). Darüber hinaus wird eine exakte Regel vorgegeben, wie der Interviewer von diesem Ausgangspunkt aus weiter vorgehen soll. Beispielsweise wird ihm vorgegeben, er soll jeden dritten Haushalt in jedem zweiten Gebäude auf der linken Straßenseite befragen o.Ä. Es handelt sich somit um eine Variante der systematischen Auswahl. Vorteilhaft sind die räumliche Konzentration der Feldarbeit, die einfachen Kontrollmöglichkei- <?page no="217"?> Sonstige Verfahren der Stichprobenauswahl 217 ten sowie die vergleichsweise geringen Kosten; allerdings ist der Zufallscharakter des Verfahrens umstritten und eine statistische Berechnung des Zufallsfehlers ist nur näherungsweise möglich (vgl. Berekoven et al. 2009, S. 53). 22..44 SSoonnssttiiggee VVeerrffaahhrreenn ddeerr SSttiicchhpprroobbeennaauusswwaahhll Es gibt eine ganze Reihe weiterer Verfahren der Stichprobenauswahl, welche teilweise eigenständige Verfahren darstellen, teilweise als Kombination der bisher dargestellten Methoden anzusehen sind. Im Folgenden sollen die wichtigsten dargestellt werden: sequenzielle Auswahl, Schneeballverfahren und ADM Stichprobensystem. Im Rahmen einer sequenziellen Auswahl wird zunächst eine vergleichsweise kleine Stichprobe gezogen und ausgewertet. Im Anschluss daran wird entschieden, ob die erhaltenen Informationen ausreichend sind oder nicht (z.B. im Hinblick auf Präzision, Anwendbarkeit von Verfahren der induktiven Statistik sowie komplexer multivariater Verfahren usw.). Ist dies nicht der Fall, werden solange weitere Stichproben gezogen, bis der Informationsstand als ausreichend angesehen wird. Somit wird nicht von einem festgelegten Stichprobenumfang ausgegangen; dieser ergibt sich vielmehr im Laufe der Untersuchung. Vorteilhaft an der sequenziellen Auswahl ist der Versuch, den Stichprobenumfang zu begrenzen und damit die Erhebungskosten zu kontrollieren. Andererseits entsteht ein nicht unerheblicher Analyseaufwand, da nach jeder erneuten Stichprobenziehung aufgrund der Analyseergebnisse entschieden werden muss, ob der Informationsbedarf bereits befriedigt ist. Eine besondere Form eines Auswahlverfahrens stellt das sog. Schnellballverfahren dar (Snowball oder Linkage Sampling). In einem ersten Schritt wird - üblicherweise nach dem Zufallsprinzip - eine anfängliche Gruppe von Erhebungseinheiten ausgesucht. Stößt man im Rahmen der Befragung auf Erhebungseinheiten, welche über die erhebungsrelevanten Merkmale verfügen, werden diese gebeten, Kontaktdaten von Personen mit gleichen Merkmalen zu nennen. In einer zweiten Erhebungswelle werden die neu gewonnenen Erhebungseinheiten ebenfalls gebeten, Kontaktdaten von Personen, die den gleichen Tatbestand erfüllen, zu nennen usw. (vgl. Goodman 1961). Das Hauptziel des Schneeballverfahrens liegt darin, eine Stichprobe von Personen mit solchen Merkmalen zu gewinnen, die in der Gesamtbevölkerung selten sind und daher bei Anwendung einer Zufallsstichprobe in zu geringem Umfang im Sample vertreten wären. Anwendungsbeispiele sind bestimmte Bevölkerungsgruppen, wie z.B. ethnische Minderheiten, Träger bestimmter Krankheiten wie HIV-Infizierte etc. In solchen Fällen ist eine Schneeballauswahl deutlich effizienter als eine Zufallsauswahl; die Varianz in der Stichprobe wird deutlich verringert, die Kosten sind begrenzt. Nachteilig ist, dass es sich nicht um eine Zufallsauswahl handelt und damit der Fehler nicht berechenbar ist. Zudem ist mit erheblichen Klumpungseffekten zu rechnen. Beim ADM Stichprobensystem handelt es sich um eine Flächenstichprobe, die vom Arbeitskreis Deutscher Marktforschungsinstitute e.V. (ADM) zur Durchführung von Bevölkerungsstichproben entwickelt wurde, da in Deutschland kein allgemein zugängliches Verzeichnis aller Privathaushalte existiert. Das ADM Master Sample basiert auf sog. Muster- <?page no="218"?> 218 Festlegung des Auswahlplans Stichprobenplänen, welche als Baukastensystem konzipiert sind (vgl. ausführlich ADM 1979). Dieser allgemeine Rahmen bildete die Grundlage für die Entwicklung des ADM Master Samples; hierbei handelt es sich um ein System von vorgefertigten Stichproben bzw. „Netzen“, welche den Mitgliedsinstituten des ADM zur Verfügung gestellt werden und als Grundlage für die Ziehung individueller, konkreter Stichproben dienen (vgl. Heyde 2009). Die folgenden Ausführungen beziehen sich auf die F2F Flächenstichprobe für persönliche Interviews (für Telefoninterviews wurde ein vergleichbares Verfahren entwickelt, das seit 2012 auch Mobilfunkhaushalte berücksichtigt). Das Stichprobensystem umfasst dabei die folgenden Stufen (vgl. ausführlich z.B. Hüttner/ Schwarting 2002, S. 136 ff.): Auswahl von Sampling Points, Auswahl von Haushalten innerhalb der gezogenen Sampling Points und Auswahl der Zielpersonen in den ausgewählten Haushalten. Die Grundgesamtheit bei Bevölkerungsumfragen in Deutschland ist definiert als Personen, welche in Privathaushalten leben. Um Sampling Points zu bilden, wurde das Gebiet der Bundesrepublik Deutschland in Flächen eingeteilt. 2004 wurde das Stichprobensystem vollständig überarbeitet: Anstelle der bis dato zugrunde gelegten Wahlbezirke wurden als Grundlage die Gemeindegliederung der Bundesrepublik, die intrakommunalen Gebietsgliederungen sowie die für die Navigationssysteme erstellten Regionaleinteilungen verwendet. Auf der Grundlage dieser Daten wurden in Deutschland rd. 53.000 Flächen elektronisch abgegrenzt, die jeweils mindestens 350, durchschnittlich 700 Privathaushalte enthalten. Beispielsweise unterscheidet die Gemeinde Uelzen 23 Ortsteile mit 53 - 22.639 Einwohnern; daraus entstanden 20 Sampling-Points mit 626 - 2433 Einwohnern (vgl. BVM 2006). 2011 wurde das Stichprobensystem aktualisiert. Nach diesen Merkmalen wurde vor der Ziehung geschichtet bzw. angeordnet; die daraus entstandenen Zellen bildeten die Auswahlbasis, aus der anschließend die Ziehung erfolgte. Die Ziehung erfolgte dabei proportional zur Zahl der Haushalte. Es wurden insgesamt 128 Stichproben - sog. Netze - gezogen, welche jeweils rd. 250 Sampling Points umfassen und an die beteiligten Marktforschungsinstitute weitergegeben wurden. Die 128 Netze sind überschneidungsfrei und können beliebig kombiniert werden. Im Rahmen der zweiten Stufe erfolgt seitens der Institute die Ziehung von Haushalten nach einer uneingeschränkten Zufallsauswahl. Hierbei wird unterschieden zwischen einer Totalauflistung, bei welcher sämtliche Haushalte in Sampling Point bekannt und aufgelistet sind, und einer Teilauflistung, bei welcher die Begehung in Form eines Random-Route- Verfahrens erfolgt. Innerhalb der einzelnen Haushalte können die Zielpersonen entweder nach dem Zufalls- oder nach dem Quotenprinzip ausgewählt werden (vgl. die Ausführungen in Kapitel 2). Die konkrete Auswahl kann dabei nach verschiedenen Ansatzpunkten erfolgen (vgl. Berekoven et al. 2009, S. 54 f.). Ist die Grundgesamtheit begrenzt, z.B. Haushaltsvorstände, Jugendliche zwischen 14 und 19 Jahren o.ä., so werden alle Zielpersonen befragt, die das Erhebungskriterium erfüllen. Setzt sich die Grundgesamtheit aus allen erwachsenen Personen zusammen, so bestehen für die konkrete Auswahl der Zielpersonen folgende Möglichkeiten: es werden sämtliche Haushaltsmitglieder befragt, oder es erfolgt eine Auflistung der Haushalte (z.B. alphabetisch oder nach Alter). Anschließend wird pro Haushalt eine Zielperson befragt; als Auswahltechniken kommen Zu- <?page no="219"?> Bestimmung des Stichprobenumfangs 219 fallszahlenfolgen, das Geburtstagsverfahren oder der Schwedenschlüssel zum Einsatz (vgl. die Ausführungen in Abschnitt 2.3). 22..55 BBeessttiimmmmuunngg ddeess SSttiicchhpprroobbeennuummffaannggss Da der Stichprobenumfang zum einen die Präzision des Untersuchungsergebnisses, zum anderen aber auch die Erhebungskosten erheblich beeinflusst, ist die Bestimmung der Stichprobengröße von zentraler Bedeutung. In der Praxis der Marktforschung liegt der bevorzugte Stichprobenumfang je nach Fragestellung im Regelfall zwischen 150 und 3000; bei größeren Stichprobenumfängen besteht die Gefahr, dass der systematische Fehler anwächst und die Verringerung des Stichprobenfehlers dadurch überkompensiert wird. Bei Vorliegen einer Zufallsstichprobe kann der notwendige Stichprobenumfang auf der Basis einer gewünschten Vertrauenswahrscheinlichkeit und einer höchstens zu tolerierenden Fehlersumme errechnet werden. Dies soll im Folgenden anhand der uneingeschränkten Zufallsauswahl gezeigt werden; komplexere Verfahren der Zufallsauswahl kommen c.p. mit kleineren Stichprobenumfängen aus. Aus der Formel für den Standardfehler beim Fall ohne Zurücklegen und unter der Voraussetzung, dass der Auswahlsatz 𝑛𝑛/ � � 0,05 ist, 𝜎𝜎 �̄ � 𝜎𝜎 √𝑛𝑛 , wird ersichtlich, dass der Standardfehler verringert werden kann, wenn der Stichprobenumfang erhöht wird. Dadurch wird das Konfidenzintervall enger; die Parameterschätzung wird genauer. Zur Bestimmung des notwendigen Stichprobenumfangs wird vom Konfidenzintervall für 𝜇𝜇 ausgegangen (heterograder Fall): 𝜇𝜇 � �̄ � 𝑧𝑧 ⋅ 𝜎𝜎 �̄ bzw. 𝜇𝜇 � �̄ � 𝑧𝑧 ⋅ 𝜎𝜎 √𝑛𝑛 . Die absolute Fehlerspanne 𝑒𝑒 resultiert damit als: 𝑒𝑒 � |𝜇𝜇 � �̄ | � 𝑧𝑧 ⋅ 𝜎𝜎 √𝑛𝑛 . Der notwendige Stichprobenumfang kann ermittelt werden, wenn man sowohl die maximale Fehlerspanne angibt, die man gerade noch tolerieren würde, wie auch die Vertrauenswahrscheinlichkeit �1- � bzw. die Irrtumswahrscheinlichkeit vorgibt. Bei bekannter Standardabweichung 𝜎𝜎 in der Grundgesamtheit resultiert der notwendige Stichprobenumfang als: 𝑛𝑛 � �𝑧𝑧 � � 𝜎𝜎 𝑒𝑒 � � � 𝑧𝑧 �� ⋅ 𝜎𝜎 � 𝑒𝑒 � . Analog gilt für den homograden Fall: 𝑒𝑒 � |𝜋𝜋 � �| � 𝑧𝑧 ⋅ 𝜎𝜎 √𝑛𝑛 � �𝜋𝜋�1 � 𝜋𝜋� 𝑛𝑛 <?page no="220"?> 220 Festlegung des Auswahlplans 𝑛𝑛 � 𝑧𝑧 �� ⋅ 𝑝𝑝 ⋅ �1 � 𝑝𝑝� 𝑒𝑒 � . Beispiel 7.10: Ein Unternehmen möchte das durchschnittliche Einkommen seiner Zielgruppe ermitteln. Die Zielgruppe umfasst insgesamt 𝑁𝑁 = 100.000 Personen. Aus Erfahrungswerten ist bekannt, dass in der Grundgesamtheit mit einer Varianz von 𝜎𝜎 � = 120.000 zu rechnen ist. Soll bei gegebener Vertrauenswahrscheinlichkeit von 95 % die Fehlerspanne nicht mehr als 20 € betragen, so ergibt sich ein notwendiger Stichprobenumfang von 𝑛𝑛 � �1,96 20 � � ⋅ 120.000 � 1152. Neben dem Einkommen interessiert sich das Unternehmen auch für den Anteil der Rentnerinnen und Rentner in der Zielgruppe. Soll deren Anteil bei gleicher Vertrauenswahrscheinlichkeit von 95 % nicht mehr als 2 % um den wahren Wert schwanken, ergibt sich: 𝑛𝑛 � �1,96 0,02� � ⋅ 0,18�1 � 0,18� � 1418. In diesem Fall ist der größere Wert des Stichprobenumfangs heranzuziehen, also 𝑛𝑛 � 1418 , damit beide Fehlerspannen eingehalten werden können. Quelle: In Anlehnung an Sander 2019, S. 159 ff. Die obige Berechnung setzt voraus, dass zur Bestimmung des erforderlichen Stichprobenumfangs die Varianz der Grundgesamtheit bzw. - als Ersatzwert - zumindest die Stichprobenvarianz bekannt ist. Da die Stichprobe jedoch gerade erst gebildet werden soll, liegen derartige Werte in der Regel nicht vor. In diesem Fall ist eine außerstatistische Schätzung vorzunehmen, indem auf Expertenurteile oder ähnlich gelagerte Untersuchungen aus der Vergangenheit zurückgegriffen wird. Anzumerken ist weiterhin, dass eine steigende Vertrauenswahrscheinlichkeit bzw. eine sinkende Fehlerspanne zu einem überproportionalen Anstieg des notwendigen Stichprobenumfangs führen, wodurch die Erhebungskosten enorm ansteigen. Beispiel 7.11: Wie im vorangegangenen Beispiel interessiert das Durchschnittseinkommen in der Zielgruppe. Die Grundgesamtheit beträgt 𝑁𝑁 = 100.000. Die Vertrauenswahrscheinlichkeit soll 95% betragen, die Varianz der Grundgesamtheit wird als 𝜎𝜎 � = 120.000 angenommen. In Abhängigkeit von der maximalen Fehlerspanne resultieren die folgenden erforderlichen Stichprobenumfänge: 50 40 30 20 10 5 184 288 512 1152 4610 18439 e n <?page no="221"?> Bestimmung des Stichprobenumfangs 221 Bei Kosten pro Interview von ca. 50 € würde die Untersuchung bereits knapp 1.000.000 € kosten, wollte man die Fehlerspanne auf 5 € reduzieren. Weiterführende Literatur Noelle-Neumann, E., Petersen, T. (2005): Alle, nicht jeder. Einführung in die Methoden der Demoskopie, 4. Aufl., Berlin. Thompson, S.K. (2012): Sampling, 3 rd ed., New York. <?page no="223"?> TTeeiill 88: : DDaatteennssaammmmlluunngg uunndd DDaatteennaauusswweerrttuunngg 11 DDuurrcchhffüühhrruunngg uunndd KKoonnttrroollllee ddeerr FFeellddaarrbbeeiitt Eine sorgfältige Planung des Untersuchungsdesigns ist eine notwendige, aber nicht hinreichende Bedingung für die Güte der Untersuchungsergebnisse; genauso wichtig ist eine korrekte Durchführung der Feldarbeit, da diese das Ausmaß des systematischen Fehlers stark beeinflusst (vgl. hierzu Abschnitt 4.2 im 3. Teil). Häufig wird der eigentlichen Erhebung daher eine Pilotstudie vorgeschaltet, um zu überprüfen, ob das Messinstrument (Fragebogen, Beobachtungsanweisung) adäquat entwickelt wurde. Im Rahmen der Datensammlung sind eine Vielzahl von Teilentscheidungen zu treffen; diese umfassen im Einzelnen (vgl. Abb. 8.1): Auswahl der Feldorganisation, Schulung der Interviewer bzw. Beobachter, Projektabwicklung und Kontrolle der Erhebung AAbbbb.. 88..11: : Teilaufgaben im Rahmen der Durchführung der Feldarbeit Im Rahmen der Auswahl der Feldorganisation ist zunächst die Grundsatzentscheidung zu treffen, ob ein eigener Interviewerstab aufgebaut werden soll, oder aber die Dienste professioneller Dienstleister in Anspruch genommen werden sollen. Während größere Marktforschungsinstitute i.d.R. über einen Stab eigener Kräfte verfügen, greifen kleinere Institute oder Marktforschungsberater häufig auf spezialisierte Agenturen zurück, welche auf dem freien Markt gegen Entgelt ihre Dienste anbieten. Dasselbe gilt in dem Fall, dass das Unternehmen die Erhebung in eigener Regie durchführt. Neben dieser grundsätzlichen organisatorischen Frage sind für das konkrete Projekt die zu beauftragenden Interviewer bzw. Beobachter auszuwählen. Der Forscher sollte detaillierte Aufgabenbeschreibungen in Abhängigkeit von der geplanten Erhebungsform erarbeiten. Darauf auf- DDuurrcchhffüühhrruunngg uunndd KKoonnttrroollllee ddeerr EErrhheebbuunngg AAuusswwaahhll ddeerr FFeellddoorrggaanniissaattiioonn Erstellung von Aufgabenbeschreibungen Erstellung von Anforderungsprofilen Anwerbung von Interviewern SScchhuulluunngg ddeerr IInntteerrvviieewweerr Einweisung in Befragungstechniken und -taktiken Einweisung in Techniken der Antwortbzw. Verhaltensregistrierung KKoonnttrroollllee ddeerr EErrhheebbuunngg Zeitliche Kontrolle Budgetkontrolle Interviewerkontrolle Kontrolle der Stichprobenrepräsentanz Kontaktieren der Erhebungseinheiten Durchführung der Feldarbeit i.e.S. Registrierung der Antworten bzw. des Verhaltens Durchführung von Nachfassaktionen PPrroojjeekkttaabbwwiicckklluunngg <?page no="224"?> 224 Durchführung und Kontrolle der Feldarbeit bauend sollten die erforderlichen Eigenschaften bzw. Qualifikationen der Interviewer festgelegt werden: Während die Durchführung einer quantitativen, standardisierten schriftlichen Erhebung nur geringe Vorkenntnisse erfordert, kann ein qualitatives Tiefeninterview nur durch geschulte Psychologen erfolgen. Auf der Grundlage der erstellten Anforderungsprofile werden geeignete Personen angeworben. Grundsätzlich sollten Interviewer über folgende allgemeine Mindestqualifikationen verfügen (vgl. Malhotra 2019, S. 419): guter gesundheitlicher Zustand, Fähigkeit, auf andere einzugehen, kommunikative Fähigkeiten, angenehmes Äußeres, höheres Bildungsniveau und Erfahrung. In diesem Zusammenhang ist auch der soziodemographische und psychographische Hintergrund der Interviewer zu berücksichtigen. Insbesondere im Rahmen persönlicher Interviews zeigt sich, dass die Wahrscheinlichkeit eines erfolgreichen Interviews umso größer ist, je mehr sich Befrager und Befragte ähneln (vgl. Singer et al. 1983, Barker 1987). Die Schulung der Interviewer ist sehr stark von der gewählten Erhebungsmethode abhängig. Am Beispiel persönlicher Interviews sollen die wichtigsten Richtlinien skizziert werden (vgl. ausführlich Guenzel et al. 1983): Der Interviewer sollte mit den Fragebogen durchweg vertraut sein (sowohl inhaltlich als auch ablauftechnisch). Wortlaut und Reihenfolge der Fragen sollten exakt eingehalten werden. Die Fragen sollten langsam und deutlich vorgelesen werden. Bei Verständnisschwierigkeiten ist die Frage im selben Wortlaut zu wiederholen. Intervieweranweisungen sind exakt zu befolgen. Sorgfältiges Nachhaken ist erforderlich, um Ergänzungen und Erläuterungen seitens der Befragten zu provozieren. Auch bei der Registrierung der Antworten ist sorgfältig vorzugehen. Die Antworten sind wörtlich zu notieren, ferner sollten zusätzliche Anmerkungen und Kommentare ebenfalls im Fragebogen vermerkt werden. Auf keinen Fall sollte der Interviewer Antworten zusammenfassen oder interpretieren; das ist Aufgabe des Forschers. Im Rahmen der Projektabwicklung erfolgt die konkrete Datensammlung bei den Erhebungseinheiten. Dazu gehören folgende Schritte: Kontaktieren der Erhebungseinheit, Befragung bzw. Beobachtung der Auskunftspersonen, Registrierung der Antworten bzw. des beobachteten Verhaltens der Erhebungseinheit, Durchführung von Nachfassaktionen, um schwer zugängliche Probanden zu erreichen. <?page no="225"?> 225 Große Bedeutung hat die Kontrolle der Erhebung, um die Qualität der Ergebnisse zu gewährleisten; die Überprüfung umfasst dabei zeitliche, finanzielle und sachliche Aspekte. In zeitlicher Hinsicht ist die Einhaltung des geplanten Zeitrahmens für die Untersuchung zu überwachen. Die Budgetkontrolle soll gewährleisten, dass der finanzielle Rahmen der Untersuchung nicht gesprengt wird; gerade ungeplante Zeitverzögerungen führen regelmäßig zur Unterschätzung der anfallenden Kosten (vgl. Böhler et al. 2021, S. 154 f.). In sachlicher Hinsicht ist zum einen zu gewährleisten, dass die Interviewer bzw. Beobachter den Anweisungen folgen und die gelernten Techniken im Rahmen der Feldarbeit in geeigneter Weise einsetzen (Interviewerkontrolle); zum anderen ist die Repräsentativität der Stichprobe zu überprüfen. Die Interviewerkontrolle spielt bei Face-to-face- und telefonischen Befragungen eine Rolle, wenn also die Befragung mündlich durch Interviewer administriert wird. Im Rahmen der Interviewerkontrolle sind folgende Aspekte zu beobachten: Überprüfung des Sampling, Überprüfung der Interviewdurchführung. Die Überprüfung des Sampling dient dazu, zu gewährleisten, dass die Interviewer dem Stichprobenplan folgen und nicht die Untersuchungseinheiten nach Bequemlichkeitsaspekten aussuchen, indem sie z.B. einen Probanden, den sie gerade nicht erreichen, nicht nochmals kontaktieren, sondern durch einen anderen ersetzen. Die Interviewer sollen daher angehalten werden, genau zu notieren, wie viele Probanden kontaktiert und wie viele nicht erreicht wurden, wie viele die Teilnahme verweigerten und wie viele Interviews erfolgreich abgeschlossen wurden (vgl. Malhotra 2019, S. 423). Die Überprüfung der Interviewdurchführung soll hingegen aufdecken, ob erstens die Interviews tatsächlich durchgeführt wurden und zweitens, ob die Fragebögen korrekt ausgefüllt wurden. Neben einer allgemeinen Plausibilitätsprüfung wird üblicherweise bei einem Teil der Probanden telefonisch angefragt, ob das Interview tatsächlich durchgeführt wurde. Unter Umständen wird bei einem Teil der Stichprobe die Befragung wiederholt, um Fälschungen aufzudecken. Statistische Verfahren der Mustererkennung können ebenfalls bei der Aufdeckung von Fälschungen unterstützen, da Interviewer, die Fragebögen fälschen, unbewusst oftmals die gleichen Antwortmuster verwenden. Ausführliche Hinweise zur Einhaltung von Qualitätsstandards bei der Datenerhebung finden sich auf der Homepage des ADM (https: / / www.adm-ev.de/ datenerhebung/ ). Bei der Kontrolle der Stichprobenrepräsentativität erfolgt schließlich eine Gegenüberstellung ausgewählter Merkmale der Stichprobe mit bekannten Merkmalen der Grundgesamtheit (i.d.R. soziodemographische Merkmale wie Alter, Geschlecht, Einkommen, Ausbildung, Beruf). Gerade wenn bestimmte Gruppen hohe Ausfälle erzeugen ist die Repräsentativität der Stichprobenergebnisse nicht mehr gewährleistet. In diesem Falle muss nachträglich eine Gewichtung der Daten vorgenommen werden, d.h. unterrepräsentierte Gruppen werden bei der Gesamtauswertung höher gewichtet. Das Verfahren ist insbesondere dann problematisch, wenn nur wenige Merkmalsträger in der Stichprobe sind, diese aber einen signifikanten Anteil der Grundgesamtheit repräsentieren müssen. <?page no="227"?> 22 AAuuffbbeerreeiittuunngg ddeerr DDaatteenn Nach der Durchführung der Feldarbeit liegt das Datenmaterial - je nach Erhebungsmethode - in Form von ausgefüllten Fragebögen, Beobachtungsprotokollen, Audiobzw. Videobänder etc. vor. Die darin enthaltenen Einzelinformationen müssen in geeigneter Weise aufbereitet werden, um sie einer Analyse zugänglich zu machen. Hierbei wird im Folgenden nur der Fall quantitativer Befragungen betrachtet, da qualitative Erhebungen ausführlich in Teil 9 behandelt werden. Abbildung 8.2 zeigt den allgemeinen Ablauf der Datenaufbereitung. AAbbbb.. 88..22: : Ablauf der Datenaufbereitung Der erste Schritt besteht darin, die Fragebögen zu überprüfen; nicht auswertbare Fragebögen sind auszusondern, die verbleibenden müssen ggf. redigiert werden. Zahlreiche Ursachen können dazu führen, dass Fragebögen nicht verwertbar sind: Der Fragebogen ist unvollständig, entweder weil ganze Teile physisch fehlen (z.B. herausgerissene Seiten) oder aber - versehentlich oder absichtlich - nicht ausgefüllt wurden. Der Fragebogen wurde fehlerhaft beantwortet, weil die Befragten offensichtlich die Aufgabe nicht verstanden haben (z.B. Wahl des falschen Pfads bei Gabelungsfragen). Der Fragebogen traf verspätet ein. Die verbleibenden Fragebögen werden einem weiteren Check anhand verschiedener Kriterien unterzogen, ggf. erfolgen Korrekturen an den Fragebögen, um sie verwertbar zu machen. Gängige Kriterien sind (vgl. Iacobucci/ Churchill 2010, S. 407): Vollständigkeit: Fehlende Antworten können Antwortverweigerung, Unverständnis der Frage oder Unwissen der Befragten zum Ausdruck bringen. Für den Zweck der Untersuchung ist es wesentlich, den Grund korrekt zuzuordnen. Lesbarkeit: Kodierung und Eingabe der Daten setzen voraus, dass der Fragebogen lesbar ist; dies gilt sowohl für die Handschrift als auch für mögliche Abkürzungen, die der Interviewer bei der Antwortregistrierung verwendet hat. Verständlichkeit: „Kryptische“ Formulierungen des Interviewers sind zu identifizieren und mit diesem abzuklären. Überprüfung und Redaktion der Fragebögen Dateneingabe und -überprüfung Kodierung Datenkorrektur Erstellung der Datenmatrix <?page no="228"?> 228 Aufbereitung der Daten Konsistenz: Die einzelnen Fragebögen sind dahingehend zu überprüfen, ob sich die Antworten der Befragten widersprechen. Dies ist z.B. dann der Fall, wenn eine Auskunftsperson angibt, die E-Mail-Funktion des Internets zu nutzen, bei der Frage nach ihrer E-Mail-Adresse sie jedoch gleichzeitig angibt, keine zu besitzen. Vergleichbarkeit: Die Registrierung der Antworten soll in vergleichbaren Einheiten erfolgen. Antwortet eine Auskunftsperson auf die Frage nach dem jährlichen Haushaltsnettoeinkommen etwa mit „2500“, so liegt die Annahme nahe, dass sich ihre Antwort auf das monatliche Einkommen bezieht. Treten in den Fragebögen die o.g. Probleme auf, so sind folgende Ansatzpunkte denkbar: Kontaktaufnahme mit dem Interviewer bzw. mit den Befragten, um Missverständnisse auszuräumen und Unklarheiten zu beseitigen; Zuordnung von sog. „Missing Values“ zu den fehlenden oder fehlerhaften Antworten; Aussonderung des Fragebogens, wenn die ersten beiden Wege nicht gangbar sind. Die (manuelle) Überprüfung der Fragebögen entfällt, wenn die Befragung computergestützt erfolgt (z.B. CAPI, CATI). Im Rahmen der Kodierung werden Antwortkategorien gebildet (sofern sie nicht bereits existieren); den einzelnen Antwortkategorien werden dabei möglichst einfache Symbole zugeordnet, i.d.R. Zahlenwerte. Die Kodierung bildet die Voraussetzung dafür, dass die Rohdaten zwecks weitergehender Verarbeitung auf einen Datenträger übertragen werden können. Bei der Kodierung bestehen erhebliche Unterschiede je nachdem, ob die Daten quantitativer oder qualitativer Natur sind. Quantitative Daten entstehen im Rahmen standardisierter Befragungen mit vorgegebenen Antwortkategorien (vgl. Kapitel 2 im 3. Teil). Das entstehende Datenmaterial kann nach entsprechender Kodierung mit Hilfe gängiger Statistikpakete (z.B. SPSS) ausgewertet werden. Die Codes besitzen dabei keinen nummerischen Aussagewert, sondern dienen lediglich der Kennzeichnung und Ordnung der Variablenwerte. Beispiel 8.1: Bei der Frage: „Wie häufig verwenden Sie Marke X pro Woche? “ wird folgender Schlüssel zugrunde gelegt: 1 seltener als einmal 2 einbis zweimal 3 dreibis viermal 4 fünfmal und mehr Weiter mit Frage 18 Die Zahlen 1 bis 4 dienen der Verschlüsselung. Einem Haushalt, der Marke X dreibis viermal pro Woche verwendet, würde der Wert 3 zugeordnet werden. Anders verhält es sich bei qualitativen Studien, in denen offene Fragen verwendet werden, und im Rahmen von Beobachtungen, bei welchen das Verhalten der Probanden aufgezeichnet wird. In diesem Falle existieren keine vorgegebenen Antwortkategorien, diese müssen vielmehr erst entwickelt werden. In manchen Fällen kann sich der Forscher auf vorhandene Studien oder theoretische Überlegungen stützen; ist dies nicht möglich, erfolgt die Kategorienbildung nachträglich (vgl. die Ausführungen in Teil 9). <?page no="229"?> 229 Unabhängig von der Erhebungsmethode sollten bei der Bildung von Kategorien folgende Aspekte beachtet werden (vgl. Luyens 1995): Die Kategorien sollten das gesamte Spektrum der Ausprägungen beschreiben. Zu diesem Zweck empfiehlt es sich oft, selten genannte Fälle in eine Kategorie „Sonstiges“ unterzubringen wie auch eine Kategorie „keine Angabe“ vorzusehen. Die Kategorien sollten sich gegenseitig ausschließen. Dies ist dann der Fall, wenn jede mögliche Antwort einer einzigen Kategorie zugeordnet werden kann. Für kritische Sachverhalte sollten auch dann Kategorien vorgesehen werden, wenn keine einzige Auskunftsperson sie genannt hat, da auch diese Information von Bedeutung sein kann. Beispiel 8.2: Aufgrund hoher Mitarbeiterfluktuation in den letzten drei Jahren soll im Rahmen einer quantitativen Mitarbeiterbefragung die Zufriedenheit mit dem Arbeitsplatz im betrachteten Unternehmen erhoben werden. In die Kategorie „äußerst zufrieden“ fällt keine einzige Antwort. Dies legt für das Management einen dringenden Handlungsbedarf nahe. Bei der Kodierung sollten die Daten in möglichst detaillierter Form verschlüsselt werden. Eine Klassenbildung und Aggregation sollte der Forscher erst im Rahmen der Datenanalyse vornehmen, da ansonsten wertvolle Einzelinformationen verloren gehen. Quantitative Erhebungen beruhen i.d.R. auf großen Stichproben, die mit Hilfe geeigneter Statistiksoftware ausgewertet werden. Werden die Daten mittels Software analysiert, sind in technischer Sicht folgende weiteren Aspekte zu beachten (vgl. Iacobucci/ Churchill 2010, S. 409 f.): Es sollten ausschließlich nummerische Codes verwendet werden. Buchstaben, Sonderzeichen und Leerzeichen sind zu vermeiden. Pro Variable sollten so viele Spalten vorgesehen werden, wie sie zur Erfassung sämtlicher Ausprägungen erforderlich sind. Reicht eine Spalte (mit den Codes 0-9 für die Ausprägungen) nicht aus, so hat die Kodierung zweispaltig zu erfolgen (00-99). Für „keine Angabe“, „trifft nicht zu“ u.Ä. sollten für die gesamte Studie dieselben Kategorien verwendet werden (üblich ist beispielsweise die Ziffer 9 bzw. 99 für „keine Angabe“). Invertierte Items müssen umkodiert werden. Der letzte Schritt im Rahmen der Kodierung ist die Erstellung eines Codeplans, woraus ersichtlich wird, in welcher Weise die Daten kodiert wurden. Tabelle 8.1 zeigt einen Auszug aus einem Codeplan. Der Kodierung der Daten folgt die Übertragung und Speicherung auf einen Datenträger. Dies kann manuell, opto-elektronisch (Lesestift, Scanning) oder automatisch erfolgen (CATI, CAPI). Insbesondere im Falle manueller Eingabe können Fehler auftreten, welche eine Kontrolle erforderlich machen (vgl. Kapitel 1). Erfolgt die Erhebung computergestützt, wird der Fehler bereits bei der Antworteingabe erkannt. Darüber hinaus sind gängige Softwarepakete wie SPSS, EXCEL, SAS in der Lage, bei entsprechender Konfigurierung einige der o.g. Fehler zu erkennen. <?page no="230"?> 230 Aufbereitung der Daten TTaabb.. 88..11: : Auszug aus einem Codeplan Var1 Wie würden Sie das Verhältnis zu Ihrer Hausbank beschreiben? 1 sehr gut 2 gut 3 befriedigend 4 ausreichend 5 schlecht 6 sehr schlecht Welche Transaktionen führen Sie in welcher Form durch? Schalter Internet Telefon Mobil Überweisungen Var2 1/ 0 Var7 1/ 0 Var12 1/ 0 Var17 1/ 0 Kontostandsabfrage Var3 1/ 0 Var8 1/ 0 Var13 1/ 0 Var18 1/ 0 Wertpapiergeschäfte Var4 1/ 0 Var9 1/ 0 Var14 1/ 0 Var19 1/ 0 Daueraufträge Var5 1/ 0 Var10 1/ 0 Var15 1/ 0 Var20 1/ 0 Sonstiges Var6 1/ 0 Var11 1/ 0 Var16 1/ 0 Var21 1/ 0 Wobei benötigen Sie eine persönliche Beratung? Var22 Überweisungen 1/ 0 Var23 Kontostandsabfrage 1/ 0 Var24 Brokerage 1/ 0 Var25 Daueraufträge 1/ 0 Var26 Sonstiges_______________________ Bedienerfreundlichkeit 1 Var27 Benutzeroberflächen im Onlinebanking empfinde ich als bedienerfreundlich Ja, trifft voll zu Nein, trifft gar nicht zu 1 2 3 4 5 6 2 Var28 Es ist in Ordnung, externe Dokumente (z.B. eine TAN-Liste) mitzuführen. Ja, trifft voll zu Nein, trifft gar nicht zu 1 2 3 4 5 6 3 Var29 Ein einfaches Banking-Menü ist auf modernen Mobiltelefonen gut zu bedienen Ja, trifft voll zu Nein, trifft gar nicht zu 1 2 3 4 5 6 Im Anschluss an die Dateneingabe und -überprüfung ist oftmals eine Korrektur erforderlich. Dies kann beinhalten: Behandlung von Missing Values, Gewichtung, Variablentransformation. <?page no="231"?> 231 Missing Values entstehen dann, wenn bestimmte Variablenwerte unbekannt sind (z.B. aufgrund von Antwortverweigerung). Ein hoher Anteil von Missing Values kann die Ergebnisse der Untersuchung erheblich verfälschen, insbesondere dann, wenn die Antwortverweigerer sich nicht gleichmäßig verteilen. Als kritisch wird ein Anteil von über 10 % der Antworten angesehen. Folgende Möglichkeiten sind zur Behandlung von Missing Values gegeben (vgl. Allison 2001): Einfügen eines neutralen Werts: Typischerweise wird hier als fiktiver Wert der Variablenmittelwert eingefügt. Auf diese Weise bleibt der Mittelwert der Variable erhalten, andere Kennziffern werden nur wenig verzerrt. Allerdings ist zu beobachten, dass fehlende Angaben oftmals dann entstehen, wenn eine Auskunftsperson extreme Positionen vertritt, sodass die Angabe des Variablenmittelwerts die Einstellung der Testperson nicht korrekt widerspiegelt. Imputation: Hierunter versteht man eine Schätzung des fehlenden Variablenwerts auf der Grundlage der Antworten auf andere Fragen. Hierzu wurden geeignete statistische Verfahren entwickelt; dennoch wird dadurch immer ein Bias erzeugt. Handelt es sich bei den Ausfällen um zentrale Antworten zu dem Befragungsthema, sind die entsprechenden Fragebögen auszumustern. Bei weniger wichtigen Fragen kann darauf verzichtet werden, die betreffende Frage auszuwerten, der Fragebogen bleibt im Set. Eine Gewichtung ist häufig dann vorzunehmen, wenn die Daten auf einer Zufallsauswahl beruhen. Ziel ist es i.d.R., die Aussagekraft der Daten zu erhöhen. Beispielsweise kann es sinnvoll sein, bei einer Erhebung mit dem Ziel, Ansatzpunkte für eine Produktvariation zu gewinnen, Intensivverwender stärker zu gewichten. Ferner erfolgt eine Gewichtung des Datenmaterials bei hoher Ausfallquote, um die unterrepräsentierten Fälle auszugleichen. Auch bei einer mehrstufigen Auswahl sind Korrekturen vorzunehmen (vgl. Böhler et al. 2021, S. 166): Wenn in der ersten Stufe die Auswahleinheiten Haushalte sind, aus welchen in der zweiten Stufe als Erhebungseinheiten Personen gezogen werden, so hat ein Single eine viermal größere Wahrscheinlichkeit, in die Stichprobe zu gelangen, als ein Mitglied eines 4-Personen-Haushalts. Aus diesem Grunde wird der Fragebogen eines 4-Personen-Haushalts auch viermal gezählt. Schließlich erfolgt eine Gewichtung auch im Rahmen geschichteter Zufallsstichproben. Die Schichten werden entweder proportional zum Anteil der Schichten in der Grundgesamtheit gewichtet, oder disproportional (vgl. die Ausführungen in Teil 7). Allgemein gilt, dass eine Korrektur mittels Gewichtung mit Vorsicht zu genießen ist, da sie zur Verzerrung der Ergebnisse führen kann. Eine Variablentransformation beinhaltet, dass aus den Daten neue Variablen erzeugt bzw. bestehende Variablen modifiziert werden. Hierzu gibt es folgende Ansatzpunkte: Reduktion der Antwortkategorien (z.B. Zusammenfassung der Kategorien „häufig“ und „sehr häufig“ bzw. „selten“ und „sehr selten“ jeweils in einer Kategorie), Bildung neuer Variablen, z.B. Verhältnis zweier Variablen, Indexbildung usw., Spezifizierung von nominalskalierten Variablen mit Hilfe von Dummy-Variablen, Hinzufügen von Variablen, die aus anderen Quellen stammen (zur Ergänzung oder zum Vergleich), Standardisierung, um Variablen mit unterschiedlicher Niveaulage vergleichbar zu machen: <?page no="232"?> 232 Aufbereitung der Daten 𝑧𝑧 � � 𝑥𝑥 � � 𝑥𝑥̄ 𝑠𝑠 mit 𝑧𝑧 � = Ausprägung der standardisierten Variablen, 𝑥𝑥 � = ursprüngliche Variablenausprägung, 𝑥𝑥̄ = Stichprobenmittelwert, 𝑠𝑠 = Standardabweichung in der Stichprobe. T Taabb.. 88..22: : Datenmatrix Fälle Variablen 1 … j … m 1 x 11 … x 1j … x 1m i x i1 … x ij … x im n x n1 … x nj … x nm Der letzte Schritt im Rahmen der Datenaufbereitung besteht in der Erstellung der Datenmatrix. Die Spalten der Datenmatrix enthalten die einzelnen Variablen, die Zeilen die verschiedenen Fälle (z.B. Befragte). Bei 𝑖𝑖 � 1, . . . , 𝑛𝑛 Fällen („Cases“) und 𝑗𝑗 � 1, . . . , 𝑚𝑚 Variablen enthält man somit eine 𝑛𝑛 𝑚𝑚 -Datenmatrix (vgl. Tab. 8.2). Bei quantitativen Erhebungen enthält die Datenmatrix nummerische 𝑥𝑥 �� -Werte; 𝑥𝑥 �� bezeichnet dabei den Wert der Variablen 𝑗𝑗 beim 𝑖𝑖 -ten Fall. Bei qualitativen Untersuchungen wird nicht von einer Datenmatrix gesprochen, es wird häufig jedoch ebenfalls ein Tableau erstellt, welches eine geordnete Darstellung verbaler Äußerungen bzw. beobachteter Verhaltensweisen nach Personen und Variablen enthält und welches ebenfalls die Grundlage für die Analyse bildet (vgl. die Ausführungen in Teil 9). <?page no="233"?> 33 D Daatteennaannaallyyssee 33..11 ÜÜbbeerrbblliicckk Die mit Hilfe primär- oder sekundärstatistischer Datengewinnung erhobenen und aufbereiteten Daten sind in geeigneter Weise zu verarbeiten, um sie einer Interpretation zugänglich zu machen. Hierfür steht eine ganze Reihe von Verfahren der Datenanalyse zur Verfügung, welche sich nach verschiedenen Kriterien einteilen lassen (vgl. Tab. 8.3). Nach der Zahl der berücksichtigten Variablen wird zwischen univariater, bivariater und multivariater Datenanalyse unterschieden. Während sich eine univariate Datenanalyse auf die Untersuchung der Merkmalsausprägungen einer einzigen Variable beschränkt, werden im Rahmen von Verfahren der bi- und multivariaten Datenanalyse die Zusammenhänge zwischen zwei und mehr Variablen untersucht. Nach dem Geltungsanspruch wird zwischen deskriptiven und induktiven Verfahren unterschieden. Aufgabe deskriptiver Verfahren ist die Beschreibung der in der Stichprobe - bzw. bei Totalerhebungen in der Grundgesamtheit - herrschenden Strukturen. Als Beispiele seien die Berechnung von Mittel- und Anteilswerten genannt. Können die Stichprobenbefunde auf eine reale oder hypothetische Grundgesamtheit übertragen werden, spricht man hingegen von induktiven (inferenziellen) Verfahren. Beispielsweise wird mit Hilfe geeigneter Tests vom Mittelwert in der Stichprobe mit einer bestimmten Irrtumswahrscheinlichkeit auf den Mittelwert in der Grundgesamtheit geschlossen. Partitionierung der Datenmatrix beinhaltet die Frage, ob der Variablensatz in abhängige und unabhängige Variablen aufgeteilt werden kann. Ist dies der Fall, so spricht man von Verfahren der Dependenzanalyse; fehlt eine solche Partitionierung, wird also lediglich die Wechselbeziehung der Variablen untereinander untersucht, so handelt es sich um Verfahren der Interdependenzanalyse. Zu den Verfahren der Dependenzanalyse zählen insb. die Korrelationsanalyse und die Kontingenzanalyse, zu den Verfahren der Interdependenzanalyse z.B. die Varianzanalyse und die Regressionsanalyse. Nach der Richtung der Datenkompression (bzw. nach der Betrachtungsebene) wird unterschieden, ob die Variablen in ihrer Gesamtheit betrachtet werden - z.B. Art oder Richtung des Zusammenhangs zwischen Variablen im Rahmen einer Korrelationsanalyse - oder aber als Betrachtungsebene einzelne Objekte analysiert werden, z.B. Zugehörigkeit eines bestimmten Objekts zu einer Objektgruppe im Rahmen der Clusteranalyse. Je nachdem, ob die Analyse postulierte Zusammenhänge überprüft oder erst entdeckt, wird zwischen strukturprüfenden (konfirmatorischen) und strukturentdeckenden (exploratorischen) Verfahren unterschieden. Zu den strukturprüfenden Verfahren gehört die Regressionsanalyse, im Rahmen derer ein hypothetischer Modellzusammenhang geprüft wird; zu den strukturentdeckenden Verfahren zählt die Clusteranalyse. Nach dem Zweck der Auswertung wird schließlich in Verfahren der Datenreduktion, Verfahren der Klassifikation, Verfahren zur Messung von Beziehungen und Verfahren zur Messung von Präferenzen unterschieden (vgl. Abb. 8.3). <?page no="234"?> 234 Datenanalyse TTaabb.. 88..33: : Einteilungskriterien von Verfahren der Datenanalyse Kriterium Ausprägungen Kennzeichnung Zahl der berücksichtigten Variablen univariate Verfahren Betrachtung der Merkmalsausprägungen einer einzigen Variablen bivariate Verfahren Untersuchung der Beziehungen zwischen zwei Variablen multivariate Verfahren Untersuchung der Beziehungen zwischen drei und mehr Variablen Geltungsanspruch deskriptive Verfahren Aussagen über Strukturen in der Stichprobe induktive Verfahren Übertragung von Stichprobenbefunden auf die Grundgesamtheit Partitionierung der Datenmatrix Verfahren der Dependenzanalyse Untersuchung der Abhängigkeit von Variablen von einer oder mehreren unabhängigen Variablen Verfahren der Interdependenzanalyse Untersuchung der wechselseitigen Beziehungen zwischen zwei und mehr Variablen Richtung der Datenkompression auf Variablen gerichtete Verfahren Aussagen über Strukturen von Variablen auf Elemente gerichtete Verfahren Aussagen über Strukturen einzelner Objekte Ausgangspunkt der Auswertung strukturprüfende Verfahren (konfirmatorisch) Überprüfung der Konsistenz der Daten mit postulierten Zusammenhängen strukturentdeckende Verfahren (exploratorisch) Aufdeckung von Zusammenhängen innerhalb eines Datensatzes Auswertungszweck Verfahren der Datenreduktion Komprimieren der Rohdaten auf einige wenige überschaubare Größen Verfahren der Klassifikation Aufteilung einer Gesamtheit von Objekten in Gruppen Verfahren zur Messung von Beziehungen Ermittlung der Zusammenhänge zwischen Variablen Verfahren zur Messung von Präferenzen Beschreibung und Erklärung von Auswahlentscheidungen Verfahren der Datenreduktion haben die Aufgabe, die Vielzahl an Rohdaten zu komprimieren, um das Datenmaterial auf einige wenige überschaubare Größen zu reduzieren; dadurch können Strukturen erkannt werden. Univariate Verfahren der Datenreduktion er- <?page no="235"?> Verfahren der Datenreduktion 235 fassen u.a. die Bildung von Häufigkeitsverteilungen sowie Lokalisations- und Streuungsmaße; zu den multivariaten Verfahren der Datenreduktion zählt die Faktorenanalyse. Verfahren der Klassifikation dienen dem Zweck, eine Gesamtheit von Objekten in Gruppen aufzuteilen; insofern dienen sie in gewisser Weise ebenfalls der Datenreduktion, da eine Vielzahl von Aussagen über Einzelobjekte auf Aussagen über Gruppen von Objekten komprimiert wird. Zu den gebräuchlichsten Verfahren der Klassifikation zählen die multivariaten Verfahren Clusteranalyse, Diskriminanzanalyse und Multidimensionale Skalierung. AAbbbb.. 88..33: : Verfahren der Datenanalyse nach dem Auswertungszweck Verfahren zur Messung von Beziehungen versuchen, Zusammenhänge zwischen den Variablen festzustellen. Bei einseitigen Zusammenhängen spricht man von Dependenzanalyse, bei wechselseitigen von Interdependenzanalyse (s.o.). Verfahren zur Messung von Präferenzen versuchen schließlich, Auswahlentscheidungen von Untersuchungseinheiten, z.B. Konsumentinnen und Konsumenten, zu beschreiben und zu erklären. Unter den Verfahren zur Präferenzmessung hat die Conjointanalyse große Bedeutung erlangt; Präferenzen können darüber hinaus auch mit Hilfe der Multidimensionalen Skalierung ermittelt werden. Im Folgenden werden die Grundzüge der gebräuchlichsten Verfahren skizziert. 33..22 VVeerrffaahhrreenn ddeerr DDaatteennrreedduukkttiioonn 33..22..11 UUnniivvaarriiaattee VVeerrffaahhrreenn ddeerr DDaatteennrreedduukkttiioonn Im Rahmen univariater Verfahren werden die Merkmalsausprägungen einer einzigen Variablen betrachtet bzw. bei Untersuchung mehrerer Variablen erfolgt die Analyse der einzelnen Variablen isoliert. DDeesskkrriippttiivvee VVeerrffaahhrreenn Ausgangspunkt deskriptiver Verfahren der Datenreduktion sind beobachtete Merkmalsausprägungen der Untersuchungsvariablen, welche zunächst ungeordnet vorliegen. Die Rohdaten („Urwerte“) werden der Größe nach geordnet; anschließend wird daraus eine Häufigkeitsverteilung ermittelt. Darüber hinaus werden aus den Daten sog. Maßzahlen errechnet. VVeerrffaahhrreenn ddeerr DDaatteennaannaallyyssee VVeerrffaahhrreenn ddeerr DDaatteennrreedduukkttiioonn ■ Univariate Verfahren ■ Multivariate Verfahren VVeerrffaahhrreenn ddeerr KKllaassssiiffiikkaattiioonn ■ Clusteranalyse ■ Diskriminanzanalyse ■ Multidimensionale Skalierung VVeerrffaahhrreenn zzuurr MMeessssuunngg vvoonn PPrrääffeerreennzzeenn ■ Conjointanalyse ■ Multidimensionale Skalierung ■ Korrelationsanalyse ■ Kontingenzanalyse ■ Varianzanalyse ■ Regressionsanalyse ■ Kausalanalyse VVeerrffaahhrreenn zzuurr MMeessssuunngg vvoonn BBeezziieehhuunnggeenn <?page no="236"?> 236 Datenanalyse Definition Eine Häufigkeitsverteilung beschreibt, wie häufig ein bestimmter Merkmalswert (Ausprägung) in der Stichprobe auftritt. Hierbei wird zwischen absoluten, relativen und kumulierten Häufigkeiten unterschieden. Während die absolute Häufigkeit Aussagen darüber trifft, in wie vielen Fällen eine bestimmte Merkmalsausprägung 𝑗𝑗 in der Stichprobe eingetreten ist ( 𝑛𝑛 � ), beschreibt die relative Häufigkeit 𝑝𝑝 � den jeweiligen Anteil der einzelnen Merkmalsausprägungen in der Stichprobe. Es gilt also: 𝑝𝑝 � � 𝑛𝑛 � 𝑛𝑛 , wobei 𝑝𝑝 � = Anteil der Merkmalsausprägung 𝑗𝑗 in der Stichprobe, 𝑛𝑛 � = absolute Häufigkeit der 𝑗𝑗 -ten Merkmalsausprägung, 𝑛𝑛 = Zahl der Untersuchungseinheiten. Bei Vorliegen eines mindestens ordinalen Skalenniveaus können die Häufigkeiten darüber hinaus kumuliert werden; die Aussage hierbei lautet: „Wie häufig tritt eine Merkmalsausprägung kleiner oder gleich einem bestimmten Wert auf? “. Es gilt also: 𝑛𝑛 �� � ∑ 𝑛𝑛 � �� ��� bzw. 𝑝𝑝 �� � ∑ 𝑝𝑝 � �� ��� . AAlltteerrsskkllaassssee <<2200 2200--3399 4400--4499 6600++ SSuummmmee Absolute Häufigkeit 30 50 70 50 200 Relative Häufigkeit 0,15 0,25 0,35 0,25 1 Kumulierte relative Häufigkeit 0,15 0,40 0,75 1,0 Absolute Häufigkeit Relative Häufigkeit Kumulierte relative Häufigkeit AAbbbb.. 88..44: : Exemplarische Häufigkeitsverteilung der Variable „Alter“ (Quelle: Fantapié Altobelli 1998, S. 328) Abbildung 8.4 zeigt das Grundprinzip der Bildung von Häufigkeitsverteilungen am Beispiel der Variable „Alter“. Bei der Bildung von Häufigkeitsverteilungen ist das Skalenniveau der Variablen zu beachten. Die Menge aller Merkmalsausprägungen eines nominal bzw. ordinal skalierten Merkmals bildet zusammen mit den zugehörigen Häufigkeiten 0,2 0,4 <20 20-39 40-59 60+ 0,6 0,8 1,0 10 20 30 40 <20 20-39 40-59 60+ 50 60 70 0,1 0,2 <20 20-39 40-59 60+ 0,3 <?page no="237"?> Verfahren der Datenreduktion 237 die Häufigkeitsverteilung für dieses Merkmal; dasselbe gilt für metrische diskrete Variablen mit nur sehr wenigen Ausprägungen (z.B. Kinderzahl). Liegt eine metrische diskrete Variable mit sehr vielen möglichen Werten (z.B. Einwohnerzahl) oder aber eine stetige bzw. annähernd stetige metrische Variable (wie z.B. Einkommen) vor, so ist eine Klassenbildung vorzunehmen, da i.d.R. davon auszugehen ist, dass die einzelnen Merkmalsausprägungen jeweils unterschiedlich sind, also nicht mehrfach vorkommen. Durch die Einführung von Klassen resultieren wenige alternative Ausprägungen j analog zu den nominal- oder ordinalskalierten Variablen. Bezeichnet man mit 𝑥𝑥 �� (bzw. 𝑥𝑥 ��� � ) die untere, mit 𝑥𝑥 �� die obere Grenze einer bestimmten Klasse 𝑗𝑗 , so gehört ein Variablenwert 𝑥𝑥 � dann der Klasse 𝑗𝑗 an, wenn gilt: 𝑥𝑥 ��� � � 𝑥𝑥 � � 𝑥𝑥 �� . Für jede Klasse kann als typischer Variablenwert die Klassenmitte definiert werden: 𝑥𝑥̄ � � 12 �𝑥𝑥 ��� � � 𝑥𝑥 �� �. Beispiel 8.3: Im Beispiel der Abb. 8.4 lassen sich die Klassenmitten wie folgt angeben: 𝑥𝑥̄ � � �� �0 � 19� � 9,5 𝑥𝑥̄ � � �� �20 � 39� � 29,5 𝑥𝑥̄ � � �� �40 � 59� � 49,5. 𝑥𝑥̄ � ist nicht angebbar, es sei denn, für die Variable „Alter“ wird eine fiktive Obergrenze definiert, z.B. 100. Es wird ersichtlich, dass mit der Klassenbildung einerseits ein Informationsverlust einhergeht, andererseits gewinnt die Darstellung an Übersichtlichkeit. Insofern sind bei der Bestimmung der Anzahl der Klassen Informationsgehalt und Übersichtlichkeit gegeneinander abzuwägen. Im Hinblick auf die Klassenbreite 𝑑𝑑 � � 𝑥𝑥 �� � 𝑥𝑥 ��� � gilt: In Bereichen, in denen sich die Beobachtungswerte häufen, sollten die Klassen enger gefasst werden als in Randbereichen mit nur geringen Besetzungen. Die Anzahl verschiedener Klassenbreiten darf jedoch nicht zu unterschiedlich sein, um die Vergleichbarkeit der Häufigkeiten zu gewährleisten. Definition Eine Maßzahl ist eine reellwertige Funktion einer Datenmenge und dient der Zusammenfassung einer Vielzahl von Daten (z.B. Variablenwerten). Zu unterscheiden sind hierbei Verteilungsparameter und Verhältniszahlen. Verteilungsparameter haben die Aufgabe, Häufigkeitsverteilungen anhand einiger weniger Werte zu beschreiben. Hierbei wird differenziert zwischen <?page no="238"?> 238 Datenanalyse Lageparametern (Lokalisationsmaßen), Streuungsparametern (Dispersionsmaßen), Formparametern und Konzentrationsparametern. Lageparameter beschreiben die allgemeine Niveaulage einer Verteilung, d.h. deren mittlere Lage; es handelt sich hier also um Mittelwerte. Tabelle 8.4 zeigt Lokalisationsmaße für die verschiedenen Skalenniveaus. TTaabb.. 88..44: : Gebräuchliche Lageparameter in Abhängigkeit vom Skalenniveau Lageparameter Messniveau Charakterisierung Beispiele Nominal Modus Beobachtungswert, der am häufigsten vorkommt Am häufigsten gekaufte Marke eines bestimmten Produkts Ordinal Median Beobachtungswert, welcher die Reihe der (nach ihrer Größe geordneten) Beobachtungswerte halbiert (50 %- Quantil) Note, welche die 50% besseren von den 50% schlechteren Studierenden trennt Metrisch Arithmetisches Mittel (durchschnittlicher Beobachtungswert) 𝑥𝑥̄ � 1 𝑛𝑛 � 𝑥𝑥 � � ��� Durchschnittliche Kinderzahl in der Stichprobe Geometrisches Mittel (durchschnittliche Entwicklung der Beobachtungswerte) 𝑥𝑥̄ � � �� 𝑥𝑥 � � ��� � Durchschnittliches Wachstum des Marktanteils der Marke im Betrachtungszeitraum Als Modus wird der häufigste Wert einer Verteilung bezeichnet; er kann sowohl bei nominalen als auch bei ordinalen und metrischen (ggf. klassierten) Variablen ermittelt werden. Der Median erfordert hingegen ein mindestens ordinales Skalenniveau und beschreibt den Zentralwert einer Verteilung, d.h. denjenigen Wert, der die 50% größeren von den 50% kleineren Variablenwerten trennt; er wird häufig auch als 50%-Quantil bezeichnet. Er wird z.B. herangezogen, um die Stichprobe in Gruppen mit „starken“ und „schwachen“ Ausprägungen aufzuteilen („Median Split“), z.B. im Hinblick auf die Verwendungsintensität eines Produkts. <?page no="239"?> Verfahren der Datenreduktion 239 Definition Als p-Quantil einer Verteilung bezeichnet man allgemein den Merkmalswert, welcher die 100p% kleineren von den 100p% größeren Variablenwerten trennt. Als Quartile werden dabei speziell die Werte 𝑥𝑥�0,25�, 𝑥𝑥�0,5�, 𝑥𝑥�0,75� bezeichnet (vgl. Abb. 8.5). AAbbbb.. 88..55: Quartile einer Häufigkeitsverteilung Bei ungerader Zahl der Ausprägungen ist der Median der (reale) Variablenwert mit der ganzzahligen Ordnungsnummer �𝑛𝑛 � 1�/ 2 ; bei gerader Zahl der Ausprägungen handelt es sich beim Median um einen fiktiven Wert. Bei klassierten metrischen Variablen berechnet sich der Median näherungsweise mittels linearer Interpolation (vgl. Schaich 1998, S. 36 f.). Das arithmetische Mittel setzt mindestens Intervallskalenniveau voraus (vgl. die Ausführungen in Abschnitt 4.3 des 3. Teils). In der Marktforschungspraxis wird es allerdings häufig auch auf Ordinaldaten angewandt. Liegt eine klassierte Häufigkeitsverteilung vor, so ist zunächst ist der Klassenmittelwert zu berechnen: 𝑥𝑥̄ � � 1 𝑛𝑛 � � 𝑥𝑥 �� � � ��� mit = Ordnungsnummer der Variablenwerte in der Klasse 𝑗𝑗 . Der Gesamtmittelwert resultiert als: 𝑥𝑥̄ � � 𝑝𝑝 � � ��� ⋅ 𝑥𝑥̄ � mit 𝑝𝑝 � = Anteil der Klasse 𝑗𝑗 an der Gesamtstichprobe. Das geometrische Mittel wird zur Berechnung durchschnittlicher Wachstumsprozesse eingesetzt. Eine Anwendung des arithmetischen Mittels würde in solchen Fällen zu fehlerhaften Ergebnissen führen. Voraussetzung ist hier das Vorliegen einer Verhältnisskala (vgl. Abschnitt 4.3 im 3. Teil). x h(x) x(0,5) Median x(0,25) 1. Quartil x(0,75) 3. Quartil <?page no="240"?> 240 Datenanalyse Beispiel 8.4: Die nachfolgende Tabelle enthält für die Jahre 2017-2022 die Marktanteile einer Marke X sowie die zugehörigen Wachstumsfaktoren. Die Wachstumsfaktoren 𝑥𝑥 � resultieren dabei durch Division des aktuellen Marktanteils durch den Vorjahreswert (für das Jahr 2016 wurde MA 2016 = 10 % beobachtet). Jahr t 2017 2018 2019 2020 2021 2022 Marktanteil MA t (in %) 12,5 15,0 11,5 14,0 16,0 17,5 Wachstumsfaktor 𝑥𝑥 � 1,25 1,20 0,77 1,22 1,14 1,09 Das geometrische Mittel wird errechnet als 𝑥𝑥̄ � � �1,25 ⋅ 1,20 ⋅ 0,77 ⋅ 1,22 ⋅ 1,14 ⋅ 1,09 � � 1,098 . Der resultierende Wert lässt sich wie folgt interpretieren: Wäre der Ausgangsmarktanteil MA 2016 in Höhe von 10 % jährlich um genau 1,098 gestiegen, wäre 2022 der beobachtete Marktanteil von 17,5 % resultiert. Streuungsparameter beschreiben die Variabilität der Merkmalswerte, d.h. sie sagen aus, in welchem Ausmaß die Variablenwerte im Bereich der Merkmalsskala verteilt sind. Auch hier ist das anzuwendende Maß vom Skalenniveau abhängig (vgl. Tab. 8.5). Bei nominalskalierten Merkmalen kann lediglich angegeben werden, wie viele (bzw. welcher Anteil) der möglichen Ausprägungen der Variablen in der Stichprobe realisiert wurden. Beispiel 8.5: Werden im Rahmen eines Werbetests zwei Gruppen von Testpersonen je 10 Marken präsentiert und werden in der ersten Gruppe im Anschluss an die Präsentation vier, in der zweiten Gruppe sechs Marken erinnert, so ist die Streuung in Gruppe 2 größer als in Gruppe 1. Liegen ordinalskalierte Daten vor, so können zum einen die Variationsbreite (Spannweite), zum anderen der Quartilsabstand angegeben werden. Darüber hinaus kann auch der mittlere Quartilsabstand als halbierte Differenz zwischen dem ersten und dritten Quartil ermittelt werden. Für metrische Daten ist eine ganze Reihe von Streuungsmaßen angebbar. Ausgangspunkt ist dabei grundsätzlich die sog. Abweichungquadratsumme, d.h. die Summe der quadrierten Abweichungen zwischen den einzelnen Variablenwerten und dem Mittelwert der Verteilung. Das in der Marktforschung am häufigsten verwendete Streuungsmaß ist die Varianz 𝑠𝑠 � ; sie bezeichnet den Durchschnitt der quadrierten Abweichungen der Variablenwerte von deren Mittelwert. Deren positive Quadratwurzel ist die Standardabweichung 𝑠𝑠 . Diese besitzt die gleiche Dimension wie die ursprünglichen Variablenwerte (z.B. €) und ist daher anschaulicher zu interpretieren als die Varianz, deren Dimension die quadrierte Dimension der Variablenwerte ist (z.B. €²). An dieser Stelle sei noch erwähnt, dass im Rahmen der deskriptiven Statistik die Varanz durch Division der Abweichungsquadratsumme durch die Zahl der Beobachtungswerte errechnet wird, im Rahmen der induktiven Statistik dagegen durch die Zahl der Freiheitsgrade. <?page no="241"?> Verfahren der Datenreduktion 241 Neben der Varianz als mittlere quadratische Abweichung kann auch die mittlere absolute Abweichung errechnet werden. Sollen Variablen unterschiedlicher Niveaulage miteinander verglichen werden, z.B. Einkommen und Kinderzahl, so empfiehlt es sich, den Variationskoeffizienten durch Division der Standardabweichung durch den Mittelwert zu berechnen; auf diese Weise lässt sich die Dimension „herausrechnen“. Voraussetzung ist allerdings Verhältnisskalenniveau (vgl. hierzu die Ausführungen zu den unterschiedlichen Skalenniveaus in Abschnitt 4.3 des 3. Teils). TTaabb.. 88..55: : Gebräuchliche Streuungsmaße in Abhängigkeit vom Skalenniveau Streuungsmaße Messniveau Charakterisierung Beispiele Nominal Anteil realisierter Ausprägungen 𝑝𝑝 ∗ � 𝑛𝑛 ∗ 𝑛𝑛 Anteil erinnerter Marken bezogen auf die Gesamtheit der im Rahmen eines Werbetests präsentierten Marken Ordinal Variationsbreite (Differenz zwischen dem größten und dem kleinsten Beobachtungswert) � � 𝑥𝑥 ��� � 𝑥𝑥 ��� Spanne, innerhalb welcher sich die Notenergebnisse einer bestimmten Klausur bewegen Quartilsabstand (Differenz zwischen dem dritten und dem ersten Quartil) � � 𝑥𝑥 �� � 𝑥𝑥 �� Notenspanne, innerhalb welcher 50% der Studierenden fallen (die jeweils 25% besten und schlechtesten sind damit nicht enthalten) Metrisch Mittlere absolute Abweichung � � 1 𝑛𝑛 �|𝑥𝑥 � � 𝑥𝑥̄ | � ��� Varianz 𝑠𝑠 � � 1 𝑛𝑛 ��𝑥𝑥 � � 𝑥𝑥̄ � � � ��� Standardabweichung 𝑠𝑠 � �1 𝑛𝑛 ��𝑥𝑥 � � 𝑥𝑥̄ � � � ��� Variationskoeffizient �� � 𝑠𝑠 𝑥𝑥̄ Durchschnittliche (absolute oder quadratische) Abweichung des Einkommens (in Euro) vom arithmetischen Mittel des Einkommens in der Stichprobe (in Euro) <?page no="242"?> 242 Datenanalyse Beispiel 8.6: Im Rahmen einer Befragung resultierten bei der Frage „Ich achte auf gesunde Ernährung“ die folgenden Ergebnisse: Antwortkategorie Kodierung Absolute Häufigkeiten Relative Häufigkeiten Kumulierte relative Häufigkeiten trifft voll zu 4 35 0,35 0,35 trifft eher zu 3 25 0,25 0,60 trifft eher nicht zu 2 30 0,30 0,90 trifft überhaupt nicht zu 1 10 0,10 1,00 Summe 100 1,00 Der Mittelwert resultiert als: 𝑥𝑥̄ � 1 100 �35 ⋅ 4 � 25 ⋅ 3 � 30 ⋅ 2 � 10 ⋅ 1� � 2,85. Die Varianz errechnet sich als 𝑠𝑠 � � 1 100 �35�4 � 2,85� � � 25�3 � 2,85� � � 30�2 � 2,85� � � 10�1 � 2,85� � � � 1,0275 und die zugehörige Standardabweichung beträgt 𝑠𝑠 � �𝑠𝑠 � � 1,0137, d.h. im Durchschnitt weichen die Einzelbewertungen um 1,0137 Punkte vom Mittelwert (2,85) ab. Der Variationskoeffizient beträgt damit �� � 𝑠𝑠 𝑥𝑥̄ � 1,0137 2,85 � 0,3557. Die Spannweite errechnet sich als �4 � 1� � 3. Formparameter beschreiben die Gestalt einer Verteilung und umfassen Schiefesowie Wölbungsmaße. Während Schiefemaße Aussagen über die Symmetrie einer Verteilung erlauben, beschreiben Wölbungsmaße die Steilheit einer Funktion. Diese Maße sind nützlich, da Verteilungen bei gleichem Mittelwert und gleicher Standardabweichung durchaus unterschiedliche Gestalt haben können. Ist beispielsweise die Einkommensverteilung der Käuferinnen und Käufer von Marke X linkssteil und die der Käufer von Marke Y rechtssteil, lässt sich schlussfolgern, dass Marke X eher von Haushalten mit niedrigem und Marke Y eher von Haushalten mit hohem Einkommen nachgefragt wird. Darüber hinaus können je nach Form Jbzw. U-Verteilungen sowie unimodale oder multimodale Verteilungen unterschieden werden. Bei einer unimodalen Verteilung gibt der Mittelwert die mittlere Lage der Verteilung angemessen an, bei einer multimodalen Verteilung ist der Gesamtmittelwert hingegen wenig aussagekräftig. Abbildung 8.6 zeigt ausgewählte Typen (idealisierter) Häufigkeitsverteilungen. Konzentrationsparameter untersuchen schließlich das Ausmaß der Ungleichverteilung der Gesamtheit der Merkmale auf die Merkmalsträger, d.h. sie beschreiben, inwieweit die <?page no="243"?> Verfahren der Datenreduktion 243 Verteilung von einer Gleichverteilung abweicht. Am gebräuchlichsten ist das Konzentrationsmaß nach Lorenz (vgl. Abb. 8.7). Die 45°-Linie repräsentiert die Gleichverteilung. Je größer die Fläche A ist, umso größer ist die relative Konzentration. Handelt es sich bei der betrachteten Variablen beispielsweise um das Einkommen, so besagt Abb. 8.7, dass 20 % der Personen 60 % des Gesamteinkommens erwirtschaften. AAbbbb.. 88..66: : Ausgewählte idealtypische Formen von Häufigkeitsverteilungen Neben den hier beschriebenen Verteilungsparametern können auch Verhältniszahlen ermittelt werden. Hierzu gehören: Quoten (Anteilswerte einer Größe an einer übergeordneten Größe, z.B. Umsatzanteil einer Marke am Gesamtumsatz des Unternehmens), symmetrisch asymmetrisch unimodal bimodal breitgipflig schmalgipflig linkssteil rechtssteil U-förmig J-förmig <?page no="244"?> 244 Datenanalyse Relationen von sachlich zusammenhängenden Variablen, z.B. Pro-Kopf-Einkommen, Messzahlen (Verhältnis eines Wertes in der Berichtsperiode zu einem Wert in der Basisperiode, z.B. Umsatz 2022 bezogen auf Umsatz 2021), Indexzahlen (gewogenes arithmetisches Mittel von Messzahlen mit gleicher Basis- und Berichtsperiode, z.B. Preisindizes von Laspeyres und von Paasche). AAbbbb.. 88..77: : Beispiel für eine Lorenz-Kurve IInndduukkttiivvee VVeerrffaahhrreenn Definition Im Rahmen der induktiven Statistik können aus der Stichprobe Rückschlüsse auf die Gegebenheiten in der Grundgesamtheit gezogen werden. Die ermittelten Verteilungsparameter können Signifikanztests unterzogen werden, mit Hilfe derer Hypothesen über die Verteilung als Ganzes bzw. über einzelne Verteilungsparameter in der Grundgesamtheit überprüft werden. Der allgemeine Ablauf eines Sig- A 45°-Linie 20 40 60 80 100 Kumulierter Anteil der Merkmalsträger in Prozent Kumulierter Anteil am Gesamtbetrag des Merkmals in Prozent 20 40 60 80 100 <?page no="245"?> Verfahren der Datenreduktion 245 nifikanztests ist in Abb. 8.8 skizziert. Die grundsätzliche Vorgehensweise soll anhand der Prüfung des Mittelwerts dargestellt werden. AAbbbb.. 88..88: : Allgemeiner Ablauf eines Hypothesentests Formulierung der Untersuchungshypothesen Im ersten Schritt werden die Untersuchungshypothesen formuliert; hierbei handelt es sich um die Nullhypothese H � und um die Alternativhypothese H � . Die Nullhypothese H � wird in der Regel so formuliert, dass der interessierende Sachverhalt verneint wird. Gelingt es, die Hypothese abzulehnen, so gilt der postulierte Zusammenhang als (vorläufig) bestätigt. Darüber hinaus wird die Alternativhypothese H � formuliert, welche bei Widerlegung von H � angenommen wird. Bei der Formulierung von Hypothesen ist es von entscheidender Bedeutung, ob es sich um eine einseitige oder eine zweiseitige Fragestellung handelt. Bei zweiseitiger Fragestellung interessiert lediglich die Tatsache, ob sich der Mittelwert 𝜇𝜇 vom Ausgangswert 𝜇𝜇 � signifikant unterscheidet; ob 𝜇𝜇 von 𝜇𝜇 � dabei nach oben oder nach unten abweicht, ist irrelevant. Eine beispielhafte Hypothese könnte lauten: Der Bierkonsum in Deutschland hat sich seit dem Vorjahr geändert. Getestet wird die Nullhypothese: Der Bierkonsum hat sich seit dem Vorjahr nicht geändert, d.h. die Hypothesen werden folgendermaßen formuliert: H � : 𝜇𝜇 � 𝜇𝜇 � und H � : 𝜇𝜇 � 𝜇𝜇 � . Bei einseitiger Fragestellung interessiert hingegen auch die Richtung der Abweichung des Mittelwerts 𝜇𝜇 von 𝜇𝜇 � . Wird beispielsweise postuliert, dass sich 𝜇𝜇 im Vergleich zu 𝜇𝜇 � erhöht hat (Beispiel: Der Bierkonsum ist im Vergleich zum Vorjahr gestiegen), würde man die folgenden Hypothesen formulieren: H � : 𝜇𝜇 � 𝜇𝜇 � und H � : 𝜇𝜇 � 𝜇𝜇 � . Wahl des Testverfahrens Festlegung des Signifikanzniveaus Berechnung der Prüfgröße Ermittlung des Ablehnungsbereichs Vergleich der Prüfgröße mit dem tabellierten Wert und Entscheidung Formulierung der Untersuchungshypothesen <?page no="246"?> 246 Datenanalyse Festlegung des Signifikanzniveaus Der nächste Schritt besteht darin, das Signifikanzniveau festzulegen. Der Wert von bezeichnet die Wahrscheinlichkeit dafür, dass die Nullhypothese abgelehnt wird, obwohl sie in der Realität (d.h. in der Grundgesamtheit) zutrifft (aus diesem Grunde wird auch als Irrtumswahrscheinlichkeit bezeichnet). Damit wird deutlich, dass eine statistische Hypothesenprüfung nie mit 100 %-iger Sicherheit, sondern stets unter dem Vorbehalt einer bestimmten Irrtumswahrscheinlichkeit erfolgt. In der Marktforschung gebräuchlich sind folgende Signifikanzniveaus: 0, 1: die zugehörige Sicherheitswahrscheinlichkeit 1 - beträgt 0,90 (90 %), was allenfalls als „schwach signifikant“ bezeichnet werden kann; 0,05 (signifikant, häufig mit dem Symbol ’*’ gekennzeichnet) mit 1 - = 0,95; 0,01 (hochsignifikant,’**’) mit 1 - = 0,99; 0,001 (***), 1 - = 0,999 (dieser Wert wird nur sehr selten gefordert). AAbbbb.. 88..99: : Die gebräuchlichsten statistischen Tests (Quelle: Malhotra 2019, S. 486) Auswahl des Testverfahrens In der Statistik existiert eine Vielzahl von Testverfahren, die sich in verteilungsgebundene und verteilungsfreie Prüfverfahren einteilen lassen (vgl. Abb. 8.9). Verteilungsgebundene Prüfverfahren (auch: parametrische Tests) setzen Normalverteilung der betrachteten Variable voraus; hierzu gehören der t-Test (Prüfung eines Mittelwerts bzw. Vergleich zweier Mittelwerte) sowie der F-Test (Vergleich von Varianzen). Verteilungsfreie Prüfverfahren (auch: nichtparametrische Tests) kommen ohne Normalverteilungsvoraussetzung aus, z.B. der Mann-Whitney-U-Test zum Vergleich von Mittelwerten. HHyyppootthheesseenntteessttss Verteilungsgebunden Verteilungsfrei Unabhängige Stichproben ■ Zwei-Gruppen-t- Test ■ z-Test Verbundene Stichproben ■ t-Test Zwei-Stichproben- Fall Zwei-Stichproben- Fall Ein-Stichproben- Fall ■ t-Test ■ z-Test Ein-Stichproben- Fall ■ Kolgomorov- Smirnov-Test ■ ² -Anpassungstest ■ Run-Test ■ Binomialtest Unabhängige Stichproben ■ Kolgomorov- Smirnov-Test ■ ² -Unabhängigkeitstest ■ U-Test ■ Median-Test Verbundene Stichproben ■ Wilcoxon-Test ■ ² -Test ■ McNemar-Test ■ Wilcoxon Rang- Test <?page no="247"?> Verfahren der Datenreduktion 247 TTaabb.. 88..66: : Ausgewählte statistische Testverfahren im Ein-Stichproben-Fall Bezeichnung Voraussetzungen Prüfgröße Verteilung der Prüfgröße Prüfung des Mittelwerts z-Test Normalverteilung von 𝑥𝑥 Varianz der Grundgesamtheit 𝜎𝜎² bekannt � � 𝑥𝑥̄ � � � 𝜎𝜎 . √𝑛𝑛 Standardnormalverteilung t-Test Normalverteilung von 𝑥𝑥 𝜎𝜎² unbekannt � � 𝑥𝑥̄ � � � 𝑠𝑠 . √𝑛𝑛 mit 𝑠𝑠 � � 1 𝑛𝑛 � 1 ∑�𝑥𝑥 � � 𝑥𝑥̄ � � t-Verteilung mit � � 𝑛𝑛- 1 Freiheitsgraden Prüfung des Anteilswerts z-Test 𝑛𝑛 „groß“ ( 𝑛𝑛 > 30) 𝜋𝜋 � nicht zu nahe bei 0 oder 1 (0,05 𝜋𝜋 � 0,95) Modell mit Zurücklegen Anteilswert der Grundgesamtheit bekannt � � 𝑝𝑝 � 𝜋𝜋 � �𝜋𝜋�1 � 𝜋𝜋� ⋅ √𝑛𝑛 Standardnormalverteilung t-Test 𝑛𝑛 „groß“ 𝜋𝜋 � nicht zu nahe bei 0 oder 1 Modell mit Zurücklegen Anteilswert der Grundgesamtheit unbekannt � � 𝑝𝑝 � 𝜋𝜋 � �𝑝𝑝�1 � 𝑝𝑝� ⋅ √𝑛𝑛 t-Verteilung mit � � 𝑛𝑛- 1 Freiheitsgraden Prüfung der Varianz 2 -Test Normalverteilung von 𝑥𝑥 𝜎𝜎² unbekannt 𝜒𝜒 � � 1 𝜎𝜎 �� �𝑥𝑥 � � 𝑥𝑥̄ � � 𝜒𝜒 � -Verteilung mit � � 𝑛𝑛- 1 Freiheitsgraden z-Test Normalverteilung von 𝑥𝑥 𝜎𝜎² unbekannt 𝑛𝑛 „groß“ ( 𝑛𝑛 > 30) � � 𝑠𝑠 𝜎𝜎 � ⋅ √2𝑛𝑛 � √2𝑛𝑛 � 3 mit 𝑠𝑠 � � 1 𝑛𝑛 � 1 ∑�𝑥𝑥 � � 𝑥𝑥̄ � � Standardnormalverteilung (approximativ) Prüfung der Verteilung einer Variablen 2 -Anpassungstest 𝑥𝑥 diskret mit m möglichen Ausprägungen �𝑗𝑗 � 1, … , 𝑚𝑚� 𝑛𝑛 „groß“ ( 𝑛𝑛 > 30) keine der erwarteten Häufigkeiten soll < 1 sein höchstens 20 % der erwarteten Häufigkeiten sollen < 5 sein einseitiger Test 𝜒𝜒 � � � �𝑛𝑛 � � 𝑛𝑛 ⋅ 𝜋𝜋 � � � 𝑛𝑛 ⋅ 𝜋𝜋 �� � ��� mit 𝑛𝑛 � = beobachtete Häufigkeiten in der Kategorie 𝑗𝑗 𝜋𝜋 � = erwarteter (theoretischer) Anteil der Kategorie 𝑗𝑗 Für 𝑛𝑛 ∞ asymptotisch 𝜒𝜒 � verteilt mit 𝑚𝑚 - 1 Freiheitsgraden <?page no="248"?> 248 Datenanalyse Nach dem Gegenstand der Prüfung lassen sich statistische Tests danach unterscheiden, ob sie Parameter einer Verteilung oder eine Verteilung als Ganzes überprüfen. Als Parameter einer Verteilung werden typischerweise Mittelwerte, Anteilswerte oder Varianzen getestet. Hingegen wird beim Test einer gesamten Verteilung überprüft, ob die Verteilung der empirischen Werte einer theoretischen Verteilung folgt. Hierzu gehört beispielsweise der 𝜒𝜒 � -Anpassungstest oder der Kolmogorov-Smirnov-Test. Auf die einzelnen Testverfahren kann hier nicht im Detail eingegangen werden. Für weiterführende Informationen sei auf die Spezialliteratur verwiesen (vgl. z.B. Kreyszig 1979, Pfanzagl 1983). Berechnung der Prüfgröße Die Wahl des Testverfahrens führt zur Festlegung der zugrunde zu legenden Prüfverteilung, d.h. je nach Testverfahren ist die Prüfgröße zu berechnen, welche einer bestimmten, bekannten Verteilung folgt. Soll der Mittelwert der Grundgesamtheit geprüft werden, so wird die Prüfgröße auf der Basis des Mittelwerts 𝑥𝑥̄ in der Stichprobe berechnet. Als Testverfahren werden meist der t-Test oder der z-Test herangezogen. Tabelle 8.6 zeigt die Prüfgrößen und deren Verteilungen für ausgewählte statistische Testverfahren im Ein-Stichproben-Fall. Ermittlung des Ablehnungsbereichs Liegt das Signifikanzniveau fest und wurde die Prüfgröße bestimmt, so kann der Ablehnungsbereich ermittelt werden. Es wird also das Intervall bestimmt, innerhalb dessen die Nullhypothese abgelehnt wird. Daraus resultiert auch die Entscheidungsregel, welche besagt, dass die Nullhypothese dann abzulehnen ist, wenn die Prüfgröße in den Ablehnungsbereich fällt. Zur Ermittlung des Ablehnungsbereichs ist dabei zwischen einseitigem und zweiseitigem Test zu unterscheiden. Abbildung 8.10 zeigt die Zusammenhänge am Beispiel der Prüfung des Mittelwerts (z-Test). Bei zweiseitiger Fragestellung ist die Nullhypothese dann abzulehnen, wenn die Prüfgröße entweder größer als das �1 - / 2� -Quantil der Standardnormalverteilung oder kleiner als das zugehörige negative �1 - / 2� -Quantil ist. Bei einseitiger Fragestellung wird die Nullhypothese dann abgelehnt, wenn die Prüfgröße größer (kleiner) als das �1 - � -Quantil bzw. dessen negativer Wert ist. Analog lässt sich der Ablehnungsbereich bei den übrigen Tests ermitteln. Die konkrete Bestimmung des Ablehnungsbereichs kann auf der Grundlage statistischer Tabellen erfolgen, in welchen für die verschiedenen Verteilungen Quantile tabelliert sind (vgl. die entsprechenden Tabellen im Anhang). Vergleich der Prüfgröße mit dem tabellierten Wert und Entscheidung Der empirische Wert der Prüfgröße wird mit dem theoretischen Wert verglichen, welcher bei entsprechender Verteilung bei einem Signifikanzniveau resultieren würde. Moderne Statistikpakete wie z.B. SPSS oder STATA zeigen als Ergebnis dabei meist nicht den empirischen Prüfwert, sondern die betreffende Irrtumswahrscheinlichkeit (z.B. p = .004735), sodass die Signifikanz der betrachteten Größe unmittelbar beurteilt werden kann. Auf die Heranziehung statistischer Tafelwerke kann dann verzichtet werden. Hier wäre das Ergebnis auf dem 5%-Niveau, nicht aber auf dem 1%-Niveau signifikant. Das Ergebnis des Tests ist anschließend zu interpretieren. <?page no="249"?> Verfahren der Datenreduktion 249 AAbbbb.. 88..1100: : Ablehnungs- und Annahmebereiche beim z-Test des Mittelwerts Im Zusammenhang mit statistischen Tests ist noch auf Fehler 1. und 2. Art. hinzuweisen (vgl. Bortz/ Schuster 2010, S. 100). Der Fehler 1. Art ( -Fehler) tritt dann auf, wenn H wahr ist, jedoch aufgrund des Stichprobenbefunds fälschlicherweise abgelehnt wird. Der Fehler 2. Art ( -Fehler) entsteht hingegen dann, wenn H falsch ist, jedoch aufgrund des Stichprobenbefunds fälschlicherweise nicht abgelehnt wird. Die Wahrscheinlichkeit eines -Fehlers verhält sich dabei gegenläufig zum Signifikanzniveau . z P(z) 0 1- / 2 / 2 z P(z) 0 1- z P(z) 0 1- Zweiseitiger Test H 0 : = 0 H 1 : 0 Einseitiger Test H 0 : ≥ 0 H 1 : < 0 Einseitiger Test H 0 : 0 H 1 : > 0 <?page no="250"?> 250 Datenanalyse Lage des wahren Parameters Entscheidung: H � wird … nicht abgelehnt abgelehnt H � ist … wahr korrekte Entscheidung 1 - Fehler 1. Art falsch Fehler 2. Art Korrekte Entscheidung 1 - Zur Verringerung von kann bei gegebenem der Stichprobenumfang erhöht werden. Der Wert �1 - � bezeichnet dabei die Trennschärfe des Tests, d.h. die Wahrscheinlichkeit der Vermeidung eines Fehlers 2. Art. Ist der wahre Wert der Grundgesamtheit unbekannt, so kann die Trennschärfe des Tests als Funktion des Werts des zu prüfenden Parameters dargestellt werden (Gütefunktion, Powerfunktion). Die Vorgehensweise eines Hypothesentests wird am Beispiel eines Mittelwerttests dargestellt. (In der Realität ist der Test bei � � 10 nicht sinnvoll, das Beispiel dient nur der Illustration der Methodik.) Beispiel 8.7: Ein Hersteller von Industrieanlagen möchte in Erfahrung bringen, ob die bei ihm tätigten Außendienstmitarbeiter, wie im Dienstvertrag vereinbart wurde, die wichtigsten Kunden des Unternehmens (Key Accounts) auch tatsächlich alle 14 Tage besuchen, d.h. die vorgeschriebenen 26 Besuche pro Jahr absolvieren. Zu diesem Zweck wird bei einer Stichprobe von 10 Key Accounts telefonisch erfragt, wie viele Besuche der für sie zuständige Mitarbeiter im vergangenen Jahr absolviert hat. Die Ergebnisse der Umfrage sind in nachfolgender Tabelle erfasst. Kunde 𝑖𝑖 1 2 3 4 5 6 7 8 9 10 Zahl der Besuche 𝑥𝑥 � 24 27 28 25 26 22 21 23 20 24 Die Zahl der Besuche in der Stichprobe reicht von 20 - 28 Besuchen, der Mittelwert beträgt 24 Besuche. Nun möchte der Hersteller feststellen, ob diese mittlere Besuchszahl - statistisch gesehen - mit der vorgeschriebenen durchschnittlichen Besuchszahl von 𝜇𝜇 � = 26 kompatibel ist. Interessiert den Hersteller die exakte Einhaltung der vorgeschriebenen Besuchszahl, so ist von einer zweiseitigen Fragestellung auszugehen: H � : 𝜇𝜇 � 𝜇𝜇 � � 26 und H � : 𝜇𝜇 � 𝜇𝜇 � � 26. Als Signifikanzniveau wird � 0,05 festgelegt. Da die Varianz in der Grundgesamtheit unbekannt ist, wird folgende Prüfgröße verwendet: <?page no="251"?> Verfahren der Datenreduktion 251 𝑡𝑡 � 𝑥𝑥̄ � � � 𝑠𝑠 ⋅ √𝑛𝑛. Für den Mittelwert und die Varianz in der Stichprobe gilt: 𝑥𝑥̄ �� � 1 10 � 𝑥𝑥 � � � 24 𝑠𝑠 � � 19 ��𝑥𝑥 � � 𝑥𝑥̄ � � � � 6,67 und 𝑠𝑠 � �6,67 � 2,58. Damit beträgt die Prüfgröße: 𝑡𝑡 ��� � 24 � 26 2,58 ⋅ √10 � �2,45. Bei zweiseitiger Fragestellung wird bei einem Signifikanzniveau � 0,05 das 0,975- Quantil 1 � �/ 2 � 0,975 der t-Verteilung bei 𝑘𝑘 � 9 Freiheitsgraden herangezogen: 𝑡𝑡�0,975; 9� � 2,821 . Die Nullhypothese ist abzulehnen, wenn 𝑡𝑡 ��� � 2,821 oder 𝑡𝑡 ��� � - 2,821 . Da dies im Beispiel nicht der Fall ist, wird H � angenommen, d.h. die Anzahl der Außerdienstbesuche weicht durchschnittlich nicht signifikant von der vorgeschriebenen Anzahl von 26 Besuchen ab. In diesem Beispiel kann es jedoch sinnvoll sein, lediglich die Unterschreitung der vorgeschriebenen Besuchszahl zu untersuchen, d.h. zu überprüfen, ob die Außendienstmitarbeiter weniger als die vereinbarte Besuchszahl absolviert haben. In diesem Falle ist von einer einseitigen Fragestellung auszugehen. Dementsprechend lauten die Hypothesen: H � : � � � � � 26 und H � : � � � � � 26. Der empirische Prüfwert 𝑡𝑡 ��� � - 2,45 wird mit dem 0,95-Quantil der t-Verteilung mit 𝑘𝑘 = 9 Freiheitsgraden verglichen: 𝑡𝑡�0,95; 9� � 1,833 . Die H � -Hypothese ist in diesem Falle abzulehnen, die tatsächliche Zahl an Besuchen ist nicht größer oder gleich 26. Damit wird H � angenommen, d.h. im Durchschnitt werden A-Kunden weniger häufig als alle 14 Tage besucht. Dies bedeutet, die Außendienstmitarbeiter haben im Durchschnitt ihre vertraglich vereinbarte Leistung nicht erbracht. <?page no="252"?> 252 Datenanalyse 33..22..22 F Faakkttoorreennaannaallyyssee EExxpplloorraattiivvee FFaakkttoorreennaannaallyyssee Definition Die explorative Faktorenanalyse ist ein strukturenentdeckendes Verfahren zur Reduktion von Daten. Ziel dieser Methode ist die Verdichtung einer Vielzahl von Variablen, welche mehr oder weniger voneinander abhängig sind, auf wenige voneinander unabhängige Variablen, sog. Faktoren, ohne dass es zu einem entscheidenden Informationsverlust kommt. Im Rahmen der Faktorenanalyse erfolgt eine Bündelung der erhobenen interkorrelierten Variablen auf wenige zentrale, unabhängige (Einfluss-)Faktoren (vgl. ausführlich Jöreskog/ Sörbom 1979 und Überla 1977). Dabei müssen die Daten mindestens intervallskaliert sein, d.h. ein metrisches Datenniveau der betrachteten Variablen ist erforderlich. Ferner sollte das Datenmaterial aus einer möglichst homogenen Stichprobe von Befragten entstammen. Eine Faktorenanalyse vollzieht sich in folgenden Schritten (vgl. Backhaus et al. 2021, S. 417 ff.): Variablenauswahl, Errechnung der Korrelationsmatrix, Extraktion der Faktoren und Bestimmung der Kommunalitäten, Bestimmung der Anzahl der Faktoren, Faktorinterpretation und Bestimmung der Faktorwerte. Ausgangspunkt der Faktorenanalyse sind die erhobenen Ausgangsdaten, welche die Bewertung von Eigenschaften für Objekte seitens der Probanden widerspiegeln. Im Rahmen der Variablenauswahl und der Errechnung der Korrelationsmatrix ist es zunächst erforderlich, die Zusammenhänge zwischen den Ausgangsvariablen messbar zu machen. Diese Zusammenhänge werden mit Hilfe der Korrelationsanalyse ermittelt, die zur Messung bzw. zur Aufdeckung der Zusammenhänge zwischen den Ausgangsvariablen dient. Zu diesem Zweck wird der Korrelationskoeffizient herangezogen, der Auskunft über die Stärke des Zusammenhanges zwischen zwei Variablen (Merkmalen) gibt (vgl. die Ausführungen in Abschnitt 3.4.5). Vor der Errechnung der Korrelationsmatrix empfiehlt sich jedoch eine Standardisierung der Ausgangsdaten, um eine bessere Vergleichbarkeit erzielen zu können. Dies geschieht durch Transformation der Merkmale mit Hilfe folgender Formel: 𝑧𝑧 �� � 𝑥𝑥 �� � 𝑥𝑥̄ � 𝑠𝑠 � mit 𝑧𝑧 �� = standardisierter Wert der Variablen 𝑘𝑘 bei Objekt 𝑖𝑖 , 𝑥𝑥 �� = Ausprägung von Merkmal 𝑘𝑘 bei Objekt 𝑖𝑖 , 𝑥𝑥̄ � = Mittelwert des Merkmals 𝑘𝑘 , 𝑠𝑠 � = Standardabweichung des Merkmals 𝑘𝑘 . <?page no="253"?> Verfahren der Datenreduktion 253 Die Mittelwerte 𝑥𝑥̄ � für die Variablen 𝑘𝑘 errechnen sich dabei als 𝑥𝑥̄ � � 1 𝑛𝑛 � 𝑥𝑥 � � und die zugehörigen Standardabweichungen 𝑠𝑠 � als 𝑠𝑠 � � �∑�𝑥𝑥 � � 𝑥𝑥̄ � � � 𝑛𝑛 � 1 . Die Notwendigkeit der Standardisierung ist dann gegeben, wenn die Merkmale in unterschiedlichen Maßeinheiten gemessen werden. Auf der Basis der standardisierten Datenwerte kann anschließend die Korrelationsmatrix erstellt werden (vgl. Tab. 8.7). T Taabb.. 88..77: : Aufbau der Korrelationsmatrix Variable x 1 x 2 x 3 x 4 x 1 1 … … … x 2 1 … … x 3 1 … x 4 1 Die Korrelationsmatrix ( 𝐑𝐑 ) enthält die Korrelationskoeffizienten ( 𝑟𝑟 ) über alle Eigenschaften. Ferner gibt sie Auskunft über die Unabhängigkeit der Ausgangsvariablen. Ist 𝑟𝑟 � 0,6 , können Variablen zu einem Faktor gebündelt werden, da eine starke Korrelation gegeben ist. Wird in der Korrelationsmatrix eine starke Korrelation zwischen zwei oder mehreren Variablen festgestellt, geht die Faktorenanalyse von der Hypothese aus, dass die Variablen von einem hinter ihnen stehenden gemeinsamen Faktor bestimmt werden. Um festzustellen, inwiefern die Korrelationsmatrix für die Faktorenanalyse aussagefähig ist, können weitere Untersuchungen durchgeführt werden. Geeignete Maße hierfür sind u.a. das Signifikanzniveau der Korrelationen, die Inverse der Korrelationsmatrix, der Bartlett-Test, die Anti-Image-Kovarianz-Matrix sowie das Kaiser-Meyer-Olkin-Kriterium (vgl. zu den einzelnen Maßen Backhaus et al. 2021, S. 423 ff.). T Taabb.. 88..88: : Aufbau der Faktorladungsmatrix Variable Faktor F 1 F 2 … F n x 1 … … … … x 2 … … … … … … … … … x I … … … … <?page no="254"?> 254 Datenanalyse Die Maßgröße für den Zusammenhang zwischen einer oder mehrerer Variablen und dem Faktor ist die Faktorladung, die angibt, mit welcher Gewichtung die ermittelten Faktoren an der Beschreibung der beobachteten Zusammenhänge beteiligt sind. Diese lassen sich in einer sog. Faktorladungsmatrix darstellen (vgl. Tab. 8.8). Die Vorgehensweise soll anhand eines Beispiels erläutert werden. Beispiel 8.8: Eine Supermarktkette will ihr Outletkonzept vollkommen umgestalten. Sie beauftragt eine Marktforschungsgruppe, relevante Eigenschaften der Outlets (Einkaufsstätten) zu ermitteln. Mit Hilfe von Tiefeninterviews wurden im Rahmen einer explorativen Voruntersuchung die folgenden relevanten Eigenschaften identifiziert: wahrgenommenes Preisleistungsverhältnis (Preis), ausreichender Parkraum (Parking), Übersichtlichkeit der Warenpräsentation (Präsentation), Erreichbarkeit mit ÖPNV (Anbindung), Attraktivität der Verkaufsförderungsmaßnahmen (Promotion). Zur Datengewinnung werden Kunden in sechs verschiedenen Outlets der Supermarktkette gebeten, diese Eigenschaften auf einer Skala von 1 = sehr schlecht bis 7 = sehr gut zu bewerten. Dabei ergeben sich folgende Mittelwerte: Outlet Präsentation Parking Preis Promotion Anbindung 1 1,0 2,0 1,0 2,1 1,0 2 2,0 4,0 6,0 2,9 3,0 3 4,1 5,0 5,1 4,1 4,0 4 5,0 3,0 6,0 6,1 2,0 5 2,0 6,9 3,0 2,9 5,0 6 3,0 7,0 4,0 4,1 6,0 Im Rahmen einer Faktorenanalyse sollen obige Eigenschaften reduziert werden. Die Marktforschungsgruppe berechnet aus der obigen Datenmatrix die folgende Korrelationsmatrix: Präsentation Parking Preis Promotion Anbindung Präsentation 1,00000 0,05163 0,71105 0,95787 0,11234 Parking 1,00000 0,07455 0,00056 0,98623 Preis 1,00000 0,67289 0,13961 Promotion 1,00000 0,06072 Anbindung 1,00000 Anhand der vorliegenden Korrelationsmatrix könnten folgende Eigenschaften zu je einem Faktor zusammengefasst werden: Faktor 1: Präsentation, Preis, Promotion Faktor 2: Parking, Anbindung. Die in den Faktoren enthaltenen Eigenschaften haben untereinander durchweg eine Korrelation von 0,6 . <?page no="255"?> Verfahren der Datenreduktion 255 Der zweite Schritt der Faktorenanalyse beinhaltet die Extraktion der Faktoren. Grundlage der Faktorenermittlung (Faktorenextraktion) ist das Fundamentaltheorem, welches den Zusammenhang zwischen der Korrelationsmatrix und der Faktorladungsmatrix darstellt. Im Rahmen der Faktorenanalyse geht man von der Annahme aus, dass sich jeder Beobachtungswert einer Ausgangsvariable als Linearkombination mehrerer Faktoren beschreiben lässt. Mathematisch lässt sich das Fundamentaltheorem wie folgt beschreiben (vgl. Hüttner/ Schwarting 2008, S. 250; Überla 1977, S. 50 ff.): 𝑧𝑧 �� � 𝑎𝑎 �� ⋅ 𝑝𝑝 �� � 𝑎𝑎 �� ⋅ 𝑝𝑝 �� � � � 𝑎𝑎 �� ⋅ 𝑝𝑝 �� � � 𝑎𝑎 �� ⋅ 𝑝𝑝 �� � ��� mit 𝑧𝑧 �� = standardisierter Wert der Variablen 𝑘𝑘 bei Objekt 𝑖𝑖 , 𝑎𝑎 �� = Faktorladung 𝑞𝑞 der Variablen 𝑘𝑘 , 𝑝𝑝 �� = Faktor 𝑝𝑝 � von Objekt 𝑖𝑖 . Die standardisierte Variable 𝑧𝑧 kann also vollständig durch die Faktorladungen 𝑎𝑎 multipliziert mit den Faktoren 𝑝𝑝 abgebildet werden. Zur Verkürzung der Notation lässt sich das Fundamentaltheorem auch in Matrizenschreibweise darstellen (vgl. Backhaus et al. 2021, S. 430 f., Hüttner/ Schwarting 2008, S. 251): 𝐙𝐙 � 𝐏𝐏 � 𝐀𝐀’ mit 𝐏𝐏 = Matrix der Faktoren 𝐀𝐀’ = Inverse der Faktorladungsmatrix. Das Fundamentaltheorem der Faktorenanalyse beschreibt den Zusammenhang zwischen der Korrelationsmatrix 𝐑𝐑 und der Faktorladungsmatrix 𝐀𝐀 . Es besagt, dass sich die Korrelationsmatrix durch die Faktorladungen und die Korrelationsmatrix der Faktoren 𝑪𝑪 reproduzieren lässt: 𝐑𝐑 � 𝐀𝐀 � 𝐂𝐂 � 𝐀𝐀’ . Unter der Annahme der Unkorreliertheit der Faktoren reduziert sich das Fundamentaltheorem dabei auf 𝐑𝐑 � 𝐀𝐀 � 𝐀𝐀’. Die Gültigkeit dieses Ausdrucks beschränkt sich allein auf den Fall der Annahme linearer Additivität. Auf der Grundlage des Fundamentaltheorems können die sog. Kommunalitäten der Variablen errechnet werden. Im Folgenden werden zwei Verfahren zur Bestimmung der Kommunalitäten vorgestellt und erläutert: Hauptkomponentenanalyse sowie Hauptachsenanalyse. <?page no="256"?> 256 Datenanalyse Definition Unter dem Begriff Kommunalität versteht man den Teil der Gesamtvarianz einer Variablen, der durch die gemeinsamen Faktoren erklärt wird bzw. den Umfang an der Varianzerklärung, den die Faktoren gemeinsam für die jeweiligen Ausgangsvariablen liefern. Rechnerisch wird die Kommunalität durch die Summe der quadrierten Faktorladungen einer Variablen über alle Faktoren bestimmt. Bei der Hauptkomponentenanalyse handelt es sich um ein besonders effizientes Verfahren zur Faktorenermittlung, das von Pearson (1901) entwickelt und von Hotelling (1933) erstmals in diesem Zusammenhang angewendet wurde. Die Annahme der Hauptkomponentenanalyse besteht darin, dass die Varianz der Ausgangsvariablen vollständig durch die Faktoren erklärt werden kann, d.h. eine Einzelrestvarianz in den Variablen existiert annahmegemäß nicht. Das bedeutet, dass der Startwert der Kommunalität immer gleich 1 ist und die Kommunalität von 1 auch immer dann vollständig reproduziert wird, wenn ebenso viele Faktoren wie Variablen extrahiert werden. Ist die Anzahl der Faktoren geringer als die Anzahl der Variablen, ist im Ergebnis der Wert der Kommunalität (erklärter Varianzanteil) kleiner 1. Der „nicht erklärte“ Varianzanteil (1-Kommunalität) ist jedoch keine Einzelrestvarianz. Hierbei handelt es sich um den durch die Faktoren nicht reproduzierten Varianzanteil, der als Informationsverlust deklariert wird. Ziel der Hauptkomponentenanalyse ist somit eine möglichst umfassende Reproduktion der Datenstruktur mit möglichst wenigen Faktoren. Im Rahmen der Hauptachsenanalyse wird nicht von einer vollständigen Erklärung der Varianzen durch die Faktoren ausgegangen. Bei dieser Methode ist der Startwert der Kommunalitätenschätzung somit kleiner 1, was bedeutet, dass die Varianz einer Variablen nur in Höhe einer vorgegebenen Kommunalität reproduziert werden kann. Dadurch wird unterstellt, dass sich die Varianz einer Variablen immer in die Kommunalität und die Einzelrestvarianz aufteilt. Ziel der Hauptachsenanalyse ist somit die Erklärung der Varianz der Variablen durch die Faktoren, wohingegen die Hauptkomponentenanalyse insbesondere auf umfassende Reproduktion der Datenstruktur durch die Faktoren abzielt (vgl. Aaker et al. 2013, S. 521 ff.). Die Vorgehensweise soll anhand eines Beispiels erläutert werden. Beispiel 8.9: Anhand der Korrelationsmatrix aus Beispiel 8.8 wird folgende Faktorladungsmatrix ermittelt: Variablen Faktor 1 Faktor 2 Faktor 3 Faktor 4 Faktor 5 Präsentation 0,943 -0,225 -0,201 -0,144 0,005 Parking 0,278 0,957 -0,030 0,010 0,075 Preis 0,837 -0,149 0,526 0,012 0,003 Promotion 0,917 -0,270 -0,261 0,135 -0,003 Anbindung 0,340 0,937 -0,009 -0,004 -0,076 <?page no="257"?> Verfahren der Datenreduktion 257 Die Faktorladungen der einzelnen Faktoren ermöglichen die Berechnung der Kommunalitäten der einzelnen Variablen. Bei einer Extraktion von beispielsweise nur zwei Faktoren (Faktor 1, Faktor 2) resultiert die Kommunalität folgendermaßen: Kommunalität Präsentation 0,9394 Parking 0,9933 Preis 0,7235 Promotion 0,9137 Anbindung 0,9941 Die Kommunalität der Variable „Präsentation“ errechnet sich z.B. als 0,943 ² 0,225 ² 0,9394 . Die verbleibende Differenz von 1 0,9394 0,0606 ist gemäß der Hauptkomponentenanalyse als der durch die beiden extrahierten Faktoren nicht erklärte Varianzanteil der Variable „Präsentation“ zu interpretieren. Der dritte Schritt der Faktorenanalyse beinhaltet die Ermittlung der Zahl der Faktoren. Da zur Bestimmung der Faktorenzahl keine eindeutigen Vorschriften existieren, werden im Folgenden zwei gebräuchliche Kriterien herangezogen: Kaiser-Kriterium und Scree-Test. Zur Bestimmung der Faktorenzahl müssen sowohl beim Kaiser-Kriterium als auch beim Scree-Test die Eigenwerte der einzelnen Faktoren ermittelt werden (vgl. Beispiel 8.10). Definition Der Eigenwert ist das Maß für die durch einen Faktor erklärte Varianz der Grundgesamtheit, d.h. der Eigenwert liefert den Varianzbeitrag eines Faktors im Hinblick auf die Varianz aller Variablen. Rechnerisch wird der Eigenwert durch die Summe der quadrierten Faktorladungen eines Faktors bestimmt. Auf der Grundlage des Kaiser-Kriteriums wird die Zahl der Faktoren extrahiert, deren Eigenwert größer Eins ist. Begründet wird diese Vorgehensweise mit der standardisierten Varianz der Variablen, die den Wert Eins hat. Würde der Eigenwert kleiner Eins sein, würde noch nicht einmal die Varianz einer Variablen erklärt werden. Im Gegensatz dazu werden beim Scree-Test die Eigenwerte in einem Eigenwert-Faktor- Diagramm mit abnehmender Wertefolge angeordnet. Die Punkte, die sich asymptotisch der Abszisse nähern, werden durch eine Gerade angenähert. Dabei bestimmt der „letzte“ Punkt links von der Geraden („Elbow“) die Anzahl der zu extrahierenden Faktoren. Es muss einschränkend erwähnt werden, dass dieses Verfahren nicht immer eine eindeutige Lösung liefert, da sich aufgrund ähnlicher Differenzen der Eigenwerte nicht immer ein eindeutiger Knick (Elbow) ermitteln lässt (vgl. Backhaus et al. 2021, S. 447 f., Aaker et al. 2013, S. 524 f.). <?page no="258"?> 258 Datenanalyse Beispiel 8.10: Anhand der Werte aus dem Beispiel 8.8 soll die zu extrahierende Anzahl an Faktoren sowohl nach dem Kaiser-Kriterium als auch nach dem Scree-Test ermittelt werden. Dafür müssen aus der Faktorladungsmatrix zuerst die Eigenwerte der einzelnen Faktoren errechnet werden. Variablen Faktorladungen Faktor 1 Faktor 2 Faktor 3 Faktor 4 Faktor 5 Präsentation 0,943 -0,225 -0,201 -0,144 0,005 Parking 0,278 0,957 -0,030 0,010 0,075 Preis 0,837 -0,149 0,526 0,012 0,003 Promotion 0,917 -0,270 -0,261 0,135 -0,003 Anbindung 0,340 0,937 -0,009 -0,004 -0,076 Die Faktorladungen der einzelnen Faktoren ermöglichen die Berechnung der einzelnen Eigenwerte, indem die Summe der quadrierten Faktorladungen eines Faktors gebildet wird: Faktor 1 1 Faktor 2 Faktor 3 Faktor 4 Faktor 5 Eigenwert 2,623 1,940 0,386 0,039 0,011 1 Eigenwert Faktor 1 0,943 2 0,278 2 0,837 2 0,917 2 0,340 2 2,62. Anhand des vorliegenden Ergebnisses werden sowohl gemäß dem Kaiser-Kriterium als auch gemäß dem Scree-Test die Faktoren 1 und 2 extrahiert. Die Faktoren könnten wie folgt beschrieben werden: Faktor 1: Marketingaktivitäten (Präsentation, Preis, Promotion) Faktor 2: Infrastruktur und Erreichbarkeit (Parking, Anbindung). AAbbbb.. 88..1111: : Eigenwert-Faktor-Diagramm des Beispiels 8.10 Der vierte Schritt der Faktorenanalyse beinhaltet die Faktoreninterpretation. Hierbei handelt es sich um einen kreativen Prozess, indem die in einem Faktor zusammengefassten Variablen mit einem Begriff umschrieben werden müssen. Außerdem dienen die Eigenwerte der Faktoren auch zur Bestimmung ihrer Bedeutung. Interpretationsprobleme 0 1 2 3 1 2 4,07 4 5 Eigenwert Faktor Eigenwert-Faktor-Diagramm Kaiser-Kriterium Elbow-Kriterium <?page no="259"?> Verfahren der Datenreduktion 259 entstehen, wenn Variablen auf mehrere Faktoren hochladen, d.h. die Faktorladungen einer Variablen bei mehreren Faktoren größer als 0,5 sind. Um dieses Problem zu lösen, kommt es zum Einsatz der Faktorenrotation. Zur Interpretationserleichterung wird eine Rotation, d.h. eine Drehung der Koordinatenachsen im Ursprung durchgeführt, bei der die Rechtwinkligkeit der Achsen erhalten bleibt (vgl. Abb. 8.12). Die Rotation wird soweit vollzogen, bis möglichst viele Variablen auf nur noch einen Faktor hoch und auf alle anderen niedrig laden. Ziel ist es, dass die Varianz der quadrierten Ladungen maximiert wird. Dadurch wird es möglich, dass eine Ausgangslösung hinsichtlich ihrer Interpretierbarkeit deutlich verbessert werden kann. Die wichtigsten Rotationsalgorithmen sind (vgl. Costello/ Osborne 2005, S. 3): Varimax-Rotation: Maximierung der Varianz der quadrierten Ladungen pro Faktor; Quartimax-Rotation: Maximierung der Varianz der quadrierten Ladungen pro Variable; Equamax-Rotation: Kombination aus der Varimax- und der Quartimax-Rotation. Im Anschluss an die gegebenenfalls notwendige Faktorenrotation erfolgt dann die Interpretation. AAbbbb.. 88..1122: : Rechtwinklige Varimax-Rotation Neben der Information, dass die Variablen auf eine geringe Zahl an Faktoren reduziert werden können, ist von Interesse, welche Werte die Objekte (z.B. Marken) hinsichtlich der extrahierten Faktoren annehmen, d.h. die Ausprägung der Faktoren bei den Objek- F2 F1 F1 (rotiert) F2 rotiert) <?page no="260"?> 260 Datenanalyse ten (vgl. Backhaus et al. 2021, S. 453 ff.). Der fünfte Schritt der Faktorenanalyse umfasst daher die Bestimmung der Faktorwerte. Um die Positionierung der Objekte vorzunehmen, müssen die einzelnen Faktorwerte berechnet werden. Zunächst erfolgt dabei eine Standardisierung der Beobachtungswerte (Ausgangsdaten). In einem zweiten Schritt kann dann die Berechnung der Faktorwerte 𝐹𝐹 �� erfolgen: 𝐹𝐹 �� � � 𝑤𝑤 �� ⋅ 𝑧𝑧 �� � ��� mit 𝐹𝐹 �� = Faktorwert des Objektes 𝑖𝑖 der Dimension 𝑗𝑗 , 𝑤𝑤 �� = Factor Score Coefficient für Variable 𝑘𝑘 der Dimension 𝑗𝑗 . Zur Ermittlung der Koeffizienten der Faktorwerte (Factor Score Coefficients) werden Schätzverfahren eingesetzt; je nach Wahl des Schätzverfahrens kann die Lösung dabei unterschiedlich ausfallen. In vielen Fällen erfolgt die Berechnung der Faktor Score Coefficients auf der Basis der Regressionsanalyse (vgl. Backhaus et al. 2021, S. 455). Erfolgt eine Reduzierung der Variablen auf lediglich zwei bzw. drei Faktoren, so lassen sich die Faktorwerte in einem Faktorwertediagramm graphisch darstellen und anschließend interpretieren. Beispiel 8.11: Aus den Daten der Beispiele 8.8 - 8.10 wurden die folgenden Factor Score Coefficients mit Hilfe von SPSS ermittelt: Faktor 1 Faktor 2 Präsentation 0,37725 -0,01447 Parking -0,03145 0,50350 Preis 0,32816 0,01234 Promotion 0,37422 -0,03935 Anbindung -0,00598 0,50080 Anhand der vorliegenden Informationen können nunmehr die Faktorwerte berechnet werden. 1. Beobachtungswerte standardisieren: 1.1 Berechnung der Mittelwerte für die Variablen über die Objekte: Präsentation: 𝑥𝑥̄ � � �����,������� � � 2,85 Parking: 𝑥𝑥̄ � � 4,65 Preis: 𝑥𝑥̄ � � 4,18 Promotion: 𝑥𝑥̄ � � 3,70 Anbindung: 𝑥𝑥̄ � � 3,50 <?page no="261"?> Verfahren der Datenreduktion 261 1.2 Berechnung der Standardabweichung der Variablen: Präsentation: 𝑠𝑠 � � � ����,��� � �����,��� � �...�����,��� � ��� � 1,49 Parking: 𝑠𝑠 � = 2,04 Preis: 𝑠𝑠 � = 1,95 Promotion: 𝑠𝑠 � = 1,41 Anbindung: 𝑠𝑠 � = 1,87 1.3 Berechnung der standardisierten Beobachtungswerte: Standardisierte Beobachtungswerte Outlet Präsentation Parking Preis Promotion Anbindung 1 -1,243 -1,297 -1,633 -1,136 -1,336 2 -0,571 -0,318 0,932 -0,568 -0,267 3 0,840 0,171 0,470 0,284 0,267 4 1,445 0,808 0,932 1,704 -0,802 5 -0,571 1,101 -0,607 -0,568 0,802 6 0,101 1,150 -0,094 0,284 1,336 Beispielsweise resultiert 𝑧𝑧 �� als: 𝑧𝑧 �� � ���,�� �,�� � �1,243 . 2. Berechnung der Faktorwerte: Faktorwerte Outlet Faktor 1 Faktor 2 1 -1,381 -1,280 2 -0,111 -0,252 3 0,570 0,203 4 1,519 -0,885 5 -0,667 0,979 6 0,069 1,235 Für 𝐹𝐹 �� ergibt sich exemplarisch: 𝐹𝐹 �� � 0,37725 ⋅ ��1,243��. . . ���0,00598� ⋅ ��1,336� � �1,381 . Die nun vorliegenden Faktorwerte lassen sich in ein Faktordiagramm übertragen. Als Ergebnis kann festgehalten werden, dass die Outlets 1, 2 und 3 sowohl die Infrastruktur als auch die Marketingaktivitäten verbessern müssen (unterschiedlich stark), das Outlet 4 die Infrastruktur verbessern muss und die Outlets 5 und 6 die Marketingaktivitäten erhöhen müssen. <?page no="262"?> 262 Datenanalyse AAbbbb.. 88..1133: : Faktordiagramm des Beispiels 8.11 KKoonnffiirrmmaattoorriisscchhee FFaakkttoorreennaannaallyyssee Definition Die konfirmatorische Faktorenanalyse ist eine Methode zur formalen Darstellung der Messung komplexer Konstrukte durch Indikatoren und zur gleichzeitigen Gütebeurteilung dieser Messung. Sie dient somit der Kontrolle der bei der explorativen Faktorenanalyse gewonnenen Ergebnisse. Durch die Anwendung der konfirmatorischen Faktorenanalyse sollen die Schwachstellen der explorativen Faktorenanalyse, d.h. die Nichtberücksichtigung von Messfehlern, die hohe Subjektivität bei der Reduzierung von Faktoren sowie die Ergebnisinterpretation ausgeglichen werden. Somit ist die konfirmatorische im Gegensatz zur explorativen Faktorenanalyse als strukturprüfend einzuordnen. Sie kann zur Hypothesenprüfung herangezogen werden, wenn aufgrund theoretischer Vorüberlegungen Hypothesen über die Beziehung zwischen direkt beobachtbaren Variablen und dahinter stehenden, nicht beobachtbaren Faktoren aufgestellt werden und es von Interesse ist, diese Hypothesen an einem empirischen Datensatz zu prüfen. Diese Variante der Faktorenanalyse basiert ebenfalls auf dem Fundamentaltheorem. Ausgangspunkt für die konfirmatorische Faktorenanalyse ist die Modellspezifikation. Diese umfasst die Definition der Indikatoren und der Faktoren sowie die Zuordnung der Indikatoren zu den Faktoren. Ferner wird in dieser Phase der Analyse untersucht, inwieweit die ermittelten Daten mit dem konstruierten Modell konsistent sind. Problematisch ist die Zuweisung von Skalen zu latenten Konstrukten, die grundsätzlich keine eigenen Skalen aufweisen. Dies geschieht entweder durch Fixierung einer Faktorladung (i.d.R. mit dem Wert 1) oder durch Fixierung der Varianz eines Faktors. -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 FFaakkttoorrddiiaaggrraammmm Faktor 2 (Infrastruktur) Faktor 1 (Marketingaktivitäten) 11 22 33 44 55 66 <?page no="263"?> Verfahren der Datenreduktion 263 Die Spezifikation umfasst latente Variablen ( 𝜉𝜉 � ), Indikatorvariablen ( 𝑥𝑥 � ), Messfehlervariablen ( 𝜎𝜎 � ), Faktorladungen ( 𝜆𝜆 �,� ) und die Korrelationen der latenten Variablen untereinander ( 𝜓𝜓 �� ). Daraus ergibt sich für das Messmodell folgende Gleichung (vgl. Homburg et al. 2008a, S. 280): 𝒙𝒙 � 𝜦𝜦 ⋅ 𝝃𝝃 � 𝝈𝝈 mit 𝒙𝒙 = Vektor der Indikatorvariablen, 𝜦𝜦 = Matrix der Faktorladungen, 𝝃𝝃 = Vektor der latenten Variablen, 𝝈𝝈 = Vektor der Messfehler. Diese Grundgleichung nimmt in Matrizenschreibweise folgende Form an: �𝑥𝑥 � 𝑥𝑥 � ⋮ 𝑥𝑥 � � � ⎝ ⎛𝜆𝜆 �,� 𝜆𝜆 �,� ⋯ 𝜆𝜆 �,� 𝜆𝜆 �,� 𝜆𝜆 �,� ⋯ 𝜆𝜆 �,� ⋮ ⋮ ⋮ ⋮ 𝜆𝜆 �,� 𝜆𝜆 �,� ⋯ 𝜆𝜆 �,� ⎠⎞ ⋅ �𝜉𝜉 � ⋮ 𝜉𝜉 � � � �𝜎𝜎 � ⋮ 𝜎𝜎 � �. Im zweiten Schritt erfolgt die Parameterschätzung. Ziel ist es, die unbekannten Parameter �𝜆𝜆 �� , 𝜑𝜑 �� , 𝜃𝜃 �,�� � so zu schätzen, dass die vom Modell reproduzierte Kovarianzmatrix 𝚺𝚺� � 𝚺𝚺�𝚲𝚲�, 𝛗𝛗� , 𝛉𝛉� 𝛔𝛔 � die empirische Kovarianzmatrix S möglichst exakt reproduziert. Dadurch wird eine Minimierung einer sog. Diskrepanzfunktion zwischen S und 𝚺𝚺 erreicht. Zu berücksichtigen ist jedoch, dass die Diskrepanzfunktion von der verwendeten Schätzmethode abhängt. Weite Verbreitung findet die Maximum-Likelihood-Methode, bei der zu einem gegebenen Stichprobenergebnis S derjenige Wert 𝚺𝚺� als Schätzer für 𝚺𝚺 gewählt wird, unter dem die Wahrscheinlichkeit des Eintretens von S am größten ist. Die Überprüfung, ob die angenommenen Faktoren das Modell gut beschreiben, erfolgt im dritten Schritt der Vorgehensweise anhand einer Vielzahl von Anpassungsmaßen. Ein Modell, dessen ermittelte Anpassungsmaße sich innerhalb der Anspruchsniveaus befinden, kann als „gut beschrieben“ angesehen werden. Ist ein Modell nicht ausreichend gut beschrieben, so sind Modifikationen erforderlich, etwa die Änderung der Faktorenstruktur, die Herausnahme einzelner Faktoren, die Modifikation der gesamten Modellstruktur oder die Verwendung von so genannten „Cross-loadings“. „Cross-loadings“ kommen dann zur Anwendung, wenn einzelne Variablen Einfluss auf mehrere Faktoren haben. Die Modifikation der Modellstruktur ist dann abgeschlossen, wenn die gewünschten Anspruchsniveaus erreicht sind. Eine Übersicht der gebräuchlichsten Anpassungsmaße sowie der zugehörigen Anspruchsniveaus liefert Tab. 8.9. Globalmaße beschreiben dabei die Modellgüte insgesamt, Partialmaße (lokale Gütekriterien) die Anpassungsgüte einzelner Komponenten. Bei der Anwendung der Kriterien wird dabei typischerweise eine vollständige Erfüllung der globalen Gütemaße gefordert, bei den lokalen Gütemaßen wird die Erfüllung einer Teilmenge (z.B. 50 %) als ausreichend angesehen. Zu beachten ist, dass im Hinblick auf die Anspruchsniveaus bei den einzelnen Kriterien in der Literatur teilweise Uneinigkeit herrscht; die angegebenen Werte sind daher z.T. als Richtgrößen aufzufassen. Ausführliche Erläuterungen zu den einzelnen Anpassungsmaßen sowie eine Übersicht der An- <?page no="264"?> 264 Datenanalyse spruchsniveaus liefern Homburg et al. 2008a, S. 282 ff. sowie Homburg/ Baumgartner 1995. TTaabb.. 88..99: : Anpassungsmaße zur Beurteilung von konfirmatorischen faktoranalytischen Modellen Gütekriterien Anspruchsniveau Globale Gütekriterien Goodness of Fit-Index (GFI) ≥ 0,9 Adjusted Goodness of Fit-Index (AGFI) ≥ 0,9 Normed-Fit-Index (NFI) ≥ 0,9 Comparative-Fit-Index (CFI) ≥ 0,9 Root Mean Square Error of Approximation (RMSEA) 0,08 ²/ 𝑑𝑑𝑑𝑑 2,5 Lokale Gütekriterien Indikatorreliablilität ≥ 0,3-0,4 Faktorreliabilität (FR) ≥ 0,5-0,6 Anteil durchschnittlich erfasster Varianz ≥ 0,5 Signifikanztest der Faktorladungen (einseitig; = 0,05 bzw. 0,01) ≥ 1,645 bzw. ≥ 2,326 Der letzte Schritt beinhaltet die Ergebnisinterpretation. Dabei steht im Fokus, inwieweit die theoretisch unterstellte Struktur mit den empirischen Daten konsistent ist. In diesem Zusammenhang sind die einzelnen Parameterschätzer interessant. Unterschiede in der Stärke der Faktorladungen geben Hinweise auf die Eignung einzelner Indikatoren zur Messung des Konstrukts, wobei hohe Faktorladungen auf eine gute Eignung des Indikators zur Messung hinweisen (vgl. Homburg et al. 2008a, S. 289). 33..33 VVeerrffaahhrreenn ddeerr KKllaassssiiffiikkaattiioonn 33..33..11 C Clluusstteerraannaallyyssee Definition Ziel der Clusteranalyse ist es, eine heterogene Gesamtheit von Objekten (z.B. Konsumenten, Marken) anhand relevanter Merkmale in Gruppen (Cluster) einzuteilen. Dabei sollen die klassifizierten Objekte innerhalb der Gruppe möglichst ähnlich und die Gruppen untereinander möglichst unähnlich sein. Die Variablen können sowohl metrisch als auch nominal (binär) oder ordinal ausgeprägt sein. Eine typische Anwendung im Marketing ist die Bildung von Marktsegmenten bzw. <?page no="265"?> Verfahren der Klassifikation 265 Zielgruppen. Die Clusteranalyse umfasst verschiedene Verfahren der Gruppenbildung. Sie vollzieht sich in folgenden Schritten: Bestimmung der Ähnlichkeiten zwischen den Objekten, Auswahl des Fusionierungsalgorithmus, Bestimmung der Clusteranzahl, Clusterbeschreibung. Ausgangspunkt der Clusteranalyse bildet eine Rohdatenmatrix, welche in allgemeiner Form in Tab. 8.10 dargestellt ist. Zu klassifizieren sind 𝑖𝑖 � 1, … 𝐼𝐼 Objekte anhand von 𝑘𝑘 � 1, … , 𝐾𝐾 Variablen. TTaabb.. 88..1100: : Aufbau der Rohdatenmatrix einer Clusteranalyse Variable 1 Variable 2 … Variable k … Variable K Objekt 1 x 11 x 12 x 1k x 1K Objekt 2 x 21 x 22 x 2k x 2K … … … … … Objekt i x i1 x i2 x ik x iK … … … … … Objekt I x I1 x I2 x Ik x IK Um die Ähnlichkeiten zwischen den Objekten zu ermitteln, wird die Rohdatenmatrix in eine sog. Distanzmatrix (Ähnlichkeitsmatrix) überführt, die immer eine quadratische �𝐼𝐼 𝐼𝐼� - Matrix darstellt. Die Quantifizierung der Ähnlichkeit oder Distanz zwischen den Objekten wird allgemein als Proximitätsmaß bezeichnet. Zwei Arten von Proximitätsmaßen lassen sich unterscheiden: Ähnlichkeitsmaße: Sie spiegeln die Ähnlichkeit zweier Objekte wider (je größer der Wert, desto ähnlicher sind sich die zwei Objekte); Distanzmaße: Sie messen die Unähnlichkeit zwischen zwei Objekten (je größer der Wert, desto unähnlicher sind die zwei Objekte). Während Ähnlichkeitsmaße meistens bei nichtmetrischen Merkmalen eingesetzt werden, finden Distanzmaße überwiegend bei metrischen Merkmalen ihre Anwendung (vgl. Raab et al. 2018, S. 245 f.). Abbildung 8.14 gibt einen Überblick über die gebräuchlichsten Proximitätsmaße. Auf die wichtigsten wird im Folgenden näher eingegangen. Bei einem nominalen (binären) Skalenniveau beruhen die Ähnlichkeitsmaße größtenteils auf der allgemeinen Ähnlichkeitsfunktion 𝑆𝑆 �� � 𝑎𝑎 � �� 𝑎𝑎 � �� � ��� � �� mit 𝑆𝑆 �� = Ähnlichkeit zwischen den Objekten 𝑖𝑖 und 𝑗𝑗 , 𝑎𝑎 = Anzahl der Merkmale, die bei beiden Objekten vorhanden sind (1; 1), <?page no="266"?> 266 Datenanalyse 𝑏𝑏 = Anzahl der Merkmale, die nur bei Objekt 2 vorhanden sind (0; 1), 𝑐𝑐 = Anzahl der Merkmale, die nur bei Objekt 1 vorhanden sind (1; 0), 𝑑𝑑 = Anzahl der Merkmale, die bei beiden Objekten nicht vorhanden sind (0; 0), 𝛿𝛿 , 𝜆𝜆 = mögliche konstante Gewichtungsfaktoren. Der Unterschied zwischen den einzelnen Proximitätsmaßen liegt in der Höhe der beiden Gewichtungsfaktoren 𝛿𝛿 und 𝜆𝜆 (vgl. zu den verschiedenen Proximitätsmaßen den Überblick bei Bortz/ Schuster 2010, S. 454 ff. sowie Backhaus et al. 2021, S. 499 ff.). AAbbbb.. 88..1144: : Überblick über ausgewählte Proximitätsmaße Der Tanimotobzw. der Jaccard-Koeffizient misst den relativen Anteil gemeinsamer Merkmale zweier Objekte bezogen auf die gesamte Anzahl vorhandener Merkmale. Das gemeinsame Nichtvorhandensein eines Merkmals wird nicht beachtet. Somit lautet der Tanimoto-Koeffizient: 𝑆𝑆 �� � 𝑎𝑎 𝑎𝑎 � 𝑏𝑏 � 𝑐𝑐 mit 𝛿𝛿 � 0 und 𝜆𝜆 � 1 . Der Russel&Rao-Koeffizient (RR-Koeffizient) misst den relativen Anteil gemeinsamer vorhandener Merkmale zu allen möglichen Merkmalen. Somit lautet der RR-Koeffizient: 𝑆𝑆 �� � 𝑎𝑎 𝑎𝑎 � 𝑏𝑏 � 𝑐𝑐 � 𝑑𝑑 . Der RR-Koeffizient berücksichtigt keine Gewichtungsfaktoren. Der Simple Matching-Koeffizient misst den relativen Anteil gemeinsamer vorhandener und nichtvorhandener Merkmale zweier Objekte, bezogen auf die gesamte Anzahl möglicher Merkmale. Somit ergibt sich für den M-Koeffizienten folgende Formel: 𝑆𝑆 �� � 𝑎𝑎 � 𝑑𝑑 𝑎𝑎 � 𝑏𝑏 � 𝑐𝑐 � 𝑑𝑑 mit 𝛿𝛿 � 1 und 𝜆𝜆 � 1 . Anhand dieser Ähnlichkeitsmaße wird die Ähnlichkeitsmatrix erstellt und in eine Distanzmatrix (1-Ähnlichkeitsmatrix) überführt. Die Vorgehensweise soll anhand eines Beispiels erläutert werden. PPrrooxxiimmiittäättssmmaaßßee Bei Nominalskalen Bei metrischen Skalen ■ Tanimoto-Koeffizient ■ RR-Koeffizient ■ M-Koeffizient ■ Dice-Koeffizient ■ Kulcynski-Koeffizient ■ L 1 -Norm ■ L 2 -Norm ■ Mahalanobis-Distanz ■ Q-Korrelationskoeffizient <?page no="267"?> Verfahren der Klassifikation 267 Beispiel 8.12: Das Marktforschungsinstitut Späh&Guck wird beauftragt, für einen Kunden die Ähnlichkeit zwischen ausgewählten Automobilmarken zu erfassen und diese zu möglichst homogenen Gruppen zusammenzufassen. Für je ein ausgewähltes Modell der Marken BMW, Audi, VW und Opel resultiert aus verfügbarem Prospektmaterial folgendes Bild: Marke Plug-in Hybrid Sportfahrwerk 1. BMW ja ja 2. Audi ja nein 3. VW nein nein 4. Opel ja nein Auf der Grundlage des Simple-Matching-Koeffizienten können folgende Ähnlichkeiten ermittelt werden: 𝑑𝑑 �,� � � � 𝑑𝑑 � � � � � � 𝑑𝑑 � 1 � 0 1 � 0 � 1 � 0 � 0,5 𝑑𝑑 �,� � 0 � 0 0 � 0 � 2 � 0 � 0 𝑑𝑑 �,� � 1 � 0 1 � 0 � 1 � 0 � 0,5 𝑑𝑑 �,� � 0 � 1 0 � 0 � 1 � 1 � 0,5 𝑑𝑑 �,� � 1 � 1 1 � 0 � 0 � 1 � 1 𝑑𝑑 �,� � 0 � 1 0 � 1 � 0 � 1 � 0,5. Daraus lässt sich die folgende Ähnlichkeitsmatrix aufstellen: BMW Audi VW Opel 1. BMW 2. Audi 3. VW 4. Opel 1 0,5 1 0,0 0,5 1 0,5 1,0 0,5 1 Somit lautet die Distanzmatrix: BMW Audi VW Opel 1. BMW 2. Audi 3. VW 4. Opel 0 0,5 0 1,0 0,5 0 0,5 0,0 0,5 0 Bei einem metrischen Skalenniveau beruhen die Ähnlichkeitsmaße auf der allgemeinen Ähnlichkeitsfunktion der Minkowski-Metrik bzw. L -Norm <?page no="268"?> 268 Datenanalyse 𝑑𝑑�𝑖𝑖, 𝑗𝑗� � ���𝑥𝑥 �� � 𝑥𝑥 �� � � � ��� � �� mit 𝑑𝑑�𝑖𝑖, 𝑗𝑗� = Distanz zwischen Objekt 𝑖𝑖 und Objekt 𝑗𝑗 , 𝑥𝑥 �� = Wert der Variablen 𝑘𝑘 bei Objekt 𝑖𝑖 �𝑘𝑘 � 1, 2, . . . 𝐾𝐾� , 𝑥𝑥 �� = Wert der Variablen 𝑘𝑘 bei Objekt 𝑗𝑗 �𝑘𝑘 � 1, 2, . . . 𝐾𝐾� , 𝑟𝑟 � 1 = Minkowski-Konstante. Dabei stellt 𝑟𝑟 eine positive Konstante dar. Aus der allgemeinen Gleichung der Minkowski-Metrik lassen sich für unterschiedliche Werte von 𝑟𝑟 unterschiedliche Distanzmaße ableiten, z.B. die Euklidische Distanz ( 𝑟𝑟 � 2 , L 2 -Norm) und die City-Block-Metrik ( 𝑟𝑟 � 1 , L 1 -Norm, auch: Manhattan-Metrik). Während die Euklidische Distanz die direkte Entfernung zwischen zwei Objekten im 𝐾𝐾 -dimensionalen Raum misst, ergibt sich bei der City-Block-Metrik die Distanz zweier Punkte als Summe der (absolut gesetzten) Merkmalsdifferenzen, d.h. die Distanz wird rechtwinklig gemessen (vgl. Bortz/ Schuster 2010, S. 456 ff.). Häufig wird in den gängigen Softwarepaketen die quadrierte Euklidische Distanz zugrunde gelegt. Zu beachten ist, dass die verschiedenen Distanzmaße in der Regel auch zu einer unterschiedlichen Rangfolge der Ähnlichkeiten führen (mit Ausnahme des ähnlichsten und des unähnlichsten Objektpaares). Liegen korrelierte Merkmale vor, kann entweder eine Faktorenanalyse vorgeschaltet werden, oder es kann die sog. Mahalanobis-Distanz verwendet werden (vgl. im Detail Bortz/ Schuster 2010, S. 457). Beispiel 8.13: Bei dem Fall des Beispiels 8.12 verfügt die Marktforschungsgruppe zusätzlich über die Preislisten der betrachteten Modelle der Marken BMW, Audi, VW und Opel: Marke Preis in € BMW 40.000 Audi 35.000 VW 29.000 Opel 30.000 Das Distanzmaß der metrischen Variablen soll die direkte Entfernung der Marken im Objektraum messen. Somit erfolgt eine Berücksichtigung der positiven Konstanten von 𝑟𝑟 � 2 , d.h. es wird die Euklidische Distanz verwendet. Da im vorliegenden Beispiel nur ein metrisches Merkmal berücksichtigt wird, gilt 𝐾𝐾 � 1 . Somit wird die Euklidische Distanz berechnet als 𝑑𝑑�𝑖𝑖, 𝑗𝑗� � ���𝑥𝑥 �� � 𝑥𝑥 �� � � � ��� � �� � �𝑥𝑥 �� � 𝑥𝑥 �� �. Daraus ergibt sich die folgende Distanzmatrix: <?page no="269"?> Verfahren der Klassifikation 269 BMW Audi VW Opel BMW Audi VW Opel 0 5.000 0 11.000 6.000 0 10.000 5.000 1.000 0 Voraussetzung für die Ermittlung der Distanzen ist die Verwendung der gleichen Maßeinheit für die metrischen Variablen. Ist dies nicht der Fall, müssen die Daten vorher standardisiert werden. Dies geschieht durch die Transformation der Merkmale mit Hilfe folgender Formel: 𝑧𝑧 �� � 𝑥𝑥 �� � 𝑥𝑥̄ � 𝑠𝑠 � mit 𝑧𝑧 �� = standardisierter Wert von Merkmal 𝑘𝑘 bei Objekt 𝑖𝑖 , 𝑥𝑥 �� = Ausprägung von Merkmal 𝑘𝑘 bei Objekt 𝑖𝑖 , 𝑥𝑥̄ � = Mittelwert von Merkmal 𝑘𝑘 , 𝑠𝑠 � = Standardabweichung von Merkmal 𝑘𝑘 . Um ein Zusammenführen von Distanzmatrizen mit gemischtskalierten (nominal-, ordinal- und metrischskalierten) Merkmalen zu ermöglichen, ist eine linearhomogene Aggregation notwendig. Da die Distanzmatrix für nominalskalierte Merkmale Werte zwischen 0 und 1 annimmt, wird die Distanzmatrix für metrischskalierte Merkmale zuvor normiert, indem die einzelnen Distanzen durch die jeweils maximal vorkommende Distanz dividiert werden. Die Gesamtdistanz ergibt sich anschließend aus der folgenden Gleichung (vgl. Bortz/ Schuster 2010, S. 458): 𝑑𝑑 �� � �𝑔𝑔 � ⋅ 𝑑𝑑 �� � � 𝑔𝑔 � ⋅ 𝑑𝑑 �� � � 𝑔𝑔 � ⋅ 𝑑𝑑 �� � � mit 𝑑𝑑 �� = Distanz zweier Objekte 𝑖𝑖 und 𝑗𝑗 , 𝑔𝑔 = Anteil der Merkmale einer Skalierungsart an der Gesamtheit der Merkmale, N , O , 𝑀𝑀 = Anzahl der nominal-, ordinal- oder metrischskalierten Merkmale. Beispiel 8.14: Die einzelnen Distanzmatrizen der Beispiele 8.12 und 8.13 werden zunächst normiert, indem die Distanzwerte durch den jeweils maximal vorkommenden Wert (1,0 bzw. 11.000) dividiert werden. BMW Audi VW Opel BMW Audi VW Opel 0 0,5 0 1,0 0,5 0 0,5 0,0 0,5 0 <?page no="270"?> 270 Datenanalyse BMW Audi VW Opel BMW Audi VW Opel 0 0,45 0 1,00 0,54 0 0,91 0,45 0,09 0 Anschließend werden beide Matrizen zu einer endgültigen Distanzmatrix zusammengefasst. Bei zwei nominalskalierten und einem metrischskalierten Merkmal errechnet sich der Distanzwert zwischen BMW und Audi beispielsweise wie folgt: 2/ 3 0,5 1/ 3 0,45 0,483 . BMW Audi VW Opel BMW Audi VW Opel 0 0,483 0 1,000 0,513 0 0,637 0,150 0,363 0 Damit ist die Bestimmung der Ähnlichkeiten abgeschlossen. Die gewonnene Distanzmatrix bildet den Ausgangspunkt für die Anwendung von Clusteralgorithmen, die eine Zusammenfassung der Objekte zum Ziel haben. Dabei stehen unterschiedliche Fusionierungsalgorithmen zur Auswahl (vgl. Abb. 8.15). AAbbbb.. 88..1155: Überblick über ausgewählte Clusteralgorithmen (Quelle: Backhaus et al. 2021, S. 507) Im nächsten Schritt wird die Clusteranzahl bestimmt. Üblicherweise wird das Elbow-Kriterium herangezogen. Der Abbruch erfolgt dann, wenn eine weitere Zusammenfassung der bestehenden Cluster zu einem Sprung in der Fehlerquadratsumme führt. Dabei ist zu berücksichtigen, dass der jeweilige Wert beim Elbow-Kriterium vom Anwender individuell vorgegeben werden muss. Schließlich erfolgt die Clusterbeschreibung. Hierbei wird entweder der Zentroid herangezogen (d.h. das fiktive Element des Clusters mit jeweils durchschnittlichen Ausprägungen bzgl. aller Merkmale), oder aber das reale Objekt, das dem Zentroiden am nächsten liegt. CClluusstteerrvveerrffaahhrreenn Graphentheoretische Verfahren Hierarchische Verfahren Partitionierende Verfahren Optimierungsverfahren Divisiv Agglomerativ Austauschverfahren Iteratives Minimaldistanzverfahren Single- Linkage Complete- Linkage Average- Linkage Centroid Median Ward <?page no="271"?> Verfahren der Klassifikation 271 HHiieerraarrcchhiisscchhee VVeerrffaahhrreenn Hierarchische Verfahren beruhen darauf, dass Cluster schrittweise durch Aggregation oder Teilung von Elementen bzw. Gruppen gebildet werden. Während bei den divisiven Verfahren die Gesamtheit der Objekte schrittweise in immer feinere Klassen zerlegt wird, werden bei den agglomerativen Verfahren die Objekte sukzessive zu immer größeren Klassen zusammengefasst (vgl. Hoberg 2003, S. 94 f.). Eine der am häufigsten angewandten agglomerativen Techniken stellt das Single-Linkage dar. Wie bei allen agglomerativen Verfahren werden zunächst die Objekte mit der geringsten Distanz aus der endgültigen Distanzmatrix zu einer ersten Gruppe vereint. Im darauffolgenden Schritt erfolgt beim Single-Linkage-Verfahren nur eine Berücksichtigung der kleinsten Einzeldistanz („Nearest Neighbour“). Werden also zwei Elemente (oder Gruppen) 𝑃𝑃 und 𝑄𝑄 zu einer neuen Gruppe ( 𝑃𝑃 � 𝑄𝑄 ) zusammengefasst, so errechnet sich die Distanz zwischen der Gruppe ( 𝑃𝑃 � 𝑄𝑄 ) und dem Element bzw. der Gruppe 𝑅𝑅 wie folgt: 𝐷𝐷�𝑅𝑅; 𝑃𝑃 � 𝑄𝑄� � 0,5�𝐷𝐷�𝑅𝑅, 𝑃𝑃� � 𝐷𝐷�𝑅𝑅, 𝑄𝑄� � |𝐷𝐷�𝑅𝑅, 𝑃𝑃� � 𝐷𝐷�𝑅𝑅, 𝑄𝑄�|�. Vereinfacht lässt sich die Distanz auch aus der nachfolgenden Beziehung ermitteln: 𝐷𝐷�𝑅𝑅; 𝑃𝑃 � 𝑄𝑄� � ����𝐷𝐷�𝑅𝑅, 𝑃𝑃� ; 𝐷𝐷 �𝑅𝑅, 𝑄𝑄��. Dieses Verfahren ist für alle Distanzmaße geeignet, birgt jedoch die Gefahr, dass es zu kettenförmigen Clustergebilden kommen kann (Chaining-Effekt), in denen sich Objekte befinden, die zueinander eine geringere Ähnlichkeit aufweisen als zu Objekten anderer Cluster (vgl. Jensen 2008, S. 347). Das Verfahren ist beendet, wenn alle Objekte zu einer einzigen Klasse zusammengefasst werden. Als Ergebnis erhält man eine Baumstruktur (Dendrogramm). Beispiel 8.15: Aus der Distanzmatrix des Beispiels 8.14 resultiert die geringste Distanz zwischen Audi und Opel mit einem Wert von 0,150, sodass Audi und Opel zu einer ersten Gruppe zusammengefasst werden. Die reduzierte Distanzmatrix sieht wie folgt aus: (1) (2,4) (3) (1) (2,4) (3) 0 0,483 0 1,000 0,363 0 mit (1)=BMW, (2)=Audi, (3)=VW, (4)=Opel Die reduzierte Distanzmatrix zeigt, dass die geringste Distanz nunmehr zwischen der Audi-Opel-Gruppe und VW besteht. Aus diesem Grunde wird VW der ersten Gruppe hinzugefügt. BMW bildet alleine ein zweites Cluster. (1) (3,(2,4)) (1) (3,(2,4)) 0 0,483 0 Ein alternatives agglomeratives Verfahren stellt das Complete-Linkage-Verfahren dar. Der Unterschied zum Single-Linkage-Verfahren besteht lediglich in der Vorgehensweise bei der Bildung der reduzierten Distanzmatrix. Beim Complete-Linkage-Verfahren erfolgt <?page no="272"?> 272 Datenanalyse eine Berücksichtigung der größten Einzeldistanz („Furthest Neighbour“) (vgl. Backhaus et al. 2021, S. 516). Die Berechnung der neuen Distanz erfolgt gemäß der Gleichung: 𝐷𝐷�𝑅𝑅; 𝑃𝑃 � 𝑄𝑄� � 0,5�𝐷𝐷�𝑅𝑅, 𝑃𝑃� � 𝐷𝐷�𝑅𝑅, 𝑄𝑄� � |𝐷𝐷�𝑅𝑅, 𝑃𝑃� � 𝐷𝐷�𝑅𝑅, 𝑄𝑄�|�. Vereinfacht lässt sich die Distanz auch aus der nachfolgenden Beziehung ermitteln: 𝐷𝐷�𝑅𝑅; 𝑃𝑃 � 𝑄𝑄� � ��𝑥𝑥�𝐷𝐷�𝑅𝑅, 𝑃𝑃� ; 𝐷𝐷 �𝑅𝑅, 𝑄𝑄��. Auch bei diesem Verfahren können sämtliche Distanzmaße zugrunde gelegt werden. Ferner ist gewährleistet, dass alle paarweisen Objektähnlichkeiten innerhalb eines Clusters kleiner sind als der Durchschnitt der paarweisen Ähnlichkeiten zwischen verschiedenen Clustern. Einen Kompromiss zwischen dem Single-Linkage- und dem Complete-Linkage-Verfahren stellt das Average-Linkage-Verfahren dar. Bei diesem Verfahren wird die durchschnittliche Entfernung der Objekte zu allen Objekten des neuen Clusters wie folgt berechnet: 𝐷𝐷�𝑅𝑅; 𝑃𝑃 � 𝑄𝑄� � 0,5�𝐷𝐷�𝑅𝑅, 𝑃𝑃� � 𝐷𝐷�𝑅𝑅, 𝑄𝑄��. Ein in der Praxis häufig genutzter Clusteralgorithmus ist das Ward-Verfahren (vgl. Bortz/ Schuster 2010, S. 462 ff.). Im Vergleich zu den bisher vorgestellten Verfahren erfolgt beim Ward-Verfahren keine Fusionierung von Objekten auf der Basis der geringsten Distanzen, sondern es werden jene Objekte bzw. Gruppen fusioniert, die ein vorgegebenes Heterogenitätsmaß am wenigsten vergrößern. In der Literatur wird dieses Verfahren auch als Minimum-Varianz-Methode, Fehlerquadratsummen-Methode oder HGROUP-100-Methode bezeichnet. Die Berechnung der Distanz des zuletzt gebildeten Clusters zu den anderen Gruppen erfolgt gemäß folgender Formel: 𝐷𝐷�𝑅𝑅; 𝑃𝑃 � 𝑄𝑄� � 1 𝑁𝑁𝑅𝑅 � 𝑁𝑁𝑃𝑃 � 𝑁𝑁𝑄𝑄 ��𝑁𝑁𝑅𝑅 � 𝑁𝑁𝑃𝑃� ⋅ 𝐷𝐷�𝑅𝑅, 𝑃𝑃� � �𝑁𝑁𝑅𝑅 � 𝑁𝑁𝑄𝑄� ⋅ 𝐷𝐷�𝑅𝑅, 𝑄𝑄� � 𝑁𝑁𝑅𝑅 ⋅ 𝐷𝐷�𝑃𝑃, 𝑄𝑄�� mit 𝑁𝑁𝑅𝑅 ( 𝑁𝑁𝑃𝑃 , 𝑁𝑁𝑄𝑄 ) = Zahl der Objekte in Gruppe 𝑅𝑅 ( 𝑃𝑃 , 𝑄𝑄 ). Ziel des Ward-Verfahrens ist es somit, die Objekte bzw. Gruppen zu vereinen, die die Streuung (Varianz) möglichst wenig erhöhen. Als Konsequenz bildet der Algorithmus im Ergebnis tendenziell in sich homogene und ähnlich große Cluster (vgl. Raab et al. 2018, S. 248). Das Varianzkriterium (Fehlerquadratsumme), welches als Heterogenitätsmaß verwendet wird, errechnet sich für eine Gruppe g wie folgt: 𝑉𝑉 � � ���𝑥𝑥 ��� � 𝑥𝑥̄ �� � � � ��� � � ��� mit 𝑥𝑥 ��� = Beobachtungswert der Variablen 𝑘𝑘 �𝑘𝑘 � 1, … , �� bei Objekt 𝑖𝑖 (für alle Objekte 𝑖𝑖 � 1, … , 𝐼𝐼 � in Gruppe 𝑔𝑔 ), 𝑥𝑥̄ �� � 1 𝐼𝐼 � � 𝑥𝑥 ��� � � ��� � Mittelwert der Beobachtungswerte in der Variablen 𝑘𝑘 in Gruppe 𝑔𝑔 . <?page no="273"?> Verfahren der Klassifikation 273 Zu Beginn des Algorithmus beträgt die Fehlerquadratsumme Null. Pro Gruppierungsschritt erhöht sich die Varianz um die halbe Distanz der neuen Gruppe, sodass die berechneten Distanzen genau der doppelten Zunahme der Fehlerquadratsumme bei Fusionierung zweier Objekte bzw. Gruppen entsprechen (vgl. Backhaus et al. 2021, S. 518). Daraus ergibt sich, dass die Objekte bzw. Gruppen mit der kleinsten Distanz zu einer neuen Gruppe vereint werden; diese kleinste Distanz wird halbiert und auf die Fehlerquadratsumme aufaddiert. Beispiel 8.16: Ausgangssituation ist die endgültige Datenmatrix des Beispiels 8.14. Im Rahmen des Fusionierungsalgorithmus wird stets die kleinste Distanz berücksichtigt. Die anschließende Übersicht verdeutlicht das Ward-Verfahren: 1. Rechenschritt: 𝑉𝑉 � � 0,150 2 � 0,075 𝐷𝐷�1 ; 2 � 4� � 1 1 � 1 � 1 �|1 � 1| ⋅ 0,483 � |1 � 1| ⋅ 0,637 � |1| ⋅ 0,150� � 13 ⋅ �0,966 � 1,274 � 0,150� � 0,697 𝐷𝐷�3 ; 2 � 4� � 13 ⋅ �2 ⋅ 0,513 � 2 ⋅ 0,363 � 1 ⋅ 0,150� � 0,534. (1) (2,4) (3) (1) (2,4) (3) 0 0,697 0 1,000 0,534 0 2. Rechenschritt: 𝑉𝑉 � � 0,075 � 0,534 2 � 0,342 𝐷𝐷�1 ; 3 � �2 � 4�� � 14 ⋅ �2 ⋅ 1 � 3 ⋅ 0,697 � 0,534� � 0,889. (1) (3,(2,4)) (1) (3,(2,4)) 0 0,889 0 (1) (3,(2,4)) 3. Rechenschritt: 𝑉𝑉 � � 0,342 � 0,889 2 � 0,787. Abbildung 8.16 zeigt das zugehörige Dendrogramm. <?page no="274"?> 274 Datenanalyse A Abbbb.. 88..1166: : Dendrogramm des Beispiels 8.16 Im Rahmen der Clusterbildung erfolgt der Abbruch des Algorithmus u.a. anhand des Dendrogramms oder alternativ mit Hilfe des Elbow-Kriteriums. Im Beispiel würde man Audi, Opel und VW sinnvollerweise zu einem Cluster zusammenfassen, wohingegen BMW ein eigenes Cluster bilden würde. PPaarrttiittiioonniieerreennddee VVeerrffaahhrreenn Während bei den hierarchischen Verfahren schrittweise Cluster gebildet werden, wird bei den partitionierenden Verfahren von einer gegebenen oder generierten Startgruppierung ausgegangen, bei der schon eine Einteilung in Cluster vorliegt. Dabei wird durch das schrittweise Verschieben einzelner Objekte von einem Cluster zu einem anderen mit Hilfe eines Austauschalgorithmus versucht, das Optimum einer gegebenen Zielfunktion zu erreichen (vgl. Raab et al. 2018, S. 248). Partitionierende Verfahren vollziehen sich in folgenden Schritten (vgl. Bortz/ Schuster 2010, S. 461): Berechnung der Zentroide der 𝑛𝑛 vorgegebenen Cluster (Clusterzentren aus den jeweils durchschnittlichen Merkmalsausprägungen über alle Merkmale), Überprüfung, ob die Verschiebung eines Objektes in ein anderes Cluster eine verbesserte Aufteilung im Sinn des gewählten Optimierungskriteriums ergibt (z.B. Verringerung der gruppeninternen Varianz), Berechnung der Zentroide nach der Neuzuordnung, Wiederholung dieses Vorganges, bis keine Verbesserung der Aufteilung mehr möglich ist. BMW Audi Opel VW 0,075 0,342 0,787 Fehlerquadratsumme <?page no="275"?> Verfahren der Klassifikation 275 Bei den Optimierungskriterien wird zwischen dem Varianz-, Determinanten- und Spur- Kriterium differenziert, wobei hier nicht näher auf die einzelnen Verfahren eingegangen werden soll (vgl. hierzu im Einzelnen Bortz/ Schuster 2010, S. 574 f.). NNeeuueerree AAnnssäättzzee ddeerr CClluusstteerraannaallyyssee Im Laufe der Zeit wurde eine Vielzahl neuer Verfahren der Clusteranalyse entwickelt (vgl. z.B. den Überblick in Wedel/ Kamakura 2000). Auf die einzelnen Verfahren kann an dieser Stelle nicht im Detail eingegangen werden, es sollen hier daher nur einige ausgewählte Entwicklungen skizziert werden. Latent Class Clusteranalyse (vgl. z.B. Vermunt/ Magidison 2002). Diese auch als Probabilistische Clusteranalyse, Mixture-Likelihood Clustering oder Bayesian Classification bezeichnete Methode beruht auf einem statistischen Modell. Es wird angenommen, dass jedes Objekt genau einem Cluster zuzuorden ist; die Clusterzugehörigkeit ist jedoch nicht deterministisch. Für jedes Objekt und jedes Cluster wird die Wahrscheinlichkeit ermittelt, dass das Objekt einem Cluster angehört. Die Zuordnung eines Objekts zu einem Cluster erfolgt dann abhängig von der Zugehörigkeitswahrscheinlichkeit. Fuzzy Clustering (vgl. z.B. Hruschka 1986) geht davon aus, dass ein Objekt grundsätzlich mehreren Clustern angehören kann. Die Objekte werden hierbei unscharf, d.h. mit einer bestimmten Gewichtung (Zugehörigkeitsgrad), auf die Cluster verteilt. Der Zugehörigkeitsgrad entspricht nicht der Zugehörigkeitswahrscheinlichkeit beim Latent Class Clustering, sondern gibt an, wie stark ein Objekt dem betreffenden Cluster angehört. Ist die Zugehörigkeit 1 bzw. 0, ist das Objekt einem Cluster vollständig bzw. überhaupt nicht zugehörig. 33..33..22 D Diisskkrriimmiinnaannzzaannaallyyssee Definition Mit Hilfe der Diskriminanzanalyse können Unterschiede zwischen Gruppen von Untersuchungsobjekten analysiert werden. Anhand von relevanten Merkmalen wird die Zugehörigkeit von Untersuchungsobjekten (Personen, Marken usw.) zu Gruppen (Kundengruppen oder Warengruppen) erklärt bzw. prognostiziert. Die Diskriminanzanalyse ist ein strukturprüfendes Verfahren. Während die Clusteranalyse auf Ähnlichkeiten zwischen Objekten beruht, basiert die Diskriminanzanalyse auf Abhängigkeiten einer nominalskalierten Variablen von zwei oder mehr metrisch skalierten unabhängigen Variablen. Methodisch werden die Unterschiede zwischen zwei oder mehr im Vorwege festgelegten Ausprägungen einer nominal skalierten Gruppierungsvariablen (abhängige Variable, 𝑦𝑦 ) anhand einer Linearkombination von zwei oder mehr metrisch skalierten Merkmalsvariablen 𝑥𝑥 � �� � 1, … , �� abgebildet (vgl. hierzu Klecka 1980, S. 10 f.). Typische Fragestellungen zur Anwendung der Diskriminanzanalyse sind: Kreditwürdigkeitsprüfungen: In welche Risikoklasse können Kreditnehmer aufgrund von soziographischen Daten eingeordnet werden? Klassifizierung von Warengruppen: Anhand welcher Eigenschaften lassen sich Produkte zu Warengruppen zusammenfassen? <?page no="276"?> 276 Datenanalyse Erfolgsprognosen: Anhand welcher Merkmale lässt sich der Erfolg oder Misserfolg von Marken erklären und prognostizieren? Wähleranalysen: Welchen Wählergruppen (Parteien) lassen sich Wähler aufgrund welcher politischen Einstellungsmerkmale zuordnen? Die Anwendung der Diskriminanzanalyse kann verschiedene Untersuchungsziele haben. Zum einen kann ermittelt werden, aufgrund welcher Merkmalsvariablen Unterschiede zwischen den untersuchten Gruppen auftreten bzw. wie stark die Unterschiede zwischen den Gruppen sind. Zum anderen kann prognostiziert werden, in welche Gruppe neu zu klassifizierende Untersuchungsobjekte aufgrund der Ausprägungen von Merkmalsvariablen einzuordnen sind bzw. wie hoch die Wahrscheinlichkeit der Zuordnung eines Elementes zu einer bestimmten Gruppe ist. Weiterhin kann überprüft werden, ob sich die Gruppen signifikant voneinander unterscheiden, und es können diejenigen Variablen identifiziert werden, welche am stärksten zur Erklärung von Gruppenunterschieden beitragen (vgl. Frenzen/ Krafft 2008, S. 611). Die Diskriminanzanalyse vollzieht sich in folgenden Schritten (vgl. Backhaus et al. 2021, S. 226): Definition der Gruppen, Formulieren der Diskriminanzfunktion, Schätzen der Diskriminanzfunktion, Prüfung der Diskriminanzfunktion und der beschreibenden Variablen, Klassifikation neuer Elemente, Prüfung der Modellannahmen. Die Definition der Gruppen kann durch theoretische Vorüberlegungen oder durch eine vorgeschaltete Analyse wie beispielsweise der Clusteranalyse erfolgen. Es gilt bei der Definition der Gruppen zu bedenken, dass zum einen der zur Verfügung stehende Stichprobenumfang in jeder Gruppe mindestens so groß sein muss wie die Anzahl der untersuchten Variablen. Des Weiteren steigt die Komplexität der Diskriminanzanalyse mit einer steigenden Gruppenzahl. Im Folgenden sollen Rechengang und Interpretation der Diskriminanzanalyse anhand des Mehrgruppenfalls erläutert werden. Die Auswahl der Variablen erfolgt hypothetisch aufgrund sachlogischer Überlegungen. Nach der Schätzung der Diskrimininanzfunktion kann ermittelt werden, wie gut die ausgewählten Variablen geeignet sind, die Unterscheidung der Gruppen zu erklären. Das allgemeine Diskriminanzmodell 𝑦𝑦 hat dieselbe Form wie das allgemeine Modell der multiplen Regressionsanalyse (vgl. Abschnitt 3.4.1). Zur Bestimmung der Diskriminanzfunktion ist diese partiell nach den Diskriminanzkoeffizienten abzuleiten, um ein Mehrgleichungsmodell zu erstellen. Aus diesem lassen sich mit Hilfe der Beobachtungswerte der Variablen 𝑥𝑥 � die Diskriminanzkoeffzienten bestimmen. Das allgemeine Modell der Diskriminanzanalyse lautet wie folgt (vgl. Backhaus et al. 2021, S. 228): 𝑦𝑦 � 𝑎𝑎 � 𝑏𝑏 � ⋅ 𝑥𝑥 � � � � 𝑏𝑏 � ⋅ 𝑥𝑥 � � � � 𝑏𝑏 � ⋅ 𝑥𝑥 � mit 𝑦𝑦 = Diskriminanzvariable, 𝑎𝑎 = konstantes Glied, 𝑏𝑏 � = Diskriminanzkoeffizient für die Variable 𝑥𝑥 � �� � 1, … , �� . <?page no="277"?> Verfahren der Klassifikation 277 Die Unterschiedlichkeit zweier Elemente 𝑖𝑖 und 𝑗𝑗 �𝑖𝑖 � 1, … , 𝐼𝐼; 𝑗𝑗 � 1 … , 𝐽𝐽 , z.B. Kunden, Marken etc.) lässt sich anhand der Differenz ihrer Diskriminanzwerte ermitteln. Die Unterschiedlichkeit zweier Gruppen 𝑔𝑔 (Kundengruppen, Markengruppen) wird zunächst anhand der Unterschiedlichkeit der Mittelwerte der Diskriminanzwerte der in der jeweiligen Gruppe enthaltenen Elemente bestimmt (Zentroid). Dieses Maß wird im Laufe der Betrachtungen verfeinert. Der Gruppenmittelwert (Zentroid) 𝑦𝑦̄ 𝜎𝜎 � lautet wie folgt (vgl. Backhaus et al. 2021, S. 231): 𝑦𝑦̄ 𝜎𝜎 � � 1 𝐼𝐼 � � 𝑦𝑦 �� � � ��� mit 𝑦𝑦̄ 𝜎𝜎 � = Zentroid von Gruppe g, 𝑦𝑦 �� = Diskriminanzwert von Element i in Gruppe g, 𝐼𝐼 � = Anzahl der Elemente I in Gruppe g. AAbbbb.. 88..1177: : Streuwerte und Diskriminanzachse im 2-Gruppen-2-Variablen-Fall Grafisch kann die Diskriminanzfunktion als eine Gerade dargestellt werden, die sog. Diskriminanzachse. Einzelne Elemente einer Gruppe sowie die Mittelwerte (Zentroide) lassen sich als Punkte auf der Diskriminanzachse lokalisieren. Abbildung 8.17 zeigt ein Beispiel für den einfachsten Fall der Diskriminanzanalyse (Zwei-Gruppen-zwei-Variablen-Fall). Mitglied Gruppe A Mitglied Gruppe B Mittelwert Gruppe A Mittelwert Gruppe B x 1 x 2 20 40 60 20 40 60 80 <?page no="278"?> 278 Datenanalyse Im Rahmen der Schätzung der Diskriminanzfunktion soll diese so geschätzt bzw. die Parameter 𝑏𝑏 � sollen so bestimmt werden, dass die Gruppen 𝑔𝑔 �𝑔𝑔 � 1, … , �� (in der Grafik die Gruppen A und B) optimal getrennt werden. Es wird also die Diskriminanzachse ŷ gesucht, welche die beiden Gruppen möglichst vollständig trennt. Der Zentroid als Maß für den Abstand der Gruppen ist hierbei allerdings nicht geeignet, da die Streuung innerhalb der Gruppen nicht berücksichtigt wird (vgl. Backhaus et al. 2021, S. 232). Das kann zur Konsequenz haben, dass sich Gruppen mit einem großen Abstand der zugehörigen Zentroiden tatsächlich ähnlicher sind als solche mit einem geringen Abstand der Zentroiden. Ein genaueres Kriterium ist das sogenannte Diskriminanzkriterium Γ (vgl. Böhler et al. 2021, S. 220 ff.): 𝛤𝛤 � ∑ 𝐼𝐼 � ��̄ � � �̄ � � ���� ∑ ∑ �� �� � �̄ � � � � � ��� ���� � 𝑄𝑄𝑄𝑄 ����� 𝑄𝑄𝑄𝑄 � . Gesucht wird also eine Diskriminanzfunktion, bei der das Verhältnis der Streuung zwischen den Gruppen ( 𝑄𝑄𝑄𝑄 ����� ) zur Streuung innerhalb der Gruppen ( 𝑄𝑄𝑄𝑄 � ) maximal ist, d.h. die Koeffizienten 𝑏𝑏 � der Diskriminanzfunktion sind so zu wählen, dass das Diskriminanzkriterium Γ maximiert wird: max � � …., � �� 𝛤𝛤. Im Mehrgruppenbzw. Mehrvariablenfall reicht eine Diskriminanzfunktion zur Abbildung der Varianzen nicht aus, es sind also weitere jeweils unkorrelierte Diskriminanzfunktionen zu berechnen, um die Restvarianz zu erfassen. Maximal können in Abhängigkeit von der Anzahl der betrachteten Gruppen � � 1 Diskriminanzfunktionen berechnet werden. Die Berechnung erfolgt wie im Zweigruppenfall über die Maximierung des Diskriminanzkriteriums. Der Maximalwert 𝛾𝛾 � 𝑀𝑀𝑀𝑀𝑀𝑀 �𝛤𝛤� wird als Eigenwert bezeichnet. Jede weitere Diskriminanzfunktion ist so zu bestimmen, dass sie ein Maximum der nach der Ermittlung der ersten Diskriminanzfunktion verbleibenden Restvarianz erklärt. Um zu ermitteln, wie groß der Erklärungsanteil jeder weiteren Diskriminanzfunktion ist, kann ihr jeweiliger Eigenwert herangezogen werden: 𝐸𝐸𝐸𝐸 � � 𝛾𝛾 � 𝛾𝛾 � � 𝛾𝛾 � �. . . �𝛾𝛾 � . Der Eigenwertanteil 𝐸𝐸𝐸𝐸 � der 𝑙𝑙 -ten Diskriminanzfunktion �𝑙𝑙 � 1, … , 𝐿𝐿 ) wird dabei auf die Summe des durch alle Diskriminanzfunktionen erklärten Eigenwertes bezogen. Der Eigenwertanteil der Diskriminanzfunktionen nimmt schnell ab. So reichen zumeist auch bei einer großen Anzahl von untersuchten Gruppen zwei Diskriminanzfunktionen aus (vgl. Backhaus et al. 2021, S. 241). Zur Schätzung der Diskriminanzfunktion wird zunächst eine nicht-normierte Diskriminanzfunktion geschätzt (vgl. im Folgenden Backhaus et al. 2018, S. 258 ff.). Die hierbei verwendeten Koeffizienten 𝑣𝑣 � seien proportional zu den Diskriminanzkoeffzienten 𝑏𝑏 � und damit optimal im Sinne des Diskriminanzkriteriums: � � 𝑣𝑣 � ⋅ 𝑀𝑀 � � � � 𝑣𝑣 � ⋅ 𝑀𝑀 � � � � 𝑣𝑣 � ⋅ 𝑀𝑀 � . <?page no="279"?> Verfahren der Klassifikation 279 Nach Einsetzen in das Diskriminanzkriterium erhält man in Matrixschreibweise: � � 𝐯𝐯 � 𝐁𝐁𝐯𝐯 𝐯𝐯 � 𝐖𝐖𝐯𝐯 mit 𝐯𝐯 = Spaltenvektor der nicht-normierten Diskriminanzkoeffizienten 𝑣𝑣 � , 𝐁𝐁 = �𝐾𝐾 𝐾𝐾� -Matrix für die Streuung der 𝐾𝐾 Variablen zwischen den Gruppen, 𝐖𝐖 = �𝐾𝐾 𝐾𝐾� -Matrix für die Streuung der 𝐾𝐾 Variablen innerhalb der Gruppen. Die Matrixelemente von 𝐁𝐁 und 𝐖𝐖 lauten: 𝐵𝐵 kr � � 𝐼𝐼 � �𝑥𝑥̄ �� � 𝑥𝑥̄ � ��𝑥𝑥̄ �� � 𝑥𝑥̄ � � � ��� 𝑊𝑊 kr � ��� 𝑥𝑥 ��� � 𝑥𝑥̄ �� �� 𝑥𝑥 ��� � 𝑥𝑥̄ �� � � � ��� � ��� mit 𝑥𝑥 𝑘𝑘𝑘𝑘𝑘𝑘 = Merkmalsausprägung von Element 𝑘𝑘 in Gruppe 𝑘𝑘 bezüglich Variable 𝑘𝑘 , 𝑥𝑥̄ �� = Mittelwert der Variablen 𝑘𝑘 in Gruppe 𝑘𝑘 , 𝐼𝐼 � = Fallzahl in Gruppe 𝑘𝑘 , 𝐺𝐺 = Anzahl der Gruppen. Durch die Maximierung von 𝛤𝛤 mittels vektorieller Differentiation nach 𝑣𝑣 erhält man für den Maximalwert γ von 𝛤𝛤 die folgende Bedingung: 𝜕𝜕𝛤𝛤 𝜕𝜕𝑣𝑣 � 2��𝐵𝐵𝑣𝑣��𝑣𝑣 � 𝑊𝑊𝑣𝑣� � �𝑣𝑣 � 𝐵𝐵𝑣𝑣��𝑊𝑊𝑣𝑣�� �𝑣𝑣 � 𝑊𝑊𝑣𝑣� � � 0. Die 0 beschreibt dabei einen Null-Vektor. Nach Division von Zähler und Nenner durch ( 𝐯𝐯 � 𝐖𝐖𝐯𝐯 ) ergibt sich der Ausdruck: 2�𝐁𝐁𝐯𝐯 � γ𝐖𝐖𝐯𝐯� 𝐯𝐯𝐯𝐖𝐖𝐯𝐯 � �. Nach Umformung ergibt sich: �𝐁𝐁 � �𝐖𝐖�𝐯𝐯 � �. Unter der Voraussetzung, dass die Matrix W invertierbar ist, lässt sich weiter umformen in: �� � �𝐄𝐄�𝐯𝐯 � � mit � � 𝐖𝐖 �� 𝐁𝐁. Mit 𝐄𝐄 wird dabei die Einheitsmatrix bezeichnet. Die Lösung des obigen Ausdrucks stellt ein klassisches Eigenwertproblem dar. Der größte Eigenwert γ der Matrix A ist dabei zu ermitteln. Der Vektor der nichtnormierten Diskriminanzkoeffzienten 𝐯𝐯 ist ein zugehöriger Eigenwertvektor. Die folgende Normierungsbedingung sagt aus, dass die vereinte Innergruppenvarianz der Diskriminanzwerte der Stichprobe I den Wert 1 erhalten soll: 1 𝐼𝐼 � 𝐺𝐺 𝐛𝐛´𝐖𝐖𝐛𝐛 � 1 mit <?page no="280"?> 280 Datenanalyse � � � � � � � �. . . �� � . Die normierten Diskriminanzkoeffizienten erhält man somit durch die Transformation � � 𝐯𝐯 1𝑠𝑠 mit 𝑠𝑠 � � 1 � � � 𝐯𝐯𝐯𝐯𝐯𝐯𝐯. Mit 𝑠𝑠 wird dabei die vereinte Innergruppenstandardabweichung der Diskriminanzwerte, die man mit nichtnormierten Diskriminanzkoeffizienten ( 𝑣𝑣 ) erhalten würde, bezeichnet. Anhand der Diskriminanzkoeffizienten erhält man das konstante Glied als: 𝑏𝑏 � � � � 𝑏𝑏 � 𝑥𝑥̄ � � ��� . Die Ermittlung weiterer Diskriminanzfunktionen erfolgt analog, indem der nächstgrößere Eigenwert gesucht wird. Das Rechenverfahren der Diskriminanzanalyse beinhaltet damit eine Hauptkomponentenanalyse der Matrix A. Beispiel 8.17: Ein Waschmittelhersteller steht vor dem Problem der Neueinführung der Marke CLEAN. Auf dem Waschmittelmarkt sind bereits 5 Marken (M 1 bis M 5 ) erhältlich. Von der Marketingabteilung wurden diese in drei Gruppen eingeteilt (hoher, mittlerer und geringer Verkaufserfolg). Aufgrund einer Voruntersuchung wird davon ausgegangen, dass nur die Merkmale Preis und Qualität entscheidend für die Gruppeneinteilung sind. Die Preisklassen der einzelnen Marken wurden aus Paneldaten und die Qualität über ein Rating ermittelt. Marke M 1 M 2 M 3 M 4 M 5 Erfolg hoch mittel mittel gering gering Preis 1 2 2 2 3 Qualität 3 3 2 1 1 Ausgehend von der Streuung der beiden Merkmalsvariablen in und zwischen den Gruppen resultieren durch Differentiation folgende Ergebnisse: Diskriminanzfunktion Eigenwert γ Koeffizient 1 Koeffizient 2 1 9,472 -0,526 0,831 2 0,528 0,825 0,526 Die geschätzten Diskriminanzfunktionen haben die folgende Form: 𝑦𝑦� � � �0,526 ⋅ 𝑥𝑥 � � 0,831 ⋅ 𝑥𝑥 � <?page no="281"?> Verfahren der Klassifikation 281 𝑦𝑦� � � 0,825 ⋅ 𝑥𝑥 � � 0,526 ⋅ 𝑥𝑥 � . Es ist ersichtlich, dass der Eigenwert der zweiten Diskriminanzfunktion bereits deutlich unter dem Eigenwert der ersten Diskriminanzfunktion liegt. Die untenstehende Tabelle zeigt die Diskriminanzwerte der untersuchten Waschmittelmarken. Es ist zu erkennen, dass sämtliche untersuchten Elemente in die richtige Gruppe eingeteilt wurden. Die kritischen Werte der Diskriminanzfunktionen 𝑦𝑦� �� , 𝑦𝑦� �� , also die Diskriminanzwerte, ab welchen ein Element einer bestimmten Gruppe zugeordnet wird, errechnen sich durch das Einsetzen des Gesamtmittelwertes der Merkmalsvariablen Preis und Qualität in die Diskriminanzfunktionen. Dabei bezeichnen 𝑥𝑥̄ �� , 𝑥𝑥̄ �� die Mittelwerte der Ratings bzgl. Variable 1 (Preis) bzw. Variable 2 (Qualität) in den 3 Gruppen (hoher, mittlerer und geringer Erfolg). Die Werte 𝑥𝑥̄ �� und 𝑥𝑥̄ �� sind hingegen die Gesamtmittelwerte der Ratings über alle 3 Gruppen. Fallnummer Tatsächliche Gruppe Vorhergesagte Gruppe Diskriminanzwerte Funktion 1 Funktion 2 1 3 3 2,753 -0,650 2 2 2 1,701 1,051 3 2 2 0,000 0,000 4 1 1 -1,701 -1,051 5 1 1 -2,753 0,650 Für die erste Diskriminanzfunktion ergeben sich die folgenden mittleren Diskriminanzwerte für die einzelnen Gruppen sowie insgesamt: 𝑦𝑦� �� � �0,526 ⋅ 𝑥𝑥̄ �� � 0,825 ⋅ 𝑥𝑥̄ �� 𝑦𝑦� �� � �0,526 ⋅ 1 � 0,825 ⋅ 3 � 1,949 𝑦𝑦� �� � �0,526 ⋅ 2 � 0,825 ⋅ 2,5 � 1,011 𝑦𝑦� �� � �0,526 ⋅ 2,5 � 0,825 ⋅ 1 � �0,490 𝑦𝑦� �� � �0,526 ⋅ 2 � 0,825 ⋅ 2 � 0,598. Für die zweite Diskriminanzfunktion resultieren analog: 𝑦𝑦� �� � 0,831 ⋅ 𝑥𝑥̄ �� � 0,526 ⋅ 𝑥𝑥̄ �� , 𝑦𝑦� �� � 0,831 ⋅ 1 � 0,526 ⋅ 3 � 2,409 𝑦𝑦� �� � 0,831 ⋅ 2 � 0,526 ⋅ 2,5 � 2,977 𝑦𝑦� �� � 0,831 ⋅ 2,5 � 0,526 ⋅ 1 � 2,604 𝑦𝑦� �� � 0,831 ⋅ 2 � 0,526 ⋅ 2 � 2,714. Unterstellt man eine annähernd gleiche Verteilung der Merkmalsvariablen innerhalb der Gruppen, entspricht der kritische Diskriminanzwert der Diskriminanzfunktionen jeweils den Diskriminanzwerten der Gesamtmittelwerte der Merkmalsvariablen. <?page no="282"?> 282 Datenanalyse Die Prüfung der Ergebnisse erfolgt in zwei Schritten. Zunächst wird die Diskriminanzfunktion an sich überprüft. Im Anschluss lassen sich Aussagen zur Eignung der Variablen machen. Zur Ermittlung der Diskriminanzfunktionen wird das Diskriminanzkriterium Γ maximiert. Dieses entspricht einer Maximierung des Verhältnisses der Streuung zwischen den Gruppen ��� ����� � zur Streuung innerhalb der Gruppen ��� � � . Der Eigenwert γ als Maximalwert von Γ kann daher als Gütekriterium für die Trennkraft der Diskriminanzfunktion verwendet werden (vgl. Frenzen/ Krafft 2008, S. 619). Zwei Gütemaße sind hierbei von Bedeutung: der kanonische Korrelationskoeffizient und Wilks‘ Lambda. Der kanonische Korrelationskoeffizient 𝑐𝑐 entspricht der Wurzel aus dem Verhältnis der erklärten Streuung zur Gesamtstreuung und ist normiert auf Werte zwischen Null und eins: 𝑐𝑐 � � 𝛾𝛾 1 � 𝛾𝛾. Beispiel 8.18: Im vorangegangenen Beispiel 8.17 ergeben sich für die extrahierten Diskriminanzfunktionen die folgenden Werte für 𝑐𝑐 : 𝑐𝑐 � � � 𝛾𝛾 1 � 𝛾𝛾 � � � 9,472 1 � 9,472 � 0,951 𝑐𝑐 � � � 0,528 1 � 0,528 � 0,6065. Das gängigste Gütemaß für die Diskriminanzfunktion ist das Wilks‘ Lambda 𝛬𝛬 (vgl. Backhaus et al. 2021, S. 242 ff.): 𝛬𝛬 � 1 1 � 𝛾𝛾. Wilks’ Lambda entspricht dem Verhältnis der nicht erklärten Streuung zur Gesamtstreuung und ist ein inverses Maß: Je kleiner der Wert ist, umso besser ist die Anpassung. Beispiel 8.19: In unserem Beispiel ergeben sich für die extrahierten Diskriminanzfunktionen die folgenden Werte für 𝛬𝛬 � und 𝛬𝛬 � : 𝛬𝛬 � � 1 1 � 𝛾𝛾 � � 1 1 � 9,472 � 0,095, 𝛬𝛬 � � 1 1 � 0,528 � 0,654. Die Werte von 𝛬𝛬 � und 𝛬𝛬 � eignen sich für eine Prüfung der einzelnen Diskriminanzfunktionen. Um eine Aussage über die Unterschiedlichkeit der Gruppen treffen zu können, sind die 𝛬𝛬 im hier betrachteten Mehrgruppenfall miteinander zu multiplizieren: <?page no="283"?> Verfahren der Klassifikation 283 𝛬𝛬 � � 1 1 � 𝛾𝛾 � . � ��� Mit 𝛾𝛾 � wird dabei der Eigenwert der 𝑙𝑙 -ten Diskriminanzfunktion bezeichnet. Beispiel 8.20: Für das Beispiel 8.17 gelangt man zu dem Ergebnis: 𝛬𝛬 = 0,095 · 0,654 = 0,0621. Es wird erkennbar, dass die Verwendung beider Diskriminanzfunktionen zu einer leicht verbesserten Trennung der Gruppen führt. Wilks‘ Lambda kann mit Hilfe einer Transformation in eine probabilistische Variable umgewandelt werden, die annähernd 𝜒𝜒 � -verteilt ist mit 𝐾𝐾�𝐺𝐺 � 1� Freiheitsgraden (vgl. Backhaus et al. 2021, S. 242). Eine statistische Signifikanzprüfung der Diskriminanzfunktion wird hierdurch möglich. Die folgende Transformation ist anzuwenden: 𝜒𝜒 � � � �𝑁𝑁 � 𝐾𝐾 � 𝐺𝐺 2 � 1� 𝑙𝑙𝑙𝑙 𝛬𝛬 bzw. im Mehrgruppenfall 𝜒𝜒 � � � �𝑁𝑁 � 𝐾𝐾 � 𝐺𝐺 2 � 1� � 𝑙𝑙𝑙𝑙�1 � 𝛾𝛾 � � � ��� mit 𝑁𝑁 = Anzahl der untersuchten Fälle, 𝐾𝐾 = Anzahl der Variablen, 𝐺𝐺 = Anzahl der Gruppen. Beispiel 8.21: In unserem Beispiel werden drei Gruppen auf ihre Unterschiedlichkeit hin untersucht. Die Untersuchungshypothesen sind wie folgt zu formulieren: H 0 : Die untersuchten Gruppen unterscheiden sich nicht signifikant voneinander; H 1 : Mindestens zwei Gruppen unterscheiden sich voneinander. Für die Durchführung des Hypothesentests ist nun der empirische 𝜒𝜒 � -Wert zu ermitteln. Wir haben im Beispiel drei Gruppen bestehend aus insgesamt 5 Elementen anhand von 2 Variablen untersucht. Unter Einbeziehung der Eigenwerte ergibt sich der folgende empirische Wert für 𝜒𝜒 � : 𝜒𝜒 � � � �5 � 2 � 3 2 � 1� 𝐾 �𝑙𝑙𝑙𝑙�1 � 9,472� � 𝑙𝑙𝑙𝑙�1 � 0,528�� � �4,159. Dieser Wert ist mit dem theoretischen Wert aus der 𝜒𝜒 � -Tabelle zu vergleichen. Es soll eine Irrtumswahrscheinlichkeit von 5% angenommen werden. Für 4 Freiheitsgrade ergibt sich aus der Tabelle der folgende theoretische Wert: 𝜒𝜒 �,�� � �𝐾𝐾 𝐾 �𝐺𝐺 � 1�� � 𝜒𝜒 �,�� � �2 𝐾 �3 � 1�� � 𝜒𝜒 �,�� � �4� � 9,49. Der Ablehnungsbereich für die Verwerfung der Nullhypothese lautet: <?page no="284"?> 284 Datenanalyse 𝐴𝐴𝐵𝐵 � � �𝐾𝐾 𝐾 �� � 1� ; ∞� , d.h. der empirische Wert für 𝜒𝜒 � muss größer sein als der theoretische 𝜒𝜒 � -Wert, um die Nullhypothese ablehnen zu können. Das ist hier nicht der Fall; dies bedeutet, dass die 5 Waschmittelmarken nicht aufgrund der Merkmalsvariablen Preis und Qualität in Gruppen mit hohem, mittlerem und geringem Erfolg eingeteilt werden können. BBeeddeeuuttuunngg ddeerr DDiisskkrriimmiinnaannzzkkooeeffffiizziieenntteenn Die Diskriminanzkoeffizienten geben Aufschluss über den Einfluss der einzelnen Merkmalsvariablen auf die Unterschiedlichkeit der untersuchten Gruppen. Im Beispiel würde die folgende Frage gestellt: Wie wichtig sind die Qualität und der Preis des Produktes für den Erfolg? Um diese jedoch bezogen auf die Wichtigkeit der Variablen vergleichen zu können, sind sie zunächst zu standardisieren, da sie von Skaleneffekten in ihrer Größe beeinflusst werden. Für die Standardisierung der Diskriminanzkoeffizienten benötigt man die Standardabweichung der betreffenden Variablen (vgl. Frenzen/ Krafft 2008, S. 622): 𝑏𝑏 �∗ � 𝑏𝑏 � 𝐾 𝑠𝑠 � . Der standardisierte Diskriminanzkoeffizient 𝑏𝑏 �∗ errechnet sich durch Multiplikation des Koeffizienten 𝑏𝑏 � mit der Standardabweichung 𝑠𝑠 � . Für die Berechnung der Standardabweichung der Diskriminanzkoeffizienten kann die Innengruppenvarianz 𝑊𝑊 �� verwendet werden: 𝑊𝑊 �� � ���𝑥𝑥 ��� � 𝑥𝑥̄ �� � � � � ��� � ��� mit 𝑊𝑊 �� = Innengruppenvarianz der Variablen 𝑘𝑘 , 𝑥𝑥 ��� = Wert der Variablen 𝑘𝑘 aus Gruppe 𝑔𝑔 für Element 𝑖𝑖 𝑥𝑥̄ �� = Mittelwert der Variablen 𝑘𝑘 in Gruppe 𝑔𝑔 . Beispiel 8.22: In unserem Beispiel ergeben sich für 𝑊𝑊 �� die folgenden Werte: 𝑊𝑊 �� � 0,5 und 𝑊𝑊 �� � 0,5 . Daraus kann die Standardabweichung der Variablen 𝑠𝑠 � errechnet werden ( � � � ist dabei die Anzahl der Freiheitsgrade): 𝑠𝑠 � � � 𝑊𝑊 �� � � �. Für das Beispiel resultieren die folgenden Werte: 𝑠𝑠 � � � 0,5 5 � 3 � 0,5, <?page no="285"?> Verfahren der Klassifikation 285 𝑠𝑠 � � � 0,5 5 � 3 � 0,5. Die standardisierten Diskriminanzkoeffizienten für die erste Diskriminanzfunktion lauten: 𝑏𝑏 �� ∗ � �0,5257 ⋅ 0,5 � �0,2628 und 𝑏𝑏 �� ∗ � 0,8306 ⋅ 0,5 � 0,4153. Die Werte für die zweite Diskriminanzfunktion sind entsprechend: 𝑏𝑏 �� ∗ � 0,8250 ⋅ 0,5 � 0,4125 sowie 𝑏𝑏 �� ∗ � 0,5257 ⋅ 0,5 � 0,2628. Um zu einer Bewertung der Wichtigkeit der Diskriminanzkoeffzienten über alle Diskriminanzfunktionen zu gelangen, sind die unterschiedlichen Eigenwertanteile 𝛾𝛾 � der Diskriminanzfunktionen zu berücksichtigen. Dies geschieht, indem man die standardisierten Koeffizienten 𝑏𝑏 �� ∗ der einzelnen Funktionen mit den jeweiligen Eigenwertanteilen 𝛾𝛾 � gewichtet und addiert: 𝑏𝑏� � � �|𝑏𝑏 �� ∗ | � ��� ⋅ 𝛾𝛾 � mit 𝑏𝑏� � = mittlerer Diskriminanzkoeffizient von Merkmalsvariable 𝑘𝑘 . Beispiel 8.23: In unserem Beispiel ergeben sich die folgenden standardisierten Diskriminanzkoeffizienten für den Mehrgruppenfall: 𝑏𝑏� � � 0,26285 ⋅ 9,4721 � 0,4125 ⋅ 0,5279 � 0,4667 𝑏𝑏� � � 0,4153 ⋅ 9,4721 � 0,2628 ⋅ 0,5279 � 4,075. Das Vorzeichen der standardisierten Diskriminanzkoeffizienten spielt bei ihrer Beurteilung keine Rolle. Es ist ersichtlich, dass in diesem Beispiel der Preis zur Erklärung des Verkaufserfolgs eine deutlich geringere diskriminierende Wirkung hat als die Qualität, d.h. die wahrgenommene Produktqualität spielt als Erfolgsfaktor eine deutlich größere Rolle als der Preis. KKllaassssiiffiikkaattiioonn nneeuueerr EElleemmeennttee Nachdem oben beschrieben wurde, wie die Unterschiedlichkeit von Gruppen aufgrund von Merkmalsvariablen erklärt werden kann, wird nun gezeigt, in welche Gruppe neue Elemente (im Beispiel eine neue Waschmittelmarke) aufgrund der Ausprägung der Variablen zugeordnet werden können. Ein neues Element 𝑖𝑖 wird in diejenige Gruppe 𝑔𝑔 eingeordnet, der es aufgrund seines Diskriminanzwertes am nächsten liegt. Kriterium für die „Nähe“ zu einer Gruppe ist der jeweilige Gruppenmittelwert (Zentroid). Für die Messung der Distanz wird üblicherweise die quadrierte euklidische Distanz gewählt: <?page no="286"?> 286 Datenanalyse 𝐷𝐷 �� � � ��𝑦𝑦 �� � 𝑦𝑦̄ �� � � � ��� mit 𝑦𝑦 �� = Diskriminanzwert des Elementes 𝑖𝑖 bzgl. der 𝑙𝑙 -ten Diskriminanzfunktion, 𝑦𝑦̄ �� = Diskriminanzwert des Gruppenmittelwertes, 𝐷𝐷 �� � = quadrierte euklidische Distanz des neuen Elements 𝑖𝑖 zum Zentroid G von Gruppe 𝑔𝑔 . Beispiel 8.24: Um eine neue Waschmittelmarke einer der drei Gruppen aus unserem Beispiel zuordnen zu können (geringer - mittlerer - hoher Verkaufserfolg) müssen zunächst die Ausprägungen der Variablen Preis und Qualität ermittelt werden. Für die neue Marke liegen die folgenden Werte vor: 𝑥𝑥 � (Preis) = 3 und 𝑥𝑥 � (Qualität) = 3. Zunächst sind die Diskriminanzwerte y l für die geschätzten Diskriminanzfunktionen zu bestimmen: 𝑦𝑦 � � �0,526 ⋅ 3 � 0,825 ⋅ 3 � 0,89 sowie 𝑦𝑦 � � 0,831 ⋅ 3 � 0,526 ⋅ 3 � 4,071 . Im Anschluss sind die quadrierten euklidischen Distanzen zu den Gruppen-Zentroiden zu ermitteln: Gruppe 1: 𝐷𝐷 �� � � �𝑦𝑦 � � 𝑦𝑦� �� � � � �𝑦𝑦 � � 𝑦𝑦� �� � � � �0,897 � 1,949� � � �4,071 � 2,409� � � 3,869 ; Gruppe 2: 𝐷𝐷 �� � � �𝑦𝑦 � � 𝑦𝑦� �� � � � �𝑦𝑦 � � 𝑦𝑦� �� � � � �0,897 � 1,011� � � �4,071 � 2,977� � � 1,210 ; Gruppe 3: 𝐷𝐷 �� � � �𝑦𝑦 � � 𝑦𝑦� �� � � � �𝑦𝑦 � � 𝑦𝑦� �� � � � �0,897 � ��0,490�� � � �4,071 � 2,604� � � 4,076 . Die Distanz der neuen Waschmittelmarke zu Gruppe 2 (mittlerer Erfolg) ist mit 1,210 am geringsten. Das Element wird daher Gruppe 2 zugeordnet. VVaarriiaanntteenn ddeerr DDiisskkrriimmiinnaannzzaannaallyyssee Ausgehend von der beschriebenen Grundform der Diskriminanzanalyse lassen sich verschiedene Varianten unterscheiden (vgl. Tab. 8.11). Da eine Darstellung der einzelnen Verfahren den Rahmen dieses Buches sprengen würde, sei hier auf die einschlägige Literatur verwiesen (vgl. insbesondere Jennrich 1977; Klecka 1980; Tatsuoka 1988). <?page no="287"?> Verfahren der Klassifikation 287 TTaabb.. 88..1111: : Kriterien zur Unterscheidung diskriminanzanalytischer Verfahren (Quelle: Decker/ Temme 2000, S. 310) Unterscheidungskriterium Ausprägungsformen Anzahl der zu untersuchenden Gruppen 2 >2 Skalenniveau der unabhängigen Variablen metrisch nicht metrisch Verteilungsannahme multivariat normalverteilt verteilungsfrei Mathematischer Modellansatz linear nichtlinear Klassifikationskonzepte Distanzkonzept Wahrscheinlichkeitskonzept Klassifikationsvariablen Merkmalsvariablen Diskriminanzvariablen Art der Berücksichtigung der vorhandenen Variablen simultan schrittweise Die Diskriminanzanalyse lässt sich sinnvollerweise mit der Clusteranalyse kombinieren. So ist die Anwendung des strukturentdeckenden Verfahrens der Clusteranalyse geeignet, um Gruppen zu identifizieren, die mit Hilfe der Diskriminanzanalyse näher untersucht werden können. 33..33..33 M Muullttiiddiimmeennssiioonnaallee SSkkaalliieerruunngg Definition Die typische Fragestellung im Rahmen der Multidimensionalen Skalierung (MDS) ist die Beurteilung der Ähnlichkeit von Objekten, z.B. die von Konsumenten subjektiv wahrgenommene Ähnlichkeit von Marken derselben Produktklasse. Die wahrgenommenen Ähnlichkeiten werden in einem metrischen Raum positioniert. Hierzu wird eine Konfiguration (Gesamtheit der Positionen) der Objekte im Wahrnehmungsraum gesucht derart, dass die wahrgenommenen Ähnlichkeiten zwischen den Objekten möglichst genau durch die räumlichen Abstände (Minkowski-Metrik, vgl. Abschnitt 3.3.1) abgebildet werden. Die Objekte sollen demnach so auf die Punkte des Raumes abgebildet werden, dass die Distanz zwischen je zwei Punkten gerade der Ähnlichkeit zwischen den zugehörigen Objekten entspricht. Ein typisches Beispiel für die Anwendung einer MDS ist die Wahrnehmung von Marken derselben Produktklasse durch Konsumenten. In der Regel erfolgt die Positionierung der Objekte in einem zweidimensionalen Raum. <?page no="288"?> 288 Datenanalyse Im Rahmen der Ermittlung von Positionierungen können grundsätzlich zwei Wege beschritten werden: Während bei der Faktorenanalyse eine Eigenschaftsbeurteilung der Objekte erfolgt, wobei die relevanten Eigenschaften bekannt sein müssen, erfolgt bei der MDS eine Beurteilung der von den befragten Personen subjektiv wahrgenommenen Ähnlichkeiten zwischen den Objekten (vgl. Borg et al. 2010, S. 7 ff.). Im Vergleich zur Faktorenanalyse sind bei der MDS die relevanten Eigenschaften der zu untersuchenden Objekte (nahezu) unbekannt. Eine Multidimensionale Skalierung vollzieht sich in folgenden Schritten (vgl. Backhaus et al. 2015, S. 354 ff., Wührer 2008, S. 458): Messung der Ähnlichkeiten, Wahl des Distanzmodells, Ermittlung der Konfiguration, Aggregation der Konfiguration, Zahl und Interpretation der Dimensionen. Ausgangssituation einer MDS ist die Messung der subjektiven Wahrnehmung der Ähnlichkeiten von Objekten. Um dieses zu realisieren, müssen Ähnlichkeitsurteile von Personen erfragt werden, indem ein Paarvergleich von Objekten erfolgt. Die wichtigsten Verfahren zur Erhebung von Ähnlichkeitsurteilen sind die Methode der Rangreihung, die Ankerpunktmethode und das Ratingverfahren. Bei der Methode der Rangreihung, dem klassischen Verfahren zur Erhebung von Ähnlichkeitsurteilen, wird eine Auskunftsperson veranlasst, die Objektpaare nach ihrer empfundenen Ähnlichkeit zu ordnen, d.h. die Objektpaare werden nach aufsteigender oder abfallender Ähnlichkeit in eine Rangfolge bzw. -reihe gebracht. Bei 𝑖𝑖 � 1, … 𝐼𝐼 Objekten ergeben sich somit 𝐼𝐼�𝐼𝐼 � 1�/ 2 Objektpaare. Diese Unterteilung der möglichen Objektpaare erfolgt solange, bis jede Gruppe genau nur ein Objektpaar enthält. Im Gegensatz dazu dient bei der Ankerpunktmethode jedes Objekt genau einmal als Vergleichsobjekt zur Beurteilung der Ähnlichkeiten. Daraus ergeben sich insgesamt bei I Objekten 𝐼𝐼�𝐼𝐼 � 1� Paarvergleiche, sodass für jeden Ankerpunkt �𝐼𝐼 � 1� Ränge vergeben werden. Je größer die Ähnlichkeit im Rahmen der Paarvergleiche ist, desto kleiner ist der Rang. Beim Ratingverfahren werden alle Objekte mit Hilfe einer Ratingskala bewertet, indem einzelne Objektpaare auf einer Ähnlichkeitsbzw. Unähnlichkeitsskala beurteilt werden. Diese Paarbildung erfolgt wie bei der Rangreihung, jedoch sieht das Ratingverfahren eine isolierte Betrachtung der Paare vor. Da es sich hierbei um symmetrische Konstrukte handelt (die Ähnlichkeit zwischen A und B ist gleich der Ähnlichkeit zwischen B und A), wird jedes Objektpaar nur einmal beurteilt, sodass insgesamt bei 𝐼𝐼 Objekten 𝐼𝐼�𝐼𝐼 � 1�/ 2 Paare zu beurteilen sind. Der Nachteil dieser Methode besteht jedoch darin, dass sog. Ties (verschiedene Objektpaare erhalten gleiche Ähnlichkeitswerte) auftreten können (vgl. Wührer 2008, S. 443 ff.). <?page no="289"?> Verfahren der Klassifikation 289 Beispiel 8.25: Im Rahmen einer Untersuchung am Frankfurter Hauptbahnhof wurden Manager gebeten, die fünf Hotels in der City bezüglich ihrer Ähnlichkeit zu vergleichen. Dabei wurde eine Ratingskala mit den Ausprägungen von „1 = sehr ähnlich“ bis „10 = sehr unähnlich“ verwendet. Im Mittel über alle befragten Personen ergab sich die folgende symmetrische Datenmatrix: Hotel A Hotel B Hotel C Hotel D Hotel E Hotel A Hotel B 10 Hotel C 9 3 Hotel D 6 7 2 Hotel E 1 8 5 4 Als Startkonfiguration wurde folgende Platzierung der Hotels in einem zweidimensionalen Raum gewählt: x-Achse y-Achse Hotel A 1 3 Hotel B 9 9 Hotel C 10 3 Hotel D 8 1 Hotel E 3 2 Im zweiten Schritt der MDS erfolgt die Wahl des Distanzmodells. Um die Objekte in einem psychologischen Wahrnehmungsraum abbilden zu können, ist für diese Darstellung ein Distanzmaß notwendig. Bei einem metrischen Skalenniveau beruhen die Ähnlichkeitsmaße auf der allgemeinen Ähnlichkeitsfunktion der Minkowski-Metrik (vgl. Borg et al. 2010, S. 11): 𝑑𝑑 �� � ���𝑥𝑥 �� � 𝑥𝑥 �� � � � ��� � �� mit 𝑑𝑑 �� = Distanz zwischen Objekt 𝑖𝑖 und Objekt 𝑗𝑗 , 𝑥𝑥 �� = Wert der Variablen 𝑘𝑘 bei Objekt 𝑖𝑖 �𝑘𝑘 � 1, . . . ��, 𝑥𝑥 �� = Wert der Variablen 𝑘𝑘 bei Objekt 𝑗𝑗 �𝑘𝑘 � 1, . . . �� , 𝑟𝑟 � 1 = Minkowski-Konstante. Dabei stellt 𝑟𝑟 eine positive Konstante dar. Für 𝑟𝑟 � 2 resultiert die Euklidische Distanz, für 𝑟𝑟 � 1 die City-Block-Metrik (vgl. auch die Ausführungen zur Clusteranalyse in Abschnitt 3.3.1). <?page no="290"?> 290 Datenanalyse Nach der Wahl des Distanzmodells schließt sich die Ermittlung der Konfiguration an. Um diese zu erhalten, ist ein iteratives Vorgehen erforderlich. Dabei erfolgt die Bestimmung der ersten willkürlichen Konfiguration, der sogenannten Startkonfiguration, indem in einem möglichst gering dimensionierten Raum eine Konfiguration ermittelt wird, deren dargestellte Distanzen 𝑑𝑑 �� möglichst gut die Monotoniebedingung erfüllen. Die Rangfolge der errechneten Distanzen soll die Rangfolge der Ähnlichkeiten bzw. Unähnlichkeiten 𝑢𝑢 �� widerspiegeln. Eine Gegenüberstellung der ursprünglichen (Un-)Ähnlichkeiten 𝑢𝑢 �� mit den berechneten Distanzen 𝑑𝑑 �� mit Hilfe des Sheparddiagramms (vgl. Abb. 8.18) verdeutlicht, ob ein streng monotoner Verlauf vorliegt. Entsprechen die Rangfolgen von 𝑢𝑢 �� und 𝑑𝑑 �� einander, dann ist die Monotoniebedingung erfüllt. Liegt somit die Bedingung 𝑢𝑢 �� � 𝑢𝑢 �� dann 𝑑𝑑 �� � 𝑑𝑑 �� nicht vor, ist eine Berechnung der Disparitäten erforderlich, um zumindest eine schwach monotone Transformation der Unähnlichkeiten zu erzielen: 𝑑𝑑� �� � 𝑑𝑑� �� � 𝑑𝑑 �� � 𝑑𝑑 �� 2 mit 𝑑𝑑� �� = Disparität, 𝑑𝑑 �� , 𝑑𝑑 �� = Distanz zwischen den Objektpaaren 𝑖𝑖𝑖𝑖 und 𝑝𝑝𝑝𝑝 . Beispiel 8.26: Im Rahmen der Situation im Beispiel 8.25 soll überprüft werden, ob die bereits vorhandene Konfiguration die Monotoniebedingung erfüllt. Für die Überprüfung wird die Euklidische Distanz verwendet. Distanzen Unähnlichkeiten 𝑑𝑑 �,� � �|1 � 9| � � |3 � 9| � � �� � 10,00 10 𝑑𝑑 �,� � �|1 � 10| � � |3 � 3| � � �� � 9,00 9 𝑑𝑑 �,� � �|1 � 8| � � |3 � 1| � � �� � 7,28 6 𝑑𝑑 �,� � �|1 � 3| � � |3 � 2| � � �� � 2,24 1 𝑑𝑑 �,� � �|9 � 10| � � |9 � 3| � � �� � 6,08 3 𝑑𝑑 �,� � �|9 � 8| � � |9 � 1| � � �� � 8,06 7 𝑑𝑑 �,� � �|9 � 3| � � |9 � 2| � � �� � 9,22 8 𝑑𝑑 �,� � �|10 � 8| � � |3 � 1| � � �� � 2,83 2 𝑑𝑑 �,� � �|10 � 3| � � |3 � 2| � � �� � 7,07 5 𝑑𝑑 �,� � �|8 � 3| � � |1 � 2| � � �� � 5,10 4 <?page no="291"?> Verfahren der Klassifikation 291 Bei den Unähnlichkeiten handelt es sich um die Ergebnisse aus der Managerbefragung aus Beispiel 8.25. Diese werden den errechneten Distanzmaßen 𝑑𝑑 �� gegenübergestellt, um zu überprüfen, ob die Monotoniebedingung eingehalten wird. Wie aus dem Vergleich der Werte deutlich wird, ist die Monotoniebedingung hier nicht erfüllt, da zum einen die Distanz zwischen den Hotels B und C mit 6,08 größer ist als bei den Hotels D und E (5,80) und zum anderen auch die Distanz zwischen den Hotels B und E (9,22) größer ist als bei den Hotels A und C (9,00). Um zumindest die schwache Monotoniebedingung zu erfüllen, müssen hier daher die Disparitäten ermittelt werden. Aus Abb. 8.18 ist die notwendige Transformation für die Erfüllung der schwachen Monotonie zu entnehmen. Anhand des Shepard-Diagramms ist optisch erkennbar, ob die Monotoniebedingung erfüllt ist. Rechnerisch erfolgt die Beurteilung der Güte der Konfiguration mit Hilfe des Stress-Maßes nach Kruskal als Qualitätsmaß. Am gebräuchlichsten ist dabei folgende Variante (vgl. Wührer 2008, S. 316): 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆1 � �∑ � ∑ �𝑑𝑑 �� � 𝑑𝑑� �� � � � ∑ � ∑ 𝑑𝑑 �� � � . AAbbbb.. 88..1188: : Beispiel eines Shepard-Diagramms mit willkürlicher Startkonfiguration und Transformation Das Stress-Maß misst, wie gut bzw. wie schlecht eine Konfiguration die Monotoniebedingung erfüllt. Allgemein gilt: Je kleiner das Stress-Maß ist, desto besser ist die Konfiguration, d.h. umso besser ist die Anpassung. Eine exakte Anpassung liegt dann vor, wenn das Stress-Maß gleich Null ist. Dies würde bedeuten, dass in diesem Falle die willkürliche Startkonfiguration die Bedingung eines streng monotonen Verlaufs bereits erfüllen würde (was in der Praxis allerdings eher zufällig eintritt). Disparitäten müssten in diesem Fall daher auch nicht errechnet werden. 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 1 2 3 4 5 6 7 Distanzen d ij Unähnlichkeiten u ij willkürliche Startkonfiguration Transformation <?page no="292"?> 292 Datenanalyse Beispiel 8.27: In unserem Beispiel lässt sich der STRESS1-Wert folgendermaßen errechnen: 𝑢𝑢 �� Objektpaare 𝑑𝑑 �� 𝑑𝑑� �� �𝑑𝑑 �� � 𝑑𝑑� �� � � 𝑑𝑑 �� � 1 A,E 2,24 2,24 0,00 5,02 2 C,D 2,83 2,83 0,00 8,01 3 B,C 6,08 5,59 0,24 36,97 4 D,E 5,10 5,59 0,24 26,01 5 C,E 7,07 7,07 0,00 49,98 6 A,D 7,28 7,28 0,00 53,00 7 B,D 8,06 8,06 0,00 64,96 8 B,E 9,22 9,11 0,01 85,01 9 A,C 9,00 9,11 0,01 81,00 10 A,B 10,00 10,00 0,00 100,00 - - - 0,50 509,96 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆1 � � 0,50 509,96 � 0,03 Der geringe Wert für STRESS1 zeigt, dass die Konfiguration in diesem Beispiel bereits sehr gut ist. Die jeweils ermittelte Konfiguration wird iterativ solange verbessert, bis der STRESS1 einen vorgegebenen Grenzwert unter- oder eine vorgegebene Zahl von Iterationen überschreitet. Im vierten Schritt der MDS erfolgt die Aggregation der Konfigurationen. Die bisherige Darstellung der MDS galt bisher nur für eine Person. Dies entspricht der individuellen, klassischen MDS. Im Marketing ist jedoch meist der subjektive Wahrnehmungsraum einer Gruppe von Personen (Zielgruppe) relevant. Voraussetzung dafür sind homogene Personengruppen. Sollte dies nicht von vornherein gegeben sein, könnten diese beispielsweise durch eine Clusteranalyse ermittelt werden. Um den Wahrnehmungsraum von Gruppen zu ermitteln, bieten sich unterschiedliche Möglichkeiten zur Lösung des Aggregationsproblems an, auf die hier nicht näher eingegangen wird (vgl. hierzu z.B. Hair et al. 2010, S. 575 f.). Im fünften Schritt des Verfahrens werden die Zahl und Interpretation der Dimensionen berücksichtigt. Dabei wird die Anzahl der Dimensionen vom Marktforscher festgelegt. Eigentlich sollte die Zahl der „wahren“ Dimensionalität der Wahrnehmung entsprechen. Da diese jedoch zumeist unbekannt ist, stellt sie ein Problem dar. Aus praktischen Gründen wird deshalb mit zwei bis drei Dimensionen gearbeitet. Das hängt mit der grafischen Darstellbarkeit, Anschaulichkeit und Interpretierbarkeit der Ergebnisse zusammen. Die Darstellung von Objekten im Wahrnehmungsraum liefert Erkenntnisse darüber, in welcher Weise Objekte relativ zu konkurrierenden Objekten wahrgenommen werden, <?page no="293"?> Verfahren der Klassifikation 293 welche Objekte ähnlich wahrgenommen werden und somit in einer engen Konkurrenz zu einander stehen und inwiefern eventuell Marktlücken für neue Objekte bestehen. Im Gegensatz zur Faktorenanalyse, bei der die Faktoren frühzeitig inhaltlich interpretiert werden, erfolgt die Interpretation der Konfiguration hier erst nach dem MDS-Algorithmus. Die inhaltlichen Bezeichnungen der Dimensionen der Konfiguration werden bei der MDS aus der Lage der Objekte im Objektraum abgeleitet. Damit sind die fünf Schritte der MDS abgeschlossen. Sämtliche Standard-Statistikpakete wie SPSS, SAS oder R enthalten MDS-Module. Zudem existieren spezifische MDS-Programme für fortgeschrittene Anwenderansprüche. Einen Überblick liefern z.B. Borg et al. 2010. M Meessssuunngg vvoonn PPrrääffeerreennzzeenn mmiitttteellss MMuullttiiddiimmeennssiioonnaalleerr SSkkaalliieerruunngg Bei der Ermittlung der Ähnlichkeitsdaten bleibt unberücksichtigt, ob die Auskunftsperson ein Objekt als positiv oder negativ bewertet. Will man den Nutzen, d.h. die Präferenz, die eine Person mit dem Objekt verbindet, in eine Untersuchung einbeziehen, so ist eine zusätzliche Datenerhebung durchzuführen, sofern diese zusätzlichen Präferenzen einer Person bezüglich der Objekte nicht vorliegen. Mit diesen Informationen kann die MDS erweitert werden. Dadurch ist es möglich, in den Wahrnehmungsraum neben den Objekten auch die Präferenzen von Personen einzubeziehen. Grundsätzlich existieren zwei Möglichkeiten, die Präferenzen im Rahmen der MDS zu berücksichtigen (vgl. Hair et al. 2010, S. 591 f.): das Idealpunktmodell und das Idealvektormodell. Der Idealpunkt einer Person repräsentiert ein hypothetisches Objekt, das die am meisten präferierte Position im Wahrnehmungsraum einnimmt. Eine sinnvolle Anwendung des Idealpunktmodells ist immer dann gegeben, wenn eine ideale Ausprägung hinsichtlich der Beurteilungsdimension exixtiert, bei deren Über- oder Unterschreiten ein Nutzenabfall eintritt. Die rechnerische Ermittlung des Idealpunktes wird mit Hilfe einer modifizierten Präferenzregression durchgeführt (vgl. z.B. Carroll 1972): 𝑦𝑦 � � 𝑎𝑎 � � 𝑏𝑏 � ⋅ 𝑥𝑥 �� � 𝑏𝑏 ��� ⋅ 𝑞𝑞 � � ��� mit 𝑞𝑞 � � � 𝑥𝑥 �� � � ��� �𝑖𝑖 � 1, . . . , 𝐼𝐼� 𝑦𝑦 � = ermittelter Präferenzwert einer Person bezüglich des Objekts 𝑖𝑖 , 𝑥𝑥 �� = Koordinate von Objekt 𝑖𝑖 auf Dimension 𝑟𝑟 �𝑟𝑟 � 1, … , �� , 𝑎𝑎 , 𝑏𝑏 � = zu schätzende Parameter, <?page no="294"?> 294 Datenanalyse 𝑞𝑞 � = Dummy-Variable 𝑞𝑞 , deren Wert sich aus der Summe der quadrierten Koordinaten eines Objektes 𝑖𝑖 �𝑖𝑖 � 1, … , 𝐼𝐼� ergeben. AAbbbb.. 88..1199: : Beispiel eines Idealpunktmodells Daraus lassen sich die Koordinaten des Idealpunktes mit Hilfe folgender Gleichung errechnen: 𝑥𝑥 � ∗ � �𝑏𝑏 � 2𝑏𝑏 ��� �� � 1, … , 𝑅𝑅�. Abbildung 8.19 zeigt ein Beispiel für ein Idealpunktmodell mit Idealpunkt, Nutzenmaximum und Isopräferenzlinien. Das Idealvektormodell (vgl. Abb. 8.20) geht von einer Präferenzfunktion aus, für die gilt: „Je mehr, desto besser.“ Es gibt keinen Idealpunkt, sondern nur eine Richtung (Vektor), die die größtmögliche Nutzenstiftung in allen Dimensionen anzeigt. Die Isopräferenzlinien sind dabei Orte gleichen Nutzens. Sinnvoll ist die Anwendung dieses Modells, wenn ein „Mehr“ an Ausprägungen in den Beurteilungsdimensionen immer ein „Mehr“ an Nutzen erzeugt. Die Berechnung des Idealvektors erfolgt mit Hilfe der Regressionsanalyse, der das folgende Grundmodell zugrunde liegt: 𝑦𝑦 � � � � � 𝑏𝑏 � ⋅ 𝑥𝑥 �� � ��� �𝑖𝑖 � 1, . . . , 𝐼𝐼�. Beim Einzeichnen des Präferenzvektors in den Objektraum ist zu beachten, dass bei den Koeffizienten der Regressionsanalyse die Vorzeichen zu ändern sind, da es sich bei den Präferenzdaten um Rangdaten handelt, bei denen der niedrigste Wert die höchste Präferenz bedeutet. Die Steigung des Präferenzvektors ergibt sich somit aus dem Punkt 1 Nutzenmaximum Isopräferenzlinien Idealpunkt Nutzen (Präferenz) Marke A Marke B Marke C Marke D x 1 x 2 <?page no="295"?> Verfahren der Klassifikation 295 (0; 0), der durch den Ursprung läuft, und dem Punkt 2 ( �𝑏𝑏 � ; �𝑏𝑏 � ), sodass die Steigung des Präferenzvektors 𝑏𝑏 � 𝑏𝑏 � beträgt. AAbbbb.. 88..2200: : Beispiel eines Idealvektormodells Beispiel 8.28: Bei der externen Präferenzanalyse ordneten Manager auf dem Frankfurter Flughafen die in Beispiel 8.25 genannten Hotels im Mittel wie folgt: Hotel Präferenz A 1 B 5 C 4 D 3 E 2 Idealpunktmodell: Aus der allgemeinen Formel des Idealpunktmodells ergibt sich für dieses zweidimensionale Beispiel folgende Formel: 𝑦𝑦 � � � � 𝑏𝑏 � 𝑥𝑥 � � 𝑏𝑏 � 𝑥𝑥 � � 𝑏𝑏 � �𝑥𝑥 �� � 𝑥𝑥 �� � . Die Normalgleichungen des Idealpunktmodells lauten: A 1 � � � 𝑏𝑏 � ⋅ 1 � 𝑏𝑏 � ⋅ 3 � 𝑏𝑏 � ⋅ 10 E 2 � � � 𝑏𝑏 � ⋅ 3 � 𝑏𝑏 � ⋅ 2 � 𝑏𝑏 � ⋅ 13 D 3 � � � 𝑏𝑏 � ⋅ 8 � 𝑏𝑏 � ⋅ 1 � 𝑏𝑏 � ⋅ 65 x 1 x 2 Marke A Marke D Marke B Marke C <?page no="296"?> 296 Datenanalyse C 4 � � � � � ⋅ 10 � � � ⋅ 3 � � � ⋅ 109 B 5 � � � � � ⋅ 9 � � � ⋅ 9 � � � ⋅ 162 . Idealvektormodell: Aus der allgemeinen Formel des Idealvektormodells ergibt sich folgende Formel: 𝑦𝑦 � � � � � � 𝑥𝑥 � � � � 𝑥𝑥 � . Die Normalgleichungen des Idealvektormodells lauten: A 1 � � � � � ⋅ 1 � � � ⋅ 3 E 2 � � � � � ⋅ 3 � � � ⋅ 2 D 3 � � � � � ⋅ 8 � � � ⋅ 1 C 4 � � � � � ⋅ 10 � � � ⋅ 3 B 5 � � � � � ⋅ 9 � � � ⋅ 9 . Um die Interpretation der Dimensionen zu erleichtern, dreht man gewöhnlich die Achsen, damit auf analytischem Weg eine möglichst gute Einfachstruktur hergestellt wird. In diesem Zusammenhang wird von einer Varimax-Rotation gesprochen, wenn die Achsen senkrecht (rechtwinklig) aufeinander bleiben. Hierbei handelt es sich um Methoden der orthogonalen Rotation. Im Idealfall bewirkt diese Drehung eine sogenannte Einfachstruktur, d.h. die Objekte befinden sich entlang der Achsen. Es ist erwiesen, dass durch die Drehung des Koordinatenkreuzes im Ursprung die Aussagekraft einer Hauptachsenanalyse nicht verändert wird. Bei schiefwinkligen (obliquen) Rotationen hingegen wird die Unabhängigkeitsprämisse der Faktoren im statistischen Sinne aufgegeben. Dann wird eine (erneute) Faktorenanalyse notwendig, wobei empirische Untersuchungen gezeigt haben, dass die Ergebnisse meist nicht mehr interpretierbar sind (vgl. Bortz/ Schuster 2010, S. 418 f.). Eine andere Möglichkeit bei der Interpretation der Konfiguration ist das Property Fitting. Hierbei handelt es sich um eine Kombination von MDS und Faktorenanalyse, bei der die Eigenschaftsausprägungen bzw. -beurteilungen nachträglich in den Wahrnehmungsraum mit einbezogen werden. Der Objektraum enthält also zusätzlich Vektoren wie bei der Faktorenanalyse (vgl. ausführlich Hilbert/ Opitz 1997). 33..44 VVeerrffaahhrreenn zzuurr MMeessssuunngg vvoonn BBeezziieehhuunnggeenn Verfahren zur Messung von Beziehungen versuchen, Zusammenhänge zwischen den betrachteten Variablen aufzudecken. Verfahren der Dependenzanalyse messen die Abhängigkeit einer oder mehrerer abhängiger Variablen von einer oder mehreren unabhängigen Variablen. Insofern kann die oben beschriebene Diskriminanzanalyse auch den Verfahren der Depenzenzanalyse zugeordnet werden (bei einer nominalskalierten abhängigen Variablen und zwei oder mehr metrisch skalierten unabhängigen Variablen). Weitere gebräuchliche Verfahren sind: Regressionsanalyse (bei metrisch skalierten abhängigen und unabhängigen Variablen), <?page no="297"?> Verfahren zur Messung von Beziehungen 297 Kausalanalyse (bei metrisch skalierten abhängigen und unabhängigen Variablen) sowie Varianzanalyse (bei einer metrisch skalierten abhängigen Variablen und einer oder mehreren nominalskalierten unabhängigen Variablen). Verfahren der Interdependenzanalyse untersuchen die wechselseitigen Beziehungen zwischen Variablen. Zwar beruhen auch die Clusteranalyse, die Faktorenanalyse, die Multidimensionale Skalierung und die Conjointanalyse auf Interdependenzen zwischen Variablen, da die typischen Fragestellungen dieser Verfahren jedoch nicht vorrangig auf die Untersuchung wechselseitiger Beziehungen i.e.S. ausgerichtet sind, werden an dieser Stelle nur die Kontingenzanalyse und die Korrelationsanalyse als „typische“ Verfahren der Interdependenzanalyse dargestellt. 33..44..11 R Reeggrreessssiioonnssaannaallyyssee Definition Mit Hilfe der Regressionsanalyse werden Art und Richtung des Zusammenhangs zwischen metrisch skalierten Variablen untersucht, d.h. es wird die Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen analysiert. Die Regressionsanalyse stellt eines der in den Sozialwissenschaften am häufigsten angewendeten Verfahren dar. Typische Fragestellung im Marketing ist z.B. die Untersuchung, wie sich die Absatzmenge verändert, wenn eine oder mehrere Marketingvariablen (Preishöhe, Werbebudget) variiert werden. Insofern können mit Hilfe der Regressionsanalyse nicht nur Zusammenhänge aufgedeckt, sondern auch (Wirkungs-)Prognosen erstellt werden. Eine Regressionsanalyse vollzieht sich in folgenden Schritten: Formulierung des Regressionsmodells, Schätzung der Regressionsfunktion, Prüfung der Regressionsfunktion und der Regressionskoeffizienten, Prüfung der Modellannahmen. LLiinneeaarree RReeggrreessssiioonnssaannaallyyssee Am häufigsten wird das lineare Regressionsmodell zugrunde gelegt, das in allgemeiner Form folgendermaßen lautet: 𝑦𝑦 � 𝑎𝑎 � 𝑏𝑏 � ⋅ 𝑥𝑥 � � � � 𝑏𝑏 � ⋅ 𝑥𝑥 � � � � 𝑏𝑏 � ⋅ 𝑥𝑥 � mit 𝑦𝑦 = abhängige Variable, 𝑎𝑎 = Konstante der Regressionsfunktion, 𝑏𝑏 � = Regressionskoeffizienten �� � 1, … , �� , 𝑥𝑥 � = unabhängige Variablen. Bezeichnet man mit 𝑦𝑦� � den Wert der Regressionsfunktion, der aus den Werten 𝑥𝑥 �� , …, 𝑥𝑥 �� der unabhängigen Variablen resultiert, so erhält man die gesuchten Regressionskoeffizienten dadurch, dass die Summe der quadrierten Abweichungen zwischen den Wer- <?page no="298"?> 298 Datenanalyse ten der Regressionsfunktion 𝑦𝑦� � und den zugehörigen Beobachtungswerten 𝑦𝑦 � minimiert wird: � � ��𝑦𝑦 � � 𝑦𝑦� � � � � ��� � ��𝑦𝑦 � � 𝑎𝑎 � 𝑏𝑏 � ⋅ 𝑥𝑥 �� � � � 𝑏𝑏 � ⋅ 𝑥𝑥 �� � � � → 𝑚𝑚𝑚𝑚𝑚𝑚! AAbbbb.. 88..2211: : Ausgangssituation der einfachen linearen Regressionsanalyse Speziell im Modell der einfachen linearen Regressionsanalyse wird die lineare Abhängigkeit zwischen einer metrischen abhängigen Variablen und einer metrischen unabhängigen Variablen untersucht, z.B. die Abhängigkeit der Absatzmenge vom Produktpreis. Das Grundmodell der linearen Einfachregression lautet: 𝑦𝑦 � 𝑎𝑎 � 𝑏𝑏 𝑥𝑥 mit 𝑦𝑦 = abhängige Variable, 𝑥𝑥 = unabhängige Variable, 𝑎𝑎, 𝑏𝑏 = Regressionskoeffizienten (Ordinatenabschnitt und Steigung der Funktion). Abbildung 8.21 zeigt die Ausgangssituation einer linearen Einfachregression. Gegeben sind n Wertpaare ( 𝑥𝑥 � , 𝑦𝑦 � ) aus der Stichprobe, die sich um die - noch unbekannte - Regressionsgerade scharen: 𝑦𝑦� � 𝑎𝑎� � 𝑏𝑏� ⋅ 𝑥𝑥 ; für die einzelnen Werte auf der Regressionsgerade gilt entsprechend: 𝑦𝑦� � � 𝑎𝑎� � 𝑏𝑏� ⋅ 𝑥𝑥 � . Die Regressionskoeffizienten 𝑎𝑎 und 𝑏𝑏 sind so zu bestimmen, dass die resultierende Regressionsfunktion „möglichst gut“ die empirischen Beobachtungswerte repräsentiert; konkret wird diejenige Gerade gesucht, für die die Summe der quadrierten Abweichunx y x bˆ aˆ y ˆ y i ŷ i x i e i <?page no="299"?> Verfahren zur Messung von Beziehungen 299 gen der durch die Regressionsgleichung vorhergesagten 𝑦𝑦� � -Werte von den beobachteten 𝑦𝑦 � -Werten, 𝑒𝑒 � , minimal wird (Methode der kleinsten Quadrate). Zur analytischen Herleitung der Regressionsgleichung ist die folgende Zielfunktion zu minimieren (vgl. Bortz/ Schuster 2010, S. 187): 𝜕𝜕 � � 𝑒𝑒 �� � ��� � ��𝑦𝑦 � � 𝑦𝑦� � � � � � ��𝑦𝑦 � � 𝑎𝑎� � 𝑏𝑏� ⋅ 𝑥𝑥 � � � � → 𝑚𝑚𝑚𝑚𝑚𝑚! Hierzu werden die ersten partiellen Ableitungen nach 𝑎𝑎� und 𝑏𝑏� gebildet und gleich Null gesetzt: 𝜕𝜕𝜕𝜕 𝜕𝜕𝑎𝑎� � �2 � 𝑦𝑦 � � 2 ⋅ 𝑏𝑏� � ��� � 𝑥𝑥 � � 2 ⋅ 𝑚𝑚 ⋅ 𝑎𝑎� � ��� � 0 𝜕𝜕𝜕𝜕 𝜕𝜕𝑏𝑏� � �2 � 𝑥𝑥 � ⋅ 𝑦𝑦 � � 2 ⋅ 𝑏𝑏� � ��� � 𝑥𝑥 �� � 2 ⋅ 𝑎𝑎� � ��� � 𝑥𝑥 � � ��� � 0. Die Lösung des Gleichungssystems führt zu folgenden Parameterwerten: 𝑎𝑎� � 𝑦𝑦̄ � 𝑏𝑏� ⋅ 𝑥𝑥̄ 𝑏𝑏� � ∑ �𝑥𝑥 � � 𝑥𝑥̄ ��𝑦𝑦 � � 𝑦𝑦̄ � � ∑ �𝑥𝑥 � � 𝑥𝑥̄ � � � mit 𝑥𝑥̄ � 1 𝑚𝑚 � 𝑥𝑥 � � , 𝑦𝑦̄ � 1 𝑚𝑚 � 𝑦𝑦 � � . Beispiel 8.29: Ein Markenartikelhersteller für Babyshampoo vermutet einen Zusammenhang zwischen der Höhe des Preises und den Absatzzahlen. Zur Schätzung dieses Modells sind ihm von den Handelsreisenden die Verkaufszahlen und die Preise von 2018- 2022 in den Supermärkten bekannt: Jahr Preis 𝑝𝑝 � Absatzmenge 𝑥𝑥 � 𝑝𝑝 � � 𝑝𝑝̄ 𝑥𝑥 � � 𝑥𝑥̄ �𝑝𝑝 � � 𝑝𝑝̄ � � �𝑝𝑝 � � 𝑝𝑝̄ � � �𝑥𝑥 � � 𝑥𝑥̄ � 2018 1,00 40 -1 20 1 -20 2019 2,00 20 0 0 0 0 2020 2,00 20 0 0 0 0 2021 2,00 10 0 -10 0 0 2022 3,00 10 1 -10 1 -10 10,00 100 0 0 2 -30 <?page no="300"?> 300 Datenanalyse Zu bestimmen ist folgende Regressionsgerade: 𝑥𝑥 � 𝑎𝑎 � 𝑏𝑏 � 𝑝𝑝 . Zur Bestimmung der Regressionsgerade werden errechnet: 𝑝𝑝̄ � 2 𝑥𝑥̄ � 20 ��𝑥𝑥 � � 𝑥𝑥̄ � � 0 � ��𝑝𝑝 � � 𝑝𝑝̄ � � 0 � ��𝑝𝑝 � � 𝑝𝑝̄ � � � � 2 ��𝑝𝑝 � � 𝑝𝑝̄ � �𝑥𝑥 � � 𝑥𝑥̄ � � � �30 Daraus erhält man: 𝑏𝑏� � �15 und 𝑎𝑎� � 50 Die gesuchte Regressionsgerade lautet somit: 𝑥𝑥 � 50 � 15𝑝𝑝 . Auf der Basis der geschätzten Regressionsgerade kann bei einem beliebigen Preis p i die zu erwartende Absatzmenge 𝑥𝑥 � geschätzt werden. Wird beispielsweise ein Preis von € 1,49 erwogen, so erhält man durch Einsetzen in die Regressionsgleichung folgenden Schätzwert für die Absatzmenge: 𝑥𝑥 � 27,65 � 28 . Die Güte der Anpassung der Regressionsfunktion an die empirischen Werte kann mit Hilfe des Bestimmtheitsmaßes 𝑟𝑟 � gemessen werden: 𝑟𝑟 � � ∑ �𝑦𝑦� � � 𝑦𝑦̄ � � � ∑ �𝑦𝑦 � � 𝑦𝑦̄ � � � . Das Bestimmtheitsmaß gibt an, welcher Anteil der Streuung der Beobachtungswerte durch die Regressionsgerade erklärt wird. Der Wertebereich des Bestimmtheitsmaßes liegt zwischen 0 und 1, wobei für 𝑟𝑟 � � 0 überhaupt keine, für 𝑟𝑟 � � 1 eine vollständige Erklärung der Streuung der empirischen Werte durch die Regressionsgerade erfolgt. Im Beispiel resultiert das Bestimmtheitsmaß als 𝑟𝑟 � � 0,75 . Die Höhe des Bestimmtheitsmaßes wird durch die Zahl der unabhängigen Variablen beeinflusst; um diesen Effekt auszuschalten, wird das korrigierte Bestimmtheitsmaß folgendermaßen errechnet: <?page no="301"?> Verfahren zur Messung von Beziehungen 301 𝑟𝑟 ���� � � 𝑟𝑟 � � 𝐾𝐾�1 � 𝑟𝑟 � � 𝑛𝑛 � 𝐾𝐾 � 1 mit 𝐾𝐾 = Zahl der unabhängigen Variablen, 𝑛𝑛 = Zahl der Beobachtungen, 𝑛𝑛-K-1 = Zahl der Freiheitsgrade. Werden mehrere unabhängige Variablen herangezogen, so kann das multiple Regressionsmodell � � 𝑎𝑎 � 𝑏𝑏 � ⋅ 𝑥𝑥 � � � � 𝑏𝑏 � ⋅ 𝑥𝑥 � mit Hilfe der Matrizenrechnung parametrisiert werden (vgl. Bortz/ Schuster 2010, S. 360). Die 𝐾𝐾 unabhängigen Variablen werden um eine weitere Variable 𝐾𝐾 � 1 ergänzt, auf der alle 𝑛𝑛 Beobachtungswerte den Wert 1 erhalten. Damit entspricht der Parameter 𝑏𝑏 ��� dem konstanten Glied 𝑎𝑎 , d.h. 𝑏𝑏 ��� ist ein 𝑛𝑛 -Vektor, der 𝑛𝑛 -Mal das konstante Glied enthält. Die Regressionsgleichung lautet dann: � � 𝑏𝑏 � 𝑥𝑥 � � � � 𝑏𝑏 � 𝑥𝑥 � � 𝑏𝑏 ��� 𝑥𝑥 ��� . Das Regressionsmodell lautet in Matrixschreibweise: 𝐲𝐲 � 𝐗𝐗𝐗𝐗 mit 𝐲𝐲 = 𝑛𝑛 -Vektor der Beobachtungswerte der abhängigen Variablen, 𝐗𝐗 = 𝐾𝐾 -Vektor der Regressionskoeffizienten, 𝐗𝐗 = 𝑛𝑛 𝐾𝐾 -Matrix der Beobachtungswerte der K unabhängigen Variablen. Auch hier werden die Parameter der Regressionsfunktion so bestimmt, dass: � � �� � ��� → 𝑚𝑚𝑚𝑚𝑛𝑛! Daraus folgt: � � � � �� � ��� � 𝐞𝐞 ′ 𝐞𝐞 � �� � ��� ′ �� � ��� � �𝐲𝐲 � 𝐗𝐗𝐗𝐗�′�𝐲𝐲 � 𝐗𝐗𝐗𝐗� � 𝐲𝐲 ′ 𝐲𝐲 � 𝐗𝐗 ′ 𝐗𝐗 ′ 𝐗𝐗𝐗𝐗 � 2𝐗𝐗 ′ 𝐗𝐗 ′ 𝐲𝐲 → 𝑚𝑚𝑚𝑚𝑛𝑛! Ableitung nach dem Vektor 𝐗𝐗 und Nullsetzen führt zu 𝑑𝑑�𝐞𝐞 ′ 𝐞𝐞� 𝑑𝑑𝐗𝐗 � 2 𝐗𝐗 ′ 𝐗𝐗𝐗𝐗 � 2𝐗𝐗 ′ 𝐲𝐲 � �. Hieraus folgt: 𝐗𝐗 ′ 𝐗𝐗𝐗𝐗 � 𝐗𝐗 ′ 𝐲𝐲 �𝐗𝐗 ′ 𝐗𝐗� �� �𝐗𝐗 ′ 𝐗𝐗�𝐗𝐗 � �𝐗𝐗 ′ 𝐗𝐗� �� 𝐗𝐗 ′ 𝐲𝐲 𝐗𝐗 � �𝐗𝐗 ′ 𝐗𝐗� �� 𝐗𝐗 ′ 𝐲𝐲. <?page no="302"?> 302 Datenanalyse Beispiel 8.30: Von einem Forschungsinstitut kauft der Markenartikelhersteller aus Beispiel 8.29 für den beobachteten Zeitraum Daten über die Qualität des Babyshampoos, die über eine Rating-Skala (1 = sehr schlecht bis 5 = sehr gut) erhoben wurden. Folgende Wertetabelle wird der Berechnung zugrunde gelegt: Jahr 2018 2019 2020 2021 2022 Preis 1 2 2 2 3 Absatzmenge 40 20 20 10 10 Qualität 3 3 2 1 1 Die Matrix �𝐗𝐗 ′ 𝐗𝐗� �� resultiert als �𝐗𝐗 ′ 𝐗𝐗� �� � �10,2 �3 �2 �3 1 0,5 �2 0,5 0,5� . Damit ergibt sich b b als � � �𝐗𝐗 ′ 𝐗𝐗� �� 𝐗𝐗 ′ 𝐲𝐲 bzw. � � �10,2 �3 �2 �3 1 0,5 �2 0,5 0,5� ⋅ �1 1 1 1 1 1 2 2 2 3 3 3 2 1 1� ⋅ ⎝⎜⎛40 20 20 10 10⎠ ⎟⎞ � � 30 �10 5 � Das Bestimmtheitsmaß errechnet sich aus folgender Gleichung: 𝑟𝑟 � � ∑ �𝑦𝑦� � � 𝑦𝑦̄ � � � ∑ �𝑦𝑦 � � 𝑦𝑦̄ � � � Hierzu muss zunächst der Schätzwert 𝑦𝑦� berechnet werden: 𝑦𝑦� � � ⋅ �� . 𝑦𝑦� � ⎝⎜⎛1 1 3 1 2 3 1 2 2 1 2 1 1 3 1⎠ ⎟⎞ ⋅ � 30 �10 5 � � ⎝⎜⎛35 25 20 15 5 ⎠ ⎟⎞ , 𝑦𝑦̄ � 20 Die erklärte Streuung beträgt ��𝑦𝑦� � � 𝑦𝑦̄ � � � � �35 � 20� � � �25 � 20� � � �20 � 20� � � �15 � 20� � � �5 � 20� � � 500 und die Gesamtstreuung: ��𝑦𝑦 � � 𝑦𝑦̄ � � � � �40 � 20� � � �20 � 20� � � �20 � 20� � � �10 � 20� � � �10 � 20� � � 600. Daraus resultiert das Bestimmtheitsmaß als: 𝑟𝑟 � � 500 600 � 0,83. Das bedeutet, dass 83% der Streuung der 𝑦𝑦 -Werte durch das Modell erfasst werden. <?page no="303"?> Verfahren zur Messung von Beziehungen 303 Wird eine Regressionsanalyse auf der Basis mehrerer unabhängiger Variablen durchgeführt, so stellt sich häufig zusätzlich die Frage nach dem relativen Einfluss der einzelnen Variablen. Hierzu müssen die Regressionskoeffizienten 𝑏𝑏� � standardisiert werden, da die absolute Höhe der Regressionskoeffizienten von der Dimension beeinflusst wird, in der die Variablen 𝑥𝑥 � gemessen werden (vgl. Skiera/ Albers 2008, S. 475). Die standardisierten beta-Koeffizienten errechnen sich wie folgt: 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 � � 𝑏𝑏� � ⋅ 𝑠𝑠 � � 𝑠𝑠 � für alle 𝑘𝑘 mit 𝑠𝑠 � � = Standardabweichung der unabhängigen Variablen 𝑥𝑥 � , 𝑠𝑠 � = Standardabweichung der abhängigen Variablen 𝑦𝑦 . Die Höhe der beta-Koeffizienten zeigt, wie stark der Einfluss der einzelnen unabhängigen Variablen auf die abhängige Variable ist, wohingegen die unstandardisierten Regressionskoeffizienten 𝑏𝑏� � den marginalen Effekt der Änderung der zugehörigen unabhängigen Variablen widerspiegeln. Die Heranziehung von beta-Werten ist allerdings bei Vorhandensein von Multikollinearität (Korrelation zwischen den unabhängigen Variablen) wenig aussagekräftig. SSttaattiissttiisscchhee AAbbssiicchheerruunngg In der Regel werden Regressionsmodelle auf der Grundlage einer repräsentativen Stichprobe ermittelt. Damit die Regressionsgleichung aus der Stichprobe auf die Grundgesamtheit übertragen werden kann, müssen zum einen die Regressionsfunktion als Ganzes wie auch die einzelnen Regressionskoeffizienten geprüft werden; zum anderen muss überprüft werden, ob die Annahmen des Regressionsmodells im vorliegenden Fall erfüllt sind. Zunächst ist zu beachten, dass die geschätzte Regressionsfunktion 𝑦𝑦� � 𝑏𝑏� � 𝑏𝑏� � ⋅ 𝑥𝑥 � � � � 𝑏𝑏� � ⋅ 𝑥𝑥 � als Realisation einer „wahren“, aber unbekannten Regressionsfunktion 𝑦𝑦 � 𝛼𝛼 � 𝛽𝛽 � ⋅ 𝑥𝑥 � � 𝛽𝛽 � ⋅ 𝑥𝑥 � � � � 𝛽𝛽 � ⋅ 𝑥𝑥 � � 𝑢𝑢 angesehen werden kann, wobei 𝑦𝑦 = abhängige Variable, 𝑥𝑥 � = unabhängige Variablen �𝑘𝑘 � 1, … 𝐾𝐾 ), 𝛼𝛼 = Konstante der „wahren“ Regressionsfunktion, 𝛽𝛽 � = Regressionskoeffizienten, 𝑢𝑢 = Störgröße. Die Regressionsfunktion als Ganzes kann mit Hilfe des F-Tests überprüft werden (vgl. ausführlich Backhaus et al. 2021, S. 85 ff.). Besteht zwischen der abhängigen Variablen 𝑦𝑦 und den unabhängigen Variablen 𝑥𝑥 � ein kausaler Zusammenhang, so dürfen die Regressionskoeffizienten nicht alle Null sein. Die zugehörige Nullhypothese lautet demnach: H � : 𝛼𝛼 � 𝛽𝛽 � � 𝛽𝛽 � � � � 𝛽𝛽 � � 0. <?page no="304"?> 304 Datenanalyse Der empirische F-Wert berechnet sich als 𝐹𝐹 ��� � ∑ �𝑦𝑦� � � 𝑦𝑦̄ � � 𝐾𝐾 ���� ∑ �𝑦𝑦 � � 𝑦𝑦�� � �� � 𝐾𝐾 � 1� ���� . Zu vergleichen ist der empirische F-Wert mit dem theoretischen F-Wert ( 𝐹𝐹 �� ) bei 𝐾𝐾 Freiheitsgraden im Zähler, �� - 𝐾𝐾 - 1� Freiheitsgraden im Nenner und einem vorgegebenen Signifikanzniveau 𝛼𝛼 . Ist 𝐹𝐹 ��� � 𝐹𝐹 �� , so ist die Nullhypothese zu verwerfen, d.h. nicht alle Regressionskoeffizienten 𝛽𝛽 � sind Null, der postulierte Zusammenhang gilt damit als statistisch signifikant. Bei Signifikanz der Regressionsfunktion können die einzelnen Regressionskoeffizienten mit Hilfe des t-Tests geprüft werden. Die Nullhypothese lautet: H � : 𝛽𝛽 � � 0 . Der empirische t-Wert berechnet sich als 𝑡𝑡 ��� � 𝑏𝑏 � 𝑆𝑆 � � , wobei 𝑆𝑆 � � den Standardfehler von 𝑏𝑏 � bezeichnet. Ist der empirische t-Wert (Absolutbetrag) größer als der theoretische t-Wert bei einem Signifikanzniveau 𝛼𝛼 und �� - 𝐾𝐾 - 1� Freiheitsgraden (zweiseitige Fragestellung), ist die Nullhypothese zu verwerfen. Beispiel 8.31: Im Beispiel 8.30 resultiert ein empirischer F-Wert von 5. Bei einem Signifikanzniveau 𝛼𝛼 von 0,05 und je 2 Freiheitsgraden im Zähler und im Nenner beträgt der theoretische F-Wert 19. Damit ist die Nullhypothese beizubehalten, d.h. der ermittelte Zusammenhang ist statistisch nicht signifikant. Für die einzelnen empirischen t-Werte ( 𝑡𝑡 ��� ) wird errechnet: 𝑡𝑡 ��� 𝛼𝛼 = 1,32 𝑡𝑡 ��� 𝛽𝛽 � = 1,41 𝑡𝑡 ��� 𝛽𝛽 � = 1,00. Diese Werte werden mit dem theoretischen Wert der t-Verteilung bei 2 Freiheitsgraden und 𝛼𝛼 = 0,05 (zweiseitige Fragestellung) verglichen. Der theoretische t-Wert beträgt 𝑡𝑡 �0,05; 2� = 4,303, d.h. H 0 wird abgelehnt, wenn 𝑡𝑡 ��� > 4,303 oder 𝑡𝑡 ��� < -4,303. Damit wird auch bzgl. der Koeffizienten die Nullhypothese beibehalten. Darüber hinaus können für die wahren, aber unbekannten Regressionskoeffizienten 𝛽𝛽 � Konfidenzintervalle angegeben werden. Diese geben an, in welchem Bereich um 𝑏𝑏 � der „wahre Wert“ des Regressionskoeffizienten 𝛽𝛽 � mit einer vorzugebenden Wahrscheinlichkeit liegt. Die Übertragung der Stichprobenergebnisse auf die Grundgesamtheit und insb. die inferenzstatistische Absicherung sind nicht zulässig, wenn die Prämissen des Regressionsmodells verletzt werden. Im Einzelnen handelt es sich um folgende Annahmen (vgl. Skiera/ Albers 2008, S. 478 ff.): <?page no="305"?> Verfahren zur Messung von Beziehungen 305 Annahmen hinsichtlich der Störvariablen: Die Störvariablen 𝑢𝑢 � sind normalverteilt Die Störvariablen haben den Erwartungswert Null, d.h. ��𝑢𝑢 𝑖𝑖 � � 0 . Die Störvariablen sind homoskedastisch, d.h. sie haben dieselbe Varianz 𝜎𝜎 � ; es gilt also: 𝑉𝑉𝑉𝑉𝑉𝑉𝑉�𝑢𝑢 � � � 𝜎𝜎 � für alle 𝑖𝑖 . Die Störvariablen sind unkorreliert, d.h. es gilt 𝑐𝑐𝑐𝑐𝑐𝑐 �𝑢𝑢 � , 𝑢𝑢 � � � 0 für alle 𝑖𝑖 𝑗𝑗, 0 𝑖𝑖, 𝑗𝑗 𝑛𝑛 . Annahmen hinsichtlich der Modellspezifikation: Das Modell ist linear in den Parametern 𝑉𝑉 und 𝑏𝑏 � . Alle relevanten unabhängigen Variablen sind erfasst. Die Zahl der Beobachtungen ist größer als die Zahl der zu schätzenden Parameter. Annahme hinsichtlich der unabhängigen Variablen: Zwischen den unabhängigen Variablen 𝑥𝑥 � besteht keine lineare Abhängigkeit, d.h. es ist keine Multikollinearität gegeben. Sind die Störvariablen nicht normalverteilt, sind Signifikanztests (F-Test, t-Test) unzulässig; bei einer großen Zahl an Beobachtungen (Faustregel: 𝑛𝑛 > 40) können Signifikanztests unter Rückgriff auf den zentralen Grenzwertsatz dennoch durchgeführt werden. Die Verletzung der Prämisse, der Erwartungswert der Störgrößen sei Null, führt dazu, dass das konstante Glied 𝑉𝑉 nicht mehr unverzerrt ist. Ist die Varianz der Residuen nicht konstant, liegt Heteroskedastizität vor. Eine Prüfung auf Heteroskedastizität kann beispielsweise durch den Goldfeld-Quandt- Test, den Breusch-Pagan-Test oder den White-Test erfolgen (vgl. Pindyck/ Rubinfeld 1998, S. 132 ff.). Heteroskedastizität führt dazu, dass die Schätzer zwar erwartungstreu, jedoch nicht mehr effizient sind. Autokorrelation (Korrelation der Störvariablen) tritt häufig bei Zeitreihen auf. Autokorrelation führt zu Verzerrungen beim Standardfehler und damit auch bei der Bestimmung der Konfidenzintervalle für die Regressionskoeffizienten. Aufgedeckt werden kann Autokorrelation mit Hilfe des Durbin-Watson-Tests (vgl. Pindyck/ Rubinfeld 1998, S. 143). Nichtlinearität in den Parametern führt zu verzerrten Schätzwerten; zur Berechnung nichtlinearer Regressionsmodelle vgl. die Ausführungen im nachfolgenden Abschnitt. Nichterfassung aller relevanten Variablen kann zur Verzerrung der Schätzwerte führen. Bei der Formulierung des Modells sollte daher stets große Sorgfalt angewendet werden. <?page no="306"?> 306 Datenanalyse Die Zahl an Beobachtungen sollte stets deutlich größer sein als die Zahl der zu schätzenden Parameter, da ansonsten kaum signifikante Zusammenhänge zu ermitteln sind. Multikollinearität (lineare Abhängigkeit zwischen den unabhängigen Variablen) führt i.d.R. zu hohen Standardabweichungen der Regressionskoeffizienten und unzuverlässigen Schätzwerten für die Parameter (u.a. auch falsche Vorzeichen). Bei Vorliegen von Multikollinearität bestehen folgende Ansatzpunkte zur Behebung: Unterdrückung einer oder mehrerer unabhängiger Variablen (z.B. mittels schrittweiser Regressionsanalyse, vgl. Bortz/ Schuster 2010, S. 358); Vorschaltung einer Faktorenanalyse (vgl. Abschnitt 3.2.2); Heranziehung spezieller Verfahren wie Ridge Regression (vgl. Mahajan et al. 1977) oder Latent Root Regression (Sharma/ James 1981). NNiicchhttlliinneeaarree RReeggrreessssiioonn Häufig führen theoretische Überlegungen oder die Analyse der Anordnung der �𝑥𝑥 � , 𝑦𝑦 � � - Wertepaare zur Vermutung, dass der Zusammenhang zwischen den Variablen nichtlinearer Natur sei. Grundsätzlich lassen sich nichtlineare Beziehungen, die durch Polynome höher als ersten Grades repräsentiert werden, problemlos schätzen (vgl. z.B. Bortz/ Schuster 2010, S. 198 ff.). In allgemeiner Form lautet das Regressionsmodell: 𝑦𝑦 � 𝑎𝑎 � 𝑏𝑏 � ⋅ 𝑥𝑥 � 𝑏𝑏 � ⋅ 𝑥𝑥 � � � � 𝑏𝑏 � ⋅ 𝑥𝑥 � � � � 𝑏𝑏 � ⋅ 𝑥𝑥 � �� � 1, … , 𝑆𝑆� . Auch hier ist zur Bestimmung der Regressionskoeffizienten die Summe der quadrierten Abweichungen zwischen Schätz- und Beobachtungswerten zu minimieren, d.h. es gilt: � � ��𝑦𝑦 � � 𝑦𝑦� � � � ��� � ��𝑦𝑦 � � 𝑎𝑎 � 𝑏𝑏 � ⋅ 𝑥𝑥 � � � 𝑏𝑏 � ⋅ 𝑥𝑥 � � � � 𝑏𝑏 � ⋅ 𝑥𝑥 � � � ��� → 𝑚𝑚𝑚𝑚𝑚𝑚! Ableiten der Zielfunktion nach 𝑎𝑎 und 𝑏𝑏 � �� � 1, … , 𝑆𝑆� führt zu einem System von 𝑆𝑆 � 1 Gleichungen mit 𝑆𝑆 � 1 Variablen, welches matrixalgebraisch gelöst werden kann. Die inferenzstatistische Absicherung ist allerdings mathematisch sehr komplex und soll hier nicht weiter betrachtet werden (vgl. z.B. Draper/ Smith 1998, S. 266 ff.). In vielen Fällen sind nichtlineare Zusammenhänge gegeben, die nicht durch Polynome höherer Ordnung repräsentiert werden können. In solchen Fällen kann die Regressionsfunktion jedoch häufig dadurch ermittelt werden, dass eine lineare Transformation vorgeschaltet wird (vgl. Bortz/ Schuster 2010, S. 200 ff.). Beispielsweise kann die Funktionsgleichung 𝑦𝑦 � 𝑎𝑎 ⋅ 𝑥𝑥 � durch Logarithmieren linearisiert werden: �𝑚𝑚 𝑦𝑦 � �𝑚𝑚 𝑎𝑎 � 𝑏𝑏 ⋅ �𝑚𝑚 𝑥𝑥 . Setzt man �𝑚𝑚 𝑦𝑦 � 𝑦𝑦 ′ , �𝑚𝑚 𝑎𝑎 � 𝑎𝑎 ′ , �𝑚𝑚 𝑥𝑥 � 𝑥𝑥 ′ und ln 𝑏𝑏 � b' , erhält man 𝑦𝑦 ′ � 𝑎𝑎 ′ � 𝑏𝑏 ′ ⋅ 𝑥𝑥 ′ . <?page no="307"?> Verfahren zur Messung von Beziehungen 307 Obige Regressionsgleichung kann dann auf dem bereits bekannten Wege parametrisiert werden. Die gesuchten Parameter 𝑎𝑎� und 𝑏𝑏� erhält man durch Entlogarithmieren von 𝑎𝑎�� und 𝑏𝑏� ′ . Zu beachten ist allerdings, dass die dadurch resultierenden Regressionskoeffizienten nicht exakt mit denjenigen übereinstimmen, welche man durch direkte Anwendung der Methode der kleinsten Quadrate auf die nichtlineare Funktion erhalten würde. Gelegentlich werden bestimmte Kausalzusammenhänge durch Funktionen abgebildet, welche weder durch Polynome höherer Ordnung noch durch linearisierbare Funktionen repräsentiert werden können. In solchen Fällen können für die gesuchten Parameter nur Näherungslösungen ermittelt werden. Ein entsprechender Algorithmus wurde z.B. von Marquardt (1963) entwickelt. R Reeggrreessssiioonnssaannaallyyssee mmiitt nniicchhttmmeettrriisscchheenn VVaarriiaabblleenn In bestimmten Fällen können auch bei Vorliegen nichtmetrischer abhängiger oder unabhängiger Variablen Regressionsanalysen durchgeführt werden. Ein erster Fall ist dann gegeben, wenn die abhängige Variable 𝑦𝑦 dichotom skaliert ist; die unabhängigen Variablen können dabei sowohl metrisch als auch kategorial ausgeprägt sein. Die herkömmliche Regressionsanalyse kann nicht eingesetzt werden, da Dichotomie bei der abhängigen Variablen zu nicht-normalverteilten Störgrößen führt (vgl. Urban 1993, S. 16 ff.). In diesem Falle kann - neben der Zwei-Gruppen-Diskriminanzanalyse (vgl. Abschnitt 3.3.2) - die sog. Logistische Regression eingesetzt werden. An dieser Stelle soll nur der Grundgedanke der logistischen Regression vorgestellt werden; die ausführliche methodische Vorgehensweise findet sich z.B. bei Krafft 1997, Frenzen/ Krafft 2008 sowie Backhaus et al. 2015, S. 289-382. Eine für das Marketing relevante Fragestellung könnte exemplarisch lauten: Wie hängt der Kauf bzw. Nichtkauf eines Produktes ( 𝑦𝑦 ) von der Preishöhe ( 𝑥𝑥 � ) und dem Werbebudget ( 𝑥𝑥 � ) ab? Dabei nimmt die abhängige Variable 𝑦𝑦 zwei Werte an: 𝑦𝑦 � � 1, falls das Produkt gekauft wird, 0, falls das Produkt nicht gekauft wird. Es wird unterstellt, dass der beobachtbaren Variablen 𝑦𝑦 eine nichtbeobachtbare (latente) Variable 𝑧𝑧 zugrunde liegt, die zu einer dichotomen Realisierung von 𝑦𝑦 führt. Es gilt: 𝑦𝑦 � � � 1, falls z i >0, 0 sonst. Ausgangspunkt der logistischen Regression ist das folgende allgemeine Modell: 𝑧𝑧 � � 𝑎𝑎 � � 𝑏𝑏 � ⋅ 𝑥𝑥 �� � 𝑢𝑢 � � ��� mit 𝑧𝑧 � = nicht beobachtete Variable beim Objekt 𝑖𝑖 �𝑖𝑖 � 1, … , �� , 𝑎𝑎 = konstantes Glied, 𝑏𝑏 � = Koeffizient der unabhängigen Variablen 𝑥𝑥 �� ( 𝑘𝑘 � 1, … , 𝐾𝐾 ), 𝑥𝑥 �� = Ausprägung der unabhängigen Variablen 𝑘𝑘 beim Objekt 𝑖𝑖 , 𝑢𝑢 � = Realisierung der Störgröße. <?page no="308"?> 308 Datenanalyse Ziel der logistischen Regression ist - im Gegensatz zur herkömmlichen Regressionsanalyse - nicht die Schätzung der Beobachtungswerte, sondern die Schätzung der Eintrittswahrscheinlichkeit des Ereignisses 𝑦𝑦 � 1 in Abhängigkeit der unabhängigen Variablen 𝑥𝑥 � , 𝑃𝑃 � �𝑦𝑦 � 1� . Der logistische Regressionsansatz wird wie folgt formuliert: 𝑃𝑃 � �𝑦𝑦 � 1� � 1 1 � � �� � . Die Parameter werden üblicherweise mit Hilfe der Maximum-Likelihood-Methode geschätzt. Ein anderer Fall der Anwendung der Regressionsanalyse bei nichtmetrischen Variablen liegt dann vor, wenn die abhängige Variable zwar metrisch, die unabhängige Variable jedoch nominalskaliert ist. Als Beispiel kann folgende Problemstellung dienen: Kaufmenge eines Produkts in Abhängigkeit der Phase im Familienlebenszyklus. In einem solchen Fall kann eine sog. Dummy-Regression durchgeführt werden (vgl. Hair et al. 2019, S. 277). Hierzu muss die unabhängige Variable zunächst umcodiert werden. Am Beispiel des Familienlebenszyklus kann dies gemäß Tab. 8.12 erfolgen (hier wurde „älteres Paar ohne Kinder“ als Referenzkategorie zugrunde gelegt und wird nicht direkt in die Regressionsgleichung einbezogen). Das Regressionsmodell lautet in diesem Fall 𝑦𝑦� � � �� � 𝑏𝑏� � ⋅ 𝐷𝐷 � � 𝑏𝑏� � ⋅ 𝐷𝐷 � � 𝑏𝑏� � ⋅ 𝐷𝐷 � . T Taabb.. 88..1122: : Dummy-Codierung einer nominalskalierten Variablen Phase im Familienlebenszyklus Ursprünglicher Variablencode Dummy-Codierung 𝐷𝐷 � 𝐷𝐷 � 𝐷𝐷 � Alleinstehend 1 1 0 0 Mit Partner zusammenlebend/ verheiratet 2 0 1 0 Familie mit Kindern 3 0 0 1 Älteres Paar ohne Kinder 4 0 0 0 Für Alleinstehende resultiert als Regressionsgleichung demnach 𝑦𝑦� � � �� � 𝑏𝑏� � , für die Kategorie „Älteres Paar ohne Kinder“ entsprechend 𝑦𝑦� � � �� . Analog lassen sich die Regressionsgleichungen für die übrigen Kategorien aufstellen. Es wird ersichtlich, dass der Regressionskoeffizient 𝑏𝑏 � 1 als Differenz zwischen dem Modellwert 𝑦𝑦� � für Alleinstehende im Vergleich zu 𝑦𝑦� � bei älteren Paaren ohne Kinder zu interpretieren ist. <?page no="309"?> Verfahren zur Messung von Beziehungen 309 33..44..22 K Kaauussaallaannaallyyssee Definition Die Kausalanalyse wird angewendet, um kausale Beziehungen zwischen nicht beobachtbaren Konstrukten (latenten Variablen) in einem sachlogisch begründeten Modell (Strukturgleichungsmodell) abzubilden und statistisch abzusichern. Die Struktur der Beziehungen wird in einem Pfaddiagramm abgebildet. Latente Variablen beruhen auf nicht direkt messbaren Konstrukten wie beispielsweise Einstellungen oder Zufriedenheit, die anhand von Indikatoren abgebildet werden und miteinander in Beziehung gesetzt werden können (zu der Unterscheidung zwischen Konstrukt und latenter Variable vgl. Steinmetz 2015, S. 35 ff. sowie zur Konzeptualisierung und Operationalisierung die Ausführungen in Kapitel 4 im 3. Teil). Eine typische Fragestellung für das Marketing könnte lauten: Welchen Einfluss haben die soziale Schichtzugehörigkeit und Persönlichkeitsmerkmale (wie Innovationsfreude, Risikoempfinden, Meinungsführerschaft) auf die Akzeptanz von Mobile Banking? Die Variablen „soziale Schicht“ und „Persönlichkeitsmerkmale“ sind hypothetische Konstrukte, welche jeweils durch spezifische Indikatoren gemessen werden können. Die Überprüfung von Hypothesen mit Hilfe der Kausalanalyse sollte nur dann durchgeführt werden, wenn die Hypothesenbildung und die Konstruktion der latenten Variablen auf der Basis intensiver sachlicher Überlegungen erfolgt ist. Die Kausalanalyse geht zurück auf Arbeiten von Jöreskog (1973, 1978) sowie von Jöreskog/ Sörbom (1979, 1982). Die Anwendungsmöglichkeiten der Kausalanalyse für Fragestellungen des Marketings wurden von Bagozzi (1980) erstmalig diskutiert. Das mathematische Prinzip der Kausalanalyse lässt sich umschreiben als eine Kombination aus faktorenanalytischem und regressionsanalytischem Denkansatz. Die Besonderheit der Kausalanalyse liegt dabei in der expliziten Formulierung der Messtheorie und der Substanztheorie (vgl. Homburg/ Hildebrandt 1998, S. 18 ff.; ). Die Messtheorie beschreibt Begriffe, die sich auf direkt messbare Zusammenhänge beziehen, also auf Indikatorvariablen. Die Substanztheorie beschreibt die theoretischen Konstrukte und bezieht sich damit auf nicht direkt messbare Sachverhalte, also die latenten Variablen und Hypothesen über deren Zusammenhang. Die Integration dieser beiden Betrachtungsweisen erfolgt mit Hilfe von Korrespondenzhypothesen, die eine Brücke zwischen der Substanztheorie und der Messtheorie schlagen, indem sie sowohl latente als auch beobachtbare Indikatorvariablen enthalten. Sie dienen der Operationalisierung der hypothetischen Konstrukte. Abbildung 8.22 zeigt den grundlegenden Aufbau eines kausalanalytischen Modells anhand eines Pfaddiagramms mit den gebräuchlichen Variablenbezeichnungen. Direkt beobachtbare Variablen (dargestellt in Kästchen) sind die Operationalisierungen (Indikatoren, Items) der nicht direkt beobachtbaren latenten Variablen (dargestellt in Kreisen bzw. Ellipsen). Die Pfeile (=Pfade) beschreiben die postulierten kausalen Beziehungen zwischen zwei Variablen im Sinne von „Je-desto-Hypothesen“. Gekrümmte Doppelpfeile beschreiben nicht kausal interpretierte Beziehungen zwischen latenten Variablen und zwischen Messfehlervariablen. <?page no="310"?> 310 Datenanalyse AAbbbb.. 88..2222: : Aufbau eines kausalanalytischen Modells Das Strukturmodell beinhaltet die Hypothesen der Wirkungszusammenhänge zwischen den latenten Variablen. Die Kausalanalyse setzt ein Hypothesensystem voraus (Weiber/ Mühlhaus 2014, S. 95). Hier wird eine Kausalität der Variablen unterstellt, indem eine Einteilung in endogene, also aus dem Modell heraus erklärten abhängige Variablen, und exogene, also erklärende unabhängige Variablen erfolgt. Ziel des Modells ist die Generierung von Werten für die latenten endogenen Variablen. Das Strukturmodell wird formal durch die folgende Matrizengleichung dargestellt: 𝛈𝛈 � 𝐁𝐁 � 𝛈𝛈 � 𝚪𝚪𝛏𝛏 � 𝛇𝛇 mit 𝛈𝛈 = latente endogene Variable Eta, wird durch das Modell erklärt; 𝛏𝛏 = latente exogene Variable Ksi, wird nicht durch das Modell erklärt; 𝐁𝐁 = Koeffizientenmatrix der latenten endogenen Variablen, modelliert die Effekte zwischen latenten endogenen Variablen; 𝚪𝚪 = Koeffizientenmatrix der latenten exogenen Variablen, modelliert die Effekte der latenten exogenen auf die latenten endogenen Variablen; 𝛇𝛇 = Residualvariable für eine latente endogene Variable. Die Messmodelle beinhalten die messtheoretischen Hypothesen bzgl. der Beziehungen zwischen den latenten Variablen 𝜂𝜂 und 𝜉𝜉 und den dazu gehörenden Indikatoren (vgl. Weiber/ Mühlhaus 2014, S. 45). Dabei wird einem faktorenanalytischen Denkansatz gefolgt, genauer gesagt einem Ansatz der konfirmatorischen Faktorenanalyse, da Hypothesen über die Beziehungen zwischen latenten Variablen und den Indikatoren vorliegen. So wird im Messmodell unterstellt, dass die Korrelationen zwischen den Indikatorvariablen auf den Einfluss der latenten Variablen zurückgeführt werden können. Im Gegensatz zur explorativen Faktorenanalyse ist das Ziel des Messmodells also nicht die Reduktion η 1 η 2 y 1 y 2 y 3 y 4 ξ 1 ξ 2 x 1 x 2 x 3 x 4 δ 1 δ 2 δ 3 δ 4 ε 1 ε 2 ε 3 ε 4 Ф γ β ζ 1 ζ 2 Messmodell der latenten exogenen Variablen Messmodell der latenten endogenen Variablen Strukturmodell λ λ <?page no="311"?> Verfahren zur Messung von Beziehungen 311 von Daten, sondern die theoriegeleitete Abbildung latenter Variablen durch direkt messbare Indikatoren. Die Messmodelle werden formal durch die folgenden Matrizengleichungen dargestellt (vgl. Homburg et al. 2008b, S. 554 f): 𝐗𝐗 � 𝚲𝚲 𝐗𝐗 � � 𝛅𝛅 (Messmodell der latenten exogenen Variablen), 𝐘𝐘 � 𝚲𝚲 𝐘𝐘 � � 𝛆𝛆 (Messmodell der latenten endogenen Variablen) mit 𝐗𝐗 = Matrix der Indikatoren (Messvariablen) für latente exogene Variablen, 𝐘𝐘 = Matrix der Indikatoren (Messvariablen) für latente endogene Variablen, 𝚲𝚲 𝐗𝐗 = Matrix der Pfadkoeffizienten zwischen den Indikatoren und den latenten exogenen Variablen, 𝚲𝚲 𝐘𝐘 = Matrix der Pfadkoeffizienten zwischen den Indikatoren und den latenten endogenen Variablen, 𝛅𝛅 = Störvariable für eine exogene Indikatorvariable, 𝛆𝛆 = Störvariable für eine endogene Indikatorvariable. So wird, wie in Abb. 8.22 ersichtlich, die latente exogene Größe 𝜉𝜉 1 durch zwei direkt beobachtbare Indikatoren 𝑥𝑥 � und 𝑥𝑥 � beschrieben. Formal besteht die Kausalanalyse demnach aus einem Strukturmodell auf Basis des regressionsanalytischen Denkansatzes sowie mindestens zwei Messmodellen auf Basis des faktorenanalytischen Denkansatzes. Dabei folgt die Kausalanalyse dem Grundgedanken, dass sich anhand der Korrelationen zwischen den 𝑋𝑋 -Variablen und zwischen den 𝑌𝑌 -Variablen die Beziehungen in den endogenen und exogenen Messmodellen abbilden lassen. Mit ihrer Hilfe ist es wiederum möglich, die Beziehungen im Strukturmodell zu berechnen. Die explizite Erfassung der jeweiligen Messfehler ermöglicht zudem die Interpretation der nicht durch das Modell erklärbaren Varianzanteile in der Modellstruktur. Für das formale Verständnis der Kausalanalyse ist das Verständnis des verwendeten Kausalitätsbegriffes nötig. Kausalität im Sinne der Kausalanalyse wird wie folgt aufgefasst (für eine tiefergehende Betrachtung des Kausalitätsbegriffes vgl. Bortz/ Schuster 2010, S. 159 ff.; Weiber/ Mühlhaus 2014, S. 9 ff.): Ein direkter kausaler Zusammenhang zwischen zwei Variablen 𝑥𝑥 � und 𝑥𝑥 � besteht nur dann, wenn eine Veränderung von 𝑥𝑥 � durch eine Veränderung von 𝑥𝑥 � hervorgerufen wird und alle anderen Variablen, die nicht von 𝑥𝑥 � abhängen, konstant gehalten werden. Gemessen wird dieser Sachverhalt anhand des Korrelationskoeffizienten zwischen zwei Variablen: 𝑟𝑟 � � ,� � � 𝑠𝑠�𝑥𝑥 � , 𝑥𝑥 � � 𝑠𝑠 � � , 𝑠𝑠 � � mit 𝑥𝑥 � , 𝑥𝑥 � = Mittelwerte der Ausprägungen der Variablen 1 und 2 über alle Objekte � � 1, … , 𝐼𝐼 , 𝑠𝑠�𝑥𝑥 � , 𝑥𝑥 � � � � ��� ∑ �𝑥𝑥 �� � 𝑥𝑥 � � � �𝑥𝑥 �� � 𝑥𝑥 � � � = Kovarianz zwischen 𝑥𝑥 � und 𝑥𝑥 � , <?page no="312"?> 312 Datenanalyse 𝑠𝑠 � � � � � ��� ∑ �𝑥𝑥 �� � 𝑥𝑥 � � � � = Standardabweichung der Variablen 𝑥𝑥 � , 𝑠𝑠 � � � � � ��� ∑ �𝑥𝑥 �� � 𝑥𝑥 � � � � = Standardabweichung der Variablen 𝑥𝑥 � , 𝑥𝑥 �� , 𝑥𝑥 �� =Ausprägung der Variablen 1 bzw. 2 bei Objekt 𝑖𝑖 . Der Wertebereich des Korrelationskoeffizienten 𝑟𝑟 � � ,� � liegt zwischen -1 und +1. Ist dieser von Null verschieden, ergeben sich 4 Interpretationsmöglichkeiten: Die Variable 𝑥𝑥 � ist verursachend für die Variable 𝑥𝑥 � . Die Variable 𝑥𝑥 � ist verursachend für die Variable 𝑥𝑥 � . Die Abhängigkeit zwischen den Variablen 𝑥𝑥 � und 𝑥𝑥 � ist teilweise durch den Einfluss einer dritten exogenen Variablen 𝜉𝜉 bedingt. Die Abhängigkeit zwischen den Variablen 𝑥𝑥 � und 𝑥𝑥 � ist vollständig durch den Einfluss einer dritten, exogenen Variablen 𝜉𝜉 bedingt. Diese Interpretation der Korrelation entspricht dem Denkansatz der Faktorenanalyse. Letzteres lässt sich mit dem partiellen Korrelationskoeffizienten nachweisen. Dabei lässt sich der Einfluss der Variable 𝜉𝜉 auf 𝑥𝑥 � und 𝑥𝑥 � ermitteln, indem 𝜉𝜉 konstant gehalten wird. Nimmt man an, dass allein 𝜉𝜉 für die Abhängigkeiten der beiden Variablen 𝑥𝑥 � und 𝑥𝑥 � verantwortlich ist, muss die Korrelation zwischen 𝑥𝑥 � und 𝑥𝑥 � gleich Null sein. Im Rahmen der Kausalanalyse können alle Interpretationsmöglichkeiten für die Korrelation zwischen zwei Variablen angewendet werden je nachdem, welche Art von Zusammenhang durch die formulierten Hypothesen im Vorfeld angenommen wird. Die Vorgehensweise der Kausalanalyse lässt sich in die folgenden Arbeitsschritte einteilen (vgl. Homburg et al. 2008b, S. 550 ff.): Generierung der Untersuchungshypothesen: Die Hypothesenbildung stellt die theoretische Vorarbeit für die Durchführung einer Kausalanalyse dar. Hier sind intensive Überlegungen über die Zusammenhänge im zu analysierenden Datensatz anzustellen. In dieser Phase der Untersuchung kann der Einfluss des Forschers auf den Untersuchungsablauf sehr groß sein, weshalb dieser Schritt eine besondere Sorgfalt erfordert. Spezifikation der Modellstruktur: Für die Formulierung der Modellstruktur werden anhand des Hypothesensystems jedem Konstrukt die messbaren Indikatoren zugeordnet (Operationalisierung der Messmodelle); des Weiteren wird der Zusammenhang der Konstrukte untereinander definiert (Aufstellen des Strukturmodells). Das Ergebnis ist ein umfangreiches Gleichungssystem. Die gängige Software (z.B. AMOS oder LISREL) ermöglicht die Erstellung eines Pfaddiagramms zur Darstellung der Ursache-Wirkungszusammenhänge. Die Schätzung erfolgt dann automatisch, die Entwicklung eines Gleichungssystems ist also nicht mehr nötig. Identifikation der Modellstruktur: In diesem Schritt wird die Lösbarkeit des Modells bzw. des Gleichungssystems geprüft. Es wird geprüft, ob die empirischen Informationen ausreichen, um die Parameter des Gleichungssystems eindeutig zu bestimmen. <?page no="313"?> Verfahren zur Messung von Beziehungen 313 Parameterschätzung: Die Software AMOS stellt verschiedene Verfahren zur Schätzung der Parameter zur Verfügung. Anhand der Annahmen, von denen im Rahmen der Schätzung ausgegangen wird, muss festgelegt werden, welches Verfahren für die Parameterschätzung des spezifischen Modells geeignet ist. Beurteilung der Schätzergebnisse: Es stehen eine Reihe von Kriterien zur Verfügung, anhand derer die Güte der Anpassung der Modellstruktur an die empirischen Daten geprüft werden kann. Diese Kriterien beziehen sich sowohl auf die Modellstruktur als Ganzes als auch auf einzelne Teile des Modells. Auf die Ablaufschritte wird im Folgenden eingegangen. Dabei wird auf eine eingehende Erläuterung der mathematischen Struktur verzichtet und auf die Standardwerke von Bollen 1989, Hayduk 1987 und Homburg 1992 verwiesen. Es werden verschiedene Softwarepakete zur Lösung kausalanalytischer Modelle angeboten. Ein sehr komfortables und leistungsfähiges Softwarepaket ist AMOS, welches als Grundlage für die Ausführungen dient. GGeenneerriieerruunngg ddeerr UUnntteerrssuucchhuunnggsshhyyppootthheesseenn Der erste Schritt zur Anwendung einer Kausalanalyse beinhaltet eingehende theoretische Vorarbeiten, die als Voraussetzung für eine Modellformulierung bezeichnet werden können. So erfolgt die Bildung des kausalanalytischen Modells auf der Grundlage der im Vorfeld formulierten Hypothesen, welche wiederum die Beziehungen in einem empirischen Datensatz beschreiben. Hierfür ist genau zu spezifizieren, welche Variablen in welcher Weise, d.h. mit welchem Vorzeichen, in das Modell eingehen und welche Beziehungen zwischen den Variablen unterstellt werden. Die Hypothesenbildung ist der wichtigste und zugleich anspruchsvollste Schritt bei der Arbeit mit der Kausalanalyse, da der Einfluss des Forschers auf die Ergebnisse bei der Berechnung des Modells erheblich sein kann. Beispielhaft unterstellen wir, dass die Kaufabsicht bzgl. einer Armbanduhr von dem zur Verfügung stehenden Budget und der wahrgenommenen Produktqualität abhängt. (Dieses Beispiel stellt eine erhebliche Vereinfachung einer realen Entscheidungssituation dar.) Die Kaufabsicht wird durch die Indikatoren „Ich beabsichtige, eine Armbanduhr der Marke X in den nächsten 6 Monaten zu kaufen“ und „Wenn ich eine Armbanduhr benötige, werde ich Marke X kaufen“ beschrieben. Die wahrgenommene Produktqualität wird anhand der folgenden Indikatoren bestimmt: „Eine Armbanduhr der Marke X hebt sich positiv von Konkurrenzprodukten ab“ und „Armbanduhren der Marke X sind qualitativ hochwertig“. Die Höhe des Budgets drückt sich in den Gesamtausgaben der Probanden für Schmuck und Accessoires (pro Jahr) aus. Aus der beschriebenen Situation ergibt sich das folgende Hypothesensystem: Hypothesen des Messmodells der latenten exogenen Variablen: 1.1 Die wahrgenommene Produktqualität wird durch zwei Indikatoren erfasst: „Eine Armbanduhr der Marke X hebt sich positiv von Konkurrenzprodukten ab“ und „Armbanduhren der Marke X sind qualitativ hochwertig“. 1.2 Das Budget wird durch die Höhe der jährlichen Ausgaben für Schmuck und Accessoires wiedergegeben. <?page no="314"?> 314 Datenanalyse Hypothesen des Strukturmodells: 2.1 Je positiver die wahrgenommene Produktqualität ist, desto höher ist die Kaufabsicht. 2.2 Je höher das verfügbare Budget ist, desto höher ist die Kaufabsicht. Hypothese des Messmodells der latenten endogenen Variablen: 3 Die Kaufabsicht bzgl. des Produkts wird durch die Indikatoren „Ich beabsichtige, eine Armbanduhr der Marke X in den nächsten 6 Monaten zu kaufen“ und „Wenn ich eine Armbanduhr benötige, werde ich Marke X kaufen“ erfasst. In dem dargestellten Hypothesensystem sind auch die Vorzeichen bzw. die Art des Einflusses angegeben. Die Art des Einflusses der Variablen wird damit durch die Hypothesen festgelegt. Wird die Art des Einflusses der Variablen nicht festgelegt, so ergibt die Schätzung der Parameter lediglich eine Anpassung des Modells an die empirischen Daten, nicht jedoch eine Hypothesenprüfung. Auf diese Weise kann zumindest bezogen auf die Richtung des Einflusses ein Hypothesentest erfolgen. SSppeezziiffiikkaattiioonn ddeerr MMooddeellllssttrruukkttuurr Die Spezifikation der Modellstruktur beschreibt die Übersetzung des entwickelten Hypothesensystems in ein Pfadmodell, welches dann für die Parameterschätzung in mathematische Strukturen überführt wird. Aufbau des Pfadmodells: Um die Erstellung des Pfadmodells zu erleichtern, wurden die folgenden Regeln formuliert, die in der Forschungspraxis überwiegend zur Anwendung kommen (vgl. Heise 1975, S. 38 ff. und S. 115): Direkt beobachtbare Variablen werden in Kästchen dargestellt. Latente Variablen werden in Kreisen bzw. Ellipsen dargestellt. Kausale Beziehungen zwischen Variablen werden durch einen geraden Pfeil (= Pfad) dargestellt, wobei ein Pfeil seinen Ursprung immer bei der unabhängigen oder verursachenden Variable hat und stets nur eine Variable als Ursprung und eine Variable als Endpunkt hat. Einflüsse von Messfehlervariablen werden ebenfalls durch Pfeile dargestellt, wobei der Ursprung des Pfeils von der Residualvariablen ausgeht. Kausal nicht interpretierbare Beziehungen werden durch gekrümmte Doppelpfeile dargestellt und sind nur zwischen exogenen latenten Variablen und Messfehlervariablen zulässig. Ein vollständiges Kausalmodell besteht mindestens aus zwei Messmodellen und einem Strukturmodell. In einem typischen Kausalmodell steht das Messmodell der latenten exogenen Variablen, bestehend aus den 𝑥𝑥 - und 𝜉𝜉 -Variablen, auf der linken Seite, in der Mitte ist das Strukturmodell mit den 𝜉𝜉 - und 𝜂𝜂 -Variablen und rechts das Messmodell der latenten exogenen Variablen, das die 𝑦𝑦 - und 𝜂𝜂 -Variablen enthält. <?page no="315"?> Verfahren zur Messung von Beziehungen 315 Zur Verdeutlichung dient das in Abb. 8.23 angeführte, beispielhaft aufgestellte Kausalmodell, das auf den zuvor formulierten Hypothesen beruht. Das Modell besteht aus zwei exogenen und einer endogenen latenten Variablen sowie den dazu gehörigen Messmodellen. Die latenten Variablen werden dabei im Beispiel durch reflektive Indikatoren operationalisiert (vgl. Kapitel 4 im 3. Teil). Zu beachten ist, dass die Güte der Messmodelle (Reliabilität, Validität) unbedingt zu überprüfen ist (zur Operationalisierung und Güteprüfung reflektiver und formativer Messmodelle vgl. ausführlich Weiber/ Mühlhaus 2014, S. 127 ff. und 255 ff.). Die Vorzeichen an den Pfeilen (Pfaden) geben den theoretisch begründeten Einfluss der unabhängigen auf die abhängigen Variablen an. So wird sowohl von der Qualität als auch vom Budget ein positiver Einfluss auf die Kaufabsicht angenommen. Die Eins am Koeffizienten 𝜆𝜆 �� gibt an, dass das Budget vollständig durch die Messung der Gesamtausgaben für Schmuck und Accessoires abgebildet werden kann. Daher muss auch die Messfehlervariable 𝛿𝛿 � den Wert Null haben. AAbbbb.. 88..2233: : Pfadmodell mit drei latenten Variablen Folgende Parameter können im Rahmen eines Kausalmodells verwendet werden (vgl. Weiber/ Mühlhaus 2014, S. 186): Feste Parameter Der Wert eines festen Parameters wird im Vorfeld durch den Forscher festgelegt. Hierfür gibt es zwei Gründe. Zum einen wird aufgrund der vorhergehenden Überlegungen unterstellt, dass der Wert der Variable gleich Null ist und somit keine kausalen Beziehungen zwischen bestimmten Variablen bestehen. Zum anderen wird aufgrund von Erkenntnissen aus der theoretischen Vorarbeit ein bestimmter Wert für eine Variable festgelegt. In beiden Fällen wird der Wert der Variable nicht durch das Modell geschätzt, sondern im Vorfeld festgelegt. η 1 Kaufabsicht Nächster Kauf in Kategorie (y 2 ) ξ 2 Budget Abhebung Konkurrenz (x 1 ) Ausgaben (x 3 ) δ 1 δ 2 δ 3 = 0 ε 1 ε 2 ζ 1 Messmodell der latenten exogenen Variablen Messmodell der latenten endogenen Variablen Strukturmodell λ 11 (+) ξ 1 Qualität Hochwertig (x 2 ) λ 21 (+) λ 32 =1 λ 11 (+) λ 21 (+) Kauf in den nächsten 6 Monaten (y 1 ) <?page no="316"?> 316 Datenanalyse Restringierte Parameter Im Modell kann festgelegt werden, dass ein oder mehrere Parameter denselben Wert haben. Diese Parameter werden als restringiert bezeichnet. Das kann sinnvoll sein, wenn bei zwei unabhängigen Variablen derselbe Einfluss auf eine abhängige Variable unterstellt wird oder wenn die Werte von Messfehlervarianzen als gleich groß angenommen werden. Werden beispielsweise zwei Parameter als restringiert festgelegt, so verringert sich die Anzahl der durch das Modell zu schätzenden Parameter, da nur ein Wert zu schätzen ist. Freie Parameter Parameter, deren Werte durch das Modell zu schätzen sind, heißen freie Parameter. Sie geben die postulierten kausalen Beziehungen, Kovarianzen und Messfehlerwerte der Variablen wieder. Durch die Software AMOS wird das Pfaddiagramm in ein lineares Gleichungssystem überführt und geschätzt. Um die Überführung des Pfaddiagrammes in ein mathematisches Gleichungssystem zu verdeutlichen, wird das obenstehende Pfaddiagramm als Beispiel verwendet. Für die Bildung der Gleichungen gelten die folgenden Regeln (vgl. Heise 1975, S. 49 ff.): Für jede abhängige Variable ist jeweils eine Gleichung zu formulieren. Werden die abhängigen Variablen von mehreren unabhängigen Variablen beeinflusst, sind diese additiv miteinander zu verknüpfen. Die Pfadkoeffizienten geben die Stärke des Zusammenhanges zwischen einer abhängigen und einer unabhängigen Variablen an. Unter der Voraussetzung, dass die Indikatorvariablen an 𝐼𝐼 Objekten gemessen werden und alle Variablen im Modell standardisiert worden sind, lässt sich das Pfaddiagramm wie unten dargestellt in Gleichungen abbilden. Das Gleichungssystem für das Modell der Abb. 8.23 hat die folgende Form: Strukturmodell 𝜂𝜂 �� � � �� 𝜉𝜉 �� � � �� 𝜉𝜉 �� � � �� Messmodell der latenten endogenen Variablen 𝑦𝑦 �� � � �� 𝜂𝜂 �� � � �� 𝑦𝑦 �� � � �� 𝜂𝜂 �� � � �� Messmodell der latenten exogenen Variablen 𝑥𝑥 �� � � �� 𝜉𝜉 �� � � �� 𝑥𝑥 �� � � �� 𝜉𝜉 �� � � �� 𝑥𝑥 �� � � �� 𝜉𝜉 �� � � �� bzw. in unserem speziellen Fall 𝑥𝑥 �� � 1 ∙ 𝜉𝜉 �� � 0 . Die Indizierung 𝑖𝑖 verdeutlicht, dass es sich bei den jeweiligen Variablen um den Beobachtungswert bei dem Objekt 𝑖𝑖 (z.B. Proband) handelt. Die Variable 𝑥𝑥 �� (Budget) wird <?page no="317"?> Verfahren zur Messung von Beziehungen 317 in unserem Beispiel vollständig durch die Gesamtausgaben abgebildet, daher sind hier wie bereits erwähnt 𝜆𝜆 �� = 1 und 𝛿𝛿 �� = 0 P Prrüüffuunngg ddeerr IIddeennttiiffiizziieerrbbaarrkkeeiitt ddeerr MMooddeellllssttrruukkttuurr Um die Parameter des Kausalmodells schätzen zu können, ist in einem nächsten Schritt zu prüfen, ob ausreichend empirisches Datenmaterial für die zu schätzenden Parameter vorhanden ist (vgl. Weiber/ Mühlhaus 2014, S. 188 f.). Es ist also zu klären, welche Parameter existieren, wie viele Parameter zu schätzen sind und wie viele Indikatoren hierfür zur Verfügung stehen. Analytisch wird die Frage gestellt, ob nur eine Kovarianz- oder Korrelationsmatrix existiert, die eindeutig die Gesamtheit der zu schätzenden Parameter bestimmt, oder ob weitere Kovarianz- oder Korrelationsmatrizen existieren, die zu gleichen Ergebnissen führen. Ob ein Modell angemessen identifiziert ist, lässt sich über die Ermittlung der Anzahl der Freiheitsgrade ( 𝑑𝑑𝑑𝑑 , degrees of freedom) prüfen (vgl. Homburg et al. 2008b, S. 558 f. sowie ausführlich Bollen 1989, S. 326 ff.). Notwendige Bedingung für die Lösbarkeit eines Kausalmodells ist, dass die Anzahl der empirischen Informationen die Anzahl der zu schätzenden Parameter übersteigt. Dies bedeutet, dass die Anzahl der zu schätzenden Parameter 𝑡𝑡 die Anzahl der empirischen Varianzen und Kovarianzen �𝑞𝑞 � �𝑞𝑞 � 1��/ 2 nicht überschreitet: 𝑡𝑡 � 𝑞𝑞 𝑞 �𝑞𝑞 � 1� 2 . Modelle, welche die Bedingung verletzen, sind mit Sicherheit nicht identifiziert. Umgekehrt ist jedoch eine solche Aussage nicht möglich. Die Bedingung ist also nicht hinreichend. Folgende drei verschiedene Konstellationen sind möglich: Ist 𝑑𝑑𝑑𝑑 � 0 , so ist das Modell vollständig identifiziert (saturiert). Es werden jedoch alle empirischen Informationen für die Lösung des linearen Gleichungssystems aufgebraucht. Eine iterative Annäherung der empirischen an die theoretische Matrix ist nicht mehr möglich, auch ist die Durchführung von Teststatistiken im Fall einer eindeutigen Lösung nicht möglich. Ist 𝑑𝑑𝑑𝑑 � 0 , so ist das Modell nicht identifiziert. Die Anzahl der Parameter übersteigt die Anzahl der Gleichungen innerhalb des linearen Gleichungssystems. Die empirischen Informationen reichen somit für eine Schätzung nicht aus. Die Tatsache, dass das Modell als Ganzes nicht identifiziert ist, schließt jedoch nicht aus, dass einzelne Parameter sinnvoll geschätzt werden können (vgl. Homburg/ Hildebrandt 1998, S. 38). Es besteht die Möglichkeit, einzelne Parameter von vornherein auf einen bestimmten Wert festzulegen oder Parameter zusammenzufassen, die dann nur noch als ein Wert geschätzt werden. Dadurch wird die Zahl der zu schätzenden Parameter reduziert. Wie bereits erläutert, ist diese Vorgehensweise nur mit theoretischer Fundierung der getroffenen+ Annahmen zulässig. Ist 𝑑𝑑𝑑𝑑 � 0 , so ist das Modell überidentifiziert. Das bedeutet, die Parameter lassen sich iterativ schätzen, und es ist möglich, Teststatistiken durchzuführen, da noch ausreichend empirische Informationen vorhanden sind. Grundsätzlich ist also immer ein Modell anzustreben, das eine gewisse Anzahl an Freiheitsgraden aufweist. Die Klärung der Identifizierbarkeit von Kausalmodellen ist problematisch, da keine Verfahren existieren, die eine Identifizierbarkeit zweifelsfrei feststellen können (vgl. Homburg 1992, S. 503 und Homburg et al. 2008b, S. 559). Es existieren neben dem oben <?page no="318"?> 318 Datenanalyse beschriebenen Verfahren weitere Kriterien, die von AMOS verwendet werden, um die Identifizierbarkeit des Modells sicherzustellen. Die Gesamtheit dieser Kriterien führt in der Regel dazu, dass nicht identifizierbare Modelle zuverlässig erkannt werden (vgl. Homburg/ Hildebrandt 1998, S. 39). P Paarraammeetteerrsscchhäättzzuunngg Nach der Spezifikation des Modells und der Überprüfung der Identifizierbarkeit der Modellstruktur müssen die freien, also nicht fixierten oder restringierten Parameter geschätzt werden. Zur Schätzung der freien Parameter steht eine Reihe von verschiedenen Schätzverfahren zur Verfügung, zwischen denen der Anwender zu wählen hat (vgl. Bentler/ Chou 1995, S. 37 ff.) Diese Schätzverfahren stellen unterschiedliche Anforderungen an die Daten und bieten verschiedene Möglichkeiten zur Bewertung des Schätzergebnisses. Gemeinsam ist ihnen die Anpassung der theoretischen an die empirische Kovarianz- oder Korrelationsmatrix. Zur Abbildung dieser Differenz verwenden die verschiedenen Schätzverfahren unterschiedliche Diskrepanzbzw. Fitfunktionen (vgl. Browne 1982, S. 72 ff. sowie Browne 1984, S. 62 f.), die zu minimieren sind. Zunächst kann grundsätzlich zwischen iterativen und nichtiterativen Verfahren unterschieden werden. Die nichtiterativen Verfahren lassen keinen Einsatz von Teststatistiken zu, sind also für eine methodisch einwandfreie Analyse, insbesondere mit konfirmatorischem Charakter, nicht geeignet. Nichtiterative Verfahren wie die Methode der Instrumentalvariablen (IV) oder die Zweistufenschätzmethode (Two-Stage-Least-Square; TSLS) können zur Vorgabe von Startwerten für die iterativen Schätzverfahren verwendet werden. Die iterativen Verfahren unterscheiden sich hinsichtlich der Voraussetzungen, die sie an die Verteilung der empirischen Daten stellen, sowie des Spektrums der anwendbaren Teststatistiken. AMOS bietet dem Anwender die folgenden Schätzverfahren: Maximum Likelihood Methode (ML), Methode der ungewichteten kleinsten Quadrate (unweighted least squares, ULS), Methode der verallgemeinerten kleinsten Quadrate (generalized least squares, GLS), Methode der skalenunabhängigen kleinsten Quadrate (scale free least squares, SLS), Methode der asymptotisch verteilungsfreien Schätzer (asymptotically distribution free, ADF). Welche Schätzverfahren jeweils anwendbar und zulässig sind hängt davon ab, ob bestimmte Voraussetzungen gegeben sind (vgl. Adler 1996, S. 191 ff.; Jöreskog/ Sörbom 1989): Multinormalverteilung der manifesten Variablen Die Messvariablen müssen in der Grundgesamtheit normalverteilt sein. Ist das nicht der Fall, so kann es zu verzerrten Schätzergebnissen oder entarteten Schätzern kommen. Die Schätzverfahren ML und GLS erfordern die Multinormalverteilung der Messvariablen in der Grundgesamtheit. <?page no="319"?> Verfahren zur Messung von Beziehungen 319 Skaleninvarianz der Diskrepanzfunktion Eine Diskrepanzfunktion ist skaleninvariant, wenn sich ihr Minimum bei einer Änderung der Skalierung der Messvariablen nur im selben Verhältnis verändert (etwa bei der Transformation einer Messvariablen von Euro auf Cent). Bei skalenabhängigen Schätzmethoden wie z.B. unweighted least squares (ULS) führt eine Änderung der Skalierung zu skalenabhängigen Minima in der Diskrepanzfunktion, sodass bei Anwendung des Verfahrens die Variablen vorab standardisiert werden sollten. Erforderliche Stichprobengröße Angaben für den erforderlichen Stichprobenumfang schwanken. Als Richtwert werden in der Literatur Größenordnungen von � � 100 bis � � 200 genannt bzw. es wird, ausgehend von der Anzahl der zu schätzenden Parameter 𝑡𝑡 , ein Wert von � � 5𝑡𝑡 oder von � � 𝑡𝑡 � 50 gefordert. Bei der ADF-Methode ist der üblicherweise geforderte Stichprobenumfang jedoch wesentlich höher �1,5𝑡𝑡�𝑡𝑡 � 1�� . Verfügbarkeit von Inferenzstatistiken, insbesondere 𝜒𝜒 2 -Test Mit dem 𝜒𝜒 2 -Test wird die Hypothese getestet, dass die empirische Kovarianzmatrix der modelltheoretischen entspricht. Der Test liefert nur zuverlässige Schätzer, wenn für die Messvariablen in der Grundgesamtheit eine Multinormalverteilung vorliegt. Für die Schätzung mit dem Schätzverfahren ADF sind Inferenzstatistiken auch ohne diese Voraussetzung anwendbar. BBeeuurrtteeiilluunngg ddeerr SScchhäättzzeerrggeebbnniissssee Im Anschluss an die Parameterschätzung ist die Güte der Schätzung zu beurteilen, d.h. es wird die Frage gestellt, wie gut das aufgestellte Modell in der Lage ist, die Zusammenhänge zwischen den beobachteten Variablen zu beschreiben. Hierfür wird auf verschiedene Anpassungsmaße zurückgegriffen. Globale Gütekriterien (Globalmaße) beziehen sich dabei auf eine Beurteilung hinsichtlich der Anpassungsgüte des Gesamtmodells, wohingegen Partialmaße der Bewertung einzelner Komponenten des geschätzten Strukturgleichungsmodells dienen (zu den einzelnen Gütemaßen vgl. Homburg/ Baumgartner 1995, Weiber/ Mühlhaus 2014 sowie die Ausführungen zur Faktorenanalyse in Abschnitt 3.2.2). Globale Gütekriterien dienen der Überprüfung, wie gut das spezifizierte Strukturmodell in seiner Gesamtheit zu den empirischen Daten passt, es wird also ein Vergleich zwischen der theoretischen und der durch das Modell geschätzten Kovarianzmatrix vorgenommen. Bei der Anwendung sollten aufgrund der verschiedenen Eigenschaften der Indizes mehrere Gütemaße unterschiedlichen Typs Berücksichtung finden. Die folgenden Gütemaße werden von AMOS angeboten: Goodness of fit Index (GFI) Der GFI kennzeichnet den Anteil der durch das Modell erklärten Ausgangsvarianz. Er entspricht damit dem globalen Bestimmtheitsmaß der Regressionsanalyse ( 𝑅𝑅 � ). Je stärker sich der GFI an Eins annähert, desto mehr Varianz wird im Modell erklärt und desto besser ist der Fit des Modells. <?page no="320"?> 320 Datenanalyse Das bedeutet, der GFI sollte nach Möglichkeit hoch sein. Häufig wird der Wert 0,9 als Mindestmaß angegeben (Homburg/ Baumgartner 1995, S. 167 ff.; Hoyle/ Panther 1995, S. 164). 𝜒𝜒 � -Test Getestet wird die Hypothese H 0 , dass die empirische Kovarianzmatrix der theoretischen entspricht. Ziel ist es damit nicht, die Nullhypothese zu verwerfen, sondern einen möglichst geringen 𝜒𝜒 � -Wert zu erhalten. Problematisch ist bei der Anwendung des 𝜒𝜒 � -Tests die hohe Sensitivität gegenüber einer Abweichung von der Multinormalverteilung der Messvariablen in der Grundgesamtheit zum einen und gegenüber dem Stichprobenumfang zum anderen. Darüber hinaus wird durch den 𝜒𝜒 � -Test überprüft, ob ein Modell im absoluten Sinne richtig ist. Es entspricht aber nicht dem Ziel der Kausalanalyse, durch ein Hypothesensystem eine möglichst gute Annäherung an die Realität zu erreichen (Jöreskog/ Sörbom 1993, S. 212 f.). Es sollte daher auf weitere Tests zurückgegriffen werden. Root Means Square Residual (RMR) Der RMR veranschaulicht die durchschnittliche Menge der nicht durch das Modell erklärten Residualvarianzen. Je geringer der RMR ausfällt, desto weniger Varianz wird im Modell nicht erklärt, desto besser ist der Fit des Modells. Der RMR sollte damit nach Möglichkeit nahe bei Null liegen. Der unstandardisierte RMR lässt jedoch keine Festlegung von Richtwerten zu. Es ist problematisch, den RMR zu interpretieren, weil er sich in Relation zur Größe der identifizierten Varianzen und Kovarianzen bewegt. Sein Vorzug liegt insbesondere im Vergleich verschiedener Modelle, welche auf denselben Daten beruhen. Der standardisierte RMR, welcher auf einer Korrelationsmatrix basiert, bewegt sich dagegen in einem normierten Wertebereich zwischen Null und Eins. Hier wird ein standardisierter RMR unter 0,1 in der Regel als Indiz für einen guten Fit gewertet (vgl. Schumacker/ Lomax 2016, S. 114 f.). Adjusted Goodness of Fit Index (AGFI) Der AGFI stellt ebenfalls ein Maß für den Anteil der durch das Modell erklärten Gesamtvarianz dar, allerdings unter zusätzlicher Berücksichtigung der Anzahl der Freiheitsgrade. Der AGFI sollte nach Möglichkeit ebenfalls hoch sein, d.h. für den AGFI wird üblicherweise ebenfalls ein Wert über 90 Prozent vorausgesetzt (AGFI > 0,9) (Schumacker/ Lomax 2016, S. 112). Normed Fit Index (NFI) Der Wert der minimierten Diskrepanzfunktion liegt immer zwischen dem Wert eines besonders schlechten Basismodells, in dem alle manifesten Variablen als unkorreliert angenommen werden, und dem eines so genannten saturierten Modells, das einen Wert von Eins aufweist. Der NFI vergleicht den Wert der minimierten Diskrepanzfunktion mit dem Wert des Basismodells. Der NFI ist normiert und liegt zwischen Null und Eins. Je näher der NFI an 1 liegt, desto besser ist die Anpassung des Modells gelungen und desto näher liegt es an dem saturierten Modell. <?page no="321"?> Verfahren zur Messung von Beziehungen 321 Ist der NFI größer als 0,9, kann von einer guten Anpassung des Modells ausgegangen werden (vgl. Bentler/ Bonnet 1980, S. 588 ff.). Comparative Fit Index (CFI) Mit dem CFI kann zusätzlich die Zahl der Freiheitsgrade berücksichtigt werden. Auch beim CFI deutet ein Wert von über 0,9 auf eine gute Modellanpassung hin (vgl. Bentler 1990, S. 238 ff.). Einer der Vorteile der Kausalanalyse ist die Möglichkeit der Prüfung der Anpassungsgüte von Teilen des Hypothesensystems. So ist es möglich, dass Teile des Modells die Realität gut abbilden, während das Gesamtmodell keine gute Anpassung aufweist. Dieses lässt sich anhand der sogenannten Partialkriterien ermitteln. Maßgeblich für die Bewertung der partiellen Modellgüte ist zunächst die Betrachtung der Parameterschätzung im Hinblick auf die Übereinstimmung mit den theoretisch postulierten Hypothesen. Dazu gehören einerseits die Betrachtung der Wirkungsrichtung sowie andererseits die Prüfung der Ergebnisse auf ihre statistische Signifikanz. Die gebräuchlichsten in AMOS angebotenen Gütemaße werden untenstehend erläutert (vgl. hierzu Homburg et al. 2008a). Standardfehler der Schätzung (Square Error, SE) Die SE geben an, mit welcher Streuung bei den Parameterschätzungen zu rechnen ist. Je kleiner die Standardfehler der geschätzten Parameter ausfallen, desto zuverlässiger sind die einzelnen Schätzungen zu bewerten. Critical Ratio (CR) Die Berechnung des CR entspricht der Parameterschätzung dividiert durch den Standardfehler der Schätzung. Sind die Ausgangsvariablen in der Grundgesamtheit normalverteilt, so kann ein t-Test auf der Basis des CR angewendet werden. Getestet wird gegen die Nullhypothese, dass die geschätzten Werte sich nicht von Null unterscheiden. Liegt der CR über 1,96, so kann bei einer Irrtumswahrscheinlichkeit von 0,05 ein Beitrag zur Bildung der Modellstruktur des entsprechenden Parameters angenommen werden. Quadrierte multiple Korrelationskoeffizienten (Indikatorreliabilität) Anhand der quadrierten multiplen Korrelationskoeffizienten wird die Reliabilität der Messung der latenten Variablen und der Indikatorvariablen im Kausalmodell gemessen. Die Reliabilität einer Variablen gibt wieder, inwieweit eine Messung frei von zufälligen Messfehlern ist. Bezogen auf die Indikatorvariablen geben die quadrierten multiplen Korrelationskoeffizienten an, wie gut die einzelnen Indikatoren der Messung der latenten Variablen dienen. Bezogen auf die latenten endogenen Variablen messen die quadrierten multiplen Korrelationskoeffizienten die Stärke der Kausalbeziehungen in den Strukturgleichungen. Rechnerisch entspricht die Indikatorreliabilität dem Quadrat der Faktorladungen in den Konstrukten. Der Grenzwert für die Indikatorreliabilität liegt üblicherweise zwischen 0,4 und 0,5, was inhaltlich bedeutet, dass zumindest 40-50% der Varianz einer Messvariablen durch den dahinterstehenden Faktor erklärt werden sollten. <?page no="322"?> 322 Datenanalyse Ermittlung der Residuen Mit den geschätzten Parametern lässt sich die theoretische Kovarianzmatrix erstellen. Die Differenzen zwischen der theoretischen und der empirischen Kovarianzmatrix ergeben die Residuen. Je näher die Residuen an Null liegen, umso geringer ist der nicht durch das Modell erklärte Anteil der Kovarianz der entsprechenden Variablen. Bei einem gut angepassten Modell sollte der Wert der Residuen 0,1 nicht übersteigen. Es ist zu beachten, ob aufgrund von Skalenunterschieden eine Standardisierung der Residualvarianzen erforderlich ist. Die Differenz- oder Residualmatrix wird von AMOS bereitgestellt. Die nachfolgende Tab. 8.13 fasst die wichtigsten Kriterien zur Beurteilung der Modellgüte zusammen. Es sei darauf hingewiesen, dass die Ergebnisse der Parameterschätzung und die Güte der Anpassung des Modells im Rahmen der Kausalanalyse anhand von mehreren Kriterien beurteilt werden sollten. Weichen einzelne Kriterien von den vorgegebenen Werten ab, so muss dies nicht zwingend auf ein unbrauchbares Modell hindeuten. Es sollte daher immer ein geeignetes Bewertungsschema angewendet werden. TTaabb.. 88..1133: : Gebräuchliche Gütekriterien zur Beurteilung der Anpassungsgüte eines Kausalmodells (Quelle: in Anlehnung an Homburg et al. 2008a, S. 288) Kriterium Anforderung Globale Gütekriterien RMR <0,1 GFI >0,9 AGFI >0,9 NFI >0,9 CFI >0,9 Lokale Gütekriterien Standardfehler der Schätzung möglichst klein CR ( = 0,05) >1,96 Quadrierte multiple Korrelationskoeffizienten >0,4 Durch die Veränderung der Modellstruktur kann eine Verbesserung der Prüfkriterien erreicht werden. Wird diese Vorgehensweise gewählt, so verändert sich auch das Hypothesensystem, und die theoretischen Vorüberlegungen verlieren teilweise an Gültigkeit. Diese Vorgehensweise bedeutet, dass die Kausalanalyse ihren konfirmatorischen Charakter verliert und zu einem explorativen Analyseverfahren wird, da die neuen Hypothesen nicht aufgrund theoretischer Überlegungen, sondern empirischer Analysen zustande gekommen sind. Eine theoretische Begründung dieser Vorgehensweise kann daher nur im Nachhinein erfolgen. <?page no="323"?> Verfahren zur Messung von Beziehungen 323 VVaarriiaanntteenn ddeerr KKaauussaallaannaallyyssee Partial Least Squares Eine Alternative zu den kovarianzbasierten Verfahren AMOS und LISREL stellt der Partial Least Squares-Ansatz (PLS) dar (vgl. Hair et al. 2021). Kovarianzbasierte Schätzverfahren legen für die Parameterschätzung i.d.R. das Maximum-Likelihood-Prinzip zugrunde, welches eine multivariate Normalverteilung voraussetzt. Dies ist jedoch bei der praktischen Anwendung nur selten gegeben und erfordert große Stichproben. Zudem ist das Verfahren nur bei reflektiven Messmodellen anwendbar. Aus diesem Grunde wurde PLS entwickelt mit dem Ziel, die restriktiven Annahmen des kovarianzbasierten Ansatzes zu vermeiden (zu einer vergleichenden Diskussion der beiden Ansätze vgl. z.B. Scholderer/ Balderjahn 2006 sowie Homburg/ Klarmann 2006). Im Rahmen von PLS können auch formative Indikatoren berücksichtigt werden. Dadurch werden Fehlspezifikationen des Modells vermieden. Zudem beruht die Parameterschätzung auf multipler Regression (Least Square), sodass keine Verteilungsannahme erforderlich ist. Dadurch ist PLS auch bei kleinen Samples anwendbar. Weiterhin liefert PLS eher konservative Schätzungen, sodass die Gefahr einer Modellannahme trotz fehlerhafter Operationalisierung bzw. Modellkonzeption vergleichweise gering ist. Auch PLS bietet eine Vielzahl von Gütekriterien, welche sich in Abhängigkeit des Messmodells (formativ vs. reflektiv, vgl. Kapitel 4 im 2. Teil) unterscheiden. Einschränkend ist darauf hinzuweisen, dass PLS keine globalen Gütemaße erlaubt. Kovarianzbasierte Verfahren liefern somit statistisch exaktere Ergebnisse. Auf eine ausführliche Darstellung der methodischen Vorgehensweise bei PLS muss hier verzichtet werden. Eine umfassende Darstellung findet sich u.a. bei Huber et al. 2007. NEUSREL Diese von Buckler (2001) entwickelte Methode basiert auf der Verbindung von Faktorenanalyse und Neuronalen Netzen. Während AMOS, LISREL und PLS für die Überprüfung von Hypothesen konzipiert wurden, können mit NEUSREL exploratorische Analysen durchgeführt werden, da sich die Methode zum Aufdecken von Beziehungen und Interaktionen eignet. Zudem ist NEUSREL in der Lage, auch nichtlineare Beziehungen zwischen den Variablen abzubilden. Solche Wirkungsbeziehungen können grundsätzlich auch unabhängig von theoretischen Vorüberlegungen ermittelt werden. Dies birgt allerdings die Gefahr der Abkehr vom Postulat theoriegeleiteter Forschung. Insofern ist in jedem Falle auf eine umfassende theoretische Fundierung der untersuchten Wirkungszusammenhänge zu achten. NEUSREL arbeitet wie PLS verteilungsfrei, was eine breite Anwendbarkeit ermöglicht. Die erforderliche Stichprobengröße ist abhängig von der Modellkomplexität: Bei Vorliegen von nichtlinearen und Interaktionseffekten wird allgemein ein Stichprobenumfang von ca. 250 gefordert. Neben der NEUSREL-Analyse bietet das Programm die Durchführung einer PLS-Schätzung, sodass der Anwender auch eine vergleichende Untersuchung mit beiden Schätzverfahren durchführen kann. Eine ausführliche Darstellung des Verfahrens findet sich bei Buckler/ Hennig-Thurau 2008. <?page no="324"?> 324 Datenanalyse 33..44..33 V Vaarriiaannzzaannaallyyssee Definition Mit Hilfe der Varianzanalyse wird der Einfluss einer oder mehrerer (mindestens nominalskalierter) Variablen auf eine oder mehrere metrisch skalierte Variablen untersucht. Dabei wird festgestellt, ob zwischen verschiedenen Gruppen signifikante Unterschiede bestehen, die auf den Einfluss einer oder mehrerer unabhängiger Variablen zurückzuführen sind. Typischer Anwendungsbereich der Varianzanalyse ist die Auswertung von Experimenten (vgl. Teil 6); insofern eignet sich die Varianzanalyse zur Überprüfung von Kausalhypothesen. Eine ausführliche Beschreibung der verschiedenen varianzanalytischen Methoden findet sich bei Scheffé 1999. Eine beispielhafte Fragestellung lautet: Wie hängt die Absatzmenge von der Platzierung des Produkts im Geschäft ab? Eine Varianzanalyse vollzieht sich in folgenden Schritten (Herrmann/ Landwehr 2008, S. 585): Modellspezifizierung, Zerlegung der Gesamtabweichung, Berechnung der Varianzen und Messung der Effekte, Signifikanztest, Interpretation der Ergebnisse. Die einzelnen Varianten der Varianzanalyse unterscheiden sich dabei nach der Anzahl der unabhängigen Variablen, nach der Anzahl der abhängigen Variablen sowie nach dem Skalenniveau der unabhängigen Variablen. EEiinnffaakkttoorriieellllee VVaarriiaannzzaannaallyyssee Im Folgenden soll die grundsätzliche Vorgehensweise anhand der univariaten einfaktoriellen Varianzanalyse (ANOVA) erläutert werden. Im Rahmen der univariaten einfaktoriellen Varianzanalyse wird die Wirkung einer einzigen unabhängigen nominalskalierten Variable (Faktor) mit 𝑘𝑘 � 1, … , 𝑠𝑠 Ausprägungen (Faktorstufen) auf eine metrisch skalierte abhängige Variable geprüft; das hier dargestellte Verfahren findet bei Experimenten nach einem vollständigen Zufallsplan Anwendung. Die Modellformulierung lautet: 𝑦𝑦 �� � 𝜇𝜇 � 𝛼𝛼 � � 𝑢𝑢 �� mit 𝑦𝑦 �� = Beobachtungswert 𝑖𝑖 der Faktorstufe 𝑘𝑘 �𝑖𝑖 � 1, … , 𝑛𝑛; 𝑘𝑘 � 1, … , 𝑠𝑠� , 𝜇𝜇 = Mittelwert der Grundgesamtheit, 𝛼𝛼 � = Wirkung der Stufe 𝑘𝑘 des Faktors A i.S. der Abweichung des Faktorstufenmittelwerts vom Gesamtmittelwert der Stichprobe ( ∑ 𝛼𝛼 � ���� � 0 ), 𝑢𝑢 �� = nicht erklärter Einfluss der Zufallsgrößen in der Grundgesamtheit. Es ist nun zu überprüfen, ob Unterschiede in den Mittelwerten der abhängigen Variablen, z.B. unterschiedliche Absatzmengen, bei den einzelnen Faktorstufen (z.B. unter- <?page no="325"?> Verfahren zur Messung von Beziehungen 325 schiedliche Platzierungen im Geschäft) statistisch signifikant sind. Das Ausgangstableau der einfaktoriellen Varianzanalyse wird in Abb. 8.24 dargestellt. Beobachtungen i Treatmentstufen 1 … k … s 1 y 11 … y 1k … y 1s i y i1 … y ik … y is n y n1 … y nk … y ns Gruppenmittelwerte y ̄ k y ̄ � … y ̄ k … y ̄ s Gesamtmittelwert y ̄ AAbbbb.. 88..2244: : Ausgangstableau der einfaktoriellen Varianzanalyse Die Gruppenmittelwerte 𝑦𝑦̄ � , d.h. die Mittelwerte bei den einzelnen Faktorstufen, streuen um den Gesamtmittelwert 𝑦𝑦̄ . Ausgangspunkt der Überlegungen ist die sog. Streuungszerlegung: Es gilt, dass sich die Gesamtstreuung, gemessen als Summe der quadrierten Abweichungen der Beobachtungswerte 𝑦𝑦 �� vom Gesamtmittelwert 𝑦𝑦̄ , additiv aus der Treatmentquadratsumme und der Fehlerquadratsumme zusammensetzt, es gilt also (vgl. Bortz/ Schuster 2010, S. 207 f.): 𝑄𝑄𝑄𝑄 ��� � 𝑄𝑄𝑄𝑄 ����� � 𝑄𝑄𝑄𝑄 � mit 𝑄𝑄𝑄𝑄 ��� = Totale Quadratsumme, 𝑄𝑄𝑄𝑄 ����� = Treatmentquadratsumme, 𝑄𝑄𝑄𝑄 � = Fehlerquadratsumme. Die Treatmentquadratsumme bezeichnet dabei die Streuung zwischen den Gruppen, welche also auf die verschiedenen Faktorstufen zurückzuführen ist, wohingegen die Fehlerquadratsumme die Streuung innerhalb der Gruppen bezeichnet, die aus zufälligen Schwankungen resultiert. Die einzelnen Quadratsummen berechnen sich wie folgt: 𝑄𝑄𝑄𝑄 ��� � ���𝑦𝑦 �� � 𝑦𝑦̄ � � � ��� � ��� 𝑄𝑄𝑄𝑄 � � ���𝑦𝑦 �� � 𝑦𝑦̄ � � � � ��� � ��� 𝑄𝑄𝑄𝑄 ����� � � � ��𝑦𝑦̄ � � 𝑦𝑦̄ � � � 𝑄𝑄𝑄𝑄 ��� � 𝑄𝑄𝑄𝑄 � . � ��� Dividiert man die Quadratsummen durch die jeweilige Anzahl an Freiheitsgraden, resultieren die empirischen Varianzen als (vgl. Bortz/ Schuster 2010, S. 209): 𝑀𝑀𝑄𝑄 ��� � 𝑄𝑄𝑄𝑄 ��� � � � � 1 <?page no="326"?> 326 Datenanalyse 𝑀𝑀𝑀𝑀 ����� � 𝑀𝑀𝑄𝑄 ����� � � 1 𝑀𝑀𝑀𝑀 � � 𝑀𝑀𝑄𝑄 � � � � � �. Die Freiheitsgrade der Gesamtvarianz setzen sich additiv aus den Freiheitsgraden der Treatmentvarianz und den Freiheitsgraden der Fehlervarianz zusammen; zwischen den Varianzen besteht jedoch keine additive Beziehung. Wird untersucht, ob sich die Gruppenmittelwerte 𝑦𝑦̄ � signifikant voneinander unterscheiden, ist folgende Nullhypothese aufzustellen: H � : 𝜇𝜇 � � … � 𝜇𝜇 � � � � 𝜇𝜇 � . Die Nullhypothese besagt, dass die Gruppenmittelwerte identisch sind. Die zugehörige Alternativhypothese besagt entsprechend, dass sich mindestens zwei Gruppenmittelwerte signifikant voneinander unterscheiden. Je größer die Treatmentvarianz 𝑀𝑀𝑀𝑀 ����� im Vergleich zur Fehlervarianz 𝑀𝑀𝑀𝑀 � ist, umso größer ist der Einfluss des Treatments im Vergleich zu zufälligen Einflüssen. Als Prüfgröße wird 𝐹𝐹 ��� � 𝑀𝑀𝑀𝑀 ����� 𝑀𝑀𝑀𝑀 � verwendet. Der empirische F-Wert wird mit dem theoretischen Wert der F-Verteilung bei � � 1 Freiheitsgraden im Zähler, � � � � � Freiheitsgraden im Nenner und einem Signifikanzniveau verglichen. Ist 𝐹𝐹 ��� > 𝐹𝐹 ����� , so ist die Nullhypothese zu verwerfen, d.h. es ist von einem signifikanten Einfluss des Testfaktors auf die abhängige Variable auszugehen. Die Ergebnisdarstellung erfolgt in Form einer sog. Varianztabelle (vgl. Tab. 8.14). T Taabb.. 88..1144: Ergebnistabelle einer einfaktoriellen Varianzanalyse Streuungsursache Quadratsumme Freiheitsgrade Varianz F emp Faktorstufe 𝑀𝑀𝑄𝑄 ����� � � 1 𝑀𝑀𝑀𝑀 ����� 𝑀𝑀𝑀𝑀 ����� 𝑀𝑀𝑀𝑀 � Zufall 𝑀𝑀𝑄𝑄 � � � � � � 𝑀𝑀𝑀𝑀 � Gesamt 𝑀𝑀𝑄𝑄 ��� � � � � 1 𝑀𝑀𝑀𝑀 ��� Führt die Varianzanalyse zu einem signifikanten F-Wert, so ist lediglich der Schluss zulässig, dass sich mindestens zwei Gruppenmittelwerte signifikant voneinander unterscheiden, d.h. dass das Experiment als solches eine Wirkung hat; welche Mittelwerte im Einzelnen signifikant voneinander abweichen, ist aus dem Overall-Test der Varianzanalyse nicht feststellbar. Zur Durchführung von Einzelvergleichen wurden eine ganze Reihe von Tests entwickelt, bspw. der in SPSS enthaltene Duncan-Test oder der im Folgenden dargestellte Scheffé-Test (vgl. hierzu Bortz/ Schuster 2010, S. 232 ff.). Dadurch kann festgestellt werden, welche Ausprägung des Treatmentfaktors die größte Wirkung entfaltet. Für die einzelnen Mittelwertpaare können folgende Nullhypothesen aufgestellt werden: H �� : 𝐷𝐷 � � 𝑦𝑦̄ � � 𝑦𝑦̄ � � 0 <?page no="327"?> Verfahren zur Messung von Beziehungen 327 H �� : 𝐷𝐷 � � 𝑦𝑦̄ � � 𝑦𝑦̄ � � 0 usw., d.h. allgemein H �� : 𝐷𝐷 � � 𝑦𝑦̄ � � 𝑦𝑦̄ � � � 0 für alle k≠k'; k=1,…, s. Beim Scheffé-Test wird überprüft, welche Einzelvergleiche (Mittelwertdifferenzen) signifikant sind; dabei wird der gesamte Hypothesenkomplex über sämtliche Einzelvergleiche auf Signifikanzen hin überprüft. Der Scheffé-Test gewährleistet, dass die Wahrscheinlichkeit eines 𝛼𝛼 -Fehlers für jeden Einzelvergleichstest nicht größer ist als das Signifikanzniveau 𝛼𝛼 für den Overall-Test der Varianzanalyse. Zur Durchführung des Scheffé-Tests werden zunächst die empirischen Mittelwertdifferenzen gemäß Tab. 8.15 ermittelt. Die empirischen Mittelwertdifferenzen 𝐷𝐷 �� werden mit folgender Prüfgröße verglichen: 𝐷𝐷 ���� � �2�� � 1�𝑀𝑀𝑀𝑀 � ⋅ 𝐹𝐹 � ℎ ��� �� � 1 ; 𝑛𝑛 � � � � ; �1 � 𝛼𝛼�� 𝑛𝑛 . TTaabb.. 88..1155: : Empirische Ermittlung von Mittelwertdifferenzen 𝑦𝑦̄ � 𝑦𝑦̄ � … 𝑦𝑦̄ � … 𝑦𝑦̄ � 𝑦𝑦̄ � 𝐷𝐷 �� … 𝐷𝐷 �� … 𝐷𝐷 �� 𝑦𝑦̄ � … 𝐷𝐷 �� … 𝐷𝐷 �� ⋮ ⋮ … ⋮ 𝑦𝑦̄ � … 𝐷𝐷 �� ⋮ ⋮ 𝑦𝑦̄ � Ist die empirische Differenz größer als die kritische Differenz, so ist die empirische Differenz auf dem 𝛼𝛼 -Niveau signifikant. Die Anwendung der Varianzanalyse ist an folgenden Voraussetzungen gebunden (vgl. Malhotra 2019, S. 519): Die Störgröße ist normalverteilt mit einem Erwartungswert in Höhe von Null und konstanter Varianz. Es darf kein systematischer Fehler bei der Erhebung auftreten. Die Störgrößen sind unkorreliert, d.h. die Beobachtungswerte sind voneinander unabhängig. Während geringfügige Verletzungen der ersten beiden Annahmen keine nennenswerte Gefährdung der Validität der Ergebnisse herbeiführen, kann eine Verletzung der dritten Prämisse zu starken Verzerrungen bei der Berechnung des empirischen F-Werts führen. Beispiel 8.32: Das Unternehmen Hicks möchte für seine Babynahrung eine kurzfristige Absatzsteigerung erzielen und testet vorab in drei ausgewählten Einzelhandelsgeschäften folgende Promotionmaßnahmen: <?page no="328"?> 328 Datenanalyse P 1 : Einsatz von Hostessen am Point of Sale; P 2 : Gewinnspiel; P 3 : Sonderpreisaktion. Angesichts der Testergebnisse nimmt das Unternehmen an, dass die Art der Promotionmaßnahme das Ergebnis signifikant beeinflusst. Es wird folgende Nullhypothese formuliert: H � : ��� � � � ��� � � � ��� � � . Die Ergebnisse des Store-Tests sind im folgenden Ausgangstableau enthalten. Promotionaktion P 1 P 2 P 3 Beobachtungswerte (Absatz/ Tag) 31 32 30 12 15 20 26 28 28 Summe 69 75 78 Gruppenmittelwert 23 25 26 Gesamtmittelwert 24 2/ 3 Streuungszerlegung: 𝑄𝑄𝑄𝑄 ��� � �31 - 24 2/ 3� 2 � �12 - 24 2/ 3� 2 � �26 - 24 2/ 3� 2 � �32 - 24 2/ 3� 2 � �15 - 24 2/ 3� 2 � �28 - 24 2/ 3� 2 � �30 - 24 2/ 3� 2 � �20 - 24 2/ 3� 2 � �28 - 24 2/ 3� 2 � 422 𝑄𝑄𝑄𝑄 � � �31 - 23� 2 � �12 - 23� 2 � �26 - 23� 2 � �32 - 25� 2 � �15 - 25� 2 � �28 - 25� 2 � �30 - 26� 2 � �20 - 26� 2 � �28 - 26� 2 � 408 𝑄𝑄𝑄𝑄 ����� � 𝑄𝑄𝑄𝑄 ��� � 𝑄𝑄𝑄𝑄 � � 3��23 - 24 2/ 3� 2 � 3��25 - 24 2/ 3� 2 � 3��26 - 24 2/ 3� 2 � 14. Durch Division mit der zugehörigen Anzahl von Freiheitsgraden erhält man die Varianzen als: 𝑀𝑀𝑄𝑄 ��� � 𝑄𝑄𝑄𝑄 ��� � ⋅ � � 1 � 422 3 ⋅ 3 � 1 � 52,75 𝑀𝑀𝑄𝑄 ����� � 𝑄𝑄𝑄𝑄 ����� � � 1 � 14 3 � 1 � 7 𝑀𝑀𝑄𝑄 � � 𝑄𝑄𝑄𝑄 � � ⋅ � � � � 408 3 ⋅ 3 � 3 � 68. Der anschließende Signifikanztest führt zu folgendem Ergebnis: 𝐹𝐹 ��� � 𝑀𝑀𝑄𝑄 ����� 𝑀𝑀𝑄𝑄 � � 7 68 � 0,1029 𝐹𝐹 ����� � 𝐹𝐹 ��� ; �⋅��� ; � � 𝐹𝐹 � ; � ; �,�� � 5,14. Da 𝐹𝐹 ��� � 𝐹𝐹 ����� wird die Nullhypothese angenommen, d.h. es besteht kein signifikanter Einfluss der Promotionmaßnahme auf die Absatzmenge. <?page no="329"?> Verfahren zur Messung von Beziehungen 329 Im vorangegangenen Beispiel wurde das grundsätzliche Vorgehen der Varianzanalyse dargestellt, welche bei Vorliegen eines vollständigen Zufallsplans Anwendung findet. Für die übrigen, in Abschnitt 3.3 des 6. Teils dargestellten Versuchsanordnungen muss das Verfahren modifiziert werden. Im Folgenden sollen nur ausgewählte Erweiterungen der Varianzanalyse angeführt werden. Ausführliche Darstellungen varianzanalytischer Methoden bei unterschiedlichen Versuchsanordnungen finden sich u.a. bei Scheffé 1999 sowie Bailey 2008. VVaarriiaannzzaannaallyyssee bbeeiimm zzuuffäälllliiggeenn BBlloocckkppllaann Beim zufälligen Blockplan wird ein Störfaktor explizit dadurch berücksichtigt, dass nach den Ausprägungen dieses Faktors Blöcke gebildet werden. Auch hier wird die Wirkung eines Testfaktors (z.B. Platzierung im Geschäft) auf eine abhängige Variable (z.B. Absatzmenge) untersucht; die Wirkung wird jedoch getrennt nach den Ausprägungen eines Störfaktors, z.B. Geschlecht der Testpersonen, ermittelt. Das Ausgangstableau der Varianzanalyse beim zufälligen Blockplan findet sich in Abb. 8.25. Blöcke Treatmentstufen Zeilenmittel 1 … k … s 1 y 11 … y 1k … y 1s y ̄ 1• l y l1 … y lk … y ls y ̄ l• m y m1 … y mk … y ms y ̄ m• Spaltenmittel y ̄ •1 … y ̄ •k … y ̄ •s y ̄ AAbbbb.. 88..2255: : Ausgangstableau der Varianzanalyse beim zufälligen Blockplan Das theoretische Modell der Varianzanalyse lautet in diesem Fall (vgl. Hüttner/ Schwarting 2002, S. 267): 𝑦𝑦 �� � 𝜇𝜇 � 𝛼𝛼 � � 𝜏𝜏 � � 𝑢𝑢 �� mit 𝑦𝑦 �� = Beobachtungswert in Block 𝑙𝑙 bei der Faktorstufe 𝑘𝑘 , 𝜇𝜇 = Mittelwert der Grundgesamtheit, 𝛼𝛼 � = Wirkung der Stufe 𝑘𝑘 des Faktors A �∑ 𝛼𝛼 𝑘𝑘 𝑠𝑠𝑘𝑘�1 � 0 � , 𝜏𝜏 � = Wirkung der Ausprägung 𝑙𝑙 (Block 𝑙𝑙 ) der Störgröße T �∑ 𝜏𝜏 � ���� � 0� , 𝑢𝑢 �� = nicht erklärter Einfluss von Zufallsgrößen in der Grundgesamtheit. Die Gesamtstreuung setzt sich nunmehr folgendermaßen zusammen: 𝑄𝑄𝑄𝑄 ��� = 𝑄𝑄𝑄𝑄 ����� � 𝑄𝑄𝑄𝑄 �� � 𝑄𝑄𝑄𝑄 � mit 𝑄𝑄𝑄𝑄 ��� = Totale Quadratsumme, 𝑄𝑄𝑄𝑄 ����� = Treatmentquadratsumme, 𝑄𝑄𝑄𝑄 �� = Blockquadratsumme, <?page no="330"?> 330 Datenanalyse 𝑄𝑄𝑄𝑄 � = Fehlerquadratsumme. Die Berechnung der Quadratsummen erfolgt folgendermaßen: 𝑄𝑄𝑄𝑄 ��� � ���𝑦𝑦 �� � 𝑦𝑦̄ � � � ��� � ��� 𝑄𝑄𝑄𝑄 ����� � � ��𝑦𝑦̄ •� � 𝑦𝑦̄ � � � ��� 𝑄𝑄𝑄𝑄 �� � � ��𝑦𝑦̄ �• � 𝑦𝑦̄ � � � ��� 𝑄𝑄𝑄𝑄 � � ���𝑦𝑦̄ �� � 𝑦𝑦̄ �• � 𝑦𝑦̄ •� � 𝑦𝑦̄ � � � ��� � ��� . Die Varianzen erhält man wiederum mittels Division durch die jeweiligen Freiheitsgrade: 𝑀𝑀𝑄𝑄 ��� � 𝑄𝑄𝑄𝑄 ��� � � � � 1 𝑀𝑀𝑄𝑄 ����� � 𝑄𝑄𝑄𝑄 ����� � � 1 𝑀𝑀𝑄𝑄 �� � 𝑄𝑄𝑄𝑄 �� � � 1 𝑀𝑀𝑄𝑄 � � 𝑄𝑄𝑄𝑄 � �� � 1��� � 1� . Die Prüfgrößen für die Effekte der Treatments und der Blockzugehörigkeit erhält man durch Division der entsprechenden Varianzen durch die Fehlervarianz, also 𝐹𝐹 ���������� � 𝑀𝑀𝑄𝑄 ����� 𝑀𝑀𝑄𝑄 � 𝐹𝐹 ������� � 𝑀𝑀𝑄𝑄 �� 𝑄𝑄 � . Beispiel 8.33: Das Unternehmen des Beispiels 8.31 vermutet, dass die Wirkung alternativer Promotionmaßnahmen maßgeblich davon beeinflusst wird, in welchem Geschäftstyp das Produkt angeboten wird. Die drei Promotionmaßnahmen aus dem Beispiel 8.32 werden daher in drei Geschäften unterschiedlichen Typs getestet: G 1 : Tante-Emma-Laden; G 2 : Supermarkt; G 3 : Discounter. Auf Replikationen wird verzichtet, da die Störgröße (Geschäftstyp) bereits explizit im Untersuchungsdesign berücksichtigt wird. Die Ergebnisse des Storetests sind in nachfolgender Tabelle enthalten. <?page no="331"?> Verfahren zur Messung von Beziehungen 331 Blöcke Treatments P 1 P 2 P 3 Zeilenmittel G 1 31 32 30 31,00 G 2 12 15 20 15,67 G 3 26 28 28 27,33 Spaltenmittel 23,00 25,00 26,00 24,67 Die einzelnen Quadratsummen resultieren als: 𝑄𝑄𝑄𝑄 ��� � � ���𝑦𝑦 �� � 𝑦𝑦̄ � � � ��� � ��� � 422 𝑄𝑄𝑄𝑄 ����� � � ��𝑦𝑦̄ •� � 𝑦𝑦̄ � � � ��� � 14 𝑄𝑄𝑄𝑄 �� � � ��𝑦𝑦̄ �• � 𝑦𝑦̄ � � � 384, 6� � ��� 𝑄𝑄𝑄𝑄 � � ���𝑦𝑦̄ �� � 𝑦𝑦̄ �• � 𝑦𝑦̄ •� � 𝑦𝑦̄ � � � 23, 3� � ��� � ��� . Somit können die Varianzen wie folgt errechnet werden: 𝑀𝑀𝑄𝑄 ��� � 𝑄𝑄𝑄𝑄 ��� � � � � 1 � 52,75 𝑀𝑀𝑄𝑄 ����� � 𝑄𝑄𝑄𝑄 ����� � � 1 � 7 𝑀𝑀𝑄𝑄 �� � 𝑄𝑄𝑄𝑄 �� � � 1 � 192, 3� 𝑀𝑀𝑄𝑄 � � 𝑄𝑄𝑄𝑄 � �� � 1��� � 1� � � 5,83� . Daraus resultieren die folgenden Prüfgrößen: 𝐹𝐹 ���������� � 𝑀𝑀𝑄𝑄 ����� 𝑀𝑀𝑄𝑄 � � 1,2 𝐹𝐹 ������� � 𝑀𝑀𝑄𝑄 �� 𝑀𝑀𝑄𝑄 � � 32,97. VVaarriiaannzzaannaallyyssee bbeeii mmeehhrrffaakkttoorriieelllleenn PPlläänneenn Bei mehrfaktoriellen Plänen wird die Wirkung von mindestens zwei Testfaktoren untersucht. Neben der Wirkung der Platzierung im Geschäft auf die Absatzmenge kann beispielsweise auch der Einfluss alternativer Verpackungen getestet werden. Zu berücksichtigen ist dabei die Tatsache, dass die Testfaktoren zum einen isoliert auf die abhängige Variable wirken, zum anderen aber auch ihr Zusammenwirken die abhängige Variable beeinflusst. Beispielsweise kann eine ungünstige Platzierung im Geschäft <?page no="332"?> 332 Datenanalyse durch eine auffällige und ansprechende Verpackung zumindest teilweise kompensiert werden. Aus diesem Grunde werden im Rahmen einer mehrfaktoriellen Varianzanalyse nicht nur die Wirkungen der Testfaktoren, sondern auch der Einfluss der Interaktionen zwischen den Faktoren analysiert. Das zugrunde liegende theoretische Modell lautet am Beispiel eines bifaktoriellen Plans (vgl. Backhaus et al. 2021, S. 184): 𝑦𝑦 ��� � 𝜇𝜇 � 𝛼𝛼 � � 𝛼𝛼 � � �𝛼𝛼𝛼𝛼� �� � 𝑢𝑢 ��� mit 𝑦𝑦 ��� = Beobachtungswert 𝑖𝑖 bei Treatment 𝑘𝑘 des Faktors A und Treatment 𝑙𝑙 des Faktors B, 𝜇𝜇 = Mittelwert der Grundgesamtheit, 𝛼𝛼 � = Wirkung des Treatments 𝑘𝑘 des Faktors A, 𝛼𝛼 � = Wirkung des Treatments 𝑙𝑙 des Faktors B, �𝛼𝛼𝛼𝛼� �� = Wirkung der Interaktion der Treatments 𝑘𝑘 und 𝑙𝑙 der Faktoren A und B, 𝑢𝑢 ��� = nicht erklärter Einfluss der Zufallsgrößen in der Grundgesamtheit. Das Ausgangstableau der zweifaktoriellen Varianzanalyse ist in Abb. 8.26 dargestellt. Dabei bezeichnen 𝑦𝑦 ��� = Beobachtungswert 𝑖𝑖 bei Treatment 𝑘𝑘 des Faktors A und Treatment 𝑙𝑙 des Faktors B, 𝑦𝑦̄ = Gesamtmittelwert, 𝑦𝑦̄ •�� = Mittelwert bei der Treatmentkombination 𝑘𝑘𝑙𝑙 der Faktoren A und B, 𝑦𝑦̄ •�• = Gesamtmittelwert bei Treatment 𝑘𝑘 von Faktor A, 𝑦𝑦̄ ••� = Gesamtmittelwert bei Treatment 𝑙𝑙 von Faktor B. Die Gesamtstreuung 𝑄𝑄𝑄𝑄 ��� der Beobachtungswerte setzt sich aus der Streuung innerhalb der Gruppen 𝑄𝑄𝑄𝑄 � (Fehlerstreuung) und der Streuung zwischen den Gruppen 𝑄𝑄𝑄𝑄 � , welche auf das Experiment zurückzuführen ist, zusammen. Die Streuung zwischen den Gruppen lässt sich wiederum zerlegen in eine Streuung der Haupteffekte 𝑄𝑄𝑄𝑄 � und 𝑄𝑄𝑄𝑄 � und eine Streuung durch Wechselwirkung der Faktoren A und B, 𝑄𝑄𝑄𝑄 ��� . Die einzelnen Streuungen werden wie folgt berechnet (vgl. Bortz/ Schuster 2010, S. 292 ff.): 𝑄𝑄𝑄𝑄 ��� � ����𝑦𝑦 ��� � 𝑦𝑦̄ � � � ��� � ��� � ��� 𝑄𝑄𝑄𝑄 � � � ���𝑦𝑦̄ •�� � 𝑦𝑦̄ � � � ��� � ��� 𝑄𝑄𝑄𝑄 � � � � � ��𝑦𝑦̄ •�• � 𝑦𝑦̄ � � � ��� <?page no="333"?> Verfahren zur Messung von Beziehungen 333 𝑄𝑄𝑄𝑄 � � 𝑛𝑛 𝑛 𝑛𝑛 ��𝑦𝑦̄ ••� � 𝑦𝑦̄ � � � ��� 𝑄𝑄𝑄𝑄 ��� � � 𝑄𝑄𝑄𝑄 � � 𝑄𝑄𝑄𝑄 � � 𝑄𝑄𝑄𝑄 � 𝑄𝑄𝑄𝑄 � � �𝑄𝑄𝑄𝑄 ��� � 𝑄𝑄𝑄𝑄 � . Treatments Faktor B Zeilenmittelwerte y ..k.. Treatments Faktor A Replikationen i 1 ... l ... m 1 1 …n Beobachtungswerte y i1l … Zellenmittelwerte y ..1l y ..11 ... y ..1l ... y ..1m y ..1.. k 1 …n Beobachtungswerte y ikl … Zellenmittelwerte y ..kl y ..k1 ... y ..kl ... y ..km y ..k.. s 1 …n Beobachtungswerte y isl Zellenmittelwerte y ..sl y ..s1 ... y ..sl ... y ..sm y ..s. . Spaltenmittelwerte y ..l y ....1 ... y ..l ... y ....m y AAbbbb.. 88..2266: : Ausgangstableau der zweifaktoriellen Varianzanalyse Die Varianzen resultieren wiederum als Quotienten der Quadratsummen und der zugehörigen Freiheitsgrade: 𝑀𝑀𝑄𝑄 ��� � 𝑄𝑄𝑄𝑄 ��� 𝑛𝑛 𝑛 𝑛𝑛 𝑛 𝑛𝑛 𝑀𝑀𝑄𝑄 � � 𝑄𝑄𝑄𝑄 � 𝑛𝑛 � 1 𝑀𝑀𝑄𝑄 � � 𝑄𝑄𝑄𝑄 � 𝑛𝑛 � 1 𝑀𝑀𝑄𝑄 ��� � � 𝑄𝑄𝑄𝑄 ��� �𝑛𝑛 � 1��𝑛𝑛 � 1� 𝑀𝑀𝑄𝑄 � � � 𝑄𝑄𝑄𝑄 � 𝑛𝑛 𝑛 𝑛𝑛�𝑛𝑛 � 1�. Als Prüfgrößen verwendet man wieder empirische F-Werte, die sich als Quotienten der jeweiligen Faktorvarianzen durch die Fehlervarianz ergeben; diese Prüfgrößen werden wieder mit den entsprechenden theoretischen Werten der F-Verteilung verglichen (bei entsprechender Anzahl von Freiheitsgraden und Signifikanzniveau ): <?page no="334"?> 334 Datenanalyse 𝐹𝐹 ������ � 𝑀𝑀𝑀𝑀 � 𝑀𝑀𝑀𝑀 � 𝐹𝐹 ������ � 𝑀𝑀𝑀𝑀 � 𝑀𝑀𝑀𝑀 � 𝐹𝐹 �������� � 𝑀𝑀𝑀𝑀 ��� 𝑀𝑀𝑀𝑀 � . Welche Mittelwertdifferenzen signifikant sind, kann wiederum mit Hilfe des Scheffé- Tests ermittelt werden. Beispiel 8.34: Das Unternehmen des Beispiels 8.33 möchte zusätzlich in Erfahrung bringen, ob unterschiedliche Platzierungen im Geschäft die Absatzmenge beeinflussen. Getestet werden zwei alternative Platzierungen: A 1 : Normalregal im Verbund mit sonstigen Babyprodukten; A 2 : Normalregal im Verbund mit Konserven. Die Ergebnisse des Tests sind in der nachfolgenden Tabelle enthalten. Replikationen Treatments A 1 A 2 B 1 B 2 B 3 B 1 B 2 B 3 1 31 32 30 22 20 18 2 12 15 21 17 20 17 3 26 28 27 18 17 16 Die Quadratsummen errechnen sich wie folgt: 𝑀𝑀𝑄𝑄 ��� � ����𝑦𝑦 ��� � 𝑦𝑦̄ � � � ��� � ��� � ��� � ��31 � 21,5� � � �32 � 21,5� � � � � �16 � 21,5� � � � 618,5 𝑀𝑀𝑄𝑄 � � � ���𝑦𝑦̄ •�� � 𝑦𝑦̄ � � � ��� � ��� � 3 ⋅ ��31 � 21,5� � � �20 � 21,5� � � � � �17 � 21,5� � � � 556,5 𝑀𝑀𝑄𝑄 � � � ⋅ � ��𝑦𝑦̄ •�• � 𝑦𝑦̄ � � � 3 ⋅ 3 ⋅ ��25,5 � 21,5� � � �17 � 21,5� � � �22 � 21,5� � � � ��� � 328,5 𝑀𝑀𝑄𝑄 � � � ⋅ � ��𝑦𝑦̄ ••� � 𝑦𝑦̄ � � � ��� � 2 ⋅ 3 ⋅ ��24, 6� � 21,5� � � �18, 3� � 21,5� � � � 120, 3� 𝑀𝑀𝑄𝑄 ��� � 𝑀𝑀𝑄𝑄 � � � 𝑀𝑀𝑄𝑄 � � 𝑀𝑀𝑄𝑄 � � 618,5 � 328,5 � 120, 3� � 107, 6� 𝑀𝑀𝑄𝑄 � � �𝑀𝑀𝑄𝑄 ��� � 𝑀𝑀𝑄𝑄 � � � 618,5 � 556,5 � 62. Daraus resultieren folgende Varianzen und Prüfgrößen: <?page no="335"?> Verfahren zur Messung von Beziehungen 335 𝑀𝑀𝑀𝑀 ��� � 𝑀𝑀𝑄𝑄 ��� 𝑛𝑛 𝑛 𝑛𝑛 𝑛 𝑛𝑛 � 618,5 3 𝑛 2 𝑛 3 � 34,36 𝑀𝑀𝑀𝑀 � � 𝑀𝑀𝑄𝑄 � �𝑛𝑛 � 1� � 328,5 2 � 1 � 328,5 𝑀𝑀𝑀𝑀 � � � 𝑀𝑀𝑄𝑄 � �𝑛𝑛 � 1� � 120, 3� 3 � 1 � 60,17 𝑀𝑀𝑀𝑀 ��� � � 𝑀𝑀𝑄𝑄 ��� �𝑛𝑛 � 1��𝑛𝑛 � 1� � 107, 6� �2 � 1��3 � 1� � 53,83 𝑀𝑀𝑀𝑀 � � � 𝑀𝑀𝑄𝑄 � 𝑛𝑛 𝑛 𝑛𝑛�𝑛𝑛 � 1� � � 62 2 𝑛 3 𝑛 �3 � 1� � 5,17 𝐹𝐹 ������ � 𝑀𝑀𝑀𝑀 � 𝑀𝑀𝑀𝑀 � � 328,5 5,17 � 63,54 𝐹𝐹 ������ � 𝑀𝑀𝑀𝑀 � 𝑀𝑀𝑀𝑀 � � 60,17 5,17 � 11,65 𝐹𝐹 �������� � 𝑀𝑀𝑀𝑀 ��� 𝑀𝑀𝑀𝑀 � � 53,83 5,17 � 10,41. VVaarriiaannzzaannaallyyssee bbeeiimm llaatteeiinniisscchheenn QQuuaaddrraatt Beim lateinischen Quadrat werden zwei Störfaktoren gleichzeitig berücksichtigt (z.B. Geschlecht der Probanden, Geschäftstyp, vgl. die Ausführungen in Abschnitt 3.3 im 6. Teil). Da kein vollständiges Design vorliegt, sind Interaktionseffekte nicht beschreibbar. Das theoretische Modell lautet (vgl. Hüttner/ Schwarting 2002, S. 270): 𝑦𝑦 ��� � 𝜇𝜇 � 𝛼𝛼 � � 𝜏𝜏 � � 𝜐𝜐 � � 𝑢𝑢 ��� mit 𝑦𝑦 ��� = Beobachtungswert in Zeile 𝑙𝑙 und Spalte 𝑝𝑝 beim Treatment 𝑘𝑘 des Faktors A �𝑙𝑙 � 1, … , 𝑛𝑛, �𝑝𝑝 � 1, … 𝑞𝑞, �𝑘𝑘 � 1, … , 𝑛𝑛� , 𝜇𝜇 = Mittelwert in der Grundgesamtheit, 𝛼𝛼 � = Wirkung des Treatments 𝑘𝑘 des Faktors A, 𝜏𝜏 � = Wirkung der Ausprägung 𝑙𝑙 der Störgröße T, 𝜐𝜐 � = Wirkung der Ausprägung 𝑝𝑝 der Störgröße N, 𝑢𝑢 ��� = nicht erklärter Einfluss der Zufallsgrößen in der Grundgesamtheit. Die Ausgangssituation der Varianzanalyse beim lateinischen Quadrat ist in Abb. 8.27 dargestellt. Aufgrund der quadratischen Versuchsanordnung muss sich die Zahl der Ausprägungen entsprechen, d.h. 𝑛𝑛 � 𝑞𝑞 � 𝑛𝑛 . Pro Zelle wird dabei im Standardfall ein Messwert 𝑦𝑦 �� erhoben (anstelle von 𝑦𝑦 ��� wird 𝑦𝑦 �� notiert, da ein Treatment 𝑘𝑘 pro Zeile und Spalte nur einmal vorkommt). Lateinische Quadrate mit Messwiederholungen (Replikationen) werden bei Bortz/ Schuster 2010, S. 396 ff. dargestellt. Unter dem Beobachtungswert findet sich in Klammern das zugehörige Treatment. <?page no="336"?> 336 Datenanalyse Störgröße T Störgröße N 1 2 … p … q Zeilenmittel 1 y 11 (1) y 12 (2) … y 1p … y 1q (s) y 1.. 2 y 21 (2) y 22 (3) … y 2p … y 2q (1) y 2.. … … … … … … … … l y l1 y l2 … y lp … y lq y l.. … … … … … … … … m y m1 (s) y m2 (1) … y mp … y mq (s-1) y m. . Spaltenmittel y ..1 y ..2 … y ..p … y ..q y AAbbbb.. 88..2277: : Ausgangssituation der Varianzanalyse beim lateinischen Quadrat Für die einzelnen Streuungen gilt (vgl. Hüttner/ Schwarting 2002, S. 270): 𝑄𝑄𝑄𝑄 ��� � ���𝑦𝑦 �� � 𝑦𝑦̄ � � � ��� � ��� 𝑄𝑄𝑄𝑄 � � � � ��𝑦𝑦̄ �• � 𝑦𝑦̄ � � � ��� 𝑄𝑄𝑄𝑄 ����� � �� � ��𝑦𝑦̄ � � 𝑦𝑦̄ � � � ��� 𝑄𝑄𝑄𝑄 � � � � ��𝑦𝑦̄ •� � 𝑦𝑦̄ � � � ��� 𝑄𝑄𝑄𝑄 � � ���𝑦𝑦 �� � � 𝑦𝑦̄ �• � 𝑦𝑦̄ •� � 𝑦𝑦̄ � � 2𝑦𝑦̄ � � . � ��� � ��� 𝑦𝑦̄ � resultiert dabei als Mittelwert der Beobachtungswerte bei Treatment 𝑘𝑘 über alle Zeilen und Spalten. 𝑄𝑄𝑄𝑄 � stellt allerdings nur dann eine Fehlerstreuung dar, die als Prüfgröße für die Haupteffekte verwendet werden kann, wenn keine Interaktionen vorliegen. Durch Division mit der jeweiligen Zahl der Freiheitsgrade erhält man: 𝑀𝑀𝑄𝑄 ��� � 𝑄𝑄𝑄𝑄 ��� 𝑘𝑘 � �� � � � � � � � 1 𝑀𝑀𝑄𝑄 � � 𝑄𝑄𝑄𝑄 � 𝑘𝑘 � 1 𝑀𝑀𝑄𝑄 � � � 𝑄𝑄𝑄𝑄 � 𝑘𝑘 � 1 𝑀𝑀𝑄𝑄 ����� � 𝑄𝑄𝑄𝑄 ����� 𝑘𝑘 � 1 <?page no="337"?> Verfahren zur Messung von Beziehungen 337 𝑀𝑀𝑀𝑀 � � � 𝑀𝑀𝑄𝑄 � �� � 1��� � 2�. Die Prüfgrößen erhält man wiederum als: 𝐹𝐹 ������ � 𝑀𝑀𝑀𝑀 � 𝑀𝑀𝑀𝑀 � 𝐹𝐹 ������ � 𝑀𝑀𝑀𝑀 � 𝑀𝑀𝑀𝑀 � 𝐹𝐹 ���������� � 𝑀𝑀𝑀𝑀 ����� 𝑀𝑀𝑀𝑀 � . Beispiel 8.35: Im Rahmen einer Werbeplanung soll erkundet werden, wie sich drei verschiedene Werbespots (Faktor A) für das Produkt auf das Kaufverhalten (gemessen an der Absatzmenge) von drei verschiedenen Konsumentengruppen (Faktor B) auswirken. Um eine Vergleichbarkeit der Ergebnisse zu gewährleisten, erfolgt die Untersuchung zeitgleich an drei verschiedenen Standorten (Faktor C). Die Stichprobe beträgt 𝑛𝑛 � 270 Konsumenten. Interaktionen sollen nicht berücksichtigt werden. Auf der Grundlage eines lateinischen Quadrates ergibt sich folgende Datentabelle: a 1 a 2 a 3 b 1 c 1 c 2 c 3 b 2 c 2 c 3 c 1 b 3 c 3 c 1 c 2 Jede Zelle umfasst 30 Konsumenten, d.h. 𝑛𝑛 � 30 Konsumenten der Konsumentengruppe b 1 sehen Werbespot a 1 für das Produkt am Standort c 1 , 30 Konsumenten der Konsumentengruppe b 1 sehen Werbespot a 2 für das Produkt am Standort c 2 , … und 𝑛𝑛 � 30 Konsumenten der Konsumentengruppe b 3 sehen Werbespot a 3 für das Produkt am Standort c 2 . Das nachfolgende Ausgangstableau enthält die Absatzmengen bei den einzelnen Treatments sowie die zugehörigen Zeilen- und Spaltenmittelwerte. a 1 a 2 a 3 Zeilenmittel b 1 11 14 11 12 b 2 12 8 10 10 b 3 10 17 15 14 Spaltenmittel 11 13 12 12 Die Quadratsummen errechnen sich als: 𝑀𝑀𝑄𝑄 ��� � 𝑛𝑛 ⋅ ���𝑦𝑦 �� � 𝑦𝑦̄ � � � ��� � ��� � 30 ⋅ �1 � 4 � 1 � 0 � 16 � 4 � 4 � 25 � 9� � 1.920 𝑀𝑀𝑄𝑄 � � 𝑛𝑛 ⋅ � ⋅ ��𝑦𝑦̄ �• � 𝑦𝑦̄ � � � ��� � 30 ⋅ 3 ⋅ ��12 � 12� � � �10 � 12� � � �14 � 12�� � 720 <?page no="338"?> 338 Datenanalyse 33..44..44 K Koonnttiinnggeennzzaannaallyyssee Definition Im Rahmen der Kontingenzanalyse wird die wechselseitige Abhängigkeit zwischen zwei oder mehreren nominalskalierten oder klassierten höherskalierten Variablen untersucht. Als Beispiel kann der Zusammenhang zwischen Geschlecht und Markenwahl angeführt werden. Ausgangspunkt der Analyse ist eine Häufigkeitstabelle, welche in allgemeiner Form in Abb. 8.28 dargestellt ist. Dabei sind: 𝑄𝑄𝑄𝑄 � � � ⋅ � ⋅ ��𝑦𝑦̄ •� � 𝑦𝑦̄ � � � ��� � 30 ⋅ 3 ⋅ ��11 � 12� � � �13 � 12� � � �12 � 12� � � � 180 𝑄𝑄𝑄𝑄 ����� � � ⋅ � ⋅ ��𝑦𝑦̄ � � 𝑦𝑦̄ � � � ��� � 30 ⋅ 3 ⋅ ��12 2 3 � � 12� � � �13 2 3 � � 12� � � �9 2 3 � � 12� � � � 780 𝑄𝑄𝑄𝑄 � � � ⋅ ���𝑦𝑦 �� � 𝑦𝑦̄ �• � 𝑦𝑦̄ •� � 𝑦𝑦̄ � � 2𝑦𝑦̄ � � � 240 � ��� � ��� . Durch Division der Quadratsummen durch die jeweiligen Freiheitsgrade resultieren die folgenden Varianzen: 𝑀𝑀𝑄𝑄 ��� � 𝑄𝑄𝑄𝑄 ��� 𝑘𝑘 � �� � � � � � � � 1 � 1920 8 � 240 𝑀𝑀𝑄𝑄 � � 𝑄𝑄𝑄𝑄 � 𝑘𝑘 � 1 � 720 2 � 360 𝑀𝑀𝑄𝑄 � � 𝑄𝑄𝑄𝑄 � 𝑘𝑘 � 1 � 180 2 � 90 𝑀𝑀𝑄𝑄 ����� � 𝑄𝑄𝑄𝑄 ����� 𝑘𝑘 � 1 � 780 2 � 390 𝑀𝑀𝑄𝑄 � � 𝑄𝑄𝑄𝑄 � �𝑘𝑘 � 1��𝑘𝑘 � 2� � 240 2 � 120. Für die Effekte der Störgrößen N und T sowie des Treatments ergeben sich mittels Division durch die Fehlervarianz die folgenden Prüfgrößen: 𝐹𝐹 ������ � 𝑀𝑀𝑄𝑄 � 𝑀𝑀𝑄𝑄 � � 360 120 � 3 𝐹𝐹 ������ � 𝑀𝑀𝑄𝑄 � 𝑀𝑀𝑄𝑄 � � 90 120 � 0,75 𝐹𝐹 ���������� � 𝑀𝑀𝑄𝑄 ����� 𝑀𝑀𝑄𝑄 � � 390 120 � 3,25. <?page no="339"?> Verfahren zur Messung von Beziehungen 339 𝑛𝑛 �� = absolute Häufigkeit der Merkmalskombination 𝑘𝑘𝑘𝑘 �𝑘𝑘 � 1, … , 𝑠𝑠; 𝑘𝑘 � 1, … , �� , 𝑛𝑛 •� � ∑ 𝑛𝑛 �� ���� = Häufigkeit des Auftretens der Merkmalsausprägung 𝑘𝑘 über alle 𝑘𝑘 (Spaltensumme), 𝑛𝑛 �• � ∑ 𝑛𝑛 �� ���� = Häufigkeit des Auftretens der Merkmalsprägung 𝑘𝑘 über alle 𝑘𝑘 (Zeilensumme), 𝑛𝑛 = Gesamtzahl der Fälle. Variable 1 Variable 2 ∑ 1 … l … m 1 n 11 … n 1l … n 1m n 1.. … … … … … … … k n k1 … n kl … n km n k.. … … … … … … … s n s1 … n sl … n sm n s.. ∑ n ..1 … n ..l … n ..m n AAbbbb.. 88..2288: : Häufigkeitstabelle für die Kontingenzanalyse Die in Abb. 8.28 enthaltenen absoluten Häufigkeiten können anhand der Gesamtzahl der Fälle, der Zeilensummen 𝑛𝑛 �• oder der Spaltensummen 𝑛𝑛 •� relativiert werden (Kreuztabellierung); dies erlaubt ein erstes Urteil, ob ein Zusammenhang zwischen den Variablen vermutet werden kann. Genauere Ergebnisse lassen sich mit einem 𝜒𝜒² -Unabhängigkeitstest ermitteln. 𝝌𝝌² --UUnnaabbhhäännggiiggkkeeiittsstteesstt Die H 0 -Hypothese beim 𝜒𝜒² -Unabhängigkeitstest lautet: Beide Variablen treten unabhängig voneinander auf. Zur Prüfung der Nullhypothese werden die empirischen Häufigkeiten der Merkmalskombinationen 𝑘𝑘 und 𝑘𝑘 , 𝑛𝑛 �� , mit den theoretischen Häufigkeiten 𝑁𝑁 �� verglichen; diese errechnen sich als: 𝑁𝑁 �� � 𝑛𝑛 �• ⋅ 𝑛𝑛 •� 𝑛𝑛 . Das Grundprinzip der Kontingenzanalyse basiert darauf, dass ein Zusammenhang zwischen beiden Variablen umso eher anzunehmen ist, je weniger sich die empirischen von den theoretischen Häufigkeiten unterscheiden. Grundlage für die statistische Überprüfung des Zusammenhangs ist die Summe der quadrierten Abweichungen zwischen den beobachteten und den theoretischen Häufigkeiten ( 𝑛𝑛 �� � 𝑁𝑁 �� ) 2 . Als Prüfgröße wird der empirische 𝜒𝜒² -Wert herangezogen (vgl. Bortz/ Schuster 2010, S. 172): 𝜒𝜒 ��� � � �� �𝑛𝑛 �� � 𝑁𝑁 �� � � 𝑁𝑁 �� � ��� � ��� � �� �𝑛𝑛 �� � 𝑛𝑛 �• ⋅ 𝑛𝑛 •� 𝑛𝑛 � � 𝑛𝑛 �• ⋅ 𝑛𝑛 •� 𝑛𝑛 � � . Voraussetzung ist dabei, dass die erwarteten Häufigkeiten pro Zelle größer als 5 sind. Der empirische 𝜒𝜒² -Wert wird mit dem theoretischen Wert der 𝜒𝜒² -Verteilung bei einem vorgegebenen Signifikanzniveau und �𝑘𝑘- 1��𝑘𝑘- 1� Freiheitsgraden verglichen. Die H 0 - Hypothese ist abzulehnen, wenn 𝜒𝜒 ��� � � 𝜒𝜒 � ℎ ��� � ; dann kann von einem signifikanten Zu- <?page no="340"?> 340 Datenanalyse sammenhang zwischen den untersuchten Variablen ausgegangen werden. Allerdings liefert die Kontingenzanalyse keine Aussagen über die Richtung des Zusammenhangs; dies ist mit Hilfe von Plausibilitätsüberlegungen festzustellen. Bei den Variablen „Geschlecht“ und „Markenwahl“ wäre etwa davon auszugehen, dass die Geschlechtszugehörigkeit die Markenwahl beeinflusst, nicht jedoch umgekehrt. Die grundsätzliche Vorgehensweise soll anhand eines Beispiels illustriert werden. Beispiel 8.36: Eine Kosmetikfirma möchte feststellen, ob Männer und Frauen bzgl. Haarstylingmitteln ein unterschiedliches Markenwahlverhalten aufweisen. Im Rahmen eines Store-Tests wurden dazu 5 Marken dahingehend untersucht, wieviele Käufer im Testzeitraum männlich oder weiblich waren. Die nachfolgende Tabelle zeigt die beobachteten und - in Klammern - die erwarteten Häufigkeiten. Geschlecht Marke n k• 1 2 3 4 5 Männlich 1 12 (6,4) 14 (11,6) 4 (5,2) 7 (6,8) 16 (10) 40 Weiblich 2 4 (9,6) 15 (17,4) 9 (7,8) 10 (10,2) 9 (15) 60 n •l 16 29 13 17 25 100 𝑁𝑁 �� ergibt sich beispielsweise als: 𝑁𝑁 �� � 40 ⋅ 16 100 � 6,4. Dieser Wert lässt sich wie folgt interpretieren: Bei gleichem Markenwahlverhalten von Männern und Frauen müssten von den 16 Käufern von Marke 1 40 %, d.h. 6,4 Käufer, Männer sein. Der empirische 𝜒𝜒² -Wert errechnet sich als 𝜒𝜒 ��� � � �12 � 6,4� � 6,4 � �14 � 11,6� � 11,6 � � � �9 � 15� � 15 � 15,47. Aus der 𝜒𝜒² -Tabelle resultiert bei einem Signifikanzniveau von 5 % (und damit einer Vertrauenswahrscheinlichkeit �1 � � von 0,95) und 4 Freiheitsgraden folgender Wert: 𝜒𝜒 � ℎ ��� � � 𝜒𝜒 ����������,� � � 𝜒𝜒 ���������� ; �,�� � � 9,49. Da 𝜒𝜒 ��� � � 𝜒𝜒 � ℎ ��� � , ist die H 0 -Hypothese abzulehnen, d.h. es besteht ein signifikanter Zusammenhang zwischen Geschlecht und Markenwahlverhalten. Zur Absicherung der Interpretation können einzelne Häufigkeiten der Kontingenztafel miteinander verglichen werden (analog zu den Einzelvergleichen im Rahmen der Varianzanalyse, vgl. hierzu Abschnitt 3.4.3). Ein geeignetes Verfahren wurde von Bresnahan und Shapiro (1966) vorgeschlagen. <?page no="341"?> Verfahren zur Messung von Beziehungen 341 In der statistischen Literatur wurde eine Vielzahl weiterer Kontingenzmaße entwickelt, auf die im Einzelnen nicht eingegangen werden kann. Im Folgenden sollen nur einige der gebräuchlichsten skizziert werden. PPhhii--KKooeeffffiizziieenntt Der Phi-Koeffizient ( 𝜙𝜙 ) misst die Stärke des Zusammenhangs zweier Variablen im Spezialfall zweifach gestufter Merkmale (2 2-Kontingenztabelle). Er berechnet sich als: 𝜙𝜙 � �𝜒𝜒 � 𝑛𝑛 und liegt im Wertebereich zwischen 0 und 1, wobei der Wert 0 einen nicht vorhandenen, der Wert 1 einen vollständigen Zusammenhang darstellt (dies ist dann der Fall, wenn alle Werte in der Tabelle auf der Haupt- oder Nebendiagonalen liegen). KKoonnttiinnggeennzzkkooeeffffiizziieenntt CC Der Kontingenzkoeffizient C misst die Stärke des Zusammenhangs auch bei mehrfach gestuften Merkmalen, d.h. bei Merkmalen mit mehr als zwei Ausprägungen. Er kann wie folgt errechnet werden: � � � 𝜒𝜒 � 𝜒𝜒 � � 𝑛𝑛 . Auch der Kontingenzkoeffizient C liegt grundsätzlich zwischen 0 und 1; der Wert von 1 wird allerdings nur asymptotisch erreicht. Da der obere Wert vom Umfang der Tabelle abhängig ist, sollte der Kontingenzkoeffizient nur zum Vergleich von Kontingenztabellen gleicher Größe verwendet werden. CCrraammeerr’’ss VV Cramer’s V stellt eine modifizierte Version des Phi-Koeffizienten für Tabellen größeren Umfangs dar. Wird 𝜙𝜙 für Tabellen größer als 2 2 errechnet, besitzt er keine Obergrenze; Cramer’s V bereinigt im Prinzip den Wert von Phi entweder mit der Zahl der Spalten oder der Zeilen (je nachdem, welcher Wert kleiner ist). Dadurch wird erreicht, dass V im Wertebereich zwischen 0 und 1 liegt. Die Formel lautet: 𝑉𝑉 � � 𝜙𝜙 � 𝑚𝑚𝑚𝑚𝑛𝑛�� � 1� , �𝑚𝑚 � 1� . Für zwei zweifach gestufte Merkmale gilt demnach: 𝑉𝑉 = 𝜙𝜙 . W Weeiitteerree VVeerrffaahhrreenn Zur Untersuchung der Zusammenhänge zwischen mehr als zwei nominalskalierten Variablen kann die sog. Konfigurationsfrequenzanalyse (KFA) angewendet werden, welche ebenfalls auf 𝜒𝜒² basiert (vgl. ausführlich Krauth 1993). Darüber hinaus gibt es eine ganze Reihe weiterer Verfahren, die in der Literatur unter der Bezeichnung „log-lineare“, „logit“ und „probit“-Modelle zu finden sind (vgl. Anderson 1994, Gilbert 1993). Auf diese soll hier jedoch nicht weiter eingegangen werden. <?page no="342"?> 342 Datenanalyse 33..44..55 K Koorrrreellaattiioonnssaannaallyyssee Definition Korrelationskoeffizienten messen die Stärke des Zusammenhangs zwischen zwei Variablen. Das Vorzeichen des Korrelationskoeffizienten gibt an, ob der Zusammenhang positiv oder negativ ist. In Abhängigkeit vom Skalenniveau sind unterschiedliche Koeffizienten gebräuchlich (vgl. Tab. 8.16). TTaabb.. 88..1166: : Bivariate Korrelationsarten (Quelle: Bortz/ Schuster 2010, S. 171) Merkmal y Merkmal x Intervallskala Dichotomes Merkmal Ordinalskala Intervallskala Produkt-Moment- Korrelation Punktbiseriale Korrelation Rangkorrelation Dichotomes Merkmal -Koeffizient Biseriale Rangkorrelation Ordinalskala Rangkorrelation PPrroodduukktt--MMoommeenntt--KKoorrrreellaattiioonnsskkooeeffffiizziieenntt Der Produkt-Moment-Korrelationskoeffizient ist definiert als: 𝑟𝑟 � ∑ �𝑥𝑥 � � 𝑥𝑥̄ ��𝑦𝑦 � � 𝑦𝑦̄ � ���� �∑ �𝑥𝑥 � � 𝑥𝑥̄ � � � ∑ �𝑦𝑦 � � 𝑦𝑦̄ � � � . Dabei gilt: �1 � 𝑟𝑟 � �1 . Während die Größe des Korrelationskoeffizienten die Stärke des Zusammenhangs aufzeigt, gibt das Vorzeichen von 𝑟𝑟 die Richtung des Zusammenhangs an. Für 𝑟𝑟 � �1 ��1� besteht ein vollständiger positiver (negativer) Zusammenhang zwischen den Variablen. Zu beachten ist allerdings, dass der Produkt-Moment- Korrelationskoeffizient lediglich einen linearen Zusammenhang abbilden kann (vgl. Abb. 8.29). Die Korrelationsanalyse ist eng mit der Regressionsanalyse verbunden; so entspricht der Korrelationskoeffizient der Quadratwurzel des Bestimmtheitsmaßes (vgl. die Ausführungen in Abschnitt 3.4.1). Darüber hinaus gilt, dass die Korrelation zwischen den Variablen 𝑥𝑥 und 𝑦𝑦 der Korrelation zwischen den empirischen 𝑦𝑦 -Werten und den vorhergesagten 𝑦𝑦� -Werten im Rahmen der Regressionsanalyse entspricht. SSttaattiissttiisscchhee AAbbssiicchheerruunngg Soll aufgrund des empirisch bestimmten Korrelationskoeffizienten 𝑟𝑟 auf den unbekannten Korrelationskoeffizient 𝜌𝜌 in der Grundgesamtheit geschlossen werden, muss vorausgesetzt werden können, dass die Grundgesamtheit bivariat normalverteilt ist. Ob eine <?page no="343"?> Verfahren zur Messung von Beziehungen 343 empirisch ermittelte Korrelation 𝑟𝑟 mit der Nullhypothese H � : � � 0 vereinbar ist, lässt sich mit folgender Prüfgröße testen (vgl. Bortz/ Schuster 2010, S. 162 f.): 𝑡𝑡 � 𝑟𝑟√𝑙𝑙 � 2 √1 � 𝑟𝑟 � . AAbbbb.. 88..2299: : Beispiele für Korrelationsdiagramme (Quelle: in Anlehnung an Überla 1977, S. 15) Es kann gezeigt werden, dass für Stichproben von 𝑙𝑙 � 3 der obige Ausdruck t-verteilt mit 𝑙𝑙 � 2 Freiheitsgraden ist; somit wird der empirische t-Wert mit dem theoretischen Wert der t-Verteilung bei einem Signifikanzniveau und 𝑙𝑙 � 2 Freiheitsgraden verglichen (zweiseitiger Test, d.h. H � : � � 0 ). Kann die Nullhypothese verworfen werden (für 𝑡𝑡 ��� � 𝑡𝑡 ����� � , weicht die Korrelation signifikant von Null ab. Bei großen Stichproben ( 𝑙𝑙 � 25 ) kann auch eine Nullhypothese über den Wert des Korrelationskoeffizienten geprüft werden, der nicht Null ist: H � : � � �, 𝑙� � 0 . Hierzu wird die sog. Fisher’s Z-Transformation herangezogen (vgl. Bortz/ Schuster 2010, S. 160 f.): � � 12 𝑙𝑙𝑙𝑙 �1 � 𝑟𝑟 1 � 𝑟𝑟�. Die auf diese Weise transformierten Werte sind auch für � � 0 annähernd normalverteilt nach � �12 𝑙𝑙𝑙𝑙 1 � � 1 � � ; 1 𝑙𝑙 � 3�. Zur Prüfung der Nullhypothese wird folgende Prüfgröße berechnet: � � �12 𝑙𝑙𝑙𝑙 𝑙 1 � 𝑟𝑟 1 � 𝑟𝑟 𝑙 � 12 𝑙𝑙𝑙𝑙 1 � � 1 � �� √𝑙𝑙 � 3 ; y x x x r xy = +0,5 r xy = -0,3 r xy = 0 r xy = 0 r xy = 1 r xy = -1 y y y y y x x x <?page no="344"?> 344 Datenanalyse H � wird abgelehnt, wenn � � � � �� � oder � � � �1 � �� � resultiert. Beispiel 8.37: Im Rahmen der Regressionsanalyse aus Beispiel 8.29 kann der zugehörige Korrelationskoeffizient errechnet werden als: 𝑟𝑟 � ∑ �𝑝𝑝 � � 𝑝𝑝̄ ��𝑥𝑥 � � 𝑥𝑥̄ � ���� �∑ �𝑝𝑝 � � 𝑝𝑝̄ � � ⋅ � ∑ �𝑥𝑥 � � 𝑥𝑥̄ � � � � �30 √1200 � �0,866. Es liegen 𝑛𝑛 � 5 Beobachtungswerte vor. Der empirische t-Wert errechnet sich als: 𝑡𝑡 ��� � 𝑟𝑟√𝑛𝑛 � 2 √1 � 𝑟𝑟 � � 0,866 ⋅ √3 �0,250 � 2,999. Aus der Tabelle der t-Verteilung im Anhang (zweiseitige Fragestellung) kann bei einem Signifikanzniveau α von 5 % und �𝑛𝑛 � 2� � 3 Freiheitsgraden der theoretische t-Wert ermittelt werden als: 𝑡𝑡 ����� � 𝑡𝑡 � ; �,�� � 3,182. Da der empirische t-Wert kleiner ist als der theoretische, ist die Nullhypothese anzunehmen, dass heißt die Korrelation weicht nicht signifikant von Null ab. Trotz des hohen Werts des Korrelationskoeffizienten wirkt sich hier somit der geringe Stichprobenumfang von 𝑛𝑛 � 5 aus, sodass der Zähler der Prüfgröße einen vergleichsweise geringen Wert annimmt. PPuunnkkttbbiisseerriiaallee KKoorrrreellaattiioonn Die punktbiseriale Korrelation wird angewendet, um den Zusammenhang zwischen einem dichotomen Merkmal (z.B. Geschlecht) und einem intervallskalierten Merkmal (z.B. Kaufmenge) festzustellen. Den Wert einer punktbiserialen Korrelation erhält man, wenn in die Gleichung für die Produkt-Moment-Korrelation für das dichotome Merkmal die Werte 0 und 1 eingesetzt werden. Dadurch vereinfacht sich die Gleichung zu (vgl. Bortz/ Schuster 2010, S. 171): 𝑟𝑟 �� � 𝑦𝑦̄ � � 𝑦𝑦̄ � 𝑠𝑠 � ⋅ �𝑛𝑛 � ⋅ 𝑛𝑛 � 𝑛𝑛 � mit 𝑛𝑛 � , 𝑛𝑛 � = Anzahl der Untersuchungseinheiten in den Merkmalskategorien 𝑥𝑥 � und 𝑥𝑥 � der dichotomen Variablen 𝑥𝑥 , 𝑦𝑦̄ � , 𝑦𝑦̄ � = durchschnittliche Ausprägung der intervallskalierten Variablen 𝑦𝑦 bei den Untersuchungseinheiten in den Kategorien 𝑥𝑥 � und 𝑥𝑥 � der Variablen 𝑥𝑥 , 𝑛𝑛 � 𝑛𝑛 � � 𝑛𝑛 � = Gesamtstichprobenumfang, 𝑠𝑠 � = Standardabweichung der Variablen 𝑦𝑦 . Zur statistischen Absicherung �H � : ρ � 0� wird folgende Prüfgröße herangezogen: 𝑡𝑡 � 𝑟𝑟 �� ��1 � 𝑟𝑟 �� � � �𝑛𝑛 � 2� . <?page no="345"?> Verfahren zur Messung von Beziehungen 345 Beispiel 8.38: Mit Hilfe eines Fragebogens soll untersucht werden, ob sich das Kaufverhalten von Männern und Frauen im Hinblick auf Geräte der Unterhaltungselektronik unterscheidet. Vermutet wird, dass Männer aufgrund einer höheren Technikaffinität ein stärkeres Interesse an Produkten dieser Kategorie haben. Unter anderem wird auch die Kaufabsicht bei DVD-Playern in den nächsten sechs Monaten erfragt. An der Befragung nehmen insgesamt 𝑛𝑛 = 22 Personen teil ( 𝑛𝑛 � =12 Frauen und 𝑛𝑛 � =10 Männer). Die Kaufabsicht wird anhand einer Rating-Skala von 1 = „werde ich ganz bestimmt nicht kaufen“ bis 10 = „werde ich ganz sicher kaufen“ erhoben. Als Signifikanzniveau ist α = 0,05 vorgegeben. Dieser Test soll als zweiseitiger Test durchgeführt werden, d.h. H � : � � 0 . Die Befragung führte zu folgenden Ergebnissen: Frauen �� � 0� : 6 5 6 8 4 5 7 5 5 7 5 Männer �� � 1� : 8 7 6 10 9 7 7 8 10 Aus diesen Datenreihen ergeben sich die folgenden Werte: 𝑦𝑦̄ � � 6,3 und 𝑦𝑦̄ � � 7,2 . Die Standardabweichung der Variablen 𝑦𝑦 errechnet sich als: 𝑠𝑠 � � �∑ 𝑦𝑦 �� ���� � �∑ 𝑦𝑦 � ���� � � 𝑛𝑛 𝑛𝑛 � �967 � 135 � 22 22 � 2,51. Somit kann der Korrelationskoeffizient wie folgt ermittelt werden: 𝑟𝑟 �� � 𝑦𝑦̄ � � 𝑦𝑦̄ � 𝑠𝑠 � ⋅ �𝑛𝑛 � ⋅ 𝑛𝑛 � 𝑛𝑛 � � 7,2 � 6,3 2,51 ⋅ �12 ⋅ 10 484 � 0,18. Der empirische t-Wert resultiert als: 𝑡𝑡 ��� � 𝑟𝑟 �� ��1 � 𝑟𝑟 �� � � �𝑛𝑛 � 2� � 0,18 ��1 � 0,18 � � �22 � 2� � 0,82. Der theoretische t-Wert ergibt sich aus der Tabelle der t-Verteilung für zweiseitige Fragestellung (vgl. t-Tabelle im Anhang) bei �𝑛𝑛 � 2� � 20 Freiheitsgraden und einem Signifikanzniveau α = 0,05 als: 𝑡𝑡 ����� � 𝑡𝑡 �20; 0,05� � 2,086 . Da 𝑡𝑡 ��� � 𝑡𝑡 ����� , ist die H � -Hypothese anzunehmen, d.h. es besteht kein signifikanter Zusammenhang zwischen Geschlecht und Interesse an DVD-Playern. BBiisseerriiaallee RRaannggkkoorrrreellaattiioonn Die biseriale Rangkorrelation findet dann Anwendung, wenn der Zusammenhang zwischen einer ordinalskalierten und einer dichotomen Variablen untersucht werden soll. Eine beispielhafte Fragestellung könnte lauten: Ein Proband wird gebeten, verschiedene Produktmarken nach seiner Markenpräferenz in eine Rangfolge zu bringen (Variable 𝑦𝑦 ). <?page no="346"?> 346 Datenanalyse Es soll überprüft werden, ob die Markenpräferenz im Zusammenhang mit dem Herkunftsland (Variable 𝑥𝑥 ) steht, wobei 𝑥𝑥 � = nationale Marke, 𝑥𝑥 � = ausländische Marke ist. Der Grundgedanke basiert auf der Überlegung, dass ein perfekter Zusammenhang zwischen den Variablen dann gegeben wäre, wenn alle Beobachtungen der ordinalskalierten Variablen 𝑦𝑦 bei der ersten Ausprägung der dichotomen Variablen, 𝑥𝑥 � , durchweg höhere (oder niedrigere) Rangplätze aufweisen würden als bei der zweiten Ausprägung 𝑥𝑥 � . Beispielsweise würde der Proband den nationalen Marken durchweg höhere Rangplätze zuweisen als den internationalen Marken. Es wird nun untersucht, wieviele höhere Rangplätze ( 𝑈𝑈 ) bzw. wieviele niedrigere Rangplätze ( 𝑈𝑈 ′ ) sich in der jeweils anderen Gruppe befinden (vgl. Bortz/ Schuster 2010, S. 177 f.). Der biseriale Rangkorrelationskoeffizient errechnet sich als: 𝑟𝑟 ���� � 𝑈𝑈 � 𝑈𝑈 ′ 𝑈𝑈 ��� , wobei 𝑈𝑈 ��� � 𝑛𝑛 � ⋅ 𝑛𝑛 � mit 𝑛𝑛 � = Häufigkeit des Auftretens der Merkmalsausprägung 𝑥𝑥 � der dichotomen Variablen 𝑥𝑥 , 𝑛𝑛 � = Häufigkeit des Auftretens der Merkmalsausprägung 𝑥𝑥 � der dichotomen Variablen 𝑥𝑥 . Bezeichnet man mit 𝑇𝑇 � die Rangsumme der ersten Gruppe (Summe der Rangplätze der Variablen 𝑦𝑦 , welche zur Merkmalsausprägung x 1 der Variablen x gehören) und mit 𝑇𝑇 � die Rangsumme der zweiten Gruppe, werden 𝑈𝑈 und 𝑈𝑈 ′ errechnet als: 𝑈𝑈 � 𝑛𝑛 � ⋅ 𝑛𝑛 � � 𝑛𝑛 � �𝑛𝑛 � � 1� 2 � 𝑇𝑇 � und 𝑈𝑈 ′ � 𝑛𝑛 � ⋅ 𝑛𝑛 � � 𝑛𝑛 � �𝑛𝑛 � � 1� 2 � 𝑇𝑇 � . Die statistische Überprüfung der Nullhypothese H � : 𝜌𝜌 ���� � 0 erfolgt bei einem großen 𝜇𝜇 über den approximativen U-Test (vgl. Bortz/ Schuster 2010, S. 178). Die Prüfgröße lautet: � � 𝑈𝑈 � 𝜇𝜇 � 𝜎𝜎 � mit 𝜇𝜇 � � 𝑛𝑛 � ⋅ 𝑛𝑛 � 2 𝜎𝜎 � � �𝑛𝑛 � ⋅ 𝑛𝑛 � �𝑛𝑛 � 1� 12 . Der empirische z-Wert wird mit dem kritischen z-Wert bei einem vorgegebenen Signifikanzniveau verglichen; liegt er unterhalb des kritischen z-Werts, so ist die H � -Hypothese abzulehnen. Bei großen Stichproben ist der kritische Wert approximativ normalverteilt. Bei kleinen Stichprobenumfängen wird hingegen der exakte Wert der U-Verteilung herangezogen. Abgelehnt wird H � , wenn ��𝑛𝑛�𝑈𝑈� (der kleinere der beiden Werte 𝑈𝑈 und 𝑈𝑈 ′ ) kleiner als 𝑈𝑈 ���� ist. Nachfolgendes Beispiel soll die Zusammenhänge verdeutlichen. <?page no="347"?> Verfahren zur Messung von Beziehungen 347 Beispiel 8.39: Ein Proband hat die Aufgabe, 18 Produktmarken ( 𝑛𝑛 � =10 nationale und 𝑛𝑛 � =8 ausländische) derselben Produktkategorie in eine Rangfolge bringen. Ziel der Erhebung ist die Feststellung, ob zwischen der Markenpräferenz und der Herkunft der Marke (inländisch (I) oder ausländisch (A)) ein Zusammenhang besteht (sog. „home bias“), d.h. ob der Proband in der Tendenz heimische Marken gegenüber ausländischen Marken bevorzugt. Die Ergebnisse der Untersuchung finden sich in der nachfolgenden Tabelle. Marke 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Herkunft ( 𝑥𝑥 ) I I A I I I A A I A I I I A A I A A Präferenz ( 𝑦𝑦 ) 4 7 9 8 1 6 5 2 10 16 17 11 12 13 15 14 18 3 Der Korrelationskoeffizient lässt sich folgendermaßen errechnen: 𝑟𝑟 ���� � 𝑈𝑈 � 𝑈𝑈 ′ 𝑈𝑈 ��� 𝑈𝑈 ��� � 𝑛𝑛 � ⋅ 𝑛𝑛 � � 10 ⋅ 8 � 80 𝑈𝑈 � 𝑛𝑛 � ⋅ 𝑛𝑛 � � 𝑛𝑛 � �𝑛𝑛 � � 1� 2 � � � � 80 � 10 ⋅ 11 2 � 79 � 56 𝑈𝑈 ′ � 𝑛𝑛 � ⋅ 𝑛𝑛 � � 𝑛𝑛 � �𝑛𝑛 � � 1� 2 � � � � 80 � 8 ⋅ 9 2 � 92 � 24 𝑟𝑟 ���� � 56 � 24 80 � 0,4. Zur statistischen Überprüfung der Nullhypothese H � : 𝜌𝜌 ���� � 0 kann die Prüfgröße wie folgt ermittelt werden: � � 𝑈𝑈 � 𝜇𝜇 � 𝜎𝜎 � 𝜇𝜇 � � 𝑛𝑛 � ⋅ 𝑛𝑛 � 2 � 10 ⋅ 8 2 � 40 𝜎𝜎 � � �𝑛𝑛 � ⋅ 𝑛𝑛 � �𝑛𝑛 � 1� 12 � �10 ⋅ 8 ⋅ 19 12 � �1520 12 � 11,25 � � 𝑈𝑈 � 𝜇𝜇 � 𝜎𝜎 � � 56 � 40 11,25 � 1,42. Aufgrund der kleinen Stichprobengröße ist hier jedoch mit dem exakten 𝑈𝑈 -Wert zu rechnen. Aus der U-Test-Tabelle * kann der kritische 𝑈𝑈 -Wert entnommen werden. Für 𝑛𝑛 � = 10 und 𝑛𝑛 � = 8 resultiert der Wert 17. Da min( 𝑈𝑈 ) (der kleinere der beiden Werte 𝑈𝑈 und 𝑈𝑈 ′ ) mit einem Wert von 24 größer ist als der kritische Wert von 𝑈𝑈 , ist die Nullhypothese anzunehmen, d.h. das Ergebnis ist bei einem Signifikanzniveau von = 0,05 (zweiseitiger Test) nicht signifikant. <?page no="348"?> 348 Datenanalyse * Auszug aus der U-Test-Tabelle ( = 0,05; zweiseitiger Test): n 1 n 2 8 9 10 8 13 9 15 17 20 10 17 20 23 RRaannggkkoorrrreellaattiioonn nnaacchh SSppeeaarrmmaann Liegen zwei ordinalskalierte Variablen vor, wird der Rangkorrelationskoeffizient nach Spearman herangezogen (vgl. Bortz/ Schuster 2010, S. 178 ff.). Eine beispielhafte Fragestellung könnte lauten: Beurteilung von 𝑛𝑛 Produkten durch zwei verschiedene Konsumentinnen. Es wird überprüft, ob zwischen den beiden Rangreihungen ein Zusammenhang besteht, d.h. ob die Probanden eine ähnliche Markenpräferenz aufweisen. Für jede Untersuchungseinheit 𝑖𝑖 wird zunächst die Differenz aus den Rangplätzen gebildet, die ihr die zwei Befragten 𝑥𝑥 und 𝑦𝑦 vergeben haben, 𝑑𝑑 � . Diese werden anschließend quadriert. Der Korrelationskoeffizient berechnet sich als: 𝑟𝑟 � � 1 � 6 ⋅ ∑ 𝑑𝑑 �� ���� 𝑛𝑛�𝑛𝑛 � � 1� . Für 𝑛𝑛 � 30 kann approximativ folgende Prüfgröße herangezogen werden: 𝑡𝑡 ��� � 𝑟𝑟 � ��1 � 𝑟𝑟 � �/ �𝑛𝑛 � 2�. Die H � -Hypothese H � : 𝜌𝜌 � � 0 kann abgelehnt werden, wenn 𝑡𝑡 ��� (zweiseitige Fragestellung) im Bereich �𝑡𝑡� � ��� � ; � 𝑛𝑛 � 2� � 𝑡𝑡 ��� � 𝑡𝑡 � ��� � ; � 𝑛𝑛 � 2� liegt. Beispiel 8.40: Es soll untersucht werden, inwieweit die Präferenzen der potenziellen Käuferinnen bzgl. ausgewählter Produktmarken von Nachtcremes übereinstimmen. Zwei Probandinnen bewerten fünf Produktmarken gemäß nachfolgender Tabelle: Produkt i Rang Konsumentin x Rang Konsumentin y d i d i ² 1 2 4 -2 4 2 5 5 0 0 3 1 2 -1 1 4 4 3 1 1 5 3 1 2 4 Summe 10 Der Korrelationskoeffizient berechnet sich als: 𝑟𝑟 � � 1 � 6 ⋅ 10 5 ⋅ �25 � 1� � 0,5. Als Prüfgröße errechnet man: <?page no="349"?> Verfahren zur Messung von Präferenzen 349 𝑡𝑡 ��� � 0,5 ��1 � 0,5� �5 � 2� � 1,225. Bei einem Signifikanzniveau von 0,01 und 3 Freiheitsgraden ist die H � -Hypothese abzulehnen, da gilt: �5,841 � 1,225 � 5,841 . Somit korrelieren die Beurteilungen der beiden Probandinnen hochsignifikant. (Allerdings ist im Beispiel 𝑛𝑛 � 30 ; der t-Test wurde hier - obwohl „eigentlich“ nicht zulässig - nur zur Verdeutlichung der Vorgehensweise durchgeführt.) Liegen verbundene Ränge vor, d.h. wird derselbe Rangplatz mehreren Untersuchungseinheiten zugewiesen, dann kann die obige Formel nur dann verwendet werden, wenn der Anteil verbundener Ränge nicht mehr als 20 % aller Rangplätze ausmacht. Ansonsten muss die Berechnung des Korrelationskoeffizienten modifiziert werden. 33..55 VVeerrffaahhrreenn zzuurr MMeessssuunngg vvoonn PPrrääffeerreennzzeenn 33..55..11 C Coonnjjooiinnttaannaallyyssee Definition Die Conjointanalyse dient dazu, die Präferenzen bzw. Nutzenvorstellungen von Personen bezüglich alternativer Objekte (z.B. Produktkonzepte) zu analysieren. Es handelt sich dabei um ein Verfahren der indirekten Präferenzmessung, d.h. aus Globalurteilen bzgl. der zu bewertenden Objekte wird auf die relative Bedeutung von deren Eigenschaften und Präferenzen bzgl. einzelner Eigenschaftsausprägungen geschlossen. Die Conjointanalyse ist ein in der Marktforschung weit verbreitetes multivariates Verfahren zur Messung von Nachfragerpräferenzen (vgl. Hartmann/ Sattler 2004, S. 3). Sie basiert auf der Annahme, dass ein Produkt (bzw. eine Dienstleistung) aus einem Bündel von Leistungsmerkmalen bzw. Eigenschaften besteht (z.B. Preis, Verpackung, Marke, Garantie), welche verschiedene Ausprägungen annehmen können (keine Garantie, 1 Jahr oder 2 Jahre Garantie usw.). Der vom Kunden empfundene Gesamtnutzen des Produktes setzt sich annahmegemäß aus den Nutzenwerten der einzelnen Merkmale zusammen. Je besser der Nachfrager die einzelnen Merkmale bewertet, desto höher ist auch seine Präferenz für das Produkt, damit auch sein persönlicher Nutzen und die Wahrscheinlichkeit, dass er dieses Produkt kauft. Formal ergibt sich der Gesamtnutzen 𝑈𝑈 � eines Produktes 𝑖𝑖 mit � � 1, … , 𝐾𝐾 Merkmalen wie folgt (vgl. Teichert et al. 2008, S. 659): 𝑈𝑈 � � ��𝑓𝑓 � �𝑈𝑈 1i �,f � �𝑈𝑈 2i �, … ,f � �𝑈𝑈 Ki ��. Zentrales Ziel der Conjointanalyse ist es, die Teilnutzen und damit letztlich die relative Wichtigkeit einzelner Eigenschaften und ihrer unterschiedlichen Ausprägungen für die Gesamtbewertung eines Produktes zu ermitteln. Ausgehend von Gesamturteilen über zu vergleichende Stimuli (ein Stimulus besteht jeweils aus einer Kombination von Eigenschaften mit den jeweiligen Eigenschaftsausprägungen), die sich hinsichtlich der Merk- <?page no="350"?> 350 Datenanalyse malsausprägungen unterscheiden, wird auf den Nutzenbeitrag der einzelnen Ausprägungen zu diesem Gesamturteil geschlossen. Es handelt sich somit um ein dekompositionelles Verfahren, bei dem die unabhängigen Variablen die Ausprägungen der einzelnen Eigenschaften sind und die abhängige Variable die Präferenz der Auskunftspersonen hinsichtlich der zu bewertenden Produkte darstellt. Gegenüber self-explicated Verfahren, bei denen die Präferenz einzelner Produktkomponenten direkt abgefragt wird, besitzt die Conjointanalyse den großen Vorteil, dass die Probanden „vollständige“ Produkte beurteilen und dabei simultan positive und negative Eigenschaftsausprägungen gegeneinander abwägen müssen. Bei einem methodisch korrekten Versuchsaufbau erreicht die Conjointanalyse dadurch vergleichsweise hohe Validitätswerte, da die Testpersonen mit einer realitätsnahen Entscheidungssituation konfrontiert werden. Typische Anwendungsfälle für die Conjointanalyse bilden im Marketing Kosten-Nutzenbewertungen alternativer Produktkonzepte, Marktanteilsprognosen konkurrierender Produkte sowie nachfrageorientierte Preisbestimmungen und Marktsegmentierungen (vgl. Hüttner/ Schwarting 2002, S. 339, Hensel-Börner/ Sattler 2000, S. 706). Die Vorgehensweise bei einer Conjointanalyse ist stark von den jeweiligen Untersuchungsumständen abhängig; sie verläuft jedoch zumeist in den folgenden Schritten: Auswahl der zu untersuchenden Eigenschaften und ihrer möglichen Ausprägungsalternativen, Festlegung des Erhebungsdesigns, Bewertung der Stimuli, Schätzung der Teilnutzenwerte, Normierung und Aggregation der ermittelten Nutzenwerte (vgl. Backhaus et al. 2021, S. 536). AAuusswwaahhll ddeerr EEiiggeennsscchhaafftteenn uunndd iihhrreerr AAuusspprräägguunnggeenn Um im Rahmen einer Conjointanalyse die Teilnutzenwerte einzelner Eigenschaftsausprägungen eines Produktes ermitteln zu können, müssen in einem ersten Schritt zunächst die zu untersuchenden Produktmerkmale sowie deren mögliche Ausprägungen festgelegt werden. Dabei sind einige grundlegende Voraussetzungen an die Wahl der Eigenschaften geknüpft. So sollen ausschließlich Eigenschaften untersucht werden, von denen angenommen wird, dass sie für die Präferenzentscheidung relevant sind. Zudem müssen sie aus Sicht der Beurteilenden voneinander unabhängig sein, d.h. in ihrem beigemessenen Teilnutzen nicht von anderen Eigenschaften abhängig sein. Außerdem müssen sie vom Hersteller eines Produktes beeinflussbar sein und dürfen keine Ausschlusskriterien darstellen (vgl. Mengen/ Simon 1996, S. 231). Aus Gründen der Komplexität muss darüber hinaus die Anzahl der zu betrachtenden Eigenschaften sowie von deren Ausprägungsalternativen auf einige wenige begrenzt sein. Zudem müssen die zu untersuchenden Eigenschaften in einer kompensatorischen Beziehung zueinanderstehen, da im Grundmodell der Conjointanalyse unterstellt wird, dass sich die zu ermittelnden Teilnutzen additiv zu einem Gesamtnutzen zusammensetzen. <?page no="351"?> Verfahren zur Messung von Präferenzen 351 Bei empirischen Untersuchungen lässt sich diese Annahme häufig nicht halten. So werden sicherlich nur wenige Konsumenten bereit sein, bei Flügen niedrige Sicherheitsstandards zu akzeptieren, selbst wenn die Ticketpreise im Gegenzug niedrig sind. Daher werden neben der additiven Verknüpfung auch Alternativen wie multiplikative bzw. gemischte Verknüpfungen unterstellt (vgl. Hartmann/ Sattler 2002, S. 5, Hüttner/ Schwarting 2002, S. 340 f.). Nachfolgend wird an einem Beispiel das Grundprinzip der Conjointanalyse mit kompensatorischen Eigenschaften dargestellt. Beispiel 8.41: Ein Hersteller von Peripheriegeräten für PCs möchte einen neuen Drucker entwickeln, der am Markt wettbewerbsfähig ist. Aus Voruntersuchungen ist bekannt, dass die drei Eigenschaften Druckqualität, Druckgeschwindigkeit und Preis für Konsumenten besonders kaufrelevant sind. Für jede Eigenschaft sind jeweils drei unterschiedliche Ausprägungen denkbar: Eigenschaften Eigenschaftsausprägungen 1 2 3 A: Druckqualität Normale Auflösung Hohe Auflösung Fotoqualität B: Druckgeschwindigkeit 5 Seiten/ Minute 10 Seiten/ Minute 20 Seiten/ Minute C: Preis 30 EUR 60 EUR 90 EUR EErrhheebbuunnggssddeessiiggnn Nachdem festgelegt wurde, welche Eigenschaften und welche Eigenschaftsausprägungen untersucht werden sollen, wird im nächsten Schritt das Erhebungsdesign festgelegt. Hierbei werden sowohl die von den Testpersonen zu vergleichenden Stimuli als auch die Präsentationsart für die Testpersonen festgelegt. Grundsätzlich können die Stimuli den Testpersonen entweder als vollständige Produktkonzepte unter Einbeziehung sämtlicher beuteilungsrelevanter Eigenschaften vorgelegt werden (Profilmethode), oder die zu vergleichenden Stimuli bestehen jeweils nur aus zwei Eigenschaften (Faktoren), die miteinander verglichen werden (Zwei-Faktorbzw. Trade-Off-Methode). Die Bestimmung der Anzahl möglicher Stimuli im Rahmen der Profilmethode erfolgt gemäß: 𝐴𝐴 � � �𝑀𝑀 � � ��� mit 𝐴𝐴 � = Anzahl möglicher Stimuli, 𝑀𝑀 � = Anzahl der Ausprägungen der Eigenschaft k, 𝐾𝐾 = Anzahl der Eigenschaften. Beispiel 8.42: Für das Beispiel 8.41 ergeben sich im Fall der Profilmethode insgesamt die in nachfolgender Tabelle enthaltenen 3 3 =27 Stimuli: <?page no="352"?> 352 Datenanalyse A1B1C1 A2B1C1 A3B1C1 A1B2C1 A2B2C1 A3B2C1 A1B3C1 A2B3C1 A3B3C1 A1B1C2 A2B1C2 A3B1C2 A1B2C2 A2B2C2 A3B2C2 A1B3C2 A2B3C2 A3B3C2 A1B1C3 A2B1C3 A3B1C3 A1B2C3 A2B2C3 A3B2C3 A1B3C3 A2B3C3 A3B3C3 Für die Zwei-Faktor-Methode werden hingegen bei 𝐾𝐾 Eigenschaften �𝐾𝐾2 � � 𝐾𝐾! 2! �𝐾𝐾 � 2�! Trade-Off-Matrizen aufgestellt, welche die möglichen Kombinationen von Eigenschaftsausprägungen der jeweils zu vergleichenden beiden Faktoren enthalten. Im verwendeten Beispiel ergeben sich somit 3 Trade-Off-Matrizen (vgl. Tab. 8.17). Jede Zelle einer Trade-Off-Matrix entspricht dabei einem Stimulus, welcher im weiteren Verlauf von Probanden mit den anderen Stimuli hinsichtlich ihrer Präferenz verglichen werden muss. T Taabb.. 88..1177: : Trade-Off-Matrizen bei der Zwei-Faktor-Methode AA: : DDrruucckkqquuaalliittäätt BB: : DDrruucckkggeesscchhwwiinnddiiggkkeeiitt 1: 5 Seiten/ Minute 2: 10 Seiten/ Minute 3: 20 Seiten/ Minute 1: Normale Auflösung A1B1 A1B2 A1B3 2: Hohe Auflösung A2B1 A2B2 A2B3 3: Fotoqualität A3B1 A3B2 A3B3 AA: : DDrruucckkqquuaalliittäätt CC: : PPrreeiiss 1: 30 € 2: 60 € 3: 90 € 1: Normale Auflösung A1C1 A1C2 A1C3 2: Hohe Auflösung A2C1 A2C2 A2C3 3: Fotoqualität A3C1 A3C2 A3C3 BB: : DDrruucckkggeesscchhwwiinnddiiggkkeeiitt CC: : PPrreeiiss 1: 30 € 2: 60 € 3: 90 € 1: 5 Seiten/ Minute B1C1 B1C2 B1C3 2: 10 Seiten/ Minute B2C1 B2C2 B2C3 3: 20 Seiten/ Minute B3C1 B3C2 B3C3 Für die Profilmethode spricht, dass den Probanden vollständig beschriebene Stimuli vorgelegt werden, sodass die Beurteilung stärker einer realen Präferenzentscheidung entspricht, was sich tendenziell positiv auf die Validität der Untersuchungsergebnisse auswirkt. Zudem ist die Anzahl der zu betrachtenden Stimuli in der Regel deutlich kleiner als bei der Zwei-Faktor-Methode. Nachteilig gegenüber der Zwei-Faktor-Methode ist jedoch, dass die an die Auskunftspersonen gestellte Bewertungsaufgabe deutlich anspruchsvoller und komplexer ist, weil der Nutzen von mehreren Eigenschaften gleichzeitig gegeneinander abgewogen werden muss. Empirisch wird aufgrund des simultanen Vergleichs zwischen den Ausprägungen aller relevanten Produkteigenschaften und der <?page no="353"?> Verfahren zur Messung von Präferenzen 353 damit einhergehenden höheren Validität die Profilmethode zumeist bevorzugt, weshalb sie im weiteren Verlauf auch zugrunde gelegt wird. Bei der Präsentationsform werden die Stimuli den Testpersonen typischerweise in Form von schriftlichen Kurzbeschreibungen der Produkteigenschaften vorgelegt, ggf. unter Heranziehung von Bildern und Grafiken. Gerade bei Onlineuntersuchungen werden zudem auch multimediale Präsentationsformen genutzt, bei denen die zu bewertenden Eigenschaften durch Audio- und Videoelemente vorgestellt werden (vgl. Ernst/ Sattler 2000, S. 161 ff.). A Annzzaahhll ddeerr SSttiimmuullii Die Anzahl der zu vergleichenden Stimuli wird bereits bei relativ wenigen zu untersuchenden Eigenschaften und Eigenschaftsausprägungen sehr groß. So ergeben sich im Falle der Profilmethode bereits bei fünf zu untersuchenden Eigenschaften mit jeweils drei möglichen Eigenschaftsausprägungen 3 5 = 243 einzelne Stimuli, welche im Rahmen einer empirischen Untersuchung kaum noch von den Testpersonen zu bewerten sein dürften. Daher werden den Testpersonen zumeist nicht sämtliche Stimuli zur Bewertung vorgelegt (vollständiges Design), sondern nur eine statistisch ausgewählte Teilmenge (reduziertes Design), welche die Grundgesamtheit möglichst gut abbildet. Für den speziellen Fall eines symmetrischen Designs (sämtliche Eigenschaften weisen dieselbe Anzahl alternativer Eigenschaftsausprägungen auf), bei dem exakt drei Eigenschaften mit jeweils drei Ausprägungsalternativen untersucht werden sollen (3 3 =27 mögliche Stimuli), lässt sich ein sog. lateinisches Quadrat als reduziertes Design bilden (vgl. Abschnitt 3.3 im 6. Teil). Hierbei müssen von den Testpersonen nur noch neun Stimuli miteinander verglichen werden. Diese werden dergestalt ausgewählt, dass jede Eigenschaftsausprägung exakt einmal mit jeder Ausprägung einer anderen Produkteigenschaft kombiniert wird. Für das Beispiel 8.41 resultiert das in Tab. 8.18 dargestellte lateinische Quadrat als reduziertes Bewertungsdesign. TTaabb.. 88..1188: : Lateinisches Quadrat für das Beispiel 8.41 A1B1C1 A2B1C2 A3B1C3 A1B2C2 A2B2C3 A3B2C1 A1B3C3 A2B3C1 A3B3C2 BBeewweerrttuunngg ddeerr SSttiimmuullii Für die Bewertung der Stimuli werden die Testpersonen gebeten, die Stimuli in einer Rangfolge zu ordnen, welche die Präferenzen bzw. Nutzenvorstellungen der jeweiligen Testperson wiedergeben. Sollte die Rangreihung aufgrund zu vieler Stimuli mit zu vielen gleichzeitig abzuwägenden Eigenschaften für die Testpersonen zu komplex sein, lassen sich die Präferenzen auch indirekt mittels Paarvergleichen bzw. Rating-Skalen ermitteln (vgl. Fiedler et al. 2017, S. 39 ff.). Tabelle 8.19 zeigt exemplarisch die Rangreihung des lateinischen Quadrats aus der Tab. 8.18. <?page no="354"?> 354 Datenanalyse TTaabb.. 88..1199: : Beispielhafte Rangreihung des lateinischen Quadrates Stimulus Nr. Beschreibung Rang 1 Normale Auflösung / 5 Seiten/ 30€ 4 2 Normale Auflösung / 10 Seiten/ 60€ 6 3 Normale Auflösung / 20 Seiten/ 90€ 7 4 Hohe Auflösung / 5 Seiten/ 60€ 8 5 Hohe Auflösung / 10 Seiten/ 90€ 5 6 Hohe Auflösung / 20 Seiten/ 30€ 3 7 Fotoqualität / 5 Seiten/ 90€ 9 8 Fotoqualität / 10 Seiten/ 30€ 1 9 Fotoqualität / 20 Seiten/ 60€ 2 SScchhäättzzuunngg ddeerr TTeeiillnnuuttzzeennwweerrttee Auf der Basis der empirischen Rangdaten werden im nächsten Schritt die Teilnutzenwerte für sämtliche Eigenschafsausprägungen ermittelt. Ziel ist es dabei, die Teilnutzenwerte dergestalt zu bestimmen, dass die resultierenden Gesamtnutzenwerte 𝑦𝑦 � „möglichst gut“ den empirisch abgefragten Rangwerten entsprechen. Allgemein ergibt sich der Gesamtnutzen eines Stimulus 𝑖𝑖 für das additive Modell der Conjointanalyse aus der Addition der Teilnutzenwerte seiner einzelnen Eigenschaftsausprägungen: 𝑦𝑦 � � � � 𝛽𝛽 �� ⋅ 𝑥𝑥 �� � � ��� � ��� mit 𝑦𝑦 � = geschätzter Gesamtnutzen für Stimulus 𝑖𝑖 , 𝛽𝛽 �� = Teilnutzenwert für Ausprägung 𝑚𝑚 der Eigenschaft 𝑘𝑘 , 𝑥𝑥 �� = 1 falls bei Stimulus 𝑖𝑖 die Eigenschaft 𝑘𝑘 mit der Ausprägung 𝑚𝑚 vorliegt, 0 sonst. Ausgangspunkt der Schätzung von Teilnutzenwerten bilden die von Testpersonen vorgenommenen Rangreihungen der Stimuli. Die konkrete Auswertung der Daten kann auf der Grundlage verschiedener Schätzverfahren erfolgen, welche abhängig vom Skalenniveau der Präferenzurteile sind. In der Vergangenheit wurden insb. MONANOVA (Monotone Varianzanalyse), Linmap und Regressionsanalyse (OLS) eingesetzt; mittlerweile hat sich die Schätzung mittels Hierarchical Bayes Verfahren durchgesetzt (zu den einzelnen Verfahren und deren Vor- und Nachteile vgl. den Überblick bei Fiedler et al. 2017). Conjointanalysen werden bereits nach wenigen zu untersuchenden Eigenschaften sehr umfangreich und komplex, sodass conjointanalytische Studien mittlerweile fast ausschließlich computergestützt durchgeführt werden. Viele Anbieter bieten Software-Lösungen oder ergänzende Module, z.B. SPSS. Auch Excel und R ermöglichen einfache Conjointanalysen. Das umfassendste Paket wird von Sawtooth Software angeboten, wel- <?page no="355"?> Verfahren zur Messung von Präferenzen 355 ches eine Vielzahl von Varianten ermöglicht und eine umfangreiche Dokumentation anbietet. Einen Überblick über gängige Softwarelösungen und ihr jeweiliges Anwendungsspektrum bieten Fiedler et al. 2017, S. 81 ff. Im Folgenden wird die Methodik vereinfachend auf der Grundlage einer Regressionsanalyse vorgestellt. Bei einem metrischen Skalenniveau wird unterstellt, dass die einzelnen Rangwerte äquidistant sind, d.h. die Abstände zwischen ihnen gleich groß sind. Dadurch werden die ursprünglich lediglich ordinal skalierten Daten auf ein metrisches Skalenniveau angehoben. Die Teilnutzenwerte lassen sich mit Hilfe einer Dummy kodierten Regressionsanalyse aus den abgegebenen Gesamturteilen der Testpersonen ermitteln (alternativ lassen sich die Teilnutzenwerte auch durch eine Varianzanalyse ermitteln; vgl. Backhaus et al. 2021, S. 600 ff.). Die allgemeine Regressionsgleichung lautet: 𝑦𝑦 � � 𝑏𝑏 � � � � 𝑏𝑏 �� ⋅ 𝑥𝑥 �� � � �� ��� � ��� mit 𝑦𝑦 � = Rangwert von Stimulus 𝑖𝑖 . Dabei sind von den möglichen M k Eigenschaftsausprägungen einer Eigenschaft 𝑘𝑘 nur 𝑀𝑀 � � 1 linear unabhängige Dummy-Variablen. Die nicht berücksichtigten Eigenschaftsausprägungen lassen sich inhaltlich als Basisausprägung verstehen. Damit ergibt sich die Gesamtzahl Q der Dummy-Variablen aus: 𝑄𝑄 � � 𝑀𝑀 𝑘𝑘 � 𝐾𝐾 � ��� mit 𝑄𝑄 = Anzahl der Dummy-Variablen, 𝑀𝑀 � = Anzahl der Ausprägungen von Eigenschaft 𝑘𝑘 , 𝐾𝐾 = Anzahl der Eigenschaften. Beispiel 8.43: Für das Beispiel 8.41 ergibt sich exemplarisch für den Drucker Nr. 8 (Fotoqualität, 5 Seiten pro Minute, 90 EUR) folgende Kodierung: 1 x 0 x 0 x 3 A 2 A 1 A 0 x 0 x 1 x 3 B 2 B 1 B 1 x 0 x 0 x 3 C 2 C 1 C Es gilt: 𝑦𝑦 � � 𝑏𝑏 � � 𝑏𝑏 �� ⋅ 𝑥𝑥 �� � 𝑏𝑏 �� ⋅ 𝑥𝑥 �� � 𝑏𝑏 �� ⋅ 𝑥𝑥 �� � 𝑏𝑏 �� ⋅ 𝑥𝑥 �� � 𝑏𝑏 �� ⋅ 𝑥𝑥 �� � 𝑏𝑏 �� ⋅ 𝑥𝑥 �� � 𝑏𝑏 �� ⋅ 𝑥𝑥 �� � 𝑏𝑏 �� ⋅ 𝑥𝑥 �� � 𝑏𝑏 �� ⋅ 𝑥𝑥 �� . Nach Einsetzen der Werte resultiert: 𝑦𝑦 � � 𝑏𝑏 � � 𝑏𝑏 �� ⋅ 0 � 𝑏𝑏 �� ⋅ 0 � 𝑏𝑏 �� ⋅ 1 � 𝑏𝑏 �� ⋅ 1 � 𝑏𝑏 �� ⋅ 0 � 𝑏𝑏 �� ⋅ 0 � 𝑏𝑏 �� ⋅ 0 � 𝑏𝑏 �� ⋅ 0 � 𝑏𝑏 �� ⋅ 1. Um für jede Eigenschaft die Teilnutzenwerte als positive bzw. negative Abweichungen von einem Basisnutzen (Nullpunkt) darzustellen, können die durch die Regression ermittelten 𝑏𝑏 �� wie folgt transformiert werden: <?page no="356"?> 356 Datenanalyse 𝛽𝛽 �� � 𝑏𝑏 �� � 𝑏𝑏� � mit 𝛽𝛽 �� = transformierte Teilnutzenwerte für jede Eigenschaft 𝑘𝑘 , 𝑏𝑏 �� = ermittelte Teilnutzen aus der Regressionsanalyse, 𝑏𝑏� � = durchschnittlicher Teilnutzenwert je Eigenschaft 𝑘𝑘 (Basisnutzen). Die Güte der ermittelten Teilnutzenwerte zeigt sich darin, wie gut die Reihenfolge der rechnerisch resultierenden Gesamtnutzen mit den empirisch ermittelten Rangurteilen der Testpersonen übereinstimmt. Statistisch geben hierüber der Pearson’sche Korrelationskoeffizient sowie Kendall’s Tau Auskunft. Während der Pearson’sche Korrelationskoeffizient die Korrelation zwischen metrisch skalierten Gesamtnutzenwerten und den empirisch ermittelten Rangwerten bestimmt, gibt Kendall’s Tau die Korrelation zwischen den empirischen und den errechneten Rangwerten wieder (vgl. Backhaus et al. 2021, S. 547). Für andere Skalenniveaus der Daten und unterschiedliche Schätzverfahren kommen andere Gütekriterien zur Anwendung (vgl. Fiedler et al. 2017, S. 47 ff.). NNoorrmmiieerruunngg uunndd AAggggrreeggaattiioonn ddeerr eerrmmiitttteelltteenn NNuuttzzeennwweerrttee Die Größe der Teilnutzenwerte gibt Auskunft über die Einflusshöhe einer Eigenschaftsausprägung auf den Gesamtnutzen eines Produktes. Sie lässt jedoch keinen direkten Schluss auf die relative Wichtigkeit einer Eigenschaft zur Präferenzveränderung zu. Die relative Wichtigkeit einer Eigenschaft ergibt sich vielmehr aus der Spannweite bzw. Differenz zwischen dem höchsten und dem niedrigsten Teilnutzenwert der möglichen Eigenschaftsausprägungen. Ist die Spannweite sehr groß, so kann durch Ausprägungsvariation der betreffenden Eigenschaft eine signifikante Änderung des Gesamtnutzenwertes erreicht werden. Die Spannweite bzw. Wichtigkeit 𝑤𝑤 einer Eigenschaft 𝑘𝑘 lässt sich entsprechend der folgenden Formel berechnen: 𝑤𝑤 � � 𝑚𝑚𝑚𝑚𝑚𝑚 � �𝛽𝛽 �� � � 𝑚𝑚�� � �𝛽𝛽 �� � . Die relative Wichtigkeit erhält man, indem man die ermittelte Wichtigkeit der einzelnen Eigenschaften mit der Relevanz der übrigen Eigenschaften vergleicht (vgl. Teichert et al. 2008, S. 664): 𝑤𝑤 � � 𝑚𝑚𝑚𝑚𝑚𝑚 � �𝛽𝛽 �� � � 𝑚𝑚�� � �𝛽𝛽 �� � ∑ �𝑚𝑚𝑚𝑚𝑚𝑚 � �𝛽𝛽 �� � � 𝑚𝑚�� � �𝛽𝛽 �� �� ���� . Die erhobenen individuellen Präferenzurteile erlauben zunächst keine verallgemeinerbaren Aussagen. Durch eine Normierung lassen sich die abgeleiteten Teilnutzenwerte der einzelnen Testpersonen jedoch miteinander vergleichen. Bei der Normierung werden sämtliche Teilnutzenwerte auf denselben Nullpunkt bezogen und eine einheitliche Skaleneinteilung vorgenommen. Üblicherweise wird der Nullpunkt dadurch bestimmt, dass die Eigenschaftsausprägung mit dem kleinsten ermittelten Teilnutzenwert gleich Null gesetzt wird. Anschließend werden sämtliche Teilnutzenwerte 𝛽𝛽 �� um den kleinsten Teilnutzenwert 𝛽𝛽 ���� reduziert: 𝛽𝛽 �� ��� � 𝛽𝛽 �� � 𝛽𝛽 ���� . Für eine einheitliche Skaleneinteilung ist darüber hinaus die Bestimmung des maximalen Wertebereiches wichtig. Dabei entspricht die Summe der größten Teilnutzenwerte je Eigenschaft dem maximalen Wertebereich und der Stimulus mit sämtlichen höchsten <?page no="357"?> Verfahren zur Messung von Präferenzen 357 Teilnutzenwerten erhält einen Gesamtnutzenwert von 1. Damit ergeben sich die übrigen normierten Teilnutzenwerte 𝛽𝛽� gemäß folgender Formel: 𝛽𝛽� �� � 𝛽𝛽 �� ��� ∑ �𝑚𝑚𝑚𝑚𝑚𝑚 � �𝛽𝛽 �� ��� �� ���� . Die so berechneten normierten Teilnutzenwerte liefern gleichzeitig auch eine Aussage über die relative Wichtigkeit der einzelnen Eigenschaften. Beispiel 8.44: Nachfolgend werden mit Hilfe von SPSS individuelle Teilnutzenwerte für die in Tab. 8.19 dargestellte Rangfolge für die alternativen Drucker errechnet. Averaged Importance Utility Factor AUFLÖSUN Auflösung 33,33 -2,0000 Normale Auflösung 1,0000 Hohe Auflösung 1,0000 Fotoqualität DRUCKGES Druckgeschwindigkeit 18,52 -,6667 5 Seiten -,3333 10 Seiten 1,0000 20 Seiten PREIS Preis 48,15 2,3333 30 Euro -,3333 60 Euro -2,0000 90 Euro 5,0000 CONSTANT Pearson‘s R = ,925 Kendall‘s tau = ,833 Significance = ,0002 Significance = ,0009 Damit ist der Preis die wichtigste Eigenschaft, gefolgt von der Auflösung und von der Druckgeschwindigkeit. Die Ergebnisse sind hochsignifikant. Mit Hilfe der Normierung der Teilnutzenwerte lassen sich nun die Ergebnisse der Individualanalysen aggregieren. Dadurch sind Aussagen über aggregierte Nutzenwerte wie beispielsweise die durchschnittliche Präferenzstruktur potenzieller Käufergruppen möglich. Für die Aggregation der Individualanalysen wird eine Mittelwertbildung über die individuellen Teilnutzenwerte der einzelnen Eigenschaftsausprägungen vorgenommen. Alternativ hierzu ist auch eine gemeinsame Conjointanalyse denkbar, bei der die Präferenzurteile der einzelnen Testpersonen als Wiederholungen des Untersuchungsdesigns verstanden werden (vgl. Backhaus et al. 2021, S. 603). Dabei ist jedoch zu beachten, dass im Allgemeinen die Korrelationsgüte zwischen den rechnerischen und den empirischen Rangwerten gegenüber Individualanalysen abnimmt. <?page no="358"?> 358 Datenanalyse HHyybbrriiddee CCoonnjjooiinnttaannaallyyssee Hybridmodelle kombinieren die dekompositionelle Conjointanalyse mit kompositionellen Direktbefragungen (Self-Explicated-Verfahren). Dabei erfolgt zunächst eine direkte Befragung der Testpersonen zur Relevanz einzelner Produkteigenschaften. Aufbauend auf den Ergebnissen werden anschließend individuell angepasste Untersuchungsdesigns aufgestellt, in welchen nur noch die für die einzelnen Testpersonen relevanten Merkmale und Merkmalsausprägungen analysiert werden müssen. Auf diese Weise reduziert sich die Zahl der von einem Probanden zu bewertenden Stimuli stark, wohingegen die Gesamtzahl der potenziell untersuchbaren Eigenschaften gegenüber einer reinen Conjointanalyse deutlich zunimmt (Hensel-Börner/ Sattler 2000, S. 706). Eine der am häufigsten angewandten Methoden der hybriden Conjointanalyse ist die Adaptive Conjointanalyse (ACA) (vgl. Hensel-Börner/ Sattler 2000, S. 706). Diese computergestützte Conjointanalyse verläuft in mehreren Phasen, wobei zunächst in einem kompositionellen Befragungsteil für die einzelnen zu untersuchenden Eigenschaften die alternativen Eigenschaftsausprägungen von den Testpersonen zu bewerten sind. Im anschließenden dekompositionellen Teil müssen die Testpersonen Paarvergleiche zwischen alternativen Stimuli durchführen, welche auf der Basis des kompositionellen Untersuchungsteils automatisch erstellt wurden. Im Rahmen der ACA werden so zwei separate Nutzwertschätzungen der Eigenschaftsausprägungen vorgenommen, welche einerseits aus den Präferenzangaben des direkten Befragungsteils resultieren und andererseits aus den Paarvergleichen abgeleitet werden (vgl. Hensel-Börner/ Sattler 2000, S. 706 f.). Auf diese Weise lassen sich die aus den Gesamturteilen der Conjointanalyse abgeleiteten Nutzenwerte mit den direkt abgefragten Präferenzurteilen unterschiedlicher Merkmalsausprägungen vergleichen. Trotz ihrer weiten Verbreitung weist die ACA jedoch auch einige Schwachpunkte auf, welche sich vor allem auf die mehrfach von jeder Testperson vorzunehmenden Paarvergleiche sowie auf die mangelnde Vergleichbarkeit der beiden Teilnutzwertschätzungen beziehen (vgl. Green/ Krieger/ Agarwal 1991, S. 220 f.). Bei der sog. Customized (Computerized) Conjoint Analysis, eine Weiterentwicklung der ACA, werden daher im dekompositionellen Teil Vollprofilbeschreibungen verwendet und eine alternative Kalibrierung der Teilnutzwertschätzungen vorgenommen (vgl. Hensel-Börner/ Sattler 2000, S. 708). C Chhooiiccee bbaasseedd CCoonnjjooiinnttaannaallyyssee Bei der klassischen Conjointanalyse werden Präferenzurteile abgefragt. Es zeigt sich jedoch, dass erfragte Präferenzen und tatsächliches Kaufbzw. Entscheidungsverhalten von Konsumenten z. T. signifikante Unterscheide aufweisen. Diesen Mangel versucht die Choice based Conjointanalyse abzumildern, indem hier die Präferenzewerte aus tatsächlichen Wahlentscheidungen ermittelt werden (vgl. Haaijer/ Wedel 2007, S. 369 sowie Erhardt 2009, S. 101 ff.). Dazu werden Testpersonen alternative Stimuli vorgelegt, von denen sie den Stimulus mit dem für sie höchsten Gesamtnutzenwert auswählen sollen. Vielfach werden diese Untersuchungen am Computer vorgenommen. Die im Rahmen einer Conjointanalyse ermittelten Teilnutzenwerte werden oftmals dazu genutzt, Marktanteile von (zukünftigen) Produkten zu prognostizieren. Diese werden mit Hilfe von sog. Choice Simulatoren ermittelt. Dabei werden alternative Kaufverhaltensannahmen unterstellt. Bei dem First-Choice-Konzept wird unterstellt, dass sich Konsumenten grundsätzlich für dasjenige Produkt entscheiden, welchem sie den höchsten Gesamtnutzenwert zuordnen. Bei den Probabilistic-Choice-Modellen, wie Bradley-Terry-Luce oder LO- <?page no="359"?> Verfahren zur Messung von Präferenzen 359 GIT, wird hingegen angenommen, dass die Kaufwahrscheinlichkeit mit steigendem Präferenzwert zunimmt (vgl. Green/ Srinivasan 1990, S. 14, Hartmann/ Sattler 2004, S. 14). Zusätzlich müssen Annahmen über die Art und die Anzahl möglicher Wettbewerbsprodukte getroffen werden, um daraus den Marktanteil eines (Neu-)Produktes zu schätzen. Im einfachsten Fall reagieren die Wettbewerber gar nicht auf die Neueinführung eines Produktes. Sollten die Wettbewerber hingegen ihre bestehenden Produkte verändern, so bleibt zwar die Menge der untersuchten Produkte unverändert, die Gesamtnutzenwerte ändern sich jedoch nach Maßgabe der variierten Produkteigenschaften. In dem Fall, dass die Wettbewerber ihrerseits neue Produkte einführen, müssen zusätzliche Präferenzwerte für die neuen Produkte in die Berechnung der Marktanteile einfließen. Zur Marktanteilsprognose werden abschließend die individuell ermittelten Kaufwahrscheinlichkeiten aggregiert. 33..55..22 M Muullttiiddiimmeennssiioonnaallee SSkkaalliieerruunngg Wie bereits in Abschnitt 3.3.3 beschrieben, kann die Multidimensionale Skalierung erweitert werden, um Präferenzurteile abzubilden. Will man den Nutzen, d.h. die Präferenz, die eine Person mit dem Objekt verbindet, in die Untersuchung einbeziehen, so ist dieser zusätzlich zu erheben. Dadurch ist es möglich, in den Wahrnehmungsraum neben den Objekten auch die Präferenzen von Personen abzubilden. Geeignete Methoden zur Berücksichtigung von Präferenzurteilen von Probanden sind das Idealpunkt- und das Idealvektormodell. Da die Methodik bereits ausführlich in Abschnitt 3.3.3 beschrieben wurde, wird an dieser Stelle nicht näher darauf eingegangen. Weiterführende Literatur Albers, S., Hildebrandt, L. (2006): Methodische Probleme bei der Erfolgsfaktorenforschung - Messfehler, formative versus reflektive Indikatoren und die Wahl des Strukturgleichungs-Modells, in: zfbf, 58(3), 2-33. Backhaus, K., Erichson, B., Gensler, S., Weiber, R., Weiber, T. (2021): Multivariate Analyse-methoden, 16. Aufl., Wiesbaden. Borg, I., Groenen, P., Mair, P. (2010): Multidimensionale Skalierung, Reihe: Sozialwissenschaftliche Forschungsmethoden, Band 1, München, Mering. Bray, J.H., Maxwell, S.E. (1985): Multivariate Analysis of Variance, Beverly Hills. Buckler, F., Hennig-Thurau, T. (2008): Identifying Hidden Structures in Marketing’s Structural Models Through Universal Structure Modelling: An Explorative Bayesian Neural Network Complement to LISREL and PLS, in: Marketing - Journal of Research and Management, 4(2), 47-66. Carroll, J.D., Green, P.E. (1995): Psychometric Methods in Marketing Research: Part 1, Conjoint Analysis, in: Journal of Marketing Research, 32(4), 385-391. Cox, T., Cox, M. (2000): Multidimensional Scaling, London. Cureton, E.E., D’ Agostino, R.B. (1983): Factor Analysis - An Applied Approach, Hillsdale, N.J. <?page no="360"?> 360 Datenanalyse Green, P., Srinivasan, V. (1990): Conjoint Analysis in Marketing: New Developments With Implications for Research and Practice, in: Journal of Marketing, 59(10), 3-19. Hartmann, A., Sattler, H. (2004): Wie robust sind Methoden zur Präferenzmessung? , in: Zeitschrift für betriebswirtschaftliche Forschung (ZfbF), 56(2), 3-22. Hoberg, R. (2003): Clusteranalyse, Klassifikation und Datentiefe, Diss., Lohmar, Köln. Homburg, C., Klarmann, M. (2006): Die Kausalanalyse in der empirischen betriebswirtschaftlichen Forschung. Problemfelder und Anwendungsempfehlungen, in: Die Betriebswirtschaft, 66(6), 727-749. Huber, F., Herrmann, A., Meyer, F., Vogel, J., Vollhardt, K. (2007): Kausalmodellierung mit Partial Least Squares, Wiesbaden. Fiedler, H., Kaltenborn, T., Lanwehr, R., Melles, T. (2017): Conjoint-Analyse, Reihe: Sozialwissenschaftliche Forschungsmethoden, Band 7, 2. Aufl., Augsburg, München. Kaufman, L., Rousseeuw, P.J. (1990): Finding Groups in Data: An Introduction to Cluster Analysis, New York. Klecka, W. (1980): Discriminant Analysis, Beverly Hills. Lachenbruch, P. (1975): Discriminant Analysis, New York. Leik, R.K. (1997): Experimental Design and the Analysis of Variance, Thousand Oaks. Loehlin, J.C. (2016): Latent Variable Models: An Introduction to Factor, Path and Structural Analysis, 5 th ed., Hillsdale, N.J. Steinhausen, D., Langer, K. (1977): Clusteranalyse, Berlin. Steinmetz, H. (2015): Lineare Strukturgleichungsmodelle. Eine Einführung mit R, Reihe: Sozialwissenschaftliche Forschungemethoden, Band 9, 2. Aufl., München, Mering. Überla, K. (1977): Faktorenanalyse, 2. Aufl., Berlin u.a. Urban, D. (1993): Logit-Analyse: Statistische Verfahren zur Analyse von Modellen mit qualitativen Response-Variablen, Stuttgart. Vermunt, J.K., Magidson, J. (2002): Latent Class Cluster Analysis, in: Hagenaars, J.A., McCutcheon, A.L. (eds.): Applied Latent Class Analysis, Cambridge, 89-106. Völckner, F., Sattler, H., Teichert, T. (2008): Wahlbasierte Verfahren der Conjoint- Analyse, in: Herrmann, A., Homburg, C. (Hrsg.): Marktforschung. Methoden, Anwendungen, Praxisbeispiele, 3. Aufl., Wiesbaden, 687-712. <?page no="361"?> 44 I Inntteerrpprreettaattiioonn uunndd PPrräässeennttaattiioonn ddeerr EErrggeebbnniissssee Nach erfolgter Auswertung der Daten sind die Ergebnisse zusammenzustellen, zu interpretieren und dem Auftraggeber (bzw. hausintern) vorzustellen, d.h. es ist ein Forschungsbericht zu erstellen und zu präsentieren. Bei der Erstellung des Forschungsberichts sind zunächst die Ergebnisse in geeigneter Weise zu visualisieren. Dies geschieht bei quantitativen Daten in Form von Tabellen und Diagrammen, bei qualitativen Daten als grafische Darstellungen wie z.B. Flussdiagramme, Netzwerkgraphiken u.ä. Die Wahl der geeigneten Darstellungsform aus der Vielfalt der möglichen Alternativen bleibt dem Forscher überlassen, es sind bei der Gestaltung jedoch bestimmte Grundsätze einzuhalten (vgl. Iacobucci/ Churchill 2010, S. 640 ff.). Tabellen und Diagramme sind grundsätzlich zu nummerieren und mit einer Überschrift zu versehen; im Text sollte auf sie verwiesen werden. Die Werte sollten dabei in geeigneter Weise geordnet werden, z.B. nach Jahreszahl oder Größe. Darüber hinaus sollte die Maßeinheit der Werte (z.B. in 1.000 t) angegeben sein. Bei Sekundärdaten muss die Quelle ersichtlich werden; Ergänzungen und Kommentare sollten als Fußnoten erscheinen. Die optische Gestaltung sollte stets die Kriterien der Zweckmäßigkeit, Aussagefähigkeit und Übersichtlichkeit erfüllen. Auf die Vielzahl möglicher Visualisierungsansätze kann an dieser Stelle nicht näher eingegangen werden; ein ausführlicher Überblick über die verschiedenen Formen findet sich z.B. bei Meyer 1999, neuere Ansätze insb. unter Berücksichtigung von Big Data bei Huang 2014. Die Interpretation der Ergebnisse kann durch eine ausreichende Visualisierung erheblich erleichtert werden. Manipulative Verzerrungen oder Darstellungen wie z.B. Stauchung oder Streckung von Skalen u.ä. sind dabei unbedingt zu vermeiden, da sie den Leser irreführen. Obwohl manche Ergebnisse Spielräume für eine subjektive Interpretation lassen, sollte sich der Forscher bei der Formulierung der Ergebnisse um eine möglichst große Objektivität bemühen, da auch der Wortlaut suggestiv wirken kann. Beispiel 8.45: Das Unternehmen X führt eine Imageanalyse im Vergleich zu Hauptkonkurrent Y durch. Unternehmen X wird als „traditionell“, „altmodisch“, „zuverlässig“ beurteilt, wohingegen Unternehmen Y als „dynamisch“, „innovativ“, „modern“ bewertet wird. Der Forscher kann das Ergebnis z.B. folgendermaßen interpretieren: „Unternehmen X ist es gelungen, das Vertrauen seiner Kunden zu gewinnen. Tradition und Zuverlässigkeit werden als wichtige Kennzeichen des Unternehmens wahrgenommen.“ „Unternehmen X ist es bislang nicht gelungen, sein eher hausbackenes Image zu verbessern. Fortschritt und Dynamik werden für das Unternehmen als wesensfremd angesehen.“ Beim Verfassen des Forschungsberichts ist auf verschiedene Punkte zu achten. Der Bericht sollte übersichtlich und logisch aufgebaut sein. Typischerweise ist der Aufbau eines Forschungsberichts wie folgt: Titelblatt, Inhaltsverzeichnis, <?page no="362"?> 362 Interpretation und Präsentation der Ergebnisse Executive Summary, d.h. eine thesenartige Zusammenfassung der Ergebnisse und der daraus abzuleitenden Schlussfolgerungen, Einführung mit Angabe des konkreten Entscheidungs- und Forschungsproblems, Methodisches Vorgehen (Untersuchungsdesign, Stichprobenplan, angewandte Verfahren zur Datensammlung und Datenauswertung), detaillierte und geordnete Darstellung der Forschungsergebnisse, ggf. auf unterschiedlichem Aggregationsniveau, Grenzen der Ergebnisse (z.B. Bindung an bestimmte Prämissen, Nonresponse-Problem, methodische Einschränkungen usw.), Schlussfolgerungen aus den Forschungsergebnissen und Empfehlungen für das Management. Die erhebungstechnischen Details (z.B. Fragebogen, Intervieweranweisungen, Codeplan usw.) sollten in einem Anhang dokumentiert werden. Ein Verzeichnis der Quellen schließt den Berichtsband. Weiterhin sollte bei der Berichterstattung darauf geachtet werden, dass ein technischer Jargon vermieden wird, d.h. die Formulierungen sollten sprachlich dem Leser angepasst werden. Lassen sich Fachbegriffe nicht vermeiden, so sollten sie in einem Anhang kurz erläutert werden. Die Formulierungen sollten darüber hinaus kurz und prägnant sein, überflüssige bzw. redundante Aussagen sind zu vermeiden. Das Erscheinungsbild des Berichts sollte ansprechend sein und einen professionellen Eindruck erwecken. Dazu gehören neben Papier- und Druckqualität auch eine großzügige Raumaufteilung auf den Seiten. Des Weiteren sollten Tabellen und Grafiken zur Unterstützung des Textes herangezogen werden. Nach der Erstellung des Forschungsberichts erfolgt die mündliche Präsentation beim Auftraggeber. Mittlerweile erfolgt dies meist unter Zuhilfenahme standardisierter Präsentationssoftware wie z.B. PowerPoint oder Prezi. Ergänzt werden kann die Bildschirmpräsentation durch Flipcharts, Videos und andere Medien. Auch die mündliche Präsentation sollte einen professionellen Eindruck hinterlassen: Ausdrucksweise locker, aber nicht flapsig, überzeugendes, sicheres Auftreten, kurze, prägnante Sätze (KISS-Prinzip: Keep It Simple and Straightforward), Vermeidung von „Füllwörtern“ („nicht wahr”, „wissen Sie” u.Ä.), klare Strukturierung, Einsatz von unterstützender Gestik und Mimik. Nach der Präsentation sollte genügend Raum für Fragen sein. Auf der Seite des Auftraggebers ist dafür Sorge zu tragen, dass die Ergebnisse intern bekannt und verfügbar gemacht werden. Die Marktforscher sollten weiterhin für Rückfragen und Beratung zur Verfügung stehen. <?page no="363"?> TTeeiill 99: : QQuuaalliittaattiivvee MMaarrkkttffoorrsscchhuunngg 11 C Chhaarraakktteerriissiieerruunngg qquuaalliittaattiivveerr SSttuuddiieenn Definition Qualitative Studien sind nichtstandardisierte Erhebungen im Rahmen explorativer Untersuchungen auf der Grundlage kleiner Stichproben. Forschungsziele qualitativer Studien sind in erster Linie das Erkennen, Beschreiben und Verstehen psychologischer oder soziologischer Zusammenhänge. Qualitative Studien werden bei neuartigen oder schlecht strukturierten Problemen eingesetzt. Angestrebt wird weniger eine (statistische) Repräsentativität; vielmehr wird versucht, charakteristische Inhalte in Bezug auf das vorliegende Forschungsproblem herauszufiltern. Auch qualitative Stuien streben somit eine Übertragbarkeit der Ergebnisse an, sie suchen jedoch eher das Typische und weniger die Repräsentation einer Grundgesamtheit. Im Rahmen qualitativer Studien werden typischerweise „weiche“ Daten erzeugt. Es erfolgt zumeist keine Vorstrukturierung des Untersuchungsgegenstands, um eine möglichst große Unvoreingenommenheit des Forschers zu gewährleisten. Die Interaktion zwischen Auskunftsperson und Forscher ist dabei integratives Merkmal qualitativer Methoden (vgl. Kepper 2008, S. 177 f.). Qualitative Studien können dabei sowohl in Form einer Befragung als auch einer Beobachtung erfolgen. Aufgabenfelder qualitativer Marktforschung sind: Strukturierung des Untersuchungsfeldes durch Identifizierung und Erfassung relevanter Einflussfaktoren und Untersuchungsdimensionen; qualitative Prognose in Fällen, bei denen Zahlenmaterial fehlt, Diskontinuitäten zu erwarten sind oder der Prognosegegenstand durch hohe Unsicherheit, Komplexität und Langfristigkeit gekennzeichnet ist; Ursachenforschung, insb. dann, wenn die Ursachen sehr komplex, tabuisiert oder noch wenig bekannt sind; Ideengenerierung durch Nutzung des kreativen Potenzials der Befragten; Screening von Alternativen, z.B. Ideen oder Konzepte (vgl. Kepper 1996, S. 140 ff.). Im Vergleich zu quantitativen Ansätzen zeichnen sich qualitative Methoden durch einen meist höheren zeitlichen und finanziellen Aufwand pro Erhebungsfall und durch eine schwierigere Codierung und Auswertung der Informationen aus. Andererseits können einige Fragestellungen - z.B. Ideengenerierung oder Ursachenforschung - nur mit Hilfe qualitativer Methoden angemessen bearbeitet werden. Darüber hinaus liefern Studien auf der Grundlage qualitativer Methoden häufig den Input für quantitative Studien. Sie werden beispielsweise im Vorfeld einer Umfrage durchgeführt, um zu gewährleisten, dass der Fragebogen alle relevanten Aspekte beinhaltet, oder auch zur Generierung von Items für die zu verwendenden Konstrukte. <?page no="365"?> 22 QQuuaalliittaattiivvee BBeeffrraagguunngg 22..11 MMeetthhooddeenn qquuaalliittaattiivveerr BBeeffrraagguunngg Bei qualitativen Befragungsmethoden handelt es sich um Formen der persönlichen (Face-to-face)-Befragung; in der Regel sind sie nicht oder nur teilweise standardisiert und erfolgen bei einer vergleichsweise kleinen Anzahl an Auskunftspersonen. Anders als quantitative Befragungen, welche unabhängig vom Medium (schriftlich, face-to face, telefonisch usw.) eine relativ einheitliche Struktur aufweisen, handelt es sich bei qualitativen Befragungen um eine Vielzahl heterogener Formen, welche aus unterschiedlichen Forschungsrichtungen entstanden sind. Eingesetzt werden qualitative Befragungen insb. dort, wo durch Interaktion der Auskunftspersonen mit einem Interviewer (bzw. untereinander) Einblicke in zugrunde liegende psychische oder soziale Prozesse gewonnen werden sollen. Ziel ist die Ermittlung einer unverzerrten, nicht prädeterminierten und möglichst vollständigen Sammlung von Informationen zu dem interessierenden Untersuchungsgegenstand (vgl. Kepper 2008, S. 180). Techniken qualitativer Befragung können nach der Art der Auskunftsperson in Expertenbefragung und Konsumentenbefragung unterteilt werden; nach der Anzahl der Befragten unterscheidet man zwischen Einzel- oder Gruppeninterviews. Abbildung 9.1 zeigt die verschiedenen Verfahren qualitativer Befragung im Überblick. AAbbbb.. 99..11: : Methoden qualitativer Befragung EEiinnzzeelliinntteerrvviieewwss Wesentliche Formen des Einzelinterviews sind zum einen das qualitative Interview, zum anderen Techniken der indirekten Befragung. Befragt wird pro Interview jeweils eine Auskunftsperson. QQuuaalliittaattiivvee BBeeffrraagguunnggssmmeetthhooddeenn Qualitatives Interview ■ Exploratives Interview ■ Tiefeninterview ■ Fokussiertes Interview Indirekte Befragung ■ Projektive Verfahren ■ Assoziative Verfahren Gelenkte Kreativgruppe ■ Assoziative Verfahren ■ Bisoziative synektische Verfahren ■ Kombinatorische Verfahren ■ Einfache Gruppendiskussion ■ Kumulative Gruppendiskussion ■ Kombinierte Gruppendiskussion ■ Kontradiktorische Gruppendiskussion ■ Mini Groups ■ Delphi-Befragung Gruppendiskussion Einzelinterviews Gruppeninterviews <?page no="366"?> 366 Qualitative Befragung Das qualitative Interview gehört zu den gängigsten Verfahren qualitativer Marktforschung und basiert auf einer möglichst offenen Gesprächsführung. Dies ermöglicht es den Befragten, eigene Schwerpunkte zu setzen und diese mit eigenen Worten zu äußern. Gewählt werden offene Fragen ohne Vorgabe einer festen Reihenfolge; aufgezeichnet werden die Gespräche i.d.R. mit Audio- oder Videoaufzeichnungsgeräten. Die Dauer eines qualitativen Interviews kann dabei mehrere Stunden umfassen. Grundlegende Varianten im Rahmen qualitativer Marktforschung sind: das explorative Interview, das Tiefeninterview und das fokussierte Interview. Explorative Interviews sind offene und weitgehend nichtstandardisierte Befragungsgespräche, im Rahmen derer der Interviewer den Ablauf des Gesprächs mitgestaltet. Aufgabe explorativer Interviews ist die Ermittlung subjektiv relevanter Informationen der Befragten (z.B. Wissen, Erfahrung, Einstellungen) zum Untersuchungsgegenstand und nicht die Analyse tiefliegender Bewusstseinsstrukturen (vgl. Kepper 2008, S. 182). Der Interviewer nimmt dabei die Rolle eines interessierten Zuhörers ein und sorgt so dafür, dass er eine möglichst umfassende und vollständige Sammlung von Informationen erhält. Im Rahmen explorativer Interviews können auch komplexe Fragestellungen analysiert werden. Die offene Art der Gesprächsführung erlaubt es, die Erlebniswelt des Probanden in seiner gesamten Breite zu erfassen. Häufig werden explorative Interviews im Rahmen von Expertenbefragungen eingesetzt. Als Techniken der Gesprächsführung haben sich u.a. das narrative und das problemorientierte Interview bewährt. Im Rahmen der narrativen Interviewtechnik liegt der Schwerpunkt auf dem freien Erzählen: Durch ungerichtete Aufmunterung seitens des Interviewers soll eine maximale Freiheit der Erzählung der Befragten gefördert werden. Meist verzichtet der Interviewer auf einen vorstrukturierten Leitfaden (vgl. ausführlich Mey/ Mruck 2011, S. 261 ff.). Auch bei der problemorientierten Interviewtechnik steht das Erzählprinzip im Vordergrund. Der Interviewer lenkt das Gespräch jedoch stärker und bezieht die Äußerungen der Probanden immer wieder auf die zugrunde liegende Problemstellung. Dadurch wird ein höheres Maß an Strukturierung erreicht (vgl. Kurz et al. 2009). Eine typische Anwendung explorativer Interviews ist die Strukturierung des Untersuchungsfeldes bei relativ neuen und unbekannten Forschungsproblemen. Auf diese Weise können relevante Dimensionen des Forschungsgegenstands identifiziert und wichtige Einflussfaktoren erfasst werden. Geeignet sind explorative Interviews auch für Prognosezwecke, insb. in Form von Expertenbefragungen. In diesem Zusammenhang spielen Projektionsverfahren eine wichtige Rolle. Das psychologische Tiefeninterview stellt die bekannteste Form qualitativer Interviews dar. Es handelt sich um ein relativ langes Interviewgespräch mit dem Ziel, unbewusste, verborgene oder nur schwer erfassbare Motive und Einstellungen der Auskunftsperson zu erfassen (vgl. Salcher 1995, S. 34). Geführt werden Tiefeninterviews von geschulten Psychologen, die das Gespräch nach eigenem Ermessen so steuern, dass sie möglichst tiefe Einblicke in die verborgenen Bereiche der Denkstruktur der Befragten gewinnen. Die aufgedeckten Zusammenhänge werden nachträglich vor dem Hintergrund bestimmter Theorien interpretiert. <?page no="367"?> Methoden qualitativer Befragung 367 Ein typisches Anwendungsgebiet von Tiefeninterviews ist die Ursachenforschung. Insbesondere bei neuartigen oder sensiblen Untersuchungsgegenständen können die Ursachen für bestimmte Verhaltensweisen, Motive und Einstellungen ergründet werden. Als Beispiel kann die Entwicklung von markenspezifischen Kundenprofilen genannt werden, welche auf der Grundlage von psychologischen Interviews von Kernverwendern einzelner Marken bzgl. ihrer Werte und Lebenseinstellungen erstellt werden können (vgl. Kaiser 2004, S. 6). Beim fokussierten Interview erfolgt eine qualitative Befragung in Verbindung mit der Präsentation bestimmter Stimuli mit dem Ziel, das Gespräch auf bestimmte Aspekte oder Problembereiche zu beschränken (vgl. hierzu Merton et al. 1990). Als Stimuli können Zeitungsausschnitte, Filme bzw. Filmausschnitte, Werbemittel und Ähnliches dienen. Im Anschluss an die Stimulusdarbietung erfolgt ein qualitatives Interview, das vom Interviewer jedoch im Vergleich zu den explorativen und Tiefeninterviews stärker gelenkt und auf bestimmte Aspekte fokussiert wird. Ziel ist die Analyse der Reaktion der Befragten auf den Stimulus. Im Marketing finden sich fokussierte Interviews u.a. im Rahmen der Werbewirkungsforschung oder im Rahmen von Konzepttests (vgl. die Ausführungen im 10. Teil). Von den projektiven und assoziativen Interviewtechniken, die ebenfalls mit Stimuli arbeiten, unterscheidet sich das fokussierte Interview durch eine direkte Fragestellung und die typische Gesprächssituation. Nützlich sind fokussierte Interviews für die Strukturierung des Untersuchungsproblems; aus den von den Befragten gewählten Inhalten, der Reihenfolge und der Art und Weise der Darstellung können relevante Beurteilungsdimensionen für die präsentierten Stimuli erfasst werden. Darüber hinaus können im Gespräch die Ursachen für die Reaktionen der Probanden erkundet werden (vgl. Kepper 2008, S. 185). Qualitative Interviews bieten eine ganze Reihe von Vorteilen (vgl. Chrzanowska 2002): Sie erlauben tiefe Einblicke in die Denkstrukturen der Interviewten und lassen ihre Einstellungen, Meinungen und Wünsche erkennbar werden. Auch die nonverbalen Reaktionen der Auskunftspersonen (Gestik, Mimik) können wichtige Informationen liefern. Es entsteht eine Vertrauensbasis zwischen Auskunftsperson und Interviewer, die ein intensives Nachfragen und das Ansprechen auch sensibler Themenbereiche möglich macht. Demgegenüber sind jedoch auch einige Nachteile zu erwähnen (vgl. Salcher 1995, S. 29; Desai 2002, S. 3 f.): Qualitative Interviews sind nicht in der Lage, unbewusste Inhalte systematisch zu erfassen. Viele Verhaltensweisen sind automatisiert oder tief im Unterbewusstsein verankert, sodass sie von den Befragten nicht verbalisiert werden können. In der Interviewsituation kann es zur ungewollten Beeinflussung der Befragten durch die Interviewer kommen. Qualitative Interviews sind im Verhältnis zu anderen Erhebungsmethoden relativ teuer und zeitaufwändig. <?page no="368"?> 368 Qualitative Befragung Beispiel 9.1: Im Rahmen einer qualitativen Studie sollte analysiert werden, nach welchen Kriterien erfolgreiche australische Unternehmen ihr internationales Engagement auswählen und ob sich bei der Marktselektion ein bestimmter Prozess identifizieren ließ. Zu diesem Zweck wurden insgesamt 12 Entscheidungsträger in international tätigen australischen Unternehmen in einer Serie von qualitativen Interviews befragt. Die Unternehmen wurden bewusst aus unterschiedlichen Branchen und Größenklassen ausgewählt. Das erste Interview war vor allem explorativer Natur, um einen Gesamtüberblick zu erlangen; die anschließenden Interviews erfolgten durch die Gesprächstechnik des „laddering“, wodurch die Auskunftspersonen dazu angeregt wurden, den Prozess der Marktselektion und die entscheidenden Faktoren zum Ausdruck zu bringen. Ergebnis der Untersuchung war, dass für fast alle Unternehmen der erste Schritt auf ausländische Märkte eher ungeplanter Natur war (z.B. bedingt durch ausländische Kundenanfragen oder aufgrund einer Übernahme durch ausländische Investoren). Nur wenige Unternehmen waren auf das ausländische Engagement durch ein systematisches Auswahlverfahren adäquat vorbereitet; ein solches wurde meist erst mit zunehmender Erfahrung im internationalen Wettbewerb von den Unternehmen entwickelt. Ein weiteres Ergebnis der Studie war, dass sich der Marktselektionsprozess in zwei verschiedenen Stufen vollzieht. Zunächst wird die Marktgröße anhand relevanter Variablen beurteilt, erst dann werden weitere Aspekte einbezogen. Es zeigte sich auf der Basis der qualitativen Interviews, dass vor allem Märkte, die in ihrer Struktur zu der Unternehmensphilosophie bezüglich Wachstums- und Risikoaspekten passten, für ausländische Engagements ausgewählt wurden. Quelle: Rahman 2003 Techniken der indirekten Befragung versuchen, den interessierenden Sachverhalt mittels ablenkender Fragestellungen zu erfassen; dadurch soll der wahre Zweck der Fragen verschleiert werden und die Auskunftsperson zu einer wahrheitsgemäßen Beantwortung der Fragen verleitet werden. Indirekte Befragungstechniken werden auch in quantitativen Untersuchungen eingesetzt. Aufgrund ihres primär qualitativen, auf die Erkundung psychologischer Sachverhalte ausgerichteten methodischen Ansatzes werden sie jedoch an dieser Stelle behandelt. Bei indirekten Befragungstechniken handelt es sich durchweg um psychologische Tests; dazu gehören projektive Verfahren und assoziative Verfahren. Diese Techniken sind überwiegend fest definiert und strukturiert. Typischerweise ist die Befragung teilweise standardisiert, um eine Vergleichbarkeit der Ergebnisse bei verschiedenen Auskunftspersonen zu ermöglichen; die Frageform kann sowohl offen als auch geschlossen sein. Projektive Verfahren beruhen darauf, dass Menschen eigene unangenehme und widerspruchsvolle Regungen oder aber affektgeladene, innere Wahrnehmungen nach außen bzw. auf andere Personen projizieren, um sich selbst zu entlasten (vgl. Salcher 1995, S. 56; Schub von Bossiatzky 1992, S. 102). Die Auskunftspersonen werden vor bestimmte Aufgaben gestellt, im Rahmen derer mehrdeutige Stimuli präsentiert werden. Die Stimuli sind zum einen durch eine gewisse Unbestimmtheit charakterisiert, z.B. werden unklare Situationen dargestellt, welche die Befragten auf der Grundlage ihrer eigenen Erfahrun- <?page no="369"?> Methoden qualitativer Befragung 369 gen, Einstellungen und Wertvorstellungen interpretieren müssen. Zum anderen enthält die Aufgabe i.d.R. eine neuartige, spielerische Komponente, wodurch die Auskunftsperson motiviert, aber gleichzeitig vom eigentlichen Zweck der Befragung abgelenkt wird (vgl. Kepper 2008, S. 197). Aus der Art und Weise, wie die Auskunftspersonen mit der Aufgabe umgehen, können Rückschlüsse auf ihre Überzeugungen, Motive usw. gewonnen werden. Geeignet sind projektive Verfahren dann, wenn zu erwarten ist, dass die Auskunftspersonen zu bestimmten Fragestellungen nicht unmittelbar Stellung nehmen können oder wollen. Innerhalb der projektiven Verfahren lassen sich Ergänzungstechniken, Konstruktionstechniken und expressive Verfahren unterscheiden. AAbbbb.. 99..22: : Beispiel für einen Satzergänzungtest Im Rahmen von Ergänzungstechniken werden die Auskunftspersonen gebeten, Anfänge von Sätzen oder auch Geschichten möglichst spontan und ohne bewusste Abwägung zu vervollständigen. Dadurch projiziert die Auskunftsperson eigene Meinungen und Einstellungen in die Sätze bzw. Geschichten, ohne das Gefühl zu haben, sich selbst bloßzustellen. Ein Beispiel für einen Satzergänzungstest findet sich in Abb. 9.2. Aus der Art der Ergänzung lässt sich auf die Einstellung der Auskunftspersonen zum betreffenden Produkt schließen. Anwendungsbeispiele von Satzergänzungstests finden sich insbesondere in der Motiv- und Imageforschung wie auch in der Produkt- und Werbeforschung. Als problematisch kann sich bei Ergänzungstests erweisen, dass die Befragten versuchen, sich dem sprachlichen Niveau der Vorlage anzupassen. Darüber hinaus suggeriert die Unvollständigkeit des Satzes bzw. der Geschichte, dass „richtige“ oder „falsche“ Antworten existieren. Beides kann die Spontaneität und Unvoreingenommenheit der Testpersonen beeinträchtigen. Du kennst doch Luise. Seit sie sich vegan ernährt… <?page no="370"?> 370 Qualitative Befragung Konstruktionstechniken beruhen darauf, dass bei Vorlage bestimmter - meist bildlicher - Stimuli die Testpersonen eine Aussage formulieren oder eine ganze Geschichte konstruieren sollen. Die Auskunftsperson ist dabei bzgl. Inhalt und Wortwahl völlig frei. Eine erste Gruppe innerhalb der Konstruktionstechniken bilden die sog. Drittpersonentechniken. Sie basieren darauf, dass einem Objekt bzw. einer Person bestimmte Eigenschaften zugeschrieben werden. Gängige Techniken sind dabei die folgenden (vgl. z.B. Salcher 1995, S. 71 ff.; Gröppel-Klein/ Königstorfer 2009, S. 541; Kirchmair 2011, S. 357 ff.): Personifizierung: Die Auskunftsperson wird gebeten, sich das betreffende Produkt bzw. die Marke als Person vorzustellen. Anschließend wird sie gebeten, diese Person zu beschreiben. („Ist die Marke männlich oder weiblich? “ „Jung oder alt“? etc.) Einkaufslistentest: Der Auskunftsperson werden fiktive Einkaufszettel vorgelegt. Anschließend muss diese die Person beschreiben, welche diese Waren einkauft, oder aber sie muss sich selbst für einen der Einkaufszettel entscheiden. Typischer Verwender: Die Auskunftsperson muss beschreiben, wer aus ihrer Sicht der typische Verwender / die typische Verwenderin eines bestimmten Produkts bzw. einer bestimmten Marke ist. Symbolzuordnungstest: Ähnlich wie bei der Personifizierung sollen dem Produkt bestimmte Symbole (z.B. Tiergattungen, Gegenstände, Farben) zugeordnet werden. Zitatzuordnungstest: Der Testperson werden typische Äußerungen verschiedener Personen vorgelegt. Diese sollen dann als Verwender bzw. Nichtverwender vorgegebener Produkte eingeordnet werden. Familienbildung: Die Testperson wird gebeten, Untersuchungsgegenstände (z.B. Produkte oder Marken) zu „Familien“ verwandter Produkte zu gruppieren. Auf dieser Grundlage werden wahrgenommene Ähnlichkeiten zwischen Objekten ersichtlich. Personenzuordnungstest: Der Testperson werden Bilder verschiedener Personentypen vorgelegt. Die Testperson soll anschließend angeben, welche der abgebildeten Personen sie als typische Verwenderinnen bzw. Verwender des Produkts ansieht (vgl. Abb. 9.3). Beispiel 9.2: Produktpersonifizierung zur Ermittlung des Markenkerns Eine methodische Möglichkeit, die sog. „core values“ einer Marke zu erheben, stellt die Technik der Grabrede dar. In Kreativgruppen werden die Teilnehmer dazu aufgefordert, eine Grabrede für die „verstorbene“ Marke zu verfassen mit dem Ziel, Aussagen über und Begründungen für die Aktualität der Marke und den Grad der Kundenbindung zu gewinnen. Bei Anwendung dieser Technik können vor allem die positiven Aspekte, die mit einer Marke in Verbindung gebracht werden, gut erhoben werden, wobei für die Analyse auch Aussagen über die Qualität des Lebens mit der Marke, Ausdrücke der Zuneigung, Vorstellungen über das Leben ohne die Marke und vor allem der Grad an Überraschung über den Tod von besonderer Wichtigkeit sind. Die hier analysierte Marke ist eine Submarke einer großen etablierten und positiv belegten Marke, deren Submarken sich klar in Form und Nutzen unterscheiden. Die betreffende Submarke ist seit 15 Jahren auf dem Markt, besetzt eine Marktnische und wird wenig beworben. Die nachfolgende Abbildung zeigt Beispiele für Grabreden eines Markenverwenders (links) und eines ehemaligen Verwenders (rechts). <?page no="371"?> Methoden qualitativer Befragung 371 Kurz vor der Untersuchung gab es eine innovative Markenausweitung mit einem Produkt, dessen Nutzen teilweise ähnlich erlebt wird. Dieses scheint sich sowohl bei den Verwendern als auch bei den ehemaligen Verwendern besonders auszudrücken. Während bei den Verwendern durchaus Trauer über den „Tod“ der Marke zum Ausdruck gebracht wird, welches von einer emotionalen Bindung zur Marke zeugt, fällt auch ihnen der Abschied verhältnismäßig leicht, da Ersatz in Sicht ist („XXX ist tot, es lebe XXX“). Für die ehemaligen Verwender kommt der Tod nicht verwunderlich, eine Auffassung von ungenügender „Performance“ der Marke und Aussagen über eine mangelnde Marktakzeptanz aufgrund von Schwächen in der Persönlichkeit sind zu erkennen. Auch hier kommt der Aspekt, dass Ersatz in Sicht ist, zum Ausdruck („Wir hoffen nun, dass sie in ihrer Tochter XXX weiterlebt und gesellschaftlich anerkannt wird.“). Es hat sich im Rahmen der gesamten Untersuchung gezeigt, dass der zentrale Produktvorteil der Marke zwar geschätzt wird, jedoch keine tiefe Markenbindung mehr besteht, da die Konkurrenz auf funktionaler Ebene zu merklichem Loyalitätsschwund geführt hat. Um dem entgegenzuwirken, müssten verstärkt werbliche Maßnahmen durchgeführt werden, die die Verbraucher wieder an das Produkt und seine Vorteile erinnern. Aus Mangel an Aktualisierungsmaßnahmen hat die Marke ihre ehemals ausgeprägte Modernität eingebüßt und wird inzwischen als „alt“ erlebt. An diesem Aspekt könnte z.B. durch eine Modernisierung der Verpackungsgestaltung gearbeitet werden. Quelle: Wegener Marktforschung 2004 <?page no="372"?> 372 Qualitative Befragung AAbbbb.. 99..33: : Beispiel für einen Personenzuordnungstest Der Ballontest (Cartoontest, Comic-Strip-Test) als zweite Variante innerhalb der Konstruktionstechniken geht auf den Picture Frustration Test zurück. Der Testperson wird eine Situation in Form eines Cartoons vorgestellt, in welchem eine leere Sprech- oder Gedankenblase vorhanden ist (vgl. Abb. 9.4). Die Szene kann eine testobjektbezogene Konfliktsituation darstellen (z.B. mangelnde Produktleistung), sie muss aber nicht. Die Auskunftsperson wird gebeten, sich in die präsentierte Situation hineinzuversetzen und die leere Sprechblase auszufüllen. Es wird dabei vermutet, dass sich die Auskunftsperson mit der abgebildeten Person identifiziert und ihre Antwort daher ihre eigene Disposition widerspiegelt (vgl. Kepper 2008, S. 199). Anwendung findet der Ballontest dort, wo Persönlichkeitsmerkmale oder Verhaltenspositionen erfasst werden sollen, z.B. bei der Erstellung von Konsumententypologien. Als dritte Konstruktionstechnik ist schließlich der Bildererzähltest zu nennen, der auf dem Thematischen Apperzeptionstest (TAT) basiert. Der Testperson werden Bilder vorgelegt, die eine Situation um den Untersuchungsgegenstand darstellen, z.B. bestimmte Kauf- oder Konsumsituationen. Die Auskunftsperson hat die Aufgabe, zu den Bildern eine passende Geschichte zu erzählen bzw. die auf den Bildern dargestellte Situation zu erläutern (vgl. Gröppel-Klein/ Königstorfer 2009, S. 542 f.). Es wird dabei davon ausgegangen, dass durch die Charakterisierung der handelnden Personen und Ereignisse eigene Einstellungen, Werte und Verhaltensmuster einfließen. Beispielsweise stellen die Bilder eine Situation im Zusammenhang mit einem zu bewerbenden Produkt dar. Aus der Geschichte, welche die Auskunftsperson entwickelt, wird die Rolle des Produkts dann analysiert. Anwendung findet der Bildererzähltest u.a. im Bereich der Produkt- und Werbemittelforschung. Wenn Sie einmal darüber nachdenken, wer Fair Trade Produkte kauft: Welche der unten abgebildeten Personen sehen Sie als typische Käufer an? B A D C F E H G <?page no="373"?> Methoden qualitativer Befragung 373 AAbbbb.. 99..44: : Beispiel für einen Ballon-Test Expressive Verfahren unterscheiden sich von den Konstruktionstechniken dadurch, dass neben verbalen auch nonverbale Ausdrucksformen erfasst werden. Darüber hinaus liegt das Interesse des Forschers nicht nur im Ergebnis selbst, sondern auch in der Art und Weise, wie das Ergebnis erzielt wurde. Wie bei den Konstruktionstechniken besteht die Aufgabe der Testperson darin, komplexe Sachverhalte selbstständig zu entwickeln und darzustellen (vgl. Kepper 1996, S. 106 f.). Im Rahmen expressiver Verfahren werden häufig Rollenspiele eingesetzt (vgl. hierzu Haimerl/ Roleff 2001, S. 111). Die Testperson wird gebeten, eine bestimmte Rolle zu übernehmen und nach kurzer Vorbereitungszeit eine oder mehrere Szenen zu spielen (Psychodramatechnik). Bei der Rolle kann es sich um die Auskunftsperson selbst in einer bestimmten Situation, um eine andere Person oder um ein Objekt - häufig ein bestimmtes Produkt - handeln. Es wird dabei erneut davon ausgegangen, dass die Testpersonen eigene Dispositionen und Verhaltensmuster in ihre Rolle einfließen lassen, sodass wesentliche Persönlichkeits- und Verhaltensmerkmale erfasst werden können. Beispiel 9.3: Auf Basis von Erkenntnissen aus der Psychodramatechnik versuchte Tetra-Pak ein „reframing“ seines Markenimages durchzuführen. Tetra-Pak gilt als moderne und „conveniente“ Verpackung, vom Verbraucher wird ihr aber nicht die gleiche hohe Wertigkeitswahrnehmung entgegengebracht wie z.B. Glas oder PET-Verpackungen. Aus diesem Grund betont Tetra-Pak vor allem den Schutz des Vitamingehalts durch die Kartonverpackungen gegenüber den durchsichtigen Behältnissen der Konkurrenz. Quelle: Haimerl/ Lebok 2004, S. 53 ff. Als weiteres expressives Verfahren ist das sog. Psychodrawing zu nennen (vgl. Kepper 1996, S. 106 f.). Die Testpersonen werden im Rahmen dieser Technik gebeten, zu einem bestimmten Thema eine Zeichnung anzufertigen. In der Marktforschung gebräuchlich sind z.B. das Zeichnen eines Produkts bzw. des Unternehmens als Ganzes, einer Verwendungssituation oder von Gefühlen und Erfahrungen im Zusammenhang mit einem Leider ist das Produkt erst in vier Wochen lieferbar. <?page no="374"?> 374 Qualitative Befragung Produkt. Aus der Art der Darstellung (Form- und Farbgebung, Bilddetails) können Rückschlüsse auf Gefühle, Einstellungen bzw. der Wichtigkeit von z.B. Produktmerkmalen gezogen werden. Zusätzliche Erkenntnisse können gewonnen werden, wenn die Auskunftsperson anschließend aufgefordert wird, ihre Zeichnung zu erläutern. Projektive Techniken eignen sich, um verborgene Meinungen und Einstellungen sichtbar zu machen, mögliche Antwortwiderstände (z.B. bei sensiblen Themen) zu umgehen und schwer verbalisierbare Sachverhalte zu erfassen (vgl. Kepper 2008, S. 202 f.). Dadurch können sie einen erheblichen Beitrag zur Strukturierung des Untersuchungsfelds leisten, da bisher unbekannte Dimensionen des Forschungsfelds zum Vorschein kommen. Auch kann die subjektive Bedeutung bestimmter Aspekte des Untersuchungsproblems zu Tage gefördert werden. Des Weiteren sind projektive Techniken in der Lage, auch komplexe, schwer erfassbare und sensible Themen ganzheitlich zu erfassen. Dadurch, dass projektive Verfahren Kontrollmechanismen der Testperson umgehen und auch unter- oder unbewusste Motive identifizieren können, eignen sie sich im besonderen Maße zur Ursachenforschung. Auf diese Weise wird es möglich, auch solche Motive, Einstellungen oder Erwartungen aufzudecken, welche die Ursache für bestimmte Verhaltensweisen darstellen aber die Testperson nicht artikulieren kann oder will. Problematisch ist, dass solche Techniken - insb. die expressiven Verfahren - hohe Anforderungen an die Testperson stellen und auf gewisse Hemmschwellen stoßen können (vgl. Kepper 1996, S. 108). Beispiel 9.4: Vor dem Hintergrund der Liberalisierung des Briefmarktes wollte die Deutsche Post AG ihren Status der Markenwahrnehmung bei Geschäfts- und Privatkunden erheben, um darauf aufbauend einen Markensteuerungsprozess implementieren zu können. Zu diesem Zweck führte das Market Research Service Center, Marktforschungsdienstleister des Konzerns Deutsche Post AG, eine qualitative Studie durch, bei der verschiedene projektive Verfahren zum Einsatz kamen. Fokus der Studie war es, Erkenntnisse über den emotionalen Nutzen der Marke Deutsche Post AG zu gewinnen. Dabei wurde in einem ersten Schritt in Mini-Groups eine Produktpersonifizierung durchgeführt, bei denen die Teilnehmer die Marke Deutsche Post AG und ihre Konkurrenten auf dem Kommunikationsmarkt mit einer „Markenpersönlichkeit“ versehen sollten. Zu diesem Zweck erarbeiteten die einzelnen Gruppen die sozial relevanten Bedingungen (Alter, Geschlecht, Familie, Beruf), den Lebensstil (Gewohnheiten, Handlungen) sowie die zentralen Persönlichkeitsmerkmale und die Biographie der personifizierten Marke. In einem zweiten Schritt vertraten die Gruppen „ihre“ Marke mit den wahrgenommenen Persönlichkeitsmerkmalen in allgemeinen und produktspezifischen Rollenspielen, wobei durch die direkte Interaktion Stärken und Schwächen in der Persönlichkeitsausstattung unmittelbar erlebbar wurden. In einem dritten Schritt wurde dann das Entwicklungspotenzial aus Kundensicht in den Gruppen erhoben, wobei eine geeignete „Therapie“ für die Marke entworfen werden sollte, die einerseits zur Marke passt und andererseits ihr mehr Attraktivität im direkten Vergleich zu den Wettbewerbern verleihen sollte. <?page no="375"?> Methoden qualitativer Befragung 375 Aus diesen Erkenntnissen konnten anschließend Möglichkeiten und Grenzen einer beabsichtigten Umpositionierung der Marke aufgezeigt und Strategien der Markenweiterführung am Markt erarbeitet werden. Quelle: Hensel/ Meixner 2004, S. 70 ff. Indirekte Befragungen können auch mit Hilfe assoziativer Techniken durchgeführt werden. Unter einer Assoziation versteht man spontane, ungelenkte Verknüpfungen einzelner Gedächtnis- und Gefühlsinhalte (vgl. Salcher 1995, S. 70 ff.). Die Aufgabe assoziativer Verfahren besteht darin, spontane Reaktionen auf bestimmte Stimuli zu fördern und dadurch gedankliche Verknüpfungen, die die Auskunftsperson möglicherweise nicht verbalisieren kann oder will, offen zu legen. Bekanntestes assoziatives Verfahren ist der sog. Wortassoziationstest (vgl. Daymon/ Holloway 2010, S. 223). Der Testperson wird eine Liste untersuchungsrelevanter Reizwörter vorgelegt, wobei die Liste üblicherweise auch neutrale Reizwörter enthält, um den Untersuchungszweck zu verschleiern. Die Testperson muss auf jedes Reizwort spontan mit einer Assoziation reagieren. In der Marktforschung wird dies Verfahren beispielsweise eingesetzt, um bei Produktnamens- und Werbebotschaftsentwicklungen festzustellen, was potenzielle Kunden mit bestimmten Wörtern verbinden. Weitere assoziative Techniken sind Techniken zur Bildung von Assoziationsketten. Der Testperson wird ein verbaler oder bildlicher Stimulus präsentiert; daraufhin soll sie so viele assoziative Verknüpfungen herstellen, wie ihr einfallen. Dadurch kann das spontane, unreflektierte Erlebnisumfeld des Untersuchungsgegenstandes (z.B. Produkt, Marke) erkundet werden, was wichtige Hinweise für die Motiv- und Imageforschung liefern kann (vgl. Kepper 2008, S. 201). Beispiel 9.5: Das ZDF hat u.a. mit Hilfe von Assoziationsketten versucht, den Informationsaufbau ihrer Websites zu überprüfen und die Assoziationen der Nutzer zu bestimmten Begriffen abgefragt und analysiert. Durch Assoziationen zu übergeordneten Kategorien konnten die Erwartungen der Testpersonen an die Website aufgenommen werden. Über die Assoziationen zu untergeordneten Kategorien konnte festgestellt werden, ob die Begriffe auch so verstanden wurden, wie sie gemeint waren, oder ob eine Umbenennung zweckmäßig wäre und zu mehr Klarheit führen würde. Auf Basis dieser Ergebnisse konnten die Informationsarchitektur der Website entscheidend verbessert und die Komplexität im Aufbau der Navigation reduziert werden. Quelle: Frees/ Bosenick 2004, S. 79 ff. Bei der Anwendung von Assoziationstechniken ist zwischen freier und gelenkter Assoziation zu unterscheiden (vgl. Kirchmair 2011, S. 353). Während im Rahmen einer freien Assoziation der Untersuchungsgegenstand nicht eingeschränkt wird und die Auskunftsperson Assoziationen zu allen möglichen Aspekten bilden kann, wird im Rahmen einer gelenkten Assoziation der Untersuchungsgegenstand eingeschränkt, sodass die Auskunftsperson nur zu bestimmten interessierenden Aspekten Verknüpfungen herstellen muss. Ein Beispiel wäre „Gesundheit“ als ungelenktes Reizwort und „kalorienreduzierte Ernährung“ als gelenktes Reizwort. Assoziative Techniken können insbesondere zur Strukturierung des Untersuchungsgegenstandes beitragen, da die von den Befragten geäußerten Verknüpfungen ein Bild über rele- <?page no="376"?> 376 Qualitative Befragung vante Dimensionen des Untersuchungsobjekts schaffen können. Zu anderen Zwecken - z.B. Ursachenforschung - sind sie hingegen weniger geeignet. Demgegenüber steht der Vorteil eines flexiblen und unkomplizierten Einsatzes. GGrruuppppeenniinntteerrvviieewwss Gruppeninterviews sind dadurch gekennzeichnet, dass mehrere Personen gleichzeitig an einer Befragung teilnehmen. In der Marktforschung werden sie eingesetzt, wenn aus der Interaktion der Gruppenmitglieder untereinander besondere Erkenntnisse erwartet werden können. Als wichtige Unterformen können die Gruppendiskussion und die gelenkte Kreativgruppe unterschieden werden. Im Rahmen einer Gruppendiskussion (Focus Group) wird eine Kleingruppe (meist 6-10 Personen) eingesetzt, die das vorliegende Forschungsproblem unter Leitung eines geschulten Moderators diskutiert. In der Regel werden für eine Gruppendiskussion 1 - 1 ½ Stunden angesetzt. Die Zusammensetzung der Gruppe sollte möglichst ausgewogen sein, um Positions- und Machtkämpfe zu vermeiden. Eine besondere Bedeutung kommt dabei dem Moderator zu (vgl. ausführlich Blank 2011, S. 300 ff.). Seine Aufgabe besteht darin, Wortbeiträge zu stimulieren und möglichst alle Beteiligten zu Äußerungen anzuregen; er steuert die Diskussion im Hinblick auf die konkrete Problemstellung, ohne aber den spontanen Gesprächsverlauf zu hemmen. Ein Diskussionsleitfaden gewährleistet eine gewisse Strukturierung des Diskussionsverlaufs. Die Aufzeichnung erfolgt in Form von Gesprächsprotokollen, Audio- und Videoaufnahmen. Bei der anschließenden Analyse sind dabei nicht nur die verbalen Äußerungen der Gruppenmitglieder von Bedeutung; für die Interpretation liefern auch der Prozess der Meinungsbildung, die Diskussionsschwerpunkte und die nonverbalen Reaktionen der Teilnehmenden (Mimik, Gestik) wertvolle Hinweise. Mittlerweile können Gruppendiskussionen auch online durchgeführt werden - im einfachsten Fall über Skype -, sodass sich die Teilnehmenden nicht am selben Ort aufhalten müssen. Neben der hier dargestellten Grundform einer Gruppendiskussion sind zahlreiche Varianten gebräuchlich, von denen die wichtigsten nachfolgend dargestellt werden sollten. Bei der kumulierten Gruppendiskussion werden mehrere, aufeinander aufbauende Gesprächsrunden mit jeweils unterschiedlichen Befragten durchgeführt. Dabei erhält jede Gruppe die Ergebnisse der vorherigen Gruppe(n) als Ausgangsbasis für die eigene Diskussion, sodass ein zusätzlicher Auseinandersetzungsprozess mit dem Untersuchungsproblem erreicht wird (vgl. Salcher 1995, S. 51). Ziel von kombinierten Gruppendiskussionen ist es, den Einfluss von Gruppenmeinungen auf den individuellen Meinungsbildungsprozess zu ermitteln (vgl. Salcher 1995, S. 52). Bei dieser Form der Gruppendiskussion steht dementsprechend weniger das Endergebnis in Form der Gruppenmeinung im Vordergrund, sondern der Fokus liegt vielmehr auf den Meinungsbildungsprozess, d.h. in welcher Art und Weise sich Meinungen im Verlaufe der Diskussion bilden und verändern (vgl. Zanger/ Sistenich 1996, S. 352 f.). Zu diesem Zweck werden vor der eigentlichen Gruppendiskussion mit allen Teilnehmenden Einzelinterviews geführt, in welchen die ursprünglichen individuellen Ansichten bezüglich des Untersuchungsgegenstandes erhoben werden. In der nachfolgenden Gruppendiskussion wird festgehalten, wie und aufgrund welcher Argumente sich die einzelnen Meinungen durch den Gruppeneinfluss verändern. In abschließenden Einzelgesprächen wird dann die tatsächliche Abweichung von der ursprünglichen Auffassung über- <?page no="377"?> Methoden qualitativer Befragung 377 prüft und festgestellt, inwieweit die gemeinsame Diskussion dafür verantwortlich ist. Dieses Verfahren wird vor allem im Rahmen von Produkt- oder Werbekonzepttests eingesetzt, bei denen sowohl die Einzelmeinung als auch deren Veränderung im sozialen Umfeld von Interesse ist (vgl. Nolte 2004, S. 23 f.). Bei der kontradiktorischen Gruppendiskussion wird ohne Wissen der Teilnehmenden ein Mitarbeiter der Marktforschung in die Diskussionsrunde integriert mit der Aufgabe, einer zu schnellen Einigung durch provozierende Äußerungen und neue Aspekte entgegenzuwirken (vgl. Kepper 1996, S. 69). Ziel dieses Verfahrens ist es, die Stabilität einer erreichten Gruppenmeinung zu überprüfen. Des Weiteren eignet es sich auch dazu, konkrete, schon vorher identifizierte Stärken und Schwächen eines Untersuchungsgegenstandes, wie z.B. eines Produkt- oder Werbekonzepts, auf ihre Wichtigkeit hin zu überprüfen und die Reaktionen und Argumente der Diskutanten bei Kenntnis dieser Stärken und Schwächen zu ermitteln (vgl. Salcher 1995, S. 55). Sogenannte Mini-Groups (4-6 Befragte) werden eingesetzt, wenn das Untersuchungsthema oder die Befragten selbst Besonderheiten aufweisen, die eine solche kleine Gruppe zulassen oder sogar erforderlich machen. Mini-Groups haben sich insb. bei sensiblen Themen, bei Expertenbefragungen oder bei Kindern in der Praxis bewährt (vgl. Kepper 2008, S. 189). Schließlich beinhaltet eine Delphi-Befragung eine mehrmalige, schriftliche Expertenbefragung auf der Grundlage eines standardisierten Fragebogens zu einem bestimmten Sachverhalt - häufig technologische Prognosen oder im Rahmen der Trendforschung. Die Aussagen der Experten werden statistisch ausgewertet, i.d.R. mit Hilfe des Medians und des Quartilabstands. Ziel ist dabei, eine Konvergenz zwischen den Expertenmeinungen zu erzielen. Gruppendiskussionen sind zur Strukturierung des Untersuchungsfelds besonders geeignet, da durch die gegenseitige Stimulation der Teilnehmenden viele relevante Strukturen und Dimensionen offengelegt werden. Zur Erstellung qualitativer Prognosen eignet sich insbesondere die Delphi-Befragung. Zur Ideengenerierung und Screening sind Gruppendiskussionen grundsätzlich ebenfalls geeignet (vgl. Kepper 2008, S. 191 f.). In der Marketing- Praxis finden Gruppendiskussionen insb. in der Einstellungsforschung, der Neuproduktentwicklung sowie bei Werbe- und Packungstests Anwendung. Gruppendiskussionen weisen im Vergleich zu Einzelinterviews eine ganze Reihe von Vorteilen auf: Während der Diskussion werden Hemmungen der Teilnehmenden abgebaut, sodass sich die Diskutanten gegenseitig zu Äußerungen anregen. Hierdurch wird ein breites Spektrum von Meinungen generiert. Die Diskussion erlaubt Einblicke in Meinungen, Verhaltensweisen, Einstellungen und Motive der Gruppenmitglieder („Consumer Insights“) im Rahmen einer alltagsnahen Gesprächssituation. Der Forscher kann Einblicke in die Beeinflussungsmechanismen sowie in die verbalen und nonverbalen Ausdrucksweisen innerhalb der Gruppe gewinnen. Die ungezwungene Atmosphäre führt zu „ehrlicheren“ Verhaltensweisen und damit zu einer Reduzierung sozial erwünschten Verhaltens. Demgegenüber stehen jedoch auch einige Nachteile (vgl. Blank 2011, S. 295 f.): <?page no="378"?> 378 Qualitative Befragung Es besteht die Gefahr, dass Einzelne ihre Meinung an die Gruppennorm oder an einem Meinungsführer orientieren, sodass abweichende Einschätzungen, die für das Problem relevant sein könnten, unterdrückt werden. Der Erfolg einer Gruppendiskussion ist sehr stark von der Qualität der Moderation abhängig. Weniger geeignet ist die Gruppendiskussion bei sehr intimen oder tabuisierten Phänomenen und Sachverhalten. Beispiel 9.6: Das Marktforschungsinstitut Naether Marktforschung aus Hamburg erstellte im Jahr 2001 die Studie „Young Parents“, eine qualitative Studie, die sich mit den Werten und Einstellungen jungen Eltern befasste und welche das durch den neuen Lebensabschnitt gekennzeichnete Konsumverhalten und die Markenwahrnehmung unter die Lupe nahm. Im Rahmen von sechs Gruppendiskussionen mit jungen Eltern wurden dabei folgende Ergebnisse ermittelt: Auf dem Weg zum Elterndasein verändert sich das Konsumverhalten signifikant; ein Prozess vom unbedarften hin zum bewussten und aufgeklärten Konsumenten konnte festgestellt werden. Dabei spielt vor allem die Nutzung neuer Produktkategorien (Windeln, Babynahrung) eine Rolle. In allen Lebensbereichen konnte eine klare Tendenz zu Marken festgestellt werden, die von den jungen Eltern als besonders verlässlich und traditionell wahrgenommen werden und für Produkte mit guter Qualität stehen (Volkswagen, Daimler-Chrysler, Volvo). In diesem Zusammenhang wurden vor allem Marken genannt, die sich im internationalen Vergleich gegenüber kurzfristigen Trends profiliert haben und schon mit den eigenen Eltern in Verbindung gebracht wurden. Auch Aspekte wie Kinderfreundlichkeit und Kostengünstigkeit spielten bei der Markenwahrnehmung eine gesteigerte Rolle (IKEA, McDonald’s). Nach einer Phase des sehr kritischen Umgangs mit Marken und Produkten kommt es dann wieder zu einem Einstellungswandel in Richtung pragmatischer Lösungen, wobei vor allem Lebensmitteldiscounter wie ALDI und Lidl von diesem Trend profitieren können. Negativ wurden insb. Unternehmen wahrgenommen, deren Produkte als ungesund gelten (Marlboro) oder Unternehmen wie Microsoft, das als Inbegriff für den negativ belegten amerikanischen Kapitalismus steht und deren Produkte als überteuert gelten. Quelle: Naether Marktforschung 2001a und 2001b Eine Sonderform des Gruppeninterviews ist die sog. gelenkte Kreativgruppe. Hierbei werden im Rahmen einer Gruppendiskussion gezielt Kreativitätstechniken integriert. Die Gruppenmitglieder werden mit der Anwendung der einzelnen Kreativitätstechniken vertraut gemacht. Je nachdem, wie anspruchsvoll die jeweilige Technik ist, reicht dies von einer einfachen Anleitung bis hin zu einer vollständigen Schulung. Kreativitätstechniken werden eingesetzt, um neue Problemlösungen zu finden. Deren Anwendung beruht auf der Erkenntnis, dass innovative Lösungen besonderer - bewusster oder unbewusster - Denkoperationen bedürfen; durch Stimulierung und Lenkung des kreativen Potenzials der Teilnehmenden erhöht sich die Fähigkeit der Befragten, strukturiert und fokussiert innovative Problemlösungen zu erbringen. Die gelenkte Kreativgruppe unterscheidet sich von der herkömmlichen Gruppendiskussion durch folgende Merkmale (vgl. Kepper 2008, S. 190): <?page no="379"?> Methoden qualitativer Befragung 379 Es wird bewusst darauf verzichtet, eine alltagsnahe Gesprächssituation mit dem ihr innewohnenden spontanen Gesprächsverlauf zu erzeugen. Hingegen wird der Gesprächsverlauf stärker moderiert und fokussiert. Die Erfassung des Prozesses der Meinungsbildung und Meinungsbeeinflussung - ein weiteres Merkmal der klassischen Gruppendiskussion - erfolgt im Rahmen einer gelenkten Kreativgruppe nicht. Durch den systematischen Einsatz strukturierter Techniken fallen die Befragten aus ihrer Rolle als „normale“ Konsumenten und werden in die Position von Kritikern mit Expertenwissen versetzt. Dies kann zu einer Verhaltensverzerrung führen. Wesentliche Aufgaben von Kreativitätstechniken sind (vgl. den Überblick bei Schlicksupp 1995): Verstärkung des kreativen Potenzials der Befragten, Überwindung von Denkblockaden und Erzielung von Synergieeffekten aus der Teamarbeit. Die verschiedenen Kreativitätstechniken lassen sich in drei Gruppen unterteilen: assoziative Verfahren, bisoziative (synektische) Verfahren und kombinatorische Verfahren. Assoziative Verfahren beruhen darauf, dass aufgrund einer schriftlich, bildlich oder verbal dargestellten Reizsituation die Teilnehmenden zu Assoziationen angeregt werden. Es handelt sich um vergleichsweise einfache Methoden, die dazu geeignet sind, latente Problemlösungsansätze sichtbar zu machen; echte innovative Lösungen sind allerdings selten. Bekanntestes Verfahren ist dabei das Brainstorming (vgl. hierzu Osborn 1963). Eine Brainstorming-Gruppe setzt sich typischerweise aus vier bis sieben Personen aus unterschiedlichen Bereichen, jedoch aus derselben Hierarchiestufe zusammen. Das Team hat die Aufgabe, während einer festgelegten Zeitspanne (i.A. 15 bis 60 Minuten) möglichst viele Ideen zu produzieren. Zu beachten sind dabei folgende Grundregeln: Jegliche sachliche und persönliche Wertung soll unterbleiben, um den Ideenfluss nicht zu hemmen. Alle Teammitglieder sind aufgefordert, die Ideen anderer aufzugreifen und weiter zu entwickeln. Auch auf den ersten Blick als abwegig erscheinende Ideen sollen geäußert werden, da sie möglicherweise Anregungen für brauchbare Lösungsvorschläge liefern. Es sollen möglichst viele Ideen entwickelt werden, um die Wahrscheinlichkeit zu erhöhen, dass sich darunter brauchbare, innovative Vorschläge befinden. Weitere assoziative Verfahren sind (vgl. Schlicksupp 1995, Sp. 1294): Destruktiv-konstruktives Brainstorming: In einer ersten Phase werden ausführlich Mängel und Schwächen des vorgegebenen Sachverhalts behandelt; in einer zweiten Phase werden zu jedem aufgedeckten Mangel im Rahmen einer Brainstorming-Sitzung Verbesserungsmöglichkeiten gesucht. <?page no="380"?> 380 Qualitative Befragung Methode 635: 6 Personen tragen in ein Formular je drei Lösungen ein. Die Formulare werden nacheinander an die anderen Teilnehmenden weitergereicht, die jeweils drei neue oder drei Modifikationen bisheriger Lösungen eintragen müssen. Kärtchen-Technik: Die Teilnehmenden schreiben jeweils eine Idee auf ein Kärtchen, das anschließend an eine Pinnwand geheftet wird. Die so gesammelten Ideen sollen zu weiteren Lösungen anregen. Bisoziative oder synektische Verfahren beruhen darauf, dass Wissensbzw. Erfahrungselemente von einem Gebiet auf ein anderes, nicht artverwandtes übertragen werden sollen. Die Teilnehmer sollen sich vom ursprünglichen Problem entfernen (Verfremdung) und dadurch zu neuen Ideen angeregt werden. Solche Techniken sind deutlich aufwändiger als assoziative Techniken und erfordern i.d.R. eine gezielte Schulung. Bekanntestes Verfahren ist die Synektik (vgl. hierzu Gordon 1961). T Taabb.. 99..11: : Ablaufschritte der Synektik (Quelle: Schlicksupp 1995, Sp. 1300) Phasen des kreativen Prozesses Ablauf der Methode „Synektik“ Intensive Beschäftigung mit dem Problem Strukturierung Informationssuche Problemverständnis erhöhen Bemühen um Lösungen Problemanalyse und -definition Spontane Lösungen Neu-Formulierung Entfernung vom Problem Örtliche und zeitliche Verfremdung Wechsel der Tätigkeiten Körperliche Entspannung Bildung direkter Analogien, z.B. aus der Natur Persönliche Analogien, „Identifikationen“ Symbolische Analogien, „Kontradiktionen“ Direkte Analogien, z.B. aus der Technik Herstellung von Denkverbindungen unterbewusste, ungehemmte Denkprozesse Assoziationen Strukturübertragungen Analyse der direkten Analogien Übertragen auf das Problem - „Force-Fit“ Spontane Lösungsideen Illuminationen Geistesblitz Verifikation Überprüfung und Ausgestaltung der Idee Entwicklung von Lösungsansätzen Die Grundidee der Synektik besteht darin, den normalerweise unbewusst verlaufenden kreativen Prozess bewusst zu stimulieren. Eine Synektik-Gruppe besteht i.d.R. aus fünf bis sieben Mitgliedern, welche besonders geschult sind und häufig ein festes Team bilden. Eine Synektik-Sitzung kann bis zu drei Stunden dauern. Tab. 9.1 zeigt den grundlegenden Ablauf einer Synektik-Sitzung. Entscheidend ist im Rahmen der Synektik die Verfremdung vom Problem: Durch systematische Analogienbildung entfernt man sich immer weiter vom ursprünglichen Pro- <?page no="381"?> Methoden qualitativer Befragung 381 blem; im Anschluss an den Verfremdungsprozess soll sich die Synektikgruppe dann wieder auf das ursprüngliche Problem zurückbesinnen und dafür Lösungsansätze entwickeln. Weitere bisoziative Techniken sind (vgl. Schlicksupp 1995, Sp. 1296 ff.; Schlicksupp et al. 2011, S. 449 ff.): Reizwort-Analyse: Per Zufall wird ein Gegenstand bestimmt, der gedanklich in Bausteine zerlegt wird. Die Denkelemente, die aus diesen „Bausteinen“ erzeugt werden, sollen auf das ursprüngliche Problem übertragen werden. Visuelle Synektik (Collage-Technik): Kleinere Bilder werden zu neuen, ungewohnten Zusammenhängen kombiniert. Schlüsselbegriffe werden in Form von Bildern erfasst und beliebig zusammengesetzt; die so entwickelten Collagen sollen Anregungen für neue Ideen liefern. TILMAG-Methode (Transformation idealer Lösungselemente in Matrizen für Assoziationen und Gemeinsamkeiten): Ausgehend von „idealen Lösungselementen“ werden gesteuerte Assoziationen aus fachfremden Gebieten generiert. Dadurch ist das Verfahren weniger abstrakt als die Synektik. Kombinatorische Verfahren beruhen darauf, dass ein Objekt systematisch analysiert wird. Es wird versucht, die Elemente eines Objekts zu neuartigen Kombinationen zusammenzufügen. Diese Verfahren eigenen sich insb. zur Verbesserung und Weiterentwicklung bereits existierender Objekte (z.B. Produkte), weniger zur Entwicklung echter innovativer Problemlösungen. TTaabb.. 99..22: : Morphologischer Kasten für eine Getränkeverpackung (Quelle: www.axel-schroeder.de) Parameter Ausprägungen Größe der Verpackung 0,1 l 0,5 l 1 l 5 l Art der Verpackung Tüte Kanister Flasche Dose Beutel Material der Verpackung Glas Alu Kunststoff Pappe Holz Art des Verschlusses Drehverschluss Sollbruchstelle Klettverschluss Druckknopf Bügelverschluss Material des Verschlusses Kork Kunststoff Metall Glas Pappe Bekanntestes Verfahren ist die Morphologische Methode (vgl. hierzu Zwicky 1989). Das Verfahren beruht auf einer systematischen Zerlegung des Problems in seine Elemente; diese Elemente werden anschließend zu neuen Problemlösungen zusammengefügt. Tabelle 9.2 zeigt ein Beispiel für einen morphologischen Kasten. Die Morphologische Methode vollzieht sich in folgenden Schritten: <?page no="382"?> 382 Qualitative Befragung Umschreibung und Verallgemeinerung des Problems: Das Problem wird so allgemein wie möglich definiert, um das Spektrum möglicher Lösungen nicht unnötig einzuschränken. Bestimmung der Parameter: Das Problem wird in seine Elemente zerlegt (z.B. Produktbestandteile). Für die einzelnen Bestandteile (z.B. Verschluss) werden alle denkbaren alternativen Ausprägungen gesucht (z.B. Kork, Metall, Bügel usw.). Aufstellung des morphologischen Kastens: Parameter und Ausprägungen werden in Matrixform angeordnet; die Problemlösungen entstehen durch Verbindung je einer Ausprägung pro Parameter mittels Linienzügen (z.B. von Hand aufzuziehende Uhr mit Federmechanik etc). Analyse und Bewertung der Lösungsmöglichkeiten: Die resultierenden Lösungen werden auf ihre Realisierbarkeit hin überprüft und einer Bewertung unterzogen. Auswahl der weiter zu verfolgenden Lösungen: Die vielversprechendsten Alternativen werden ausgewählt. Weitere kombinatorische Techniken sind: Attribute Listing: Es werden alle wichtigen Eigenschaften und Bestandteile einer bekannten Problemlösung aufgelistet (Schlüsselattribute). Darauf aufbauend wird versucht, Anregungen für Lösungsverbesserungen des konkreten Problems zu entwickeln. Progressive Abstraktion: Das Verfahren beruht auf einer systematischen Veränderung der Perspektive. Das Problem wird stufenweise in immer größeren Zusammenhängen betrachtet. Durch eine schrittweise Erhöhung des Abstraktionsniveaus werden die Kernfragen eines Problems aufgedeckt, woraus systematisch neue Lösungsvorschläge entwickelt werden können. Gelenkte Kreativgruppen finden ihren Einsatz im Bereich der Ideengenerierung. Typische Anwendungsfelder sind Produktinnovationen oder die Entwicklung von Werbekampagnen. Mit Einschränkungen können sie auch für das Screening eingesetzt werden, da die meisten Verfahren eine anschließende Beurteilung der entwickelten Ideen vorsehen. Allerdings ist zu beachten, dass die Mitglieder eher eine Expertenperspektive und weniger die gewünschte Konsumentenperspektive vertreten (vgl. Kepper 2008, S. 192). Gelenkte Kreativgruppen können auch zur Strukturierung eines Problems beitragen. Insbesondere bei komplexen, neuartigen Problemen können wichtige Problemelemente und mögliche Ausprägungen identifiziert werden. Schließlich können Kreativgruppen auch zur Vorbereitung oder Strukturierung qualitativer Prognosen eingesetzt werden. 22..22 GGeessttaallttuunngg qquuaalliittaattiivveerr BBeeffrraagguunnggeenn Die Vielzahl an Methoden qualitativer Befragungen geht mit einer besonderen Vielfalt an unterschiedlichen Anwendungstechniken einher; im Folgenden werden daher exemplarisch die wichtigsten Befragungstechniken bei qualitativen Erhebungen vorgestellt. TTeecchhnniikkeenn ffüürr eexxpplloorraattiivvee IInntteerrvviieewwss Im Rahmen explorativer Interviews werden das narrative und das problemzentrierte Interview unterschieden. Das narrative Interview dient dazu, Wissen, Einstellungen oder Er- <?page no="383"?> Gestaltung qualitativer Befragungen 383 fahrungen, die die Auskunftsperson mit bestimmten Objekten (z.B. Produkten) verbindet, herauszufinden (vgl. Kepper 1996, S. 38). Es kann in folgende Phasen unterteilt werden (vgl. Lamnek 2016, S. 339 ff.): In der Erklärungsphase werden der Auskunftsperson Zweck und Hintergründe des Interviews erläutert, insb. der narrative Gedanke. Darüber hinaus werden die technischen Modalitäten besprochen. In der Einleitungsphase wird der grobe Rahmen der „Erzählung“ abgesteckt (Thematik, Abgrenzung u.a.). Des Weiteren wird der Auskunftsperson eine möglichst allgemeine Eingangsfrage gestellt, um den Erzählfluss in Gang zu setzen. In der eigentlichen Erzählphase soll die Auskunftsperson zur vorgegebenen Themenstellung ihre Gedanken frei äußern. Hier ist Zurückhaltung seitens des Interviewers gefordert, um den Erzähler nicht zu hemmen. Der Erzählphase folgt die Nachfragephase, in welcher mögliche Unklarheiten beseitigt bzw. spezielle Themen vertieft werden können. Daran schließt sich die Bilanzierungsphase an, in welcher durch direkte Fragen gemeinsam mit der Auskunftsperson Motivationen und Intentionen erörtert werden, um der Erzählung eine Struktur zu geben und eventuelle Fehlinterpretationen zu vermeiden. Die Organisation des narrativen Interviews ist vergleichsweise einfach, ein Leitfaden wird i.d.R. nicht erstellt. Die Rolle des Interviewers beschränkt sich i.W. darauf, den Erzählfluss der Auskunftsperson in Gang zu halten. Meist erfolgt eine Audio- oder Videoaufzeichnung des Interviews. Im Unterschied zum narrativen Interview steht beim problemzentrierten Interview eine stärkere Problemorientierung im Vordergrund. Durch eine entsprechend provozierende Kommunikationsstrategie wird eine stärkere Thematisierung kritischer Inhalte erreicht. Der Interviewer nimmt hier eine aktive Haltung ein und versucht, durch eine offensive Kommunikationsstrategie Begründungen, Erklärungen, Urteile und Meinungen explizit zu provozieren (vgl. Kepper 1996, S. 45). Aus diesem Grunde ist es erforderlich, dass sich der Forscher im Vorfeld umfassende Informationen über den Forschungsgegenstand aneignet, um einen Leitfaden für die Erhebungsphase zu erstellen. Ein solcher Leitfaden reicht von einer stichwortartigen Checkliste über Mind Maps bis hin zu einem umfassenden Fragenkatalog (zu Einsatz und Erstellung von Leitfäden vgl. Mey/ Mruck 2011, S. 279). Ein problemzentriertes Interview vollzieht sich in folgenden Phasen (vgl. Lamnek 2016, S. 345 ff.). Einleitung: Hier werden den Probanden Zweck und Hintergründe des Interviews erläutert; der Rahmen der Untersuchung wird abgesteckt. Allgemeine Sondierung: In dieser Phase steuert der Interviewer den Erzählfluss der Befragten, damit diese den Detaillierungsgrad und die inhaltliche Zielsetzung des Interviews besser erkennen. Dies kann mit Hilfe eines Erzählbeispiels erfolgen. Spezifische Sondierung: Hier sollen Erzählsequenzen, Darstellungsvarianten und stereotype Wendungen der Teilnehmenden nachvollziehbar und interpretierbar gemacht werden. Dies kann z.B. durch eine sog. Zurückspiegelung erfolgen, im Rahmen derer der Interviewer in eigenen Worten der Testperson eine Interpretationsmöglichkeit anbietet, welche ggf. durch diese korrigiert werden kann. Weiterhin sind Verständnis- <?page no="384"?> 384 Qualitative Befragung fragen gebräuchlich. Eine dritte Möglichkeit besteht in der Konfrontation der Auskunftsperson mit Ungereimtheiten, Widersprüchen oder Unklarheiten. Die vierte Phase dient der Ergänzung. Hier wird durch gezielte Fragen versucht, Problembereiche zu thematisieren, welche die Auskunftsperson noch nicht angesprochen hat. Um die Auswertung zu erleichtern, sollte das Interview nach Möglichkeit per Tonband oder Video aufgezeichnet werden, um auch die nonverbalen Reaktionen der Befragten festzuhalten. TTeecchhnniikkeenn ffüürr ffookkuussssiieerrttee IInntteerrvviieewwss Beim fokussierten Interview wird der Auskunftsperson ein Stimulus präsentiert, z.B. eine Werbeanzeige. Der Forscher beobachtet dabei die Reaktionen des Probanden. Aufgrund der Beobachtungsergebnisse in Verbindung mit den Strukturen und Elementen der Stimuli bildet der Forscher Hypothesen und einen Leitfaden für das sich anschließende Interview (vgl. Kepper 1996, S. 52 f.). Die aus der Verknüpfung von Beobachtung und Interview entstehende Komplexität erfordert spezifische Anweisungen an den Interviewer (vgl. Merton/ Kendall 1979, S. 186 ff.): Nichtbeeinflussung: Der Interviewer darf die Auskunftsperson in keiner Weise beeinflussen; insbesondere dürfen die zugrunde gelegten Forschungshypothesen nicht erwähnt werden. Spezifikation: Die Reaktionen auf den dargebotenen Stimulus sollen nicht nur erfasst, sondern auch interpretiert und miteinander in Verbindung gebracht werden (Explikation). Tiefgründigkeit der Interviewführung: Der Interviewer darf sich nicht mit dem Offenkundigen zufriedengeben, sondern muss in der Lage sein, durch gezielte Fragen auch verdeckte Strukturen und Bedeutungen offenzulegen (z.B. durch den Einsatz von Schlüsselwörtern). Der Ablauf ist dabei typischerweise wie folgt (vgl. Weller/ Grimmer 2004, S. 63 f.): In einer ersten Stufe (Shadowing) wird die Testperson einer Alltagssituation ausgesetzt, z.B. Surfen auf einer Webseite oder Anschauen einer Werbesendung. Dabei wird sie von einem geschulten Psychologen beobachtet, indem dieser in das Geschehen aktiv eingreift. In der nachfolgenden Phase des „lauten Denkens“ beschreibt die Testperson, womit sie sich gerade beschäftigt und was sie dabei denkt. Anschließend werden im Rahmen eines vertiefenden Interviews ergänzende Hintergrundinformationen eingeholt. T Teecchhnniikkeenn ffüürr TTiieeffeenniinntteerrvviieewwss Im Rahmen eines Tiefeninterviews hat der Forscher die Aufgabe, in einem zwanglosen Gespräch unbewusste, verborgene oder nur schwer erfassbare Motive und Einstellungen zutage zu fördern. Der Aufbau des Gesprächs und die Auswahl der Fragen liegen dabei im Ermessen des Interviewers. Im Hinblick auf die Strukturierung des Interviews können verschiedene Techniken zur Anwendung kommen (vgl. z.B. Salcher 1995, S. 37 ff.; Kepper 1996, S. 47 ff.). Im Rahmen der nichtdirektiven Technik wird auf einen Leitfaden verzichtet, d.h. die Vorgehensweise ist völlig unstrukturiert. Diese Methode bietet sich dann an, wenn ein sehr <?page no="385"?> Gestaltung qualitativer Befragungen 385 breites Spektrum von Motiven und Einstellungen erfasst werden soll. Allerdings stellt sie an Testperson und Interviewer sehr hohe Anforderungen und erschwert die Vergleichbarkeit und Interpretation der Ergebnisse. Aus diesem Grunde wird in der Marktforschung überwiegend auf die semidirektive Interviewtechnik zurückgegriffen, bei welcher ein Leitfaden für die Interviews erstellt wird. Dadurch wird der Interviewer angehalten, richtungweisend einzugreifen, wenn die Auskunftsperson vom eigentlichen Befragungsthema abweicht. Auf diese Weise wird zumindest eine gewisse Vergleichbarkeit erreicht. Der psychologische Hintergrund dieser Interviewform lässt erkennen, dass psychologisch geschulte Fachleute für die Durchführung eines Tiefeninterviews notwendig sind. Schon während des Gesprächs sollte der Interviewer die Möglichkeit, auf tieferliegende Bewusstseinsebenen vorzudringen, erkennen und den Gesprächsverlauf diesbezüglich lenken. Zu diesem Zweck kann er sich verschiedener Fragetechniken bedienen (vgl. Nolte 2004, S. 16): Durch das Hidden-Issue-Questioning sollen persönliche Werte und Wünsche der Interviewten mit Hilfe allgemein gehaltener Fragen ermittelt werden, durch welche verborgene Probleme und Grundhaltungen beleuchtet werden sollen. Bei der Technik des Laddering, auf die im Folgenden näher eingegangen werden soll, wird ausgehend von konkreten Produkteigenschaften durch gezieltes Nachfragen, warum bestimmte Eigenschaften eine besondere Wichtigkeit für die Auskunftsperson haben, ein Prozess angeregt, der bis hin zu den persönlichen Werten der Auskunftsperson geht. Im Rahmen der Symbolic Analysis wird versucht, die wahren Bedeutungen und Einschätzungen von Produkten durch die symbolische Erklärungskraft von Attributen und die Beschreibung ihrer Gegensätze zu ermitteln. Sollen im Rahmen des Interviews verschiedene Themen erforscht werden, stellt sich die Frage nach der Anordnung der Themen (vgl. Kepper 1996, S. 158 f.). Im Allgemeinen bieten sich sog. Trichterfragen an, d.h. zu Beginn der Erhebung wird auf eher allgemeine Themen eingegangen, die dann im weiteren Verlauf vertieft werden. Wird bei der Auskunftsperson ein eher geringes Involvement vermutet, bietet sich hingegen die umgekehrte Trichterfrage bzw. Tunnelfrage an, d.h. vom Speziellen zum Allgemeinen. Dadurch fällt es dem Probanden leichter, seine Standpunkte, Einstellungen und Erkenntnisse über bestimmte Zusammenhänge zu artikulieren. Die gewonnen Daten werden mit Hilfe der Inhaltsanalyse ausgewertet (vgl. Abschnitt 5.2). DDaass LLaaddddeerriinnggvveerrffaahhrreenn Das Ladderingverfahren ist eine spezielle Form des Tiefeninterviews und basiert auf der Means-End-Theorie. Ihr Ziel ist die Ermittlung von Ziel-Mittel-Beziehungen zwischen Produkteigenschaften und Werten der Befragten (vgl. z.B. Baker 2000; Olson/ Reynolds 1983). Ausgangspunkt der Ziel-Mittel-Beziehungen ist das Produktwissen der Konsumentin bzw. des Konsumenten; dabei bilden die Eigenschaften des Produkts und dessen Konsequenzen (Nutzen) die Mittel (Means), welche zur Erreichung von Werten (Ends) beitragen (vgl. Abb. 9.5). Die unterste Ebene des Modells sind die Produkteigenschaften, welche in physische, d.h. objektiv-konkrete Merkmale wie z.B. Farbe, und abstrakte, d.h. subjektive geprägte Attribute wie z.B. Design unterteilt werden können. Die zweite Ebene beinhaltet die Konsequenzen (Nutzenerwartungen), welche sowohl positiv (Benefits) als auch negativ (wahrgenommene Risiken) ausfallen können. Konsequenzen <?page no="386"?> 386 Qualitative Befragung können zum einen funktionaler Natur sein, d.h. sie betreffen den Zweck, den das Produkt erfüllen soll (z.B. Bequemlichkeit); zum anderen können sie psychosozialer Natur sein, sie berühren also die Wirkungen, die die Nutzung eines Produkts auf die Psyche oder das soziale Umfeld der Befragten entfaltet. AAbbbb.. 99..55: : Das Means-End-Modell Die dritte Ebene sind die Werte, d.h. die allgemeinen Ziele der Konsumenten, welche den Kauf bzw. die Nutzung eines Produkts als erstrebenswert oder nicht erstrebenswert erscheinen lassen. Sie können unterteilt werden in Endwerte, welche die grundlegenden Wünsche und Ziele der Befragten beinhalten, und instrumentelle Werte, welche dazu dienen, den Endwerten gerecht zu werden. Abbildung 9.6 erläutert die Zusammenhänge anhand eines Beispiels. AAbbbb.. 99..66: : Means-End-Ketten für anabolische Nahrungsergänzungsmittel (Quelle: in Anlehnung an Eberhard/ Fantapié Altobelli 2014, S. 81) Mit Hilfe der Ladderingtechnik wird versucht, die Means-End-Kette empirisch zu ermitteln, wobei - wie Abb. 9.6 verdeutlicht - nicht unbedingt immer alle Teilebenen berührt werden müssen. Obwohl das Laddering zu den qualitativen Verfahren zählt, ist sein Ablauf mittlerweile vergleichsweise standardisiert. Durch gezielte Fragen versucht der Interviewer schrittweise von der Nennung der Produkteigenschaften über die Konsequenzen zu den jeweiligen Werten vorzustoßen. Im Kern handelt es sich um eine Sequenz von „Warum? “-Fragen, d.h. „Warum ist Ihnen diese Eigenschaft wichtig? “ bzw. „Warum ist dieser Nutzen für Sie wünschenswert? “. Die Befragung wird solange fortgeführt, bis die Auskunftsperson keine weiterführenden Aspekte mehr hervorbringt. In diesem Zusammenhang kommt der Auswahl der zu untersuchenden Eigenschaften eine große Bedeutung zu. Diese können im Vorfeld des Interviews durch einen Frage- Produkt eigenschaften Konsequenzen Werte Konkrete Produkteigenschaften Abstrakte Produkteigenschaften Funktionale Konsequenzen Psychosoziale Konsequenzen Instrumentelle Werte Endwerte Preisgünstige Zufuhr von Nährstoffen Zeit und Geld sparen Ökonomischer Ressourcenverbrauch Nährstoffkonzentration Muskelregeneration verbessern Genuss Nährstoffqualität Muskelaufbau verbessern Ästhetik verbessern Selbst-bewusstsein <?page no="387"?> Gestaltung qualitativer Befragungen 387 bogen ermittelt werden, in welchem die Auskunftspersonen die Produktmerkmale niederschreiben und sie nach ihrer Wichtigkeit ordnen; alternativ können sie zu Beginn des Interviews erfragt werden. Das Ladderingverfahren bringt einige Anwendungsprobleme mit sich (vgl. Gaus et al. 1997, S. 10 f.). Die Datenerhebungssituation ist oftmals eine völlig andere als eine reale Kaufsituation; dadurch können während der Befragung unerwünschte kognitive Prozesse auftreten, z.B. die Herstellung von Verbindungen zwischen Eigenschaften und Werten, die für die Befragten sonst nicht relevant wären. Auch fehlt den Auskunftspersonen oft das Wissen über mögliche Konsequenzen einer Eigenschaft. Es gibt jedoch eine ganze Reihe von Techniken, um diese Probleme abzuschwächen: Herstellung eines Situationsbezugs, d.h. die Auskunftsperson beschreibt eine Situation, in der sie das Produkt benutzt. Dadurch soll ihr die Eigenschaft bzw. Konsequenz bewusst werden. Beschreibung des Nichtvorhandenseins einer Eigenschaft. Dies erlaubt Aufschlüsse über die Wichtigkeit der betreffenden Eigenschaft für den Produktnutzen. Negatives Laddering: Die Auskunftsperson wird gefragt, warum sie bestimmte Dinge nicht tut. Alters-Regressions-Kontrast: Hier wird erfragt, ob und inwieweit sich das Verhalten der Auskunftsperson in einem bestimmten Zeitabschnitt verändert hat. Drittpersonentechnik: Die Auskunftsperson soll sich vorstellen, in welcher Situation und aus welchem Grund andere (z.B. Freunde und Bekannte) ein bestimmtes Produkt benutzen. Dadurch können auch sensible Themen angesprochen werden. Die Aufzeichnung erfolgt meist schriftlich, es können aber auch technische Geräte verwendet werden. Im Rahmen des Onlineladdering erfolgt die Aufzeichnung „automatisch“, da die Auskunftsperson selbst ihre Antworten niederschreibt. Ausgewertet werden die Aufzeichnungsprotokolle mit Hilfe der Inhaltsanalyse (vgl. Abschnitt 5.2). Anwendung findet das Ladderingverfahren z.B. zur Bewertung von Produkten und Marken, zur Marktsegmentierung und zur Bewertung von Werbemaßnahmen. T Teecchhnniikkeenn ffüürr GGrruuppppeennddiisskkuussssiioonneenn Gruppendiskussionen werden von einem Moderator geleitet, dessen Aufgabe es ist, für einen reibungslosen und zielgerichteten Diskussionsverlauf zu sorgen (vgl. Lamnek 2016, S. 412). Die Gruppendiskussion beginnt mit einer Eröffnungsphase, in welcher der Moderator bzw. die Moderatorin die Aufgabe hat, anfängliche Hemmungen abzubauen und eine angenehme Gesprächsatmosphäre zu erzeugen. Hierzu gehören die individuelle Begrüßung, das gegenseitige Vorstellen der Diskussionsteilnehmenden sowie die Aufklärung über den Zweck der Untersuchung. Wichtig ist in diesem Zusammenhang auch, dass der Moderator die Teilnehmenden zu ernsthaftem Arbeiten motiviert, um eine „Kaffeeklatsch-Atmosphäre“ zu verhindern. Auch kann der Einstieg in die Diskussion durch das Beantworten einfacher Fragen, z.B. zu den Erfahrungen mit dem Produkt, erleichtert werden. Die sich anschließende Diskussionsphase erfordert seitens des Moderators nur noch einen begleitenden Einsatz. Im weiteren Verlauf der Diskussion hat er lediglich die Aufgabe, die Diskussion in Gang zu halten und möglichst viele Teilnehmende zu Aussagen zu animieren. Hierzu sind u.a. folgende Techniken möglich (vgl. Lamnek 2016, S. 417 f.): <?page no="388"?> 388 Qualitative Befragung Einfaches Nachfragen: Dadurch werden die Teilnehmenden angehalten, ihre Äußerung zu präzisieren und Unklarheiten zu beseitigen. Paraphrase: Eine bestimmte Aussage wird mit anderen Worten wiederholt, wodurch die Aussage verständlicher wird. Durch Übertreibung, Überspitzung oder Verschärfung kann die Aussage darüber hinaus provokativ formuliert werden und zu Gegenäußerungen animieren. Konfrontation: Der Moderator kann die Gruppe zu weiterem Nachdenken anregen, indem er gegensätzliche Meinungen gegenüberstellt oder die Gruppe mit den Auswirkungen einer Aussage konfrontiert. Eine weitere Aufgabe des Moderators besteht darin, zu verhindern, dass sich bestimmte Rollen in der Gruppenstruktur bilden bzw. verfestigen (vgl. Kepper 1996, S. 70). Das gilt insbesondere für die Rolle des „Schweigers“ und die des „Meinungsführers“. So kann der Moderator einerseits Wortmeldungen des Meinungsführers skeptisch gegenübertreten, andererseits einen Schweiger gezielt in die Diskussionsrunde integrieren. AAbbbb.. 99..77: : Ablauf einer kumulierten Gruppendiskussion (Quelle: Salcher 1995, S. 51) Neben diesen allgemeinen Techniken zur Durchführung von Gruppendiskussionen haben sich einige besondere Anwendungstechniken herausgebildet (vgl. Salcher 1995, S. 50 ff.): kumulierte Gruppendiskussion, kombinierte Gruppendiskussion und kontradiktorische Gruppendiskussion. Im Rahmen einer kumulierten Gruppendiskussion werden mehrere - i.d.R. 3 bis 5 - Gruppen gebildet. Die Diskussion innerhalb der ersten Gruppe verläuft nach dem üblichen Thema: Polstermöbel Gruppe (1) Gruppe (2) Gruppe (3) Gruppe (4) Gruppe (5) Ergebnis (1) Ergebnis (2) Ergebnis (3) Ergebnis (4) Gesamtergebnis <?page no="389"?> Gestaltung qualitativer Befragungen 389 Schema; in jeder weiteren Gruppe werden darüber hinaus die Ergebnisse der vorangegangenen Gruppe(n) diskutiert (vgl. Abb. 9.7). Dadurch kann zum einen eine Vielzahl an Meinungen, Ideen und Einstellungen gewonnen werden, zum anderen können die Attraktivität und die Tragfähigkeit einzelner Ideen eingeschätzt werden. Anwendung findet diese Methode insb. bei Konzepttests, z.B. im Rahmen der Produkt- oder Werbeforschung. Eine kombinierte Gruppendiskussion verbindet Einzelinterview und Gruppenbefragung. Zunächst erfolgen Einzelinterviews mit jedem Teilnehmenden, um deren Individualmeinungen zu einem bestimmten Thema festzuhalten. Daran schließt sich die eigentliche Gruppendiskussion an. Anschließend werden alle Teilnehmenden noch einmal zu einem abschließenden Einzelinterview gebeten. Auf diese Weise kann festgestellt werden, ob eine Veränderung der ursprünglichen Individualmeinung eingetreten ist und welche Argumente zu einer Meinungsänderung geführt haben. Die Meinungsänderungen werden in einem bestimmten Format protokolliert (vgl. Tab. 9.3). Auch diese Methode findet in der Produkt- und Werbeforschung Anwendung. T Taabb.. 99..33: : Protokoll zur Erfassung von Meinungsänderungen im Verlauf einer Gruppendiskussion (Quelle: in Anlehnung an Salcher 1995, S. 53) Probanden Änderungen im Meinungsprozess (innerhalb der Gruppe) Ausgangsmeinung Modifikation 1 Modifikation 2 Modifikation 3 Modifikation 4 Person A Person B Person C Person D Person E Person F Bei einer kontradiktorischen Gruppendiskussion wird ein Mitarbeiter des Marktforschungsinstituts als Gruppenmitglied getarnt in die Diskussionsrunde integriert. Seine Aufgabe besteht darin, der Gruppenmeinung kritisch gegenüberzutreten und die Gruppe mit gegenteiligen Argumenten zu konfrontieren. Dadurch können die Standfestigkeit und Beeinflussbarkeit der Gruppenmeinung überprüft werden. Die Methode wird insb. im Rahmen der Produktforschung angewendet und dient vor allem der Abschätzung der Stärken und Schwächen einer Produktidee sowie der Identifikation von Gründen für Meinungsänderungen oder von Argumenten zur Aufrechterhaltung der Gruppenmeinung. <?page no="391"?> 33 Q Quuaalliittaattiivvee BBeeoobbaacchhttuunngg Wie auch schon bei den verschiedenen Formen der Befragung kann die Beobachtung entweder auf einem quantitativen oder aber einem qualitativen methodischen Ansatz beruhen; die Trennung ist allerdings nicht so eindeutig wie bei der Befragung, da eine Beobachtung in vielen Fällen „per se“ einige typische Merkmale qualitativer Studien enthält, etwa kleine Stichproben oder die subjektive Interpretation des Beobachtungsgeschehens seitens des Beobachters. Während quantitative Beobachtungen insb. im Rahmen von Zählungen und Bestandsaufnahmen zur Anwendung kommen, finden qualitative Beobachtungen typischerweise im Rahmen der Erhebung psychischer Zustände statt, bei der also die Qualität des Verhaltens eine Rolle spielt (vgl. Ruso 2009, S. 527). Neben der „klassischen“ Verhaltensbeobachtung sind die folgenden weiteren Verfahren qualitativer Beobachtung zu nennen: Methode des lauten Denkens (vgl. Buber 2009): Die Probanden werden mit einer Aufgabe konfrontiert, z.B. Verwendung eines Produkts. Dabei sollen sie sämtliche in diesem Zusammenhang auftretenden Gedanken in Worte fassen und laut aussprechen. Auf diese Weise können Erklärungen für bestimmte Verhaltensweisen und mögliche Probleme gewonnen werden. Ethnographische Forschung (vgl. Mangold/ Kunert 2011): Hier wird nicht nur die kognitiv-verbale Verhaltensebene der Probanden erfasst, sondern auch sein Lebensraum und Konsumumfeld. Hierdurch werden wertvolle ergänzende Informationen über die Persönlichkeit der Auskunftsperson gewonnen. Weblogs und Brand Communities (vgl. Hoffmann 2009, Schroiff 2009): Durch das Führen unternehmensinterner Blogs oder eigener Brand Communities können das Such- und Kommunikationsverhalten der Nutzer registriert werden, z.B. Kommentare, Diskussionsbeiträge, Empfehlungen. Dieses Monitoring liefert wertvolle Hinweise für das Marketing. TTaabb.. 99..44: : Merkmale quantitativer und qualitativer Beobachtung Merkmal Quantitative Beobachtung Qualitative Beobachtung Strukturierungsgrad der Untersuchung Vorwiegend standardisiert Unstandardisiert Beobachtungsumfeld Laborbeobachtung bevorzugt Feldbeobachtung Partizipationsgrad des Beobachters Sowohl teilnehmend als auch nichtteilnehmend Sowohl teilnehmend als auch nichtteilnehmend Durchschaubarkeit der Erhebungssituation Sowohl offen als auch verdeckt Sowohl offen als auch verdeckt Form der Datensammlung Sowohl persönlich als auch apparativ Persönlich <?page no="392"?> 392 Qualitative Beobachtung Die wesentlichen Unterschiede zwischen quantitativen und qualitativen Beobachtungstechniken lassen sich durch die Ausprägungen der einzelnen Klassifikationsmerkmale einer Beobachtung voneinander abgrenzen (vgl. Tab. 9.4). Betrachtet man das Kriterium Strukturierungsgrad der Untersuchung gilt, dass im Rahmen quantitativer Marktforschung die standardisierte, vorstrukturierte Beobachtung bevorzugt eingesetzt wird, da diese Vorteile im Hinblick auf die Kodierung und Auswertung aufweist. Im Rahmen qualitativer Beobachtung findet hingegen ausschließlich die unstandardisierte, nicht strukturierte Form Anwendung (vgl. Kepper 2008, S. 204). Es wird auf vorab bestimmte Kategorien verzichtet, um die Beobachtung möglichst umfassend, flexibel und situationsadäquat zu halten. Der Beobachter entscheidet damit de facto selbst, welche Beobachtungen für die Untersuchung relevant sind, was das Problem der nichtkontrollierbaren Informationsselektion aufwirft. Das Problem der Informationsselektion ist allerdings auch bei der strukturierten, quantitativen Beobachtung gegeben; die Informationsselektion wird hier der eigentlichen Beobachtung vorgelagert, indem von vornherein die relevanten Beobachtungskategorien vorgegeben werden. Geeignete Beobachtungskategorien können jedoch nur dann vorgegeben werden, wenn ein entsprechendes Vorwissen besteht, welche Sachverhalte relevant sind; die Wahl geeigneter Kategorien stellt daher hohe Ansprüche an den Forscher. Andererseits stellt die unstrukturierte Beobachtung ebenfalls hohe Anforderungen an den Beobachter, da dieser über die Relevanz der einzelnen Vorgänge zu entscheiden hat. Um dieses Problem zu mindern, werden bei einer unstrukturierten Beobachtung üblicherweise Beobachtungsleitfäden erstellt, welche die verschiedenen jeweils relevanten Dimensionen einer Beobachtungssituation enthalten. Dazu gehören z.B. (vgl. Kepper 2008, S. 205): Beschreibung der Teilnehmenden, Schauplatz und sonstige situative Kontextfaktoren, Zweck der Untersuchung, Häufigkeit oder Dauer bestimmter Vorgänge. Diese Aspekte helfen dem Beobachter, bei der Erstellung der Beobachtungsprotokolle alle wichtigen Aspekte zu erfassen. Im Hinblick auf das Beobachtungsumfeld gilt, dass quantitative Beobachtungen bevorzugt als Laborbeobachtungen vorgenommen werden, um die Vorteile von Repräsentativität und Kontrollierbarkeit der interessierenden Faktoren in Anspruch nehmen zu können, wohingegen qualitative Studien oftmals die Feldbeobachtung vorziehen; der Grund ist darin zu sehen, dass qualitative Untersuchungen stets um die Beibehaltung möglichst alltagsnaher Kommunikationssituationen bemüht sind und das in Laborsituationen ggf. erzeugte atypische Verhalten (Beobachtungseffekt) zu verhindern suchen (vgl. Kepper 2008, S. 204). Im Hinblick auf den Partizipationsgrad des Forschers sind bei der quantitativen wie auch bei der qualitativen Beobachtung grundsätzlich sowohl die teilnehmende als auch die nichtteilnehmende Beobachtung möglich. Ob der Beobachter aktiv am Beobachtungsgeschehen teilnimmt, ist weniger eine Frage des methodischen Forschungsansatzes, als vielmehr des konkreten Untersuchungsproblems. Ähnliches gilt für die Durchschaubarkeit der Erhebungssituation. Sowohl quantitative als auch qualitative Analysen können grundsätzlich als offene oder verdeckte Beobachtung stattfinden. Bei quantitativen Studien, die auf der Grundlage einer Laborsituation durchgeführt werden, ist es allerdings einfacher, eine verdeckte Erhebungssituation zu erzeugen als bei qualitativen Beobachtungen, die fast immer als Felduntersuchungen stattfinden. <?page no="393"?> 393 Unterschiede weisen die beiden Forschungsansätze im Hinblick auf die Form der Datensammlung auf. Bei quantitativen Beobachtungen kommen sowohl die persönliche Datenerhebung durch den Beobachter als auch die Nutzung apparativer Verfahren zur Anwendung, die für Zählungen oder zur Messung psychophysiologischer Verhaltensindikatoren eingesetzt werden. Die Verwendung apparativer Hilfsmittel ist dabei typisch für Laborsituationen; häufig werden diese technischen Hilfsmittel eingesetzt, um bestimmte Stimuli gezielt zu präsentieren bzw. die Reaktionen der Testpersonen auf die Stimuli zu erfassen. Qualitative Studien sind hingegen bemüht, möglichst wenig in die Realität einzugreifen; aus diesem Grunde erfolgt die Aufzeichnung bei der qualitativen Beobachtung stets persönlich durch den Beobachter, d.h. es wird darauf verzichtet, durch gezielte Stimuli die beobachtete Person in ihrer natürlichen Reaktion zu beeinflussen (vgl. Kepper 2008, S. 204). Eingesetzt werden daher i.d.R. lediglich allgemeine Aufzeichnungsgeräte wie Tonband oder Video. Der besondere Nutzen qualitativer Beobachtungsmethoden für die Marktforschung liegt in der Möglichkeit, tatsächliches Verhalten aufzunehmen und als Basis für Interpretationen zu nutzen (vgl. Ruso 2009, S. 529; Nolte 2004, S. 41 f.). Durch die verschiedenen Formen der Beobachtung kann vor allem auch in durch soziale Normen geprägten Bereichen, wie z.B. persönliche Hygiene oder Ernährung, bzw. bei schwer verbalisierbaren Themen, die sich durch „low involvement“-Prozesse und automatisierte Aktionen kennzeichnen, tatsächliches Verhalten ermittelt werden. Da bei Beobachtungsmethoden nicht zwingend die Auskunftsbereitschaft und Auskunftsfähigkeit bestimmter Testpersonen verlangt wird, können durch diese Methode auch schwer erreichbare Zielgruppen, wie z.B. bestimmte Jugendsegmente und spezielle „leading edge“-Konsumenten, erreicht werden, die gerade für die Trendforschung von besonderer Wichtigkeit sind (vgl. Desai 2002, S. 12 ff.). Es gibt einige klassische Einsatzfelder für qualitative Beobachtungsmethoden. Grundsätzlich eignen sie sich im besonderen Maße für die Strukturierung von Untersuchungsproblemen, da durch das wenig standardisierte Vorgehen die Möglichkeit besteht, relevante Informationen zur Aufdeckung wichtiger Untersuchungsdimensionen zu ermitteln (vgl. Kepper 2008, S. 209). Beobachtungsmethoden werden dabei oftmals im Methodenmix mit Befragungsmethoden gekoppelt, um tatsächliches Nutzungsverhalten von Produkten („In-home Interviewing“) oder Konsumverhalten („Accompanied Shopping“) in realitätsnahen Situationen zu erfassen. Methoden der qualitativen Beobachtung werden jedoch durch einige negative Aspekte begrenzt. Um aus dem beobachteten Verhalten Schlüsse auf die zugrunde liegenden Einstellungen und Motivationen zu ziehen, bedarf es einer eingehenden Interpretation. Bei dieser besteht jedoch das Problem, dass der Forscher aufgrund der nicht kontrollierbaren Informationsselektion zu einer sehr subjektiv gefärbten Analyse der beobachteten Sachverhalte kommt (vgl. Ruso 2009, S. 529). Mangelnde Distanz zum Beobachteten erschwert darüber hinaus die Interpretation im wesentlichen Maße, genauso wie die Überidentifikation mit den zu beobachteten Personen. Bei verdeckten Beobachtungen ergeben sich ethische und rechtliche Probleme durch den Eingriff in die Persönlichkeitsrechte der Beobachteten. Nicht zu unterschätzen ist auch der Faktor, wie zeitintensiv die Vorbereitung, Erhebung und Analyse von Beobachtungsdaten ist. Aus diesem Grund können Beobachtungen in Forschungsstudien, die einem sehr restriktiven Zeitplan unterstehen, zumeist nicht angewandt werden (vgl. Daymon/ Holloway 2010, S. 274 f.). Einige Beispiele aus der Praxis sollen die Be- <?page no="394"?> 394 Qualitative Beobachtung deutung qualitativer Beobachtungsmethoden im Rahmen von Forschungsstudien illustrieren. Beispiel 9.7: Das Unternehmen Fisher Price betreibt in den USA eine Vorschule, um mögliche neue Produkte einem Feldtest zu unterziehen. Da Kleinkinder für andere Methoden der Marktforschung ansonsten nicht zugänglich sind, bietet hier die Beobachtung die einzige Möglichkeit, Erkenntnisse zu gewinnen. In einer Forschungsstudie vom Institut für Marktpsychologie, Mannheim, sollte das Kaufverhalten bei Haarpflegeprodukten am Point-of-Sale mittels Videoanalyse untersucht werden. Bei einer Stichprobe von 200 Beobachtungen zeigte sich, dass die Käufer in den meisten Fällen ein ganz bestimmtes Produkt suchen und nur ein geringer Anteil der Produktentscheidungen direkt am Regal getroffen wird. Für die Hersteller hat dieser Aspekt zur Konsequenz, dass Präferenzen für bestimmte Produkte bereits vor dem Kontakt am Point-of-Sale aufgebaut werden müssen und bei der Produktgestaltung die Marke und die jeweilige Sorte der Produktvariante eindeutig und prägnant identifizierbar sein müssen. In einer Studie unter Besuchern von Videotheken wurde festgestellt, dass Besucher zuerst den Film aussuchen und erst später auf dem Weg zur Kasse an Snacks und Getränken interessiert sind. Für die Betreiber ist es also zweckmäßig, ihre Videothek so einzurichten, dass zuerst die Filme präsentiert werden und Snacks und Getränke am Ende, z.B. an der Kasse angeboten werden, um sich den Kaufgewohnheiten der Konsumenten anzupassen. Quellen: http: / / www.fisher-price.com; Naderer 2000; Desai 2002, S. 19 f. <?page no="395"?> 44 AAnnffoorrddeerruunnggeenn aann qquuaalliittaattiivvee MMeessssvveerrffaahhrreenn Der offene Charakter qualitativer Forschungsmethoden und der weitgehende Verzicht auf eine Standardisierung der Methodik bedingen, dass diese vielfach als subjektiv gelten. Auch die Durchführung traditioneller Reliabilitäts- und Validitätsüberprüfungen stellt sich eher schwierig dar. Dennoch werden auch an qualitative Forschungen Forderungen nach Objektivität, Reliabilität, Validität und Repräsentativität gestellt. Eine reine Übertragung des traditionellen, quantitativ geprägten Gütebegriffs kommt für die qualitative Marktforschung allerdings nicht in Frage, weil dessen Prüfkriterien mit den konstituierenden Merkmalen qualitativer Forschung unvereinbar sind (vgl. Nolte 2004, S. 50). Nichtsdestotrotz sind auch qualitative Forscher bemüht, zuverlässige, gültige und generalisierbare Ergebnisse zu erzielen; aufgrund der weichen Datenstruktur und des offenen Charakters von Erhebung und Auswertung müssen hier jedoch teilweise andere Maßstäbe angesetzt werden. Objektivität im qualitativen Sinne bedeutet, dass die Durchführung der Erhebung sowie die Auswertung und Interpretation der Ergebnisse seitens des Forschers wertfrei und ohne subjektive Beeinflussung der Erhebungseinheiten zu erfolgen haben. Des Weiteren wird sowohl bei der Datenerhebung als auch bei der Datenauswertung und Interpretation Transparenz gefordert. Dies bedeutet, dass der Untersuchungsablauf sowie die Bedingungen von Aufbau und Ablauf der Erhebung explizit aufgezeichnet werden sollen. Die Objektivität der Ergebnisse lässt sich am Grad der Nachvollziehbarkeit durch Offenlegung der Analyseschritte und Transparenz der Interpretationsschritte erkennen. Auch ein multipersonaler Diskurs mehrerer Forscher oder eine voneinander unabhängige Auswertung und Interpretation können die Objektivität fördern (vgl. Kepper 1996, S. 203 f.). Als Kriterium der Objektivität wird darüber hinaus die Umfassendheit der Inhalte vorgeschlagen (vgl. Kepper 1995, S. 60). Ziel der qualitativen Vorgehensweise ist es u.a., das Spektrum an verschiedenen Problemdimensionen möglichst vollständig und ohne subjektive Prädetermination des Forschers zu erheben. Somit spiegelt sich die Objektivität einer Untersuchung auch im Grad der Umfassendheit der erhobenen relevanten Inhalte wider. Reliabilität betrifft die Genauigkeit der Messungen bei wiederholter Erhebung. Tabelle 9.5 zeigt gebräuchliche Reliabilitätskriterien bei qualitativen Untersuchungen. Aufgrund des offenen Charakters qualitativer Erhebungen lässt sich eine Messung meist nicht exakt wiederholen. Aus diesem Grunde lassen sich hierbei die quantitativen Prüfmethoden (Test-Retest, Parallel-Test, Split half) i.d.R. nicht anwenden, wenngleich sich gewisse Parallelen finden lassen. Gebräuchliche Prüfmethoden bei qualitativen Untersuchungen sind: Interkoderreliabilität (prozentuale Übereinstimmung der Kodierungen zweier parallel arbeitender Kodierer) Intrakoderreliabilität (prozentuale Übereinstimmung der Kodierungen eines einzigen Forschers zu zwei unterschiedlichen Zeitpunkten). <?page no="396"?> 396 Anforderungen an qualitative Messverfahren TTaabb.. 99..55: : Reliabilitätskriterien qualitativer Erhebungen Stabilität Die mehrmalige Anwendung eines Verfahrens führt zum selben Ergebnis. Reproduzierbarkeit Die Vorgehensbeschreibung einer Methode ist so präzise, dass ein anderer Forscher zu einem ähnlichen Ergebnis gelangen würde. Exaktheit Es wird angegeben, inwieweit eine Analyse einem bestimmten funktionellen Standard entspricht. Stimmigkeit Ziele und Methoden einer Forschungsarbeit müssen miteinander vereinbar sein. Validität betrifft die Genauigkeit, mit der ein Erhebungsinstrument das misst, was es zu messen vorgibt. Generell können qualitative Methoden als valide eingestuft werden, da sie - durch den Verzicht auf Standardisierung und Vorstrukturierung - die Kommunikationsmöglichkeiten eines Probanden nicht beschneiden. Dadurch kann die Erhebungsphase grundsätzlich als valide gelten. In der Auswertungsphase qualitativer Studien finden hingegen systematisierende, aggregierende und interpretierende Vorgänge statt, sodass eine Überprüfung der Validität in dieser Phase zweckmäßig ist. Tabelle 9.6 zeigt gängige Kriterien zur Überprüfung der Validität qualitativer Erhebungen (vgl. z.B. Mayring 2015, S. 125 ff.; Cropley 2019, S. 136). TTaabb.. 99..66: : Validitätskriterien qualitativer Erhebungen Semantische Validität Der Forscher interpretiert die Aussagen der Probanden richtig. Zur Überprüfung kann der Forscher z.B. Rücksprache mit den Testpersonen halten. Expertenvalidität Es werden verschiedene Forscher herangezogen, die die Gültigkeit der Vorgänge überprüfen. Korrelative Validität Die Ergebnisse werden mit den Resultaten ähnlicher Forschungen verglichen. Vorhersagevalidität Aus dem Datenmaterial lassen sich Prognosen für ähnliche Situationen ableiten. Konstruktvalidität Die Methode wurde bereits erfolgreich angewendet. Es handelt sich um bewährte Theorien und Modelle. Mit dem Untersuchungsgegenstand bestehen bereits ausreichende Erfahrungen. Ziel empirischer Erhebungen ist grundsätzlich die Gewinnung von Informationen über eine Gesamtheit von Erhebungseinheiten. Insofern kommt der Repräsentativität eine zentrale Rolle zu. Bei quantitativen Erhebungen wird Repräsentativität durch entsprechende Auswahlverfahren gewährleistet (vgl. Abschnitt 2.3 in Teil 7). Statistische Repräsentativität beinhaltet, dass von einer Stichprobe ein Rückschluss auf die Grundgesamtheit möglich ist, wobei der Fehler quantifizierbar ist. <?page no="397"?> 397 Eine Repräsentativität im Sinne der mathematischen Statistik ist bei qualitativen Untersuchungen nicht möglich; versteht man Repräsentativität jedoch im Sinne von Generalisierbarkeit der Ergebnisse, so ist auch qualitative Forschung um verallgemeinerbare Ergebnisse bemüht. Das geschieht beispielsweise durch Suche nach „typischen“ Vertretern einer bestimmten Kategorie von Untersuchungseinheiten (zur typischen Auswahl vgl. Kapitel 4 in diesem Teil), Anwendung anerkannter Theorien und Methoden, Systematisches Auffinden von Gemeinsamkeiten und Unterschieden aus den Einzelfällen, fortlaufende Erweiterung der Stichprobe gemäß der für die Theoriebildung wichtigen Überlegungen, Suche nach Generalisierungsmöglichkeiten aus den Einzelfällen, Herausfiltern der wesentlichen Ereignisse und Bedingungen, die den Untersuchungsgegenstand beeinflussen. Als Kriterien für das Vorliegen von Generalisierbarkeit i.S. externer Validität können Glaubwürdigkeit (d.h. die Befunde sind von einem Fachpublikum nachvollziehbar) und Nützlichkeit (die Befunde lassen sich praktisch einsetzen) angeführt werden (vgl. Cropley 2019, S. 135). <?page no="399"?> 55 S Sttiicchhpprroobbeennbbiilldduunngg bbeeii qquuaalliittaattiivveenn EErrhheebbuunnggeenn Bei qualitativen Erhebungen steht die statistische Repräsentativität nicht im Vordergrund, sodass die Zufallsauswahl kaum eine Rolle spielt. Die qualitative Forschung bedient sich i.d.R. einer gezielten Stichprobenziehung i.S. der bewussten Auswahl. Ziel ist nicht die statistische Verallgemeinerbarkeit der Stichprobe, sondern die inhaltliche Verallgemeinerbarkeit. Die Stichprobe hat hier die Aufgabe, eine tiefergehende Analyse des zu untersuchenden Phänomens zu ermöglichen. Zentral ist daher nicht die Zahl der einbezogenen Fälle, sondern deren Eignung zur Beschreibung des Phänomens (vgl. Schreier 2011, S. 245). Qualitative Stichproben lassen sich unterscheiden in homogene oder heterogene Stichproben sowie daten- und theoriegesteuerte Stichproben. Während homogene Stichproben aus ähnlichen Fällen bestehen (z.B. Intensivverwender eines Produkts), versuchen heterogene Stichproben die gesamte Bandbreite eines Phänomens abzubilden (wodurch auch Nichtverwender in die Stichprobe gelangen würden). Die Unterscheidung zwischen daten-und theoriegesteuerten Verfahren resultiert hingegen aus dem Vorwissen über ein Phänomen. In beiden Fällen soll die Stichprobe so ausgewählt werden, dass Merkmale, die sich auf den Untersuchungsgegenstand auswirken, in der Stichprobe auch vertreten sind. Datengesteuerte Verfahren liefern dabei Wissen darüber, welche Merkmale für die Informationsgewinnung relevant sind; bei theoriegesteuerten Verfahren sind die erhebungsrelevanten Merkmale dagegen bereits bekannt. Tabelle 9.7 zeigt die gängigsten Verfahren qualitativer Stichprobenbildung. TTaabb.. 99..77: : Verfahren der qualitativen Stichprobenbildung Datengesteuerte Verfahren Theoriegesteuerte Verfahren „Theoretical Sampling“ bestätigende Fallauswahl kontrastierende Fallauswahl qualitative Stichprobenpläne gezielte Falltypenauswahl Unter dem irreführenden Begriff des Theoretical Sampling - tatsächlich handelt es sich hier um ein datengestütztes Verfahren - versteht man eine Methode, welche auf dem sog. „Constant Comparison“-Prinzip beruht (vgl. Schreier 2011, S. 247 f.). Auf der Grundlage einer ersten Vermutung, welche Gruppe von Personen von einem Phänomen besonders betroffen sein könnte (z.B. junge Alleinerziehende mit geringerem Einkommen als Nachfragerinnen von Mutter-und-Kind-Kuren), wird ein erster Fall erhoben und ausgewertet. Nach dem Prinzip der maximalen Ähnlichkeit wählt man anschließend eine weitere Frau aus derselben Personengruppe. Bestätigt das zweite Interview die ursprüngliche Vermutung, so wird in einem weiteren Schritt eine Person ausgewählt, die dem ersten Typus möglichst unähnlich ist (in der Erwartung, diese sei vom zu untersuchenden Phänomen weniger oder gar nicht betroffen). Durch wiederholte Anwendung der Prinzipien der maximalen und minimalen Ähnlichkeit lassen sich im Wege eines Trial and Error-Prozesses sukzessive diejenigen Merkmale identifizieren, die im Zusammenhang mit dem interessierenden Phänomen stehen. <?page no="400"?> 400 Stichprobenbildung bei qualitativen Erhebungen Im Rahmen einer bestätigenden Fallauswahl (Confirmatory Sampling) wird nur das Prinzip der maximalen Ähnlichkeit zugrunde gelegt: Es kommen gezielt solche Fälle in die Stichprobe, von denen erwartet wird, dass sie mit den bisherigen Ergebnissen in Einklang stehen, wodurch eine homogene Stichprobe entsteht. Hingegen werden im Rahmen einer Fallkontrastierung bewusst Fälle einbezogen, welche gerade eine gegenteilige Evidenz produzieren, d.h. es werden hier verschiedene Fälle einander gegenübergestellt, sodass eine heterogene Stichprobe resultiert (vgl. Kelle/ Kluge 2010, S. 48 ff.). Im Vergleich zum Theoretical Sampling sind die beiden letztgenannten Verfahren einfacher zu handhaben. Qualitative Stichprobenpläne ähneln einer Quotenstichprobe bei quantitativen Erhebungen und erfordern die folgenden Schritte (vgl. Kelle/ Kluge 2010, S. 50 ff.): Festlegung des Geltungsbereichs der Untersuchung, Identifikation der untersuchungsrelevanten Merkmale, Festlegung der Merkmalskombinationen des Plans (Zellen), Festlegung der zu erhebenden Zahl der Fälle pro Zelle, Fallauswahl. Tabelle 9.8 zeigt ein Beispiel für einen qualitativen Stichprobenplan für Alleinerziehende mit den Merkmalen „Schulbildung”, „Erwerbstätigkeit” und „Wohnort“. Die Zahl der Fälle repräsentiert dabei nicht eine wie auch immer geartete Merkmalsverteilung in der Grundgesamtheit, sondern eher die (vermutete) Relevanz bestimmter Untergruppen für das zu untersuchende Phänomen. T Taabb.. 99..88: Beispiel für einen qualitativen Stichprobenplan Erwerbstätig Nicht erwerbstätig Stadt Land Stadt Land Volks- und Hauptschule 2 1 4 2 Realschule und Gymnasium 2 1 3 1 Ein gewisses Vorwissen ist auch bei der gezielten Falltypenauswahl erforderlich (kriterienorientiertes Sampling). Es werden hier gezielt solche Fälle ausgewählt, welche bestimmte Kriterien erfüllen, z.B. (vgl. Schreier 2011, S. 251 f.; Kepper 1996, S. 233 f.): Intensive Case Sampling: Auswahl von Fällen, die eine Eigenschaft in ausgeprägter Form aufweisen, z.B. häufige Nutzer eines bestimmten Produkts; Extreme Case Sampling: Auswahl von Fällen mit Extremausprägungen, z.B. Intensivverwender, aber auch Nichtverwender; Typical Case Sampling: Auswahl von Fällen, die besonders prägnant die Mehrheit der Untersuchungssubjekte repräsentieren; Critical Case Sampling: Auswahl von Fällen, die eine besonders problematische Untergruppe repräsentieren. Unabhängig von der Art der Stichprobenbildung können homogene Stichproben im Wege des Schneeballverfahrens gewonnen werden (vgl. Abschnitt 2.4 in Teil 7). <?page no="401"?> 66 A Auuffbbeerreeiittuunngg uunndd AAuusswweerrttuunngg qquuaalliittaattiivveerr DDaatteenn 66..11 ÜÜbbeerrbblliicckk Qualitative Erhebungen produzieren vergleichsweise weiche Daten, welche sich i.A. nicht mit Hilfe quantitativer Verfahren auswerten lassen. Gelegentlich lassen sich die Ergebnisse sofort aus den Aufzeichnungen bzw. dem Gespräch ableiten; dies ist z.B. bei der Ideengenerierung möglich, etwa im Rahmen einer Gruppendiskussion zur Produktentwicklung. In den meisten Fällen erhält man jedoch aus einer qualitativen Erhebung eine Fülle an audiovisuellem und textlichem Material, welches transkribiert, geordnet und ausgewertet werden muss. Nach der Transkription des Datenmaterials liegen die Ergebnisse in schriftlicher Form vor. Zur Analyse von Textmaterial sind verschiedene Ansätze entwickelt worden: der quantitativ-statistische, der interpretativ-reduktive und der interpretativ-explikative Ansatz (vgl. Lamnek 2016, S. 379). Anfänglich wurde der Inhaltsanalyse ein quantitatives Methodenverständnis zugrunde gelegt; mit Hilfe von Häufigkeits-(Frequenz-) oder Kontingenzanalysen wurde Textmaterial quantitativ untersucht (vgl. Mayring 2015, S. 17 ff.). Hintergrund dieser Auffassung war, dass eine empirische Methode systematisch und intersubjektiv nachvollziehbar sein müsse, um als wissenschaftlich zu gelten. Es zeigte sich jedoch, dass quantitative Techniken für sozialwissenschaftliche Probleme nur eine begrenzte Aussagefähigkeit haben (vgl. Kepper 1996, S. 57). Mittlerweile besteht in der Sozialforschung die Tendenz, qualitative Daten interpretativ auszuwerten. Im Folgenden soll auf die qualitative Inhaltsanalyse als zentrale Methode für die Auswertung qualitativer Daten eingegangen werden. 66..22 QQuuaalliittaattiivvee IInnhhaallttssaannaallyyssee 66..22..11 G Grruunnddggeeddaannkkee ddeerr qquuaalliittaattiivveenn IInnhhaallttssaannaallyyssee Definition Die qualitative Inhaltsanalyse stellt einen Ansatz empirischer, methodisch kontrollierter Auswertung qualitativer Daten dar. Gegenstand der qualitativen Inhaltsanalyse kann jede Art von aufgezeichneten Kommunikationsvorgängen sein (Dokumente, Audio- und Videobänder, Gesprächsprotokolle usw.). Dabei werden nicht nur der Inhalt, sondern auch die formalen Aspekte des Materials analysiert; die Auswertung erfolgt systematisch und nach bestimmten Regeln mit dem Ziel, die Methodik nachvollziehbar und die Ergebnisse verallgemeinerbar zu machen (vgl. Mayring 2000, o.S.). <?page no="402"?> 402 Aufbereitung und Auswertung qualitativer Daten Die Inhaltsanalyse stellt einen interdisziplinären Ansatz dar, welcher Elemente verschiedener Fachrichtungen enthält (vgl. Mayring 2015, S. 26 ff.): Kommunikationswissenschaften (Content Analysis). Hierbei handelt es sich grundsätzlich um einen quantitativen Ansatz; einige Aspekte lassen sich jedoch auf qualitative Inhaltsanalysen übertragen, etwa die systematische Vorgehensweise, die Einbettung des Materials in ein Kommunikationsmodell, die Anwendung eines Kategoriensystems sowie die intersubjektive Nachprüfbarkeit. Hermeneutik: Ziel der Hermeneutik ist es, eine Kunstlehre des Auslegens bzw. des Interpretierens nicht nur von Texten, sondern der sinnlich wahrnehmbaren Realität überhaupt zu entwickeln. Für die Entwicklung einer qualitativen Analyse sind hier die genaue Quellenkunde, die explizite Darstellung des Vorverständnisses (Fragestellung, theoretischer Hintergrund etc.) sowie die Suche nach latenten, verborgenen Sinngehalten hinter den sichtbaren Strukturen relevant. Qualitative Sozialforschung: Als typische Elemente qualitativer Sozialforschung, welche sich auf die qualitative Inhaltsanalyse übertragen lassen, gelten die wissenschaftliche Orientierung an Alltagssituationen, die Übernahme der Perspektive des Untersuchungssubjekts sowie die Möglichkeit der Re-Interpretation qualitativen Materials. Sprach- und Literaturwissenschaft als Theorie und Methodik systematischer Textanalyse: Wesentliche daraus abzuleitende Anforderungen an eine qualitative Inhaltsanalyse sind die Übernahme semiotischer Grundbegriffe in das zugrunde liegende Kommunikationsmodell, die Nutzung von Interpretationsregeln für die Textanalyse sowie die Zuordnung bestimmter Bedeutungsinhalte zu Begriffen nach vorgegebenen Regeln. Psychologie der Textverarbeitung, welche das Ziel hat, die psychischen Prozesse beim Verstehen, d.h. bei der Verarbeitung von Texten empirisch zu untersuchen. Für die qualitative Inhaltsanalyse lässt sich ableiten, dass das kognitive Schema des Textverständnisses offengelegt wird und dass das sprachliche Material systematisch zusammengefasst, d.h. nach bestimmten Regeln reduziert wird. Allgemein sind folgende Elemente typisch für eine qualitative Inhaltsanalyse (vgl. Mayring 2000, o.S.): Einordnung in ein Kommunikationsmodell: Hierzu gehören die Festlegung des Ziels der Analyse, Merkmale des Textproduzenten (wie Erfahrungen, Einstellungen, Gefühle), Entstehungssituation des Materials, soziokultureller Hintergrund, Wirkung des Textes. Regelgeleitetheit: Dies beinhaltet die Zerlegung des Materials in Analyseeinheiten und dessen schrittweise Bearbeitung nach einem genau definierten inhaltsanalytischen Ablaufmodell. Kategorisierung: Die einzelnen Analysedimensionen bzw. Variablen werden in Kategorien zusammengefasst, die präzise zu begründen und im Laufe der Auswertung zu überprüfen und ggf. zu überarbeiten sind. <?page no="403"?> Qualitative Inhaltsanalyse 403 Erfüllung von Gütekriterien: Das Verfahren soll intersubjektiv nachprüfbar sein, die Ergebnisse sollen vergleichbar gemacht und Reliabilitätsprüfungen sollen eingebaut werden. Der allgemeine Ablauf einer qualitativen Inhaltsanalyse besteht aus vier Phasen (vgl. Lamnek 2016, S. 379 ff.): Transkription, Einzelanalyse, generalisierende Analyse und Kontrolle. Die Transkription beinhaltet die Übertragung von Aufzeichnungen jeglicher Art in geschriebene Texte. Entscheidend ist dabei, dass eine Transkription sowohl die Äußerungen des Moderators bzw. des Interviewers wie auch deren unmittelbare Eindrücke enthält, da diese wertvolle Hinweise für die Interpretation der Aussagen der Auskunftspersonen liefern. Zudem ist zu berücksichtigen, dass auch bei qualitativen Interviews eine Fülle nonverbaler Daten anfällt (z.B. Körpersprache, Gestik, Mimik), welche ebenfalls dokumentiert werden müssen. AAbbbb.. 99..88: : Ablaufmodell induktiver Kategorienbildung (Quelle: Mayring 2000, o.S.) Im Rahmen der Einzelanalyse werden die individuellen Fälle (Interviews, Beobachtungsprotokolle) im Detail untersucht. Hierzu kommen bestimmte Techniken zur Anwendung (Strukturierung, Explikation und Zusammenfassung), welche im nachfolgenden Abschnitt 5.2.2 beschrieben werden. Ziel ist es, den Text zu strukturieren und bestimmten Kategorien zuzuordnen. Im Mittelpunkt der Einzelanalyse steht dabei die Bildung von Kategorien als Grundlage für die Zuordnung des Materials. Hierbei sind folgende Ansatzpunkte gegeben (vgl. Mayring 2000): Gegenstand, Fragestellung Festlegung von Kategoriendefinition (Selektionskriterium) und Abstraktionsniveau für die induktive Kategorienbildung Überarbeitung der Kategorien nach ca. 10 - 50 % des Materials Auswertung, evtl. quantitative Analysen (z.B. Häufigkeiten) Formative Reliabilitätsprüfung Summative Reliabilitätsprüfung Schrittweise induktive Kategorienbildung aus dem Material heraus in Bezug auf Definition und Abstraktionsniveau; Subsumtion unter alte Kategorien oder Kategorienneubildung Endgültiger Materialdurchgang <?page no="404"?> 404 Aufbereitung und Auswertung qualitativer Daten induktive Kategorienentwicklung und deduktive Kategorienanwendung. Induktive Kategorienentwicklung bedeutet, dass die Kategorien direkt aus dem Material im Rahmen eines Verallgemeinerungsprozesses abgeleitet werden. Aus der Fragestellung der Studie wird ein Definitionskriterium festgelegt, welches bestimmt, welche Aspekte des Materials berücksichtigt werden sollen. Darauf aufbauend wird das Material schrittweise durchgearbeitet, um Kategorien zu bilden. Nach Zuordnung des Materials zu den Kategorien kann die eigentliche Auswertung erfolgen. Abbildung 9.8 zeigt den Ablauf einer induktiven Kategorienbildung. Im Rahmen der deduktiven Kategorienanwendung werden vorab festgelegte, theoretisch begründete Kategorien gebildet, welche zur Kategorisierung des Materials zugrunde zu legen sind. Der qualitative Analyseschritt besteht darin, die auf diese Weise deduktiv gewonnenen Kategorien methodisch abgesichert zu Textstellen zuzuordnen. Das Ablaufmodell ist in Abb. 9.9 enthalten. Zentrales Element ist hier die genaue Definition der anzuwendenden Kategorien und die Festlegung präziser inhaltsanalytischer Regeln, wann eine Textstelle einer bestimmten Kategorie zuzuordnen ist. Zu diesem Zweck empfiehlt sich die Anwendung eines Kodierleitfadens, in welchem explizite Definitionen, Ankerbeispiele und Kodierregeln formuliert werden. Steht das Kategoriensystem fest, wird das Einzelmaterial danach geordnet und strukturiert. AAbbbb.. 99..99: : Ablaufmodell deduktiver Kategorienanwendung (Quelle: Mayring 2000, o.S.) Die Ergebnisse der Einzelanalyse bilden die Grundlage für die generalisierende Analyse. In dieser Phase werden Gemeinsamkeiten und Unterschiede zwischen den einzelnen Fällen herausgearbeitet; Gemeinsamkeiten können Grundtendenzen enthalten, welche für die Befragten als typisch angesehen werden können; andererseits zeigen die Unterschiede inhaltliche Differenzen auf, welche ebenso Ansätze zur Verhaltenserklärung bieten können. Auf dieser Stufe ist ein kreativer Prozess seitens des Forschers erforderlich; dieser soll typische Muster erkennen und sie mit theoretischen Erkenntnissen in Verbindung Gegenstand, Fragestellung Theoriengeleitete Festlegung der Strukturierungsdimensionen als Haupt- und evtl. Unterkategorien Überarbeitung der Kategorien und des Kodierleitfadens Auswertung, evtl. quantitative Analysen (z.B. Häufigkeiten) Formative Reliabilitätsprüfung Summative Reliabilitätsprüfung Theoriegeleitete Formulierung von Definitionen, Ankerbeispielen und Kodierregeln Zusammenstellung zu einem Kodierleitfaden Endgültiger Materialdurchgang <?page no="405"?> Qualitative Inhaltsanalyse 405 bringen. Der Fokus liegt hier auf dem Aufzeigen von Interdependenzen zwischen den Einzelergebnissen und auf der Reflexion vor dem Hintergrund anerkannter theoretischer Zusammenhänge (vgl. Carson et al. 2001, S. 176 f.). Dies erlaubt die Erklärung der Phänomene im Zusammenhang mit der jeweiligen Fragestellung. Die letzte Phase ist die Kontrollphase. Aufgrund des interpretativen Ansatzes sind Fehlinterpretationen nicht ausgeschlossen, sodass es empfehlenswert ist, die Ergebnisse noch einmal zu kontrollieren. Dies kann durch Selbst- oder Fremdkontrolle geschehen. Im Falle von Widersprüchen oder Unschlüssigkeiten sollte der Bezug zum Original wiederhergestellt werden, um die Interpretation anhand des originären Datenmaterials zu überprüfen. Erfolgt die Auswertung in Gruppenarbeit, bietet es sich an, die Ergebnisse in der Gruppe zu diskutieren. Eine Kontrolle ist unerlässlich, soll die qualitative Inhaltsanalyse den Anforderungen an Objektivität, Reliabilität und Validität genügen (vgl. hierzu die Ausführungen in Kapitel 3). 66..22..22 T Teecchhnniikkeenn ddeerr qquuaalliittaattiivveenn IInnhhaallttssaannaallyyssee Die Grundtechniken qualitativer Inhaltsanalysen umfassen die Zusammenfassung, die Explikation und die Strukturierung. Die Zusammenfassung zielt darauf ab, aus dem häufig umfangreichen Grundmaterial eine reduzierte, überschaubare Form herzustellen, die dennoch ein ausreichend exaktes Abbild des Grundmaterials darstellt (vgl. ausführlich Mayring 2015, S. 69 ff.). Die Aufzeichnungen werden durchgesehen, irrelevante sowie wiederholte Textpassagen werden gestrichen. Irrelevante Passagen sind beispielsweise Füllwörter wie „wissen Sie“, „meine ich“ u.Ä. Wiederholungen können zwar darauf hinweisen, dass der Proband einem bestimmten Aspekt eine besondere Bedeutung beimisst, sie sind jedoch entbehrlich, da sie zu keinen neuen Erkenntnissen führen (vgl. Cropley 2019, S. 145). Anschließend wird der Text in eine einheitliche Sprache umgewandelt und die Sätze werden in eine grammatikalische Kurzform gebracht (Paraphrasierung). Beispiel 9.8: „Alles in allem kann ich nicht behaupten, dass dieses Produkt eine echte Verbesserung gegenüber der alten Variante darstellt“, wird zu: „keine echte Verbesserung“. Das aus der Paraphrasierung entstandene Material wird anschließend dadurch verallgemeinert, dass die einzelnen Aussagen auf die gleiche Abstraktionsebene gebracht werden, indem sie umformuliert werden. Dadurch können inhaltsgleiche Paraphrasen, d.h. vergleichbare Aussagemuster identifiziert werden, die anschließend einer Reduktion unterzogen werden können. Im Rahmen einer Reduktion werden aussagegleiche Paraphrasen gestrichen, lediglich die zentrale Aussage wird übernommen. In Einzelfällen sind weitere Reduktionsschritte erforderlich. Beispiel 9.9: Die Aussage: „Die am ursprünglichen Produkt vorgenommenen Änderungen sind nur teilweise gelungen“ kann zu „nur teilweise gelungen“ paraphrasiert werden. Diese Paraphrase kann als aussagegleich wie die aus Beispiel 9.8 angesehen und damit gestrichen werden. Die zentralen Aussagen bilden die Grundlage für eine fallübergreifende Sammlung bzw. Kategorisierung der Daten (vgl. den vorangegangenen Abschnitt 5.2.1). Das entstandene Kategoriensystem wird abschließend anhand des Ausgangsmaterials überprüft. <?page no="406"?> 406 Aufbereitung und Auswertung qualitativer Daten TTaabb.. 99..99: : Beispiel für einen Kodierleitfaden (Quelle: Mayring 2000, o.S.) Kategorie Definition Ankerbeispiele Kodierregeln K1: hohes Selbstvertrauen Hohe subjektive Gewissheit, mit der Anforderung gut fertig geworden zu sein, d.h. Klarheit über die Art der Anforderung und deren Bewältigung, Positives, hoffnungsvolles Gefühl beim Umfang mit der Anforderung, Überzeugung, die Bewältigung der Anforderung selbst in der Hand gehabt zu haben. „Sicher hat’s mal ein Problemchen gegeben, aber das wurde dann halt ausgeräumt, entweder von mir die Einsicht, oder vom Schüler, je nachdem, wer den Fehler gemacht hat. Fehler macht ja ein jeder.“ (17, 23) Ja klar, Probleme gab’s natürlich, aber zum Schluss hatten wir ein sehr gutes Verhältnis, hatten wir uns zusammengerauft.“ (27,33) Alle drei Aspekte der Definition müssen in Richtung „hoch“ weisen, es soll kein Aspekt auf nur mittleres Selbstvertrauen schließen lassen. Sonst Kodierung „mittleres S“. K2: mittleres Selbstvertrauen Nur teilweise oder schwankende Gewissheit, mit der Anforderung gut fertig geworden zu sein. „Ich hab mich da einigermaßen durchlaviert, aber es war oft eine Gratwanderung.“ (3, 55) „Mit der Zeit ist es etwas besser geworden, aber ob das an mir oder an den Umständen lag, weiß ich nicht.“ (77, 20) Wenn nicht alle drei Definitionsaspekte auf „hoch“ oder „niedrig“ schließen lassen K3: niedriges Selbstvertrauen Überzeugung, mit der Anforderung schlecht fertig geworden zu sein, d.h. wenig Klarheit über die Art der Anforderung, negatives, pessimistisches Gefühl beim Umgang mit der Anforderung, Überzeugung, den Umgang mit der Anforderung nicht selbst in der Hand gehabt zu haben. „Das hat mein Selbstvertrauen getroffen; da hab ich gemeint, ich bin eine Null - oder ein Minus.“ (5, 34) Alle drei Aspekte deuten auf ein niedriges Selbstvertrauen, auch keine Schwankungen erkennbar Die zweite Grundtechnik, die Explikation (Kontextanalyse), wird insb. auf unverständliche Textpassagen angewandt, deren Bedeutung nicht unmittelbar erschließbar ist (vgl. Mayring 2015, S. 90 ff.). Solche Textstellen müssen weitergehend interpretiert werden, was zusätzliche Informationen erfordert. Mögliche Informationsquellen sind der engere Kontext, das umliegende Textfeld und der weitere Kontext. Häufig müssen Informati- <?page no="407"?> Analyse nonverbaler Daten 407 onen jedoch auch aus Quellen außerhalb des reinen Textes gewonnen werden. Beispielsweise kann es erforderlich sein, dass einige Textpassagen vor dem sozialen Hintergrund des Probanden ausgelegt werden müssen. Von besonderer Bedeutung sind auch nonverbale Signale wie Tonfall, Lautstärke, Mimik und Gestik. Diese können die Ergebnisse der Interpretation präzisieren und z.B. Gefühle und Beziehungsaspekte verdeutlichen. Der durch die Explikation erweiterte Text kann anschließend durch Zusammenfassung erneut bearbeitet werden. Die Technik der Strukturierung eignet sich insbesondere bei großen Textmengen. Durch diese Technik werden inhaltliche Aspekte nach bestimmten Ordnungskriterien herausgefiltert und systematisiert. Dadurch entsteht ein Kodierleitfaden, der eine entsprechende Strukturierung und Systematisierung der relevanten Textstellen verspricht; hierzu muss das Kategoriensystem jedoch vorab festgelegt worden sein. Die Strukturdimensionen werden aus der untersuchungsspezifischen Fragestellung und theoretischen Vorüberlegungen abgeleitet. Nach dem ersten Materialdurchgang kann es erforderlich sein, das Kategoriensystem zu überarbeiten. Steht das Kategoriensystem endgültig fest, werden konkreten Textstellen prototypische Funktionen zugeordnet, d.h. sie dienen als Ankerbeispiele für bestimmte Kategorien. Tabelle 9.9 zeigt ein Beispiel für einen Kodierleitfaden. (Bei den Ankerbeispielen werden in Klammern die Nummer des Probanden und die jeweilige Textstelle angegeben). Auch die Strukturierung dient dazu, das vorhandene Material so zu ändern, dass es die Grundlage für fallübergreifende Vergleichsmöglichkeiten bietet. 66..22..33 B Beeuurrtteeiilluunngg ddeerr qquuaalliittaattiivveenn IInnhhaallttssaannaallyyssee Die qualitative Inhaltsanalyse erlaubt die Auswertung der in der Sozialforschung häufig vorkommenden „weichen“ Daten; gleichzeitig genügt sie den Standards eines methodisch kontrollierten Vorgehens, sodass die Ergebnisse der Analyse spezifischen Gütekriterien genügen (vgl. die Ausführungen in Kapitel 4). Mit Hilfe qualitativer Inhaltsanalysen lassen sich auch größere Textmengen untersuchen. Unterstützt wird die Analyse mittlerweile durch eine ganze Reihe von Softwareprogrammen, welche Hilfestellung bei der qualitativen Arbeit mit Texten bieten (vgl. ausführlich Mayring 2015, S. 115 ff. sowie Klein 2013). Zu nennen sind z.B. ATLAS/ ti (www.atlasti.de), TextQuest und MAXQDA (www.maxqda.de). Grenzen der qualitativen Inhaltsanalyse finden sich vor allem dort, wo der Untersuchungscharakter rein explorativ ist und die mit der qualitativen Inhaltsanalyse verbundene systematische, regelgeleitete Vorgehensweise nicht angemessen erscheint. Insbesondere bei schlecht strukturierten, offenen Untersuchungsgegenständen kann die Bildung und Nutzung fester Kategorien als einschränkend empfunden werden. 66..33 AAnnaallyyssee nnoonnvveerrbbaalleerr DDaatteenn Nonverbale Daten begleiten zum einen die Erhebung verbaler Daten im Rahmen qualitativer Interviews. Zum anderen entstehen sie im Zusammenhang qualitativer Beobachtungen. Im Rahmen der Erhebung verbaler Daten liefern Körpersprache, Gestik oder Mimik wertvolle Kontextinformationen für die Analyse und Interpretation verbaler Aussagen der Probanden (vgl. Naderer 2011, S. 428). Aufschlussreich sind nonverbale Äußerungen aber auch dann, wenn sie im Widerspruch zu verbalen Aussagen stehen, da sie <?page no="408"?> 408 Aufbereitung und Auswertung qualitativer Daten letztere relativieren können. Beispielsweise können eine verkrampfte Körperhaltung oder das Abwenden des Blickes eine vorgetragene Überzeugung durchaus abschwächen. Auch Beobachtungen können mit Hilfe der qualitativen Inhaltsanalyse ausgewertet werden. Die Analyse bezieht sich meist auf die beobachteten Personen und deren Verhaltensweisen. Soziale Beziehungen können nicht nur direkt, sondern auch mit Hilfe sog. Artefakte beobachtet werden, d.h. Spuren oder Gebrauchsgegenstände, denen die Probanden eine bestimmte Bedeutung zuordnen (vgl. Lueger 2000, S. 141 f.). Die Artefakteanalyse kann - zusätzlich zur Inhaltsanalyse - Aufschluss über soziale Zusammenhänge geben. Dabei wird angenommen, dass Artefakten aufgrund ihrer Integration in den Handlungskontext ein Sinn zugeordnet wird (vgl. Sayre 2001, S. 195). Artefakte können so oftmals einen zentralen Untersuchungsgegenstand darstellen. Ziel der Artefakteanalyse ist die Ermittlung des Wirkungszusammenhangs zwischen Kontext und Artefakt. Dieser beinhaltet zwei Richtungen: Zum einen die Wirkung des Kontextes auf das Artefakt, zum anderen die Wirkung des Artefakts auf den Kontext. Die Bedeutung des Artefakts und damit die Sinnstrukturen, die hinter der Verwendung stehen, müssen im Detail analysiert werden. Dabei ist die menschliche Vorstellungskraft entscheidend, da Artefakte erst zu Artefakten werden, wenn ihnen eine Bedeutung im sozialen Kontext zugeordnet worden ist. Oftmals ist die Bedeutung schon eindeutig vorgegeben (vgl. Lueger 2000, S. 147), z.B. bei Werkzeugen. Andere Gegenstände können unterschiedliche Bedeutungen haben: Beispielsweise ist ein Auto für einige ein Gebrauchsgegenstand, für andere ein Statussymbol. Wichtige Artefakte für die Marktforschung sind u.a. Gebrauchsgegenstände, Werkzeuge oder Statussymbole. Auch Einrichtungsstile können wichtige Auskünfte über die Untersuchungseinheiten geben (vgl. Sayre 2001, S. 195); aus diesem Grunde werden Teilnehmende an qualitativen Untersuchungen unabhängig vom Untersuchungsstandort oftmals zunächst in ihrer häuslichen Umgebung fotografiert. Zur besseren Dokumentation solcher visuellen Daten werden meist apparative Hilfsmittel eingesetzt (vgl. Naderer 2011, S. 429). Weiterführende Literatur Baker, S. (2000): Laddering: Making Sense of Meaning, in: Partington, D. (ed.): Essential Skills for Management Research, London, 226-253. Buber, R., Holzmüller, H. (Hrsg). (2009): Qualitative Marktforschung, 2. Aufl., Wiesbaden. Calteral, M., Maclaran, P. (1998): Using Computer Software for the Analysis of Qualitative Market Research, in: Journal of the Market Research Society, 40(3), 207-222. Collins, M., Kalian, G. (1980): Coding Verbatim Answers to Open Questions, in: Journal of the Market Research Society, 22 (Oct.), 239-247. Daymon C., Holloway, I. (2010): Qualitative Research Methods in Public Relations and Marketing Communications, 2 nd ed., London, New York. Johnson, J.C. (1990): Selecting Ethnographic Informants, Newbury Park. Kelle, U., Kluge, S. (2010): Vom Einzelfall zum Typus, 2. Aufl., Wiesbaden. <?page no="409"?> Analyse nonverbaler Daten 409 Kepper, G. (1996): Qualitative Marktforschung: Methoden, Einsatzmöglichkeiten und Beurteilungskriterien, 2. Aufl., Wiesbaden. Klein, H. (2013): Computergestützte Textanalysen mit TextQuest. Eine Einführung in Methoden und Arbeitstechniken, Reihe: Sozialwissenschaftliche Forschungsmethoden, Band 6, München, Mering. Luyens, S. (1995): Coding Verbatims by Computers, in: Marketing Research: A Magazine of Management & Applications, 7(2), 20-25. Mayring, P. (2015): Qualitative Inhaltsanalyse. Grundlagen und Techniken, 12. Aufl., Weinheim. Naderer, G., Balzer, E. (2011) (Hrsg.): Qualitative Marktforschung in Theorie und Praxis, 2. Aufl., Wiesbaden. Salcher, E.F. (1995): Psychologische Marktforschung, 2. Aufl., Berlin u.a. Schub von Bossiatzky, G. (1992): Psychologische Marktforschung. Qualitative Methoden und ihre Anwendung in der Markt-, Produkt- und Kommunikationsforschung, München. <?page no="411"?> TTeeiill 1100: : AAuussggeewwäähhllttee AAnnwweenndduunnggeenn ddeerr MMaarrkkttffoorrsscchhuunngg 11 P Prroodduukkttffoorrsscchhuunngg 11..11 GGeeggeennssttaanndd ddeerr PPrroodduukkttffoorrsscchhuunngg Definition Produktforschung untersucht die Produktleistung und die Warnehmung eines Produkts durch die potenziellen Kunden. Sie unterstützt zum einen die Entwicklung, Positionierung und Vermarktung neuer Produkte, zum anderen die Verbesserung bereits etablierter Produkte. Dauerhafte Wettbewerbsvorteile lassen sich nur dann erzielen, wenn das eigene Leistungsangebot den Bedürfnissen der Konsumenten begegnet. In Anbetracht der hohen Flopraten bei Produktneueinführungen - im Konsumgüterbereich bis zu 80 % - kommt der Produktforschung daher eine zentrale Rolle zu. Eine große Bedeutung hat die Produktforschung im Bereich der Produktentwicklung inne. So lassen sich durch geeignete Verfahren Ideen für Produktinnovationen oder -variationen generieren, welche bestmöglich den Konsumentenbedürfnissen entsprechen. Hierzu werden in zunehmendem Maße Konsumenten in den Produktentwicklungsprozess eingebunden. Die Produktforschung spielt jedoch auch für die Produktbewertung eine zentrale Rolle. Im Rahmen von Produktinnovationen kann sie dazu beitragen, die beste Alternative aus einer Vielzahl von Produktvorschlägen zu identifizieren, die optimale Gestaltung einzelner Produktelemente (Name, Design etc.) herauszufinden, ein Produktkonzept in seiner Gesamtheit zu überprüfen, um dessen Marktchancen beurteilen zu können. Auch bereits auf dem Markt etablierte Produkte erfordern eine regelmäßige Überprüfung. Typische Zielsetzungen sind hier (vgl. Berekoven et al. 2009, S. 152): Ursachenanalyse bei unerwarteten Marktanteilsverlusten, Überprüfung von Produkteigenschaften und Produktimage im Vergleich zu Konkurrenzprodukten, Überprüfung der Anmutung und der Marktchancen eines Produkts bei Veränderung einer oder mehrerer Produkteigenschaften. Je nachdem, ob die Produktleistung oder die Durchsetzungsfähigkeit des Produkts am Markt bewertet werden, wird zwischen Produkttests und Testmarktuntersuchungen unterschieden. Da im Rahmen von Testmarktuntersuchungen auch andere Elemente des Marketingmix getestet werden, werden diese gesondert in Kapitel 2 behandelt. <?page no="412"?> 412 Produktforschung 11..22 PPrroodduukktteennttwwiicckklluunngg Die Entwicklung neuer Produkte oder Produktvarianten kann in vielfältiger Weise durch Marktforschung unterstützt werden. Hierbei werden oftmals auch die - aktuellen oder potenziellen - Kunden in den Innovationsprozess eingebunden. Auf sämtliche Aspekte der Innovationsmarktforschung kann an dieser Stelle nicht eingegangen werden. Im Folgenden sollen nur die folgenden Ansatzpunkte skizziert werden: Kreativitätstechniken, Gruppendiskussionen, Conjointanalyse sowie Online-Produktentwicklung. Der Einsatz von Kreativitätstechniken gehört zu den traditionellen Verfahren der Innovationsforschung. Es existiert ein breites Spektrum an Methoden, welche zur Generierung von Produktideen geeignet sind, z.B. Brainstorming, Brainwriting, Synektik als intuitivkreative Techniken sowie die Morphologische Methode, die Progressive Abstraktion und das Attribute Listing als kombinatorische Verfahren (vgl. die Ausführungen in Teil 9 sowie Schlicksupp et al. 2011). Generell gilt, dass Kreativitätstechniken durch gruppendynamische Effekte und anregende Rahmenbedingungen Blockaden abbauen und innovative Verknüpfungen fördern, wodurch der kreative Prozess unterstützt wird. Die unterschiedlichen Techniken erzielen dabei unterschiedliche Ergebnisqualitäten: Während die Morphologische Methode eher neue Kombinationen bekannter Merkmale erzeugt und damit für Produktvariationen geeignet ist, liefern die Synektik oder die TILMAG-Methode ungewöhnliche, innovative Ansatzpunkte. Im Rahmen von Gruppendiskussionen werden Kunden am Produktentwicklungsprozess beteiligt, indem sie im Rahmen einer Diskussion ihre Bedürfnisse und Produktanforderungen artikulieren. Auf diese Weise können Anregungen für neue Produkte oder für Verbesserungen bestehender Produkte gewonnen werden. Mit Hilfe der Conjointanalyse werden die Präferenzen bzw. Nutzenvorstellungen von Personen bezüglich alternativer Produktkonzepte untersucht. Es handelt sich dabei um ein Verfahren der indirekten Präferenzmessung, d.h. aus Globalurteilen bzgl. der zu bewertenden Produkte wird auf die relative Bedeutung von deren Eigenschaften und Präferenzen bzgl. einzelner Eigenschaftsausprägungen geschlossen. Zudem lässt sich der Preis als Produkteigenschaft ebenfalls einbeziehen, sodass die Methode auch Informationen über die Zahlungsbereitschaft für alternative Produktkonzepte liefert. Neuere Ansatzpunkte für die Produktentwicklung bietet die Online-Marktforschung. Unter den Stichworten „Co-Creation“, „Open Innovation“ und „User Generated Content“ werden verschiedene Ansatzpunkte zur Integration des Kunden in den Innovationsprozess diskutiert (vgl. z.B. Sincovicz et al. 2009; Schroiff 2009; Gable 2010; Sawhney et al. 2005). Die Grundidee besteht darin, das kreative Potenzial der Internetnutzer für den Innovationsprozess zu nutzen. Im Rahmen der sog. Netnography erfolgt eine systematische Analyse von Online-Communities. Die gewonnenen Erkenntnisse werden dann gemeinsam mit Produktentwicklern und Designern in neue Produktkonzepte umgesetzt. Beispielsweise greift Nivea im Bereich Selbstbräunung auf Diskussionsforen im Web zum Thema Bräunung zurück. Dort haben sich insb. Bodybuilder als Lead User herausgestellt (vgl. Bartl 2010, S. 24 f.). Mittels Crowdsourcing wird gezielt das kreative Potenzial <?page no="413"?> Produktentwicklung 413 der Massen mobilisiert, indem Unternehmen im Internet eine Plattform schaffen, auf welcher sich Nutzer austauschen und an einer festgelegten Aufgabenstellung zusammenarbeiten können. Die Ideen werden von der Community bewertet und in vielen Fällen auch vergütet. Beispielsweise können auf der Plattform LEGO Ideas LEGO-Fans ab 13 Jahren Ideen entwickeln, einstellen und die Produktideen anderer Community-Mitglieder bewerten (https: / / ideas.lego.com). Erhält eine Idee innerhalb einer bestimmten Zeit 10.000 Stimmen, wird sie von einer LEGO Jury evaluiert und bei positivem Ausgang in einen neuen Baukasten umgesetzt. Schließlich beinhaltet Co-Creation die Möglichkeit, aktiv an der Produktgestaltung mitzuwirken, wie z.B. Spreadshirt zur Gestaltung und Vermarktung von T-Shirts (www.spreadshirt.de). Auch in der Marktforschungspraxis werden Konsumenten zunehmend in den Innovationsprozess eingebunden; ein Beispiel ist SKOPOS Connect Open Innovation Network (vgl. Abb. 10.1). AAbbbb.. 1100..11: : Ablauf von SKOPOS Connect Open Innovation Network (Quelle: Eigene Darstellung nach https: / / www.skopos-connect.de/ , Abruf vom 28.3.2017) Marktforschungsinstitute bieten zunehmend die Begleitung des gesamten Produktentwicklungsprozesses an - von der Ideenentwicklung bis hin zum Markttest bei Erreichen OOppeenn IInnnnoovvaattiioonn NNeettwwoorrkk 33 CCoo--CCrreeaattiioonn WWoorrkksshhoopp Gemeinsam mit Verbrauchern aus der Insight Community werden neue Produktideen entwickelt 11 IInnssiigghhtt CCoommmmuunniittyy Gewinnung von Insights aus Sozialen Medien, z.B. Verhalten, Vorlieben, Gewohnheiten in der digitalen Community 55 KKoonnzzeepptttteesstt Die Konzepte werden Tests unterzogen; Ergebnis sind 3-5 Konzepte, die marktreif sind und umgesetzt werden können 44 IInnssiigghhtt WWoorrkksshhoopp Mit ausgewählten Mitgliedern der Community und Experten werden aus den Ideen Produktkonzepte. Diese werden bewertet und 22 OOuutt aanndd AAbboouutt Persönliche Gespräche (z.B. Einkaufsbegleitung, Einzel- und Gruppeninterviews) zur Konkretisierung der Insights <?page no="414"?> 414 Produktforschung der Marktreife. Ein Beispiel ist Ipsos InnoQuest, welches in der unten angegebenen Form bis 2017 angeboten wurde. Auch das heutige Produkttest-Spekrum von Ipsos bietet Lösungen für die verschiedenen Produktentwicklungsphasen (www.ipsos.com/ de/ produktforschung). Beispiel 10.1: Ipsos InnoQuest Das modular aufgebaute InnoQuest enthält fünf Tools entlang den einzelnen Phasen des Produktentwicklungsprozesses. Dadurch wird eine ganzheitliche und systematische Betrachtung des Innovationsprozesses ermöglicht: von der frühen Phase der Identifizierung vielversprechender Ideen über die Evaluierung und Optimierung von Produkten bis hin zur Modellierung und Prognose des Absatzvolumens. Die nachfolgende Tabelle enthält eine Kurzbeschreibung der einzelnen Tools. Fuzzy Front End In dieser Phase werden die vielversprechendsten Insights zu noch unbefriedigten Konsumentenbedürfnissen identifiziert und in konkrete Ideen übertragen. Diese werden anschließend evaluiert. Zudem hat das Kundenunternehmen die Möglichkeit, über die Online-Plattform Innoquest Co-creation die eigenen Abnehmer in die Ideenentwicklung einzubeziehen. Konzeptevaluierung Die vielversprechendsten Konzepte werden identifiziert und deren Potenzial wird mit Hilfe konkreter Verbesserungsvorschläge ausgeschöpft. Dabei wird auch das jeweilige Wettbewerbsumfeld in die Analyse eingebunden, um eine realitätsnahe Beurteilung zu gewährleisten. Mix-Optimierung Verschiedene Bausteine ermöglichen es, die eigentliche Produktleistung zu bestimmen und zu steigern, den Preis bzw. die Verpackung zu optimieren sowie Einblicke zu liefern, wie das Produktportfolio optimal gestaltet werden kann. Simulated Market Für die entwickelten Innovationen werden Absatzprognosen für das erste und zweite Jahr auf der Grundlage validierter Verfahren erstellt. Dabei wird eine Schätzgenauigkeit von ± 9% für Neueinführungen und ± 4% für Relaunches erreicht. Tracking Hier wird die Produkt-Performance nach der Markteinführung überwacht. Unternehmen haben schon wenige Monate nach dem Launch die Möglichkeit, Gründe für den Erfolg oder Misserfolg des neuen Produkts aufzudecken. Quelle: http: / / www.ipsos.de/ geschaeftsbereiche/ ipsos-innoquest/ ueber-ipsos-innoquest, Abruf vom 12.1.2017 11..33 PPrroodduukktttteessttss 11..33..11 A Arrtteenn vvoonn PPrroodduukktttteessttss Produkttests werden zur Überprüfung der Produktleistung herangezogen, d.h. es werden die verschiedenen Produkteigenschaften bzw. Produktmerkmale überprüft und optimiert. Sie lassen sich nach verschiedenen Kriterien unterscheiden (vgl. Tab. 10.1). <?page no="415"?> Produkttests 415 TTaabb.. 1100..11: Arten von Produkttests Kriterium Varianten Testumfang Volltest Partialtest Form der Darbietung Blindtest identifizierter Test teilneutralisierter Test Testdauer Kurzzeittest Langzeittest Testort Home-Use-Test (Feldtest) Studiotest (Labortest) Zahl der Testprodukte monadischer Test nichtmonadischer Test Testinhalt Eindruckstest Präferenztest Diskriminanztest Deskriptionstest Evaluationstest Akzeptanztest Allgemein kann ein Produkt als ein Bündel von Merkmalen charakterisiert werden, welche geeignet sind, eines oder mehrere Bedürfnisse von Konsumenten zu befriedigen. Solche Merkmale umfassen neben der Grundfunktion des Produkts weitere Eigenschaften wie Design, Verpackung, Marke, Preis, Handling usw. Der Testumfang bezeichnet das Ausmaß, in welchem Produkteigenschaften getestet werden. Wird das Produkt in seiner Gesamtheit getestet, spricht man von einem Volltest, anderenfalls von einem Partialtest (z.B. Verpackungstest, Namenstest). Nach der Form der Darbietung wird zwischen Blindtest und identifiziertem Test unterschieden. Im Rahmen eines Blindtests werden den Testpersonen Produkte vorgelegt, bei welchen möglichst alle visuellen Elemente (z.B. Markenname, Markenlogo, typische Farben oder Formen) entfernt wurden. Dadurch erhofft man sich eine möglichst objektive Meinung bzgl. der zu testenden Eigenschaften. Blindtests werden im Rahmen sensorischer Produktforschung eingesetzt, insb. für Nahrungsmittel, Alkoholika, Zigaretten u.a. Im Rahmen eines identifizierten Tests werden einer Testperson die Produkte hingegen bewusst in markenüblicher Verpackung unter Offenlegung von Markennamen und Markenlogo vorgelegt. Nicht selten weichen die Ergebnisse eines identifizierten Tests von denen eines Blindtests ab. Daraus wird die Bedeutung des Markenimage für die Produktbeurteilung deutlich. Neben den beiden genannten Testvarianten gibt es noch zahlreiche weitere Versuchsanordnungen, welche zwischen dem Blindtest und dem identifizierten Test anzusiedeln sind. Bei diesen sogenannten teilneutralisierten Tests werden nicht alle, sondern nur einige <?page no="416"?> 416 Produktforschung wenige äußere Merkmale entfernt, um deren Wirkung im Hinblick auf Produktwahrnehmung und -beurteilung zu überprüfen. In diesem Zusammenhang kann unterschieden werden zwischen Substitutionstest und Eliminationstest. Beim Substitutionstest werden einzelne Produktmerkmale sukzessive gegeneinander ausgetauscht, um die Kundenreaktionen auf die einzelnen Merkmale zu überprüfen. Hingegen werden beim Eliminationstest die verschiedenen Produktmerkmale nacheinander verdeckt. Das Produkt wird zunächst im Rahmen eines Volltests überprüft; anschließend werden sukzessive einzelne Produktkomponenten wie Marke, Packung, Preis etc. eliminiert, bis schließlich nur noch das anonymisierte Produkt mit ausschließlichem Grundnutzen verbleibt, d.h. der Test geht in einen Blindtest über. Erhält ein Produkt zu Beginn des Volltests z.B. noch 70% Zustimmung und später ohne Angabe der Marke 50%, so wird die Bedeutung des Markennamens und des Markenimages für die Produktbeurteilung deutlich. Nach der Testdauer kann zwischen Kurzzeittest und Langzeittest unterschieden werden. Kurzzeittests versuchen, durch eine sehr kurze Konfrontation mit einem Produkt bei der Testperson erste Eindrücke zu ermitteln. In der Regel werden Kurzzeittests in einem Studio durchgeführt. Hingegen werden die Testpersonen im Rahmen eines Langzeittests über einen längeren Zeitraum mit dem Produkt konfrontiert. Ziel ist hier nicht die Ermittlung erster spontaner Eindrücke wie beim Kurzzeittest, sondern die Produktbeurteilung nach wiederholtem Gebzw. Verbrauch. Aus diesem Grunde erfolgen Langzeittests typischerweise als Home-Use-Test. Gelegentlich werden Kurz- und Langzeittests im Rahmen eines sog. Doppeltests kombiniert (vgl. Berekoven et al. 2009, S. 153). Nach dem Testort wird zwischen Studiotest und Home-Use-Test unterschieden. Bei einem Studiotest handelt es sich um ein Laborexperiment; die Probanden werden i.d.R. auf der Straße angesprochen und zur Mitarbeit eingeladen. Beliebte Testorte sind zentral gelegene Restaurants, Ausstellungsstände oder eigens dafür ausgestattete Fahrzeuge (Caravan-Test). Typischerweise erfolgt der Test in Form einer mündlichen Befragung oder aber als apparativ gestützte Beobachtung (z.B. Schnellgreifbühne; vgl. die Ausführungen in Abschnitt 2.2 des 4. Teils). Bei einem Home-Use-Test handelt es sich um einen Feldtest. Die Testpersonen nehmen das Testprodukt mit nach Hause (bzw. das Produkt wird ihnen per Post zugeschickt) und können es dort in gewohnter häuslicher Atmosphäre verwenden und bewerten. Die Erhebung erfolgt typischerweise auf der Grundlage eines schriftlichen Fragebogens, welcher den Testpersonen zusammen mit dem Produkt zugesendet wird. Nach Ablauf des Tests schicken die Testpersonen den Fragebogen an das Marktforschungsinstitut zurück. Ein Beispiel ist INNOFACT Home Use Test (https: / / innofact-marktforschung.de/ loesungen/ produktpreis/ home-use-test/ ). Gegenüber dem Studiotest mit einer künstlichen und häufig starren Atmosphäre stellt die häusliche Umgebung beim Home-Use-Test einen entscheidenden Vorteil dar, da die Testergebnisse aufgrund der Feldsituation realitätsnäher ist. Hinzu kommt die hohe Rücklaufquote, die bis zu 90% betragen kann. Nachteilig ist an dieser Testmethode die Tatsache, dass hinsichtlich des Testablaufs wie auch bezüglich des Ausfüllens des Fragebogens keinerlei Kontrollmöglichkeiten gegeben sind. So kann der Einfluss von Familienmitgliedern auf das Urteil des Probanden nicht ausgeschlossen werden; darüber hinaus ist nicht gewährleistet, dass der Fragebogen tatsächlich von der Testperson selbst <?page no="417"?> Produkttests 417 ausgefüllt wird. Hinzu kommt, dass der Forscher nicht nachvollziehen kann, aufgrund welcher Erlebnisse mit dem Produkt die Testpersonen zu ihren Urteilen gekommen sind. Bei einem Studiotest ist die Situation hingegen kontrollierbar, was die interne Validität erhöht, da Störgrößen ausgeschaltet werden können; zudem ist der Zeitaufwand geringer. Tabelle 10.2 zeigt zusammenfassend die Vor- und Nachteile des Home-Use- Tests im Vergleich zum Studiotest. T Taabb.. 1100..22: : Vor und Nachteile des Home-Use-Tests im Vergleich zum Studiotest Vorteile Nachteile höhere Realitätsnähe aufgrund der Feldsituation Stichprobenauswahl i.d.R. repräsentativ auf der Grundlage eines umfangreichen Adressenpools hohe Rücklaufquote zeitaufwändig keine Kontrolle des Testablaufs keine Kontrolle der Fragebogenausfüllung Gebzw. Verbrauch des Produkts nicht beobachtbar keine Kontrolle von Störfaktoren Nach der Zahl der einbezogenen Testprodukte wird zwischen monadischem und nichtmonadischem Test unterschieden. Beim monadischen Test (Einzeltest, Solotest) wird der Testperson ein einziges Produkt (bzw. eine einzige Produktvariante) vorgelegt (vgl. Bauer 1981, S. 29). Der Test kann sowohl als Volltest als auch als Partialtest durchgeführt werden. Im Rahmen dieser Testanordnung hat der Proband keine Vergleichsmöglichkeiten zu anderen Produkten, sondern kann das Testobjekt lediglich anhand seiner Kenntnisse und Erfahrungen beurteilen. Der Einzeltest wird immer dann verwendet, wenn es sich um eine absolute Marktneuheit handelt und somit ein Vergleich mit Konkurrenzprodukten nicht vorgenommen werden kann. Gerade bei innovativen und technisch komplexen Gütern ist tatsächlich oftmals zunächst auch nur eine Variante der Produktneuheit verfügbar, sodass eine vergleichende Testanordnung von vornherein ausgeschlossen ist (vgl. Koppelmann 2001, S. 483). Im Rahmen eines nichtmonadischen Tests (Mehrfachtest, Vergleichstest) werden den Testpersonen mindestens zwei Produkte vorgestellt. Es kann sich dabei entweder um unterschiedliche Varianten desselben Produkts handeln, um festzustellen, welche Eigenschaften bzw. Eigenschaftsausprägungen von den Probanden präferiert werden, oder aber es wird das eigene Produkt gegenüber Konkurrenzprodukten getestet. Der Vergleich kann dabei simultan (paralleler Vergleichstest) oder aber unmittelbar nacheinander (sukzessiver Vergleichstest) erfolgen. Eine Variante stellt der sog. triadische Test dar, bei welchem drei Produkte (zwei davon identisch) im Blindtest getestet werden. Hierdurch kann ermittelt werden, ob sich das eigene Produkt eindeutig von den anderen abhebt. Nach dem Testinhalt wird unterschieden in Eindruckstest, Präferenztest, Diskriminanztest, Deskriptionstest, Evaluationstest und Akzeptanztest. <?page no="418"?> 418 Produktforschung 11..33..22 A Auussggeewwäähhllttee TTeessttaannoorrddnnuunnggeenn ddeerr PPrroodduukkttffoorrsscchhuunngg Im Folgenden sollen ausgewählte Testanordnungen der Produktforschung dargestellt werden: Konzepttests, Produkttests i.e.S. sowie Partialtests. K Koonnzzeepptttteesstt Der Konzepttest (in der Literatur auch als Konzeptionstest bezeichnet) wird zur Überprüfung eines Neuprodukts bzw. einer neuen Produktvariante vor der Realisierung eingesetzt, d.h. mittels eines Konzepttests werden Produktideen überprüft. Bei diesem Testverfahren kommt es darauf an, noch vor der eigentlichen Produktentwicklung zu testen, ob die geplante Gestaltung des Produkts die in sie gesetzten Ziele erfüllt (vgl. Koppelmann 2001, S. 472). Den Testpersonen werden hier nicht konkrete Produkte, sondern Produktideen bzw. Produktentwürfe vorgelegt; die Beurteilung erfolgt daher nicht aufgrund einer unmittelbaren Erfahrung, sondern auf der Basis eines subjektiven Eindrucks bzw. einer subjektiven Vorstellung. Grundlage für Konzepttests sind verbale Umschreibungen des Produkts, Reinzeichnungen (Layouts), computergestützte Abbildungen oder Modelle. Gerade im Internet lassen sich Produkttests auch ohne Vorhandensein eines Prototyps vornehmen, da eine realitätsnahe Darstellung sämtlicher visuell wahrnehmbarer Produkteigenschaften möglich ist. Darüber hinaus kann das Produkt aus allen möglichen Blickwinkeln betrachtet werden - inkl. einer Innenansicht, welche bei vielen realen Produkten ohne eine Produktzerstörung nicht möglich wäre (zu Produkttests im Internet vgl. ausführlich Arndt 2003). Ein weiterer Vorteil computergestützter Tests liegt in der Möglichkeit, innerhalb kürzester Zeit mehrere Konzeptvarianten und Entwürfe zu überprüfen. Eine Korrektur möglicher Konzeptmängel ist z.T. noch während der Erhebung möglich; ein verbessertes Konzept kann unverzüglich wieder am Bildschirm präsentiert und erneut überprüft werden. Je realitätsnäher und umfassender die Computerdarstellung ist, umso näher rückt ein Konzepttest an den Produkttest i.e.S. Eine Überprüfung von Produktkonzepten empfiehlt sich grundsätzlich nicht nur mit potenziellen Käufern, sondern auch mit Absatzhelfern oder Händlern. Dadurch können verschiedene Sichtweisen berücksichtigt und realistischere Einschätzungen über die Marktchancen generiert werden. Die Erhebung erfolgt in Form einer schriftlichen oder mündlichen Befragung, oft auch als Gruppendiskussion. Gerade für Neuproduktideen sind Fokusgruppen eine wichtige Quelle von Verbesserungsvorschlägen (vgl. Kapitel 1 in Teil 9). Aufgrund des frühzeitigen Kundenfeedbacks können Fehlentwicklungen schon vor Beginn der Produktentwicklung korrigiert werden, was spätere kostenintensive Produktmodifikationen vermeiden hilft. Allerdings erlaubt ein Konzepttest noch keinerlei Rückschlüsse auf das spätere Produkterlebnis, d.h. die Ergebnisse sind lediglich vorläufiger Natur. In späteren Phasen des Produktentwicklungsprozesses sind Produkttests i.e.S. erforderlich, um realistische Aussagen bzgl. der Akzeptanz eines Produkts erhalten zu können. <?page no="419"?> Produkttests 419 Beispiel 10.2: INNOFACT Konzepttest Auf der Grundlage einer Online-Befragung liefert das Unternehmen im Rahmen des Konzepttests Antworten auf die folgenden Fragen: Welche Produktidee lässt das höchste Nachfragepotenzial erwarten? (Overall Liking, Kaufbereitschaft) Was spricht den Verbraucher konkret an und wo besteht noch Optimierungsbedarf? (Likes und Dislikes) Als wie neu- und einzigartig wird die Produktidee vom Verbraucher wahrgenommen? Wie werden Produktideen anhand zentraler Eigenschaften beurteilt? (Eigenschaftsprofil) Welcher Name und welches Design entfalten die beste Verbraucheransprache und intendierte Produktwahrnehmung? AAbbbb.. 1100..22: : Der INNOFACT Konzepttest (Quelle: Innofact o.J., o.S.) Der Fragebogen wird für die spezifische Aufgabenstellung entwickelt; für die Erhebung von wesentlichen Kennziffern wie Overall Liking, Buying Intention und Uniqueness wird aber auf standardisierte Fragestellungen zurückgegriffen, um die Testergebnisse in die umfangreiche Benchmark-Datenbank des Unternehmens einzuordnen - zum Teil auch produktgruppenspezifisch. Quelle: innofact o.J. 0 % 20 % 40 % 60 % 80 % 100 % 20 % 40 % 60 % 80 % 100 % -Wert Uniqueness: 63 % -Wert Buying Intention: 56 % UUnniiqquueenneessss ((TToopp 22 BBooxxeess)) BBuuyyiinngg IInntteennttiioonn ((TToopp 22 BBooxxeess)) <?page no="420"?> 420 Produktforschung Andere Konzepttestverfahren gehen weiter und optimieren nicht nur das Produktkonzept, sondern simulieren auch alternative Preis- und Marketingstrategien, z.B. CARES for Concepts von MW Research (www.mwresearch.de/ forschungsgebiete/ konzepttest/ ). Auf Basis einer Conjoint- Analyse werden sämtliche relevante Produktmerkmale und -varianten (Verpackung, Preis…) inkl. Insights, Benefits und Reason-to-Buy’s eingebunden. Diese Merkmale werden im Hinblick auf ihre jeweilige Bedeutung und Gewichtung für die spätere Kaufentscheidung bewertet (zur allgemeinen Methodik der Conjointanalyse vgl. Abschnitt 3.5.1 im 8. Teil). Durch die ganzheitliche Betrachtung und die kaufnahe Entscheidungssituation ermöglicht die Conjointanalyse valide Ergebnisse auch in frühen Phasen des Produktentwicklungsprozesses. P Prroodduukktttteesstt ii..ee..SS.. Ein Produkttest i.e.S. ist eine experimentelle Untersuchung, bei der eine nach bestimmten Kriterien ausgewählte Gruppe von Testpersonen kostenlos zur Verfügung gestellte Produkte ge- oder verbraucht, um anschließend das Produkt als Ganzes bzw. dessen Eigenschaften zu bewerten. Beim Produkttest wird die Produktleistung eines bereits entwickelten Produkts untersucht. Das Produkt muss hier zumindest als Prototyp vorliegen. Bei Marktneuheiten kann mit Hilfe eines Produkttests von den bei den Testpersonen ermittelten Einstellungen, Präferenzen, Kaufabsichten und Produktwahlverhalten auf den vermutlichen Markterfolg geschlossen werden. Bei bereits etablierten Produkten kann hingegen im Rahmen eines Produkttests geprüft werden, ob z.B. ein Absatzrückgang auf mangelhafte Produkteigenschaften oder auf veränderte Marktbedingungen zurückzuführen ist. Im Anschluss an die Analyse kann dann das Produkt markt- und verbrauchergerecht umgestaltet werden. Die Überarbeitung des Produktes kann sich dabei auf folgende Bereiche beziehen: Verschiebung des Stellenwerts der funktionalen und qualitativen Merkmale des Produkts aus Sicht der Kunden, Veränderung der Aufmachung des Produkts, der Anmutung, der Ästhetik und des Symbolwerts, evtl. Entwicklung eines veränderten Produktimages, verbesserte Abstimmung von Produkt und Verpackung. Im Idealfall bieten sich Produkttests als Präventivmaßnahme bereits dann an, wenn sich das Konkurrenzverhalten gravierend geändert hat, jedoch noch keine Absatzeinbußen eingetreten sind. Abzugrenzen ist der Produkttest vom Warentest, bei welchem lediglich objektive Produkteigenschaften bereits am Markt befindlicher Produkte überprüft werden. Es geht dort also nicht um die subjektive Wahrnehmung seitens potenzieller Konsumenten, sondern um eine vergleichende Untersuchung alternativer Marken im Hinblick auf verschiedene Qualitätsmerkmale. Produkttests existieren in verschiedenen Ausprägungen; im Folgenden werden die wichtigsten Formen dargestellt. Im Rahmen des Eindruckstests (Soforttest) wird der erste Eindruck der Testpersonen bei Vorlage des Testprodukts registriert. Der Test kann sehr aufschlussreich sein, wenn das Produkt über Stimuli verfügt, welche beim potenziellen Käufer eine Aktivierung bzw. eine Aufforderung zum Kauf hervorrufen sollen. Hier kann getestet werden, ob diese <?page no="421"?> Produkttests 421 Stimuli tatsächlich in der Lage sind, die gewünschte Wirkung hervorzurufen (vgl. Koppelmann 2001, S. 484). Eindruckstests sind stets Kurzzeittests. Im Allgemeinen werden bei Kurzzeittests apparative Verfahren herangezogen, insb. Tachistoskop und Schnellgreifbühne (vgl. Teil 4). Beim Tachistoskop wird das Produkt für eine sehr kurze Zeit sichtbar gemacht (bis 1/ 1000 s). Aufgrund der sehr kurzen Konfrontation mit dem Testobjekt können Rückschlüsse auf die bei der Testperson entstandenen Eindrücke und ihre unbewussten Reaktionen gewonnen werden. Bei der Schnellgreifbühne wird vom Probanden eine konkrete Entscheidung zwischen mehreren Testobjekten gefordert, welche für eine kurze Zeit (ca. 5 s) dem Probanden sichtbar gemacht werden. Auch hier können Rückschlüsse auf die Anmutung eines Produkts als Ganzes bzw. bestimmter Eigenschaften (z.B. Verpackung) gezogen werden. Im Gegensatz zum Eindruckstest handelt es sich bei den im Folgenden dargestellten Verfahren um Erfahrungstests, bei welchen den Testpersonen das Produkt zum probeweisen Ge- oder Verbrauch überlassen wird. Im Rahmen des Präferenztests soll die Testperson nach probeweisem Ge- oder Verbrauch eines Produkts entscheiden, ob sie das Produkt gegenüber einem oder mehreren Vergleichprodukten vorziehen würde. Zum Vergleich werden entweder alternative Produkte im Test selbst berücksichtigt, oder der Proband soll sich auf das Produkt beziehen, das er üblicherweise kauft. Beim ungerichteten Präferenztest wird lediglich nach dem Vorhandensein einer Präferenz gefragt; beim gerichteten Präferenztest werden zusätzlich das Ausmaß und die Gründe der Präferenz hinterfragt (vgl. Bauer 1981, S. 97). Zur Erfassung von Präferenzen können auch die Conjointanalyse sowie die Multidimensionale Skalierung eingesetzt werden (vgl. die Ausführungen in Abschnitt 3.5 in Teil 8). Beim Diskriminanztest (Diskriminationstest, Unterscheidungstest) wird erhoben, ob die Testpersonen in der Lage sind, zwischen zwei oder mehreren Vergleichsprodukten zu differenzieren. Dies kann das Produkt als Ganzes oder bestimmte Eigenschaften betreffen. Üblicherweise erfolgt der Test dabei als Blindtest. Wie schon beim Präferenztest kann die Testanordnung gerichtet oder ungerichtet sein. Ziel ist die Feststellung, ob eine Testperson objektiv vorhandene Unterschiede zwischen den Testobjekten subjektiv wahrnimmt. Im Rahmen eines Deskriptionstests wird erfasst, welche Produkteigenschaften in welcher Ausprägung bzw. Intensität von den Probanden wahrgenommen werden. Zusätzlich kann nach der Wichtigkeit einzelner Produktmerkmale oder nach der Idealvorstellung bzgl. ausgewählter Merkmale gefragt werden. Beim Deskriptionsratingtest haben die Testpersonen hingegen die Produkte bzgl. der Ausprägung bestimmter vorgegebener Merkmale in eine Rangfolge zu bringen (vgl. Bauer 1981, S. 168). Evaluationstests haben den Zweck festzustellen, wie das Testprodukt als Ganzes oder bzgl. bestimmter relevanter Merkmale von den Testpersonen bewertet wird bzw. welche Preisvorstellungen die Testperson mit dem Testprodukt verbindet. Hierbei lassen sich der qualitätsbezogene und der preisbezogene Evaluationstest unterscheiden. Bei einem qualitätsbezogenen Evaluationstests wird die subjektive Bewertung des Produkts bzw. einzelner Produkteigenschaften untersucht; dabei wird das Testprodukt ggf. mit einem Idealprodukt verglichen. Auch hier kann die Testanordnung gewichtet oder ungewichtet sein. Beim preisbezogenen Evaluationstest werden die Probanden entweder im Rahmen eines Preisschätzungstests dazu aufgefordert, dem Testprodukt einen ihrer Meinung nach angemessenen Preis zuzuordnen, oder sie sollen im Rahmen eines Preisreaktionstests einen <?page no="422"?> 422 Produktforschung vorgegebenen Preis als günstig, angemessen oder teuer beurteilen (zu den verschiedenen Formen von Preistests vgl. ausführlich Kapitel 4 in diesem Teil). Anhand sog. Akzeptanztests soll ermittelt werden, ob bei den Probanden bei Vorlage des Testprodukts eine potenzielle oder sogar eine aktuelle Kaufabsicht besteht. Zusätzlich zur Produktleistung können im Rahmen von Akzeptanztests also erste Rückschlüsse auf künftige Absatzzahlen gewonnen werden. Wie beim Evaluationstest wird auch hier zwischen qualitätsbezogenen und preisbezogenen Akzeptanztests unterschieden. Produktforschung gehört stets zum Portfolio eines Full-Service-Instituts. In der Praxis finden sich zahlreiche Erscheinungsformen von Produkttests, die allesamt ihr eigenes konkretes Ziel verfolgen und meist eine eigene Bezeichnung aufweisen, wenn auch die Versuchsanordnungen zum Teil sehr ähnlich gestaltet sind. Das typische Methodenspektrum von Marktforschungsinstituten im Bereich der Produktforschung umfasst Home-Use-Tests, Studiotests, Gruppendiskussionen, conjointanalytische Verfahren. Gerade die Conjointanalyse hat sich in der praktischen Marktforschung in den letzten Jahren verbreitet, da sie neben der Überprüfung der Produkteigenschaften auch Aussagen über die optimale Preisgestaltung ermöglicht (vgl. ausführlich in Abschnitt 4.4). Hinzu kommt die Möglichkeit der Verknüpfung ganzer Produkttests zu einer Kette von Testanordnungen; als Beispiel einer solchen Kombination soll hier der sog. Doppeltest dienen. Hier wird an die Durchführung eines Kurzzeittests ein Langzeittest gekoppelt. Diese Testfolge wählt man bei der Überprüfung völliger Marktneuheiten, wenn man befürchtet, dass die ersten Eindrücke bei einem Probanden von seinen späteren ausführlicheren Erfahrungen mit dem Produkt deutlich abweichen könnten. Für viele Produkte (z.B. Software) hat sich die Einbindung der Nutzer in Form sog. Beta- Tests etabliert (vgl. Dolan/ Matthews 1993). Nutzer testen eine vorläufige Produktvariante und können entsprechende Anregungen und Verbesserungsvorschläge formulieren, die vor der regulären Markteinführung berücksichtigt werden können. Beispiel 10.3: SKOPOS Produkt-Konfigurator Mit Hilfe des Produkt-Konfigurators können die Testpersonen auf Basis eines ausgewählten Grundmodells interaktiv (Zusatz-) Ausstattungen aussuchen, um sich individuell ihr Wunschprodukt zusammenzustellen. In diesem Prozess verändern sich mit jedem Auswahlverhalten die bisherige Produktkonfiguration und der Gesamtpreis des Produktes. Als Ergebnis erhält man für jeden Probanden ein Idealprodukt, welches Aufschlüsse über die Präferenzen der Zielgruppe wie auch ihre Zahlungsbereitschaft liefert. Methodisch basiert der Test auf einer Conjointanalyse. Das Verfahren hat folgende Vorteile: Geringe Limitierung auf die Anzahl von Merkmalen und Merkmalsalternativen; Berücksichtigung von Interaktionen zwischen Merkmalen auf „natürliche Wiese“, indem die Abhängigkeiten zwischen dem Auswahlverhalten analysiert werden; Unterschiedliche Typen von Merkmalen, wie zum Beispiel Grundausstattungen und notwendige funktionale Merkmale sowie Zusatzausstattungen, werden im Vergleich zueinander betrachtet. Quelle: Skopos o.J.a, S. 6 <?page no="423"?> Produkttests 423 PPaarrttiiaalltteesstt Im Rahmen von Partialtests wird nicht nur die qualitativ-technische Produktleistung überprüft, sondern es werden auch sekundäre Eigenschaften wie Ästhetik, Verpackung, Markennamen oder Handling getestet. Die gebräuchlichsten Varianten von Partialtests sind: Sensorische Tests (Geschmackstest, Dufttest, Klangtest), Namenstest, Packungstest, Handlingtest. Preistests als weitere Form von Partialtests werden hier nicht dargestellt, da sie ausführlich in Kapitel 4 in diesem Teil behandelt werden. In der Lebensmittel- und der Tabakindustrie sind der Geschmacks- und der Dufttest gebräuchlich. Der Geschmackstest befasst sich nicht nur mit dem eigentlichen Geschmack, sondern auch mit Aspekten wie dem Gefühl auf der Zunge und in der Mundhöhle beim Zerbeißen und Herunterschlucken von Esswaren, der Konsistenz von Lebensmitteln und Getränken usw. Der Dufttest findet insb. bei Parfüms, Kosmetika, Lufterfrischern und Tabakwaren statt. Die Problematik von Geschmacks- und Dufttests liegt üblicherweise in der Schwierigkeit, den empfundenen Geschmack oder Duft verbal zum Ausdruck zu bringen. Eine valide Lösung wird z.B. von MW Research angeboten. Beispiel 10.4: SensUp® (MW Research) SensUp® ist ein spezielles Messverfahren zur Wahrnehmung von Sinneseindrücken. Es eignet sich für alle Produkte, die über sinnlich wahrnehmbare Eigenschaften verfügen, deren Ausprägungen mit k